Описна статистика - Типови податоци

Д. Типови на податоци и нивно групирање

Има четири трипови на податоци1.


 
Слика 12: Тип со соодветен начин на групирање на податоци

 

Номинални податоци

Тука обележијето е чисто квалитативно. Можните исходи се зборови-имиња и истите се самите категории, односно класи при групирање.  Со вакви податоци не можеме да правиме никакви математички операции.

Важно: Номинални податоци секогаш се групираат.



Пример Д-1: Анкетирани се 80 луѓе за нивниот омилен десерт (види Табела 17).

Анкета „Кој ти е омилен десерт?“
С
С
Д
П
Т
С
С
Д
Т
П
Т
Д
П
С
С
С
П
О
О
Д
П
П
О
С
С
П
Т
С
П
Т
Т
Т
С
Т
С
С
Т
П
П
П
Т
Т
С
С
С
П
Т
Т
С
Т
П
Д
С
П
С
С
С
Т
П
Т
Т
Т
С
С
Т
С
Т
С
П
П
Д
С
Д
О
Д
П
С
П
С
П
Легенда
C=Сладолед
П=Палачинки
Т=Торта
О=Овошје
Д=Друго

Табела 17: Резултати од анкета

Решение: Обележјето е „омилен десерт“ и можните исходи тука се {С, П, Т, О, Д}, односно {Сладолед, Палачинки, Торта, Овошје, Друго}.  Јасно е дека се имиња. Тие се и самите класи при групирање.  Значи, податоците се номинални и треба да се групираат по класи = имиња на десерт. Ја најдеме честотата на секој тип на десерт (проверувајќи дека честотите се собираат до N=80). Во Табела 18 е соодветната честотна табела.

Класа
Сладолед
Палачинки
Торта
Овошје
Друго
Проверка
Честота f
28
20
20
4
8
Σf=80=N

Табела 18: Номинални податоци – организирани за обработка во честотна табела

Ги претставиме овие податоци со столбест дијаграм (види Слика 13).

 
Слика 13: Столбест дијаграм за анкетата за омилен десерт

Класите тука се имиња и не може математички да се работат ништо со нив. Меѓутоа, честотите се броеви и може да се пресмета процентот кој припаѓа во секоја класа, односно да се преметат т.н. релативни честоти.


Релативна честота = процент = f/N

Ја делиме честотата со вкупниот број на честотите, т.е. со големината на податоци N. Потоа, овој резултат го помножиме со 100% за да добиме процент.


Во пример Д-1, вкупниот број на честотите е N=80. Ја делиме секоја честота со N=80 за да ја добиеме релативна честотна табела (види Табела 19 ).
Симболот за честота е f, а симболот за релативна честота е f/N.

Класа
честота f
Релативна честота f/N(број)
Релативна честота f/N %
Сладолед
28
2880=0.35
0.35•100%=35%
Палачинки
20
2080=0.25
0.25•100%=25%
Торта
20
2280=0.25
0.25•100%=25%
Овошје
4
280=0.05
0.05•100%=5%
Друго
8
880=0.1
0.1•100%=10%
Проверка
Σf=80=N
Σf/N =1
Σf/N =100%

Табела 19: Релативна честотна табела

Релативна честотна табела може графички да се претстави со столбест или со секторски дијаграм како во Слика 16 и Слика 17. Забележете ги разликите помеѓу двата столбест дијаграми Слика 13 и Слика 16.  Секторски дијаграм секогаш е релативна!


 
Слика 14: Столбест дијаграм со релативни честоти
 
Слика 15: Секторски дијаграм


Ординални податоци

Како кај номинални податоци, обележијето на ординални податоци е чисто квалитативно, но се броеви-имиња. На пример „број на чевел“ или „година производство“ се ординални податоци. Нема смисла да се прави математика со нив. Меѓутоа, кај вакви податоци природно е класите да се подредат последователни по нивната вредност. Со ова ординални податоци се разликуваат од „чисти“ номинални податоци, каде што редоследот на класите е нашиот избор. Меѓутоа, тоа е единствената разлика. На истиот начин се обработуваат, т.е. со групирање со честоти или релативни честоти и со исти дијаграми графички се претставуваат (столбест и секторски).

Важно: Ординални податоци секогаш се групираат.



Пример Д-2: На ден 20.02.2002 во една фабрика за чевли, производството на парови на машки чевли е опишано во Табела 20. Да се направи соодветна релативна честотна табела и соодветни столбест дијаграми за дадената и направената табела.

Производство на парови машки чевли – 20.02.2002
Број на чевел
40
41
42
43
44
45
46
47
Број на парови
2
7
8
15
15
10
4
2

Табела 20: Групирани ординални податоци

Решение: Обележјето е „број на чевел“, податоци се броеви и можните исходи, односно класите се {40,41,42,43,44,45,46,47}.  Податоците се од тип ординални, т.е. има смисла да ги редиме класите по број на чевел, но нема смисла да се собираат два броеви на чевли или да се бара нивна аритметичка средина. Графичко претставување е со столбест дијаграм. Можевме и секторски, но многу сектори ќе бидат и нема да биде многу прегледно. Затоа, даваме стандарден столбест дијаграм (Слика 16 ) со апсолутните честоти (број парови) и релативен столбест дијаграм (Слика 17) со релативни честоти (проценти).

Производство на парови машки чевли – 20.02.2002
Број на чевел
40
41
42
43
44
45
46
47
Број на парови
2
7
8
15
15
10
4
2
 

Слика 16 : Столбест дијаграм со честоти

 

Слика 17 : Релативен столбест дијаграм (со проценти)

Коментар од статистиката: Забележете дека во релативнен столбест дијаграм не се знае колку е големината на податоците N, т.е. во овој пример не се знае колку парови биле производени.

Бројни-класи податоци

Како пример за бројни-класи податоци се ученички оценки (види подолу пример Д-3). Тука податоците имаат две важни особини:

  • Податоците се вистински броеви, т.е. броеви за кои има смисла да правиме одредени бројни операции - на пример да се бара аритметичка средина (просек).
  • Различните броеви во податоците се малку според бројот на податоците (значи податоците се повторуваат повеќепати).

Со тоа самите броеви се сметаат за класи при групирање.  



Пример Д-3: Оценките по историја на 35 ученици во еден клас се дадени во Табела 21. За истите да се направи соодветен дијаграм.

Оценки по историја на 35 ученици
4
5
2
2
4
2
5
5
5
5
1
3
5
4
3
3
5
5
5
4
5
5
5
2
5
5
2
2
5
5
5
3
2
1
4
 
 
 
 
 

Табела 21: Сурови податоци од тип бројни-класи

Решение: Обележијето е оценка, а можните исходи се: { 1, 2, 3, 4, 5}.  

  • Има смисла да правиме одредени математички операции со оценки.
  • Има само 5 различни броеви, а има 35 податоци.

Јасно е дека честотите се барат броејќи „Колку 5-ки?“, „Колку 4-ки?“,... . Значи броевите се самите класи (види Табела 22 и Табела 23 ).

Оценки по историја на 35 ученици
Оценка
1
2
3
4
5
Број на ученици 
2
7
4
5
17

Табела 22: Групирани податоци по бројна-класа

k
1
2
3
4
5
 
f
2
7
4
5
17
Σf=35

Табела 23: Соодветна честотна табела


Од друга страна, класите се броеви и има смисла да се прават одредени математички операции со нив, т.е. на пример можеме да бараме „просечната оценка“.
Прашање за мислење: Како би се пресметала просечната оценка?

Вакви податоци можат да се претстават со столбест дијаграм (види Слика 18) или со секторски дијаграм (види Слика 19).

 

Слика 18: Столбест дијаграм
на бројни-класи податоци
 

 

Слика 19: Секторски дијаграм
на бројни-класи податоци

Важно: Со групирање на номинални, ординални или бројни-класи податоци, никакви информации не се губат. Ова не важи при бројни податоци!




Дијаграми со столбови – Столбест дијаграм или Хистограм?

  • столбест дијаграм
    • има празини помеѓу столбови
    • категориите се класи
    • вертикални или хоризонтални столбови со честоти (или релативни честоти)
    • Слика 20

 

Слика 20: Столбест дијаграм за класи

  • хистограм
    • нема празинипомеѓу столбови
    • категориите се интервали
    • вертикални  столбови со честоти (или релативни честоти)
    • Слика 21

 

Слика 21: Хистограм (со интервали)

Бројни податоци

Тука можните исходи се разно-разни броеви. Ова значи дека има повеќе од 10 податоци со повеќе од 10 различни вредности. Можат да се повторуваат податоците, но повеќето се различни. Такви обично ги прогласиме за бројни2, а не бројни-класи, бидејќи вакви податоци најчесто се групираат во интервали.

Упатство за групирање на бројни податоци во еднакводолжни интервали

  • Го најдеме опсег-интервалот [mn,mx] каде што mn=минимум= најмалиот податок, а  mx=максимум=најголемиот податок.
  • Решиме на колку интервали nсакаме да ги поделиме податоците; nе цел број.
  • Го одредиме главниот интервал [A,B] што
    • го содржи опсег-интервалот, т.е Amn и Bmx.
    • „одговара“ на податоците, односно е делив со nна „убав“ начин.
  • Ја делиме должината на главниот интервал [A,B] со n за да се добиваме d.
    •  , d=должината на интервалите, n=број на интервалите
  • Ги одредиме последователи интервали така да првиот интервал почнува со A, а последниот завршува со B , односно [A,A+d), [A+d, A+2d), … , [B-d,B] (види ги примерите подолу и во наредниот дел).
  • Од податоците ги одредување честоти на интервалите, броејќи колку податоци припаѓаат во секој интервал.
  • Графички се претставуваат интервалите со хистограм.

Забелешки:

  • Со групирање на бројни податоци во интервали, точните вредности на поедничните податоци се губат и само ја гледаме неговата припадност. Со неколку примери ова ќе ви стане појасно.
  • Како што видовме во ова поедноставно упатство, доста пати се штимени задачите така да A=mn.
  • Бидејќи се работи за броеви, има многу можности за нивна обработка и пред и после групирање (просеци и отстапувања).



Пример Д-4: Генерирани се 100 броеви помеѓу 0 и 1 на случаен начин во Геогебра со random() и заокружени се на три децимали (види Табела 24). Истите да се поделат на 5 и на 10 интервали и да се дадаат соодветните хистограми.

 
A
B
C
D
E
F
G
H
I
J
1
0.456
0.241
0.133
0.472
0.336
0.151
0.483
0.686
0.625
0.979
2
0.700
0.044
0.718
0.752
0.917
0.948
0.347
0.128
0.938
0.220
3
0.350
0.380
0.237
0.912
0.962
0.646
0.648
0.368
0.018
0.041
4
0.115
0.753
0.433
0.034
0.391
0.828
0.577
0.993
0.989
0.369
5
0.985
0.876
0.976
0.500
0.932
0.873
0.468
0.140
0.970
0.188
6
0.772
0.962
0.497
0.287
0.192
0.496
0.767
0.657
0.432
0.504
7
0.543
0.531
0.396
0.329
0.757
0.098
0.921
0.720
0.128
0.429
8
0.667
0.497
0.684
0.719
0.928
0.566
0.523
0.484
0.618
0.959
9
0.946
0.020
0.059
0.011
0.318
0.792
0.489
0.299
0.615
0.404
10
0.398
0.687
0.627
0.443
0.892
0.662
0.249
0.848
0.312
0.179

Табела 24 : Сурови бројни податоци

Решение: Што забележиме во овој пример?

  1. Исходите се децимални броеви со три децимали помеѓу 0 и 1.
  2. Минималниот можен исход е 0, а максимален можен исход е 1.
  3. Меѓутоа, во овие 100 податоци, минималниот податок е mn=0.011 (се наоѓа во D9), а максималниот податок e mx=0.993 (се наоѓа во H4), т.е.опсег-интервалот на овие податоци е [0.111, 0.993].
  4. Поради тоа што се групираат податоци во интервали, се бара хистограм.
  5. Иако тоа не го правиме тука, можеме да ги користиме сите математички операции на потадоците и тоа пред групирање или по двата начини на групиање.

Гледајќи ја точка 2 погоре, би требало да ни е јасно дека најдобро е да го гледаме главниот интервал како [0,1], а не [0.111, 0.993] и тоа за неколку причини:

  • Интервалот  [0,1] e „убав“, т.е. лесно се поделува во подинтервалите потребни за честотната табела. Опсег-интервалот [0.111, 0.993] нема добри одлики за поделба.
  • Овие податоци се резултат од експеримент, па веројатно ќе сакаме да го повториме. Интервалот [0,1] одговара за секое изведување на експериментот, т.е. ги содржува сите можни податоци и на ваков начин ќе можеме да ги споредиме резултатите.

Значи, главниот интервал го земеме [0,1]. Во Табела 25 дадени се две групирања една со n=5 интервали и една со n=10 интервали користејќи го  „левиот договор за границите“ (left endpoint convention).

[a.b)
f
0
0.2
17
0.2
0.4
18
0.4
0.6
21
0.6
0.8
22
0.8
1
22
 
Σf=100
[a.b)
f
0
0.1
8
0.1
0.2
9
0.2
0.3
6
0.3
0.4
12
0.4
0.5
14
0.5
0.6
7
0.6
0.7
12
0.7
0.8
10
0.8
0.9
5
0.9
1.0
1
 
 
Σf=100

Табела 25 : Групирање на бројни податоци во 5 интервали (лево) и во 10 интервали (десно)

Графичко претставување на групираните податоци со соодветните релативни хистограми е дадени во Слика 22 и Слика 23 . Посебно не ги направивме релативни честотни табели бидејќи се работи за 100 податоци (значи честотите се и сами „релативни“3).

 
Слика 22: Хистограм со 5 интервали
 
Слика 23: Хистограм со 10 интервали

Од статистична гледна точка, повеќе информации се изгубени при групирање на 5 од со групирање на 10 интервали.

Забелешки во однос на груприање:

  • Целта на групирањето е да ни помага да бидат прегледни податоците.
  • Најважно е бројот на интервалите да не бидe преголем, односно
    • да има барем еден податок во скоро секој интервал, а
    • барем еден податок во почетниот и крајниот интервал (за да има смисла групирањето).
  • Од друга страна е важно бројот на интервалите да не биде премал, бидејќи со секоја намалување на бројот на интервалите се губи информации.



1 Во напредна статистика типовите со поделуваат: номинални, ординални, интервални и односни. Меѓутоа, таква поделба не ни помага многу во описна статистика.

2 Велиме „прогласиме“ бидејќи сепак зависи од ситуатцијата. При огромен број на податоци како на пример резултатите од TOFEL испит за познавање на англиски јазик на нивото на светот, каде што сепак сите резулати се од броевите 1,2,...,100, истите можат да се сметаат за бројни-класи.

3 Ова значи дека податоците би требало да бидат распределени релативно униформно (равномерно) низ интервалот [0,1]. Меѓутоа, тука се само 100 броеви така да нема да биде „многу“ рамномерно. Треба многу, многу, многу податоци за рамномерно. (Соодветната команда во Еxcel е Rand().) 


Литература

уреди
  1. http://en.wikipedia.org/wiki/Grouped_data
  2. Bar Charts and Histograms
  3. Bar Charts and Histograms

Други референции

уреди