Описна статистика - Сурови и групирани податоци
Г. Сурови и групирани податоци
Еден од главните одлуки при организирање на податоци е: Дали и како да се групираат податоците?
Групирање е деликатна работа и е непосредно поврзано со целта на собирањето на податоците како и со нивниот тип (види ја наредната глава). Целта на групирање на податоци е за полесно да се гледат одликите (т.е. мерките) на податоците.
Како општ принцип: Ако има повеќе од 10 податоци, истите веројатно треба да се групираат на некој начин.
Сурови податоци
Податоци се групираатво категории заедно со нивните честоти f.
- Категории можат да бидат класи или интервали според типот на податоците.
- Честота f е бројот на податоци кои припаѓаат во соодветната категорија.
- Релативна честота f/N е процент, односно честота f поделена со големината на податоците N, па помножено со 100%.
Групирани податоци
Негрупирани податоци
Графичко претставување на негурпирани и групирани податоци
На сосема различен начин се претставуваат негрупирани и групирани податоци!
- Негрупирани податоци, графички се претставуваат во рамнина и тоа:
- по х-оската е „бројот на податокот“, а
- по у-оската е вредноста на соодветниотсуров податок.
- Од друга страна, за групирани податоци,
- по х-оската се категориите (класи или интервали), а
- по у-оската се соодветните честоти (или релативни честоти).
Пример Г-1: Резултатите од еден испит на 8 студенти се дадени во следнава табела. Истите да се претставуваат со соодветен дијаграм.
Резултати од испит
| |||||||
95
|
98
|
55
|
21
|
79
|
64
|
88
|
95
|
Табела 11: Сурови податоци за резулати
Решение: Бидејќи се само 8 бројни податоци, доста се прегледни без групирање. За негрупирани бројни податоци типично се прават линиски или точкест дијаграм, во зависност дали има редослед или нема. Тука нема редослед па направивме точкест дијаграм. Забележете дека по х-оската е бројот на студентот, а по у-оската е оценката (види Слика 7). Како и во пример В-2, можеме да ги подредиме податоците.
Слика 7: Точкест дијаграм на негрупирани податоци заедно со просек
Од друга страна:
Пример Г-2: Резултатите од испит од 100 студенти се зададени во следнава табела. Да се групираат податоците на различни начини.
Резултати од испит
| |||||||||
95
|
30
|
80
|
95
|
62
|
95
|
100
|
85
|
40
|
100
|
4
|
21
|
77
|
100
|
37
|
78
|
90
|
80
|
100
|
77
|
67
|
63
|
50
|
53
|
78
|
95
|
83
|
100
|
90
|
95
|
70
|
95
|
98
|
43
|
13
|
17
|
5
|
48
|
42
|
100
|
68
|
100
|
77
|
75
|
51
|
95
|
95
|
100
|
85
|
40
|
38
|
80
|
95
|
100
|
100
|
100
|
77
|
75
|
20
|
51
|
100
|
85
|
92
|
100
|
6
|
100
|
57
|
95
|
92
|
82
|
97
|
87
|
84
|
95
|
100
|
22
|
80
|
100
|
83
|
93
|
60
|
95
|
72
|
100
|
28
|
100
|
48
|
80
|
85
|
57
|
27
|
100
|
55
|
67
|
53
|
90
|
21
|
92
|
70
|
100
|
Табела 12: Сурови податоци за резултати
Решение: Има 100 податоци. Сега е подобро да се групираат за да бидат прегледни. Но, како?
Во Табели 13 се прикажани три начини на групирање. Во трите, категориите се последователни интервали.
Со буквата f се означува честотата на интервалот, односно колку од податоците припаѓаат во интервалот1.
Забележи дека во првото и второто групирање, интервалите се исти. Меѓутоа, Excel прави „десно“ групирање, т.е. десната граница влегува во интервалот, а Геогебра прави „лево“ групирање, т.е. левата граница влегува во интервалот. Ова се вика „договор за границите“ (endpoint convention) и е многу важно унапред да се кажи кој договор за групирање ќе се користи! Потаму, да забележиме дека во т.н. стебло-и-лист дијаграм се користи „лево“ групирање. Во третото групирањето, интервалите не се со истата должина, односно интервалите се формирани според (нашите лично одредување на) бодовите потребни за соодветни оценки.
За формирање на интервали за групирање детално ќе дискутираме во поглавјето за хистограми.
Excel – Групирање на 10
каде што десната граница влегува.
|
Геогебра – Групирање на 10
каде што десната граница не влегува.
|
Групирање по „оценка“
|
Табели 13: Три различни групирања на податоците
Целта на прикажување на трите различни групирања е да се види дека групирањето зависи и од тоа што сакаме да покажеме и од користената компјутерска апликација. Забележете дека почетната вредност е 0 во трите дадени групирање. Тоа е нашиот избор. Честопати во литературата се земе минимумот = најмалиот податок како почетната граница (види го наредниот пример Г-3). Во пример Г-2 тоа нема многу смисла бидејќи (а) можно е да се освојат 0 бодови, а тука „се погоди“ намалиот резултат да биде 4 и (б) користењето на опсег-интервал од 4 до 100 е проблематично за „убавото“ поделување на интервалите.
Затоа велеме дека групирање е деликатна работа.
Графичко претставување на бројни податоци групирани во последователни интервали (како што се дадени тука) се прави со т.н. хистограми (види ја и сооветна глава подолу за повеќе детали). Средната табела ќе ја претставиме со два типови на хистограми, односно апсолутна и релативна.
- Во двата хистограми, соодветните интервали се по х-оската.
- Во првиот хистограм (види Слика 8), честотите се дадени како броеви и претставуваат број на студентите со таа оценка.
- Во вториот хистограм (види Слика 9), имаме релативен хистограм каде што се користени релативните честоти, односно се дадени како проценти од 100 податоци.
Двата хистограми ги прикажуваат истите податоци (од Табела 13б), но на различен начин со различна цел.
Пример Г-3: Собрани се следните 40 податоци (види Табела 14). Да се групираат податоците во интервали со должина d=5.
20 | 22 | 38 | 34 | 34 | 39 | 34 | 26 | 29 | 37 | 34 | 41 | 24 | 33 | 26 | 31 | 27 | 24 | 31 | 39 |
32 | 32 | 43 | 37 | 41 | 40 | 43 | 28 | 36 | 24 | 30 | 31 | 27 | 28 | 36 | 37 | 37 | 22 | 33 | 44 |
Табела 14: Табела со сурови бројни податоци
Решение: Ова е типична задача од почетна статистика секаде во светот. Податоците се штимени2 за стандардно групирање, а или ќе добиете должината d или бројот n на интервалите. (Тука ја добивме должината која е полесната верзија.)
Упаство за одредување на интервали со должина d користејќи најмал/најголем податок:
- Најде го податокот со најмалата вредност во табелата: mn
- Таа е левата граница на првиот интервал.
- Најде го податокот со најголемата вредност во табелата: mx
- Кога последниот интервал ја „покрива“ оваа вредност, тоа е тоа.
- Формирај последователни интервали: [mn,mn+d), [mn+d,mn+2d), …, [mn+(n-1)d, mn + nd]
- Во македонија левата граница e затворена, а секогаш најпрвата и најпоследната се затворени.
- Кога десниот крај mn + nd ≥ mx тоа е последниот интервал.
- Најди ги соодветните честоти, т.е. изброј ги податоците кои припаѓаат во секој интервал и провери дека се собираат до големината на податоците N.
Одредување на интервалите во примерот: d=5. Најмалата вредност е mn=20; најголемата е mx=44.
Правиме последователни интервали со должина d сè додека не го покриваме послениот податок.
Интервалите се: [20,25),[25,30),[30,35),[35,40),[40,45]
Честотна табела е зададена во Табела 15, a табелата со релативните честоти во Табела 16. (Табела 16 е проширување на Табела1 15.)
Табела 15 : Честотна табела |
Табела 16: Комплетна табела |
Соодветниот хистограм за Табела 15 е прикажан на Слика 10 . Релативните честоти f/N од Табела 16 се дадени во секторски дијаграм во Слика 11. (Во пример Д-1, уште подетално се објаснува начинот на пресметување на релативните честоти.)
1 За жал се користи буквата f за честота и за математичка функција. (Честота може да се вика и апсолутна честота за да се разликува од релативна честота.)
2 Велиме дека задачата е „штимена“ бидејќи опсегот на податоците е делив (или скоро делив) или со d или со n така да интервалите лесно се определуваат. Фактот дека максимум=44 е помала, но сепак блиску до крајната граница=45 е од штимањето на податоците за да одговара за испитна зададча, т.е. да има само еден начин за решавање. Ова е обичајно. Најважно е интервалите да ги „покриват“ податоците.