Описна статистика - Сурови и групирани податоци

Г. Сурови и групирани податоци

Еден од главните одлуки при организирање на податоци е: Дали и како да се групираат податоците?

Групирање е деликатна работа и е непосредно поврзано со целта на собирањето на податоците како и со нивниот тип (види ја наредната глава). Целта на групирање на податоци е за полесно да се гледат одликите (т.е. мерките) на податоците.

Како општ принцип: Ако има повеќе од 10 податоци, истите веројатно треба да се групираат на некој начин.

Сурови податоци

Дефиниција: Податоци кои не се групирани се викаат сурови податоци. Секој суров податок е исход на еден член од популацијата.


Податоци се групираат
во категории заедно со нивните честоти f.

  • Категории можат да бидат класи или интервали според типот на податоците.
  • Честота f е бројот на податоци кои припаѓаат во соодветната категорија.
  • Релативна честота  f/N е процент, односно честота f поделена со големината на податоците N, па помножено со 100%.

Групирани податоци

Дефиниција: Податоци организирани во честотна табела се викаат групирани податоци. Сурови бројни податоци можат, но не морат да се групираат. Сите други типови на податоци се групираат!

Негрупирани податоци

Сурови податоци кои не планираме да ги групираме ќе ги викаме негрупирани подадоци. (Негрупирани податоци секогаш се броеви!)


Графичко претставување на негурпирани и групирани податоци

На сосема различен начин се претставуваат негрупирани и групирани податоци!

  • Негрупирани податоци, графички се претставуваат во рамнина и тоа:
    • по х-оската е  „бројот на податокот“, а
    • по у-оската е вредноста на соодветниотсуров податок.
  • Од друга страна, за групирани податоци,
    • по х-оската се категориите (класи или интервали), а  
    • по у-оската се соодветните честоти (или релативни честоти).



Пример Г-1: Резултатите од еден испит на 8 студенти се дадени во следнава табела. Истите да се претставуваат со соодветен дијаграм.

Резултати од испит
95
98
55
21
79
64
88
95

Табела 11: Сурови податоци за резулати

Решение: Бидејќи се само 8 бројни податоци, доста се прегледни без групирање. За негрупирани бројни податоци типично се прават линиски или точкест дијаграм, во зависност дали има редослед или нема. Тука нема редослед па направивме точкест дијаграм. Забележете дека по х-оската е бројот на студентот, а по у-оската е оценката (види Слика 7). Како и во пример В-2, можеме да ги подредиме податоците.

 

Слика 7: Точкест дијаграм на негрупирани податоци заедно со просек

Од друга страна:


Пример Г-2: Резултатите од испит од 100 студенти се зададени во следнава табела. Да се групираат податоците на различни начини.

Резултати од испит
95
30
80
95
62
95
100
85
40
100
4
21
77
100
37
78
90
80
100
77
67
63
50
53
78
95
83
100
90
95
70
95
98
43
13
17
5
48
42
100
68
100
77
75
51
95
95
100
85
40
38
80
95
100
100
100
77
75
20
51
100
85
92
100
6
100
57
95
92
82
97
87
84
95
100
22
80
100
83
93
60
95
72
100
28
100
48
80
85
57
27
100
55
67
53
90
21
92
70
100

Табела 12: Сурови податоци за резултати

Решение: Има 100 податоци. Сега е подобро да се групираат за да бидат прегледни. Но, како?

Во Табели 13 се прикажани три начини на групирање. Во трите, категориите се последователни интервали.

Со буквата f се означува честотата на интервалот, односно колку од податоците припаѓаат во интервалот1.

Забележи дека во првото и второто групирање, интервалите се исти. Меѓутоа, Excel прави „десно“ групирање, т.е. десната граница влегува во интервалот, а Геогебра прави „лево“ групирање, т.е. левата граница влегува во интервалот. Ова се вика „договор за границите“ (endpoint convention) и е многу важно унапред да се кажи кој договор за групирање ќе се користи! Потаму, да забележиме дека во т.н. стебло-и-лист дијаграм се користи „лево“ групирање. Во третото групирањето, интервалите не се со истата должина, односно интервалите се формирани според (нашите лично одредување на) бодовите потребни за соодветни оценки.

За формирање на интервали за групирање детално ќе дискутираме во поглавјето за хистограми.

Excel – Групирање на 10
каде што десната граница  влегува.
(a,b]
f
0
10
3
10
20
3
20
30
6
30
40
4
40
50
5
50
60
8
60
70
7
70
80
14
80
90
12
90
100
38
    Σf=100
Геогебра – Групирање на 10
каде што десната граница  не влегува.
[a,b)
f
0
10
3
10
20
2
20
30
6
30
40
3
40
50
6
30
60
8
60
70
6
70
80
11
80
90
14
90
100
41
    Σf=100
Групирање по „оценка“
 
[a,b]
f
0
49
20
50
59
8
60
69
6
70
79
11
80
89
14
90
100
41
    Σf=100

Табели 13: Три различни групирања на податоците

Целта на прикажување на трите различни групирања е да се види дека групирањето зависи и од тоа што сакаме да покажеме и од користената компјутерска апликација. Забележете дека почетната вредност е 0 во трите дадени групирање. Тоа е нашиот избор. Честопати во литературата се земе минимумот = најмалиот податок како почетната граница (види го наредниот пример Г-3). Во пример Г-2 тоа нема многу смисла бидејќи (а) можно е да се освојат 0 бодови, а тука „се погоди“ намалиот резултат да биде 4 и (б) користењето на опсег-интервал од 4 до 100 е проблематично за „убавото“ поделување на интервалите.

Затоа велеме дека групирање е деликатна работа.

Графичко претставување на бројни податоци групирани во последователни интервали (како што се дадени тука) се прави со т.н. хистограми (види ја и сооветна глава подолу за повеќе детали). Средната табела ќе ја претставиме со два типови на хистограми, односно апсолутна и релативна.

  • Во двата хистограми, соодветните интервали се по х-оската.
  • Во првиот хистограм (види Слика 8), честотите се дадени како броеви и претставуваат број на студентите со таа оценка.
  • Во вториот хистограм (види Слика 9), имаме релативен хистограм каде што се користени релативните честоти, односно се дадени како проценти од 100 податоци.

Двата хистограми ги прикажуваат истите податоци (од Табела 13б), но на различен начин со различна цел.

 

Слика 8: Хистограм (Геогебра)

 
 
Слика 9: Хистограм со проценти, т.е. релативни честоти (Excel)

Пример Г-3: Собрани се следните 40 податоци (види Табела 14). Да се групираат податоците во интервали со должина d=5.

20 22 38 34 34 39 34 26 29 37 34 41 24 33 26 31 27 24 31 39
32 32 43 37 41 40 43 28 36 24 30 31 27 28 36 37 37 22 33 44

Табела 14: Табела со сурови бројни податоци

Решение: Ова е типична задача од почетна статистика секаде во светот. Податоците се штимени2 за стандардно групирање, а или ќе добиете должината d или бројот n на интервалите. (Тука ја добивме должината која е полесната верзија.)

Упаство за одредување на интервали со должина d користејќи најмал/најголем податок:

  • Најде го податокот со најмалата вредност во табелата: mn
    • Таа е левата граница на првиот интервал.
  • Најде го податокот со најголемата вредност во табелата: mx
    • Кога последниот интервал ја „покрива“ оваа вредност, тоа е тоа.
  • Формирај последователни интервали: [mn,mn+d), [mn+d,mn+2d), …, [mn+(n-1)d, mn + nd]
    • Во македонија левата граница e затворена, а секогаш најпрвата и најпоследната се затворени.
    • Кога десниот крај mn + ndmx тоа е последниот интервал.
  • Најди ги соодветните честоти, т.е. изброј ги податоците кои припаѓаат во секој интервал и провери дека се собираат до големината на податоците N.

Одредување на интервалите во примерот: d=5. Најмалата вредност е mn=20; најголемата е mx=44.

Правиме последователни интервали со должина d сè додека не го покриваме послениот податок.

Интервалите се: [20,25),[25,30),[30,35),[35,40),[40,45]

Честотна табела е зададена во Табела 15, a табелата со релативните честоти во Табела 16. (Табела 16 е проширување на Табела1 15.)

[a,b)
f
20
25
6
25
30
7
30
35
12
35
40
9
40
45
6
 
 
Σf=40

Табела 15 : Честотна табела

 
[a,b)
f
f/N
f/N
20
25
6
6/40=0.15
15%
25
30
7
7/40=0.17
17%
30
35
12
12/40=0.30
30%
35
40
9
9/40=0.23
23%
40
45
6
6/40=0.15
15%
 
 
Σf=40
Σ=1
Σ=100%

Табела 16: Комплетна табела

Соодветниот хистограм за Табела 15 е прикажан на Слика 10 . Релативните честоти f/N од Табела 16 се дадени во секторски дијаграм во Слика 11. (Во пример Д-1, уште подетално се објаснува начинот на пресметување на релативните честоти.)

 
Слика 10: Хистограм на групирани податоци
 
Слика 11: Секторски дијаграм

1 За жал се користи буквата f за честота и за математичка функција. (Честота може да се вика и апсолутна честота за да се разликува од релативна честота.)

2 Велиме дека задачата е „штимена“ бидејќи опсегот на податоците е делив (или скоро делив) или со d или со n така да интервалите лесно се определуваат. Фактот дека максимум=44 е помала, но сепак блиску до крајната граница=45 е од штимањето на податоците за да одговара за испитна зададча, т.е. да има само еден начин за решавање. Ова е обичајно. Најважно е интервалите да ги „покриват“ податоците.


Литература

уреди
  1. http://en.wikipedia.org/wiki/Grouped_data

Други референции

уреди