Описна статистика - Сурови и групирани податоци

Г. Сурови и групирани податоци

Еден од главните одлуки при организирање на податоци е: Дали и како да се групираат податоците?

Групирање е деликатна работа и е непосредно поврзано со целта на собирањето на податоците како и со нивниот тип (види ја наредната глава). Целта на групирање на податоци е за полесно да се гледат одликите (т.е. мерките) на податоците.

Како општ принцип: Ако има повеќе од 10 податоци, истите веројатно треба да се групираат на некој начин.

Сурови податоци

Дефиниција: Податоци кои не се групирани се викаат сурови податоци. Секој суров податок е исход на еден член од популацијата.

Податоци се групираатво категории заедно со нивните честоти f.

Категории можат да бидат класи или интервали според типот на податоците.
Честота f е бројот на податоци кои припаѓаат во соодветната категорија.
Релативна честота f/N е процент, односно честота f поделена со големината на податоците N, па помножено со 100%.

Групирани податоци

Дефиниција: Податоци организирани во честотна табела се викаат групирани податоци. Сурови бројни податоци можат, но не морат да се групираат. Сите други типови на податоци се групираат!

Негрупирани податоци

Сурови податоци кои не планираме да ги групираме ќе ги викаме негрупирани подадоци. (Негрупирани податоци секогаш се броеви!)

Графичко претставување на негурпирани и групирани податоци

На сосема различен начин се претставуваат негрупирани и групирани податоци!

Негрупирани податоци, графички се претставуваат во рамнина и тоа:
- по х-оската е „бројот на податокот“, а
- по у-оската е вредноста на соодветниотсуров податок.
Од друга страна, за групирани податоци,
- по х-оската се категориите (класи или интервали), а
- по у-оската се соодветните честоти (или релативни честоти).

Пример Г-1: Резултатите од еден испит на 8 студенти се дадени во следнава табела. Истите да се претставуваат со соодветен дијаграм.

Резултати од испит
95	98	55	21	79	64	88	95

Табела 11: Сурови податоци за резулати

Решение: Бидејќи се само 8 бројни податоци, доста се прегледни без групирање. За негрупирани бројни податоци типично се прават линиски или точкест дијаграм, во зависност дали има редослед или нема. Тука нема редослед па направивме точкест дијаграм. Забележете дека по х-оската е бројот на студентот, а по у-оската е оценката (види Слика 7). Како и во пример В-2, можеме да ги подредиме податоците.

Слика 7: Точкест дијаграм на негрупирани податоци заедно со просек

Од друга страна:

Пример Г-2: Резултатите од испит од 100 студенти се зададени во следнава табела. Да се групираат податоците на различни начини.

Резултати од испит
95	30	80	95	62	95	100	85	40	100
4	21	77	100	37	78	90	80	100	77
67	63	50	53	78	95	83	100	90	95
70	95	98	43	13	17	5	48	42	100
68	100	77	75	51	95	95	100	85	40
38	80	95	100	100	100	77	75	20	51
100	85	92	100	6	100	57	95	92	82
97	87	84	95	100	22	80	100	83	93
60	95	72	100	28	100	48	80	85	57
27	100	55	67	53	90	21	92	70	100

Табела 12: Сурови податоци за резултати

Решение: Има 100 податоци. Сега е подобро да се групираат за да бидат прегледни. Но, како?

Во Табели 13 се прикажани три начини на групирање. Во трите, категориите се последователни интервали.

Со буквата f се означува честотата на интервалот, односно колку од податоците припаѓаат во интервалот¹.

Забележи дека во првото и второто групирање, интервалите се исти. Меѓутоа, Excel прави „десно“ групирање, т.е. десната граница влегува во интервалот, а Геогебра прави „лево“ групирање, т.е. левата граница влегува во интервалот. Ова се вика „договор за границите“ (endpoint convention) и е многу важно унапред да се кажи кој договор за групирање ќе се користи! Потаму, да забележиме дека во т.н. стебло-и-лист дијаграм се користи „лево“ групирање. Во третото групирањето, интервалите не се со истата должина, односно интервалите се формирани според (нашите лично одредување на) бодовите потребни за соодветни оценки.

За формирање на интервали за групирање детално ќе дискутираме во поглавјето за хистограми.

Excel – Групирање на 10
каде што десната граница влегува.

(a,b]		f
0	10	3
10	20	3
20	30	6
30	40	4
40	50	5
50	60	8
60	70	7
70	80	14
80	90	12
90	100	38
		Σf=100

Геогебра – Групирање на 10
каде што десната граница не влегува.

[a,b)		f
0	10	3
10	20	2
20	30	6
30	40	3
40	50	6
30	60	8
60	70	6
70	80	11
80	90	14
90	100	41
		Σf=100

Групирање по „оценка“

[a,b]		f
0	49	20
50	59	8
60	69	6
70	79	11
80	89	14
90	100	41
		Σf=100

Табели 13: Три различни групирања на податоците

Целта на прикажување на трите различни групирања е да се види дека групирањето зависи и од тоа што сакаме да покажеме и од користената компјутерска апликација. Забележете дека почетната вредност е 0 во трите дадени групирање. Тоа е нашиот избор. Честопати во литературата се земе минимумот = најмалиот податок како почетната граница (види го наредниот пример Г-3). Во пример Г-2 тоа нема многу смисла бидејќи (а) можно е да се освојат 0 бодови, а тука „се погоди“ намалиот резултат да биде 4 и (б) користењето на опсег-интервал од 4 до 100 е проблематично за „убавото“ поделување на интервалите.

Затоа велеме дека групирање е деликатна работа.

Графичко претставување на бројни податоци групирани во последователни интервали (како што се дадени тука) се прави со т.н. хистограми (види ја и сооветна глава подолу за повеќе детали). Средната табела ќе ја претставиме со два типови на хистограми, односно апсолутна и релативна.

Во двата хистограми, соодветните интервали се по х-оската.
Во првиот хистограм (види Слика 8), честотите се дадени како броеви и претставуваат број на студентите со таа оценка.
Во вториот хистограм (види Слика 9), имаме релативен хистограм каде што се користени релативните честоти, односно се дадени како проценти од 100 податоци.

Двата хистограми ги прикажуваат истите податоци (од Табела 13б), но на различен начин со различна цел.

Слика 8: Хистограм (Геогебра)

Слика 9: Хистограм со проценти, т.е. релативни честоти (Excel)

Пример Г-3: Собрани се следните 40 податоци (види Табела 14). Да се групираат податоците во интервали со должина d=5.

20	22	38	34	34	39	34	26	29	37	34	41	24	33	26	31	27	24	31	39
32	32	43	37	41	40	43	28	36	24	30	31	27	28	36	37	37	22	33	44

Табела 14: Табела со сурови бројни податоци

Решение: Ова е типична задача од почетна статистика секаде во светот. Податоците се штимени² за стандардно групирање, а или ќе добиете должината d или бројот n на интервалите. (Тука ја добивме должината која е полесната верзија.)

Упаство за одредување на интервали со должина d користејќи најмал/најголем податок:

Најде го податокот со најмалата вредност во табелата: mn
- Таа е левата граница на првиот интервал.
Најде го податокот со најголемата вредност во табелата: mx
- Кога последниот интервал ја „покрива“ оваа вредност, тоа е тоа.
Формирај последователни интервали: [mn,mn+d), [mn+d,mn+2d), …, [mn+(n-1)d, mn + nd]
- Во македонија левата граница e затворена, а секогаш најпрвата и најпоследната се затворени.
- Кога десниот крај mn + nd ≥ mx тоа е последниот интервал.
Најди ги соодветните честоти, т.е. изброј ги податоците кои припаѓаат во секој интервал и провери дека се собираат до големината на податоците N.

Одредување на интервалите во примерот: d=5. Најмалата вредност е mn=20; најголемата е mx=44.

Правиме последователни интервали со должина d сè додека не го покриваме послениот податок.

Интервалите се: [20,25),[25,30),[30,35),[35,40),[40,45]

Честотна табела е зададена во Табела 15, a табелата со релативните честоти во Табела 16. (Табела 16 е проширување на Табела1 15.)

[a,b)		f
20	25	6
25	30	7
30	35	12
35	40	9
40	45	6
		Σf=40

Табела 15 : Честотна табела

[a,b)		f	f/N	*f/N*
20	25	6	6/40=0.15	15%
25	30	7	7/40=0.17	17%
30	35	12	12/40=0.30	30%
35	40	9	9/40=0.23	23%
40	45	6	6/40=0.15	15%
		Σf=40	Σ=1	Σ=100%

Табела 16: Комплетна табела

Соодветниот хистограм за Табела 15 е прикажан на Слика 10 . Релативните честоти f/N од Табела 16 се дадени во секторски дијаграм во Слика 11. (Во пример Д-1, уште подетално се објаснува начинот на пресметување на релативните честоти.)

Слика 10: Хистограм на групирани податоци

Слика 11: Секторски дијаграм

¹ За жал се користи буквата f за честота и за математичка функција. (Честота може да се вика и апсолутна честота за да се разликува од релативна честота.)

² Велиме дека задачата е „штимена“ бидејќи опсегот на податоците е делив (или скоро делив) или со d или со n така да интервалите лесно се определуваат. Фактот дека максимум=44 е помала, но сепак блиску до крајната граница=45 е од штимањето на податоците за да одговара за испитна зададча, т.е. да има само еден начин за решавање. Ова е обичајно. Најважно е интервалите да ги „покриват“ податоците.

Литература

http://en.wikipedia.org/wiki/Grouped_data