Проверка во облик на распределба
Хи-квадратната проверка во облик на распределба[1][2][3][4][5] спаѓа во групата на непараметарските проверки. Оваа проверка е една од постарите статистички проверки. го разработил Карл Пирсон (Karl Pearson) во почетокот на овој век.
За што се користи и каде се применува проверката во облик на распределба?
уреди-проверката во облик на распределба се применува за проверка на хипотезата за распределбаta на основното множество т.е. тогаш кога сакаме да утврдиме дали емпириските честоти ( ) отстапуваат од честотите кои ги очекуваме според одредена хипотеза (теоретски, очекувани)[6] ( )
Најпроста хипотеза е за рамномерната распределба (иста честота за сите модалитети – варијанти). Така на пример, очекуваме, подеднакво учество на лицата со високо, више, средно и ниже стручно образование во масата на вработени лица во Р Македонија. Со хипотезата треба да се специфира очекуваната распределба (биномна, рамномерна, нормална или некоја друга), а проверката треба да покаже дали емпириската распределба на примерокот значајно се разликува од хипотетичниот (очекуваниот, теоретскиот).
Можеме да претпоставиме дека некоја теоретска распределба добро ја опишува очекуваната честота. За проверување на оваа претпоставка (хипотеза), го применуваме оваа проверка.
Веќе во почетокот треба да се нагласи дека хи-квадратната проверка во облик на распределба се применува само со честоти, па не е дозволено да се внесуваат никакви мерни единици. Основните податоци на истражувањата можат да бидат мерни вредности, но во хи-квадрат се внесуваат само нивните честоти.
Резултатите добиени во примерокот не секогаш се совпаѓаат со теоретските резултати кои се очекуваат според правилата на веројатноста.
Пример: Иако според теоријата очекуваме кога фрлиме метална пара 100 пати да добиеме 50 пати „глава“ и 50 пати „писмо“, ретко кога се добива ваков резултат.
Пресметување на реализираната вредност на
уредиЧесто сакаме да знаеме дали емпириските честоти значајно се разликуваат очекуваните честоти.
Таа разлика се пресметува според следната формула:
При што:
- реализирана вредност на проверката
-емпириски честоти
-теоретски(очекувани) честоти т.е. честоти кои би ги очекувале под некоја одредена хипотеза
Израз еквивалентен на горенаведената формула е следниот:
∑ = ∑ = - вкупна честота
Број на степени на слобода
уредиБројот на степени на слобода ( ) е дефиниран како бројот на независните променливи вклучени во пресметувањето на хи-квадрат. Го наоѓаме на следниот начин:
-број на набљудувани модалитети
-број на параметри којшто мора да се оцени за да може да се одредат очекуваните честоти
Кога имаме само една променлива со една низа на резултати, бројот на степени на слобода се пресметува според формулата:
Поставување нулта хипотеза
уредиАко сакаме да ја провереме хипотезата дека емпириската распределба следи некоја теоретска распределба, најпрво ги пресметуваме теоретските честоти ( ). Емпириските честоти, секако, отстапуваат од теоретските, а ние сакаме да донесеме одлука, дали тоа отстапување можеме да го препишеме на случајот.
Нулта хипотеза е:„ Емпириската распределба ја следи теоретската распределба“. Нултата хипотеза е хипотезата која ја проверуваме и ја означуваме со за H0. Таа се искажува како недостаток за различност. Нултата хипотеза се отфрла ако проерката на значајнот покаже дека податоците се недоследни со нултата хипотеза.
Пресметување на критичната вредност на
уредиКритичната вредност е вредност на проверката за која нултата хипотеза се отфрла. Таа е дефинирана со нивото на значајност и бројот на степени на слобода. Нејзината вредност се гледа во таблицата на хи-квадрат распределбата, од која во продлжение е прикажан дел со 10 степени на слобода, а во оригиналната таблица на критични вредност се содржани 100 степени на слобода.
- критична вредност
Таблица на критични вредности на распределба:
1 | 0.98 | 0.95 | 0.1 | 0.005 | 0.025 | 0.01 | 0.005 | |
---|---|---|---|---|---|---|---|---|
1 | 0.000 | 0.001 | 0.004 | 2.706 | 3.841 | 5.024 | 6.635 | 7.789 |
2 | 0.010 | 0.051 | 0.103 | 4.605 | 5.991 | 7.378 | 9.210 | 10.597 |
3 | 0.072 | 0.216 | 0.352 | 6.251 | 7.815 | 9.348 | 11.345 | 12.838 |
4 | 0.207 | 0.484 | 0.711 | 7.779 | 9.488 | 11.143 | 13.277 | 14.860 |
5 | 0.412 | 0.831 | 1.145 | 9.236 | 11.070 | 12.832 | 15.086 | 16.750 |
6 | 0.676 | 1.237 | 1.635 | 10.645 | 12.592 | 14.449 | 16.812 | 18.548 |
7 | 0.989 | 1.690 | 2.167 | 12.017 | 14.067 | 16.013 | 18.475 | 20.278 |
8 | 1.344 | 2.180 | 2.733 | 13.362 | 15.507 | 17.535 | 20.090 | 21.955 |
9 | 1.735 | 2.700 | 3.325 | 14.684 | 16.919 | 19.023 | 21.666 | 23.589 |
10 | 2.156 | 3.247 | 3.940 | 15.987 | 18.307 | 20.483 | 23.209 | 25.188 |
Таблицата на критичните вредности хи-квадрат покажува до која вредност ( со одреден број степени на слобода ) сметаме дека хи-квадрат е сè уште доволно висок, за да можеме да ја отфрлиме хипотезата, односно, колку најмалку мора да изнесува хи-квадрат па да можеме да ја отфрлиме хипотезата.
Значајноста на проверката( ) е веројатност на отфрлање на нултата хипотеза, кога е вистинита, т.е. веројатноста дека разгледуваните податоци се поекстремни од вистинските резултати кога нултата хипотеза е вистинита. Значајноста на проверката не е веројатност дека нултата хипотеза е невистинита.
Област на прифаќање или отфрлање на нулта хипотеза
уредиЗа да утврдиме дали се прифаќа или отфрла нултата хипотеза, ги споредуваме реализираната вредност на хи-квадрат распределбата и нејзината критична вредност, при што ако:
1. Реализираната вредност е поголема од критичната => Се отфрла нултата хипотеза (т.е. емпириските резултати значајно се разликуваат од оние кои би ги очекувале според одредена хипотеза)
Колку се поголеми разликите помеѓу емпириските и очекуваните честоти, толку е и поголем изразот хи-квадрат.
2. Реализираната вредност е помала од критичната => Се прифаќа нултата хипотеза (т.е. разликата помеѓу емпириските и теоретските честоти е статистички случајна, а не значајна)
Според тоа, нултата хипотеза сигурно можеме да ја прифатиме (без увид во таблицата хи-квадрат), ако добиениот хи-квадрат е помал или еднаков на бројот на степени на слобода.
Принципот на интерпретација на добиениот резултат хи-квадрат: Кога не би нашле никакви разлики помеѓу емпириските и очекуваните честоти, изразот хи-квадрат би бил 0.
Пример за проверка во облик на распределба
уредиПример: 48 лекари го изнеле своето мислење за тоа дали на жената при породување треба да и се даде анестезија. Добиени се следните одговори: 26 одговори „да“, 12 одговори „не знам“ и 10 одговори „не“. Проеруваме хипотеза со ниво на значајност од 5%.
Ја поставуваме „нултата хипотеза“: Нема разлика помеѓу добиение одговори и случајно распределените одговори.
Кога одговорите би биле дадени случајно, секој од нив би имал еднаква веројатност, па секој одговор би го очекувале 48/3=16 пати. Значи, очекуваната (теоретската) честота за секој одговор би бил 16.
Ги претставуваме резултататите во табела:
„Да“ | „Не знам“ | „Не“ | Вкупно | |
---|---|---|---|---|
26 | 12 | 10 | 48 | |
16 | 16 | 16 | 48 |
Пресметуваме податоци потребни за реализираната вредност:
26 | 16 | 10 | 100 | 100/16=6,25 |
12 | 16 | -4 | 16 | 16/16=1 |
10 | 16 | -6 | 36 | 36/16=2,25 |
∑=9,50 |
- број на степени на слобода
- ниво на значајност
Како што се гледа од таблицата, критичната вредност со 2 степени на слобода и ниво на значајност од 0,05 изнесува 5,991.
Поради тоа што пресметаната реализирана вредност на хи-квадрадната проеврка која изнесува 9,50 е поголема од 5,991, заклучуваме дека треба да ја отфрлиме нултата хипотеза т.е. добиените одговори статистички значајно се разликуваат од одговорите кои би ги очекувале кога тие би биле дадени сосем случајно.
Заклучок
уредиПредноста на хи-квадратната проверка во облик на распределба е дека можеме да поставиме каква што сакаме хипотеза. Кај хи-квадратната проверка во облик на распределба, сметаме дека разликата помеѓу емпириските и теоретските честоти е статистички значајна, ако реализираната вредност на хи-квадрат е поголема од критичната вредност во таблицата на хи-квадрат распределба, со одреден број степени на слобода.
Главна опасност од хи-квадратната проверка во облик на распределба е во тоа што тој многу лесно се пресметува, но претходно треба добро да размислиме што е тоа што всушност нас не интересира, па дури тогаш да почнеме со пресметување на теоретските (очекувани) честоти, поради тоа што тие зависат од поставената хипотеза.
Наводи
уреди- ↑ http://www.tufts.edu/~gdallal/LHSP.HTM/ Архивирано на 29 јули 2013 г. Gerard E. Dallal, „The Little Handbook of Statistical Practice“
- ↑ [GRAF2002] Alan Grafen, Rosie Hails, „Simplicity and serenity in advanced statistics: Modern Statistics of the Life Sciences“, Oxford University Press, 2002.
- ↑ http://davidmlane.com/hyperstat/index.html/ Архивирано на 8 мај 2013 г. [LANE2001] Lane, D. M., “HyperStat Online Textbook.”,
- ↑ [MURR1992] Murray R. Spiegel, „Schaum's Outline of Theory and Problems of Statistics“, McGraw-Hill, Inc., 1992., p245-263
- ↑ http://bmj.com/statsbk// Архивирано на 28 април 2010 г. [SWIN2001] Swinscow T. D. V., „Statistics at Square One“, University of Southampton, Copyright BMJ Publishing Group
- ↑ Ристески Славе, Тевдовски Драган (2010): „Статистика за бизнис и економија“, четврто издание, Скопје: Економски факултет – Скопје