Проверка во облик на распределба

Хи-квадратната проверка во облик на распределба[1][2][3][4][5] спаѓа во групата на непараметарските проверки. Оваа проверка е една од постарите статистички проверки. го разработил Карл Пирсон (Karl Pearson) во почетокот на овој век.

Покажува области на отфрлање или прифаќање на нултата хипотеза

За што се користи и каде се применува проверката во облик на распределба?

уреди

 -проверката во облик на распределба се применува за проверка на хипотезата за распределбаta на основното множество т.е. тогаш кога сакаме да утврдиме дали емпириските честоти ( ) отстапуваат од честотите кои ги очекуваме според одредена хипотеза (теоретски, очекувани)[6] ( )

Најпроста хипотеза е за рамномерната распределба (иста честота за сите модалитети – варијанти). Така на пример, очекуваме, подеднакво учество на лицата со високо, више, средно и ниже стручно образование во масата на вработени лица во Р Македонија. Со хипотезата треба да се специфира очекуваната распределба (биномна, рамномерна, нормална или некоја друга), а проверката треба да покаже дали емпириската распределба на примерокот значајно се разликува од хипотетичниот (очекуваниот, теоретскиот).

Можеме да претпоставиме дека некоја теоретска распределба добро ја опишува очекуваната честота. За проверување на оваа претпоставка (хипотеза), го применуваме оваа проверка.

Веќе во почетокот треба да се нагласи дека хи-квадратната проверка во облик на распределба се применува само со честоти, па не е дозволено да се внесуваат никакви мерни единици. Основните податоци на истражувањата можат да бидат мерни вредности, но во хи-квадрат се внесуваат само нивните честоти.

Резултатите добиени во примерокот не секогаш се совпаѓаат со теоретските резултати кои се очекуваат според правилата на веројатноста.

Пример: Иако според теоријата очекуваме кога фрлиме метална пара 100 пати да добиеме 50 пати „глава“ и 50 пати „писмо“, ретко кога се добива ваков резултат.

Пресметување на реализираната вредност на

уреди

Често сакаме да знаеме дали емпириските честоти значајно се разликуваат очекуваните честоти.

Таа разлика се пресметува според следната формула:

   

При што:

 - реализирана вредност на проверката

 -емпириски честоти

  -теоретски(очекувани) честоти т.е. честоти кои би ги очекувале под некоја одредена хипотеза

Израз еквивалентен на горенаведената формула е следниот:

  = ∑  =   - вкупна честота

Број на степени на слобода

уреди

Бројот на степени на слобода ( ) е дефиниран како бројот на независните променливи вклучени во пресметувањето на хи-квадрат. Го наоѓаме на следниот начин:

 

 -број на набљудувани модалитети

 -број на параметри којшто мора да се оцени за да може да се одредат очекуваните честоти

Кога имаме само една променлива со една низа на резултати, бројот на степени на слобода се пресметува според формулата:

 

Поставување нулта хипотеза

уреди

Ако сакаме да ја провереме хипотезата дека емпириската распределба следи некоја теоретска распределба, најпрво ги пресметуваме теоретските честоти ( ). Емпириските честоти, секако, отстапуваат од теоретските, а ние сакаме да донесеме одлука, дали тоа отстапување можеме да го препишеме на случајот.

Нулта хипотеза е:„ Емпириската распределба ја следи теоретската распределба“. Нултата хипотеза е хипотезата која ја проверуваме и ја означуваме со за H0. Таа се искажува како недостаток за различност. Нултата хипотеза се отфрла ако проерката на значајнот покаже дека податоците се недоследни со нултата хипотеза.

Пресметување на критичната вредност на

уреди

Критичната вредност е вредност на проверката за која нултата хипотеза се отфрла. Таа е дефинирана со нивото на значајност и бројот на степени на слобода. Нејзината вредност се гледа во таблицата на хи-квадрат распределбата, од која во продлжение е прикажан дел со 10 степени на слобода, а во оригиналната таблица на критични вредност се содржани 100 степени на слобода.

  - критична вредност

Таблица на критични вредности на   распределба:

  1 0.98 0.95 0.1 0.005 0.025 0.01 0.005
1 0.000 0.001 0.004 2.706 3.841 5.024 6.635 7.789
2 0.010 0.051 0.103 4.605 5.991 7.378 9.210 10.597
3 0.072 0.216 0.352 6.251 7.815 9.348 11.345 12.838
4 0.207 0.484 0.711 7.779 9.488 11.143 13.277 14.860
5 0.412 0.831 1.145 9.236 11.070 12.832 15.086 16.750
6 0.676 1.237 1.635 10.645 12.592 14.449 16.812 18.548
7 0.989 1.690 2.167 12.017 14.067 16.013 18.475 20.278
8 1.344 2.180 2.733 13.362 15.507 17.535 20.090 21.955
9 1.735 2.700 3.325 14.684 16.919 19.023 21.666 23.589
10 2.156 3.247 3.940 15.987 18.307 20.483 23.209 25.188

Таблицата на критичните вредности хи-квадрат покажува до која вредност ( со одреден број степени на слобода ) сметаме дека хи-квадрат е сè уште доволно висок, за да можеме да ја отфрлиме хипотезата, односно, колку најмалку мора да изнесува хи-квадрат па да можеме да ја отфрлиме хипотезата.

Значајноста на проверката( ) е веројатност на отфрлање на нултата хипотеза, кога е вистинита, т.е. веројатноста дека разгледуваните податоци се поекстремни од вистинските резултати кога нултата хипотеза е вистинита. Значајноста на проверката не е веројатност дека нултата хипотеза е невистинита.

Област на прифаќање или отфрлање на нулта хипотеза

уреди

За да утврдиме дали се прифаќа или отфрла нултата хипотеза, ги споредуваме реализираната вредност на хи-квадрат распределбата и нејзината критична вредност, при што ако:

1. Реализираната вредност е поголема од критичната => Се отфрла нултата хипотеза (т.е. емпириските резултати значајно се разликуваат од оние кои би ги очекувале според одредена хипотеза)

Колку се поголеми разликите помеѓу емпириските и очекуваните честоти, толку е и поголем изразот хи-квадрат.

2. Реализираната вредност е помала од критичната => Се прифаќа нултата хипотеза (т.е. разликата помеѓу емпириските и теоретските честоти е статистички случајна, а не значајна)

Според тоа, нултата хипотеза сигурно можеме да ја прифатиме (без увид во таблицата хи-квадрат), ако добиениот хи-квадрат е помал или еднаков на бројот на степени на слобода.

Принципот на интерпретација на добиениот резултат хи-квадрат: Кога не би нашле никакви разлики помеѓу емпириските и очекуваните честоти, изразот хи-квадрат би бил 0.

Пример за проверка во облик на распределба

уреди

Пример: 48 лекари го изнеле своето мислење за тоа дали на жената при породување треба да и се даде анестезија. Добиени се следните одговори: 26 одговори „да“, 12 одговори „не знам“ и 10 одговори „не“. Проеруваме хипотеза со ниво на значајност од 5%.

Ја поставуваме „нултата хипотеза“: Нема разлика помеѓу добиение одговори и случајно распределените одговори.

Кога одговорите би биле дадени случајно, секој од нив би имал еднаква веројатност, па секој одговор би го очекувале 48/3=16 пати. Значи, очекуваната (теоретската) честота за секој одговор би бил 16.

Ги претставуваме резултататите во табела:

„Да“ „Не знам“ „Не“ Вкупно
  26 12 10 48
  16 16 16 48

Пресметуваме податоци потребни за реализираната вредност:

           
26 16 10 100 100/16=6,25
12 16 -4 16 16/16=1
10 16 -6 36 36/16=2,25
∑=9,50

   

  - број на степени на слобода

  - ниво на значајност

Како што се гледа од таблицата, критичната вредност со 2 степени на слобода и ниво на значајност од 0,05 изнесува 5,991.

Поради тоа што пресметаната реализирана вредност на хи-квадрадната проеврка која изнесува 9,50 е поголема од 5,991, заклучуваме дека треба да ја отфрлиме нултата хипотеза т.е. добиените одговори статистички значајно се разликуваат од одговорите кои би ги очекувале кога тие би биле дадени сосем случајно.

Заклучок

уреди

Предноста на хи-квадратната проверка во облик на распределба е дека можеме да поставиме каква што сакаме хипотеза. Кај хи-квадратната проверка во облик на распределба, сметаме дека разликата помеѓу емпириските и теоретските честоти е статистички значајна, ако реализираната вредност на хи-квадрат е поголема од критичната вредност во таблицата на хи-квадрат распределба, со одреден број степени на слобода.

Главна опасност од хи-квадратната проверка во облик на распределба е во тоа што тој многу лесно се пресметува, но претходно треба добро да размислиме што е тоа што всушност нас не интересира, па дури тогаш да почнеме со пресметување на теоретските (очекувани) честоти, поради тоа што тие зависат од поставената хипотеза.

Наводи

уреди
  1. http://www.tufts.edu/~gdallal/LHSP.HTM/ Архивирано на 29 јули 2013 г. Gerard E. Dallal, „The Little Handbook of Statistical Practice“
  2. [GRAF2002] Alan Grafen, Rosie Hails, „Simplicity and serenity in advanced statistics: Modern Statistics of the Life Sciences“, Oxford University Press, 2002.
  3. http://davidmlane.com/hyperstat/index.html/ Архивирано на 8 мај 2013 г. [LANE2001] Lane, D. M., “HyperStat Online Textbook.”,
  4. [MURR1992] Murray R. Spiegel, „Schaum's Outline of Theory and Problems of Statistics“, McGraw-Hill, Inc., 1992., p245-263
  5. http://bmj.com/statsbk// Архивирано на 28 април 2010 г. [SWIN2001] Swinscow T. D. V., „Statistics at Square One“, University of Southampton, Copyright BMJ Publishing Group
  6. Ристески Славе, Тевдовски Драган (2010): „Статистика за бизнис и економија“, четврто издание, Скопје: Економски факултет – Скопје