Хи-квадратна проверка

Хи-квадратна проверка — проверка во групата на непараметарските проверки. Оваа проверка е еден од постарите статистички проверки. Проверката ја разработил Карл Пирсон во 1900-тите години, па познат е и под називот Пирсонова проверка. Проверките кои се засновани на х2 распределбата опфаќаат цела низа проблеми кои можат да се однесуваат на модалитетите на еден или повеќе белези. Постапката наречена хи-квадратна проверка се употребува во повеќето случаи ако се работи за квалитативни податоци или ако појавата значајно отстапува од нормалата. Хи-квадратната проверка е многу практична проверка која може особено да послужи кога сакаме да утврдиме дали некоја добиена фрекфренција отстапува од честотата која ја очекуваме со одредена хипотеза. Кај оваа проверка исто така истражуваме дали постои поврзаност помеѓу две променливи и тој ја покажува веројатноста на поврзаност, како и хомогеност на популацијата. Со други зборови кога се испитуваат два белега X и Y обично се поставува нултата хипотеза за нивната независност, при проверувањето на независноста на принципите на класификација, х2-проверката треба да покаже дали модалитетите на белезите класифицирани по одредени критериуми се зависни или независни. Така на пример, може да се проверува: Зависност на сообраќајните прекршоци од староста на возачите, Завинсост на работниците според распределбата на платите и должината на работиот стаж, Зависност на времето на задоцнување од должината на работниот стаж итн. Проверката на независноста овозможува донесување одлука во врска со прифаќањето или неприфаќањето на нултата хипотеза т.е. постоење или непостоење значајна разлика помеѓу емпириските и очекуваните честоти според еден или друг критериум. Постојат два вида на хи–квадратна проверка

Хи-квадратна проверка во облик на распределба

Тоа е проверка која треба да покаже дали емпириската распределба статистички значајни се разликува од теоретскиoт. х²-проверката во облик на распределба се заснова на разликата помеѓу емпириските честоти на модалитетите (fi) и очекуваните честоти на тие модалитети (fit) аналогно на нивниот претпоставена распределба. Со хипотезата треба да се специфицира очекуваната распределба (биномна,униформна,нормална),а проверката треба да покаже дали емпириската распределба на примерокот значајно се разликува од очекуваниот. Најпроста хипотеза е за униформна распределба. (иста френквенција за сите модалитети)

  реализирана вредност Х²=∑_(i=1)^r  ((fi-〖fi〗^(t)²))/〖fi〗^t

  fi-емпириска фрекфренција

  fit-очекувана (теоретска)фрекфренција

  степени на слобода V= r-m-1

  r-број на модалитети на белегот

  m-параметар на распределба

  критична вредност  x²α;v1

  α-ниво на значајност

x² статистиката на проверката се применува на податоците кои можат да се сведат на апсолутни честоти.

Кога Х²α;v1 критичната вредност е поголема од реализирана вредност се прифаќа Ho

Н0 : Емпирската распределба е униформна

кога Х² реализирана вредност е поголема од критичната се прифаќа H1

Н1 : Емпириската распределба не е униформна

Пример: Бројот на гледачи на ФК Вардар на последните четири натпревари се движел на следниот начин:

На ниво на значајност од 0.01 да се испита дали може да се испита хипотезата дека бројот на гледачи на ФК Вардар по натпревари има униформна распределба.

Н0 : Емпирската распределба е униформна (бројот на гледачи на Вар дар е ист за сите натпревари)

Н1 : Емпириската распределба не е униформна / статистички значајно се разликува

X2α;r-1= X20.01;4-1= 11.345 критична вредност

Х²=∑_(i=1)^r ((fi-〖fi〗^(t)²))/〖fi〗^t= 19.99 реализирана вредност

X2 >X2α;v односно 19.99 > 11.345

Н1 се прифаќа, а тоа значи дека емпириската распределба не е униформна (бројот на гледачи на натпреварите на Вардар се разликува по натпревари).

Хи-квадратна проверка на независност на модалитетите на два белега

При проверкат на независноста на принципите на класификација, х²-проверката треба да покаже дали модалитетите на белезите класифицирани со пределени критериуми се зависни или независни. За проверување на независноста користиме табели на контингенција. Табели на контингенција се табели каде се презентирани емпириските честоти (fij) за ij-та комбинација на модалитетите на два белега, кои треба да се споредат со очекуваните честоти (fij^t) со цел да се изврши проверка на независност

  реализирана вреедност х²=∑_(i=1)^r ∑_(j=1)^k  ((fij-〖fij〗^(t)²))/〖fij〗^t

  критична вредност x²α;v1

  степени на слобода V=(r-1)(k-1)

  r- модалитети на еден белег

  к- модалитети на другиот белег

Кога Х²α;v1 критичната вредност е поголема од реализирана вредност се прифаќа Ho

H0: Модалитетите на белезите се независни

Кога Х² реализирана вредност е поголема од критичната се прифаќа H1

Н1: Модалитетите на белегзите се зависни

За мерење на интензитетот на зависност на набљудуваните модалитети се користи коефициент на контингенција (С)

C=√(x²/(n+x²)) 0<x²<1

Cmax= √((r-1)/r)- ако r=k

Табела на контингенција Пример:

H0 : Модалитетите на двата белега се независни (разликите во полот не влијаат),полот не влијае во бараните одлики.

Н1:Модалитетите на двата белега се зависни (разликите во полот влијаат), мажите и жените имаат различни барани одлики.

Х2=∑_(i=1)^r ∑_(j=1)^k ((fij-〖fij〗^(t)²))/〖fij〗^t =20,65

X2α;(r-1)( k-1)=7.8

X2 > X2α;v односно 20,65 > 7,8

H1 се прифаќа, модалитетите на двата белега се зависни.

.

   Мали очекувани фрекфренции

Кога ќе се случи очекуваната честота (〖fij〗^t) да е помала од 5, треба да се изврши прегрупирање на податоците- спојување на два модалитети со мали честоти во еден модалитет Кога примерокот е доволно голем, очекуваната честота може да биде помала од 5, па дури и помала од 1.

== Наводи == Статистика за бизнис и економија - Славе Ристески, Драган Тевдовски Скопје 2010 http://www.presek.si/12/731-Pisanski-test.pdf