Проста линеарна регресија

Проста линеарна регресија е статистички метод со чија употреба се предвидува и оценува една појава врз основа на вредноста на друга појава. Терминот регресиона линија прв го употребил англискиот научник Франсис Галтон.^[1] Кај регресионата анализа потребно е однапред да се одреди која појава ќе има улога на зависна променлива, а која на независна променлива.^[2] Тоа го утврдуваме врз основа на теориски, или емпириски сознанија, или врз основа на претпоставки за природата на анализираните појави. Целта на регресијата е да се одреди природата на врската, односно обликот на зависност помеѓу набљудуваните појави. Тоа го постигнуваме со помош на соодветен регресионен модел. Регресиониот модел е статистички модел кој со помош на математички формули и соодветни претпоставки најдобро ја опишува квантитативната зависност помеѓу варијациите на набљудуваните појави во реалноста. Регресиониот модел покажува просечно сложување на варијациите на испитуваните појави. Тој сам по себе не е цел, туку тој е само средство со чија помош сме во состојба да го оцениме и предвидиме однесувањето на зависната променлива за саканата вредност на независната променлива. При истражувањето на меѓусебните врски помеѓу две променливи се применуваат прости (линеарни и нелинеарни) регресиони модели. За проста линеарна регресија станува збор тогаш кога имаме две појави помеѓу кои постои праволиниска зависност.

Дијаграм на растурање

Првиот чекор во анализата на зависност помеѓу две појави е графичко претставување на серијата од емпириски податоци, без разлика дали се однесуваат на основната група или шема. На исти елементи на множество или шема надгледуваме две функции, на пр. кај 20 фирми набљудуваме трошоци за рекламирање и обем на продажбите. Тогаш ќе мора да се идентификува кое обележје претставува независна променлива X, а кое зависна променлива Y. Така се добива низа од n(N) наредени парови (X₁, Y₁), (X₂, Y₂),…,(Xn, Yn). На апцисата се нанесуваат вредностите на независната променлива X, а на ординатата вредностите на зависната променлива Y. Таквиот графички приказ се нарекува дијаграм на растурање.^[3]

Прост линеарен регресионен модел

Линеарни равенки и равенки на линеарни врски, во овој случај:

y_i’ = b₀ + b₁x:

x е независна променлива, y е зависна променлива, b₀ e константа во линеарната равенка во еден сегмент на y-оска, b₁ е коефициент на нагиб на правата. Целта на регресијата е да се предвиди вредноста на y за некои вредности на x. Бидејќи се зборува за стохастички врски, помеѓу x и y не може точно да се предвиди вредноста на y за одредената вредност на x. Затоа како можно решение се бара регресионата права ( крива ) која најмалку ќе отстапува од емпириските податоци. Одредувањето на коефициенти на линеарната равенка ни овозможува да го вршиме бараното предвидување. Таквото предвидување нема да биде егзактно бидејќи мора да се земе предвид грешката која се должи на стохастичката природа на врската. Модел на проста линеарна регресија во општ облик:

Y_i = β₀ + β₁x_i + ε_i, i = 1, 2,…, N

каде што: Y_i – i-та зависна променлива, x_i – i-та вредност на независна променлива, β₀ и β₁ – непознати константи, регресиони параметри, ε_i - стохастички член или случајна грешка, N – величина на основната група. Независната променлива X се нарекува објаснувачка променлива, бидејќи со нејзина помош се обидуваме да ги објасниме варијациите на променливата Y.

Оценување врз основа на методот на најмали квадрати

Методот на најмали квадрати се засновува на минимизирање на квадратните отстапувања на сите емпириски точки од линијата на регресијата. Во регресиониот модел β₀ и β₁ се параметри на основната маса. Доколку, не ни се познати сите податоци за основната маса, регресиониот модел го оценуваме врз основа на податоците од примерокот (b₀ и b₁). Целта е, врз основа на примерокот да се дојде до најдобри можни оцени на b₀ и b₁, и со тоа да се постави оценетиот модел на примерокот (регресионата линија во примерокот) :

y_i’ = b₀ + b₁x_i,

y_i’ се нарекува прилагодена вредност на Y. Разликата помеѓу вистинската и очекуваната (просечната) вредност на Y претставува случајна грешка ε. Разликата помеѓу вистинската и очекуваната вредност во примерокот се нарекува резидуал и се означува со е. Резидуалот претставува оцена на случајната грешка ε.

е = y_i – y_i’.

Идејата на методот на најмали квадрати е од сите можни прави линии да се избере онаа која има најмала сума на квадратите на вертикалните отстапувања.

∑e_i² = ∑ (y_i – y_i’)².

Со минимизирање на сумата на квадратите на резидуалот се добиваат b₀ и b₁ како оцени на регресионите параметри β₀ и β₁. Формулите за оценетите вредности на параметрите на примерокот се:

b₀ = ȳ - b₁ - x̅,

b₁ = n∑xy - ∑x∑y / n∑x² – (∑x)².^[4]

Мерки на претставителност

y_i - вистинска вредност, y_i’ – прилагодена ( оценета ) вредност на моделот.

Вкупен варијабилитет (SKV) = Објаснет варијабилитет (SKO) + необјаснет варијабилитет (SKN)

SKV = ∑(y_i - ȳ)²

SKO = ∑(y_i’ - ȳ)²

SKN = ∑(y_i – y_i’)²

SKV = SKO + SKN ---> ∑(y_i - ȳ)² = ∑(y_i’ - ȳ)² + ∑(y_i – y_i’)².

Регресијата зависи од необјаснетиот варијабилитет. Мерките на претставителноста на линијата на регресијата се делат на апсолутни и релативни. Апсолутни се резидуалната варијанса и стадандардната грешка на регресијата. Релативна е коефициентот на детерминација.^[5]

S² – резидуална варијанса,

S² = SKN / n-2 = ∑(y_i – y_i’)² / n–2 – параметри што се оценуваат b₀ и b₁.

S – стандардна грешка на регресија, се добива како квадратен корен од рездиуалната варијанса.

S = ∑(y_i – y_i’)² / n–2 = ∑y² - b₀∑y – b₁∑xy / n-2.

Тестирање на значајноста на регресионата врска

За да примената на регресионата линија предвидувањето на вредностите на зависната променлива Y биде оправдано, неопходно е претходно да се испита дали воопшто постои линеарно согласување помеѓу варијацијата на набљудуваните две променливи во основната група. Кога ја тестираме хипотезата за регресиониот параметар β₁, нултата хипотеза дава параметар β₁ = 0 што е еквивалентно на хипотезата дека променливата X не влијае на променливата Y. Нултата и алтернативната хипотеза за регресиониот параметар β₁:

H₀: β₁ = 0 ( Помеѓу варијацијата на набљудуваните појави не постои линеарна врска, односно X не влијае на Y).

H₁: β₁ ≠ 0 (Помеѓу варијацијата на набљудуваните појави постои линеарна врска, односно X влијае на Y).

Статистика на t тестот за тестирање на хипотезата за β₁ гласи:

t = b₁ – β₁/ S_b1 = b₁/ S_b1,

S_b1 = S / ∑x² - n x̅²

Бројот на степени на слобода е df = n–2.

Наводи

↑ Ристески, Славе (2003), Статистика за бизнис и економија, второ издание, Економски факултет, Скопје
↑ Wiley Freund, J., Perles, B. (2007) Modern Elementary Statistics. Pearson
↑ Mann, S. (1995), Statistics for business and economics, New York
↑ Ристески Славе, Тевдовски Драган(2010):"Статистика за бизнис и економија",четврто издание, Скопје:Економски факултет-Скопје
↑ Paul Newbold (Пол Њуболд), William Carlson (Вијилам Карлсон), Betty Thorne (Бети Торн):"Statistics for Business and Economics"- МАГОР(2010)

[1] Ристески, Славе (2003), Статистика за бизнис и економија, второ издание, Економски факултет, Скопје

[2] Wiley Freund, J., Perles, B. (2007) Modern Elementary Statistics. Pearson

[3] Mann, S. (1995), Statistics for business and economics, New York

[4] Ристески Славе, Тевдовски Драган(2010):"Статистика за бизнис и економија",четврто издание, Скопје:Економски факултет-Скопје

[5] Paul Newbold (Пол Њуболд), William Carlson (Вијилам Карлсон), Betty Thorne (Бети Торн):"Statistics for Business and Economics"- МАГОР(2010)

[1]

[2]

[3]

[4]

[5]