Метод на најмали квадрати

Методот на најмали квадрати се заснова на минимизирање на квадратните отстапувања на сите емпириски точки од линијата на регресија. Методот на најмали квадрати се состои во изнаоѓање на показатели на развојната тенденција и конструирање на нејзината линија што би минувала на најмало растојание од сите точки на емпириската линија. Такво најмало растојание ќе се постигне ако теоретската линија се конструира да минува на еднакво растојание од сите точки на општата линија, со други зборови ако алегебарскиот збир на растојанијата изнесува 0. Тоа значи дека треба да се најдат такви вредности за конструирање на теоретска линија (трендот) што ќе доведат до најмала сума на квадрати на отстапувањата на апсолутни вредности на движењето од вредностите на трендот. Затоа овој начин на изнаоѓање на точките на трендот се нарекува метод на најмали квадрати.

Линија на регресија на примерокотУреди

Врз основа на дијаграмот на растурање, вршиме избор на типот на кривата која најдобро одговара на емипириските податоци. Доколку дијаграмот на растурање, според локацијата и распоредот на точките, ни укаже за праволиниска зависност на две појави, потоа преоѓаме на втората етапа за оценување на непознатите параметри : слободниот член и коефициентот на нагибот  . Целта се состои врз основа на примерокот да се дојде до најдобрата можна оцена за , и со тоа да се постави линија на регресија на примерокот во облик :

Каде y’, ја претставува онаа вредност на y која точно се наоѓа на најдобро прилагодена линија на регресијата и се нарекува прилагодена вредност на Y. Честопати се користи и изразот предвидена вредност на Y. Оваа формула служи за определување на на точките на теоретската линија, а збирот на сите точки ја создава таалинија. Затоа, ако сакаме да ја прикажеме заедничката формула за сите точки на линијата, тогаш формулата ќе треба да ја помножиме со заедничките коефициенти за секоја константа. Коефициентот на константата  е y (бидејќи  е отсечка од оската y),а коефициенотот на константата  е x. На тој начин, ќе ги добиеме следниве две равенки:

I равенка: ∑(x)=∑ + (∑x) II равенка: ∑(xy)=∑ (x)+ (∑x^2)

Сумантот од,, ", т.е. ∑  всушност претставува збир од отсечките на ординалната оска на сите точки од теориската линија. Поради тоа, во првата равенка би можело тој да биде заменет со знакот за овој збир - Na. На тој начин равенките ќе го имаат следниов изглед

I равенка: ∑y=N + (∑x) II равенка: ∑(xy)=∑ (x)+ (∑x^2)

Но, од друга страна, познато е дека при графичкото прикажување на временските низи x- оската служи за прикажување на временските отсечоци од проучуваниот период. Ако медијалниот временски отсек се означи со нула, а секој претходен и и ден отсек со 1, 2, 3, 4 итн., давајќи им на претходните отсеци негативен, а на идните позитивен знак, алгебарскиот збир на износите од,,x" ќе изнесува нула, што значи дека ќе ја имаме следнава ситуација:

 ∑x=0

Тоа ќе причини, по заменувањето во равенкитена,,∑x" со нула, да се добие следниов изглед:

I равенка: ∑y=N  II равенка: ∑(xy)= ∑(x^2)

Во првата равенка ја имаме застапено константата,, ", а во втората константа,,  ". Одтаму може да се извлече што всушност претставува секоја од нив. Така, од првата равенка произлегува дека

  =(∑y)/N а од втората дека  =(∑(xy))/(∑x^2) Овие изводи јасно покажуваат што треба да се земе како константа,, ", односно,, ", за изнаоѓањето на сите потребни точки на теориската линија. Константата,, " е исто што и збирот на дадените големини, разделен со бројот на големините, а тоа не е ништо друго туку аритметичка средна големина од временската статистичка серија. Што се однесува до втората константа,, ", таа се изнаоѓа кога збирот од производите помеѓу износите на,,x" и соодветните големини во серијата ќе се раздели со збирот на оквадратените износи на,,x". При пресметувањето на теориската линија според методот на најмалите квадрати, во техниката на работењето постои извесна разлика кога временската низа содржи непарен и парен број членови, поради што ќе ги прикажеме обата случаја.

а) При серија од непарен број членови Како пример ќе ја земеме истата серија, производството на памук во нашата земја. Само што, бидејќи таа серија содржеше парен број членови (14), ние ќе ја намалиме за еден член и ќе добиеме серија од 13 членови, која започнува од 1961, а завршува со 1973 година (од табелата). Тука централната година е 1967 и таа ќе биде обележена со x=0, додека годините пред неа ќе бидат обележени со -1, -2, -3 итн. а по неа со +1, +2, +3 итн. (колона 2). Кога овие коефициенти на,,x" ќе се помножат со податоците од движењето на појавата, ќе се добијат производите од,,x" и,,y" (колона 4).

 =(∑y)/N = 104670/13=8051,54 ; b=(∑xy)/(∑x^2)=40770/182=224,01

Од изводите на формулите што ги изнесовме погоре се виде што претставуваат константите,,a" и,,b". Тоа беше:  =(∑y)/N  =(∑(xy))/(∑x^2)

Бидејќи сите овие симболи се веќе определени и измерени во табелата, од неа лесно ќе може да се изнајдат овие константи. Тие ќе бидат:

 =104670/13=8051,54

и

 =40770/182=224.01

Штом така ќе се определат константните големини,, " и,, ", тогаш со формулата y= + x ќе може многу лесно да се изнајдат точките од линијата на развојната тенденција (трендот) на проучуваната појава. Тоа ќе стане кога во оваа формула знаците,, ",,, " и,,x ќе се заменат со нивните големини. Така, за првата година (1961) ќе ја добиеме следнава положба: y = 8051,54 + 224,01 X (-6) = 8051,54 - 1344,06 = 6707,48

за 1962: y = 8051,54 + 224,01 X (-5) = 8051,54 - 1120,05 = 6931, 49

за 1963: y = 8051,54 + 224,01 X (-4) = 8051,54 - 896,04 = 7155,50

За централната 1967 година трендот ќе изгледа: y = 8051,54 + 224,01 X 0 = 8051,54 + 0 = 8051,54

За годините по централната година: за 1968: y = 8051,54 + 224,01 X 1 = 8051,54 + 224,01 = 8275, 55

за 1969: y = 8051,54 + 224,01 X 2 = 8051,54 + 448,02 = 8499,56

за 1970: y = 8051,54 + 224,01 X 3 = 8051,54 + 672,03 = 8723,57 Сите овие големини на теориската линија се претставени во колоната 6 од табелата.

б) При парен број членови

Ако временската низа содржи парен број членови, изнаоѓањето на точките од трендовата линија - и покрај истата техника - се комплицира поради тоа што не може да се фиксира централен член кој би одговарал на медијалната големина (x=0). Медијаната тука ќе падне меѓу двата централни члена. И бидејќи x=0 ќе биде меѓу тие два члена, тоа вредноста на тие членови ќе биде -0,5 (за претходниот) и +0,5 (за идниот член), а за сите други членови за по една единица повеќе. Тоа се гледа од следната табела, која се состои од 14 членови и каде што медијаната се паѓа меѓу 1967 и 1968 година. Инаку, целата техника околу изнаоѓањето на износите на константите,, " и,, ", и одтаму на точките од теориската линија, останува исто како и во случај кога серијата има непарен број членови.  

 =(∑y)/N=111670/14=7976,43 ;

 =33935/227,50=149,16


Линиите на регресијата во масата и примерокот правилно се разликуваат, бидејќи оценетите вредности за  се разликуваат од вистинските вредности на параметрите .

Како прво решение се наметнува графичкиот метод, т.е визуелно да се избере онаа права која најповеќе одговара на општата тенденција на распоредот на точките. Меѓутоа, овој метод има две крупни слабости : во целост има субјективен карактер и не дава можност за одредување на грешката на оцената. Поради тоа во статистиката се предложени повеќе објективни методи за решавање на овој проблем, но сепак најповеќе се користи методот на најмали квадрати. Поради стохастичната природа на врската емпириските точки ќе покажуваат отстапување од правата. Вертикалното отстапување или разлика помеѓу стварните вредности на и прилагодените вредности  го нарекуваме резидуал и го означуваме со  и од тука

Од сликата може да се забележи дека резидуалот ќе биде позитивен ако емпириската точка се наоѓа над оценетата линија, негативен ако точката лежи под и ќе биде еднаков на нула ако стварната вредност се поклопува со прилагодената. Во случај на фукционална или детерминирачка врска сите резидуали би биле еднакви на нула. Меѓутоа, јасно е дека правата добро ќе го репрезентира распоредот на точките доколку вредностите на резидуалот се релативно мали и обратно. Значи може да заклучиме дека резидуалот  всушност претставува оцена на соодветниот стохастички член  кој го покажува отстапувањето на ниво на маса. Меѓутоа, во статистичките истражувања, како критериум на прилагоденост не може да биде минимизирањето на збирот на резидуалот бидејќи тој е еднаков на нула поради потирањето на збирот на позитивните и негативните резидуали. Имајќи го предвид овој факт како критериум се користи збирот на квадратни отстапувања. Тоа значи, дека основната смисла и идеја на методот на најмали квадрати е од сите можни прави линии да се избере онаа која има најмала сума (збир) на квадратите на вертикални отстапувања ;

Во наведениот математички израз непознати се параметрите бидејќи вредностите на  и  после изборот на примерокот се познати. Исто така, во математичкиот израз, постапката за минимизирање се спроведува со изнаоѓање на парцијални изводи по  и нивно изедначување со нула. На тој начин доаѓаме до системот на равенки со 2 непознати кои се нарекуваат нормални равенки :

Каде n претставува големина на примерокот, односно броој на парови на податоци. Со решавање на равенките конечно доаѓаме до формулите за оценетите вредности на слободниот член :

и на коефициентот на нагиб  :

Карактеристики на оцените добиени со методот на најмали квадратиУреди

Оценетата вредност на слободниот член,   во регресивниот праволиниски модел нема некоја посебна економска важност. Таа вредност за ја покажува отсечката на Y оската во дијаграмот на растурање. Поради тоа поголемо внимание ќе посветиме на оценетата вредност на коефициентот на нагибот,  . Аналогно на толкувањето на параметарот , следи дека регресиониот коефициент  , претставува оценета вредност на просечните промени на зависно променливата Y кога независната променлива X се зголеми за својата единица.Доколку регресиониот коефициент  >0 врската помеѓу појавите е директна (позитивна), а во случај кога  <0 врската е инверзна (негативна). Тоа значи, дека знакот кој се наоѓа пред коефициентот на регресијата,  , укажува на насоката на слагањето помеѓу појавите. На ова место со право се поставува прашањето за близината на оценетата регресиона линија до регресионата линија на популацијата, посебно колку оценетата вредност на   е блиска до параметарот  . За квалитетот на оцените добиени врз основа на методот на најмали квадрати во споредба со оцените добиени со други методи зборува Gauss-Markovleva-та теорема, која гласи: ако се исполнети претпоставките на регресиониот модел, оцените добиени со методот на најмали квадрати се најдобри (ефикасни) и се непристрасни праволиниски оцени. Врз основа на теоремата може да се види дека:

 E( )=   или
 E( )= 

односно дека оцените   и   во просек се еднакви на параметрите   и  . Од досегашните емпириски истражувања може да се потврди констатацијата дека оцената на  (како случајна променлива) има нормален распоред, а аритметичката средина на тој распоред е  . Стандардната девијација ја означуваме со ASDIJASD и се нарекува стандардна грешка на оцената  . Таа претставува мерка на отстапување на оцената  од параметарот  и со самото тоа укажува на прецизноста на оценката. Имено, доколку стандардната грешка е помала, оценката е поквалитетна и обратно. Истовремено стандардната грешка на оцената на нагибот има значајна улога при формирање на интервалот на доверба и тестирање на хипотезата за постоење на праволиниска врска помеѓу X и E(Y). Во случај на неисполнување на претпоставките на регресиониот модел потребно е да се преземат соодветни корективни (поправни) постапки.

Оптимализација на оценитеУреди

Оваа категорија има голем дел на силни статистички својства. Особено кога соберените податоци сочинуваат случаен примерок од добро дефинирана популација, популацискиот модел е линеарен, грешката има вредност нула, независните променливи (променливи) се линеарно независни и грешката е нормално дистрибутирана и не е во корелација со независните променливи. Понатаму, оптимализацијата на проценките на најмалите квадрати е најдобрата линеарна небазична проценка, честопати позната под акронимот “BLUE”.Во поглед на ова, кога важат условите, оптимализацијата на проценките на најмалите квадрати се исто така максимални проценки на веројатност.

Проблеми со методот на најмали квадрати и соодветни алтернативиУреди

Покрај фактот дека овој метод е популарен и многу применуван, тој исто така има и свои недостатоци. Најверојатно, најголемиот недостаток на методот е големата сензитивност (чувствутелност) на екстремни опсервации. Ова е последица од користењето на квадратите бидејќи квадратрирањето ги пренагласува магнитудите на диференцијација. (на пример., разликата помеѓу 20 и 10 е еднаква на 10, но разликата помеѓу 202 и 102 е еднаква на 100) па оттаму дава многу поголема важност на екстремните опсервации. Проблемот е назначен со користење на робустни техники коишто се помалку осетливи во однос на екстремните опсервации. Потребно е да се нагласи дека ова поле е под интензивен развој и многу е голема веројатноста неговата важност да биде голема и полезна за во иднина.

НаводиУреди

1. Ристески Славе, Тевдовски Драган (2010): „Статистика за бизнис и економија“, четврто издание, Скопје: Економски факултет - Скопје

2. Д-р Борислав Благоев : Стaтистикa, Скопје, 1978

3. Hervé Abdi : Методот на најмали квадрати