Повеќекратна линиска регресија
Повеќекратниот праволиниски модел на регресија на популацијата ја дефинира зависноста помеѓу зависната(ендоѓена)променлива, Y и група од независни(егзоѓени)променливи, x1, x2, x3 ,...,xк. Наречен е праволиниски бидејќи помеѓу зависната променлива и независните променливи постои праволиниска врска во популацијата. Моделот се дефинира како:
Yi =βo+β1x1+β2x2+…+βкxк +εi
каде што:
Yi = i-та зависна случајна променлива
x1, x2, x3 ,...,xк = i-ти вредности на независната променлива
βo,β1,β2,…,βk = параметри на моделот
εi= стохастички член или стандардна грешка со средина 0 и σ2
k= број на независни променливи
Наједноставен е повеќекратниот регресионен модел со две независни променливи, кој уште се нарекува и тридимензионален, којшто го има следниот облик:
Yi=βo+β1x1+β2x2+εi
На овој начин дефиниран моделот се состои од два дела:
детерминистички(го покажува просечното влијание на независните променливи на Yi којшто геометриски претставува рамнина)- Yi=βo+β1x1+β2x2
стохастички(ги изразува ефектите на останатите фактори кои не се опфатени со моделот и случајните влијанија)- εi
Поради неможноста да се пресметат коефициентите во популацијата βo,β1 и β2, задача на статистиката е да изврши нивно оценување врз основа на податоците од примерокот. Ова оценување се врши преку оцена на параметрите
bo,b1 и b2 врз основа на метод на најмали квадрати во регресионата површина на примерокот со равенката:
y’i=bo+b1x1+b2x2
каде што:
y’i- претставува прилагодена вредност на зависната променлива
bo- е отсечокот којшто рамнината го прави со y-оската
b1-за колку во % ќе се промени y кога x1 ќе се зголеми за една своја единица под услов x2 да не се менува.
b2-за колку во % ќе се промени y, ако x2 се зголеми за една своја единица под услов x1 да не се менува.
При оценувањето не ги зимаме оригиналните вредности за x1, x2 и y,туку нивните отстапувања од нивните аритметички средини, коишто се нарекуваат центрирани променливи, означени со d1, d2, dy.
d1 = x1 - ẋ1
d2 = x2 - ẋ2
dy = y - ẏ
Мерки на претставителност во повеќекратната регресија
уредиПоради стохастичката врска помеѓу појавите постојат отстапувања на емпириските податоци од регресионата рамнина. Потребно е рамнината најдобро да се прилагоди на емпириските податоци, односно добро да ги репрезентира. Како мерки на претставителност се јавуваат: резидуална варијанса и стандардна грешка како апсолутни мерки и коефициент на повеќекратна детерминација како релативна мерка.
Резидуалната варијанса претставува оцена на варијансата на случајната грешка.
Стандардната грешка претставува оцена на стандардното отстапување на случајната грешка.
Коефициентот на повеќекратната детерминација покажува со колкаво учество вкупниот варијабилитет може да се објасни со регресиониот модел.
Неговата вредност се движи помеѓу 0 и 1. Доколку е поблизок до 1 оценетата регресиона равенка подобро ги репрезентира емпириските податоци.
Зависноста од големината на примерокот и бројот на променливите во моделот, предизвикуваат овој модел да има недостатоци. Избегнувањето на овие недостатоци се врши со помош на корегиран(прилагоден) коефициент на повеќекратна детерминација. Вака приспособениот Ṝ² обезбедува подобра споредба помеѓу моделот на повеќекратната регресија со различни броеви на независна променлива.
Тестирање на значајноста на оценетите параметри
уредиЗа да се испита дали постои праволиниска врска помеѓу x и y во популацијата, потребно е да се изврши тестирање на значајноста на оцените на параметрите. Се поставуваат хипотезите во следниот облик:
H0 : β1 = 0
H1 : β1 ≠ 0
H0 : β2 = 0
H1 : β2 ≠ 0
Нултите хипотези и во двата случаи тврдат дека коефициентот е статистички случаен, односно дека x не влијае на y. Алтернативните хипотези и во двата случаи тврдат дека коефициентот е статистички значаен, односно дека x влијае на y.
Реализираната вредност на статистиката на тестот се пресметува како однос на оцената и нејзината стандардна грешка За пресметување на критична вредност се употребува студентовиот t распоред со n-3 степени на слобода. Потребно е да се изврши споредба помеѓу реализираната вредност на статистиката и критичната вредност за да се заклучи која од хипотезите се прифаќа а која се отфрла. Доколку апсолутната вредност на реализираната вредност е поголема од критичната се прифаќа алтернативната хипотеза а доколку е помала се отфрла алтернативната.
Оценување и предвидување на вредноста на зависната променлива
уредиПо оценувањето на параметрите врз основа на методот на најмали квадрати, логично е просечната вредност Е(yp) да се оцени со вредност која лежи во регресионата рамнина на примерокот означена со y’p.
Интервалот на оцена го има следниот изглед: y’p-tα/2;n-3 S ≤ Е(yp) ≤ y’p+tα/2;n-3 S