Линеарна регресија: Разлика помеѓу преработките

[проверена преработка][проверена преработка]
Избришана содржина Додадена содржина
с Правописна исправка, replaced: предпостав → претпостав (2)
с Јазична исправка, replaced: варијабла → променлива (20), варијабли → променливи (8)
Ред 1:
{{внимание}}
'''Линеарната регресија''' е најкористена од сите статистички техники. Таа ги проучува линеарните (праволиниските) врски помеѓу варијаблитепроменливите,обично под претпоставка на нормално распределени грешки.
 
Поимот регресија станал применуван како предмет на моделите на линеарната [[статистика]] кога бил најпрвин проучуван при крајот на 19 век од страна на научникот [[Францис Галтон]]. Галтон бил самоук [[природонаучник]], [[антрополог]], [[астроном]] и [[статистичар]]. Бил познат по неговите изтражувања и по неговата книга, бестселер, за тоа како да преживееш во дивината. Тој бил пионер во примената на статистичките методи за мерење.<ref>http://www.psych.utah.edu/gordon/Classes/Psy4905Docs/PsychHistory/Cards/Galton.html</ref>.За првпат го споменал поимот [[регресија]] како „регресија кон просечност“ при објаснувањето неговиот феномен за „ таткото и синот’’ (ако височината на таткото е Х стандардни отстапувања од средната вредност во [[популација]]та , тогаш треба да се предвиди дека висината на синот ќе биде rх(r по х) стандардни отстапувања на популација).
Ред 8:
'''Зошто ние најчесто претпоставуваме дека врската меѓу промелнивите е линеарна?'''<ref>http://people.duke.edu/~rnau/regintro.htm</ref>
 
# Оваа претпоставка е често оправдана од централната гранична [[теорема]] на статистиката, која вели дека збирот на доволно голем број независно променливи варијаблипроменливи достигнува нормална дистрибуција. Многу податоци во бизнисот и [[економија]]та се добиени со агрегација.
# Таа е математички прилагодена : таа подразбира дека проценките за оптималниот коефициент на [[линеарниот модел]] се оние кои го минимизираат значењето на квадратната грешка (која е лесно преслетлива) и поради тоа што таа го оправдува користењето на [[статистички тест]]ови врз основа на нормалното „семејство“ на тестови (ова семејство ги вклучува [[Т-тест]],[[Ф-тест]] и [[Хи2-тест]]).
# Дури и ако „вистинската“ грешка на процесот не е нормална, во однос на оригиналните единици на податоците, можно е да се трансформираат податоците со цел грешките од вашиот предвиден модел да се приближно точни.
Ред 22:
=== Вовед во линеарна регресија ===
 
Во даден збир на податоци <math>{\{y_i,\, x_{i1}, \ldots, x_{ip}\}_{i=1}^n}</math> од n [[статистички единици]], моделот на линеарна регресија тргнува од претпоставката дека релацијата меѓу зависната варијаблапроменлива yi и р-вредноста на регресорот xi е линеарна.
Оваа врска е моделирана преку грешката εi [[сличајна променлива]] која додава форма на линеарниот однос меѓу зависната варијаблапроменлива и [[регресор]]ите.
 
Овој модел ја има следната форма:
Ред 37:
'''Неколку забелешки во врска со терминологијата и општата употреба'''
 
- '''yi''' е наречена регресант, едногена варијаблапроменлива, зависна варијаблапроменлива или мерена варијаблапроменлива. Одлуката која варијаблапроменлива, во дадениот збир на податоци, е зависна а која е независна варијаблапроменлива може да се заснова на претпоставката дека вредноста на едната од варијаблитепроменливите е предизвикана, или е директно под влијание на другите променливи.
 
- '''xi''' е наречена регресор, егзогена варијаблапроменлива, објаснувачка променлива, влезна променлива или независна променлива. [[Матрица]]та х е понекогаш нарекувана ,,дизајнирана матрица’’
 
- '''β''' е р-димензионален параметарски вектор. Неговите елементи се нарекуваат ефекти или регресиони коефициенти. Статистичката проценка и заклучување се фокусираат на β.
 
- '''εi''' е наречено грешка. Оваа варијаблапроменлива ги опфаќа сите други фактори кои влијаат на зависно променливата yi , освен регресорот xi. Врската меѓу грешката и регресорите, на пример кога тие се поврзани, претставува клучен чекор во формирањето на моделот на линеарна регресија бидејќи таа ќе го одреди методот кој ќе се користи за проценка.
 
=== Претпоставки ===
 
'''Стандардните модели''' на линеарна регресија со стандардни техники на проценка прават бројни претпоставки за предвидената варијаблапроменлива, за добиената варијаблапроменлива и за нивната врска. Бројни подобрувања беа направени за да се овозможи секоја од овие претпоставки да се сведе во поблага форма, или во некои случаи целосно да се елиминира. Некои методи можат да ублажат неколку претпоставки одеднаш. Во продолжение ќе бидат објаснети неколку поважни претпоставки направени во моделите на стандардна линеарна регреисја:
 
* '''Слаба егзогеност'''. Ова во суштина значи дека предвидената варијаблапроменлива х може да биде третирана како фиксна вредност,наместо како случајна варијаблапроменлива.Ова значи дека, на пример,претпоставената варијаблапроменлива се смета дека е без грешка, односно дека таа не содржи грешки настанати при мерењето. Иако не реалистична во многу погледи, ова претпоставка води до значително потешки грешки во моделите.
* '''[[Линеарност]]'''. Ова значи дека средната вредност на добиената променлива е линеарна комбинација на параметрите(коефициентите на регресија) и претпоставената варијаблапроменлива. Мора да се забележи дека оваа претпоставка е помалку рестриктивна отколку првата. Претпоставената варијаблапроменлива сама по себе може да биде произволно трансформирана.
* '''Константна [[варијанса]]'''. Ова значи дека различни добиени варијаблипроменливи имаат иста варијанса во нивните грешки, безразлика на нивните вредности.Во праксата овие претпоставки се погрешни.
* '''Независност на грешки'''. Ова претпоставува дека грешките од добиените варијаблипроменливи се неповрзани меѓу себе.Некои методи (како на пример генерализираните најмали квадтари)се способни да се справат со поврзаните грешки, иако тие најчесто бараат повеќе податоци.
* '''Недостаток од мултиколинеарност во предвидувањата'''. За стандардните методи за проценка на најмали квадрати, матрицата Х мора да има целосна колона за р, во спротивно имаме ситуација наречена мултиколинеарност во претпоставената варијаблапроменлива. Тоа значи дека може да имаме две или повеќе совршено поврзнаи варијаблипроменливи. Тоа исто така може да се случи ако имаме премалку информации во споредба со бројот на параметри. Во овој случај на мултиколинеарност, параметарот β ќе биде неиндентификувана- нема да има решение. Најмногу что може да се направи е да се индетификуваат некои од параметрите.
 
=== Толкување ===
Ред 59:
'''Моделот на линеарна регреција''' може да биде користен за да ја индентификува врската меѓу еден индицатор, променливата xi и променливата y кога сите други променливи се во моделот фиксни. Особено, интерпретацијата на βi прави промена во y за една единица промена на xi кога другите променливи се фиксни , што претставува очекувана вредност на делумниот дериват на y во однос на хi. Ова понекогаш се нарекува уникатен ефект на хi за y.
Мора да се внимава при толкување на регресивните резултати, бидејќи некои од регресорите неможат да дозволат [[маргинални]] промени,додека други пак, не може да бидат одржани фиксно.
Можно е уникатниот ефект да биде скоро еднаков на нула дури и кога маргиналниот ефект е голем. Ова може да значи дека некои други промелниви ги опфаќаат сите информации на хi, така што штом варијаблатапроменливата е во моделот, не постои придонес на хi на варијацијата на y.
Спротивно на тоа, уникатниот ефект на хi може да биде голем додека неговиот маргинален ефект е скоро нула. Ова ќе се случи доколку другата променлива објасни поголем дел од варијацијата на y, но главно ја објаснува варијацијата на начин кој е комплементарен со она што е опфатено со хi. Во овој случај, вклучувајќи ги и другите варијаблипроменливи во моделот, се намалува улогата на варијабилитетот на y кој не е поврзан со хi, а со тоа се зајакнува врската со хi.
Поимот уникатен ефект е погоден кога се студира еден комплексен систем , каде што повеќе меѓусебно поврзани компоненти влијаат врз добиената варијаблапроменлива. Во некои случаи тоа буквално може да се протолкува како причинско-последичен ефект на интервенција, кој е поврзан со вредноста на претпоставената варијаблапроменлива.
 
=== Методи на проценка ===
Ред 73:
# Обични [[најмали квадрати]] (OLS) е наједноставниот и според тоа, најкористениот метод на проденка. Концептуално е едноставен и директен, јасен. ОЛС методот најчесто е користен за [[анализа]] на податоци добиени од [[експеримент]]и или набљудувања. Овој метод го минимизира збирот на квадратните резидуали и ја пресметува вредноста на непознатиот параметер β <math>{\hat{\boldsymbol\beta} = (\mathbf{X}^{\rm T}\mathbf{X})^{-1} \mathbf{X}^{\rm T}\mathbf{y} = \big(\, \tfrac{1}{n}{\textstyle\sum} \mathbf{x}_i \mathbf{x}^{\rm T}_i \,\big)^{-1} \big(\, \tfrac{1}{n}{\textstyle\sum} \mathbf{x}_i y_i \,\big).}</math>
# Генерализирани најмали квадрати (GLS) претставува проширување на ОЛС методот кој овозможува ефикасна проценка на β , кога корелациите се присутни меѓу грешките на моделот. <math>{\hat{\boldsymbol\beta} = (\mathbf{X}^{\rm T}\boldsymbol\Omega^{-1}\mathbf{X})^{-1}\mathbf{X}^{\rm T}\boldsymbol\Omega^{-1}\mathbf{y}}</math>
#Регресија на инструментални варијаблипроменливи (IV) може да се користи кога регресорите се поврзани со грешките. Во овој случај ни требаат некои помошни инструментални променливи zi за E[ziεi] = 0 . Ако z е матрица на иструментите, тогаш формулата може да биде дадена во ова форма: <math>{\hat{\boldsymbol\beta} = (\mathbf{X}^{\rm T}\mathbf{Z}(\mathbf{Z}^{\rm T}\mathbf{Z})^{-1}\mathbf{Z}^{\rm T}\mathbf{X})^{-1}\mathbf{X}^{\rm T}\mathbf{Z}(\mathbf{Z}^{\rm T}\mathbf{Z})^{-1}\mathbf{Z}^{\rm T}\mathbf{y}}</math>
#Оптимални инструменти
#Вкупни најмали квадрати (TLS)