Линеарна регресија: Разлика помеѓу преработките
[проверена преработка] | [проверена преработка] |
Избришана содржина Додадена содржина
с Правописна исправка, replaced: предпостав → претпостав (2) |
с Јазична исправка, replaced: варијабла → променлива (20), варијабли → променливи (8) |
||
Ред 1:
{{внимание}}
'''Линеарната регресија''' е најкористена од сите статистички техники. Таа ги проучува линеарните (праволиниските) врски помеѓу
Поимот регресија станал применуван како предмет на моделите на линеарната [[статистика]] кога бил најпрвин проучуван при крајот на 19 век од страна на научникот [[Францис Галтон]]. Галтон бил самоук [[природонаучник]], [[антрополог]], [[астроном]] и [[статистичар]]. Бил познат по неговите изтражувања и по неговата книга, бестселер, за тоа како да преживееш во дивината. Тој бил пионер во примената на статистичките методи за мерење.<ref>http://www.psych.utah.edu/gordon/Classes/Psy4905Docs/PsychHistory/Cards/Galton.html</ref>.За првпат го споменал поимот [[регресија]] како „регресија кон просечност“ при објаснувањето неговиот феномен за „ таткото и синот’’ (ако височината на таткото е Х стандардни отстапувања од средната вредност во [[популација]]та , тогаш треба да се предвиди дека висината на синот ќе биде rх(r по х) стандардни отстапувања на популација).
Ред 8:
'''Зошто ние најчесто претпоставуваме дека врската меѓу промелнивите е линеарна?'''<ref>http://people.duke.edu/~rnau/regintro.htm</ref>
# Оваа претпоставка е често оправдана од централната гранична [[теорема]] на статистиката, која вели дека збирот на доволно голем број независно променливи
# Таа е математички прилагодена : таа подразбира дека проценките за оптималниот коефициент на [[линеарниот модел]] се оние кои го минимизираат значењето на квадратната грешка (која е лесно преслетлива) и поради тоа што таа го оправдува користењето на [[статистички тест]]ови врз основа на нормалното „семејство“ на тестови (ова семејство ги вклучува [[Т-тест]],[[Ф-тест]] и [[Хи2-тест]]).
# Дури и ако „вистинската“ грешка на процесот не е нормална, во однос на оригиналните единици на податоците, можно е да се трансформираат податоците со цел грешките од вашиот предвиден модел да се приближно точни.
Ред 22:
=== Вовед во линеарна регресија ===
Во даден збир на податоци <math>{\{y_i,\, x_{i1}, \ldots, x_{ip}\}_{i=1}^n}</math> од n [[статистички единици]], моделот на линеарна регресија тргнува од претпоставката дека релацијата меѓу зависната
Оваа врска е моделирана преку грешката εi [[сличајна променлива]] која додава форма на линеарниот однос меѓу зависната
Овој модел ја има следната форма:
Ред 37:
'''Неколку забелешки во врска со терминологијата и општата употреба'''
- '''yi''' е наречена регресант, едногена
- '''xi''' е наречена регресор, егзогена
- '''β''' е р-димензионален параметарски вектор. Неговите елементи се нарекуваат ефекти или регресиони коефициенти. Статистичката проценка и заклучување се фокусираат на β.
- '''εi''' е наречено грешка. Оваа
=== Претпоставки ===
'''Стандардните модели''' на линеарна регресија со стандардни техники на проценка прават бројни претпоставки за предвидената
* '''Слаба егзогеност'''. Ова во суштина значи дека предвидената
* '''[[Линеарност]]'''. Ова значи дека средната вредност на добиената променлива е линеарна комбинација на параметрите(коефициентите на регресија) и претпоставената
* '''Константна [[варијанса]]'''. Ова значи дека различни добиени
* '''Независност на грешки'''. Ова претпоставува дека грешките од добиените
* '''Недостаток од мултиколинеарност во предвидувањата'''. За стандардните методи за проценка на најмали квадрати, матрицата Х мора да има целосна колона за р, во спротивно имаме ситуација наречена мултиколинеарност во претпоставената
=== Толкување ===
Ред 59:
'''Моделот на линеарна регреција''' може да биде користен за да ја индентификува врската меѓу еден индицатор, променливата xi и променливата y кога сите други променливи се во моделот фиксни. Особено, интерпретацијата на βi прави промена во y за една единица промена на xi кога другите променливи се фиксни , што претставува очекувана вредност на делумниот дериват на y во однос на хi. Ова понекогаш се нарекува уникатен ефект на хi за y.
Мора да се внимава при толкување на регресивните резултати, бидејќи некои од регресорите неможат да дозволат [[маргинални]] промени,додека други пак, не може да бидат одржани фиксно.
Можно е уникатниот ефект да биде скоро еднаков на нула дури и кога маргиналниот ефект е голем. Ова може да значи дека некои други промелниви ги опфаќаат сите информации на хi, така што штом
Спротивно на тоа, уникатниот ефект на хi може да биде голем додека неговиот маргинален ефект е скоро нула. Ова ќе се случи доколку другата променлива објасни поголем дел од варијацијата на y, но главно ја објаснува варијацијата на начин кој е комплементарен со она што е опфатено со хi. Во овој случај, вклучувајќи ги и другите
Поимот уникатен ефект е погоден кога се студира еден комплексен систем , каде што повеќе меѓусебно поврзани компоненти влијаат врз добиената
=== Методи на проценка ===
Ред 73:
# Обични [[најмали квадрати]] (OLS) е наједноставниот и според тоа, најкористениот метод на проденка. Концептуално е едноставен и директен, јасен. ОЛС методот најчесто е користен за [[анализа]] на податоци добиени од [[експеримент]]и или набљудувања. Овој метод го минимизира збирот на квадратните резидуали и ја пресметува вредноста на непознатиот параметер β <math>{\hat{\boldsymbol\beta} = (\mathbf{X}^{\rm T}\mathbf{X})^{-1} \mathbf{X}^{\rm T}\mathbf{y} = \big(\, \tfrac{1}{n}{\textstyle\sum} \mathbf{x}_i \mathbf{x}^{\rm T}_i \,\big)^{-1} \big(\, \tfrac{1}{n}{\textstyle\sum} \mathbf{x}_i y_i \,\big).}</math>
# Генерализирани најмали квадрати (GLS) претставува проширување на ОЛС методот кој овозможува ефикасна проценка на β , кога корелациите се присутни меѓу грешките на моделот. <math>{\hat{\boldsymbol\beta} = (\mathbf{X}^{\rm T}\boldsymbol\Omega^{-1}\mathbf{X})^{-1}\mathbf{X}^{\rm T}\boldsymbol\Omega^{-1}\mathbf{y}}</math>
#Регресија на инструментални
#Оптимални инструменти
#Вкупни најмали квадрати (TLS)
|