Регресија кон средната вредност

Во статистиката, регресија кон средната вредност е феноменот дека ако една променлива е екстремна на првото мерење, таа ќе има тенденција да биде поблиску до просекот на второто мерење - и ако е екстремна на второто мерење, ќе има тенденција да биде поблиску до просекот на првото мерење. За да се избегнат неточни заклучоци, треба да се земе предвид регресијата кон средната вредност при дизајнирањето на научни експерименти и толкување на податоци.

Концептуална позадина

уреди

Размислете за едноставен пример: клас од ученици зема тест со 100 прашања кои се од типот точно/неточно . Да претпоставиме дека сите ученици избираат одговор по случаен избор на сите прашања. Тогаш очекуваме резултатот на секој ученик да биде 50. Се разбира, некои ученици ќе постигнат значително над 50, а некои значително под 50 само случајно. Ако се земат само највисоко оценетите 10% од учениците и им се даде втор тест на кој тие повторно избираат по случаен избор на сите прашања, просечниот резултат повторно ќе се очекува да биде близу до 50. Така, средното вредност на овие ученици ќе "регресира " дури до средната вредност на сите ученици кои го полагаа оригиналниот тест. Без оглед на тоа што студентот постигнува резултати на оригиналниот тест, најдоброто предвидување на нивниот резултат на вториот тест е 50.

Ако немаше среќа (добро или лошо) или случајно погодување вклучено во одговорите што ги доставиле учениците на прашањата од тестот, тогаш од сите ученици би се очекувало да го постигнат истото на вториот тест како што постигнале на оригиналниот тест, и таму нема да има регресија кон средна вредност.

Повеќето реални ситуации спаѓаат помеѓу овие две крајности: на пример, може да се сметаат резултатите од испитот како комбинација на вештина и среќа. Во овој случај, подгрупата на учениците што ќе се со надпросечни резултати би се состоела од оние кои биле вешти и немале особено лоша среќа, заедно со оние кои биле невешти, но биле исклучително среќни. На повторното тестирање на ова подмножество, невештите лица веројатно нема да ја повторат својата среќа, додека  вештите ученици ќе имаат втора шанса да имаат лоша среќа. Оттука следи, оние кои претходно постигнаа добри резултати, веројатно нема да добијат исто толку добри резултати во вториот тест.

Важност

уреди

Регресијата кон средната вредност е значајна во дизајнирањето на експериментите.

Земете хипотетички пример за 1.000 лица на слична возраст кои биле испитани и оценети според ризикот од доживување на срцев удар. Статистиката може да се искористи за да се измери успехот на интервенцијата на 50-те кои беа оценети со најголем ризик. Интервенцијата може да биде промена во исхраната, вежбањето или третманот со лекови. Дури и ако интервенциите се безвредни, од тестираната група се очекува да покажат подобрување на нивниот следен физички преглед, поради регресија кон средната вредност. Најдобар начин за борба против овој ефект е да се подели групата по случаен избор во третирана група која прима третман и контролна група која не прима третман. Третманот потоа ќе се оцени како ефикасен само ако тераписката група ќе се подобри повеќе од контролната група.

Алтернативно, група на хендикепирани деца ( со пречки, тешкотии )може да се тестира за да се идентификуваат оние со најголем потенцијал да успеат на факултет. Топ 1% може да се идентификуваат и да се обезбедат со специјални курсеви за збогатување, туторство, советување и компјутери. Дури и ако програмата е делотворна, нивните просечни резултати може да бидат помали кога тестот се повторува една година подоцна. Меѓутоа, во овие околности може да се смета дека е неетички да имаат контролна група на хендикепирани деца чии посебни потреби се игнорираат. Математичка пресметка за намалување може да го прилагоди овој ефект, иако тоа нема да биде веродостојно како и методот на контролната група 

Ефектот, исто така, може да се експлоатира за општа инференција и проценка. Најтоплото место во земјата денес е поверојатно да биде поладно утре отколку потопло, во споредба со денеска. Најдобриот инвестициски фонд во последните три години е поверојатно дека ќе забележи пад на релативната ефикасност отколку што ќе се подобри во текот на следните три години. Најуспешниот холивудски глумец оваа година, најверојатно, ќе има помалку бруто добивка отколку повеќе за неговиот или нејзиниот следен филм. 

Недоразбирања

уреди

Концептот на регресија кон средна вредност може многу лесно да се употреби погрешно.

Во примерокот за студентски тест погоре, имплицитно се претпоставува дека она што се мери не се сменило помеѓу двете мерења. Сепак, да претпоставиме дека курсот бил положен/ паднат а од учениците се барало да добијат над 70 бода на двата теста за да положат. Тогаш учениците кои не добиле 70 бода првпат нема да имаат поттик да постигнат добри резултати, и може да го влошат резултатот вториот пат. Од друга страна, учениците кои имаат над 70 бода, би имале силен поттик да учат и да се концентрираат додека го полагаат тестот. Во тој случај може да се види оддалечување од 70, резултатите подолу се намалуваат и резултатите над него се зголемуваат. Можно е промените настанати помеѓу мерењата да ја зголемат или да ја намалат статистичката тенденција да се регресира кон средната вредност.

Статистичката регресија кон средната вредност не е причинска појава. Студентот со најлош резултат на тестот на првиот ден не мора нужно да го зголеми неговиот резултат значително на вториот ден само поради ефектот. Во просек, најлошите постигнувања се подобруваат, но тоа е вистина само затоа што најлошите веројатно се несреќни а не среќни. Кога резултатот се одредува по случаен избор, или резултатот има случајна варијација или грешка, а не да се утврдува според академската способност на студентот феноменот ќе има ефект. Класична грешка во овој поглед беше во образованието. Учениците кои добија пофалби за добра работа беа забележани да направат повеќе лошо за следната мерка, а учениците кои беа казнети за лоша работа беа забележани да се подобрат на следната мерка. Едукаторите одлучија да престанат со пофалби и да продолжат со казнување по оваа основа.[1] Таквата одлука беше грешка, бидејќи регресијата кон средна вредност не се заснова на причина и последица, туку на случајната грешка во природната дистрибуција околу средна вредност.

Заблуди со регресија

уреди

Многу феномени имаат тенденција да се припишат на погрешни причини кога регресијата кон средната вредност не се зема предвид.

Пресметувањето и толкувањето на "оценки за подобрување" на стандардизираните образовни тестови во Масачусетс веројатно претставува уште еден пример за заблудата во регресијата. Во 1999 година училиштата добија цели за подобрување. За секое училиште, Одделот за образование ги објави разликите во просечниот резултат постигнат од учениците во 1999 и во 2000 година. Брзо беше забележано дека повеќето од најслабите училишта ги исполниле своите цели, што одделот за образование го зеде како потврда за исправноста на нивните политики. Сепак, исто така беше забележано дека многу од наводно најдобрите училишта беа прогласени за неуспешни. Како и во многу случаи кои вклучуваат статистика и јавна политика, прашањето се дебатира, но "оценките за подобрување" не беа објавени во наредните години, а наодите се чини дека се регресија на просекот.[се бара извор]

Полициските политики во Обединетото Кралство го охрабруваат видливото позиционирање на статични или мобилни камери за брзина на места со поголем број на сообраќајни несреќи . Оваа политика беше оправдана со перцепција дека постои соодветно намалување на сериозните сообраќајни несреќи откако камерата е поставена. Сепак, статистичарите посочија дека, иако има нето корист во спасени животи, неуспехот да се земат предвид ефектите од регресија кон средната вредност резултира со преценување на придобивките.[2][3][4]

Бидејќи популарната настава се фокусираше на "регресија кон средната вредност", како причина за намалената изведба на спортистите од една сезона до друга, вообичаено се занемарува фактот дека таквата регресија, исто така, може да придонесе за подобри перформанси. На пример, ако се погледне просечниот број на погодени топки на играчите во Главната Бејзбол Лига во една сезона, оние чиишто просечни удари над нивото на лигата имаат тенденција да се регресираат надолу кон просекот следната година, додека оние чии просечни удари се под просекот имаат тенденција да напредуваат кон просекот следната година.[5]

Други статистички феномени

уреди

Регресијата кон средната вредност едноставно вели дека, по екстремен случаен настан, следниот случаен настан веројатно ќе биде помалку екстремен. Во никој случај, идниот настан не "компензира за" или "го израмнува" претходниот настан, иако ова се претпоставува во заблудата на коцкарот. Слично на тоа, законот за големи броеви вели дека на долг рок, просекот ќе се стреми кон очекуваната вредност, но не дава изјава за поединечните испитувања. На пример, следејќи го паѓањето на 10 глави едноподруго при фрлање на монета (редок, екстремен настан), регресијата кон средната вредност гласи дека следните паѓања на глави, најверојатно, ќе биде помал од 10, додека законот за големи броеви вели дека на долг рок, овој настан, најверојатно, ќе се приближи до просекот а тое е 1/2 од вкупните фрлања. Спротивно на тоа, заблудата на коцкарот погрешно претпоставува дека монетата сега е "должна" за редица на петки, за да се балансира.

Белешки

уреди
  1. Kahneman, D. (2011) 'Thinking Fast and Slow, FSG. ISBN 978-0-374-27563-1
  2. The Times, 16 December 2005 Speed camera benefits overrated[мртва врска]
  3. Mountain, L. (2006). „Safety cameras: Stealth tax or life-savers?“. Significance. 3 (3): 111–113. doi:10.1111/j.1740-9713.2006.00179.x.
  4. Maher, M.; Mountain, L. (2009). „The sensitivity of estimates of regression to the mean“. Accident Analysis & Prevention. 41 (4): 861. doi:10.1016/j.aap.2009.04.020.
  5. For an illustration see Nate Silver, "Randomness: Catch the Fever!", [1]Baseball Prospectus, May 14, 2003.