Варијанса
Во теоријата на веројатност и статистиката, варијанса (или дисперзија) на случајна променлива, распределба на веројатноста или примерок е мерка на статистичката дисперзија (расејување), пресметувајќи ја средната вредност на квадрираното растојание на дадените вредности од очекуваните (средини). Бидејќи средината е начин за да се опише локацијата на дистрибуцијата, варијансата е начин за да се пресмета нејзиниот опсег или степен на ширење. Единицата на варијансата е квадрат од оригиналната променлива. Позитивниот квадратен корен од варијансата се нарекува стандардно отстапување.
Варијансата од реално-вредносна случајно избрана променлива е неговиот втор централен момент и често се случува да биде негова втора кумуланта. Како што некои распределби немаат средина, така некои немаат ни варијанса. Средината постои секогаш кога постои варијанса, но не и обратно.
Дефиниција
уредиАко случајната променлива X има очекувана вредност (средина) μ = E(X), тогаш варијансата Var(X) од X е дадена со:
Оваа дефиниција ги опкружува случајните променливи, кои се дискретни, континуирани или ниту како првите ниту како вторите. Од сите точки за кои квадрираните отстапувања се пресметуваат, средината создава минимална вредност за средниот збир од квадрираните отстапувања.
Оваа дефиниција за случајната променлива X обично се запишува како Var(X), или едноставно σ2. Ако распределбата нема очекувана вредност, како во случајот со Кошиевата распределба, тогаш нема ни варијанса. Многу други распределби за ко очекуваната вредност постои немаат конечна варијанса, бидејќи нејзиниот интеграл дивергира. Пример е Паретовата распределба, чијшто Паретов индекс k го задоволува условот1 < k ≤ 2.
Непрекинат случај
уредиАко случајната променлива X е непрекината со густина на веројатноста p(x), тогаш:[1]
каде:
и каде интегралите се определени интеграли земен за x со опсег над опсегот на X.
Прекинат случај
уредиIАко случајната променлива X е прекината со функцијата на веројатноста x1 ↦ p1, ..., xn ↦ pn,
(Кога прекинатата немерлива варијанса е специфична со немерливост, чијшто збир не е 1, тогаш еден поделен со сумата на немерливоста.) Тоа е очекуваната вредност на квадратот на отстапувањето на X од неговата средина. Поедноставно кажано, оа може да биде изразено како „просекот на квадратот на растојанието на секој податок од средината“. Тоа е средното квадрирано отстапување.
Примери
уредиЕкспоненцијална распределба
уредиЕкспоненцијалната распределба со прамаетар λ е непрекината распределба, чија поддршка е полуотворениот интервал [0,∞). Неговата непрекината распределба на веројатноста е дадена со:
и има очекувана вредност μ = λ−1. Поради тоа варијансата е еднаква на:
За експоненцијалната распределба на случајна променлива σ2 = μ2.
Коцка
уредиШестстраната коцка може да биде моделирана со прекинатата случајна променлива со исход од 1 до 6, од кои секој брј со еднаква веројатност да се падне 1/6. Очекуваната вредност е (1+2+3+4+5+6)/6 = 3.5. Поради тоа варијансата може да биде пресметана со:
Својства
уредиВаријансата не може да биде негативна, бидејќи квадратот на некој број секогаш е позитивен или еднаков на нула. Варијансата од случајно избрана променлива е нула и варијансата од променлива во базатаа на податоци е 0, ако и само ако примероците имаат иста вредност.
Важни својства на варијансата кои го олеснуваат нејзиното пресметување се следниве:[2]
Var (X) = E(X2) - [E(X)]2
Var (aX) = (a2) × Var(X)
Варијансата е инваријанта во однос на промените во коефициентот на пораст. Ако некоја константа се додаде на сите вредности од променливата, тогаш варијансата не се менува. Ако сите вредности се помножат со иста константа, тогаш варијансата се множи со квадратот од таа константа. Овие две примени може да се изразат во следнава формула:
Варијансата од конечен збир на неповрзани случајни променливи е еднаков на збирот на нивните варијанси. Ова придонесува за идентитетот:[1]
и дека за неповрзаните променливи коваријансата е нула.
Да претпоставиме дека набљудувањата може да се поделат во подгрупи според некои, втора варијанса. Тогаш варијансата од целата група е еднаква со средната вредност на варијансите на подгрупите плус варијансата од средните вредности на подгрупите. Оваа примена е позната како варијансна декомпозиција или закон за вкупна варијанса и има значајна улога во анализата на варијансата. На пример, да претпоставиме дека една група се состои од подгрупа од мажи еднаква со подгрупа на жени. Да претпоставиме дека мажите се високи по 180 и варијансата на висината е 100. Претпоставуваме дека жените се високи 160, а варијансата на нивната висина е 50. Тогаш средната варијаса изнесува (100 + 50) / 2 = 75; варијанса од средните вредности е варијанса од 180 и 160, што е еднакво на 100. Тогаш за вкупната група на мажи и жени, варијансата за висината е 75 + 100 = 175. Треба да се забележи и тоа дека за именител се употребува N наместо N - 1.
Во поважен случај, ако подгрупите имаат нееднаква големина, тогаш мора да бидат пропорционални на нивната големина во сшоредба со средната вредност и варијансите. Форм улата исто така може да се применува и во случај кога има повеќе од две групи, па дури и ако гропирањето на променливите е непрекинато.[2]
Оваа формула покажува дека варијансата на вкупната група не може да биде помала од средната вредност на варијансите на подгрупите. И покрај тоа, се забележува дека,вкупната варијанса не е поголема од варијансите на подгрупите. Во горниот пример, кога подгрупите се анализирани одвоено, варијансата е под влијание само на разликите меѓу мажите и жените. Ако двеет групи се комбинирани, тогаш и разликите меѓу мажите и жените се вклучуваат во варијансата.
Многу формули за пресметка на варијансата се засноваат на следново равенство: Варијансата е еднаква на средната вредност на квадаратите минус квадратот од средината. На пример, ако се дадени броевите 1, 2, 3, 4, тогаш средината од квадратите е (1 × 1 + 2 × 2 + 3 × 3 + 4 × 4) / 4 = 7.5. Средната вредност е 2.5, па квадрат од средната вредност 6.25. Поради тоа tваријансата е 7.5 - 6.25 = 1.25, што всушност е истиот резултат добиен со претходно дефинираните формула. Многу дигитрони користат алгоритам, кој е заснован на оваа формула и овозможува да се пресмета варијансата додека податоците се запишани, без да се чуваат сите податоци во меморијата. Алгортамот служи за да се пресметаат само три променливи, кога е впишан ноовиот податок: Бројот на запишани податоци (n), збирот на вредностите (S) и збирот на квадрираните вредности (SS). На пример, ако податоците се 1, 2, 3, 4, тогаш по запишувањето на првата вредност, алгоритамот би дал n = 1, S = 1 и SS = 1. По запишувањето на втората вредност (2), би дал n = 2, S = 3 и SS = 5. Кога сите податоци би биле запишани, би се добило n = 4, S = 10 и SS = 30. Следно, среднаат вредност се пресметува како M = S / n и конечно варијансата е пресметана како SS / n - M × M. Во овој пример, таа изнесува 30 / 4 - 2.5 × 2.5 = 7.5 - 6.25 = 1.25. Ако се пресметува проценетата вредност, резултатот би бил помножен со n / (n - 1), што дава 1.667 во овој пример.
Главни својства
уредиВаријанса од збирот на коваријансни променливи (Биномна формула)
уредиПричина за примена на варијансата пред другите мерки на дисперзија е тоа дека варијансата од збирот (или разликата) на коваријансни случајни променливи е збирот од нивните варијанси:
Ова тврдење е наречено Бинајмова формула[3] и било откриено во 1853. Ова обуично се применува при посилни услови, кога променливите се независни, но коваријансно доволни. Па ако променливите имаат иста варијанса, σ2, тогаш, како што поделбата за n е линеарна трансформација, оваа формула веднаш влијае на тоа варијантата од нејзината средна вредност да е
Ова е намалување на варијансата од средната вредност со n. Ово податок се користи во дефинирањето на стандардната грешка од средната вредност, којашто се применува во теоремата за централно ограничување.
Варијанса од збир на коваријансни променливи
уредиГлавно, ако променливите се коваријансни, тогаш варијансата од нејзиниот збир е збирот од нејзините коваријанси:
(Забелешка: Ова по дефиниција ја вклучува варијансата на секоја променлива, штом Cov(X,X)=Var(X).)
Овде Cov iе коваријансата, којашто е нула за независните случајни променливи (ако такви постојат). Формулата тврди дека варијансата од збирот е еднаква од збирот на сите елементи во коваријансната матрица. Оваа формула се применува во теоријата за Кронбаховата алфа во класичната тест-теорија.
Па, ако променливите имаат еднаква варијанса, σ2 и просечната корелација на променливите одделно е ρ, тогаш варијансата од нивната средна вредност е
Ова покажува дека варијансата од средна вредност се зголемува со просекот од корелациите. Освен тоа, ако променливите имаат единечна варијанса, на пример ако се стандардизирани, тогаш ова се упростува во
Оваа формула се применува во Спирман-Брауновата теорија за предвидување formula во класичната тест-теорија. Ова конвергира до ρ ако n се стреми кон бесконечност, обезбедувајќи просечните корелации да ја надминат константата или конвергентноста исто така. За варијансата на средната вредност на стандардизираните променливи со еднакви корелации или конвергиррачки просечни корелации имаме
Поради тгоа, варијансата од средната вредност од поголем број на стандардизирани променливи е отприлика еднаков на нивната просечна корелација. Со ова станува појасно дека едноставната средна вредност на корелациските променливи, главно не конвергира до средната вредност на популацијата, дури и законот за големи броеви потврдува дека едноставната средна вредност ќе конвергира за независни променливи.
Варијанса од поголем збир на променливи
уредиПримените 6 и 8, со примена на коваријансата: Cov(aX, bY) = ab Cov(X, Y) заеднички покажуват дека
Ова покажува дека во голем збир на променливи, најголемата променлива ќе биде диспропорционално поголема во варијансата на вкупната големина. На пример, ако X и Y се коваријансни и X е двапати поголемо од Y, тогаш големината на варијансата за X ќе биде 4 пати поголема од варијансата на Y.
Декомпозиција на варијанса
уредиГлавната формула за варијансната декомпозиција или законот за вкупната варијанса гласи: Ако X и Y се две случајни променливи и варијансата од X постои, тогаш
Овде, E(X|Y) е условно очекување на X дадено за Y и Var(X|Y) е условена варијанса за X дадена заY. (Поинтуитивно објаснување е тоа дека ако едадена вредноста за Y, тогаш X следува по распределба со средна вредност E(X|Y) и варијанса Var(X|Y). Горната формула кажува како да се најде варијансата Var(X) заснована на распределбата на овие две вредности, кога Y варира.)Ова формула има честа примена во анализата на варијансата, каде соодветната формула е
Таа, исто така се применува и во анализата на линеарна регресија, каде формулата е
Ова може да се добие и од дотатокот на варијансите (примена 8), кога вкупниот (набљудуваниот) износ е збир од предвидениот износ и износот на грешката, каде последните две се коваријансни.
Формула за пресметување на варијансата
уредиФормулата за пресметување на варијансата следува во едноставна форма од линеарноста на очекуваните вредности и горнта дефиниција:
Ова често се применува за пресметување на варијансата во практиката иако е подлежно на губење на важност ако два составни дела од равенката се идентични по глемина.
Карактеристично својство
уредиВториот момент на случајната променлива постигнува минимална вредност кога се зема околу првиот момент (т.е. средната вредност) на случајната променлива, т.е. . Во спротивно непрекинатата функција го задоволува условот за сите случајни променливи за X, тогаш доаѓа до обликот , кадеa > 0. Ова, исто така е случај во повеќедимензионалноста.[4]
Одредување на приближната вредност на варијансата од функцијата
уредиДелта методот во втор ред го користи Тејлоровиот ред за да се определи приближната вреднот на варијансата на функцијата од една или повеќе случајни променливи. На пример прибилижната вредност на варијансата на функцијата со една променлива е
обезбедува дека f е двапати диферентабилно и дека средната вредност и варијансата на X се конечни.
Варијанса на популација и проста варијанса
уредиВаријансата од популација на конечна популација со големина N се пресметува со следнава форула:[5]
или ако популацијата е апстрактна популација со распределба на веројатноста Pr:[6]
каде е средна вредност на популацијата. Ова е освен другото посебен случај на главната дефиниција за варијансата наведена погоре, но ограничена на конечните популации.
Во многу практични ситуации, вистинската варијанса на популацијата е позната како a priori и мора некако да биде пресметана. Кога се работи со бесконечни популации, ова, е невозможно.
Ова е вообичаен метод за проценување на варијансата од големи (конечни и бсконечни) популации од примерок. Даден е статистичкиот примерок за n вредности од популацијата и проценката на варијансата врз основа на овој примерок. Има неколку добри пресметки. Две од нив се добро познати:
и
И двете се познати како проста варијанса. Многу напредни електронски дигитрони може да ги пресметаат и sn2 и s2 со притискање на копче, во којшто случај копчето обично е означено со σ2 или σn2 за sn2 и σn-12 за s2.
Како што може да се забележи, двете пресметки се разликуваат многу малце една од друга и за поголема вредност на големината на примерокот n разликата е занемарлива. Вториот е склон пресметувач на популационата варијанса, што значи дека неговата очекувана вредност е еднаква со вистинската варијанса од слочајната променлива. Птрвото може да изгледа како варијанса од примерок како популација.
Здарвиот разум препорачува да се применува поедноставната формула. Причината поради која тоа е склониот пресметувач е дека простата средина е неѓшто позатворена за набудувањето во однос на популационата средина. Ова е поради тоа што простата средина е дефинирана како средина на примерокот, додека популационата средина може да биде дури лажна надвор од примерокот. Така, девијациите, често ќе бидат помали од девијациите на популационата средина и ако истата формула се примене за двете, тогаш оваа проценка на варијансата ќе биде просек, нешто помал од оној во примерокот, отколку во популацијата.
Вообичаен извор на конфузија е терминот проста варијанса, кој може да се однесува и на склониот пресметувач, на популационата варијанса, или на варијансата од примерокот обработен како конечна популација. И двата може да бидат применети за проценување на вистинската вредност на популационата варијанса. Надвор од теоретските гледања, нема големо значење кој се применува. За маи големини и двата се препорачливи, а за големи вредности за n, тие се практично идентични. Пресметувањето на варијансата со делење соn наместо со n-1, симетрично ја потценува популационата варијанса. Освен тоа, во практичната примена, многу луѓе известуваат за стандардното отстапување, отколку за простата варијанса и стандардното отстапување се добива од склоната верзија n-1 на простата варијнса и има мала негативна склоност (за нормална распределба на примероците постои теорискиот интерес, но ретко применуван како скло пресметувач на стандардното отстапување). Сепак, во применетата статистика, има спогодба, според која, ако сите варијанси од стандардното отстапување се пресметани просто. Дефинирањето на стандардниот статистички тест, како Студентовата t-проверка, се исто изразени во терминот на проценето стандардно отстапување, каде се претполага дека се работи според оваа спогодба.
Вопрактиката, за големо , разликата често е мала. Во курс за статистички мерења, всушност не се ни појавува склоност нкон варијанса како оправдувањета за премног малата вредност. Во овој контекст [7] се зборува дека ако разликите мѓу n и n−1 секогаш имаат исто значење за читателот, но не е секогаш тоа најдобро. Во случај, кога немате нешто на ум - т.е. се обидува да се докаже прашалната хипотеза со маргиналниот податок
Распределба на простата варијанса
уредиПри дадена функција на случајни променливи, простата варијанса е случајна променлива и е природно да се дознае за нејзината распределба. Во случај кога се независни набљудувања од нормална распределба, Кохреновата теорема пкажува дека доведува до хи-квадратна распределба:
Како директна последица на ова, следува дека И покрај тоа, дури и во отсуство на нормална претпоставка, сѐ уште е можно да се докаже дека is unbiased for .
Воопштувања
уредиАко е векторско-вредносна случајна променлива, со вредност во и се мисли на вектор со една колона, тогаш, природното воопштување на варијансата е , каде и е транспонирано од и се добива векктор со еден ред. Оваа варијанса е позитивна полуопределена квадратна матрица, обично нарекувана коваријансна матрица.
Ако е комплексно- вредносна случјајна променлива, со вредност во , тогаш неговата варијанса е , каде е конјугов комплексен број на . Оваа варијанса е исто така полуопределена квадратна матрица.
Ако се дефинирани случајни променливи во n-димензионален континуум x, вкрстената коваријанса од променливите A[x] и B[x] како функција од n-димензионалното векторско разместување Δx може да се дефинира како σAB[Δx] ≡ 〈(A[x+Δx]-μA)(B[x]-μB)〉x. Овде популацијата (како разлика од примерок) просечно изнесува повеќе, а x е обележан со аглестите загради 〈 〉x или грчката буква μ.
Оваа количина е нречена второмоментна мерка на корелација, бидејќи тоа е воопштување на второмоментната статистичка варијанса, понекогаш се става во бездимензионален облик со нормализирање со популациското стандардно отстапување од A и B (на пр. σA≡Sqrt[σAA[0]]).. Ова резултира со корелациски коефициент ρAB[Δx] ≡ σAB[Δx]/(σAσB) којшто поприма вредност меѓу плус и минус еден. Кога A е идентично со B, претходниот израз ппоприма вредности за автоковаријансата, количина позната и во теоријата на растурање како корелациски пар (или Патерсонова) функција.
Ако е дефиниран простиот склон коефициент ρ како просек од автокорелацискиот коефициент ρAA[Δx] над сите парови во низата од M прости точки[8], склона проценка за очекуваната грешка во средината од A е квдаратен корен од: простата варијанса (земена како популација) помниожена со (1+(M-1)ρ)/((M-1)(1-ρ)). Кога ρ iе многу поголем од 1/(M-1), ова го намалува квадратниот корен од: простата варијанса (земена како ппопулација) помножена со ρ/(1-ρ). Кога |ρ| е многу пмало од 1/(M-1), ова поприма посоодветен израз за стандардна грешка, имено квдратен корен од: простата варијанса (земена како популација) над (M-1).
Историја
уредиПоимот варијанса бил воведен од страна на Роналд Фишер во неговиот напис од 1918, ансловен Корелацијата меѓу релативностите на претпоставката на Менделеевото наследтсво[9]:
Големото тело на достапната статистика ни покажува дека отстапувањата на човечките димензии од неговата средина е многу блиску со нормалнуиот закон за грешки и поради тоа дека променливоста може да биде be единствено мерена со стандардното отстапување, според квадратниот корен од средната квадратна грешка. Кога има две независни причини на променливите од создавањето на распределба на популациите во друг облик со стандардно отстапување and , пронајдено е дека распределбата, кога двете причина настануваат заедно има стандардно отстапување . Поради тоа, ппжелно е во анализирањето на причините на променливоста да се подели со tквадратот од стандардните отстапувања како мерка за променливост. Оваа количина ќе ја поимаме варијанса...
Момент на инерција
уредиВаријансата од распределба на веројатноста е аналогна на моментот на инерција во класичната механика на аналогната распределба на масата во линијата, со почит на ротацијата околу центарот на масата. Тоа е поради оваа аналогија, со која некои работи како варијанса се наречени моменти на распределба на веројатностите. Коваријансната матрица е поврзана со моментот на инерција за повеќеваријациските дистрибуции. Моментот на инерција од n-точки со коваријансна матрица од е претставена со
Оваа разлика меѓу моментот на инерција во физиката и во статистиката е јасна за точките кои се собрани околу линијата. Претпоставка е дека многу точки се блиску до x и се распоредени околу неа. Коваријансната матрица може да изгледа
Тоа е најголемата варијанса во правец на x. И покрај тоа, физичарите сметаат дека ова има слаб момент околу x оската, па моментотна инерција е
Поврзано
уреди- Алгоритам за пресемтување на варијанса
- Нееднаквост во состојбата и опсежните параметри
- Коваријанса
- Чебишово нервенство
- Проценување на коваријансните матрици
- Објаснета варијанса и необјаснета варијанса
- Коефициент на ексцес
- Средна апсолутна грешка
- Квалитативна варијанса
- Проста средина и коваријанса
- Полуваријанса
- Коефициент на асиметрија
- Стандардно отстапување
- Вистинска варијанса
Наводи
уреди- ↑ 1,0 1,1 Philippe Jorion, Value at Risk: The New Benchmark for Controlling Market Risk. New York et al.: McGraw-Hill, 1997, стр. 71.
- ↑ Joël Bessis, Risk Management in Banking (second edition). Chichetser, UK: John Wiley and Sons, 2002, стр. 86.
- ↑ Michel Loeve, "Probability Theory", Graduate Texts in Mathematics, Volume 45, 4th edition, Springer-Verlaf, 1977, p. 12.
- ↑ A. Kagan and L. A. Shepp, "Why the variance?", Statistics and Probability Letters, Volume 38, Number 4, 1998, pp. 329–333. (online [1])
- ↑ Боривоје Миладиновиќ, Трајче Ѓорѓијевски и Никола Петрески, Математика за II година гимназиско образование. Скопје: Алби, 2009, стр. 195.
- ↑ Боривоје Миладиновиќ, Трајче Ѓорѓијевски и Никола Петрески, Математика за II година гимназиско образование. Скопје: Алби, 2009, стр. 190.
- ↑ Press, W. H., Teukolsky, S. A., Vetterling, W. T. & Flannery, B. P. (1986) Numerical recipes: The art of scientific computing. Cambridge: Cambridge University Press. (online Архивирано на 16 мај 2008 г.)
- ↑ P. Fraundorf (1980) "Microcharacterization of interplanetary dust collected in the earth's stratosphere" (Ph.D. Dissertation in Physics, Washington University, Saint Louis MO), Appendix E
- ↑ Ronald Fisher (1918) The correlation between relatives on the supposition of Mendelian Inheritance Архивирано на 13 декември 2005 г.
Надворешни врски
уреди- A Guide to Understanding & Calculating Variance Архивирано на 20 април 2010 г.
- Fisher's original paper Архивирано на 13 декември 2005 г. (pdf format)
- A tutorial on Analysis of Variance devised for first-year Oxford University students