Порамнување на низи

процес во биоинформатиката

Во биоинформатиката, порамнувањето на низи претставува начин на подредување на низите на ДНК, РНК или белковини за да се идентификуваат региони на сличност, што може да биде последица на функционални, структурни и/или еволуциони односи помеѓу низите.[1] Порамнетите нуклеотидни или аминокиселински низи обично се претставени како редови во рамките на матрица. Понекогаш се вметнуваат празнини помеѓу нуклеотидните или аминокиселинските остатоци за да идентичните или слични знаци бидат подредени во последователни колони. Порамнувањето на низи се користи и за небиолошки низи, како што е пресметувањето на edit distance cost помеѓу низите во некој природен јазик или, пак, во финансиски податоци.

Порамнување на низи на хистонски белковини на цицачи, создадена од ClustalO. Низите се состојат од аминокиселинските остатоци 120-180 на белковините. Остатоците кои се сочувани во сите низи се означени со сива боја. Знаците под низите означуваат: сочувани низи (*), сочувани мутации (:), семиконзервативни мутации (.), и неконзервативни мутации ( ).[2]

Толкување

уреди

Ако две порамнети низи споделуваат заеднички предок, тогаш несогласувањата може да се толкуваат како точкести мутации, а празнините како индели (т.е., мутации на вметнување или бришењето), кои се појавиле од времето на нивната дивергенција. Кај порамнувањето на белковинските низи, степенот на сличност меѓу аминокиселините, кои заземаат одредена позиција во низата, може да се толкува како груба мерка за тоа колку е сочуван одреден регион или низен мотив кај различни низи кои имаат заеднички предок. Отсуството на супституции (замени), или присуството само на конзервативни супституции (т.е., супституции на аминокиселини чии странични ланци имаат слични биохемиски својства) во одреден регион на низата, укажуваат на тоа дека регионот има структурна или функционална значајност.[3] Иако азотните бази на ДНК и РНК повеќе се слични меѓу себе, во споредба со поголемата разнообразност на аминокиселините, сочуваноста на базните парови може да индицира слична функционална или структурна улога.

Методи на порамнување

уреди

Порамнувањето на многу кратките или многу сличните низи може да се изврши рачно. Сепак, повеќето интересни случаи вклучуваат порамнување на долги, варијабилни или бројни низи, чие рачно порамнување е речиси неизводливо. Наместо тоа, се употребуваат различни алгоритми за добивање на висококвалитетни порамнувања на низи, каде единствената постапка која треба да се изврши рачно е повременото прилагодување на конечните резултати за да се одразат одредени одлики кои тешко се претставуваат алгоритамски (особено во случајот на нуклеотидните низи). Постојат две категории на сметачки пристапи кон порамнувањето на низи: глобално порамнување и локално порамнување. Пресметувањето на глобалното порамнување е форма на глобална оптимизација која прави да порамнувањето се протега по целата должина на сите испитувани низи. За разлика од него, кај локалното порамнување се идентификуваат слични региони во рамките на долги низи кои често се значително дивергентни. Обично повеќе се претпочитаат локалните порамнувања, но проблемот кај нив е што мора прво да се идентификуваат сличните региони.[4] Во употреба се повеќе различни компјутерски алгоритми за порамнување на низи. Едни од нив се релативно бавните, но формално точните методи на динамичко програмирање. Други методи се евристичките алгоритми или пробабилистичките методи наменети за пребарување на големи бази на податоци, но кај нив не е загарантирано пронаоѓањето на најдобрите резултати.

Претставување

уреди

Порамнувањата на низите најчесто се претставуваат графички и во текстуален формат. Во речиси сите претставувања на порамнувањето на низи, низите се напишани во редици кои се подредени на тој начин што порамнетите аминокиселински или нуклеотидни остатоци се наоѓаат во последователни (сукцесивни) колони. Во текстуалните формати, порамнетите колони, кои содржат идентични или слични знаци, се означуваат со систем на симболи за сочуваност. Како што е прикажано на сликата погоре, ѕвездичката или вертикалната црта се користат за одбележување на идентичност, додека двете точки се користат за одбележување на конзервативни супституции, а точката се користи за семиконзервативни супституции. Многу програми за визуелизација на низи исто така користат бои за прикажување на информации за својствата на поединечните елементи на низите; во ДНК и РНК-низите, ова се изведува со назначување на посебна боја за секој нуклеотид. Кај порамнувањето на белковинските низи, бојата најчесто се користи за прикажување на својствата на аминокиселините, што помага во проценката на сочуваноста на одредена аминокиселинска супституција. Кај порамнувањето на повеќе низи, последниот ред во секоја колона е често консензус низа утврдена со порамнувањето; консензус низите често се претставени во графички формат со низно лого во кое големината на буквата (знакот) за секој нуклеотид или аминокиселина одговара на степенот на сочуваност.[5]

Порамнувањата на низите може да бидат зачувани во широк спектар на текстуални формати на податотеки. Повеќето веб-засновани алатки овозможуваат ограничен број на влезни и излезни формати, како што се FASTA форматот и GenBank форматот, а излезот не може лесно да се уредува. Достапни се неколку конверзиони програми кои обезбедуваат графички и/или командна линија интерфејс, како што се READSEQ и EMBOSS. Исто така постојат и неколку програмски пакети кои ја нудат оваа конверзиска функционалност, како што се BioPython, BioRuby и BioPerl. SAM/BAM податотеките го користат CIGAR (од англ., Compact Idiosyncratic Gapped Alignment Report) форматот за да претстават порамнување на низа на референца со шифрирање на низа на настани (на пример, согласување/несогласување, вметнувања, бришења).[6]

Глобално и локално порамнување

уреди

Глобалните порамнувања, кои се обидуваат да ги порамнат сите остатоци во секоја низа, се најкорисни кога испитуваните низи се слични и со приближно еднаква големина. (Ова не значи дека глобалните порамнувања не можат да започнат и/или да завршат со празнини.) Честа техника за глобално порамнување е Нидлман–Вуншовиот алгоритам, кој е заснован на динамичко програмирање. Локалните порамнувања се повеќе корисни за низи со низок степен на сличност, за кои се смета дека содржат региони на сличност или слични низни мотиви во рамките на поголемиот низен контекст. Смит–Вотермановиот алгоритам е метод кој најчесто се користи за локално порамнување, а се заснова на истата шема на динамичко програмирање, но со дополнителни избори за почеток и крај на кое било место.[4]

Постојат и хибридни методи, познати како полуглобални или „глокални“ методи (кованица за глобално-локални). Тие го бараат најдоброто можно делумно порамнување на двете низи (пред порамнувањето треба да се изберат подгрупи на еден или два почетока и еден или два краја). Ова порамнување може да биде особено корисно кога низводниот дел на една низа се поклопува со нагорниот дел на другата низа. Во овој случај, ниту глобалното ниту локалното порамнување не се сосема соодветни: глобалното порамнување би се проширило надвор од преклопниот регион, додека локалното порамнување не би го покрило целиот регион на преклопување.[7] Друг случај каде полуглобалното порамнување е корисно е кога едната низа е кратка (на пример, генска низа), а другата низа е многу долга (на пример, хромозомска низа). Во тој случај, кратката низа треба да биде глобално (целосно) порамнета, но за долгата низа се бара само локално (делумно) порамнување.

Порамнување во парови

уреди

Методите за порамнување во парови се користат за да се најдат најдобрите (локални и глобални) порамнувања на две испитувани низи. Порамнувањето во парови може да се користи само помеѓу две низи во исто време, но тие се ефикасни за пресметување и често се користат за методи кои не бараат голема прецизност (како што е пребарување на основа на податоци за низи со висока сличност со испитуваната низа). Трите основни методи на добивање на порамнување во парови се методите на точкеста матрица, динамичкото програмирање и методите со кратки зборови;[1] сепак, техниките за порамнување на повеќе низи, исто така, можат да се користат за порамнување на парови на низи. Иако секоја од методите има свои предности и недостатоци, сите три методи имаат тешкотии со високо повторливи (репетитивни) низи со ниско ниво на информациска содржина - особено каде бројот на повторувања се разликуваат во двете низи кои треба да се порамнат. Еден од начините за квантифицирање на корисноста на дадено порамнување во парови е MUM (од англ., maximum unique match), или најдолгата потниза која се јавува во двете испитувани низи. Подолгите MUM низи обично означуваат поблиска сродност.

Методи на точкеста матрица

уреди
 
Самоспоредба на дел од геномот на глушец. Дијаграмот на точкеста матрица прикажува мрежа од линии, кои означуваат дуплицирани сегменти на ДНК.
 
ДНК дијаграм на точкеста матрица на транскрипционен фактор на цинков прст кај човек (GenBank ID NM_002383). Главната дијагонала го претставува порамнувањето на низата со самата себе; линиите надвор од главната дијагонала претставуваат слични или повторувачки региони во низата.

Концепциски едноставен и квалитативен пристап е пристапот на точкеста матрица, чија негативна страна е што одзема многу време за извршување на обемни анализи. Во отсуството на шум, со овој метод многу лесно визуелно се идентификуваат одредени својства на низата, како што се вметнувања, бришења, повторувања или превртени повторувања. За да се конструира дијаграм на точкеста матрица, едната низа се наведува по должината на најгорниот ред, а другата низа се наведува по должината на најлевата колона од дводимензионалната матрица. Потоа се нанесува точка во секое квадратче каде постои поклопување (совпаѓање) на знаците од низите, што претставува типичен дијаграм на повторливост. Некои имплементации ја менуваат големината или интензитетот на точката во зависност од степенот на сличност на двата знака, за да се прикажат конзервативните замени (супституции). Дијаграмите на точкеста матрица на многу блиску сродни низи имаат изглед на единечна линија која се движи по главната дијагонала на матрицата.

Негативни страни на дијаграмите на точкестата матрица како техника за прикажување на информации се: шумот, недостатокот на јасност, неинтуитивноста, тешкотии за екстракција на статистички податоци за поклопувањата, наоѓањето на позициите на поклопување на двете низи, заземањето на голем простор од шумот и ограниченоста на само две низи.

Дијаграмите на точкестата матрица, исто така, можат да се користат за процена на повторливоста во една низа. Тоа се постигнува со нанесување на истата низа и по хоризонтала и по вертикала во дијаграмот, па регионите на низата што споделуваат голема сличност ќе се појават како линии надвор од главната дијагонала. Овој ефект се јавува кога белковината содржи послични структурни домени.

Динамичко програмирање

уреди

Техниката на динамичко програмирање може да се примени за добивање на глобално порамнување на низи преку Нидлман–Вуншовиот алгоритам, и за добивање на локално порамнување на низи преку Смит–Вотермановиот алгоритам. Порамнувањата на белковинските низи користат матрица на замена (матрица на супституција) за доделување на бодови на совпаѓањата или несовпаѓањата на аминокиселините, и казни за празнини во едната низа, каде нема порамнување со соодветен остаток од другата низа. Порамнувањата на ДНК и РНК-низите може исто така да користат матрица на замена, но во пракса често едноставно се доделува позитивна вредност за совпаѓање, негативна вредност за несовпаѓање и негативна вредност за празнина. Често се во употреба и две различни вредности за казна за празнина во низата; едната е за отворање на празнина, а другата е за проширување (екстензија) на празнина. Обично казната за отворање на празнина е многу поголема од казната за проширување на празнина; на пример, казна од -10 за отворање на празнина и казна од -2 за проширување на празнина.

Динамичкото програмирање може да биде корисно за порамнување на нуклеотидна низа во однос на белковинска низа, која задача е комплицирана поради потребата да се земат предвид фрејмшифт мутациите (обично вметнувања или бришења). Фрејмсрч методот создава серија на глобални или локални порамнувања во парови помеѓу испитуваната нуклеотидна низа и група на белковински низи, или обратно. Неговата способност да евалуира фрејмшифт, кои се компензираат со произволен број нуклеотиди, го прави корисен метод за оние низи кои содржат голем број на индели, кои многу тешко се порамнуваат со поефикасните евристички методи. Во пракса, методот бара голема компјутерска моќ или систем чија архитектура е специјализирана за динамичко програмирање. BLAST и EMBOSS алгоритмите обезбедуваат основни алатки за создавање на транслатирани порамнувања (иако некои од овие пристапи ги искористуваат несаканите ефекти од способноста за пребарување на низи на овие алатки). Достапни се и поопшти методи од комерцијални извори, како што е FrameSearch, дистрибуиран како дел од Accelrys GCG пакетот, и софтвер со отворен код (оpen-source software), како што е Genewise.

Методот на динамичко програмирање загарантирано наоѓа оптимално порамнување, со дадена функција за бодување; сепак, идентификувањето на добра функција за бодување често претставува емпириска, а не теоретска проблематика. Иако динамичкото програмирање може да се примени на повеќе од две низи, тоа е премногу бавно за голем број на низи или исклучително долги низи.

Методи со кратки зборови

уреди

Методите со кратки зборови, исто така познати како к-tuple методи, се евристички методи кои не гарантираат пронаоѓање на оптимално порамнување на низите, но се значително поефикасни во споредба со динамичкото програмирање. Овие методи се особено корисни при пребарувањата на големите бази на податоци, каде се очекува дека поголемиот дел од низите немаат значително совпаѓање со испитуваната низа. Методите со кратки зборови се применуваат во познатите и широко-користени алатки за пребарување на базите на податоци FASTA и BLAST.[1] Кај овие методи се идентификуваат серија на кратки, непреклопувачки потнизи („зборови“) во испитуваната низа, кои потоа се споредуваат со низите од базата на податоци. Релативните позиции на „зборот“ во двете низи што треба да се споредат се одземаат за да се добие вредност на поместување; на овој начин, доколку неколку различни зборови го произведат истото поместување, ќе се манифестира регион на порамнување. Само ако се открие ваков регион, потоа се пристапува кон примена на почувствителни критериуми за порамнување. На овој начин се елиминираат многу непотребни споредби помеѓу низите кои немаат доволна сличност.

Кај методот FASTA, корисникот дефинира вредност k за должина на „зборот“ кој ќе се користи за пребарување на базата на податоци. Методот е побавен и почувствителен доколку се користат пониски вредности за k, кои се претпочитаат доколку испитуваната низа е многу кратка. Семејството на методите за пребарување BLAST обезбедува повеќе алгоритми оптимизирани за одредени типови на пребарувања, како што е, на пример, пребарување и споредување на далечно сродни низи. BLAST (од англ., Basic Local Alignment Search Tool) бил развиен како побрза алтернатива на FASTA, без поголемо жртвување на точноста. Слично на FASTA, и BLAST користи збор за пребарување со должина k, но ги евалуира само позначајните совпаѓања на зборовите, а не секој збор како кај FASTA. Повеќето имплементации на BLAST користат фиксна должина на зборот, која е оптимизирана според типот на испитуваната низа и типот на базата на податоци која треба да се пребарува. Ова може да се промени само под посебни околности, како, на пример, при пребарување на многу кратки низи или повторувачки низи. Имплементациите може да се најдат преку голем број на веб портали, како што се EMBL FASTA и NCBI BLAST.

Порамнување на повеќе низи

уреди
 
Порамнување на низите на 27 хемаглутинини на птичјиот грип, обоени според сочуваноста на аминокиселинските остатоци (горе) и според својствата на аминокиселинските остатоци (доле).

Порамнувањето на повеќе низи се користи за истовремено порамнување на повеќе од две низи. Овие методи на порамнување се обидуваат да ги порамнат сите низи од одредена група која е цел на проучување. Тие најчесто се користат за идентификување на региони со сочувани низи кои можат да бидат резултат на еволутивно сродство. Ваквите сочувани низни мотиви, заедно со структурни и механистички информации, можат да послужат за лоцирање на каталитички активните места на ензимите. Порамнувањето на повеќе низи, исто така, се користи за откривање на еволутивните односи преку конструирање на филогенетски дрва. Порамнувањата на повеќе низи компутационо тешко се добиваат, а повеќето формулации на проблемот доведуваат до НП-комплетни проблеми на комбинаториска оптимизација.[8][9] Сепак, корисноста на овие порамнувања во биоинформатиката доведе до развојот на различни методи погодни за порамнување на три или повеќе низи.

Динамичко програмирање

уреди

Теоретски, техниката на динамичко програмирање може да се примени за кој било број на низи; сепак, бидејќи е компутационо доста скапа, и во однос на време и во однос на меморија, многу ретко се користи за повеќе од три или четири низи. За овој метод потребна е конструкција на n-димензионалниот еквивалент на низната матрица формирана од две низи, каде n е бројот на низите кои се споредуваат. Стандардното динамичко програмирање прво се изведува за сите парови на испитуваните низи, а потоа „просторот на порамнување“ се пополнува со земање предвид на можните совпаѓања или празнини во интермедијалните позиции, со што, на крај, се добива порамнување кое е во суштина порамнување на претходно веќе добиени порамнувања. Иако оваа техника е компутационо доста скапа, таа гарантира оптимално глобално решение во случаите каде само неколку низи треба прецизно да бидат порамнети. Еден метод за намалување на компутационата цена на динамичкото програмирање, кој се потпира на „збир од парови“ објективна функција, е искористен во MSA софтверскиот пакет.[10]

Прогресивни методи

уреди

Прогресивните, хиерархиски, или методи на филогенетско дрво генерираат порамнување на повеќе низи на тој начин што најпрво ги порамнуваат најсличните низи, а потоа сукцесивно додаваат сѐ помалку сродни низи на порамнувањето. Почетното филогенетско дрво кое ја опишува сродноста на низите е засновано на споредби во парови, кои може да вклучуваат евристички методи слични на FASTA. Резултатите на овие методи зависат од изборот на „најсродни“ низи, па затоа можат да бидат чувствителни на грешки во првичното порамнување во парови. Повеќето прогресивни методи за порамнување на повеќе низи дополнително ги проценуваат низите врз основа на нивната сродност, со што се намалува веројатноста за правење на лош избор за почетни низи и на тој начин се зголемува точноста на порамнувањето.

Во употреба се повеќе варијации на Clustal прогресивната имплементација[11][12][13] за порамнување на повеќе низи, конструкција на филогенетски дрва и како инпут за предвидување на структурата на белковините. Побавна, но поточна варијанта на прогресивниот метод е T-Coffee (од англ., Tree-based Consistency Objective Function for Alignment Evaluation).[14]

Итеративни методи

уреди

Итеративните методи се обидуваат да ја подобрат големата зависност од точноста на првичните порамнувања во парови, што е слабата точка на прогресивните методи. Итеративните методи оптимизираат објективна функција која е заснована на избран метод за бодување на порамнувањето, со назначување на првично глобално порамнување, а потоа со повторно порамнување на подгрупи во низите. Повторно порамнетите подгрупи потоа самите се порамнуваат за да се произведе порамнувањето на повеќе низи за следната итерација.[15]

Пронаоѓање на мотиви

уреди

Пронаоѓањето на мотиви, исто така познато како профилна анализа, конструира глобално порамнување на повеќе низи со обид да се порамнат кратки сочувани низни мотиви кај проучуваните низи. Ова најчесто се прави на тој начин што прво се конструира општо глобално порамнување на повеќе низи, по што високо сочуваните региони се изолираат и се користат за конструкција на група на профилни матрици. Профилната матрица за секој сочуван регион е аранжира како матрица за бодување, но честотите кои се користат за секоја аминокиселина или нуклеотид за секоја позиција се добиваат од дистрибуцијата на карактери (знаци) на сочуваниот регион, наместо од поопшта емпириска дистрибуција. Профилните матрици потоа се користат за пребарување на други низи кои го содржат тој карактеризиран мотив. Во случаи каде оригиналниот збир на податоци содржи мал број на низи, или само многу блиску сродни низи, се додаваат псевдокаунтови за нормализирање на дистрибуцијата на карактерите (знаците) претставени во мотивот.

Техники инспирирани од компјутерската наука

уреди

Голем број на општи алгоритми за оптимизација, кои често се користат во компјутерската наука, исто така, се применуваат за решавање на проблемот на порамнување на повеќе низи. Скриените Маркови модели се користат за добивање на бодови за веројатност за семејство на можни порамнувања на повеќе низи. Скриените Маркови модели се особено ефикасни за откривање на далечно сродни низи, бидејќи тие се помалку подложни на шумот создаден од конзервативни или семиконзервативни супституции.[16] Генетските алгоритми и Simulated annealing (SA), исто така, се користат за оптимизација на бодовите за порамнување на повеќе низи.

Филогенетски анализи

уреди

Филогенетиката и порамнувањето на низи се тесно поврзани дисциплини, што се должи на нивната заедничка потреба од процена на сродноста на одделни низи.[17] Филогенетиката како дисциплина често ги користи порамнувањата на низи за конструкција и интерпретација на филогенетски дрва, кои се користат за класифицирање на еволутивните односи помеѓу хомологните гени во геномите на различни видови на организми. Степенот на различност на две или повеќе низи е квалитативна мерка за нивната еволутивна оддалеченост. Грубо кажано, висок степен на идентичност помеѓу низи сугерира релативно скорешен најблизок древен заеднички предок, додека низок степен на идентичност сугерира подамнешен најблизок древен заеднички предок. Оваа апроксимација, која ја рефлектира хипотезата на „молекуларен часовник“, дека приближно константната стапка на еволутивна промена може да се искористи за да се екстраполира изминатото време од дивергенцијата на два гена (т.е. времето на коалесценција), претпоставува дека ефектите на мутација и селекција се константни низ низните лози. Затоа, таа не ги зема предвид можните разлики меѓу организмите во стапките на поправка на нивната ДНК или можната функционална сочуваност на одредени региони во низата. (Во случајот на нуклеотидни низи, хипотезата на молекуларен часовник во својата најосновна форма, исто така, не ја зема предвид разликата во стапките меѓу тивките мутации, кои не го менуваат значењето на даден кодон, и други мутации кои резултираат со вметнување различна аминокиселина во белковината). Статистички поточните методи овозможуваат стапката на еволуција на секоја гранка од филогенетското дрво да варира, со што се создаваат подобри проценки на времето на коалесценција на гените.

Прогресивните техники за порамнување на повеќе низи по природа создаваат филогенетско дрво во текот на нивната работа, бидејќи тие ги инкорпорираат низите во растечкото порамнување според нивната сродност. Други техники за порамнување на повеќе низи и конструкција на филогенетски дрва, прво ги бодуваат и ги сортираат дрвата, а потоа пресметуваат порамнување на повеќе низи од дрвото со највисоки бодови. Најчесто користените методи за градење на филогенетски дрва се главно евристички, бидејќи проблемот на селектирање на оптималното дрво, како и проблемот на селектирање на оптималното порамнување на повеќе низи, е НП-тежок проблем.[18]

Проценка на значајност

уреди

Порамнувањето на низи е корисно во биоинформатиката за идентификување на сличност на низи, за конструирање на филогенетски дрва и за развивање на хомолошки модели на белковински структури. Меѓутоа, биолошката релевантност на порамнувањето на низи не е секогаш јасна. Често се претпоставува дека порамнувањата одразуваат одреден степен на еволутивна промена помеѓу низите кои потекнуваат од заеднички предок, но формално е можно да конвергентна еволуција создаде сличност меѓу белковини кои инаку се еволутивно несродни, а вршат слични функции и имаат слични структури.

Кај методите за пребарување на бази на податоци, како што е BLAST, статистичките методи можат да ја определат веројатноста за појава на порамнување помеѓу одредени низи или региони на низи на основа на случајност, имајќи ја предвид големината и составот на базата на податоци која се пребарува. Овие вредности можат значително да варираат во зависност од просторот на пребарувањето. Веројатноста за наоѓање на случајно порамнување особено се зголемува ако базата на податоци се состои само од низи од истиот организмот. Репетитивните низи во базата на податоци можат исто така да ги нарушат резултатите на пребарувањето и проценката на статистичка значајност; BLAST автоматски ги филтрира таквите репетитивни низи во пребарувачот, за да избегне лажни резултати кои се статистички артефакти.

Методи за проценка на статистичка значајност за порамнување на низи се достапни во литературата.[17][19][20][21][22][23][24][25]

Проценка на кредибилитет

уреди

Статистичката значајност укажува на веројатноста да порамнување со даден квалитет настане случајно, но не укажува на тоа колку одредено порамнување е супериорно во однос на алтернативни порамнувања на истите низи. Мерките за кредибилитет за порамнувањето укажуваат на степенот до кој највисоко бодуваните порамнувања за даден пар на низи се слични меѓу себе. Методите за проценка на кредибилитетот на порамнувањата се достапни во литературата.[26]

Функции за бодување

уреди

Изборот на функција за бодување која ги одразува биолошките или статистичките набљудувања за познатите низи е важен чекор за добивање на добри порамнувања на низи. Белковинските низи обично се порамнуваат со помош на матрици на супституција, кои ги одразуваат веројатностите за дадените супституции на карактер-во-карактер. Серија на матрици, наречени PAM матрици (од англ., Point accepted mutation), кои првично биле дефинирани од Маргарет Дејхоф, експлицитно кодираат еволутивни апроксимации во однос на стапките и веројатностите за одредени аминокиселински мутации. Друга честа серија на матрици за бодување, позната како BLOSUM (од англ., Blocks Substitution Matrix), ги кодира емпириски изведените веројатности за супституција. Варијанти на двата типа на матрици се користат за откривање на низи со различни степени на дивергенција, на тој начин овозможувајќи им на корисниците на BLAST или FASTA да ги ограничат пребарувањата на само поблиску сродни низи, или да ги прошират за да детектираат повеќе дивергентни низи. Казните за празнина се однесуваат на воведувањето на празнина (во еволутивниот модел тоа претставува инсерциона или делециона мутација), како за нуклеотидните така и за белковински низи, па затоа казнените бодови треба да бидат пропорционални на очекуваната стапка на овие мутации. Од овие причини, квалитетот на добиените порамнувања на низи зависи од квалитетот на функцијата за бодување.

Други примени во биологијата

уреди

Низионираната РНК, како што е EST (expressed sequence tag) и целосна иРНК, може да биде порамнета со низионираниот геном за да се пронајде локацијата на генот и да се добијат информации за алтернативен сплајсинг[27] и уредување на РНК.[28] Порамнувањето на низите претставува исто така дел од асемблирањето на геномите, каде низите се порамнуваат за да се пронајдат преклопувања, што овозможува да се формираат contigs (долги делови на низа).[29] Друга примена е во SNP (еднонуклеотиден полиморфизам) анализата, каде се порамнуваат низи од различни поединци за да се најдат единечни базни парови кои често се различни во дадена популација.[30]

Поврзано

уреди

Наводи

уреди
  1. 1,0 1,1 1,2 Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis (2. изд.). Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY. ISBN 978-0-87969-608-5.
  2. „Clustal FAQ #Symbols“. Clustal. Архивирано од изворникот на 2016-10-24. Посетено на 8 December 2014.
  3. Ng PC; Henikoff S (May 2001). „Predicting deleterious amino acid substitutions“. Genome Res. 11 (5): 863–74. doi:10.1101/gr.176601. PMC 311071. PMID 11337480.
  4. 4,0 4,1 Polyanovsky, V. O.; Roytberg, M. A.; Tumanyan, V. G. (2011). „Comparative analysis of the quality of a global algorithm and a local algorithm for alignment of two sequences“. Algorithms for Molecular Biology. 6 (1): 25. doi:10.1186/1748-7188-6-25. PMC 3223492. PMID 22032267.
  5. Schneider TD; Stephens RM (1990). „Sequence logos: a new way to display consensus sequences“. Nucleic Acids Res. 18 (20): 6097–6100. doi:10.1093/nar/18.20.6097. PMC 332411. PMID 2172928.
  6. „Sequence Alignment/Map Format Specification“ (PDF).
  7. Brudno M; Malde S; Poliakov A; Do CB; Couronne O; Dubchak I; Batzoglou S (2003). „Glocal alignment: finding rearrangements during alignment“. Bioinformatics. 19. Suppl 1 (90001): i54–62. doi:10.1093/bioinformatics/btg1005. PMID 12855437.
  8. Wang L; Jiang T. (1994). „On the complexity of multiple sequence alignment“. J Comput Biol. 1 (4): 337–48. CiteSeerX 10.1.1.408.894. doi:10.1089/cmb.1994.1.337. PMID 8790475.
  9. Elias, Isaac (2006). „Settling the intractability of multiple alignment“. J Comput Biol. 13 (7): 1323–1339. CiteSeerX 10.1.1.6.256. doi:10.1089/cmb.2006.13.1323. PMID 17037961.
  10. Lipman DJ; Altschul SF; Kececioglu JD (1989). „A tool for multiple sequence alignment“. Proc Natl Acad Sci USA. 86 (12): 4412–5. Bibcode:1989PNAS...86.4412L. doi:10.1073/pnas.86.12.4412. PMC 287279. PMID 2734293.
  11. Higgins DG, Sharp PM (1988). „CLUSTAL: a package for performing multiple sequence alignment on a microcomputer“. Gene. 73 (1): 237–44. doi:10.1016/0378-1119(88)90330-7. PMID 3243435.
  12. Thompson JD; Higgins DG; Gibson TJ. (1994). „CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice“. Nucleic Acids Res. 22 (22): 4673–80. doi:10.1093/nar/22.22.4673. PMC 308517. PMID 7984417.
  13. Chenna R; Sugawara H; Koike T; Lopez R; Gibson TJ; Higgins DG; Thompson JD. (2003). „Multiple sequence alignment with the Clustal series of programs“. Nucleic Acids Res. 31 (13): 3497–500. doi:10.1093/nar/gkg500. PMC 168907. PMID 12824352.
  14. Notredame C; Higgins DG; Heringa J. (2000). „T-Coffee: A novel method for fast and accurate multiple sequence alignment“. J Mol Biol. 302 (1): 205–17. doi:10.1006/jmbi.2000.4042. PMID 10964570.
  15. Hirosawa M; Totoki Y; Hoshida M; Ishikawa M. (1995). „Comprehensive study on iterative algorithms of multiple sequence alignment“. Comput Appl Biosci. 11 (1): 13–8. doi:10.1093/bioinformatics/11.1.13. PMID 7796270.
  16. Karplus K; Barrett C; Hughey R. (1998). „Hidden Markov models for detecting remote protein homologies“. Bioinformatics. 14 (10): 846–856. doi:10.1093/bioinformatics/14.10.846. PMID 9927713.
  17. 17,0 17,1 Ortet P; Bastien O (2010). „Where Does the Alignment Score Distribution Shape Come from?“. Evolutionary Bioinformatics. 6: 159–187. doi:10.4137/EBO.S5875. PMC 3023300. PMID 21258650.
  18. Felsenstein J. (2004). Inferring Phylogenies. Sinauer Associates: Sunderland, MA. ISBN 978-0-87893-177-4.
  19. Altschul SF; Gish W (1996). Local Alignment Statistics. Meth.Enz. Methods in Enzymology. 266. стр. 460–480. doi:10.1016/S0076-6879(96)66029-7. ISBN 9780121821678.
  20. Hartmann AK (2002). „Sampling rare events: statistics of local sequence alignments“. Phys. Rev. E. 65 (5): 056102. arXiv:cond-mat/0108201. Bibcode:2002PhRvE..65e6102H. doi:10.1103/PhysRevE.65.056102. PMID 12059642.
  21. Newberg LA (2008). „Significance of gapped sequence alignments“. J Comput Biolo. 15 (9): 1187–1194. doi:10.1089/cmb.2008.0125. PMC 2737730. PMID 18973434.
  22. Eddy SR; Rost, Burkhard (2008). Rost, Burkhard (уред.). „A probabilistic model of local sequence alignment that simplifies statistical significance estimation“. PLoS Comput Biol. 4 (5): e1000069. Bibcode:2008PLSCB...4E0069E. doi:10.1371/journal.pcbi.1000069. PMC 2396288. PMID 18516236.
  23. Bastien O; Aude JC; Roy S; Marechal E (2004). „Fundamentals of massive automatic pairwise alignments of protein sequences: theoretical significance of Z-value statistics“. Bioinformatics. 20 (4): 534–537. doi:10.1093/bioinformatics/btg440. PMID 14990449.
  24. Agrawal A; Huang X (2011). „Pairwise Statistical Significance of Local Sequence Alignment Using Sequence-Specific and Position-Specific Substitution Matrices“. IEEE/ACM Transactions on Computational Biology and Bioinformatics. 8 (1): 194–205. doi:10.1109/TCBB.2009.69. PMID 21071807. Архивирано од изворникот на 2013-04-15.
  25. Agrawal A; Brendel VP; Huang X (2008). „Pairwise statistical significance and empirical determination of effective gap opening penalties for protein local sequence alignment“. International Journal of Computational Biology and Drug Design. 1 (4): 347–367. doi:10.1504/IJCBDD.2008.022207. Архивирано од изворникот на 28 January 2013.
  26. Newberg LA; Lawrence CE (2009). „Exact Calculation of Distributions on Integers, with Application to Sequence Alignment“. J Comput Biolo. 16 (1): 1–18. doi:10.1089/cmb.2008.0137. PMC 2858568. PMID 19119992.
  27. Kim N; Lee C (2008). Bioinformatics detection of alternative splicing. Methods Mol. Biol. Methods in Molecular Biology™. 452. стр. 179–97. doi:10.1007/978-1-60327-159-2_9. ISBN 978-1-58829-707-5. PMID 18566765.
  28. „Genome-wide identification of human RNA editing sites by parallel DNA capturing and sequencing“. Science. 324 (5931): 1210–3. May 2009. Bibcode:2009Sci...324.1210L. doi:10.1126/science.1170995. PMID 19478186.
  29. „Whole genome assembly from 454 sequencing output via modified DNA graph concept“. Comput Biol Chem. 33 (3): 224–30. June 2009. doi:10.1016/j.compbiolchem.2009.04.005. PMID 19477687.
  30. Duran C; Appleby N; Vardy M; Imelfort M; Edwards D; Batley J (May 2009). „Single nucleotide polymorphism discovery in barley using autoSNPdb“. Plant Biotechnol. J. 7 (4): 326–33. doi:10.1111/j.1467-7652.2009.00407.x. PMID 19386041.