Сметачка геномика

Сметачка геномика се однесува на употребата на пресметковна и статистичка анализа за дешифрирање на биологијата од секвенците на геномот и поврзаните податоци,^[1] вклучувајќи ја и ДНК и РНК секвенцата како и други „постгеномски“ податоци (т.е. експериментални податоци добиени со технологии кои бараат геномската секвенца, како што се микронизите на геномската ДНК). Овие, во комбинација со пресметковни и статистички пристапи за разбирање на функцијата на гените и анализа на статистичката асоцијација, ова поле често се нарекува и пресметковна и статистичка генетика/геномика. Како таква, сметачката геномика може да се смета како подмножество на биоинформатиката и пресметковната биологија, но со фокус на користење на цели геноми (наместо поединечни гени) за да се разберат принципите за тоа како ДНК на еден вид ја контролира неговата биологија на молекуларно ниво и подалеку. Со сегашното изобилство на масивни биолошки збирки на податоци, пресметковните студии станаа едно од најважните средства за биолошко откритие.^[2]

Историја

Корените на пресметковната геномика се споделени со оние на биоинформатиката. Во текот на 1960-тите, Маргарет Дејхоф и други во Националната фондација за биомедицински истражувања собраа бази на податоци со хомологни протеински секвенци за еволутивно проучување.^[3] Нивното истражување развило филогенетско дрво кое ги одредува еволутивните промени кои биле потребни за одреден протеин да се промени во друг протеин врз основа на основните секвенци на аминокиселини. Ова ги навело да создадат матрица за бодување што ја проценува веројатноста еден протеин да биде поврзан со друг

Почнувајќи од 1980-тите, базите на податоци на геномските секвенци почнале да се снимаат, но ова претставувало нови предизвици во форма на пребарување и споредување на базите на податоци на генски информации. За разлика од алгоритмите за пребарување текст што се користат на мрежни места како што се Google или Wikipedia, пребарувањето за делови од генетска сличност бара да се најдат низи кои не се едноставно идентични, туку слични. Ова довело до развој на Нидлман–Вуншовиот алгоритам, кој е динамичен програмски алгоритам за споредување на множества од секвенци на аминокиселини едни со други со користење на матрици за бодување добиени од претходното истражување на Дејхоф. Подоцна, алгоритмот BLAST бил развиен за извршување на брзи, оптимизирани пребарувања на бази на податоци за генската секвенца. BLAST и неговите деривати се веројатно најкористените алгоритми за оваа намена. .^[4]

Појавата на фразата „сметачка геномика“ се совпаѓа со достапноста на комплетни секвенционирани геноми во средината до крајот на 1990-тите. Првиот состанок на Годишната конференција за сметачка геномика беше организиран од научници од Институтот за геномски истражувања (ТИГР) во 1998 година, обезбедувајќи форум за оваа специјалност и ефективно разликувајќи ја оваа област на наука од поопштите области на геномијата или сметачката биологија.^[5] Првата употреба на овој термин во научната литература, според апстрактите на MEDLINE, била само една година порано во истражувањето за нуклеинските киселини. Последната конференција за сметачка геномика била одржана во 2006 година, на која имало главен говор на нобеловецот Бери Маршал, ко-откривач на врската помеѓу Helicobacter pylori и чир на желудникот. Од 2014 година, водечките конференции во областа вклучуваат Интелигентни системи за молекуларна биологија (ISMB) и Истражување во сметачка молекуларна биологија (RECOMB).

Развојот на сметачки потпомогната математика (со користење на производи како што се Mathematica или Matlab) им помогна на инженерите, математичарите и сметачките научници да почнат да работат во овој домен, а јавната колекција на студии на случај и демонстрации расте, почнувајќи од споредби на целиот геном до генска анализа. ^[6] Ова го зголемило воведувањето на различни идеи, вклучувајќи концепти од системи и контрола, теорија на информации, анализа на жици и ископување податоци. Се очекува дека пресметковните пристапи ќе станат и ќе останат стандардна тема за истражување и настава, додека студентите кои течно зборуваат за двете теми ќе почнат да се формираат во повеќекратните курсеви создадени во изминатите неколку години.

Придонеси од сметачко геномско истражување во биологијата

Придонесите од истражувањето на сметачката геномика во биологијата вклучуваат

предлагање мрежи за мобилна сигнализација
предлагање механизми за еволуција на геномот
предлагање прецизни локации на сите човечки гени користејќи компаративна геномика техники со неколку видови цицачи и 'рбетници
предвидување зачувани геномски региони кои се поврзани со раниот ембрионски развој
откривање потенцијални врски помеѓу мотивите на повторените секвенци и ткивната специфична генска експресија
мерење на регионите на геномите кои претрпеле невообичаено брза еволуција

Споредба на геном

Развиени се сметачки алатки за да се процени сличноста на геномските секвенци. Некои од нив се растојанија засновани на порамнување, како што е просечен идентитет на нуклеотид.^[7] Овие методи се многу специфични, додека се пресметковно бавни. Други методи без усогласување, вклучуваат статистички и веројатни пристапи. Еден пример е Mash,^[8] веројатен пристап кој користи минхаш. Во овој метод, со даден број k, геномската секвенца се трансформира во пократка скица преку случајна хаш-функција на можните k-mers. На пример, ако k=2, се конструираат скици со големина 4 и им е дадена следнава хаш функција

(AA,0) (AC,8) (AT,2) (AG,14)
(CA,6) (CC,13) (CT,5) (CG,4)
(GA,15) (GC,12) (GT,10) (GG,1)
(TA,3) (TC,11) (TT,9) (TG,7)

скицата на низата

CTGACCTTAACGGGAGACTATGATGACGACCGCAT

е {0,1,1,2} кои се најмалите хаш вредности на неговите k-мери со големина 2. Овие скици потоа се споредуваат за да се процени фракцијата на споделени k-мери ( Џакард индекс ) од соодветните секвенци. Вреди да се забележи дека хаш-вредноста е бинарен број. Во вистински геномски амбиент, корисната големина на k-mers се движи од 14 до 21, а големината на скиците би била околу 1000.

Со намалување на големината на низите, дури и стотици пати, и споредувајќи ги на начин без порамнување, овој метод значително го намалува времето на проценка на сличноста на низите.

Наводи

↑ Koonin EV (March 2001). „Computational genomics“. Current Biology. 11 (5): R155–8. doi:10.1016/S0960-9822(01)00081-1. PMID 11267880. S2CID 17202180.
↑ „Computational Genomics and Proteomics at MIT“. Архивирано од изворникот на 2018-03-22. Посетено на 2006-12-29.
↑ Mount, David (2000). Bioinformatics, Sequence and Genome Analysis. Cold Spring Harbor Laboratory Press. стр. 2–3. ISBN 978-0-87969-597-2. Занемарен непознатиот параметар |name-list-style= (help)
↑ Brown TA (1999). Genomes. Wiley. ISBN 978-0-471-31618-3.
↑ Wagner A (September 1997). „A computational genomics approach to the identification of gene networks“. Nucleic Acids Research. 25 (18): 3594–604. doi:10.1093/nar/25.18.3594. PMC 146952. PMID 9278479.
↑ Cristianini N, Hahn M (2006). Introduction to Computational Genomics. Cambridge University Press. ISBN 978-0-521-67191-0.
↑ Konstantinidis KT, Tiedje JM (2005). „Genomic insights that advance the species definition for prokaryotes“. Proc Natl Acad Sci U S A. 102 (7): 2567–72. Bibcode:2005PNAS..102.2567K. doi:10.1073/pnas.0409727102. PMC 549018. PMID 15701695.
↑ Ondov B, Treangen T, Melsted P, Mallonee A, Bergman N, Koren S, Phillippy A (2016). „Mash: fast genome and metagenome distance estimation using MinHash“. Genome Biology. 17 (32): 14. doi:10.1186/s13059-016-0997-x. PMC 4915045. PMID 27323842.

Надворешни врски

Harvard Extension School Biophysics 101, Genomics and Computational Biology, http://www.courses.fas.harvard.edu/~bphys101/info/syllabus.html
University of Bristol course in Computational Genomics, http://www.computational-genomics.net/

[1] Koonin EV (March 2001). „Computational genomics“. Current Biology. 11 (5): R155–8. doi:10.1016/S0960-9822(01)00081-1. PMID 11267880. S2CID 17202180.

[MIT-2] „Computational Genomics and Proteomics at MIT“. Архивирано од изворникот на 2018-03-22. Посетено на 2006-12-29.

[3] Mount, David (2000). Bioinformatics, Sequence and Genome Analysis. Cold Spring Harbor Laboratory Press. стр. 2–3. ISBN 978-0-87969-597-2. Занемарен непознатиот параметар |name-list-style= (help)

[4] Brown TA (1999). Genomes. Wiley. ISBN 978-0-471-31618-3.

[5] Wagner A (September 1997). „A computational genomics approach to the identification of gene networks“. Nucleic Acids Research. 25 (18): 3594–604. doi:10.1093/nar/25.18.3594. PMC 146952. PMID 9278479.

[6] Cristianini N, Hahn M (2006). Introduction to Computational Genomics. Cambridge University Press. ISBN 978-0-521-67191-0.

[7] Konstantinidis KT, Tiedje JM (2005). „Genomic insights that advance the species definition for prokaryotes“. Proc Natl Acad Sci U S A. 102 (7): 2567–72. Bibcode:2005PNAS..102.2567K. doi:10.1073/pnas.0409727102. PMC 549018. PMID 15701695.

[Mash:_fast_genome_and_metagenome_di-8] Ondov B, Treangen T, Melsted P, Mallonee A, Bergman N, Koren S, Phillippy A (2016). „Mash: fast genome and metagenome distance estimation using MinHash“. Genome Biology. 17 (32): 14. doi:10.1186/s13059-016-0997-x. PMC 4915045. PMID 27323842.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

(AA,0)	(AC,8)	(AT,2)	(AG,14)
(CA,6)	(CC,13)	(CT,5)	(CG,4)
(GA,15)	(GC,12)	(GT,10)	(GG,1)
(TA,3)	(TC,11)	(TT,9)	(TG,7)