Предвидување на структурата на белковините: Разлика помеѓу преработките

[проверена преработка][проверена преработка]
Избришана содржина Додадена содржина
с Јазично подобрување, replaced: терцијар → третич (3), Терцијар → Третич (3), примар → првич, Примар → Првич (3), секундар → вторич (21), Секундар →
Ред 1:
[[Податотека:Protein-structure.png|мини|Составните аминокиселини на една белковина може да бидат анализирани за да се предвиди секундарнатавторичната, терцијарнататретичната и квартернатачетвртичната структура на таа белковина.|алт=|336x336пкс]]
'''Предвидување на структурата на белковините''' — процес на изведување на тридимензионалната структура на [[Белковина|белковините]] од нивната [[Аминокиселина|аминокиселинска]] секвенца, т.е., предвидувањето на нивното [[Склопување на белковините|склопување]] и нивната [[СекундарнаВторична структура на белковините|секундарнавторична]] и [[ТерцијарнаТретична структура на белковините|терцијарнатретична структура]] од нивната [[ПримарнаПрвична структура на белковините|примарнапрвична структура]]. Предвидувањето на структурата е фундаментално различен проблем од инверзниот проблем на [[дизајнирање на белковини]]. Предвидување на структурата е една од најважните дејности на [[биоинформатика]]та и [[Теоретска хемија|теоретската хемија]], која е мошне значајна во [[медицина]]та (на пример, за [[Дизајнирање на лекови|дизајнирање на нови лекови]]) и во [[биотехнологија]]та (за пример, за дизајнирање на нови [[ензим]]и). Секои две години, перформансите на постојните методи се оценуваат со [[CASP]] експериментот (од [[Англиски јазик|анг.]] Critical Assessment of Techniques for Protein Structure Prediction - критична процена на техники за предвидување на структурата на белковините). Континуирана проценка на опслужувачите за предвидувањето на структурата на белковините се врши од страна на проектот [[CAMEO3D]] (од анг. Continuous Automated Model EvaluatiOn).
 
== Структура на белковините и терминологија ==
Белковините се [[Макромолекула|макромолекули]] изградени од [[Аминокиселина|аминокиселини]] поврзани меѓусебе со [[Пептидна врска|пептидни врски]] (наречени и [[полипептид]]и). Постојат многу конформации кои може да ги заземе полипептидната верига поради нејзината ротација околу секој Cα атом. Овие конформациони промени се одговорни за разликите во тридимензионалната структура на белковините. Секоја аминокиселина во полипептидната верига е поларна, односно поседува одвоени позитивно и негативно наелектризирани региони, со слободна [[карбонилна група]], која може да игра улога на акцептор на [[водородна врска]], и [[Амин (хемија)|NH група]], која може да игра улога на дарител на водородна врска. Затоа овие групи може да стапуваат во интеракција во склоп на белковинската структура. Дваестте природни аминокиселини може да се класифицираат според хемискиот состав на нивните странични ланци, кои исто така играат важна структурна улога. [[Глицин]]от зазема посебна позиција, бидејќи го има најмалиот страничен ланец, т.е. само еден водороден атом, па затоа може да ја зголеми локалната флексибилност во белковинската структура. [[Цистеин]]от може да реагира со друг цистеински остаток и на тој начин да формира вкрстена врска која ја стабилизира целата белковинска структура.
 
Белковинската структура може да се смета како низа од елементи на [[СекундарнаВторична структура на белковините|секундарнатавторичната структура]], како што се [[Алфа-завојница|α завојниците]] и [[Бета-плоча|β плочите]], кои заедно ја чинат целокупната тридимензионална конфигурација на полипептидниот синџир. Во овие секундарнивторични структури се формираат правилни шеми на водородни врски помеѓу соседните аминокиселини, па затоа аминокиселините имаат слични Φ и Ψ агли.
[[Податотека:Fipsi.png|мини|242x242px|Агли на врзување ψ и ω|алт=]]
Формирањето на овие структури ги неутрализира поларните групи на секоја аминокиселина. СекундарнитеВторичните структури густо се спакувани во јадрото на белковинската молекула каде владее хидрофобна средина. Секоја странична група на аминокиселините има ограничен волумен што може да го заземе и ограничен број на можни интеракции со другите соседни странични групи.<ref name="Mount">{{Наведена книга|title=Bioinformatics: Sequence and Genome Analysis|last=Mount DM|publisher=Cold Spring Harbor Laboratory Press|year=2004|isbn=0-87969-712-1|volume=2}}</ref>
 
=== α-завојница ===
{{Главна|Алфа-завојница}}
Алфа (α) завојница е најзастапениот вид на секундарнавторична структура кај белковините. Алфа-завојницата има 3,6 аминокиселински остатоци по едно свртување, со водородна врска која се формира помеѓу секој четврти остаток; просечната должина е 10 аминокиселини (3 свртувања) или 10 [[Ангстрем|Å]], но варира од 5 до 40 (1.5 до 11 свртувања). Порамнувањето на водородните врски создава диполен момент на завојницата, што резултира со делумно позитивен полнеж на амино крајот на завојницата. Бидејќи овој регион има слободни NH<small>2</small> групи, тој би стапувал во интеракција со негативно наелектризирани групи како што се [[Фосфорна киселина|фосфати]]. Најчестата локација на α завојниците е површината на белковинското јадро, каде тие обезбедуваат интерфејс со водената средина. Внатрешно-ориентираните аминокиселини се хидрофобни, а надворешно-ориентираните се хидрофилни. На тој начин, секоја трета од четирите аминокиселини долж полипептидниот синџир ќе има тенденција да биде хидрофобна, а оваа шема може доста лесно да се детектира. Во мотивот [[леуцински патент]] има повторувачка шема на [[леуцин]]и на контактните страни на две соседни завојници. Оваа повторлива шема може да се прикаже со дијаграм на завојно тркало. Други α завојници кои се наоѓаат во јадрото на белковината или во [[Клеточна мембрана|клеточните мембрани]] имаат поголема и поредовна дистрибуција на хидрофобни аминокиселини. Завојниците кои се изложени на белковинската површина имаат помал процент на хидрофобни аминокиселини. Аминокиселинската содржина на еден полипептид може да даде информации за α-завојницаните региони во молекулата. Регионите кои се побогати со [[аланин]] (А), [[глутаминска киселина]] (E), леуцин (Л) и [[метионин]] (М), а сиромашни со [[пролин]] (P), [[глицин]] (G), [[тирозин]] (Y) и [[серин]] (S) имаат тенденција да формираат α-завојница. Пролинот ги дестабилизира или ги нарушува α завојниците, но може да биде присутен во подолгите завојници, формирајќи искривување.
[[Податотека:Alpha_helix.png|мини|287x287px|Алфа-завојница со водородни врски (жолти точки)|алт=]]
 
Ред 21:
Петелки се региони од полипептидната верига, кои: 1) се наоѓаат помеѓу α завојниците и β плочите, 2) имаат различни должини и тридимензионални конфигурации и 3) се наоѓаат на површината на структурата.
 
Петелките на шнолите кои прават целосен пресврт во полипептидниот синџир поврзуваат две антипаралелни β-нишки и можат да бидат само две аминокиселини во должина. Петелките стапуваат во интеракција со околната водена средина и другите белковини. Бидејќи аминокиселините во петелките не се просторно ограничени, како аминокиселините во јадрото, и немаат ефект врз аранжманот на секундарнитевторичните структури во јадрото, кај нив можат да настанат повеќе супституции, вметнувања и бришења. Така, во порамнувањето на секвенците, присуството на овие особини може да биде показател за присуство на петелка. Позициите на [[интрон]]ите во геномската [[ДНК]] понекогаш одговараат на локациите на петелките во кодираната белковина. Петелките, исто така, имаат тенденција да содржат поларни и наелектризирани аминокиселини и тие често се дел од активните места на [[ензим]]ите. Деталниот преглед на структурите на петелките покажал дека тие припаѓаат на различни семејства.
 
=== Навои ===
Регион од секундарнатавторичната структура кој не е α-завојница, β-плоча, или [[Свиок (биохемија)|свиок]] се нарекува навој.<ref name="Mount"/>
 
== Класификација на белковините ==
Белковините може да се класифицираат според нивната структурна и секвенциска сличност. Кај структурната класификација, големините и просторните аранжмани на секундарнитевторичните структури се споредуваат со познати тридимензионални структури. Класификацијата врз основа на сличност на секвенците била историски првата која се користела. Најрано била направена сличност врз основа на порамнување на цели секвенци. Подоцна, белковините биле класифицирани врз основа на појавата на сочувани аминокиселини. Достапни се повеќе бази на податоци кои ги класифицираат белковините според една или повеќе од овие шеми. При разгледувањето на шемите за класификација на белковините, важно е да се имаат предвид неколку набљудувања. Прво, две сосема различни белковински секвенци, со различно еволуционо потекло, може да се склопат во слична структура. Спротивно на тоа, секвенцата на античкиот [[ген]] за дадена структура може значително да дивергирала кај различни [[Вид (биологија)|видови]] на организми, а во исто време да ги одржала (сочувала) основните структурни карактеристики. Пронаоѓањето на каква било заостаната сличност во секвенците во вакви случаи може да биде многу тешка задача. Второ, две белковини кои имаат значителен степен на сличност во секвенците или меѓусебно или со трета секвенца, исто така, имаат заедничко еволутивно потекло и треба да споделуваат некои структурни карактеристики. Сепак, генските дупликации и генетските преуредувања за време на [[еволуција]]та може да доведат до појава на нови генски копии, кои потоа може да еволуираат во белковини со нова функција и структура.<ref name="Mount"/>
 
=== Термини кои се користат за класификација на белковинските структури и секвенци ===
Најчесто користените термини за еволутивни и структурни односи помеѓу белковините се наведени подолу. Разни дополнителни термини се користат за различни видови на структурни карактеристики кои се среќаваат кај белковините. Описи на такви термини можат да се најде на [[CATH]] мрежното место, [[структурна класификација на белковините]] (SCOP) мрежното место, и Glaxo-Wellcome туторијалот на Swiss bioinformatics Expasy мрежното место.
 
'''[[Активно место]]''' е локализирана комбинација на аминокиселински странични групи во рамките на [[ТерцијарнаТретична структура на белковините|терцијарнататретичната]] (тридимензионална) или [[КвартернаЧетвртична структура на белковините|квартерначетвртична]] (белковинска подединица) структура која може да стапува во интеракција со хемиски специфичен [[супстрат]] и која ја дава биолошката активност на белковината. Белковините со многу различни аминокиселински секвенци може да се склопат во структура со исто активно место.
 
'''Архитектура''' е релативната ориентација на секундарнитевторичните структури во тридимензионалната структура, без разлика на тоа дали тие споделуваат слична структура на петелките или не.
 
'''Склоп''' е тип на архитектура која има сочувана структура и на петелките.
Ред 40:
'''Блок''' е сочувана шема на аминокиселинска секвенца во семејство на белковини. Шемата вклучува серија на можни совпаѓања на секоја позиција во претставените секвенци, но нема вметнати или избришани позиции (вметнувања или бришења) во шемата или во секвенците. Спротивно на тоа, секвенциските профили се тип на бодувачка матрица која претставува сличен сет на шеми кои вклучуваат вметнувања и бришења.
 
'''Класа''' е термин кој се користи за класификација на белковинските домени според нивната содржина на секундарнивторични структури и организацијата. Левит и Чотиа (1976) првично навеле четири класи, а подоцна биле додадени уште неколку други во SCOP базата на податоци. CATH базата на податоци наведува три класи: доминантно-α, доминантно-β и α–β класи, со тоа што α–β класата ги вклучува α/β и α+β структурите.
 
'''Јадро''' е дел од склопената белковинска молекула кое се состои од хидрофобна внатрешност на α-завојници и β-плочи. Оваа компактна структура ги доведува страничните групи на аминокиселините доволно блиску, така што тие можат да стапуваат во интеракција. Кога се споредуваат структурите на белковините, како што се врши во базата на податоци SCOP, јадрото е регионот кој е заеднички за повеќето структури кои имаат заеднички склоп или кои припаѓаат на истото натсемејство. Во предвидувањето на структурата, јадрото понекогаш се дефинира како распоредот на секундарнитевторичните структури кои најверојатно е сочуван за време на еволутивната промена.
 
'''[[Белковински домен|Домен]]''' (во контекст на секвенци) е сегмент од полипептидниот синџир кој може да се склопи во тридимензионална структура без оглед на присуството на други сегменти од синџирот. Посебните домени на дадена белковина може да стапуваат екстензивно во интеракција или може да бидат споени преку краток дел од полипептидниот синџир. Белковина со неколку домени (мултидоменска белковина) може да ги користи овие домени за функционални интеракции со различни молекули.
Ред 54:
'''Семејство''' (во контекст на структура) е, како што се користи во FSSP базата на податоци (од анг. Families of Structurally Similar Proteins - Семејства на структурно слични белковини) и на DALI/FSSP мрежното место, две структури кои имаат значително ниво на структурна сличност, но не мора да имаат значителна сличност во секвенците.
 
'''Склопот''' е сличен на структурниот мотив, вклучува поголема комбинација на единици на секундарнатавторичната структура во истата конфигурација. На тој начин, белковините кои го споделуваат истиот склоп имаат иста комбинација на секундарнивторични структури кои се поврзани со слични петелки. Еден пример е [[Розманов склоп|Розмановиот склоп]], кој се состои од неколку наизменични α-завојници и паралелни β-нишки. Во базите на податоци SCOP, CATH и FSSP, познатите белковински структури се класифицирани во хиерархиски нивоа на структурна комплексност, каде склопот е основното ниво на класификација.
 
'''Хомологен домен''' (во контекст на секвенци) е продолжен секвенциски образец, кој најчесто се детектира со методите за порамнување на секвенците. Тој сигнализира заедничко еволутивно потекло на порамнетите секвенци. Хомологниот домен генерално е подолг од мотивите. Доменот може да ја содржи целата дадена белковинска секвенца или само дел од секвенцата. Некои домени се комплексни и се состојат од неколку помали хомологни домени кои се здружиле за да формираат поголем во текот на еволуцијата. Домен кој ја покрива целата секвенца се нарекува хомеоморфен домен од страна на PIR (од анг. Protein Information Resource - Белковински информативен ресурс).
Ред 62:
'''Мотив''' (во контекст на секвенца) е сочуван образец на аминокиселини кој се наоѓа во две или повеќе белковини. Во каталогот [[PROSITE]], мотив е аминокиселински образец кој се наоѓа во група на белковини кои имаат слична биохемиска активност, а кој често е сместен во близина на активното место на белковината. Примери за бази на податоци за секвенциски мотиви се каталогот PROSITE и базата на податоци Stanford Motifs Database.<ref>{{Наведено списание|last=Huang|first=JY.|last2=Brutlag|first2=DL.|date=Jan 2001|title=The EMOTIF database|journal=Nucleic Acids Res|volume=29|issue=1|pages=202–04|doi=10.1093/nar/29.1.202|pmc=29837|pmid=11125091}}</ref>
 
[[Структурен мотив|'''Мотив''']] (во контекст на структура) е комбинација на неколку елементи на секундарнатавторичната структура создадени со склопување на соседни делови од полипептидниот синџир во специфична тридимензионална конфигурација. Еден пример е мотивот завојница-петелка-завојница. Структурните мотиви се нарекуваат и суперсекундарнисупервторични структури и склопови.
 
'''Матрица за бодување специфична за позиција''' (во контекст на секвенца) претставува сочуван регион во повеќекратно порамнување на секвенци без празнини. Секоја матриксна колона ја претставува варијацијата најдена во една колона од повеќекратното порамнување на секвенци.
Ред 68:
'''Матрица за бодување специфична за позиција—3D''' (во контекст на структура) претставува аминокиселинската варијација во порамнувањето на белковините кои спаѓаат во истата структурна класа. Матриксните колони ја претставуваат аминокиселинската варијација најдена во една аминокиселинска позиција во порамнетите структури.
 
'''[[ПримарнаПрвична структура на белковините|ПримарнаПрвична структура]]''' е линеарната аминокиселинска секвенца на белковината, која од хемиска гледна точка е полипептидна низа составена од аминокиселини врзани со пептидни врски.
 
'''Профил''' (во контекст на секвенца) е бодувачка матрица која претставува повеќекратно порамнување на секвенците на семејство на белковини. Профилот обично се добива од добро сочуван регион во повеќекратното порамнување. Профилот е во форма на матрица, каде секоја колона претставува позиција во порамнувањето, а секој ред е една од аминокиселините. Матриксните вредности ја даваат веројатноста за секоја аминокиселина на соодветната позиција во порамнувањето. Профилот се поместува по должината на целната секвенца за да ги лоцира најдобро бодуваните региони со алгоритам за динамичко програмирање. Секвенциски профил може, исто така, да биде претставен со [[скриен модел на Марков]] (анг. HMM, Hidden Markov Model).
Ред 74:
'''Профил''' (во контекст на структура) е бодувачка матрица која претставува кои аминокиселини треба добро да се вклопат и кои треба да се вклопат лошо во секвенциски позиции на позната белковинска структура. Колоните на профилот претставуваат секвенциски позиции во структурата, а редовите на профилот ги претставуваат 20-те аминокиселини. Како и со секвенцискиот профил, структурниот профил се поместува по целната секвенца за да го пронајде највисокиот можен бод за порамнување, со алгоритам за динамичко програмирање. Празнините може да бидат вклучени и добиваат казнени бодови. Резултирачката оцена дава индикација за тоа дали целната белковина може да има таква структура или не.
 
'''[[КвартернаЧетвртична структура на белковините|КвартернаЧетвртична структура]]''' е тридимензионална конфигурација на белковинската молекула која содржи неколку независни полипептидни синџири.
 
[[СекундарнаВторична структура на белковините|'''СекундарнаВторична структура''']] се интеракциите кои се одвиваат помеѓу C, O, и NH групите на аминокиселините во полипептидниот синџир за да формираат α-завојници, β-плочи, свиоци, петелки и други форми, и кои го олеснуваат склопувањето во тридимензионална структура.
 
[[Белковинско натсемејство|'''Натсемејство''']] е група на белковински семејства кои имаат мала но детектибилна сличност во секвенците. Припадниците на едно натсемејство имаат заедничко еволутивно потекло. Белковини со неколку идентитети во порамнувањето на секвенците, но со заеднички број на структурни и функционални карактеристики се класифицирани во истото натсемејство. На ниво на тридимензионална структура, белковините од исто натсемејство споделуваат заеднички структурни карактеристики, како што е заеднички склоп, но може да имаат разлики во бројот и распоредот на секундарнитевторичните структури. PIR ресурсот го користи терминот хомеоморфни натсемејства за оние натсемејства кои се составени од секвенци кои можат да бидат порамнети од крај до крај, што претставува споделување на единечен секвенциски хомологен домен, регион на сличност кој се протега низ целото порамнување. Овој домен, исто така, може да содржи помали хомологни домени кои се споделуваат со други белковински семејства и натсемејства. Иако дадена белковинска секвенца може да содржи домени кои се наоѓаат во неколку натсемејства, што укажува на комплексна еволутивна историја, секвенците ќе бидат доделени само на една хомеоморфно натсемејство врз основа на присуството на сличност низ повеќекратното порамнување на секвенци. Порамнувањето кај натсемејствата може да вклучува региони кои не се порамнуваат ниту во средината ниту на краевите на порамнувањето. Спротивно на тоа, секвенците во рамките на исто семејство добро се порамнуваат по целата должина.
 
'''СуперсекундарнаСупервторична структура''' е термин кој има слично значење со терминот структурен мотив.<ref name="Mount"/>
 
== СекундарнаВторична структура ==
'''Предвидување на секундарнатавторичната структура на белковините''' претставува збир на техники во [[биоинформатика]]та кои имаат за цел да ги предвидат локалните секундарнивторични структури на белковините врз основа на познавањето на нивната аминокиселинска секвенца. Предвидување се состои од доделување на региони од аминокиселинската секвенца можни структури на алфа-завојници, бета нишки (често именувани „издолжени“ конформации), или свиоци. Успехот на предвидувањето се одредува со негово споредување со резултатите на DSSP (анг. hydrogen bond estimation algorithm) алгоритмот (или некој сличен алгоритам, на пр. STRIDE ('''Str'''uctural '''ide'''ntification)) аплицирани на кристалната структура на белковината. Развиени се специјализирани алгоритми за детекција на специфични добро-дефинирани обрасци, како што се трансмембранските завојници и [[Намотана завојница|намотаните завојници]] во белковините.<ref name="Mount"/>
 
Најдобрите денешни методи за предвидување на секундарнатавторичната структура на белковините достигнуваат точност од околу 80%;<ref>{{Наведено списание|last=Pirovano|first=W.|last2=Heringa|first2=J.|year=2010|title=Protein secondary structure prediction|journal=Methods Mol Biol|series=Methods in Molecular Biology|volume=609|issue=|pages=327–48|doi=10.1007/978-1-60327-241-4_19|isbn=978-1-60327-240-7|pmid=20221928}}</ref> оваа висока точност овозможува користење на предвидувањата како алатка за подобрување на препознавањето на склоповите (анг. fold recognition) и ''ab initio'' предвидувањето на структурата на белковините, класификација на структурните мотиви и подобрување на порамнувањето на секвенците. Точноста на денешните методи за предвидување на структурата на белковините се проценува со неделни [[Бенчмарк (информатика)|бенчмаркови]], како што се [[LiveBench]] и [[EVA (бенчмарк)|EVA]].
 
== ТерцијарнаТретична структура ==
Практичната примена на предвидувањето на белковинската структура денес е поважна од било кога. Постојано се продуцираат огромни количества на податоци за белковински секвенци од проектите на ДНК секвенционирање, како што е [[Проект за човечкиот геном|Проектот за човечкиот геном]]. И покрај напорите на полето на [[Структурна геномика|структурната геномика]], создавањето на експериментално потврдени белковински структури (обично со помош на бавни и релативно скапи методи на [[рендгенска кристалографија]] или [[NMR спектроскопија]]) значително заостанува зад продукцијата на нови белковински секвенци.
 
Предвидувањето на белковинската структура останува исклучително тежок и недоволно развиен потфат. Двата главни проблеми се пресметувањето на [[Гибсова слободна енергија|слободната енергија]] на белковините и наоѓањето на глобалниот минимум на оваа енергија. Методот за предвидување на структурата на белковините мора да го истражи просторот на можните белковински структури кој е [[Парадокс на Левинтал|астрономски голем]]. Овие проблеми можат делумно да се заобиколат со помош на „компаративното“ или хомологно моделирање и методите за препознавање на склопови, во кои просторот за пребарување е редуциран од претпоставката дека испитуваната белковина би заземал структура која е приближно иста со експериментално утврдената структура на друг хомологна белковина. Од друга страна, ''de novo'' или ''ab initio'' методите за предвидување на структурата на белковините мора експлицитно да ги решат овие проблеми. Напредокот и предизвиците во предвидувањата на структурата на белковините се разгледани во Zhang 2008.<ref name="zhang2008">{{Наведено списание|last=Zhang Y|year=2008|title=Progress and challenges in protein structure prediction|journal=Curr Opin Struct Biol|volume=18|issue=3|pages=342–8|doi=10.1016/j.sbi.2008.02.004|pmc=2680823|pmid=18436442}}</ref>
 
== КвартернаЧетвртична структура ==
Во случај на комплекси од два или повеќе белковини, каде што структурите на белковините се познати или може да се предвидат со висока точност, може да се користат macromolecular docking методите за да се предвиди структурата на комплексот. Информациите за ефектот на мутациите на специфични локации врз афинитетот на комплексот помага да се разбере структурата на комплексот и да се насочуваат macromolecular docking методите.
 
== Софтвер ==
Постојат голем број на софтверски алатки за предвидување на структурата на белковините. Одделните пристапи вклучуваат хомологно моделирање, protein threading (познат и како fold recognition), ''ab initio'' методи, предвидување на секундарнатавторичната структура и предвидување на трансмембранска завојница и сигнален пептид. Некои неодамнешни успешни методи засновани на [[CASP]] експериментите вклучуваат [[I-TASSER]] (анг. '''I'''terative '''T'''hreading '''ASSE'''mbly '''R'''efinement) и [[HHpred]] (HHsearch).
 
== Поврзано ==