Предвидување на структурата на белковините

Предвидување на структурата на белковините — процес на изведување на тридимензионалната структура на белковините од нивната аминокиселинска низа, т.е., предвидувањето на нивното склопување и нивната вторична и третична структура од нивната првична структура. Предвидувањето на структурата е фундаментално различен проблем од инверзниот проблем на дизајнирање на белковини. Предвидување на структурата е една од најважните дејности на биоинформатиката и теоретската хемија, која е мошне значајна во медицината (на пример, за дизајнирање на нови лекови) и во биотехнологијата (за пример, за дизајнирање на нови ензими). Секои две години, перформансите на постојните методи се оценуваат со CASP експериментот (од анг. Critical Assessment of Techniques for Protein Structure Prediction - критична процена на техники за предвидување на структурата на белковините). Континуирана проценка на опслужувачите за предвидувањето на структурата на белковините се врши од страна на проектот CAMEO3D (од анг. Continuous Automated Model EvaluatiOn).

Составните аминокиселини на една белковина може да бидат анализирани за да се предвиди вторичната, третичната и четвртичната структура на таа белковина.

Структура на белковините и терминологија

уреди

Белковините се макромолекули изградени од аминокиселини поврзани меѓусебе со пептидни врски (наречени и полипептиди). Постојат многу конформации кои може да ги заземе полипептидната верига поради нејзината ротација околу секој Cα атом. Овие конформациони промени се одговорни за разликите во тридимензионалната структура на белковините. Секоја аминокиселина во полипептидната верига е поларна, односно поседува одвоени позитивно и негативно наелектризирани региони, со слободна карбонилна група, која може да игра улога на акцептор на водородна врска, и NH група, која може да игра улога на дарител на водородна врска. Затоа овие групи може да стапуваат во интеракција во склоп на белковинската структура. Дваестте природни аминокиселини може да се класифицираат според хемискиот состав на нивните странични ланци, кои исто така играат важна структурна улога. Глицинот зазема посебна позиција, бидејќи го има најмалиот страничен ланец, т.е. само еден водороден атом, па затоа може да ја зголеми локалната флексибилност во белковинската структура. Цистеинот може да реагира со друг цистеински остаток и на тој начин да формира вкрстена врска која ја стабилизира целата белковинска структура.

Белковинската структура може да се смета како низа од елементи на вторичната структура, како што се α завојниците и β плочите, кои заедно ја чинат целокупната тридимензионална конфигурација на полипептидниот синџир. Во овие вторични структури се формираат правилни шеми на водородни врски помеѓу соседните аминокиселини, па затоа аминокиселините имаат слични Φ и Ψ агли.

 
Агли на врзување ψ и ω

Формирањето на овие структури ги неутрализира поларните групи на секоја аминокиселина. Вторичните структури густо се спакувани во јадрото на белковинската молекула каде владее хидрофобна средина. Секоја странична група на аминокиселините има ограничен волумен што може да го заземе и ограничен број на можни интеракции со другите соседни странични групи.[1]

α-завојница

уреди

Алфа (α) завојница е најзастапениот вид на вторична структура кај белковините. Алфа-завојницата има 3,6 аминокиселински остатоци по едно свртување, со водородна врска која се формира помеѓу секој четврти остаток; просечната должина е 10 аминокиселини (3 свртувања) или 10 Å, но варира од 5 до 40 (1.5 до 11 свртувања). Порамнувањето на водородните врски создава диполен момент на завојницата, што резултира со делумно позитивен полнеж на амино крајот на завојницата. Бидејќи овој регион има слободни NH2 групи, тој би стапувал во интеракција со негативно наелектризирани групи како што се фосфати. Најчестата локација на α завојниците е површината на белковинското јадро, каде тие обезбедуваат интерфејс со водената средина. Внатрешно-ориентираните аминокиселини се хидрофобни, а надворешно-ориентираните се хидрофилни. На тој начин, секоја трета од четирите аминокиселини долж полипептидниот синџир ќе има тенденција да биде хидрофобна, а оваа шема може доста лесно да се детектира. Во мотивот леуцински патент има повторувачка шема на леуцини на контактните страни на две соседни завојници. Оваа повторлива шема може да се прикаже со дијаграм на завојно тркало. Други α завојници кои се наоѓаат во јадрото на белковината или во клеточните мембрани имаат поголема и поредовна дистрибуција на хидрофобни аминокиселини. Завојниците кои се изложени на белковинската површина имаат помал процент на хидрофобни аминокиселини. Аминокиселинската содржина на еден полипептид може да даде информации за α-завојницаните региони во молекулата. Регионите кои се побогати со аланин (А), глутаминска киселина (E), леуцин (Л) и метионин (М), а сиромашни со пролин (P), глицин (G), тирозин (Y) и серин (S) имаат тенденција да формираат α-завојница. Пролинот ги дестабилизира или ги нарушува α завојниците, но може да биде присутен во подолгите завојници, формирајќи искривување.

 
Алфа-завојница со водородни врски (жолти точки)

β-плоча

уреди

Бета (β) плочите се формираат по пат на водородно поврзување помеѓу просечно 5-10 последователни аминокиселински остатоци, во еден дел од полипептидниот синџир, со други 5-10 последователни аминокиселински остатоци на подалечен крај од синџирот. Регионите кои стапуваат во интеракција може да се во непосредна близина, со кратка петелка меѓу нив, или повеќе оддалечени, со други структури меѓу нив. Секој од синџирите може да биде во истата насока па да формираат паралелна плоча, или да бидат во спротивна хемиска насока па да формираат антипаралелна плоча, или плочата може да биде мешана ако поседува и паралелни и антипаралелни нишки. Шемата на водородното врзување се разликува кај паралелните и антипаралелните конфигурации. Секоја аминокиселина од внатрешните нишки на плочата формира две водородни врски со соседните аминокиселини, додека секоја аминокиселина од надворешните нишки формира само една водородна врска со внатрешна нишка. Гледајќи низ плочата под прав агол во однос на нишките, подалечните нишки малку се ротирани спротивно од стрелките на часовникот за да формираат левогир вртеж. Cα атомите наизменично се менуваат над и под плочата во набрана структура, а страничните ланци на аминокиселините наизменично се поставени над и под наборите. Аглите Φ и Ψ на аминокиселините во бета плочите значително се разликуваат во еден регион на Рамачандрановиот дијаграм. Потешко се предвидува локацијата на β плочите во однос на α завојниците.

Петелка

уреди

Петелки се региони од полипептидната верига, кои: 1) се наоѓаат помеѓу α завојниците и β плочите, 2) имаат различни должини и тридимензионални конфигурации и 3) се наоѓаат на површината на структурата.

Петелките на шнолите кои прават целосен пресврт во полипептидниот синџир поврзуваат две антипаралелни β-нишки и можат да бидат само две аминокиселини во должина. Петелките стапуваат во интеракција со околната водена средина и другите белковини. Бидејќи аминокиселините во петелките не се просторно ограничени, како аминокиселините во јадрото, и немаат ефект врз аранжманот на вторичните структури во јадрото, кај нив можат да настанат повеќе супституции, вметнувања и бришења. Така, во порамнувањето на низите, присуството на овие особини може да биде показател за присуство на петелка. Позициите на интроните во геномската ДНК понекогаш одговараат на локациите на петелките во кодираната белковина. Петелките, исто така, имаат тенденција да содржат поларни и наелектризирани аминокиселини и тие често се дел од активните места на ензимите. Деталниот преглед на структурите на петелките покажал дека тие припаѓаат на различни семејства.

Навои

уреди

Регион од вторичната структура кој не е α-завојница, β-плоча, или свиок се нарекува навој.[1]

Класификација на белковините

уреди

Белковините може да се класифицираат според нивната структурна и низна сличност. Кај структурната класификација, големините и просторните аранжмани на вторичните структури се споредуваат со познати тридимензионални структури. Класификацијата врз основа на сличност на низите била историски првата која се користела. Најрано била направена сличност врз основа на порамнување на цели низи. Подоцна, белковините биле класифицирани врз основа на појавата на сочувани аминокиселини. Достапни се повеќе бази на податоци кои ги класифицираат белковините според една или повеќе од овие шеми. При разгледувањето на шемите за класификација на белковините, важно е да се имаат предвид неколку набљудувања. Прво, две сосема различни белковински низи, со различно еволуционо потекло, може да се склопат во слична структура. Спротивно на тоа, низата на античкиот ген за дадена структура може значително да дивергирала кај различни видови на организми, а во исто време да ги одржала (сочувала) основните структурни одлики. Пронаоѓањето на каква било заостаната сличност во низите во вакви случаи може да биде многу тешка задача. Второ, две белковини кои имаат значителен степен на сличност во низите или меѓусебно или со трета низа, исто така, имаат заедничко еволутивно потекло и треба да споделуваат некои структурни одлики. Сепак, генските дупликации и генетските преуредувања за време на еволуцијата може да доведат до појава на нови генски копии, кои потоа може да еволуираат во белковини со нова функција и структура.[1]

Термини кои се користат за класификација на белковинските структури и низи

уреди

Најчесто користените термини за еволутивни и структурни односи помеѓу белковините се наведени подолу. Разни дополнителни термини се користат за различни видови на структурни одлики кои се среќаваат кај белковините. Описи на такви термини можат да се најде на CATH мрежното место, структурна класификација на белковините (SCOP) мрежното место, и Glaxo-Wellcome туторијалот на Swiss bioinformatics Expasy мрежното место.

Активно место е локализирана комбинација на аминокиселински странични групи во рамките на третичната (тридимензионална) или четвртична (белковинска подединица) структура која може да стапува во интеракција со хемиски специфичен супстрат и која ја дава биолошката активност на белковината. Белковините со многу различни аминокиселински низи може да се склопат во структура со исто активно место.

Архитектура е релативната ориентација на вторичните структури во тридимензионалната структура, без разлика на тоа дали тие споделуваат слична структура на петелките или не.

Склоп е тип на архитектура која има сочувана структура и на петелките.

Блок е сочувана шема на аминокиселинска низа во семејство на белковини. Шемата вклучува серија на можни совпаѓања на секоја позиција во претставените низи, но нема вметнати или избришани позиции (вметнувања или бришења) во шемата или во низите. Спротивно на тоа, низните профили се тип на бодувачка матрична која претставува сличен сет на шеми кои вклучуваат вметнувања и бришења.

Класа е термин кој се користи за класификација на белковинските домени според нивната содржина на вторични структури и организацијата. Левит и Чотиа (1976) првично навеле четири класи, а подоцна биле додадени уште неколку други во SCOP базата на податоци. CATH базата на податоци наведува три класи: доминантно-α, доминантно-β и α–β класи, со тоа што α–β класата ги вклучува α/β и α+β структурите.

Јадро е дел од склопената белковинска молекула кое се состои од хидрофобна внатрешност на α-завојници и β-плочи. Оваа компактна структура ги доведува страничните групи на аминокиселините доволно блиску, така што тие можат да стапуваат во интеракција. Кога се споредуваат структурите на белковините, како што се врши во базата на податоци SCOP, јадрото е регионот кој е заеднички за повеќето структури кои имаат заеднички склоп или кои припаѓаат на истото натсемејство. Во предвидувањето на структурата, јадрото понекогаш се дефинира како распоредот на вторичните структури кои најверојатно е сочуван за време на еволутивната промена.

Домен (во контекст на низи) е сегмент од полипептидниот синџир кој може да се склопи во тридимензионална структура без оглед на присуството на други сегменти од синџирот. Посебните домени на дадена белковина може да стапуваат екстензивно во интеракција или може да бидат споени преку краток дел од полипептидниот синџир. Белковина со неколку домени (мултидоменска белковина) може да ги користи овие домени за функционални интеракции со различни молекули.

Семејство (во контекст на низи) е група на белковини со слична биохемиска функција, кои се повеќе од 50% идентични кога се порамнети. Една белковинско семејство содржи белковини со иста функција во различни организми (ортологни низи), но исто така може да вклучува и белковини во склоп на истиот организам (паралогни низи) добиени со генска дупликација и преуредувања. Семејствата може понатаму да се поделат на потсемејства или да се групираат во натсемејства врз основа на соодветни повисоки или пониски нивоа на сличност во низите. Базата на податоци SCOP има 1296 семејства, а базата на податоци CATH (верзија 1.7 бета) има 1846 семејства.

Кога низите на белковините со истата функција се испитуваат подетално, за некои се наоѓаа дека имаат голема низна сличност. Според горенаведените критериуми тие се членови на исто семејство. Сепак, некои имаат многу мала, дури незначајна, низна сличност со другите членови на истото семејство. Во такви случаи, семејниот однос помеѓу двата далечни членови на истото семејство А и Ц може да се демонстрира со наоѓање на дополнителен член на семејството, на пример Б, кој има значителна сличност и со А и со Ц. Така, Б обезбедува врска помеѓу А и Ц.

Со 50% идентична низа, белковините имаат иста тридимензионална структура, а идентичните атоми во порамнувањето на низите би се поклопиле за приближно 1 Å во структурниот модел. На тој начин, ако структурата на еден член од семејството е позната, може да се направи веродостојно предвидување на структурата на втор член на истата семејство. Што е поголема идентичноста во низата, тоа е поверодостојно предвидувањето на структурата.

Семејство (во контекст на структура) е, како што се користи во FSSP базата на податоци (од анг. Families of Structurally Similar Proteins - Семејства на структурно слични белковини) и на DALI/FSSP мрежното место, две структури кои имаат значително ниво на структурна сличност, но не мора да имаат значителна сличност во низите.

Склопот е сличен на структурниот мотив, вклучува поголема комбинација на единици на вторичната структура во истата конфигурација. На тој начин, белковините кои го споделуваат истиот склоп имаат иста комбинација на вторични структури кои се поврзани со слични петелки. Еден пример е Розмановиот склоп, кој се состои од неколку наизменични α-завојници и паралелни β-нишки. Во базите на податоци SCOP, CATH и FSSP, познатите белковински структури се класифицирани во хиерархиски нивоа на структурна комплексност, каде склопот е основното ниво на класификација.

Хомологен домен (во контекст на низи) е продолжен низен образец, кој најчесто се детектира со методите за порамнување на низите. Тој сигнализира заедничко еволутивно потекло на порамнетите низи. Хомологниот домен генерално е подолг од мотивите. Доменот може да ја содржи целата дадена белковинска низа или само дел од низата. Некои домени се комплексни и се состојат од неколку помали хомологни домени кои се здружиле за да формираат поголем во текот на еволуцијата. Домен кој ја покрива целата низа се нарекува хомеоморфен домен од страна на PIR (од анг. Protein Information Resource - Белковински информативен ресурс).

Модул е регион на сочувани аминокиселински обрасци кои содржат еден или повеќе мотиви, а се смета за основна единица на структура или функција. Присуството на модул, исто така, се користи за класификација на белковините во семејства.

Мотив (во контекст на низа) е сочуван образец на аминокиселини кој се наоѓа во две или повеќе белковини. Во каталогот PROSITE, мотив е аминокиселински образец кој се наоѓа во група на белковини кои имаат слична биохемиска активност, а кој често е сместен во близина на активното место на белковината. Примери за бази на податоци за низни мотиви се каталогот PROSITE и базата на податоци Stanford Motifs Database.[2]

Мотив (во контекст на структура) е комбинација на неколку елементи на вторичната структура создадени со склопување на соседни делови од полипептидниот синџир во специфична тридимензионална конфигурација. Еден пример е мотивот завојница-петелка-завојница. Структурните мотиви се нарекуваат и супервторични структури и склопови.

Матрица за бодување специфична за позиција (во контекст на низа) претставува сочуван регион во повеќекратно порамнување на низи без празнини. Секоја матрична колона ја претставува варијацијата најдена во една колона од повеќекратното порамнување на низи.

Матрица за бодување специфична за позиција—3D (во контекст на структура) претставува аминокиселинската варијација во порамнувањето на белковините кои спаѓаат во истата структурна класа. Матричните колони ја претставуваат аминокиселинската варијација најдена во една аминокиселинска позиција во порамнетите структури.

Првична структура е линеарната аминокиселинска низа на белковината, која од хемиска гледна точка е полипептидна низа составена од аминокиселини врзани со пептидни врски.

Профил (во контекст на низа) е бодувачка матрица која претставува повеќекратно порамнување на низите на семејство на белковини. Профилот обично се добива од добро сочуван регион во повеќекратното порамнување. Профилот е во форма на матрица, каде секоја колона претставува позиција во порамнувањето, а секој ред е една од аминокиселините. Матричните вредности ја даваат веројатноста за секоја аминокиселина на соодветната позиција во порамнувањето. Профилот се поместува по должината на целната низа за да ги лоцира најдобро бодуваните региони со алгоритам за динамичко програмирање. Низен профил може, исто така, да биде претставен со скриен модел на Марков (анг. HMM, Hidden Markov Model).

Профил (во контекст на структура) е бодувачка матрица која претставува кои аминокиселини треба добро да се вклопат и кои треба да се вклопат лошо во низни позиции на позната белковинска структура. Колоните на профилот претставуваат низни позиции во структурата, а редовите на профилот ги претставуваат 20-те аминокиселини. Како и со низниот профил, структурниот профил се поместува по целната низа за да го пронајде највисокиот можен бод за порамнување, со алгоритам за динамичко програмирање. Празнините може да бидат вклучени и добиваат казнени бодови. Резултирачката оцена дава индикација за тоа дали целната белковина може да има таква структура или не.

Четвртична структура е тридимензионална конфигурација на белковинската молекула која содржи неколку независни полипептидни синџири.

Вторична структура се интеракциите кои се одвиваат помеѓу C, O, и NH групите на аминокиселините во полипептидниот синџир за да формираат α-завојници, β-плочи, свиоци, петелки и други форми, и кои го олеснуваат склопувањето во тридимензионална структура.

Натсемејство е група на белковински семејства кои имаат мала но детектибилна сличност во низите. Припадниците на едно натсемејство имаат заедничко еволутивно потекло. Белковини со неколку идентитети во порамнувањето на низите, но со заеднички број на структурни и функционални одлики се класифицирани во истото натсемејство. На ниво на тридимензионална структура, белковините од исто натсемејство споделуваат заеднички структурни одлики, како што е заеднички склоп, но може да имаат разлики во бројот и распоредот на вторичните структури. PIR ресурсот го користи терминот хомеоморфни натсемејства за оние натсемејства кои се составени од низи кои можат да бидат порамнети од крај до крај, што претставува споделување на единечен низен хомологен домен, регион на сличност кој се протега низ целото порамнување. Овој домен, исто така, може да содржи помали хомологни домени кои се споделуваат со други белковински семејства и натсемејства. Иако дадена белковинска низа може да содржи домени кои се наоѓаат во неколку натсемејства, што укажува на комплексна еволутивна историја, низите ќе бидат доделени само на една хомеоморфно натсемејство врз основа на присуството на сличност низ повеќекратното порамнување на низи. Порамнувањето кај натсемејствата може да вклучува региони кои не се порамнуваат ниту во средината ниту на краевите на порамнувањето. Спротивно на тоа, низите во рамките на исто семејство добро се порамнуваат по целата должина.

Супервторична структура е термин кој има слично значење со терминот структурен мотив.[1]

Вторична структура

уреди

Предвидување на вторичната структура на белковините претставува збир на техники во биоинформатиката кои имаат за цел да ги предвидат локалните вторични структури на белковините врз основа на познавањето на нивната аминокиселинска низа. Предвидување се состои од доделување на региони од аминокиселинската низа можни структури на алфа-завојници, бета нишки (често именувани „издолжени“ конформации), или свиоци. Успехот на предвидувањето се одредува со негово споредување со резултатите на DSSP (анг. hydrogen bond estimation algorithm) алгоритмот (или некој сличен алгоритам, на пр. STRIDE (Structural identification)) аплицирани на кристалната структура на белковината. Развиени се специјализирани алгоритми за детекција на специфични добро-дефинирани обрасци, како што се трансмембранските завојници и намотаните завојници во белковините.[1]

Најдобрите денешни методи за предвидување на вторичната структура на белковините достигнуваат точност од околу 80%;[3] оваа висока точност овозможува користење на предвидувањата како алатка за подобрување на препознавањето на склоповите (анг. fold recognition) и ab initio предвидувањето на структурата на белковините, класификација на структурните мотиви и подобрување на порамнувањето на низите. Точноста на денешните методи за предвидување на структурата на белковините се проценува со неделни бенчмаркови, како што се LiveBench и EVA.

Третична структура

уреди

Практичната примена на предвидувањето на белковинската структура денес е поважна од било кога. Постојано се продуцираат огромни количества на податоци за белковински низи од проектите на ДНК секвенционирање, како што е Проектот за човечкиот геном. И покрај напорите на полето на структурната геномика, создавањето на експериментално потврдени белковински структури (обично со помош на бавни и релативно скапи методи на рендгенска кристалографија или NMR спектроскопија) значително заостанува зад продукцијата на нови белковински низи.

Предвидувањето на белковинската структура останува исклучително тежок и недоволно развиен потфат. Двата главни проблеми се пресметувањето на слободната енергија на белковините и наоѓањето на глобалниот минимум на оваа енергија. Методот за предвидување на структурата на белковините мора да го истражи просторот на можните белковински структури кој е астрономски голем. Овие проблеми можат делумно да се заобиколат со помош на „компаративното“ или хомологно моделирање и методите за препознавање на склопови, во кои просторот за пребарување е редуциран од претпоставката дека испитуваната белковина би заземал структура која е приближно иста со експериментално утврдената структура на друг хомологна белковина. Од друга страна, de novo или ab initio методите за предвидување на структурата на белковините мора експлицитно да ги решат овие проблеми. Напредокот и предизвиците во предвидувањата на структурата на белковините се разгледани во Zhang 2008.[4]

Четвртична структура

уреди

Во случај на комплекси од два или повеќе белковини, каде што структурите на белковините се познати или може да се предвидат со висока точност, може да се користат macromolecular docking методите за да се предвиди структурата на комплексот. Информациите за ефектот на мутациите на специфични локации врз афинитетот на комплексот помага да се разбере структурата на комплексот и да се насочуваат macromolecular docking методите.

Софтвер

уреди

Постојат голем број на софтверски алатки за предвидување на структурата на белковините. Одделните пристапи вклучуваат хомологно моделирање, protein threading (познат и како fold recognition), ab initio методи, предвидување на вторичната структура и предвидување на трансмембранска завојница и сигнален пептид. Некои неодамнешни успешни методи засновани на CASP експериментите вклучуваат I-TASSER (анг. Iterative Threading ASSEmbly Refinement) и HHpred (HHsearch).

Поврзано

уреди

Наводи

уреди
  1. 1,0 1,1 1,2 1,3 1,4 Mount DM (2004). Bioinformatics: Sequence and Genome Analysis. 2. Cold Spring Harbor Laboratory Press. ISBN 0-87969-712-1.
  2. Huang, JY.; Brutlag, DL. (Jan 2001). „The EMOTIF database“. Nucleic Acids Res. 29 (1): 202–04. doi:10.1093/nar/29.1.202. PMC 29837. PMID 11125091.
  3. Pirovano, W.; Heringa, J. (2010). „Protein secondary structure prediction“. Methods Mol Biol. Methods in Molecular Biology. 609: 327–48. doi:10.1007/978-1-60327-241-4_19. ISBN 978-1-60327-240-7. PMID 20221928.
  4. Zhang Y (2008). „Progress and challenges in protein structure prediction“. Curr Opin Struct Biol. 18 (3): 342–8. doi:10.1016/j.sbi.2008.02.004. PMC 2680823. PMID 18436442.

Литература

уреди

Надворешни врски

уреди