Упростен систем за заведување во редови со молекуларен внос

Упростен систем за заведување во редови со молекуларен внос (УСЗРМВ) — спецификација во форма на линиска запис за опишување на структурата на хемиските видови користејќи кратки ASCII низи . Низите создадени од УСЗРМВ може да се употребат од повеќето молекуларни уредувачи за претворање во дводимензионални цртежи или тридимензионални модели на молекулите.

УСЗРМВ
Наставка.smi
MIME-типchemical/x-daylight-smiles
Тип на форматхемиски податочен облик
Алгоритам за создавање на УСЗРМВ за Ципрофлоксацин : прекинувачки циклуси, подоцна запишани како како гранки од главниот скелет

Оригиналната спецификација за УСЗРМВ беше создадена во 1980-ите. Оттогаш е изменет и проширен. Во 2007 година, е развиен слободен стандард наречен СУСЗРМВ од страна на хемиската заедница.

Историја уреди

Оригиналната спецификација SMILES била идеја на Дејвид Вајнингер вработен во еколошкиот оддел на лабораторијата о средниот континент USEPA во Дулут во 1980-ите.[1][2][3][4] Дополнително заслужни се и Гилман Вејт и Роуз Русо и Алберт Лео и Корвин Ханш за поддршка на работата, и Артур Вајнингер и Џереми Скофилд за помошта во програмирањето на системот.[5] Агенцијата за заштита на животната средина го финансирала почетниот проект за развој на УСЗРМВ.[6][7]

Оттогаш е изменуван и прошируван од други придонесувачи, особено од Дневни хемиски информациски системи. Во 2007 година, слободниот стандард наречен „СУСЗРМВ“ бил развиен од Син Обелиск заедница од хемичари поддржувачи на за слободен код. Други „линиски“ ознаки ги вклучуваат и Висвесерово линиско запишување (WLN), РОСДАЛ и SLN (Tripos Inc).

Во јули 2006 година, IUPAC го воведеува InChI како стандард за претставување на формулите. Генерално се смета дека УСЗРМВ има предност над InChI поради полесното читање за оние кои не се хемичари, исто така има широка база на софтверска поддршка со обемно теоретско поддржување (како што е теоријата на графови).

Поими уреди

Под поимот УСЗРМВ се подразбира линиски запис за кодирање на молекуларните структури и овие записи треба накусо да се нарекуваат УСЗРМВ скелетни записи. Сепак, поимот УСЗРМВ се користи често за единечен скелетен УСЗРМВ запис или за бројни скелетни УСЗРМВ записи; значењето вообичаено е согледливо од самиот контекст. Поимите „канонски“ и „изомерски“ може да доведат до забуна кога ќе се применат во УСЗРМВ. Поимите опишуваат различни атрибути на скелетните УСЗРМВ записи и не се меѓусебно исклучливи.

Вообичаено, постои различен број на соодветни УСЗРМВ записи за една молекула. На пример, CCO, OCC и C(O)C сите укажуваат на структурата на етанол. Алгоритмните биле развиени за да создадат исти скелетни УСЗРМВ записи за определената молекула; од сите можни записи, овие алгоритми ќе изберат само една. УСЗРМВ записот е уникатен за секоја структура, иако зависи од алгоритмот за каноникализација, кој и ги создава, и е познат како канонски УСЗРМВ. Овие алгоритми првично ги претвораат УСЗРМВво внатрешен запис на молекуларната структура; па алгоритам ја разгледува таа структура и создава единствен скелетен УСЗРМВ запис. Развиени се различни алгоритми за канонски УСЗРМВ меѓу кои се оние на Дејлајт Хемикал Информејшн Системс, Опенај Сајентифик Софтвер, МЕДИТ, Хемикал Компјутинг Груп, МолСофт ЛЛЦ, и Хемиска развојна опрема. Вообичаена примена на канонскиот УСЗРМВ е за подредување и обезбедување на единствениот запис на молекулите во податотеки.

Првичниот труд копј го опишал алгоритмот КАНГЕН[2] уверувал дека може да создаде единствени УСЗРМВ записиза графичкиот приказ на молекулите, но алгоритмот е неуспешен за бројни едноставни случаи (пр. кунеан, 1,2-дициклопропилетан) и не може да се сметат за точен метод за канонско графичко претставување.[8] Моментално не постои системско споредување низ комерцијалниот софтвер за да се тестира постоењето на слични пропусти во понудените пакети.

Записите со помош на УСЗРМВ овозможуваат спецификација на конфигурацијата на тетраедарските центри, и геометријата ан двојните врски. Ова се структурни обележја кои не може да се одредат само со поврзаноста, и оттука УСЗРМВ кој ја кодира оваа информација се наречени изомерски УСЗРМВ. Значајна особина на овие правила е дека тие дозволуваат строги делумни спецификации за хиралноста. Поимот изомериски УСЗРМВ се применува и за УСЗРМВ кај кои измоерите се однапред познати.

Графичко засновани дефиниции уреди

Во однос на графичкозаснованата пресметувачка процедура, УСЗРМВ добиена со испечатување на симболиските јазли кои се застапени во длабочинска обиколка на дрво на молекуларниот приказ. Хемискиот графички приказ првично наместен да ги отстрани водородните атоми и циклусите се разрушени за да се создаде разгрането дрво. Каде циклусите се разрушени, и се користат бројчани ознаки за да се означат сврзувачките јазли. Заградите се користат за да се означат точките на разгранувањето на дрвото.

Добиениот УСЗРМВ облик зависи од следниве избори:

  • врските избрани за разрушените циклуси,
  • од почетниот атом за длабионската обиколка
  • од редот во кој гранките се подредени при пресретнувањето.

Дефиниција на УСЗРМВ како низа од слободен јазик уреди

Од гледиште на формалната јазична теорија, УСЗРМВ е збор. УСЗРМВ се анализира со несодржински сметач. Употребата на овие записи е со цел да се предвидат биохемиските својства (меѓу кои. токсичност и биоразградливост) засновани на главните начела на хемоинформатиката од каде следи дека слични молекули имаат слични својства. Предвидувачките модели применети со синтактички шаблон со препознавачки приод (вклучува и одредување на молекуларното растојание)[9] и покрупна шема заснована на статистичко препознавање на шаблони.[10]

Опис уреди

Атоми уреди

Атомите се претставуваат со стандардните симболи за хемиските елементи, во средни загради, на пример [Au] за злато. Заградите може да се изостават во случаите кога атомите се:

  1. во "органска низа" со B, C, N, O, P, S, F, Cl, Br, или I, и
  2. нема формален полнеж, и
  3. бројот на сврзаните водородни атоми запишан преку валентниот модел од УСЗРМВ (вообичаено нивната нормална валентност, но за N и P е 3 или 5, а за S е 2, 4 или 6), и
  4. се нормалните изотопи, и
  5. не се хирални центри.

Сите останати елементи се во загради, и нивните полнежи и сврзни водороди се прикажани експлицитно. На пример, УСЗРМВ за водата ги користи следниве кодови O или [OH2]. Водородот може и да се запише како посебен атом; па водата може да се запише како [H]O[H].

Кога се користат загради, симболот H се додава доколку атомот во загради е сврзан со еден или повеќе водородни атоми, по што следи бројот на водородни атоми доколку е поголем од 1, по што следи знакот + за позитивен полнеж или - за негативен полнеж. На пример, [NH4+] за амониум (NH+
4
). Доколку има повеќе од еден полнеж, се запишува како број; сепак, можно е да се повторува знакот онолку пати колку што полнежи има самиот јон: и тоа би се запишало како [Ti+4] или [Ti++++] за титан (IV) Ti4+. Па така, за хидроксидниот анјон (OH) се запишува како [OH-], а за хидрониумот или позитивниот катјон (H
3
O+
) е [OH3+] и катјонот за кобалт(III) (Co3+) е или [Co+3] или [Co+++].

Врски уреди

Врските се претставени сокористење на еден од симболите. - = # $ : / \.

Врските меѓу алифатичните атоми се претпоставува дека се единечни доколку не е укажано на спротивното и соодветно истото е прикажано и од УСЗРМВ. Иако единечните врски може да се запишат и како -, ова вообичаено се изоставиува. На пример, УСЗРМВ записот за етанол може да се запише и како C-C-O, CC-O или C-CO, но вообичаено се запишува како CCO.

Двојните, тројните, и четрикратните врска се прикажани соодветно со симболите =, #, и $ и со помош на УСЗРМВ се: O=C=O (јаглерод диоксид CO
2
), C#N (водороден цијанид HCN) и [Ga+]$[As-] (галиум арсенид).

дополнителен вид на врска е „неврската“, означена со ., со што се укажува дека деловите не се сврзани меѓусебно. На пример, водениот раствор од натриум хлорид може да се запише како [Na+].[Cl-] за да се прикаже дисоцијацијата.

Ароматичната „една и половина“ врска се прикажува со симболот :; Погледајте Упростен систем за заведување во редови со молекуларен внос § Белешки подолу.

Единичните врски веднаш до двојните врски може да се прикажат со користење на / или \ за да се укаже стереохемиската конфигурација; Погледајте Упростен систем за заведување во редови со молекуларен внос § Белешки подолу.

Прстени уреди

Прстенестите структури се запишани со прекинување ба секој прстен во договорна точка (иако некои од избраните точки ќе придонесатѕа за подобри записи во УСЗРМВ од други) за да се запише ациклична структура и да се додаде броен пристен за појаснување за да се прикаже поврзаноста меѓу несоседните атоми.

На пример, циклохексанот и диоксанот може да се запишат соодветно како C1CCCCC1 и O1CCOCC1. За втор прстен, ознаката ќе биде 2. На пример, декалин (декахидронафтален) може да се запише како C1CCCC2C1CCCC2.

УСЗРМВ не побарува броевите за прстените да се користат на одреден начин, и дозволен е бројот 0 како ознака, иако ретко се користи. Дополнително, дозволено е да се преискористат и броевите од прстенот и откако првиот прстен е затворен, иако ова вообичаено прави формулата да биде потешко разбирлива за читање. На пример, бициклохексил вообичаено се запишува C1CCCCC1C2CCCCC2, но може да се запише и како C0CCCCC0C0CCCCC0.

Повече броеви по еден атом укажува на повеќе прстено-затворечки врски. На пример, поинаков запис so УСЗРМВ декалин е C1CCCC2CCCCC12, каде последниот јаглерод учествува во затворачките прстенести врски 1 и 2. Ако се потребни двобројни прстенести броеви, ознаката е предследена со %, па имаме C%12 која е единечна прстенесто затворачка врска за прстенот 12.

Едната или двете бројки може да се предследени од тип на врска која укажува на врската со која се затвора прстенот. На пример, циклопропен е вообичаено C1=CC1, но доколку двојната врска е всушност врската со која се затвора прстенот, може да се запише како C=1CC1, C1CC=1, или C=1CC=1. (Се препорачува употреба на првото.) Записот C=1CC-1 е недозволив, бидејќи експлицитно го означува видот на врската која се користи за затворање на прстенот.

Врските кои го затвораат прстенот не мора да се користат за да се означат повеќе врски. На пример, C1C1 не е точен запис за пинаков запис за C=C односно етилен. Сепак, тие може да се користта со неврски; C1.C2.C12 е невообичаен но точен начин на запишување на пропанот, кој вообичаено се запишува како CCC.

Изборот за прекин на прстенот до прикаќените групи може да доведе до поедноставен УСЗРМВ запис со избегнувањето на разгранувањето. На пример, циклохексан-1,2-диол најчесто се запишува како OC1CCCCC1O; избирањето на различните места на прекин на прстенот создава разгранета структура за која е се потрени загради за да се запише.

Ароматичност уреди

Ароматичните прстени како што е бензенот може да се запишат во еден од следниве облици:

  1. Кај Кекуле обликот е со променливи единечни и двојни врски, на пример C1=CC=CC=C1,
  2. Користејќи го ароматичниот симбол за врск :, на пример C1:C:C:C:C:C1, или
  3. Најчето, со запишување на составните атоми B, C, N, O, P и S соодветно со мали букви b, c, n, o, p и s.

Во последниот случај, врските меѓу два ароматични атоми се претпоставува (iдоколку не е исклучиво кажано) дека се ароматични врски. Па така, бензенот, пиридинот и фуранот може соодветно да се запишат соодветно со користење на УСЗРВМ како c1ccccc1, n1ccccc1 и o1cccc1.

Ароматичниот азот сврзан со водородот, како што е кај пиролот треба да се прикаже со [nH]; па така имидазол се запишува со УСЗРВМ како n1c[nH]cc1.

Кога ароматичните атоми се единечно сврзани еден за друг, како што е случајот со бифенил, единечната врска треба да се прикаже експлицитно: c1ccccc1-c2ccccc2. Ова е еден од неколкуте случаи каде ознаката за врската - е потребна. (Како факт повеќето УСЗРВМ софтвери може точно да разделат дека врската меѓу двата прстена не може да биде ароматична и ќе ја прифатат и нестандардниот облик c1ccccc1c2ccccc2.)

Алгоритмите Дејлајт и Опенај за создавање на канонски УСЗРВМ се разликуваат во начинот на кој ја разработуваат ароматичноста.

 
Претставување на 3-цијаноанисол како COc(c1)cccc1C#N.

Разгранување уреди

Разгранувањетосе опишани со загради, како во CCC(=O)O за пропионска киселина и FC(F)F за флуроформ. Првиот атом во заградата, и првиот атом по групата во заградата, се заедно сврзани со истиот атом на разгранување. Ознаката за врската мора да постои внатре во заградата; надвор од заградата би било погрешен запис (на пример: CCC=(O)O).

Заменетите прстени може да се запишат со разгранувачката точка како што е прикажано со помош на УСЗРМВCOc(c1)cccc1C#N (see depiction) и COc(cc1)ccc1C#N (Погледајте ја сликата) која ги кодира 3 и 4-цијаноисолните изомери. Запишувањето на УСЗРМВ на овој начин ги прави почитливи за луѓето.

Гранките може да се запишат по било кој редослед. На пример, бромохлородифлурометан може да се запише како FC(Br)(Cl)F, BrC(F)(F)Cl, C(F)(Cl)(F)Br, или налик на тие. Општо, обликот во УСЗРМВ најлесно се чита доколку поедноставната гранка е прва, со крајната, незаграден дел да биде посложениот дел. Единствените услови за ваквите презапишувања се:

  • Ако броевите од прстенот се повторно искористени, тие се впаруваат според нивниот редослед на појавувае во низата на УСЗРМВ. Некои помали прилагодувања се потребни за да се запази точното впарување.
  • Ако стереохемијата е укажана, мора да се направат прилагодувања; Погледајте Упростен систем за заведување во редови со молекуларен внос § Белешки подолу.

Еден облик на гранка кој не побарува загради се прстенесто-затворените врски. Изборот на прстенесто-затворени врски може и дополнително да го намали бројот на потребните загради. На пример, толуенот нормативно се запишува како Cc1ccccc1 или c1ccccc1C, со што се избегнуваат заградите, кои би биле потребни доколку се запишува како c1cc(C)ccc1 or c1cc(ccc1)C.

Стереохемија уреди

 
транс-1,2-дифлуроетилен
 
цис-1,2-дифлуроетилен

УСЗРМВ дозволува, но не е потребно, да се специфизираат стереоизомерите.

Конфигурацијата околу двојните врски е специфизирана користејќи ознаки / и \ да се покажат насочените единечни врски непосредно до својните врски. На пример, F/C=C/F (Погледајте го описот) е еден приказ на транс-1,2-дифлуроетилен, каде атомите на флуорот се на спротивните страни на двојната врска (како што е прикажано на сликата), додека пак F/C=C\F (Погледајте го описот) е еднен приказ на можниот цис-1,2-дифлуроетилен, каде флурините се на истата страна со двојната врска.

Симболите за насоката на врските се секогаш во групи од две, од кои првата е по случаен избор. Односно, кодот F\C=C\F е ист со F/C=C/F. Кога се присутни променливите единечно двојни врски, групите се поголеми од две, со што средните насочени симболи се соседни две двојни врски. На пример, честиот облик на (2,4)-хексадиен се запишува C/C=C/C=C/C.

 
Бета-каротин, со единаесетте двојни врски кои се задебелени.

Како посложен пример, бета-каротинот поседува многу долг синџир од променливи единечни и двојни врски, кои може да се запишат како CC1CCC/C(C)=C1/C=C/C(C)=C/C=C/C(C)=C/C=C/C=C(C)/C=C/C=C(C)/C=C/C2=C(C)/CCCC2(C)C.

Записот тетрахедрален јаглерод е опишан со кодот @ или @@. Четирите врски се разгледуваат според редоследот на појавување, лево кон десно, според УСЗРМВ. Насоченоста е кон централниот јаглерод од позиција на првата врска, првоте три се или во насока на стрелките на часовникот или обратно. Овие случаи се прикажани со @@ и @, соодветно (бидејќи @ симбол самиот по себе е спирала насочена обратно од стрелката на часовник).

 
L-аланин.

На пример, да се разгледа аминокиселината аланин. Еден од УСЗРМВ облици е NC(C)C(=O)O, почесто запишано како N[CH](C)C(=O)O. L-аланин, почестиот енатиомер, се запишува како N[C@@H](C)C(=O)O (Погледајте го описот). Разгледувајќи од врската на азотот и јаглеродот, водородната (H), метилната (C), карбоксилната(C(=O)O) група се во насока на стрелките на часовникот.D-Аланинот може да се запише како N[C@H](C)C(=O)O (Погледајте го описот).

Додека редоследот во кои гранки сее спомнати групите во УСЗРМВ е незначајно, во овој случај тое е од важност; заменувањето на кои и да се две групи побарува измена на показателот за хиралноста. Ако разгранувањето се измени па така аланинот е запишан како NC(C(=O)O)C, па тка конфигурацијата се менува; L-аланин се запишува како N[C@H](C(=O)O)C (Погледајте го описот). Други начини за запишување вклучуваат C[C@H](N)C(=O)O, OC(=O)[C@@H](N)C и OC(=O)[C@H](C)N.

Нормално, првата од четирите врски се на лево од јаглеродниот атом, но доколку УСЗРМВ е запишан така што започнува со хирален јаглерод, како што е C(C)(N)C(=O)O, тогаш сите четири се на десно, но првиот кој се појавува (the [CH] врската во овој случај) се користи за да се наведе редоследот на следниве три: L-аланин може исто така да се запише и како[C@@H](C)(N)C(=O)O.

УСЗРМВ спецификацијата вклучува објаснувања за @ симболот за да се укаже стереохемијата околу хиралните центри, како што е триаголна бипирамидална молекуларна геометрија.

Изотопи уреди

Изотопи се специфицирани со број еднаков на бројната изотопска маса пред симболот за атомот. Бензен при што еден атом е јаглерод-14 е запишан како [14c]1ccccc1 и деутерохлороформ е [2H]C(Cl)(Cl)Cl.

Примери уреди

Молекула Структура УСЗРМВ запис
Диазот N≡N N#N
Метил изоцијанат (МИЦ) CH3−N=C=O CN=C=O
Бакар(II) сулфат Cu2+SO2−
4
[Cu+2].[O-]S(=O)(=O)[O-]
Ванилин   O=Cc1ccc(O)c(OC)c1
COc1cc(C=O)ccc1O
Мелатонин (C13H16N2O2)   CC(=O)NCCC1=CNc2c1cc(OC)cc2
CC(=O)NCCc1c[nH]c2ccc(OC)cc12
Флавопереирин (C17H15N2)   CCc(c1)ccc2[n+]1ccc3c2[nH]c4c3cccc4
CCc1c[n+]2ccc3c4ccccc4[nH]c3c2cc1
Никотин (C10H14N2)   CN1CCC[C@H]1c2cccnc2
Оенатотоксин (C17H22O2)   CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO
CCC[C@@H](O)CC/C=C/C=C/C#CC#C/C=C/CO
Пиретрин II (C22H28O5)   CC1=C(C(=O)C[C@@H]1OC(=O)[C@@H]2[C@H](C2(C)C)/C=C(\C)/C(=O)OC)C/C=C\C=C
Афлатоксин B1 (C17H12O6)   O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
Гликоза (β-D-гликопираноза) (C6H12O6)   OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@H](O)1
Бергенин (кускатин, вид на смола) (C14H16O9)   OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2
Фермон на Калифорнискиот штитест инсект   CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C
(2S,5R)-Халкогран: фермон на подкорник Pityogenes chalcographus[11]   CC[C@H](O1)CC[C@@]12CCCO2
α-Тујон (C10H16O)   CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2
Тиамин (витамин B1, C12H17N4OS+)   OCCc1c(C)[n+](cs1)Cc2cnc(C)nc2N

За да се прикаже молекула со повеќе од 9 прстени, како што е цефалостатин-1,[12] стероиден 13-прстенест пиразин со емпириска формула C54H74N2O10 изолиран од океанскиот полухорд Cephalodiscus gilchristi:

 

Започнува од најлевата метилна група на сликата:

CC(C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO

Имајте предвид дека % се појавува пред показателот за затворениот прстен означен погоре со 9; Погледајте погоре во делот за Упростен систем за заведување во редови со молекуларен внос § Белешки.

Други примери за УСЗРМВ уреди

Записите во УСЗРМВ се опишани нашироко во корисничкото упатство на УСЗРМВ напишано од страна на Дејлајт Хемикал Информејшн Системс и се претствени бројни цртежни примери. Алатката за исцтртување обезбедена од Дејлајт им овозможува на корисниците начин за проверка на сопствените примери во УСЗРМВ и е значајна образовна алатка.

Надградби уреди

СМАРТС линиско означување за подробностите на подструктурните молекуларни обрасци. Иако користи многу од ознаките на УСЗРМВ, при што дополнително овозможува употреба на пребарувач за атоми и врски, кои би се искористиле за дефинирање на подструктурните прашања за пребарување на хемиската датотека. Честа заблуда е дека пребарувањето на подструктурите засновани на УСЗРМВ вклучува споредба записите на УСЗРМВ и СМАРТС. Всушност,записте во УСЗРМВ и СМАРТС првично се претворени во графички прикази и тие се пребаруваат во подграфичкиот изомофизам.

СМИРКС, суперзбирка од "реакциски УСЗРМВ" и подмножество на "реакциски СМАРТС", е линиски запис за одредените реакциски претворби. Општата синтакса за реакциската надградба е REACTANT>AGENT>PRODUCT (без празни места), каде кое било од полињата може да се остави празно или пополни со повеќе молекули where any of the fields can either be left blank or filled with multiple molecules ограничени со точка (.), и другите описи зависни од основниот јазик. Атомите дополнително може да се запишат со број (п.р. [C:1]) за мапирање,[13] на пример „во“.[14]

УСЗРМВ соодвествува со дискретните молекуларни структури. Сепак многу материјали се макромолекули, кои се преголеми (и честопати стохастички) за да се создаде запис во УСЗРМВ. ГолемУСЗРМВ е надградба на УСЗРМВ која цели да обезбеди солиден систем за макромолекули.[15]

Претворање уреди

УСЗРМВ може да се претвори повторно во дводимензионален приказ користејќи алгоритми за создавање на структурни дијаграми.[16] Ова претворање не секогаш е недвосмислено. Претворањето во тридимензионални прикази се постигнува со притапи на енергетско ускратување. Постојат бројни надградби кои може да се симнат од семрежјето или пак директно да се користат на семрежјето.

Поврзано уреди

Наводи уреди

  1. Weininger, David (February 1988). „SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules“. Journal of Chemical Information and Computer Sciences. 28 (1): 31–6. doi:10.1021/ci00057a005.
  2. 2,0 2,1 Weininger, David; Weininger, Arthur; Weininger, Joseph L. (May 1989). „SMILES. 2. Algorithm for generation of unique SMILES notation“. Journal of Chemical Information and Modeling. 29 (2): 97–101. doi:10.1021/ci00062a008.
  3. Weininger, David (August 1990). „SMILES. 3. DEPICT. Graphical depiction of chemical structures“. Journal of Chemical Information and Modeling. 30 (3): 237–43. doi:10.1021/ci00067a005.
  4. Swanson, Richard Pommier (2004). „The Entrance of Informatics into Combinatorial Chemistry“ (PDF). Во Rayward, W. [Warden] Boyd; Bowden, Mary Ellen (уред.). The History and Heritage of Scientific and Technological Information Systems: Proceedings of the 2002 Conference of the American Society of Information Science and Technology and the Chemical Heritage Foundation. Medford, NJ: Information Today. стр. 205. ISBN 9781573872294.
  5. Weininger, Dave (1998). „Acknowledgements on Daylight Tutorial smiles-etc page“. Посетено на 24 June 2013.
  6. Anderson, E.; Veith, G. D.; Weininger, D. (1987). SMILES: A line notation and computerized interpreter for chemical structures (PDF). Duluth, MN: United States Environmental Protection Agency, Environmental Research Laboratory-Duluth. Report No. EPA/600/M-87/021.
  7. „SMILES Tutorial: What is SMILES?“. United States Environmental Protection Agency. Посетено на 2012-09-23.
  8. Neglur G, Grossman RL, Liu B (2005). „Assigning Unique Keys to Chemical Compounds for Data Integration: Some Interesting Counter Examples“. Во Ludäscher B (уред.). Data Integration in the Life Sciences. Lecture Notes in Computer Science. 3615. Berlin: Springer. стр. 145–157. doi:10.1007/11530084_13. ISBN 978-3-540-27967-9. Посетено на 2013-02-12.
  9. Sidorova J, Anisimova M (August 2014). „NLP-inspired structural pattern recognition in chemical application“. Pattern Recognition Letters. 45: 11–16. doi:10.1016/j.patrec.2014.02.012.
  10. Sidorova J, Garcia J (November 2015). „Bridging from syntactic to statistical methods: Classification with automatically segmented features from sequences“. Pattern Recognition. 48 (11): 3749–3756. doi:10.1016/j.patcog.2015.05.001.
  11. Byers JA, Birgersson G, Löfqvist J, Appelgren M, Bergström G (March 1990). „Isolation of pheromone synergists of bark beetle,Pityogenes chalcographus, from complex insect-plant odors by fractionation and subtractive-combination bioassay“. Journal of Chemical Ecology. 16 (3): 861–876. doi:10.1007/BF01016496. PMID 24263601. S2CID 226090.
  12. „CID 183413“. Pubхем (англиски). Посетено на May 12, 2012.
  13. „SMIRKS Tutorial“. Daylight Chemical Information Systems, Inc. Посетено на 29 October 2018.
  14. „Reaction SMILES and SMIRKS“. Daylight Chemical Information Systems, Inc. Посетено на 29 October 2018.
  15. Lin TS, Coley CW, Mochigase H, Beech HK, Wang W, Wang Z, и др. (September 2019). „BigSMILES: A Structurally-Based Line Notation for Describing Macromolecules“. ACS Central Science. 5 (9): 1523–1531. doi:10.1021/acscentsci.9b00476. PMC 6764162. PMID 31572779.
  16. Helson HE (1999). „Structure Diagram Generation“. Во Lipkowitz KB, Boyd DB (уред.). Reviews in Computational Chemistry. 13. New York: Wiley-VCH. стр. 313–398. doi:10.1002/9780470125908.ch6. ISBN 978-0-470-12590-8.