Förenklat linjeingångssystem med molekylär ingång

LEDER
Filnamnstillägg
.smi
Internet mediatyp
kemikalie/x-dagsljus-ler
Typ av format kemiskt filformat
SMILES-genereringsalgoritm för ciprofloxacin : bryt cykler, skriv sedan som grenar från en huvudryggrad

Det förenklade molecular-input line-entry-systemet ( SMILES ) är en specifikation i form av en linjenotation för att beskriva strukturen hos kemiska arter med hjälp av korta ASCII - strängar . SMILES-strängar kan importeras av de flesta molekylredigerare för konvertering tillbaka till tvådimensionella ritningar eller tredimensionella modeller av molekylerna.

Den ursprungliga SMILES-specifikationen initierades på 1980-talet. Den har sedan dess modifierats och utökats. 2007 utvecklades en öppen standard som heter OpenSMILES i kemigemenskapen med öppen källkod.

Historia

Den ursprungliga SMILES-specifikationen initierades av David Weininger vid USEPA Mid-Continent Ecology Division Laboratory i Duluth på 1980-talet. Erkända för sina roller i den tidiga utvecklingen var "Gilman Veith och Rose Russo (USEPA) och Albert Leo och Corwin Hansch ( Pomona College ) för att stödja arbetet, och Arthur Weininger (Pomona; Daylight CIS) och Jeremy Scofield (Cedar River Software, Renton, WA) för hjälp med att programmera systemet." Naturvårdsverket finansierade det första projektet för att utveckla SMILES .

Det har sedan dess modifierats och utökats av andra, framför allt av Daylight Chemical Information Systems. År 2007 utvecklades en öppen standard som heter "OpenSMILES" av Blue Obelisk open-source kemigemenskap. Andra "linjära" notationer inkluderar Wiswesser Line Notation (WLN), ROSDAL och SLN (Tripos Inc).

I juli 2006 introducerade IUPAC InChI som en standard för formelrepresentation. SMILES anses generellt ha fördelen av att vara mer läsbar för människor än InChI; den har också en bred bas av mjukvarustöd med omfattande teoretisk stöd (som grafteori) .

Terminologi

Termen SMILES hänvisar till en linjenotation för kodning av molekylära strukturer och specifika instanser bör strikt kallas SMILES-strängar. Men termen SMILES används också ofta för att hänvisa till både en enda SMILES-sträng och ett antal SMILES-strängar; den exakta innebörden framgår vanligtvis av sammanhanget. Termerna "kanonisk" och "isomerisk" kan leda till viss förvirring när de tillämpas på SMILES. Termerna beskriver olika attribut för SMILES-strängar och utesluter inte varandra.

Vanligtvis kan ett antal lika giltiga SMILES-strängar skrivas för en molekyl. Till exempel anger CCO , OCC och C(O)C alla strukturen av etanol . Algoritmer har utvecklats för att generera samma SMILES-sträng för en given molekyl; av de många möjliga strängarna väljer dessa algoritmer bara en av dem. Detta SMILES är unikt för varje struktur, även om det beror på kanoniseringsalgoritmen som används för att generera det, och kallas det kanoniska SMILES. Dessa algoritmer omvandlar först SMILES till en intern representation av molekylstrukturen; en algoritm undersöker sedan den strukturen och producerar en unik SMILES-sträng. Olika algoritmer för att generera kanoniska SMILES har utvecklats och inkluderar de av Daylight Chemical Information Systems, OpenEye Scientific Software , MEDIT, Chemical Computing Group , MolSoft LLC och Chemistry Development Kit . En vanlig tillämpning av kanoniska SMILES är att indexera och säkerställa unika molekyler i en databas .

Den ursprungliga artikeln som beskrev CANGEN-algoritmen hävdade att den genererade unika SMILES-strängar för grafer som representerar molekyler, men algoritmen misslyckas i ett antal enkla fall (t.ex. cuneane , 1,2-dicyklopropyletan) och kan inte anses vara en korrekt metod för att representera en graf kanoniskt. Det finns för närvarande ingen systematisk jämförelse mellan kommersiell programvara för att testa om sådana brister finns i dessa paket.

SMILES-notation tillåter specifikation av konfiguration vid tetraedriska centra och dubbelbindningsgeometri. Dessa är strukturella egenskaper som inte kan specificeras av enbart anslutning, och därför kallas SMILES som kodar denna information isomera SMILES. En anmärkningsvärd egenskap hos dessa regler är att de tillåter rigorösa partiella specifikationer av kiralitet. Termen isomera SMILES används också för SMILES där isomerer specificeras.

Grafbaserad definition

När det gäller en grafbaserad beräkningsprocedur är SMILES en sträng som erhålls genom att skriva ut symbolnoder som påträffas i en djup-första trädpassering av en kemisk graf . Den kemiska grafen trimmas först för att avlägsna väteatomer och cykler bryts för att förvandla den till ett spännträd . Där cykler har brutits, ingår numeriska suffixetiketter för att indikera de anslutna noderna. Parenteser används för att indikera förgreningspunkter på trädet.

Det resulterande SMILES-formuläret beror på valen:

  • av de bindningar som valts för att bryta cykler,
  • av startatomen som används för djupet-första traverseringen, och
  • av den ordning i vilken filialer listas när de påträffas.

SMILES definition som strängar av ett sammanhangsfritt språk

Ur en formell språkteoris synvinkel är SMILES ett ord. A SMILES är parserbar med en kontextfri parser. Användningen av denna representation har varit för att förutsäga biokemiska egenskaper (inkl. toxicitet och biologisk nedbrytbarhet ) baserat på kemoinformatikens huvudprincip att liknande molekyler har liknande egenskaper. De prediktiva modellerna implementerade en syntaktisk mönsterigenkänningsmetod (som involverade att definiera ett molekylärt avstånd) såväl som ett mer robust schema baserat på statistisk mönsterigenkänning.

Beskrivning

Atomer

Atomer representeras av standardförkortningen av de kemiska beståndsdelarna , inom hakparenteser, såsom [Au] för guld . Hakparenteser kan utelämnas i det vanliga fallet med atomer som:

  1. är i den " organiska delmängden " av B , C , N , O , P , S , F , Cl , Br eller I , och
  2. har ingen formell åtal , och
  3. har antalet väten fästa som antyds av SMILES-valensmodellen (vanligtvis deras normala valens, men för N och P är det 3 eller 5, och för S är det 2, 4 eller 6), och
  4. är de normala isotoper , och
  5. är inte kirala centra .

Alla andra element måste vara omgivna inom parentes och ha laddningar och väte som uttryckligen visas. Till exempel kan SMILES för vatten skrivas som antingen O eller [OH2] . Väte kan också skrivas som en separat atom; vatten kan också skrivas som [H]O[H] .

När parentes används läggs symbolen H till om atomen inom parentes är bunden till en eller flera väte, följt av antalet väteatomer om det är större än 1, sedan av tecknet + för en positiv laddning eller av - för en negativ avgift. Till exempel [NH4+] för ammonium ( NH
+ 4
). Om det finns mer än en laddning skrivs den normalt som siffra; men det är också möjligt att upprepa tecknet så många gånger som jonen har laddningar: man kan skriva antingen [Ti+4] eller [Ti++++] för titan (IV) Ti 4+ . Således representeras hydroxidanjonen (OH − ) av [ OH- ] , hydroniumkatjonen ( H 3 O + ) är [ OH3+] och kobolt (III) katjonen (Co 3+ ) är antingen [Co+3 ] eller [Co+++] .

Obligationer

En bindning representeras med en av symbolerna . - = # $ : / \ .

Bindningar mellan alifatiska atomer antas vara enkla om inte annat anges och antyds av närliggande SMILES-strängen. Även om enkelbindningar kan skrivas som - , utelämnas detta vanligtvis. Till exempel kan SMILES för etanol skrivas som CCO , CC-O eller C-CO , men skrivs vanligtvis CCO .

Dubbel-, trippel- och fyrdubbelbindningar representeras av symbolerna = , # , respektive $ som illustreras av SMILES O=C=O ( koldioxid CO 2 ), C#N ( vätecyanid HCN) och [Ga+]$[ As-] ( galliumarsenid ).

En ytterligare typ av obligation är en "icke-bindning", indikerad med . , för att indikera att två delar inte är sammanfogade. Till exempel kan vattenhaltig natriumklorid skrivas som [Na+].[Cl-] för att visa dissociationen.

En aromatisk "ett och en halv" bindning kan indikeras med : ; se § Aromaticitet nedan.

Enkelbindningar intill dubbelbindningar kan representeras med / eller \ för att indikera stereokemisk konfiguration; se § Stereokemi nedan.

Ringar

Ringstrukturer skrivs genom att bryta varje ring vid en godtycklig punkt (även om vissa val kommer att leda till ett mer läsbart SMILES än andra) för att skapa en acyklisk struktur och lägga till numeriska ringslutande etiketter för att visa anslutning mellan icke-intilliggande atomer.

Till exempel kan cyklohexan och dioxan skrivas som C1CCCCC1 respektive O1CCOCC1 . För en andra ring kommer etiketten att vara 2. Till exempel dekalin (dekahydronaftalen) skrivas som C1CCCC2C1CCCC2 .

SMILES kräver inte att ringnummer används i någon speciell ordning, och tillåter ringnummer noll, även om detta sällan används. Det är också tillåtet att återanvända ringnummer efter att den första ringen har slutit, även om detta vanligtvis gör formler svårare att läsa. Till exempel skrivs bicyklohexyl vanligtvis som C1CCCCC1C2CCCCC2 , men det kan också skrivas som C0CCCCC0C0CCCCC0 .

Flera siffror efter en enda atom indikerar flera ringslutande bindningar. Till exempel är en alternativ SMILES-notation för dekalin C1CCCC2CCCCC12 , där det slutliga kolet deltar i både ringslutande bindningar 1 och 2. Om tvåsiffriga ringnummer krävs föregås etiketten av % , så C%12 är en singel ringslutande bindning av ring 12.

Endera eller båda siffrorna kan föregås av en bindningstyp för att indikera typen av den ringslutande bindningen. Till exempel skrivs cyklopropen vanligtvis C1=CC1 , men om dubbelbindningen väljs som den ringslutande bindningen kan den skrivas som C=1CC1 , C1CC=1 eller C=1CC=1 . (Den första formen är att föredra.) C=1CC-1 är olaglig, eftersom den uttryckligen anger motstridiga typer för den ringslutande obligationen.

Ringslutande obligationer får inte användas för att beteckna flera obligationer. Till exempel C1C1 inte ett giltigt alternativ till C=C för eten . De kan dock användas med icke-bindningar; C1.C2.C12 är ett märkligt men lagligt alternativt sätt att skriva propan , mer vanligt skrivet CCC .

Att välja en ringbrytningspunkt intill bifogade grupper kan leda till en enklare SMILES-form genom att undvika grenar. Till exempel cyklohexan-1,2-diol enklast som OC1CCCCC1O ; att välja en annan ring-break-plats ger en grenad struktur som kräver parenteser för att skriva.

Aromaticitet

Aromatiska ringar som bensen kan skrivas i en av tre former:

  1. I Kekulé- form med omväxlande enkel- och dubbelbindningar, t.ex. C1=CC=CC=C1 ,
  2. Använd den aromatiska bindningssymbolen : , t.ex. C:1:C:C:C:C:C1 , eller
  3. Vanligast genom att skriva beståndsdelarna B-, C-, N-, O-, P- och S-atomer med små bokstäver b , c , n , o , p respektive s .

I det senare fallet antas bindningar mellan två aromatiska atomer (om de inte uttryckligen visas) vara aromatiska bindningar. Således bensen , pyridin och furan representeras av SMILES c1ccccc1 , n1ccccc1 och o1cccc1 .

Aromatiskt kväve bundet till väte, som finns i pyrrol måste representeras som [nH] ; sålunda skrivs imidazol i SMILES-notation som n1c[nH]cc1 .

När aromatiska atomer är enbart bundna till varandra, såsom i bifenyl , måste en enkelbindning visas explicit: c1ccccc1-c2ccccc2 . Detta är ett av de få fallen där enkelbindningssymbolen - krävs. (I själva verket kan de flesta SMILES-programvara korrekt sluta sig till att bindningen mellan de två ringarna inte kan vara aromatisk och därför accepterar den icke-standardiserade formen c1ccccc1c2ccccc2 .)

Dagsljus- och OpenEye-algoritmerna för att generera kanoniska SMILES skiljer sig i sin behandling av aromaticitet.

Visualisering av 3-cyanoanisol som COc(cl)cccc1C#N .

Förgrening

Grenar beskrivs med parentes, som i CCC(=O)O för propionsyra och FC(F)F för fluoroform . Den första atomen inom parentesen, och den första atomen efter gruppen inom parentes, är båda bundna till samma grenpunktsatom. Obligationssymbolen måste visas inom parentes; utanför (t.ex. CCC=(O)O ) är ogiltig.

Substituerade ringar kan skrivas med förgreningspunkten i ringen som illustreras av SMILES COc(c1)cccc1C#N ( se bild ) och COc(cc1)ccc1C#N ( se bild ) som kodar för 3- och 4-cyanoanisolisomererna. Att skriva SMILES för substituerade ringar på detta sätt kan göra dem mer läsbara för människor.

Filialer kan skrivas i valfri ordning. Till exempel bromklordifluormetan skrivas som FC(Br)(Cl)F , BrC(F)(F)Cl , C(F)(Cl)(F)Br eller liknande. I allmänhet är en SMILES-form lättast att läsa om den enklare grenen kommer först, med den sista delen utan parentes som den mest komplexa. De enda förbehållen för sådana omarrangemang är:

  • Om ringnummer återanvänds, paras de ihop enligt deras ordning i SMILES-strängen. Vissa justeringar kan behövas för att bevara korrekt parning.
  • Om stereokemi specificeras måste justeringar göras; se Stereokemi § Notes nedan.

Den enda formen av gren som inte kräver parentes är ringslutande bindningar. Att välja ringslutande bindningar på lämpligt sätt kan minska antalet parenteser som krävs. Till exempel skrivs toluen normalt som Cc1ccccc1 eller c1ccccc1C , och undviker de parenteser som krävs om de skrivs som c1cc(C)ccc1 eller c1cc(ccc1)C .

Stereokemi

trans -1,2-difluoretylen

SMILES tillåter, men kräver inte, specifikation av stereoisomerer .

Konfiguration kring dubbelbindningar specificeras med tecknen / och \ för att visa riktade enkelbindningar intill en dubbelbindning. Till exempel F/C=C/F ( se bild ) en representation av trans - 1,2-difluoretylen , där fluoratomerna finns på motsatta sidor av dubbelbindningen (som visas i figuren), medan F/ C=C\F ( se bild ) är en möjlig representation av cis -1,2-difluoreten, i vilken fluorerna finns på samma sida av dubbelbindningen.

Obligationsriktningssymboler kommer alltid i grupper om minst två, varav den första är godtycklig. Det vill säga, F\C=C\F är samma som F/C=C/F . När alternerande enkel-dubbelbindningar är närvarande är grupperna större än två, med mittriktningssymbolerna intill två dubbelbindningar. Till exempel skrivs den vanliga formen av (2,4)-hexadien C/C=C/C=C/C .

Betakaroten , med de elva dubbelbindningarna markerade.

Som ett mer komplext exempel har betakaroten en mycket lång ryggrad av alternerande enkel- och dubbelbindningar, som kan skrivas CC1CCC/C(C)=C1/C=C/C(C)=C/C=C/C (C)=C/C=C/C=C(C)/C=C/C=C(C)/C=C/C2=C(C)/CCCC2(C)C .

Konfiguration vid tetraedriskt kol specificeras av @ eller @@ . Betrakta de fyra bindningarna i den ordning de visas, från vänster till höger, i SMIL-formuläret. Ser man mot det centrala kolet från den första bindningens perspektiv, är de andra tre antingen medurs eller moturs. Dessa fall indikeras med @@ respektive @ (eftersom @ -symbolen i sig är en moturs spiral).

L -Alanine

Tänk till exempel på aminosyran alanin . En av dess SMILES-former är NC(C)C(=O)O , mer fullständigt skriven som N[CH](C)C(=O)O . L -Alanin , den vanligare enantiomeren , skrivs som N[C@H](C)C(=O)O ( se bild ). Ser man från kväve-kolbindningen visas grupperna väte ( H ), metyl ( C ) och karboxylat ( C(=O)O) medurs. D -alanin kan skrivas som N[C@H](C)C(=O)O ( se bild ).

Medan den ordning i vilken grenar specificeras i SMILES är normalt oviktig, i det här fallet spelar det roll; att byta två grupper kräver att kiralitetsindikatorn vänds om. Om grenarna är omvända så att alanin skrivs som NC(C(=O)O)C , då vänder konfigurationen också; L -alanin skrivs som N[C@H](C(=O)O)C ( se bild ). Andra sätt att skriva det på inkluderar C[C@H](N)C(=O)O , OC (=O)[C@@H](N)C och OC(=O)[C@H](C )N .

Normalt visas den första av de fyra bindningarna till vänster om kolatomen, men om SMILES skrivs som börjar med det kirala kolet, såsom C(C)(N)C(=O)O , så ska alla fyra höger, men den första som visas ( [CH] -bindningen i detta fall) används som referens för att beställa följande tre: L -alanin kan också skrivas [C@@H](C)(N)C( =O)O .

SMILES-specifikationen inkluderar utarbetningar av @ -symbolen för att indikera stereokemi kring mer komplexa kirala centra, såsom trigonal bipyramidal molekylär geometri .

Isotoper

Isotoper är specificerade med ett tal lika med heltals isotopmassan före atomsymbolen. Bensen där en atom är kol-14 skrivs som [14c]1ccccc1 och deuterokloroform är [2H]C(Cl)(Cl)Cl .

Exempel

Molekyl Strukturera LEENDE formel
Dinkväve N≡N N#N
Metylisocyanat (MIC) CH3 - N=C=O CN=C=O
Koppar(II)sulfat Cu 2+ SO
2− 4
[Cu+2].[O-]S(=O)(=O)[O-]
Vanillin Molecular structure of vanillin
O=Cc1ccc(O)c(OC)c1 COc1cc(C=O)ccc1O
Melatonin ( C13H16N2O2 ) _ _ _ _ _ _ Molecular structure of melatonin
CC(=O)NCCC1=CNc2c1cc(OC)cc2 CC(=O)NCCc1c[nH]c2ccc(OC)cc12
Flavopereirin ( C17H15N2 ) _ _ _ Molecular structure of flavopereirin
Ccc(c1)ccc2[n+]1ccc3c2[nH]c4c3cccc4 Ccc1c[n+]2ccc3c4ccccc4[nH]c3c2cc1
Nikotin ( C10H14N2 ) _ _ _ _ Molecular structure of nicotine CN1CCC[C@H]1c2cccnc2
Oenantotoxin ( C17H22O2 ) _ _ _ _ Molecular structure of oenanthotoxin
CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO CCC[C@@H](O)CC/C=C/C=C /C#CC#C/C=C/CO
Pyretrin II ( C22H28O5 ) _ _ _ Molecular structure of pyrethrin II CC1=C(C(=O)C[C@H]1OC(=O)[C@H]2[C@H](C2(C)C)/C=C(\C)/C (=O)OC)C/C=C\C=C
Aflatoxin B1 ( C17H12O6 ) _ _ _ _ _ Molecular structure of aflatoxin B1 O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
Glukos (β - D - glukospyranos ) ( C6H12O6 ) Molecular structure of glucopyranose OC[C@H](O1)[C@H](O)[C@H](O)[C@@H](O)[C@H](O)1
Bergenin ( cuscutin , ett harts ) ( C14H16O9 ) Molecular structure of cuscutine (bergenin) OC[C@H](O1)[C@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c( O)cc3C(=0)02
Ett feromon av insekten i kalifornisk skala (3Z,6R)-3-methyl-6-(prop-1-en-2-yl)deca-3,9-dien-1-yl acetate CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C
(2 S ,5 R )-Chalcogran: ett feromon från barkborren Pityogenes chalcographus (2S,5R)-2-ethyl-1,6-dioxaspiro[4.4]nonane CC[C@H](Oi)CC[C@@]12CCCO2
a - tujon ( C10H16O ) Molecular structure of thujone CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2
Tiamin ( vitamin B1 , C12H17N4OS + ) _ _ _ _ Molecular structure of thiamin OCCc1c(C)[n+](cs1)Cc2cnc(C)nc2N

För att illustrera en molekyl med fler än 9 ringar, överväg cefalostatin-1, en steroid 13-ringad pyrazin med den empiriska formeln C 54 H 74 N 2 O 10 isolerad från Indiska oceanen hemichordat Cephalodiscus gilchristi :

Molecular structure of cephalostatin-1

Börjar med metylgruppen längst till vänster i figuren:

CC(C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3( C2)C(=O)C[C@H]5[C@H]4CC[C@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89 (C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10= C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C @@]%13(C)CO

Observera att % visas framför indexet för ringförslutningsetiketter över 9; se § Ringar ovan.

Andra exempel på SMILES

SMILES-notationen beskrivs utförligt i SMILES teorimanualen som tillhandahålls av Daylight Chemical Information Systems och ett antal illustrativa exempel presenteras. Daylights bildverktyg ger användarna möjlighet att kontrollera sina egna exempel på SMILES och är ett värdefullt pedagogiskt verktyg.

Tillägg

SMARTS är en linjenotation för specifikation av substrukturella mönster i molekyler. Även om den använder många av samma symboler som SMILES, tillåter den också specifikation av jokerteckenatomer och bindningar, som kan användas för att definiera substrukturella frågor för sökning i kemiska databaser . En vanlig missuppfattning är att SMARTS-baserad substrukturell sökning involverar matchning av SMILES och SMARTS-strängar. Faktum är att både SMILES- och SMARTS-strängar först konverteras till interna grafrepresentationer som söks efter subgrafisomorfism .

SMIRKS, en superuppsättning av "reaction SMILES" och en delmängd av "reaction SMARTS", är en linjenotation för att specificera reaktionstransformer. Den allmänna syntaxen för reaktionstilläggen är REACTANT>AGENT>PRODUCT (utan mellanslag), där något av fälten antingen kan lämnas tomma eller fyllas med flera molekyler avgränsade med en punkt ( . ), och andra beskrivningar beroende på basspråket. Atomer kan dessutom identifieras med ett nummer (t.ex. [C:1] ) för kartläggning, till exempel i .

SMILES motsvarar diskreta molekylära strukturer. Men många material är makromolekyler, som är för stora (och ofta stokastiska) för att bekvämt generera SMILES för. BigSMILES är en förlängning av SMILES som syftar till att tillhandahålla ett effektivt representationssystem för makromolekyler.

Omvandling

SMILES kan konverteras tillbaka till tvådimensionella representationer med hjälp av strukturdiagramgenerering (SDG) algoritmer. Denna omvandling är inte alltid entydig. Omvandling till tredimensionell representation uppnås genom energiminimeringsmetoder. Det finns många nedladdningsbara och webbaserade konverteringsverktyg.

Se även