SMILES godtycklig målspecifikation
SMILES arbitrary target specification (SMARTS) är ett språk för att specificera substrukturella mönster i molekyler . SMARTS linjenotationen är uttrycksfull och tillåter extremt exakt och transparent substrukturell specifikation och atomtypning.
SMARTS är relaterat till SMILES- linjenotationen som används för att koda molekylära strukturer och liksom SMILES utvecklades ursprungligen av David Weininger och kollegor på Daylight Chemical Information Systems. De mest omfattande beskrivningarna av SMARTS-språket finns i Daylights SMARTS teorimanual, handledning och exempel. OpenEye Scientific Software har utvecklat sin egen version av SMARTS som skiljer sig från den ursprungliga Daylight-versionen i hur R-
beskrivningen (se cyklicitet nedan) definieras.
SMARTS syntax
Atomegenskaper
Atomer kan specificeras med symbol eller atomnummer. Alifatiskt kol matchas av [C]
, aromatiskt kol med [c]
och vilket kol som helst med [#6]
eller [C,c]
. Wild card-symbolerna *
, A
och a
matchar vilken atom som helst, vilken alifatisk atom som helst och vilken aromatisk atom som helst. Implicita väten anses vara en egenskap hos atomer och SMARTS för en aminogrupp kan skrivas som [NH2]
. Laddningen specificeras av deskriptorerna +
och -
som exemplifieras av SMARTS [nH+]
(protonerad aromatisk kväveatom) och [O-]C(=O)c
(deprotonerad aromatisk karboxylsyra ).
Obligationer
Ett antal bindningstyper kan specificeras: -
(enkel), =
(dubbel), #
(trippel), :
(aromatisk) och ~
(vilken som helst).
Anslutningsmöjligheter
X-
och D -
deskriptorerna används för att specificera det totala antalet kopplingar (inklusive implicita väteatomer) och kopplingar till explicita atomer. Således [CX4]
kolatomer med bindningar till vilka fyra andra atomer som helst medan [CD4]
matchar kvartärt kol.
cyklicitet
Som ursprungligen definierades av Daylight, används R-
deskriptorn för att specificera ringmedlemskap. I Daylight-modellen för cykliska system används den minsta uppsättningen av minsta ringar (SSSR) som grund för ringmedlemskap. Till exempel uppfattas indol som en 5-ledad ring sammansmält med en 6-ledad ring snarare än en 9-ledad ring. De två kolatomerna som utgör ringfusionen skulle matcha [cR2]
och de andra kolatomerna skulle matcha [cR1]
.
SSSR-modellen har kritiserats av OpenEye som i sin implementering av SMARTS använder R
för att beteckna antalet ringbindningar för en atom. De två kolatomerna i ringfusionen matchar [cR3]
och de andra kolatomerna matchar [cR2]
i OpenEye-implementeringen av SMARTS. Används utan ett nummer, R
en atom i en ring i båda implementeringarna, till exempel [CR]
(alifatisk kolatom i ringen).
Gemen r
anger storleken på den minsta ring som atomen är en medlem av. Kolatomerna i ringfusionen skulle båda matcha [cr5]
. Bindningar kan specificeras som cykliska, till exempel C@C
direkt bundna atomer i en ring.
Logiska operatorer
Fyra logiska operatorer tillåter att atom- och bindningsdeskriptorer kombineras. Operatören "och" ;
kan användas för att definiera en protonerad primär amin som [N;H3;+][C;X4]
. "eller"-operatorn har högre prioritet så [c, n
;H]
definierar (aromatiskt kol eller aromatiskt kväve) med implicit väte. "och"-operatorn &
har högre prioritet än ,
så [c,n&H]
definierar aromatiskt kol eller (aromatiskt kväve med implicit väte).
"Inte"-operatören !
kan användas för att definiera omättat alifatiskt kol som [C;!X4]
och acykliska bindningar som *-!@*
.
Rekursiva SMARTS
Rekursiva SMARTS tillåter detaljerad specifikation av en atoms miljö. Till exempel kan de mer reaktiva (med avseende på elektrofil aromatisk substitution ) orto- och para -kolatomer av fenol definieras som [$(c1c([OH])cccc1),$(c1ccc([OH])cc1)]
.
Exempel på SMARTS
Ett antal illustrativa exempel på SMARTS har sammanställts av Daylight.
Definitionerna av vätebindningsdonatorer och acceptorer som används för att tillämpa Lipinskis femmansregel . är lätt kodade i SMARTS. Donatorer definieras som kväve- eller syreatomer som har minst en direkt bunden väteatom:
-
[N,n,O;!H0]
eller[#7,#8;!H0]
(aromatiskt syre kan inte ha ett bundet väte)
Acceptorer definieras som kväve eller syre:
-
[N,n,O,o]
eller[#7,#8]
En enkel definition av alifatiska aminer som sannolikt protonerar vid fysiologiskt pH kan skrivas som följande rekursiva SMARTS:
[$([NH2][CX4]),$([NH]([CX4])[CX4]),$([NX3]([CX4])([CX4])[CX4])]
I verkliga tillämpningar skulle CX4-
atomerna behöva definieras mer exakt för att förhindra matchning mot elektronbortdragande grupper som CF 3 som skulle göra aminen otillräckligt basisk för att protonera vid fysiologiskt pH .
SMARTS kan användas för att koda farmakoforelement som anjoniska centra. I följande exempel används rekursiv SMARTS-notation för att kombinera surt syre och tetrazolkväve i en definition av syreatomer som sannolikt är anjoniska under normala fysiologiska förhållanden.
[$([OH][C,S,P]=O),$([nH]1nnnc1)]
SMARTS ovan skulle bara matcha syrahydroxylen och tetrazolen N−H. När en karboxylsyra deprotoneras delokaliseras den negativa laddningen över båda syreatomerna och det kan vara önskvärt att beteckna båda som anjoniska. Detta kan uppnås med följande SMARTS.
[$([OH])C=O),$(O=C[OH])]
Tillämpningar av SMARTS
Den exakta och transparenta understrukturspecifikationen som SMARTS tillåter har utnyttjats i ett antal tillämpningar.
Substrukturella filter definierade i SMARTS har använts för att identifiera oönskade föreningar när man utför strategisk sammanslagning av föreningar för screening med hög genomströmning. REOS-proceduren (snabb eliminering av avfall) använder SMARTS för att filtrera bort reaktiva, giftiga och på annat sätt oönskade delar från databaser med kemiska strukturer.
RECAP (Retrosynthetic Combinatorial Analysis Procedure) använder SMARTS för att definiera bindningstyper. RECAP är en molekylredigerare som genererar fragment av strukturer genom att bryta bindningar av definierade typer och de ursprungliga länkpunkterna i dessa specificeras med isotopetiketter. Genom att söka i databaser med biologiskt aktiva föreningar efter förekomster av fragment kan privilegierade strukturella motiv identifieras. Molecular Slicer liknar RECAP och har använts för att identifiera fragment som vanligtvis finns i marknadsförda orala läkemedel.
Leatherface-programmet är en allmän molekylredigerare som tillåter automatiserad modifiering av ett antal substrukturella egenskaper hos molekyler i databaser, inklusive protonationstillstånd, väteantal, formell laddning, isotopvikt och bindningsordning. De molekylära redigeringsreglerna som används av Leatherface definieras i SMARTS. Leatherface kan användas för att standardisera tautomera och joniseringstillstånd och för att ställa in och räkna upp dessa som förberedelse av databaser för virtuell screening . Leatherface har använts i Matched Molecular Pair Analysis , som gör det möjligt att kvantifiera effekterna av strukturella förändringar (t.ex. ersättning av väte med klor) över en rad strukturella typer.
ALADDIN är ett farmakoformatchningsprogram som använder SMARTS för att definiera igenkänningspunkter (t.ex. neutral vätebindningsacceptor ) för farmakoforer. Ett nyckelproblem i farmakoformatchning är att funktionella grupper som sannolikt kommer att joniseras vid fysiologiskt pH vanligtvis registreras i sina neutrala former i strukturella databaser. ROCS-formmatchningsprogrammet gör att atomtyper kan definieras med SMARTS.