Internationell kemisk identifierare
Utvecklare | InChI Trust |
---|---|
Initial release | 15 april 2005 |
Stabil frisättning | 1.06 / 15 december 2020
|
Operativ system | Microsoft Windows och Unix-liknande |
Plattform | IA-32 och x86-64 |
Tillgänglig i | engelsk |
Licens | IUPAC / InChI Trust License |
Hemsida |
International Chemical Identifier ( InChI / ˈ ɪ n tʃ iː / IN -chee eller / ˈ ɪ ŋ k iː / ING -kee ) är en textidentifierare för kemiska ämnen , utformad för att tillhandahålla ett standardsätt att koda molekylär information och för att underlätta söka efter sådan information i databaser och på webben. Ursprungligen utvecklad av International Union of Pure and Applied Chemistry (IUPAC) och National Institute of Standards and Technology (NIST) från 2000 till 2005, formatet och algoritmerna är icke-proprietära. Sedan maj 2009 har den utvecklats av InChI Trust, en ideell välgörenhetsorganisation från Storbritannien som arbetar för att implementera och främja användningen av InChI.
Identifierarna beskriver kemiska ämnen i form av lager av information - atomerna och deras bindningsanslutning, tautomer information, isotopinformation , stereokemi och elektronisk laddningsinformation. Alla lager behöver inte tillhandahållas; till exempel kan tautomerskiktet utelämnas om den typen av information inte är relevant för den specifika applikationen. InChI-algoritmen omvandlar inmatad strukturell information till en unik InChI-identifierare i en trestegsprocess: normalisering (för att ta bort redundant information), kanonisering (för att generera en unik nummeretikett för varje atom) och serialisering (för att ge en sträng av tecken) .
InChIs skiljer sig från de allmänt använda CAS-registernumren i tre avseenden: för det första är de fritt användbara och icke-proprietära; för det andra kan de beräknas från strukturell information och behöver inte tilldelas av någon organisation; och för det tredje är det mesta av informationen i en InChI läsbar för människor (med övning). InChIs kan alltså ses som en generell och extremt formaliserad version av IUPAC-namn . De kan uttrycka mer information än den enklare SMILES -notationen och skiljer sig genom att varje struktur har en unik InChI-sträng, vilket är viktigt i databasapplikationer. Information om atomernas 3-dimensionella koordinater är inte representerad i InChI; för detta ändamål kan ett format som PDB användas.
InChIKey, ibland kallad en hashed InChI, är en kondenserad digital representation av InChI med fast längd (27 tecken) som inte är begriplig för människor. InChIKey-specifikationen släpptes i september 2007 för att underlätta webbsökningar efter kemiska föreningar, eftersom dessa var problematiska med fullängds InChI. Till skillnad från InChI är InChIKey inte unik: även om kollisioner kan beräknas vara mycket sällsynta händer de.
I januari 2009 släpptes version 1.02 av InChI-mjukvaran. Detta tillhandahöll ett sätt att generera så kallad standard InChI, vilket inte tillåter användarvalbara alternativ när det gäller att hantera stereokemin och de tautomera lagren i InChI-strängen. Standard InChIKey är då den hashade versionen av standard InChI-strängen. Standarden InChI kommer att förenkla jämförelsen av InChI-strängar och -nycklar som genereras av olika grupper, och som sedan nås via olika källor som databaser och webbresurser.
Den fortsatta utvecklingen av standarden har stötts sedan 2010 av den icke-vinstdrivande InChI Trust , där IUPAC är medlem. Den nuvarande mjukvaruversionen är 1.06 och släpptes i december 2020. Före 1.04 var programvaran fritt tillgänglig under LGPL -licensen med öppen källkod, men den använder nu en anpassad licens som heter IUPAC-InChI Trust License.
Generation
För att undvika att generera olika InChIs för tautomera strukturer, före generering av InChI, normaliseras en ingående kemisk struktur för att reducera den till dess så kallade core parent struktur. Detta kan innebära att ändra obligationsorder, omorganisera formella avgifter och eventuellt lägga till och ta bort protoner. Olika indatastrukturer kan ge samma resultat; till exempel skulle ättiksyra och acetat båda ge samma kärnmoderstruktur, den för ättiksyra. En kärnförälderstruktur kan vara frånkopplad, bestående av mer än en komponent, i vilket fall underskikten i InChI vanligtvis består av underskikt för varje komponent, åtskilda av semikolon (perioder för det kemiska formelns underskikt.) Ett sätt detta kan hända är att alla metallatomer kopplas bort under normalisering; så till exempel kommer InChI för tetraetylbly att ha fem komponenter, en för bly och fyra för etylgrupperna.
Det första, huvudsakliga, skiktet av InChI hänvisar till denna kärnmoderstruktur, och ger dess kemiska formel, icke-väte-anslutning utan bindningsordning ( /c-
underskikt) och väte-anslutning ( /h-
underskikt.) /q-
delen av laddningsskiktet ger sin laddning, och /p
-delen av laddningsskiktet talar om hur många protoner (vätejoner) som måste läggas till eller tas bort från det för att regenerera den ursprungliga strukturen. Om det finns, ger det stereokemiska skiktet, med underskikt /b
, /t
, /m
och /s
, stereokemisk information, och det isotopiska skiktet /i
(som kan innehålla underskikt /h
, /b
, /t
, /m
och /s )
) ger isotopinformation. Dessa är de enda lagren som kan förekomma i en standard InChI.
Om användaren vill specificera en exakt tautomer kan ett fast väteskikt /f
läggas till, vilket kan innehålla olika ytterligare underskikt; detta kan dock inte göras i standard InChI, så olika tautomerer kommer att ha samma standard InChI (till exempel kommer alanin att ge samma standard InChI oavsett om det matas in i en neutral eller en zwitterjonisk form.) Slutligen kan ett icke-standard återanslutet /r- lager vara
tillsatt, vilket effektivt ger en ny InChI genererad utan att bryta bindningar till metallatomer. Detta kan innehålla olika underlager, inklusive /f
.
Format och lager
Internet mediatyp |
kemikalie/x-inchi
|
---|---|
Typ av format | kemiskt filformat |
Varje InChI börjar med strängen " InChI=
" följt av versionsnumret, för närvarande 1
. Om InChI är standard, följs detta av bokstaven S
för standard InChIs , som är en helt standardiserad InChI-smak som bibehåller samma nivå av uppmärksamhet på strukturdetaljer och samma konventioner för att rita uppfattning. Den återstående informationen är strukturerad som en sekvens av lager och underlager, där varje lager tillhandahåller en specifik typ av information. Skikten och underskikten separeras med avgränsaren " /
" och börjar med en karakteristisk prefixbokstav (förutom det kemiska formelunderskiktet i huvudskiktet). De sex skikten med viktiga underskikt är:
- Huvudlager
- Kemisk formel (inget prefix). Detta är det enda underskiktet som måste förekomma i varje InChI. Siffror som används i hela InChI anges i formelns elementordning exklusive väteatomer. Till exempel antyder "/C10H16N5O13P3" att atomerna numrerade 1–10 är kol, 11–15 är kväve, 16–28 är syre och 29–31 är fosfor.
- Atomanslutningar (prefix: "
c
"). Atomerna i den kemiska formeln (förutom väten) är numrerade i följd; detta underskikt beskriver vilka atomer som är anslutna med bindningar till vilka andra. -
Väteatomer (prefix: "
h
"). Beskriver hur många väteatomer som är kopplade till var och en av de andra atomerna.
-
Laddningslager _
- laddningsunderlag (prefix: "
q
") - protonunderlager (prefix: "
p
" för "protoner")
- laddningsunderlag (prefix: "
- Stereokemiskt lager
-
Isotopskikt (prefix: "
i
", "h
", såväl som "b
", "t
", "m
", "s
" för isotopisk stereokemi) - Fast-H-lager (prefix: "
f
"); innehåller några eller alla ovanstående typer av lager förutom atomanslutningar; kan sluta med "o
" underskikt; aldrig inkluderat i standard InChI - Återanslutet lager (prefix: "
r
"); innehåller hela InChI av en struktur med återanslutna metallatomer; aldrig inkluderat i standard InChI
Formatet avgränsare-prefix har fördelen att en användare enkelt kan använda en jokerteckensökning för att hitta identifierare som bara matchar i vissa lager.
Strukturformel | standard InChI |
---|---|
|
InChI=1S/C2H6O/c1-2-3/h3H,2H2,1H3
|
InChI=1S/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/ s1
|
InChIKey
Den kondenserade, 27 tecken långa InChIKey är en hashad version av hela InChI (med SHA-256- algoritmen), utformad för att möjliggöra enkla webbsökningar av kemiska föreningar. Standard InChIKey är den hashade motsvarigheten till standard InChI . De flesta kemiska strukturer på webben fram till 2007 har representerats som GIF-filer , som inte är sökbara efter kemiskt innehåll. Den fullständiga InChI visade sig vara för lång för enkel sökning, och därför utvecklades InChIKey. Det finns en mycket liten, men inte noll chans att två olika molekyler har samma InChIKey, men sannolikheten för duplicering av endast de första 14 tecknen har uppskattats som endast en duplicering i 75 databaser som var och en innehåller en miljard unika strukturer. Med alla databaser som för närvarande har under 50 miljoner strukturer, verkar sådan dubbelarbete för närvarande osannolikt. En nyligen genomförd studie studerar kollisionsfrekvensen mer omfattande och konstaterar att den experimentella kollisionshastigheten överensstämmer med de teoretiska förväntningarna.
InChIKey består för närvarande av tre delar separerade med bindestreck, med 14, 10 respektive ett tecken, som XXXXXXXXXXXXXXX-YYYYYYYFV-P
. De första 14 tecknen är resultatet av en SHA-256-hash av anslutningsinformationen (huvudskiktet och /q-
underskiktet i laddningsskiktet) i InChI. Den andra delen består av 8 tecken som härrör från en hash av de återstående lagren av InChI, ett enda tecken som indikerar typen av InChIKey ( S
för standard och N
för icke-standard), och ett tecken som indikerar versionen av InChI som används (för närvarande A
för version 1.) Slutligen indikerar det enkla tecknet i slutet protoneringen av kärnförälderstrukturen, motsvarande /p-
underskiktet i laddningsskiktet ( N
för ingen protonation, O
, P
, ... om protoner ska läggas till och M
, L
, ... om de ska tas bort.)
Exempel
Morfin har den struktur som visas till höger. Standard InChI för morfin är InChI=1S/C17H19NO3/c1-18-7-6-17-10-3-5-13(20)16(17)21-15-12(19)4-2-9( 14(15)17)8-11(10)18/h2-5,10-11,13,16,19-20H,6-8H2,1H3/t10-,11+,13-,16-,17- /m0/s1
och standard InChIKey för morfin är BQJCRHHNABKAKU-KBQPJGBKSA-N
.
InChI-upplösare
Eftersom InChI inte kan rekonstrueras från InChIKey, måste en InChIKey alltid länkas till den ursprungliga InChI för att komma tillbaka till den ursprungliga strukturen. InChI Resolvers fungerar som en uppslagstjänst för att skapa dessa länkar, och prototyptjänster är tillgängliga från National Cancer Institute, UniChem -tjänsten vid European Bioinformatics Institute och PubChem . ChemSpider har haft en resolver fram till juli 2015 då den togs ur drift.
namn
Formatet hette ursprungligen IChI (IUPAC Chemical Identifier), döptes sedan om i juli 2004 till INChI (IUPAC-NIST Chemical Identifier), och döptes igen i november 2004 till InChI (IUPAC International Chemical Identifier), ett varumärke som tillhör IUPAC.
Fortsatt utveckling
Vetenskaplig ledning av InChI-standarden utförs av IUPAC Division VIII Subcommittee, och finansieringen av undergrupper som undersöker och definierar utvidgningen av standarden utförs av både IUPAC och InChI Trust . InChI Trust finansierar utveckling, testning och dokumentation av InChI. Nuvarande förlängningar definieras för att hantera polymerer och blandningar , Markush-strukturer , reaktioner och organometaller , och när de väl accepterats av division VIII-underkommittén kommer de att läggas till algoritmen.
programvara
InChI Trust har utvecklat programvara för att generera InChI, InChIKey och andra identifierare. Utgivningshistoriken för denna programvara följer.
Programvara och version | Datum | Licens | Kommentarer |
---|---|---|---|
InChI v. 1 | april 2005 | ||
InChI v. 1.01 | augusti 2006 | ||
InChI v. 1.02beta | september 2007 | LGPL 2.1 | Lägger till InChIKey-funktionalitet. |
InChI v. 1.02 | januari 2009 | LGPL 2.1 |
Ändrade format för InChIKey. Introducerar standard InChI. |
InChI v. 1.03 | juni 2010 | LGPL 2.1 | |
InChI v. 1.03 källkodsdokument | mars 2011 | ||
InChI v. 1.04 | september 2011 | IUPAC/InChI Trust InChI-licens 1.0 |
Ny licens. Stöd för element 105-112 har lagts till. CML-stöd har tagits bort. |
InChI v. 1.05 | januari 2017 | IUPAC/InChI Trust InChI-licens 1.0 |
Stöd för element 113-118 har lagts till. Experimentellt polymerstöd. Experimentellt stöd för stor molekyl. |
RInChI v. 1.00 | mars 2017 | IUPAC/InChI Trust InChI License 1.0 och BSD-stil | Beräknar reaktion InChIs. |
InChI v. 1.06 | december 2020 | IUPAC/InChI Trust InChI-licens 1.0 | Reviderat polymerstöd. |
Adoption
InChI har antagits av många större och mindre databaser, inklusive ChemSpider , ChEMBL , Golm Metabolome Database , OpenPHACTS och PubChem . Antagandet är dock inte okomplicerat, och många databaser visar en diskrepans mellan de kemiska strukturerna och den InChI de innehåller, vilket är ett problem för att länka databaser.
Se även
- Molecular Query Language
- Förenklat linjeingångssystem med molekylär ingång ( SMILES)
- Molekylredaktör
- SYBYL Radnotation
- Bioclipse genererar InChI och InChIKeys för ritade strukturer eller öppnade filer
- Chemistry Development Kit använder JNI-InChI för att generera InChIs, kan konvertera InChIs till strukturer och generera tautomerer baserade på InChI-algoritmerna
Anteckningar och referenser
externa länkar
- IUPAC InChI webbplats
- Beskrivning av kanoniseringsalgoritmen
- Googlar efter InChIs en presentation till W3C.
- InChI Release 1.02 InChI slutlig version 1.02 och förklaring av Standard InChI, januari 2009
- NCI/CADD Chemical Identifier Resolver Genererar och löser InChI/InChIKeys och många andra kemiska identifierare
- PubChem online-molekylredigerare som stöder SMILES /SMARTS och InChI
- ChemSpider Compound API : er ChemSpider REST API som tillåter generering av InChI och konvertering av InChI till struktur (även SMILES och generering av andra egenskaper)
- MarvinSketch från ChemAxon , implementering för att rita strukturer (eller öppna andra filformat) och utdata till InChI-filformat
- BKchem implementerar sin egen InChI-parser och använder IUPAC-implementeringen för att generera InChI-strängar
- CompoundSearch implementerar en InChI och InChI Key-sökning av spektrala bibliotek
- SpectraBase implementerar en InChI och InChI Key-sökning av spektrala bibliotek
- JSME Archived 2015-01-06 at the Wayback Machine är en gratis JavaScript-baserad molekylär editor som genererar InChI och InChI Key i en webbläsare, vilket möjliggör enkla webbsökningar av kemiska föreningar