Glykannomenklatur

Glykannomenklatur av är den systematiska namngivningen av glykaner, som är kolhydratbaserade polymerer gjorda alla levande organismer . I allmänhet kan glykaner representeras i: ( i ) textformat: Dessa inkluderar vanliga CarbBank, IUPAC-namn och flera andra typer och ( ii ) symbolformat: Dessa består av Symbol Nomenclature For Glycans och Oxford Notations.

Historia

I början av artonhundratalet härleddes namn på sockermolekyler från deras källa. Till exempel kallades glukos för druvsocker (Traubenzucker), sackaros kallades rörsocker (Rohrzucker). 1838 myntades namnet glukos; 1866 föreslog Kekulé därefter namnet "dextros" eftersom glukos är högervridande. Det beslutades av det vetenskapliga samfundet att sockerarter skulle namnges med ändelsen '-ose', som sedan kombinerades med det franska ordet 'cellule' för cell, vilket resulterade i termen cellulosa . Eftersom den empiriska sammansättningen av monosackarider kan uttryckas som Cn(H 2 O)n, betecknades de som "kolhydrat" (franska "hydrate de carbone").

Text tormats

För att representera den strukturella informationen om glykaner mer exakt och uppnå specifika syften för samhället, designades och användes flera unika format i olika kolhydratdatabaser utvecklade genom olika forskargrupper och organisationer.

CarbBank

CarbBank-formatet kommer ursprungligen från CarbBank, ett databashanteringssystem för Complex Carbohydrate structure Database (CCSD). CarbBank skapas av forskare vid Complex Carbohydrate Research Center (CCRC) vid University of Georgia . Ett exempel på en N-glykan av Man-3-Core F visas nedan:

CCSD aL-Fucp-(1-6)+ | aD-Manp-(1-6)+ bD-GlcpNAc-(1-4)-Asn | | bD-Manp-(1-4)-bD-GlcpNAc-(1-4)+ | aD-Manp-(1-3)+

I allmänhet är det här formatet läsbart för människor men de vertikala staplarna gör det svårt för en dator att tolka.

IUPAC

IUPAC är International Union of Pure and Applied Chemistry, och de föreslår en nomenklatur för att representera komplexa kolhydrater som kallas 2-Carb. IUPAC-nomenklaturen tillhandahåller tre former för att representera glykanerna.

  • Utökad form : I detta format representeras en monosackaridenhet av en given symbol, efter den anomeriska deskriptorn och konfigurationssymbolen. En kursiv bokstav används för att representera ringstorleken, t.ex. f för furanos och p för pyranos. Parenteserna mellan symbolerna används för att tillhandahålla lokaliseringar av kopplingen och en dubbelhårig pil används för att visa en koppling mellan två anomera positioner.
  • Kondenserad form : Detta format eliminerade både konfigurationssymbolen och bokstaven som anger ringstorleken. I allmänhet är konfigurationen D (förutom fukos och iduronsyra som vanligtvis är i L-konfiguration) och ringarna är i pyranosform (såvida det inte uttryckligen nämns som i annan form). Parenteserna används för att skriva den anomeriska deskriptorn tillsammans med lokanterna.
  • Kort form : Det är vanligtvis önskvärt att förkorta beteckningen genom att eliminera de anomera kolatomernas lokaliseringar, parenteserna runt länkens lokanter och bindestreck. Dessutom kan grenar visas på samma rad med hjälp av lämpliga omslutande märken inklusive parenteser och hakparenteser.

Ovanstående exempel på glykan kan representeras som nedan:

Utökad form : α-D-Man p- (1→3)-[α-D-Man p- (1→6)]- β-D-Man p- (1→4)- β-D-Glc p NAc-(1→4)-[a-L-Fucp- ( 1→6)]-P-D-Glcp NAc- (1→NASN-protein

Kondenserad form : Man(α1-3)[Man(α1-6)]Man(β1-4)GlcNAc(β1-4)[Fuc(α1-6)]GlcNAc(β1-ASN

Kort form : Manα3(Manα6)Manβ4GlcNAcβ4(Fucα6)GlcNAcβASN

Notera:

Modifierad kondenserad IUPAC : Manα1-3(Manα1-6)Manβ1-4GlcNAcβ1-4(Fucα1-6)GlcNAcβ1-Asn

LINCUS

Linear Notation for Unique description of Carbohydrate Sequences (LINCUS) är ett format som används i Glycosciences.de . Detta format är inriktat på att beskriva den unika glykanstrukturen . Glykanexemplet i LINCUS-format kan vara:

[][ASN]{[(4+1)][BD-GLCPNAC]{[(4+1)][BD-GLCPNAC]{[(4+1)][BD-MANP]{[(3+1 )][AD-MANP]{}[(6+1)][AD-MANP]{}}}[(6+1)][AL-FUCP]{}}}

Linjär kod

Linjär kod är en linjär notation föreslagen av GlycoMinds Ltd. och är ett av de mest kompakta formaten. Här indikeras ( i ) de vanliga monosackariderna med en kod med högst två bokstäver, ( ii ) länkar indikeras med "a" eller "b" för anomerer, ( iii ) numret är i slutet av kolnummerkopplingen och ( iv ) ) Grenarna indikeras med parentes.

Ma3(Ma6)Mb4GNb4(Fa6)GN;N

GlycoCT

GlycoCT är formatet designat och utvecklat under EuroCarbDB-projektet. Detta format använder anslutningstabellmetoden för att beskriva den fullständiga komplexiteten hos kolhydratsekvensdata. Det används i stor utsträckning av bioinformatikgemenskapen genom databasen GlycomeDB . Ett GlycoCT-format av exemplet glykan visas nedan:

RES 1b: b-dglc-HEX-1: 5 2s: n-acetyl 3b: b-dglc-HEX-1: 5 4s: n-acetyl 5b: b-dman-HEX-1: 5 6b: a-dman- HEX-1: 5 7b: a-dman-HEX-1: 5 8b: a-lgal-HEX-1: 5 | 6: d LIN 1: 1d (2 + 1) 2n 2: 1o (4 + 1) 3d 3: 3d (2 + 1) 4n 4: 3o (4 + 1) 5d 5: 5o (3 + 1) 6d 6 : 5o (6 + 1) 7d 7: 1o (6 + 1) 8d

WURCS

Web3 Unique Representation of Carbohydrate Structures (WURCS)-formatet är initialt utvecklat för GlyTouCan , det internationella glykanstrukturförrådet. Eftersom GlyTouCan använde Semantic Web-tekniken för utveckling, kräver den en linjär sträng för att representera glykanen. Exempel på glykan i WURCS-format enligt nedan:

WURCS=2.0/4,6,5/[a2122h-1b_1-5_2*NCC/3=O][a1122h-1b_1-5][a1122h-1a_1-5][a1221m-1a_1-5]/1-1-2 -3-3-4/a4-b1_a6-f1_b4-c1_c3-d1_c6-e1

KCF

KEGG Chemical Function (KCF) är designad och används i databasen Kyoto Encyclopedia of Genes and Genomes ( KEGG ). Den använder också en anslutningstabellsmetod. Exempel på glykan i KCF-format enligt nedan:

ENTRY G10661 Glykan NOD 7 1 Asn 20 3 2 GlcNAc 10 3 3 LFuc 0 8 4 GlcNAc 0 -2 5 Man -10 -2 6 Man -20 3 7 Man -20 -7 EDGE 6 1 2:b1 1 2 3: 2:6 3 4:b1 2:4 4 5:b1 4:4 5 6:a1 5:6 6 7:a1 5:3 ///

CSDB linjär

Kolhydratstrukturdatabasen (CSDB) inkluderar de bakteriella (BCSDB) och växt- och svampdelarna (PFCSDB). Denna databas använder en anslutningstabell för intern lagring av strukturer och den linjära CSDB-koden för input–output.

aDManp(1-3)[aDManp(1-6)]bDManp(1-4)[Ac(1-2)]bDGlcpN(1-4)[aLFucp(1-6),Ac(1-2)]bDGlcpN (1-4)xLAsn

GLYCAM kondenserad

GLYCAM Condensed format, såväl som GLYCAM-format, tillhandahålls av GLYCAM-Web , som produceras av forskargruppen av professor Robert J. Woods i Complex Carbohydrate Research Center vid University of Georgia i Athens GA.

GLYCAM kondenserad: DManpa1-3[DManpa1-6]DManpb1-4DGlcpNAcb1-4[LFucpa1-6]DGlcpNAcb1-ASN GLYCAM: aD-Manp-(1-3)-[aD-Manp-(1-6)]-bD- Manp-(1-4)-bD-GlcpNAc-(1-4)-[aL-Fucp-(1-6)]-bD-GlcpNAc-ASN

Glyde och Glyde II

Formatet GLYcan Data Exchange (GLYDE), är ett XML-baserat representationsformat för glykomikdata. Det var en del av Integrated Technology Resources for Biomedical Glycomics, som etablerades av ett team från Complex Carbohydrate Research Center vid University of Georgia .


   
           
            
      
             
               
                 
          
                 
          
        
      
    
  
 <Glykan>  <rest  >  <  restlänk=  "4"  anomerisk_kol=  "1"  anomer=  "b"  chirality=  "D"  monosackarid=  "GlcNAc"  ring_form=  "p"  >  < restlänk  =  "6"  anomerisk_kol=  "1 "  anomer=  "a"  chirality=  "L"  monosaccharide=  "Fuc"  ring_form=  "p"  >  </residue>  <residue  link=  "4"  anomeric_carbon=  "1"  anomer=  "b"  chirality=  "D"  monosaccharide=  "GlcNAc"  ring_form=  "p"  >  <residue  link=  "4"  anomerisk_kol=  "1"  anomer=  "b"  chirality=  "D"  monosackarid=  "Man"  ring_form=  "p"  >  <  restlänk=  "3"  anomeriskt_kol =  "1"  anomer=  "a"  chirality=  "D"  monosaccharide=  "Man"  ring_form=  "p"  >  </residue>  <residue  link=  "6"  anomeric_carbon=  "1"  anomer=  "a"  chirality=  "D "  monosaccharide=  "Man"  ring_form=  "p"  >  </residue>  </residue>  </residue>  </residue>  </residue>  </Glycan> 

GLYDE II, är efterföljaren till GLYDE för att övervinna GLYDEs begränsningar, använder en anslutningstabellsmetod.




    
        
        
        
        
        
        
        
        
      
           
    
      
           
    
      
           
    
      
           
    
      
           
    
      
           
    
      
             
    
  
 <?xml version="1.0" encoding="ISO-8859-1"?>  <!DOCTYPE GlydeII SYSTEM "http://glycomics.ccrc.uga.edu/GLYDE-II/GLYDE-II-1.2.DTD"[  <!ENTITY mDBget "http://www.monosaccharideDB.org/GLYDE-II.jsp?G">  ]>  <GlydeII>  <molecule  subtype=  "glycan"  id=  "M3N2"  >  <residue  subtype=  "base_type"  partid =  "1"  ref=  "mDBget;=b-dglc-HEX-1:5"  />  <residue  subtype=  "substituent"  partid=  "2"  ref=  "mDBget;=n-acetyl"  />  <rest  subtype=  "base_type"  partid=  "3"  ref=  "mDBget;=a-lfuc-HEX-1:5"  />  <residue  subtype=  "base_type"  partid=  "4"  ref=  "mDBget;=b-dglc-HEX- 1:5"  />  <residue  subtype=  "substituent"  partid=  "5"  ref=  "mDBget;=n-acetyl"  />  <residue  subtype=  "base_type"  partid=  "6"  ref=  "mDBget;=b- dman-HEX-1:5"  />  <residue  subtype=  "base_type"  partid=  "7"  ref=  "mDBget;=a-dman-HEX-1:5"  />  <residue  subtype=  "base_type"  partid=  " 8"  ref=  "mDBget;=a-dman-HEX-1:5"  />  <residue_link  from=  "2"  to=  "1"  >  <atom_link  from=  "N1"  to=  "C2"  from_replaces=  "O2"  bond_order=  "1"  />  </residue_link>  <residue_link  from=  "3"  to=  "1"  >  <atom_link  from=  "C1"  to=  "O6"  to_replaces=  "O1"  bond_order=  "1"  />  </ residue_link>  <residue_link  from=  "4"  to=  "1"  >  <atom_link  from=  "C1"  to=  "O4"  to_replaces=  "O1"  bond_order=  "1"  />  </residue_link>  <residue_link  from=  "5"  to=  "4"  >  <atom_link  from=  "N1"  to=  "C2"  from_replaces=  "O2"  bond_order=  "1"  />  </residue_link>  <residue_link  from=  "6"  to=  "4"  >  <atom_link  from =  "C1"  to=  "O4"  to_replaces=  "O1"  bond_order=  "1"  />  </residue_link>  <residue_link  from=  "7"  to=  "6"  >  <atom_link  from=  "C1"  to=  "O3"  to_replaces=  "O1"  bond_order=  "1"  />  </residue_link>  <residue_link  from=  "8"  to=  "6"  >  <atom_link  from=  "C1"  to=  "O6"  to_replaces=  "O1"  bond_order=  "1 "  />  </residue_link>  </molecule>  </GlydeII> 

CabosML

Ett kolhydratsekvensmarkeringsspråk (CabosML) är en beskrivning av kolhydratstrukturer som använder XML.


 
  
  
      
        
          
            
              
              
        
      
    
  
 <?xml version="1.0" encoding="UTF-8" ?>  <g:Glyco  xmlns:g=  "http://bio.mki.co.jp/ glycoinformatics/2003" >  <  g:Carb_ID/>  < g:Carb_structure>  <g:MS  name=  "GlcNAc"  >  <g:MS  link=  "1-6"  anom=  "a"  name=  "Fuc"  >  <g:MS  link=  "1-4"  anom=  " b"  name=  "GlcNAc"  >  <g:MS  link=  "1-4"  anom=  "b"  name=  "Man"  >  <g:MS  link=  "1-3"  anom=  "a"  name=  "Man "  />  <g:MS  link=  "1-6"  anom=  "a"  name=  "Man"  />  </g:MS>  </g:MS>  </g:MS>  </g:Carb_structure>  </g:Glyco> 

Symbolformat

Många glykobiologer använder figurer för att skildra de komplexa glykanstrukturerna. För närvarande finns det två huvudsakliga sätt att representera glykaner med hjälp av symboler: Symbol Nomenclature For Glycans (SNFG) och Oxford Notation.

Symbolnomenklatur för glykaner

SNFG-representation av Man-3-Core F

Oxford notation

Oxford Notation designades och utvecklades av forskarna från Oxford Glycobiology Institute vid University of Oxford 2009.

Oxford Glycobiology Institute (UOXF) Notation av Man-3-Core F

Formatkonverteringsverktyg

Det vetenskapliga samfundet har utvecklat ett antal mjukvaruverktyg för att konvertera glykaner representerade i ett format till ett annat. Några av dessa mest använda verktyg listas nedan:

  1. GlycanFormatConverter : Ett kärnbibliotek av glykantextkonverteringsverktyg, som kodar WURCS från IUPAC-Extended, KCF och LinearCode® för den stora majoriteten av glykaner registrerade i GlyTouCan.
  2. RINGS : En webbresurs som tillhandahåller algoritmiska och datautvinningsverktyg för att underlätta glykobiologiforskning.
  3. glypy : Ett glykoinformatikbibliotek med öppen källkod.
  1. ^   Alan D. McNaught, International Union of Pure and App (1996), "Nomenclature of Carbohydrates" , Glycoscience , Berlin, Heidelberg: Springer Berlin Heidelberg, s. 2727–2838, doi : 10.1007/978-3-540-30429- 6_70 , ISBN 978-3-540-36154-1 , hämtad 2021-10-03
  2. ^   Albersheim, P. (1990-05-01). "CARBBANK - En strukturell och bibliografisk databas" . OTI 5926286 . {{ citera journal }} : Citera journal kräver |journal= ( hjälp )
  3. ^ "Kolhydratnomenklaturen" . iupac.qmul.ac.uk . Hämtad 2021-10-03 .
  4. ^    Bohne-Lang, Andreas; Lang, Elke; Förster, Thomas; von der Lieth, Claus-W. (2001-11-01). "LINUCS: LInear Notation for Unique Description of Carbohydrate Sequences" . Kolhydratforskning . 336 (1): 1–11. doi : 10.1016/S0008-6215(01)00230-0 . ISSN 0008-6215 . PMID 11675023 .
  5. ^ "Glycosciences.de LINUCS - LInear notation för unik beskrivning av kolhydratsekvenser" . www.glycosciences.de . Hämtad 2021-10-03 .
  6. ^ Banin, Ehud; Neuberger, Yael; Altshuler, Yaniv; Halevi, Asaf; Inbar, Ori; Nir, Dotan; Dukler, Avinoam; författare_på_japanska (2002). "A Novel Linear Code® Nomenclature for Complex Carbohydrates" . Trender inom glykovetenskap och glykoteknik . 14 (77): 127–137. doi : 10.4052/tigg.14.127 . {{ citera journal }} : |last8= har ett generiskt namn ( hjälp )
  7. ^    Herget, S.; Ranzinger, R.; Maass, K.; Lieth, C.-WVD (2008-08-11). "GlycoCT-ett förenande sekvensformat för kolhydrater" . Kolhydratforskning . 343 (12): 2162–2171. doi : 10.1016/j.carres.2008.03.011 . ISSN 0008-6215 . PMID 18436199 .
  8. ^     Ranzinger, René; Herget, Stephan; Wetter, Thomas; von der Lieth, Claus-Wilhelm (2008-09-19). "GlycomeDB - integration av kolhydratstrukturdatabaser med öppen tillgång" . BMC Bioinformatik . 9 : 384. doi : 10.1186/1471-2105-9-384 . ISSN 1471-2105 . PMC 2567997 . PMID 18803830 .
  9. ^    Tanaka, Kenichi; Aoki-Kinoshita, Kiyoko F.; Kotera, Masaaki; Sawaki, Hiromichi; Tsuchiya, Shinichiro; Fujita, Noriaki; Shikanai, Toshihide; Kato, Masaki; Kawano, Shin; Yamada, Isaku; Narimatsu, Hisashi (2014-06-23). "WURCS: The Web3 Unique Representation of Carbohydrate Structures" . Journal of Chemical Information and Modeling . 54 (6): 1558–1566. doi : 10.1021/ci400571e . ISSN 1549-9596 . PMID 24897372 .
  10. ^     Kotera, Masaaki; Tabei, Yasuo; Yamanishi, Yoshihiro; Moriya, Yuki; Tokimatsu, Toshiaki; Kanehisa, Minoru; Goto, Susumu (2013-12-13). "KCF-S: KEGG Chemical Function and Substructure för förbättrad tolkning och förutsägelse inom kemisk bioinformatik" . BMC Systembiologi . 7 (6): S2. doi : 10.1186/1752-0509-7-S6-S2 . ISSN 1752-0509 . PMC 4029371 . PMID 24564846 .
  11. ^ Toukach, FV; Knirel, YA (2005). "Ny databas över bakteriella kolhydratstrukturer". Glycoconj. J . 22 : 216–217.
  12. ^    Toukach, Philip V. (2011-01-24). "Bakteriell kolhydratstrukturdatabas 3: principer och förverkligande" . Journal of Chemical Information and Modeling . 51 (1): 159–170. doi : 10.1021/ci100150d . ISSN 1549-9596 . PMID 21155523 .
  13. ^    Egorova, KS; Toukach, PV (2014-05-07). "Utökad täckning av kolhydratstrukturdatabasen (CSDB)" . Kolhydratforskning . EuroCarb 17. 389 : 112–114. doi : 10.1016/j.carres.2013.10.009 . ISSN 0008-6215 . PMID 24680503 .
  14. ^    Packer, Nicolle H.; von der Lieth, Claus-Wilhelm; Aoki-Kinoshita, Kiyoko F.; Lebrilla, Carlito B.; Paulson, James C.; Raman, Rahul; Rudd, Pauline; Sasisekharan, Ram; Taniguchi, Naoyuki; York, William S. (januari 2008). "Frontiers in glycomics: Bioinformatics and biomarkers in disease En NIH White Paper utarbetad från diskussioner av fokusgrupper vid en workshop på NIH campus, Bethesda MD (11–13 september 2006)" . Proteomik . 8 (1): 8–20. doi : 10.1002/pmic.200700917 . PMID 18095367 . S2CID 23513084 .
  15. ^     Ranzinger, Rene; Kochut, Krys J.; Miller, John A.; Eavenson, Matthew; Lütteke, Thomas; York, William S. (2017-01-01). "GLYDE-II: GLYcans datautbytesformat" . Perspectives in Science . Proceedings of the Beilstein Glyco-Bioinformatics Symposium 2015. 11 : 24–30. doi : 10.1016/j.pisc.2016.05.013 . ISSN 2213-0209 . PMC 5611833 . PMID 28955652 .
  16. ^    Kikuchi, N.; Kameyama, A.; Nakaya, S.; Ito, H.; Sato, T.; Shikanai, T.; Takahashi, Y.; Narimatsu, H. (2004-11-25). "The carbohydrate sequence markup language (CabosML): an XML description of carbohydrate structures" . Bioinformatik . 21 (8): 1717–1718. doi : 10.1093/bioinformatics/bti152 . ISSN 1367-4803 . PMID 15564307 .
  17. ^     Tsuchiya, Shinichiro; Yamada, Isaku; Aoki-Kinoshita, Kiyoko F (2018-12-07). "GlycanFormatConverter: ett konverteringsverktyg för att översätta komplexiteten hos glykaner" . Bioinformatik . 35 (14): 2434–2440. doi : 10.1093/bioinformatics/bty990 . ISSN 1367-4803 . PMC 6612873 . PMID 30535258 .
  18. ^     Klein, Joshua; Zaia, Joseph (2019-09-06). "glypy: An Open Source Glycoinformatics Library" . Journal of Proteome Research . 18 (9): 3532–3537. doi : 10.1021/acs.jproteome.9b00367 . ISSN 1535-3893 . PMC 7158751 . PMID 31310539 .