GeneMark
Originalförfattare | Bioinformatikgrupp av Mark Borodovsky |
---|---|
Utvecklare | Georgia Institute of Technology |
Initial release | 1993 |
Operativ system | Linux , Windows och Mac OS |
Licens | Gratis binär endast för akademisk, ideell eller amerikanska regeringsbruk |
Hemsida | opal.biology.gatech.edu/GeneMark |
GeneMark är ett generiskt namn för en familj av ab initio genprediktionsprogram utvecklade vid Georgia Institute of Technology i Atlanta . Utvecklat 1993, användes originalet GeneMark 1995 som ett primärt genprediktionsverktyg för annotering av det första fullständigt sekvenserade bakteriegenomet av Haemophilus influenzae , och 1996 för det första arkeala genomet av Methanococcus jannaschii . Algoritmen introducerade inhomogena treperiodiska Markov-kedjemodeller av proteinkodande DNA-sekvens som blev standard i genförutsägelse såväl som Bayesiansk metod för genförutsägelse i två DNA-strängar samtidigt. Artspecifika parametrar för modellerna uppskattades från träningsuppsättningar av sekvenser av känd typ (proteinkodande och icke-kodande). Det huvudsakliga steget i algoritmen beräknar för ett givet DNA-fragment posteriora sannolikheter att antingen vara "proteinkodande" (som bär genetisk kod ) i var och en av sex möjliga läsramar (inklusive tre ramar i komplementär DNA- sträng) eller vara "icke-kodande" . Original GeneMark (utvecklat före HMM-eran inom bioinformatik) är en HMM-liknande algoritm; det kan ses som en approximation till känd i HMM-teorin bakre avkodningsalgoritm för lämpligt definierad HMM.
Prokaryot genförutsägelse
Algoritmen GeneMark.hmm (1998) utformades för att förbättra genförutsägelsens noggrannhet när det gäller att hitta korta gener och genstarter. Tanken var att integrera Markov-kedjemodellerna som används i GeneMark i ett dolt Markov-modellramverk , med övergång mellan kodande och icke-kodande regioner formellt tolkade som övergångar mellan dolda tillstånd. Dessutom användes ribosombindningsställemodellen för att förbättra noggrannheten av förutsägelse av genstart . Nästa steg gjordes med utvecklingen av det självträande genprediktionsverktyget GeneMarkS (2001). GeneMarkS har använts aktivt av genomics community för genidentifiering i nya prokaryota genomiska sekvenser. GeneMarkS+, förlängning av GeneMarkS som integrerar information om homologa proteiner i genförutsägelse används i NCBI-pipelinen för annotering av prokaryota genom; pipelinen kan kommentera upp till 2000 genom dagligen ( www.ncbi.nlm.nih.gov/genome/annotation_prok/process ).
Heuristiska modeller och genprediktion i metagenomer och metatransciptomer
Noggrann identifiering av artspecifika parametrar för GeneMark- och GeneMark.hmm-algoritmerna var nyckelvillkoret för att göra korrekta genförutsägelser. Emellertid väcktes frågan, motiverad av studier av virala genom, hur man definierar parametrar för genförutsägelse i en ganska kort sekvens som inte har något stort genomiskt sammanhang. 1999 togs denna fråga upp genom utveckling av en "heuristisk metod" beräkningar av parametrarna som funktioner av sekvensen G+C-innehåll. Sedan 2004 har modeller byggda med det heuristiska tillvägagångssättet använts för att hitta gener i metagenomiska sekvenser. Därefter ledde analys av flera hundra prokaryota genom till utveckling av mer avancerad heuristisk metod (implementerad i MetaGeneMark) 2010.
Eukaryot genförutsägelse
I eukaryota genom utgör modellering av exongränser med introner och intergena regioner en stor utmaning som hanteras genom användning av HMM. HMM-arkitekturen för eukaryota GeneMark.hmm inkluderar dolda tillstånd för initiala, interna och terminala exoner, introner , intergena regioner och enkla exongener som finns i båda DNA-strängarna. Initial eukaryota GeneMark.hmm behövde träningsuppsättningar för uppskattning av algoritmparametrarna. 2005 utvecklades den första versionen av självträningsalgoritmen GeneMark-ES. 2008 utvidgades GeneMark-ES-algoritmen till svampgenom genom att utveckla en speciell intronmodell och mer komplex strategi för självträning. Sedan, 2014, lades GeneMark-ET algoritmen som utökade självträning med information från kartlagda till genom omonterade RNA-Seq-läsningar till familjen. Genförutsägelse i eukaryota transkript kan göras med den nya algoritmen GeneMarkS-T (2015)
GeneMark Family of Gene Prediction Programs
Bakterier, Archaea
- GeneMark
- GeneMarkS
- GeneMarkS+
Metagenom och metatranskriptom
- MetaGeneMark
Eukaryoter
- GeneMark
- GeneMark.hmm
- GeneMark-ES: genfinnande algoritm för eukaryota genom som utför automatisk träning i oövervakat ab initio-läge.
- GeneMark-ET: utökar GeneMark-ES med en ny metod som integrerar RNA-Seq-läsjusteringar i självträningsproceduren.
- GeneMark-EX: ett helautomatiskt integrerat verktyg för genomannotering som visar robust prestanda över indata av olika storlek, struktur och kvalitet. Algoritmen väljer tillvägagångssätt för parameteruppskattning beroende på volymen, kvaliteten och egenskaperna hos indata, storleken på RNA-seq-datauppsättningen, artens fylogenetiska position, graden av sammansättningsfragmentering. Den kan automatiskt modifiera HMM-arkitekturen för att passa egenskaperna hos genomet i fråga och för att integrera transkript- och proteininformation i processen för genförutsägelse.
Virus, fager och plasmider
- Heuristiska modeller
Transkriptioner sammansatta från RNA-Seq avlästa
- GeneMarkS-T
Se även
- Borodovsky M. och McIninch J. " GeneMark: parallell genigenkänning för båda DNA-strängarna. " Computers & Chemistry (1993) 17 (2): 123–133.
- Lukashin A. och Borodovsky M. " GeneMark.hmm: nya lösningar för att hitta gen. " Nucleic Acids Research (1998) 26 (4): 1107–1115. doi : 10.1093/nar/26.4.1107
- Besemer J. och Borodovsky M. " Heuristisk metod för att härleda modeller för att hitta gen. " Nucleic Acids Research (1999) 27 (19): 3911-3920. doi : 10.1093/nar/27.19.3911
- Besemer J., Lomsadze A. och Borodovsky M. " GeneMarkS: en självträningsmetod för att förutsäga genstarter i mikrobiella genom. Implikationer för att hitta sekvensmotiv i regulatoriska regioner." Nucleic Acids Research (2001) 29 (12): 2607 –2618. doi : 10.1093/nar/29.12.2607
- Mills R., Rozanov M., Lomsadze A., Tatusova T. och Borodovsky M. " Förbättring av genannotering i kompletta virala genom. " Nucleic Acids Research (2003) 31 (23): 7041–7055. doi : 10.1093/nar/gkg878
- Besemer J. och Borodovsky M. " GeneMark: webbprogramvara för att hitta gen i prokaryoter, eukaryoter och virus." Nucleic Acids Research (2005) 33 (Web Server Issue): W451-454. doi : 10.1093/nar/gki487
- Lomsadze A., Ter-Hovhannisyan V., Chernoff Y. och Borodovsky M. " Genidentifiering i nya eukaryota genom genom självträningsalgoritm. " Nucleic Acids Research (2005) 33 (20): 6494–6506. doi : 10.1093/nar/gki937
- Zhu W., Lomsadze A. och Borodovsky M. " Ab initio genidentifiering i metagenomiska sekvenser. " Nucleic Acids Research (2010) 38 (12): e132. doi : 10.1093/nar/gkq275