GeneMark

GeneMark
Originalförfattare	Bioinformatikgrupp av Mark Borodovsky
Utvecklare	Georgia Institute of Technology
Initial release	1993
Operativ system	Linux , Windows och Mac OS
Licens	Gratis binär endast för akademisk, ideell eller amerikanska regeringsbruk
Hemsida	opal.biology.gatech.edu/GeneMark

GeneMark är ett generiskt namn för en familj av ab initio genprediktionsprogram utvecklade vid Georgia Institute of Technology i Atlanta . Utvecklat 1993, användes originalet GeneMark 1995 som ett primärt genprediktionsverktyg för annotering av det första fullständigt sekvenserade bakteriegenomet av Haemophilus influenzae , och 1996 för det första arkeala genomet av Methanococcus jannaschii . Algoritmen introducerade inhomogena treperiodiska Markov-kedjemodeller av proteinkodande DNA-sekvens som blev standard i genförutsägelse såväl som Bayesiansk metod för genförutsägelse i två DNA-strängar samtidigt. Artspecifika parametrar för modellerna uppskattades från träningsuppsättningar av sekvenser av känd typ (proteinkodande och icke-kodande). Det huvudsakliga steget i algoritmen beräknar för ett givet DNA-fragment posteriora sannolikheter att antingen vara "proteinkodande" (som bär genetisk kod ) i var och en av sex möjliga läsramar (inklusive tre ramar i komplementär DNA- sträng) eller vara "icke-kodande" . Original GeneMark (utvecklat före HMM-eran inom bioinformatik) är en HMM-liknande algoritm; det kan ses som en approximation till känd i HMM-teorin bakre avkodningsalgoritm för lämpligt definierad HMM.

Prokaryot genförutsägelse

Algoritmen GeneMark.hmm (1998) utformades för att förbättra genförutsägelsens noggrannhet när det gäller att hitta korta gener och genstarter. Tanken var att integrera Markov-kedjemodellerna som används i GeneMark i ett dolt Markov-modellramverk , med övergång mellan kodande och icke-kodande regioner formellt tolkade som övergångar mellan dolda tillstånd. Dessutom användes ribosombindningsställemodellen för att förbättra noggrannheten av förutsägelse av genstart . Nästa steg gjordes med utvecklingen av det självträande genprediktionsverktyget GeneMarkS (2001). GeneMarkS har använts aktivt av genomics community för genidentifiering i nya prokaryota genomiska sekvenser. GeneMarkS+, förlängning av GeneMarkS som integrerar information om homologa proteiner i genförutsägelse används i NCBI-pipelinen för annotering av prokaryota genom; pipelinen kan kommentera upp till 2000 genom dagligen ( www.ncbi.nlm.nih.gov/genome/annotation_prok/process ).

Heuristiska modeller och genprediktion i metagenomer och metatransciptomer

Noggrann identifiering av artspecifika parametrar för GeneMark- och GeneMark.hmm-algoritmerna var nyckelvillkoret för att göra korrekta genförutsägelser. Emellertid väcktes frågan, motiverad av studier av virala genom, hur man definierar parametrar för genförutsägelse i en ganska kort sekvens som inte har något stort genomiskt sammanhang. 1999 togs denna fråga upp genom utveckling av en "heuristisk metod" beräkningar av parametrarna som funktioner av sekvensen G+C-innehåll. Sedan 2004 har modeller byggda med det heuristiska tillvägagångssättet använts för att hitta gener i metagenomiska sekvenser. Därefter ledde analys av flera hundra prokaryota genom till utveckling av mer avancerad heuristisk metod (implementerad i MetaGeneMark) 2010.

Eukaryot genförutsägelse

I eukaryota genom utgör modellering av exongränser med introner och intergena regioner en stor utmaning som hanteras genom användning av HMM. HMM-arkitekturen för eukaryota GeneMark.hmm inkluderar dolda tillstånd för initiala, interna och terminala exoner, introner , intergena regioner och enkla exongener som finns i båda DNA-strängarna. Initial eukaryota GeneMark.hmm behövde träningsuppsättningar för uppskattning av algoritmparametrarna. 2005 utvecklades den första versionen av självträningsalgoritmen GeneMark-ES. 2008 utvidgades GeneMark-ES-algoritmen till svampgenom genom att utveckla en speciell intronmodell och mer komplex strategi för självträning. Sedan, 2014, lades GeneMark-ET algoritmen som utökade självträning med information från kartlagda till genom omonterade RNA-Seq-läsningar till familjen. Genförutsägelse i eukaryota transkript kan göras med den nya algoritmen GeneMarkS-T (2015)

GeneMark Family of Gene Prediction Programs

Bakterier, Archaea

GeneMark
GeneMarkS
GeneMarkS+

Metagenom och metatranskriptom

MetaGeneMark

Eukaryoter

GeneMark
GeneMark.hmm
GeneMark-ES: genfinnande algoritm för eukaryota genom som utför automatisk träning i oövervakat ab initio-läge.
GeneMark-ET: utökar GeneMark-ES med en ny metod som integrerar RNA-Seq-läsjusteringar i självträningsproceduren.
GeneMark-EX: ett helautomatiskt integrerat verktyg för genomannotering som visar robust prestanda över indata av olika storlek, struktur och kvalitet. Algoritmen väljer tillvägagångssätt för parameteruppskattning beroende på volymen, kvaliteten och egenskaperna hos indata, storleken på RNA-seq-datauppsättningen, artens fylogenetiska position, graden av sammansättningsfragmentering. Den kan automatiskt modifiera HMM-arkitekturen för att passa egenskaperna hos genomet i fråga och för att integrera transkript- och proteininformation i processen för genförutsägelse.

Virus, fager och plasmider

Heuristiska modeller

Transkriptioner sammansatta från RNA-Seq avlästa

GeneMarkS-T

Se även

Borodovsky M. och McIninch J. " GeneMark: parallell genigenkänning för båda DNA-strängarna. " Computers & Chemistry (1993) 17 (2): 123–133.
Lukashin A. och Borodovsky M. " GeneMark.hmm: nya lösningar för att hitta gen. " Nucleic Acids Research (1998) 26 (4): 1107–1115. doi : 10.1093/nar/26.4.1107
Besemer J. och Borodovsky M. " Heuristisk metod för att härleda modeller för att hitta gen. " Nucleic Acids Research (1999) 27 (19): 3911-3920. doi : 10.1093/nar/27.19.3911
Besemer J., Lomsadze A. och Borodovsky M. " GeneMarkS: en självträningsmetod för att förutsäga genstarter i mikrobiella genom. Implikationer för att hitta sekvensmotiv i regulatoriska regioner." Nucleic Acids Research (2001) 29 (12): 2607 –2618. doi : 10.1093/nar/29.12.2607
Mills R., Rozanov M., Lomsadze A., Tatusova T. och Borodovsky M. " Förbättring av genannotering i kompletta virala genom. " Nucleic Acids Research (2003) 31 (23): 7041–7055. doi : 10.1093/nar/gkg878
Besemer J. och Borodovsky M. " GeneMark: webbprogramvara för att hitta gen i prokaryoter, eukaryoter och virus." Nucleic Acids Research (2005) 33 (Web Server Issue): W451-454. doi : 10.1093/nar/gki487
Lomsadze A., Ter-Hovhannisyan V., Chernoff Y. och Borodovsky M. " Genidentifiering i nya eukaryota genom genom självträningsalgoritm. " Nucleic Acids Research (2005) 33 (20): 6494–6506. doi : 10.1093/nar/gki937
Zhu W., Lomsadze A. och Borodovsky M. " Ab initio genidentifiering i metagenomiska sekvenser. " Nucleic Acids Research (2010) 38 (12): e132. doi : 10.1093/nar/gkq275

externa länkar

Officiell hemsida

^ "GeneMark.HMM eukaryot" .
^ "Validera användare" .
^ "GeneMark-ET – genfinnande algoritm för eukaryota genom | RNA-Seq Blog" . 9 juli 2014.
^ https://pag.confex.com/pag/xxvi/meetingapp.cgi/Paper/31299 GeneMark-EX

[1] "GeneMark.HMM eukaryot" .

[2] "Validera användare" .

[3] "GeneMark-ET – genfinnande algoritm för eukaryota genom | RNA-Seq Blog" . 9 juli 2014.

[4] ttps://pag.confex.com/pag/xxvi/meetingapp.cgi/Paper/31299 GeneMark-EX

Omics
Genomik	Kognitiv genomik Beräkningsgenomik Jämförande genomik Funktionell genomik Genomprojekt Human Genome Project Metagenomics Human Microbiome Project Pangenomics Personlig genomik Populationsgenomik Social genomik Strukturell genomik
Bioinformatik	Biochip Kemiformatik Kemogenomik Connectomics Human Connectome Project Epigenomics Human Epigenome Project Glykomik Immunomics Lipidomics Metabolomics Mikrobiomik Nutrigenomics Paleopolyploidi Farmakogenetik Farmakogenomik Systembiologi Toxikogenomik Transkriptomik
Strukturell biologi	Proteomics Mänskligt proteomprojekt Call-map proteomik Strukturbaserad läkemedelsdesign Uttrycksproteomik
Forskningsverktyg	2-D elektrofores Masspektrometer Elektrosprayjonisering Matrix-assisterad laser desorption jonisering Matrix-assisterad laser desorption jonisering-tid för flygning masspektrometer Mikrofluidbaserade verktyg Isotopaffinitetstaggar Infångning av kromosomkonformation
Organisationer	DNA Data Bank of Japan (JP) European Molecular Biology Laboratory (EU) National Institutes of Health (USA) Wellcome Sanger Institute (Storbritannien)
Lista Kategori