GeneMark

GeneMark
Originalförfattare Bioinformatikgrupp av Mark Borodovsky
Utvecklare Georgia Institute of Technology
Initial release 1993
Operativ system Linux , Windows och Mac OS
Licens Gratis binär endast för akademisk, ideell eller amerikanska regeringsbruk
Hemsida opal.biology.gatech.edu/GeneMark

GeneMark är ett generiskt namn för en familj av ab initio genprediktionsprogram utvecklade vid Georgia Institute of Technology i Atlanta . Utvecklat 1993, användes originalet GeneMark 1995 som ett primärt genprediktionsverktyg för annotering av det första fullständigt sekvenserade bakteriegenomet av Haemophilus influenzae , och 1996 för det första arkeala genomet av Methanococcus jannaschii . Algoritmen introducerade inhomogena treperiodiska Markov-kedjemodeller av proteinkodande DNA-sekvens som blev standard i genförutsägelse såväl som Bayesiansk metod för genförutsägelse i två DNA-strängar samtidigt. Artspecifika parametrar för modellerna uppskattades från träningsuppsättningar av sekvenser av känd typ (proteinkodande och icke-kodande). Det huvudsakliga steget i algoritmen beräknar för ett givet DNA-fragment posteriora sannolikheter att antingen vara "proteinkodande" (som bär genetisk kod ) i var och en av sex möjliga läsramar (inklusive tre ramar i komplementär DNA- sträng) eller vara "icke-kodande" . Original GeneMark (utvecklat före HMM-eran inom bioinformatik) är en HMM-liknande algoritm; det kan ses som en approximation till känd i HMM-teorin bakre avkodningsalgoritm för lämpligt definierad HMM.

Prokaryot genförutsägelse

Algoritmen GeneMark.hmm (1998) utformades för att förbättra genförutsägelsens noggrannhet när det gäller att hitta korta gener och genstarter. Tanken var att integrera Markov-kedjemodellerna som används i GeneMark i ett dolt Markov-modellramverk , med övergång mellan kodande och icke-kodande regioner formellt tolkade som övergångar mellan dolda tillstånd. Dessutom användes ribosombindningsställemodellen för att förbättra noggrannheten av förutsägelse av genstart . Nästa steg gjordes med utvecklingen av det självträande genprediktionsverktyget GeneMarkS (2001). GeneMarkS har använts aktivt av genomics community för genidentifiering i nya prokaryota genomiska sekvenser. GeneMarkS+, förlängning av GeneMarkS som integrerar information om homologa proteiner i genförutsägelse används i NCBI-pipelinen för annotering av prokaryota genom; pipelinen kan kommentera upp till 2000 genom dagligen ( www.ncbi.nlm.nih.gov/genome/annotation_prok/process ).

Heuristiska modeller och genprediktion i metagenomer och metatransciptomer

Noggrann identifiering av artspecifika parametrar för GeneMark- och GeneMark.hmm-algoritmerna var nyckelvillkoret för att göra korrekta genförutsägelser. Emellertid väcktes frågan, motiverad av studier av virala genom, hur man definierar parametrar för genförutsägelse i en ganska kort sekvens som inte har något stort genomiskt sammanhang. 1999 togs denna fråga upp genom utveckling av en "heuristisk metod" beräkningar av parametrarna som funktioner av sekvensen G+C-innehåll. Sedan 2004 har modeller byggda med det heuristiska tillvägagångssättet använts för att hitta gener i metagenomiska sekvenser. Därefter ledde analys av flera hundra prokaryota genom till utveckling av mer avancerad heuristisk metod (implementerad i MetaGeneMark) 2010.

Eukaryot genförutsägelse

I eukaryota genom utgör modellering av exongränser med introner och intergena regioner en stor utmaning som hanteras genom användning av HMM. HMM-arkitekturen för eukaryota GeneMark.hmm inkluderar dolda tillstånd för initiala, interna och terminala exoner, introner , intergena regioner och enkla exongener som finns i båda DNA-strängarna. Initial eukaryota GeneMark.hmm behövde träningsuppsättningar för uppskattning av algoritmparametrarna. 2005 utvecklades den första versionen av självträningsalgoritmen GeneMark-ES. 2008 utvidgades GeneMark-ES-algoritmen till svampgenom genom att utveckla en speciell intronmodell och mer komplex strategi för självträning. Sedan, 2014, lades GeneMark-ET algoritmen som utökade självträning med information från kartlagda till genom omonterade RNA-Seq-läsningar till familjen. Genförutsägelse i eukaryota transkript kan göras med den nya algoritmen GeneMarkS-T (2015)


GeneMark Family of Gene Prediction Programs

Bakterier, Archaea

  • GeneMark
  • GeneMarkS
  • GeneMarkS+

Metagenom och metatranskriptom

  • MetaGeneMark

Eukaryoter

  • GeneMark
  • GeneMark.hmm
  • GeneMark-ES: genfinnande algoritm för eukaryota genom som utför automatisk träning i oövervakat ab initio-läge.
  • GeneMark-ET: utökar GeneMark-ES med en ny metod som integrerar RNA-Seq-läsjusteringar i självträningsproceduren.
  • GeneMark-EX: ett helautomatiskt integrerat verktyg för genomannotering som visar robust prestanda över indata av olika storlek, struktur och kvalitet. Algoritmen väljer tillvägagångssätt för parameteruppskattning beroende på volymen, kvaliteten och egenskaperna hos indata, storleken på RNA-seq-datauppsättningen, artens fylogenetiska position, graden av sammansättningsfragmentering. Den kan automatiskt modifiera HMM-arkitekturen för att passa egenskaperna hos genomet i fråga och för att integrera transkript- och proteininformation i processen för genförutsägelse.

Virus, fager och plasmider

  • Heuristiska modeller

Transkriptioner sammansatta från RNA-Seq avlästa

  • GeneMarkS-T

Se även

externa länkar