MG-RAST

MG-RAST
Originalförfattare Argonne National Laboratory , University of Chicago , San Diego State University
Utvecklare F. Meyer, D. Paarmann, M. D'Souza, R. Olson, EM Glass, M. Kubal, T. Paczian, A. Rodriguez, R. Stevens, A. Wilke, J. Wilkening, RA Edwards
Initial release 2008 ; 15 år sedan ( 2008 )
Stabil frisättning
4.0 / 15 november 2016 ; 6 år sedan ( 2016-11-15 )
Typ Bioinformatik
Hemsida http://metagenomics.anl.gov/

MG-RAST är en webbapplikationsserver med öppen källkod som föreslår automatisk fylogenetisk och funktionell analys av metagenomer . Det är också ett av de största arkiven för metagenomiska data. Namnet är en förkortning av Metagenomic Rapid Annotations using Subsystems Technology . Pipelinen producerar automatiskt funktionella tilldelningar till sekvenserna som hör till metagenomet genom att utföra sekvensjämförelser med databaser i både nukleotid- och aminosyranivåer . Applikationerna tillhandahåller fylogenetiska och funktionella tilldelningar av det metagenom som analyseras, samt verktyg för att jämföra olika metagenom. Det tillhandahåller också ett RESTful API för programmatisk åtkomst.

Servern skapades och underhålls av Argonne National Laboratory från University of Chicago. Den 29 december 2016 hade systemet analyserat 60 terabaspar av data från mer än 150 000 datamängder. Bland de analyserade datamängderna är mer än 23 000 tillgängliga för allmänheten.

För närvarande tillhandahålls beräkningsresurserna av DOE Magellan-molnet vid Argonne National Laboratory, Amazon EC2 Web Services och ett antal traditionella kluster.

Bakgrund

MG-RAST har utvecklats i ett försök att ha en gratis, offentlig resurs för analys och lagring av metagenomsekvensdata. Tjänsten tar bort en av de primära flaskhalsarna i metagenomanalys: tillgängligheten av högpresterande datoranvändning för att kommentera data.

Metagenomiska och metatranskriptomiska studier involverar bearbetning av stora datamängder, och därför kan de kräva beräkningsmässigt dyr analys. Nuförtiden kan forskare generera sådana mängder data eftersom sekvenseringskostnaderna har minskat dramatiskt under de senaste åren. Detta faktum har flyttat den begränsande faktorn till datorkostnaderna: till exempel uppskattade en nyligen genomförd studie av University of Maryland en kostnad på mer än 5 miljoner dollar per terabas med deras CLOVR- metagenomanalyspipeline . Eftersom storleken och antalet sekvensdatauppsättningar fortsätter att öka kommer kostnaderna för analysen av dem att fortsätta att öka.

Dessutom fungerar MG-RAST också som ett arkivverktyg för metagenomisk data. Insamling och tolkning av metadata är avgörande för genomiska och metagenomiska studier, och utmaningar i detta avseende inkluderar utbyte, kuration och distribution av denna information. MG-RAST-systemet har varit en tidig användare av de minimala checkliststandarderna och de utökade biomspecifika miljöpaketen som tagits fram av Genomics Standards Consortium , och tillhandahåller en lättanvänd uppladdare för insamling av metadata vid tidpunkten för datainlämning.

Pipeline för metagenomisk dataanalys

MG-RAST-applikationen erbjuder automatiserad kvalitetskontroll, annotering, jämförande analys och arkiveringstjänst av metagenomiska och amplikonsekvenser med hjälp av en kombination av flera bioinformatiska verktyg. Applikationen byggdes för att analysera metagenomiska data, men den stöder också amplikonsekvenser (16S, 18S och ITS) och bearbetning av metatranskriptom (RNA-seq) sekvenser. För närvarande är MG-RAST inte kapabel att förutsäga kodande regioner från eukaryoter och därför är den av begränsad användning för eukaryota metagenomanalys.

Pipeline av MG-RAST kan delas in i fem steg:

Datahygien

Inkluderar steg för kvalitetskontroll och borttagning av artefakter. För det första trimmas regioner av låg kvalitet med SolexaQA och avläsningar som visar olämpliga längder tas bort. Ett dereplikationssteg ingår i fallet med bearbetning av metagenom- och metatranskriptomdatauppsättningar. Därefter används DRISEE (Duplicate Read Inferred Sequencing Error Estimation) för att bedöma provsekvenseringsfelet baserat på artificiella duplikatavläsningar (ADRs) mätning. Och slutligen erbjuder pipelinen möjligheten att screena läsningarna med Bowtie aligner och ta bort läsningarna som visar matchningar nära modellorganismernas genom (inklusive fluga, mus, ko och människa).

Särdragsextraktion

MG-RAST identifierar gensekvenser genom att använda en maskininlärningsmetod: FragGeneScan . Ribosomala RNA-sekvenser identifieras genom en initial BLAT -sökning mot en reducerad version av SILVA -databasen.

Funktionsanteckning

För att identifiera de förmodade funktionerna och annoteringen av generna bygger MG-RAST kluster av proteiner på 90 % identitetsnivå med hjälp av UCLUST - implementeringen i QIIME . Den längsta sekvensen av varje kluster kommer att väljas för en likhetsanalys. Likhetsanalysen beräknas genom sBLAT (där BLAT -algoritmen parallelliseras med OpenMP ). Sökningen beräknas mot en proteindatabas härledd från M5nr, som tillhandahåller icke-redundant integration av sekvenser från GenBank, SEED, IMG, UniProt, KEGG och eggNOGs databaser.

Läsningarna associerade med rRNA-sekvenser är klustrade med 97 % identitet. Den längsta sekvensen av varje kluster väljs ut som representativ och kommer att användas för en BLAT-sökning mot M5rna-databasen, som integrerar SILVA, Greengenes och RDP.

Profilgenerering

Datan är integrerad i ett antal dataprodukter. De viktigaste är överflödsprofilerna, som representerar en pivoterad och aggregerad version av likhetsfilerna.

Data laddas

Slutligen laddas de erhållna överflödsprofilerna in i respektive databaser.

Detaljerade steg för MG-RAST pipeline

MG-RAST Rörledning Beskrivning
qc_stats Generera kvalitetskontrollstatistik
förprocess Förbearbetning, för att trimma regioner av låg kvalitet från FASTQ-data
dereplication Dereplikering för hagelgevärmetagenomdata genom att använda k-mer-metoden
skärm Ta bort läsningar som nästan exakt matchar arvsmassan hos modellorganismer (fluga, mus, ko och människa)
rna-detektering BLAT-sökning mot en reducerad RNA-databas, för att identifiera ribosomalt RNA
rna klustring rRNA-liknande avläsningar grupperas sedan vid 97 % identitet
rna sims blat BLAT-likhetssökning efter den längsta klusterrepresentanten mot M5rna-databasen
genecalling En maskininlärningsmetod, FragGeneScan, för att förutsäga kodande regioner i DNA-sekvenser
aa filtrering Filtrera proteiner
aa klustring Klusterproteiner på 90% identitetsnivå med hjälp av uclust
aa sims blat BLAT likhetsanalys för att identifiera protein
aa sims anteckning Sekvenslikhet mot proteindatabasen från M5nr
rna sims anteckning Sekvenslikhet mot RNA-databas från M5rna
index sim seq Indexsekvenslikhet med datakällor
md5-anteckningssammanfattning Generera sammanfattande rapport md5-anteckning, funktionskommentar, organismkommentar, LCAa-kommentar, ontologikommentar och källkommentar
sammanfattning av funktionskommentarer Generera sammanfattande rapport md5-anteckning, funktionskommentar, organismkommentar, LCAa-kommentar, ontologikommentar och källkommentar
sammanfattning av organismkommentarer Generera sammanfattande rapport md5-anteckning, funktionskommentar, organismkommentar, LCAa-kommentar, ontologikommentar och källkommentar
lca-anteckningssammanfattning Generera sammanfattande rapport md5-anteckning, funktionskommentar, organismkommentar, LCAa-kommentar, ontologikommentar och källkommentar
ontologianteckningssammanfattning Generera sammanfattande rapport md5-anteckning, funktionskommentar, organismkommentar, LCAa-kommentar, ontologikommentar och källkommentar
sammanfattning av källkommentarer Generera sammanfattande rapport md5-anteckning, funktionskommentar, organismkommentar, LCAa-kommentar, ontologikommentar och källkommentar
md5 sammanfattning laddning Ladda sammanfattande rapport till projektet
funktionssammanfattningsladdning Ladda sammanfattande rapport till projektet
organismsammanfattningsbelastning Ladda sammanfattande rapport till projektet
lca sammanfattning belastning Ladda sammanfattande rapport till projektet
ontologi sammanfattning belastning Ladda sammanfattande rapport till projektet
gjort stadium
meddela att jobbet är klart Skicka meddelande till användaren via e-post

MG-RAST verktyg

Förutom metagenomanalys kan MG-RAST även användas för dataupptäckt. Visualiseringen eller jämförelsen av metagenomprofiler och datamängder kan implementeras på en mängd olika sätt; webbgränssnittet gör det möjligt att välja data baserat på kriterier som sammansättning, sekvenskvalitet, funktionalitet eller provtyp och erbjuder flera sätt att beräkna statistiska slutsatser och ekologiska analyser. Profilerna för metagenomerna kan visualiseras och jämföras med hjälp av barcharts, träd, kalkylbladsliknande tabeller, värmekartor, PCoA, rarefaction plots, cirkulär rekryteringsplot och KEGG-kartor.

Se även

externa länkar