MG-RAST
Originalförfattare | Argonne National Laboratory , University of Chicago , San Diego State University |
---|---|
Utvecklare | F. Meyer, D. Paarmann, M. D'Souza, R. Olson, EM Glass, M. Kubal, T. Paczian, A. Rodriguez, R. Stevens, A. Wilke, J. Wilkening, RA Edwards |
Initial release | 2008 |
Stabil frisättning | 4.0 / 15 november 2016
|
Typ | Bioinformatik |
Hemsida | http://metagenomics.anl.gov/ |
MG-RAST är en webbapplikationsserver med öppen källkod som föreslår automatisk fylogenetisk och funktionell analys av metagenomer . Det är också ett av de största arkiven för metagenomiska data. Namnet är en förkortning av Metagenomic Rapid Annotations using Subsystems Technology . Pipelinen producerar automatiskt funktionella tilldelningar till sekvenserna som hör till metagenomet genom att utföra sekvensjämförelser med databaser i både nukleotid- och aminosyranivåer . Applikationerna tillhandahåller fylogenetiska och funktionella tilldelningar av det metagenom som analyseras, samt verktyg för att jämföra olika metagenom. Det tillhandahåller också ett RESTful API för programmatisk åtkomst.
Servern skapades och underhålls av Argonne National Laboratory från University of Chicago. Den 29 december 2016 hade systemet analyserat 60 terabaspar av data från mer än 150 000 datamängder. Bland de analyserade datamängderna är mer än 23 000 tillgängliga för allmänheten.
För närvarande tillhandahålls beräkningsresurserna av DOE Magellan-molnet vid Argonne National Laboratory, Amazon EC2 Web Services och ett antal traditionella kluster.
Bakgrund
MG-RAST har utvecklats i ett försök att ha en gratis, offentlig resurs för analys och lagring av metagenomsekvensdata. Tjänsten tar bort en av de primära flaskhalsarna i metagenomanalys: tillgängligheten av högpresterande datoranvändning för att kommentera data.
Metagenomiska och metatranskriptomiska studier involverar bearbetning av stora datamängder, och därför kan de kräva beräkningsmässigt dyr analys. Nuförtiden kan forskare generera sådana mängder data eftersom sekvenseringskostnaderna har minskat dramatiskt under de senaste åren. Detta faktum har flyttat den begränsande faktorn till datorkostnaderna: till exempel uppskattade en nyligen genomförd studie av University of Maryland en kostnad på mer än 5 miljoner dollar per terabas med deras CLOVR- metagenomanalyspipeline . Eftersom storleken och antalet sekvensdatauppsättningar fortsätter att öka kommer kostnaderna för analysen av dem att fortsätta att öka.
Dessutom fungerar MG-RAST också som ett arkivverktyg för metagenomisk data. Insamling och tolkning av metadata är avgörande för genomiska och metagenomiska studier, och utmaningar i detta avseende inkluderar utbyte, kuration och distribution av denna information. MG-RAST-systemet har varit en tidig användare av de minimala checkliststandarderna och de utökade biomspecifika miljöpaketen som tagits fram av Genomics Standards Consortium , och tillhandahåller en lättanvänd uppladdare för insamling av metadata vid tidpunkten för datainlämning.
Pipeline för metagenomisk dataanalys
MG-RAST-applikationen erbjuder automatiserad kvalitetskontroll, annotering, jämförande analys och arkiveringstjänst av metagenomiska och amplikonsekvenser med hjälp av en kombination av flera bioinformatiska verktyg. Applikationen byggdes för att analysera metagenomiska data, men den stöder också amplikonsekvenser (16S, 18S och ITS) och bearbetning av metatranskriptom (RNA-seq) sekvenser. För närvarande är MG-RAST inte kapabel att förutsäga kodande regioner från eukaryoter och därför är den av begränsad användning för eukaryota metagenomanalys.
Pipeline av MG-RAST kan delas in i fem steg:
Datahygien
Inkluderar steg för kvalitetskontroll och borttagning av artefakter. För det första trimmas regioner av låg kvalitet med SolexaQA och avläsningar som visar olämpliga längder tas bort. Ett dereplikationssteg ingår i fallet med bearbetning av metagenom- och metatranskriptomdatauppsättningar. Därefter används DRISEE (Duplicate Read Inferred Sequencing Error Estimation) för att bedöma provsekvenseringsfelet baserat på artificiella duplikatavläsningar (ADRs) mätning. Och slutligen erbjuder pipelinen möjligheten att screena läsningarna med Bowtie aligner och ta bort läsningarna som visar matchningar nära modellorganismernas genom (inklusive fluga, mus, ko och människa).
Särdragsextraktion
MG-RAST identifierar gensekvenser genom att använda en maskininlärningsmetod: FragGeneScan . Ribosomala RNA-sekvenser identifieras genom en initial BLAT -sökning mot en reducerad version av SILVA -databasen.
Funktionsanteckning
För att identifiera de förmodade funktionerna och annoteringen av generna bygger MG-RAST kluster av proteiner på 90 % identitetsnivå med hjälp av UCLUST - implementeringen i QIIME . Den längsta sekvensen av varje kluster kommer att väljas för en likhetsanalys. Likhetsanalysen beräknas genom sBLAT (där BLAT -algoritmen parallelliseras med OpenMP ). Sökningen beräknas mot en proteindatabas härledd från M5nr, som tillhandahåller icke-redundant integration av sekvenser från GenBank, SEED, IMG, UniProt, KEGG och eggNOGs databaser.
Läsningarna associerade med rRNA-sekvenser är klustrade med 97 % identitet. Den längsta sekvensen av varje kluster väljs ut som representativ och kommer att användas för en BLAT-sökning mot M5rna-databasen, som integrerar SILVA, Greengenes och RDP.
Profilgenerering
Datan är integrerad i ett antal dataprodukter. De viktigaste är överflödsprofilerna, som representerar en pivoterad och aggregerad version av likhetsfilerna.
Data laddas
Slutligen laddas de erhållna överflödsprofilerna in i respektive databaser.
Detaljerade steg för MG-RAST pipeline
MG-RAST Rörledning | Beskrivning |
---|---|
qc_stats | Generera kvalitetskontrollstatistik |
förprocess | Förbearbetning, för att trimma regioner av låg kvalitet från FASTQ-data |
dereplication | Dereplikering för hagelgevärmetagenomdata genom att använda k-mer-metoden |
skärm | Ta bort läsningar som nästan exakt matchar arvsmassan hos modellorganismer (fluga, mus, ko och människa) |
rna-detektering | BLAT-sökning mot en reducerad RNA-databas, för att identifiera ribosomalt RNA |
rna klustring | rRNA-liknande avläsningar grupperas sedan vid 97 % identitet |
rna sims blat | BLAT-likhetssökning efter den längsta klusterrepresentanten mot M5rna-databasen |
genecalling | En maskininlärningsmetod, FragGeneScan, för att förutsäga kodande regioner i DNA-sekvenser |
aa filtrering | Filtrera proteiner |
aa klustring | Klusterproteiner på 90% identitetsnivå med hjälp av uclust |
aa sims blat | BLAT likhetsanalys för att identifiera protein |
aa sims anteckning | Sekvenslikhet mot proteindatabasen från M5nr |
rna sims anteckning | Sekvenslikhet mot RNA-databas från M5rna |
index sim seq | Indexsekvenslikhet med datakällor |
md5-anteckningssammanfattning | Generera sammanfattande rapport md5-anteckning, funktionskommentar, organismkommentar, LCAa-kommentar, ontologikommentar och källkommentar |
sammanfattning av funktionskommentarer | Generera sammanfattande rapport md5-anteckning, funktionskommentar, organismkommentar, LCAa-kommentar, ontologikommentar och källkommentar |
sammanfattning av organismkommentarer | Generera sammanfattande rapport md5-anteckning, funktionskommentar, organismkommentar, LCAa-kommentar, ontologikommentar och källkommentar |
lca-anteckningssammanfattning | Generera sammanfattande rapport md5-anteckning, funktionskommentar, organismkommentar, LCAa-kommentar, ontologikommentar och källkommentar |
ontologianteckningssammanfattning | Generera sammanfattande rapport md5-anteckning, funktionskommentar, organismkommentar, LCAa-kommentar, ontologikommentar och källkommentar |
sammanfattning av källkommentarer | Generera sammanfattande rapport md5-anteckning, funktionskommentar, organismkommentar, LCAa-kommentar, ontologikommentar och källkommentar |
md5 sammanfattning laddning | Ladda sammanfattande rapport till projektet |
funktionssammanfattningsladdning | Ladda sammanfattande rapport till projektet |
organismsammanfattningsbelastning | Ladda sammanfattande rapport till projektet |
lca sammanfattning belastning | Ladda sammanfattande rapport till projektet |
ontologi sammanfattning belastning | Ladda sammanfattande rapport till projektet |
gjort stadium | |
meddela att jobbet är klart | Skicka meddelande till användaren via e-post |
MG-RAST verktyg
Förutom metagenomanalys kan MG-RAST även användas för dataupptäckt. Visualiseringen eller jämförelsen av metagenomprofiler och datamängder kan implementeras på en mängd olika sätt; webbgränssnittet gör det möjligt att välja data baserat på kriterier som sammansättning, sekvenskvalitet, funktionalitet eller provtyp och erbjuder flera sätt att beräkna statistiska slutsatser och ekologiska analyser. Profilerna för metagenomerna kan visualiseras och jämföras med hjälp av barcharts, träd, kalkylbladsliknande tabeller, värmekartor, PCoA, rarefaction plots, cirkulär rekryteringsplot och KEGG-kartor.