Binning (metagenomics)
Inom metagenomik är binning processen att gruppera läsningar eller contigs och tilldela dem till individuella genom . Binning-metoder kan baseras på antingen kompositionsegenskaper eller anpassning (likhet), eller båda.
Introduktion
Metagenomiska prover kan innehålla avläsningar från ett stort antal organismer. Till exempel, i ett enda gram jord kan det finnas upp till 18 000 olika typer av organismer, var och en med sitt eget genom. Metagenomiska studier provar DNA från hela samhället och gör det tillgängligt som nukleotidsekvenser av viss längd . I de flesta fall gör den ofullständiga naturen hos de erhållna sekvenserna det svårt att sätta ihop individuella gener, mycket mindre att återvinna hela genomen från varje organism. Sålunda representerar binning-tekniker en "bästa ansträngning" för att identifiera läsningar eller sammanhängningar inom ett visst genom, känt som Metagenome Assembled Genome (MAG). Taxonomi av MAG kan härledas genom placering i referensfylogenetiska träd med hjälp av algoritmer som GTDB-Tk.
De första studierna som samplade DNA från flera organismer använde specifika gener för att bedöma mångfalden och ursprunget för varje prov. Dessa markörgener hade tidigare sekvenserats från klonala kulturer från kända organismer, så, närhelst en av sådana gener uppträdde i en läsning eller kontig från det metagenomiska provet, kunde den läsningen tilldelas en känd art eller till OTU för den arten. Problemet med den här metoden var att endast en liten del av sekvenserna bar en markörgen, vilket lämnade de flesta data otilldelade.
Moderna binning-tekniker använder både tidigare tillgänglig information oberoende av urvalet och inneboende information som finns i urvalet. Beroende på provets mångfald och komplexitet varierar deras framgångsgrad: i vissa fall kan de lösa sekvenserna upp till enskilda arter, medan i vissa andra identifieras sekvenserna i bästa fall med mycket breda taxonomiska grupper.
Binding av metagenomiska data från olika livsmiljöer kan avsevärt förlänga livets träd. Ett sådant tillvägagångssätt på globalt tillgängliga metagenom innehöll 52 515 individuella mikrobiella genom och utökade mångfalden av bakterier och arkéer med 44 %.
Algoritmer
Binning-algoritmer kan använda tidigare information och därmed fungera som övervakade klassificerare , eller så kan de försöka hitta nya grupper, de fungerar som oövervakade klassificerare . Många gör naturligtvis båda. Klassificerarna utnyttjar de tidigare kända sekvenserna genom att utföra anpassningar mot databaser och försöker separera sekvenser baserat på organismspecifika egenskaper hos DNA, som GC-innehåll .
Mande et al., (2012) ger en genomgång av premisserna, metoderna, fördelarna, begränsningarna och utmaningarna med olika metoder som är tillgängliga för binning av metagenomiska datauppsättningar som erhållits med hjälp av shotgun-sekvensering. Några av de framträdande binning-algoritmerna beskrivs nedan.
TETRA
TETRA är en statistisk klassificerare som använder tetranukleotidanvändningsmönster i genomiska fragment. Det finns fyra möjliga nukleotider i DNA , därför kan det finnas olika fragment av fyra på varandra följande nukleotider; dessa fragment kallas tetramerer. TETRA fungerar genom att tabellera frekvenserna för varje tetramer för en given sekvens. Från dessa frekvenser z-poäng , som indikerar hur över- eller underrepresenterad tetrameren är i motsats till vad som skulle förväntas om man tittar på individuella nukleotidkompositioner. Z-poängen för varje tetramer sätts samman i en vektor, och vektorerna som motsvarar olika sekvenser jämförs parvis, för att ge ett mått på hur lika olika sekvenser från provet är. Det förväntas att de mest lika sekvenserna tillhör organismer i samma OTU.
MEGAN
I DIAMOND+MEGAN-metoden justeras alla läsningar först mot en proteinreferensdatabas, såsom NCBI-nr, och sedan analyseras de resulterande anpassningarna med den naiva LCA-algoritmen, som placerar en läsning på den lägsta taxonomiska noden i NCBI-taxonomin som ligger framför allt taxa som läsningen har en betydande anpassning till. Här bedöms en anpassning vanligtvis som "signifikant", om dess bitpoäng ligger över ett givet tröskelvärde (vilket beror på längden på avläsningarna) och ligger inom 10 %, säg, från det bästa resultatet för den avläsningen. Grunden för att använda proteinreferenssekvenser, snarare än DNA-referenssekvenser, är att nuvarande DNA-referensdatabaser bara täcker en liten del av den verkliga mångfalden av genom som finns i miljön.
Phylopythia
Phylopythia är en övervakad klassificerare som utvecklats av forskare vid IBM-labb, och är i grunden en stödvektormaskin tränad med DNA-k-merer från kända sekvenser.
SORTERA-ARTIKEL
SORT-ITEMS (Monzoorul et al., 2009) är en anpassningsbaserad binning-algoritm utvecklad av Innovations Labs från Tata Consultancy Services (TCS) Ltd., Indien. Användare måste utföra en likhetssökning av de inmatade metagenomiska sekvenserna (läsningarna) mot nr proteindatabasen med hjälp av BLASTx-sökning. Den genererade BLASTx-utgången tas sedan som indata av programmet SORT-ITEMS. Metoden använder ett intervall av BLAST-anpassningsparametertrösklar för att först identifiera en lämplig taxonomisk nivå (eller rangordning) där läsningen kan tilldelas. Ett ortologibaserat tillvägagångssätt används sedan för den slutliga uppgiften av den metagenomiska läsningen. Andra anpassningsbaserade binning-algoritmer utvecklade av Innovation Labs of Tata Consultancy Services (TCS) inkluderar DiScRIBinATE, ProViDE och SPHINX. Metoderna för dessa algoritmer sammanfattas nedan.
DISKRIBERA
DiScRIBinATE (Ghosh et al., 2010) är en anpassningsbaserad binningalgoritm som utvecklats av Innovations Labs vid Tata Consultancy Services (TCS) Ltd., Indien. DiScRIBinATE ersätter ortologimetoden för SORT-ITEMS med en snabbare "inriktningsfri" metod. Att införliva denna alternativa strategi observerades för att minska lagringstiden med hälften utan någon betydande förlust av tilldelningarnas noggrannhet och specificitet. Dessutom tycks en ny omklassificeringsstrategi inkorporerad i DiScRIBinATE minska den totala felklassificeringsfrekvensen.
Förse
ProViDE (Ghosh et al., 2011) är en anpassningsbaserad binning-metod som utvecklats av Innovation Labs vid Tata Consultancy Services (TCS) Ltd. för uppskattning av viral mångfald i metagenomiska prover. ProViDE använder det omvända ortologibaserade tillvägagångssättet som liknar Sort-ITEMS för den taxonomiska klassificeringen av metagenomiska sekvenser erhållna från viromdatauppsättningar. Det är en anpassad uppsättning BLAST-parametertrösklar, speciellt lämpade för virala metagenomiska sekvenser. Dessa trösklar fångar mönstret av sekvensdivergens och den olikformiga taxonomiska hierarkin som observeras inom/över olika taxonomiska grupper i det virala riket.
PCAHIER
PCAHIER (Zheng et al., 2010), en annan binning-algoritm utvecklad av Georgia Institute of Technology., använder n-mer oligonukleotidfrekvenser som funktioner och antar en hierarkisk klassificerare (PCAHIER) för att binda korta metagenomiska fragment. Den huvudsakliga komponentanalysen användes för att reducera den höga dimensionaliteten hos funktionsutrymmet. Effektiviteten av PCAHIER demonstrerades genom jämförelser mot en icke-hierarkisk klassificerare och två befintliga binning-algoritmer (TETRA och Phylopythia).
SFINX
SPHINX (Mohammed et al., 2011), en annan binning-algoritm som utvecklats av Innovation Labs of Tata Consultancy Services (TCS) Ltd., antar en hybridstrategi som uppnår hög binning-effektivitet genom att använda principerna för både "sammansättning" och "anpassning". '-baserade binning-algoritmer. Tillvägagångssättet utformades med målet att analysera metagenomiska datamängder lika snabbt som kompositionsbaserade tillvägagångssätt, men ändå med noggrannheten och specificiteten hos anpassningsbaserade algoritmer. SPHINX observerades klassificera metagenomiska sekvenser lika snabbt som kompositionsbaserade algoritmer. Dessutom observerades binning-effektiviteten (i termer av noggrannhet och specificitet för tilldelningar) för SPHINX vara jämförbar med resultat som erhållits med hjälp av anpassningsbaserade algoritmer.
INDUS och TWARIT
Representerar andra sammansättningsbaserade binning-algoritmer utvecklade av Innovation Labs of Tata Consultancy Services (TCS) Ltd. Dessa algoritmer använder en rad oligonukleotidsammansättningsparametrar (liksom statistiska) för att förbättra binning-tiden samtidigt som noggrannheten och specificiteten för taxonomiska tilldelningar bibehålls.
Andra algoritmer
Denna lista är inte uttömmande:
- TACOA (Diaz et al., 2009)
- Parallell-META (Su et al., 2011)
- PhyloPythiaS (Patil et al., 2011)
- RITA (MacDonald et al., 2012)
- BiMeta (Le et al., 2015)
- MetaPhlAn (Segata et al., 2012)
- SeMeta (Le et al., 2016)
- Quikr (Koslicki et al., 2013)
- Taxoner (Pongor et al., 2014)
- MaxBin (Wu et al., 2014)
- MetaBAT 2 (Kang et al., 2019)
- CONCOCT (Alneberg et al., 2014)
- Anvi'o (Eren et al., 2015)
- DAS Tool (Sieber et al., 2018) - omslag som kombinerar flera binning-algoritmer
Alla dessa algoritmer använder olika scheman för binning av sekvenser, såsom hierarkisk klassificering , och fungerar antingen på ett övervakat eller oövervakat sätt. Dessa algoritmer ger en global bild av hur olika proverna är och kan potentiellt koppla samman gemenskapssammansättning och funktion i metagenomer.
- Schloss, Patrick D; Jo Handelsman (2006-07-21). "Mot en folkräkning av bakterier i jord" . PLOS Comput Biol . 2 (7): e92. Bibcode : 2006PLSCB...2...92S . doi : 10.1371/journal.pcbi.0020092 . PMC 1513271 . PMID 16848637 .