Hybrid genomsammansättning
Inom bioinformatik hänvisar hybridgenomsammansättning till användning av olika sekvenseringsteknologier för att uppnå uppgiften att sammanställa ett genom från fragmenterat, sekvenserat DNA som härrör från hagelgevärssekvensering. Genomsammansättning presenterar en av de mest utmanande uppgifterna inom genomsekvensering eftersom de flesta moderna DNA-sekvenseringsteknologier endast kan producera läsningar som i genomsnitt är 25-300 baspar långa. Detta är storleksordningar mindre än medelstorleken på ett genom (genomet hos den oktoploida växten Paris japonica är 149 miljarder baspar). Denna sammansättning är beräkningsmässigt svår och har vissa inneboende utmaningar, en av dessa utmaningar är att genom ofta innehåller komplexa tandemupprepningar av sekvenser som kan vara tusentals baspar långa. Dessa upprepningar kan vara tillräckligt långa för att andra generationens sekvenseringsavläsningar inte är tillräckligt långa för att överbrygga upprepningen, och som sådan kan det vara svårt att bestämma platsen för varje upprepning i genomet. Att lösa dessa tandemupprepningar kan åstadkommas genom att använda långa tredje generationens sekvenseringsläsningar , såsom de som erhålls med PacBio RS DNA-sekvenserare. Dessa sekvenser är i genomsnitt 10 000-15 000 baspar långa och är tillräckligt långa för att sträcka sig över de flesta upprepade regioner. Att använda en hybrid metod för denna process kan öka troheten i att montera tandemupprepningar genom att kunna placera dem exakt längs en linjär ställning och göra processen mer beräkningseffektiv.
Genomförsamling
Klassisk genomförsamling
Termen genomsammansättning hänvisar till processen att ta ett stort antal DNA-fragment som genereras under hagelgevärssekvensering och sätta ihop dem i rätt ordning för att rekonstruera det ursprungliga genomet. Sekvensering involverar användning av automatiserade maskiner för att bestämma ordningen för nukleinsyror i DNA av intresse (nukleinsyrorna i DNA är adenin , cytosin , guanin och tymin ) för att utföra genomiska analyser som involverar en organism av intresse. Tillkomsten av nästa generations sekvensering har presenterat betydande förbättringar i hastighet, noggrannhet och kostnad för DNA-sekvensering och har gjort sekvensering av hela genom till en genomförbar process. Det finns många olika sekvenseringsteknologier som har utvecklats av olika bioteknikföretag, som var och en producerar olika sekvenseringsavläsningar vad gäller noggrannhet och läslängd. Några av dessa teknologier inkluderar Roche 454 , Illumina , SOLiD och IonTorrent . Dessa sekvenseringsteknologier ger relativt korta avläsningar (50-700 baser) och har en hög noggrannhet (>98%). Tredje generationens sekvensering inkluderar teknologier som PacBio RS-systemet som kan producera långa läsningar (max 23kb) men har en relativt låg noggrannhet.
Genommontering görs normalt med en av två metoder: sammansättning med hjälp av ett referensgenom som en ställning, eller de novo- montering. Ställningsmetoden kan vara användbar om genomet av en liknande organism har sekvenserats tidigare. Denna process involverar sammansättning av genomet av intresse genom att jämföra det med ett känt genom eller ställning. De novo genomsammansättning används när genomet som ska sättas samman inte liknar några andra organismer vars genom har sekvenserats tidigare. Denna process utförs genom att sätta samman enkla läsningar till sammanhängande sekvenser ( contigs ) som sedan förlängs i 3'- och 5'-riktningarna genom att överlappa andra sekvenser. Det senare är att föredra eftersom det möjliggör bevarande av fler sekvenser.
De novo- sammansättningen av DNA-sekvenser är en mycket beräkningsmässigt utmanande process och kan falla in i den NP-hårda klassen av problem om Hamilton-cykelmetoden används. Detta beror på att miljontals sekvenser måste sättas ihop för att rekonstruera ett genom. Inom genom finns det ofta tandemupprepningar av DNA-segment som kan vara tusentals baspar långa, vilket kan orsaka problem under montering.
Även om nästa generations sekvenseringsteknologi nu kan producera miljontals avläsningar, kan sammansättningen av dessa avläsningar orsaka en flaskhals i hela genomsammansättningsprocessen. Som sådan görs omfattande forskning för att utveckla nya tekniker och algoritmer för att effektivisera genomsammansättningsprocessen och göra den till en mer beräkningseffektiv process och för att öka noggrannheten i processen som helhet.
Hybrid Genome Assembly
En hybrid tillvägagångssätt för genomsammansättning innebär att komplettera korta, exakta andra generationens sekvenseringsdata (dvs. från IonTorrent, Illumina eller Roche 454) med långa mindre exakta tredje generationens sekvenseringsdata (dvs. från PacBio RS) för att lösa komplexa upprepade DNA-segment. Den huvudsakliga begränsningen för enmolekyls tredje generationens sekvensering som förhindrar att den används ensam är dess relativt låga noggrannhet, vilket orsakar inneboende fel i det sekvenserade DNA:t. Att enbart använda andra generationens sekvenseringsteknologier för genommontering kan missa eller leda till ofullständig sammansättning av viktiga aspekter av genomet. Komplettering av tredje generationens läsningar med korta andra generationens sekvenser med hög noggrannhet kan övervinna dessa inneboende fel och slutföra avgörande detaljer i genomet. Detta tillvägagångssätt har använts för att sekvensera genomen från vissa bakteriearter inklusive en stam av Vibrio cholerae . Algoritmer som är specifika för denna typ av hybridgenomsamling har utvecklats, såsom PacBio-korrigerade Reads-algoritmen.
Det finns inneboende utmaningar när man använder sekvensläsningar från olika teknologier för att sammanställa ett sekvenserat genom; data som kommer från olika sekvenser kan ha olika egenskaper. Ett exempel på detta kan ses när man använder överlappningslayout-konsensusmetoden (OLC) för genomsammansättning, vilket kan vara svårt när man använder avläsningar av väsentligt olika längder. För närvarande övervinns denna utmaning genom att använda flera genomsammansättningsprogram. Ett exempel på detta kan ses i Goldberg et al. där författarna parade ihop 454 läsningar med Sanger-läsningar. De 454 läsningarna monterades först med hjälp av Newbler-assemblern (som är optimerad för att använda korta läsningar) och genererade pseudo-läsningar som sedan parades ihop med de längre Sanger-läsningarna och sattes ihop med Celera assembler.
Hybridgenomsammansättning kan också åstadkommas med användning av Eulerian path-metoden. I detta tillvägagångssätt spelar längden på de sammansatta sekvenserna ingen roll eftersom när ett k-mer-spektrum väl har konstruerats är längden på läsningarna irrelevanta.
Praktiska tillvägagångssätt
Hybridfelkorrigering och de novo-sammansättning av enmolekylära sekvensläsningar
Författarna till denna studie utvecklade en korrigeringsalgoritm som kallas PacBio corrected Reads (PBcR) algoritmen som är implementerad som en del av Celera monteringsprogrammet. Denna algoritm beräknar en exakt hybridkonsensussekvens genom att kartlägga korta avläsningar med högre noggrannhet (från andra generationens sekvenseringsteknologier) till individuella långa avläsningar med lägre noggrannhet (från tredje generationens sekvenseringsteknologier ). Denna mappning möjliggör trimning och korrigering av de långa läsningarna för att förbättra läsnoggrannheten från så låg som 80 % till över 99,9 %. I det bästa exemplet på denna applikation från denna uppsats femdubblades kontigstorleken jämfört med sammansättningarna som endast använde andra generationens läsningar.
Denna studie erbjuder en förbättring jämfört med de typiska programmen och algoritmerna som används för att sammanställa okorrigerade PacBio-läsningar. ALLPATHS-LG (ett annat program som kan montera PacBio-avläsningar) använder de okorrigerade PacBio-läsningarna för att hjälpa till vid byggnadsställningar och för att täppa till luckor i kortsekvenssammansättningar. På grund av beräkningsbegränsningar begränsar detta tillvägagångssätt montering till relativt små genom (maximalt 10 Mbp). PBcR-algoritmen möjliggör sammansättning av mycket större genom med högre trohet och med okorrigerade PacBio-läsningar.
Denna studie visar också att användning av en lägre täckning av korrigerade långa läsningar liknar att använda en högre täckning för kortare läsningar; 13x PBcR-data (korrigerad med 50x Illumina-data) var jämförbar med en sammansättning konstruerad med hjälp av 100x parade Illumina-läsningar. N50 för de korrigerade PBcR-data var också längre än Illumina-data (4,65 MBp jämfört med 3,32 Mbp för Illumina-avläsningarna) . En liknande trend sågs i sekvenseringen av Escherichia coli JM221-genomet: en 25x PBcR-enhet hade en N50-trippel av 50x 454-samling.
Automatiserad efterbehandling av bakteriegenom
Denna studie använde två olika metoder för montering av hybridgenom: en byggnadsställningsmetod som kompletterade för närvarande tillgängliga sekvenserade kontiger med PacBio-läsningar, såväl som en felkorrigeringsmetod för att förbättra sammansättningen av bakteriegenom. Det första tillvägagångssättet i denna studie började med högkvalitativa contigs konstruerade från sekvenseringsläsningar från andra generationens (Illumina och 454) teknologi. Dessa kontiger kompletterades genom att anpassa dem till PacBio långa läsningar för att uppnå linjära ställningar som fylldes mellanrum med PacBio långa läsningar. Dessa byggnadsställningar kompletterades sedan igen, men med hjälp av PacBio stroboskopläsningar (flera delläsningar från ett enda sammanhängande DNA-fragment) för att uppnå en slutlig sammansättning av hög kvalitet. Detta tillvägagångssätt användes för att sekvensera genomet av en stam av Vibrio cholerae som var ansvarig för ett kolerautbrott i Haiti .
Denna studie använde också en hybrid metod för felkorrigering av PacBio-sekvensdata. Detta gjordes genom att använda korta läsningar från Illumina med hög täckning för att korrigera fel i PacBio-läsningarna med låg täckning. BLASR (en long read aligner från PacBio) användes i denna process. I områden där Illumina-avläsningarna kunde kartläggas, konstruerades en konsensussekvens med användning av överlappande läsningar i den regionen.
Ett område av genomet där användningen av de långa PacBio-läsningarna var särskilt användbart var det ribosomala operonet. Denna region är vanligtvis större än 5 kb i storlek och förekommer sju gånger genom genomet med en genomsnittlig identitet som sträcker sig från 98,04 % till 99,94 %. Att lösa dessa regioner med endast korta andra generationens läsningar skulle vara mycket svårt men användningen av långa tredje generationens läsningar gör processen mycket effektivare. Användning av PacBio-läsningarna möjliggjorde entydig placering av komplexet som upprepades längs ställningen.
Använder endast korta läsningar
Denna studie använder en hybridgenommonteringsmetod som endast använder sekvenseringsläsningar genererade med SOLiD-sekvensering (en andra generationens sekvenseringsteknologi). Genomet av C. pseudotuberculosis sammansattes två gånger: en gång med en klassisk referensgenommetsmetod och en gång med en hybridmetod. Hybridmetoden bestod av tre sammanhängande steg. För det första genererades contigs de novo, för det andra ordnades och sammanlänkades contigs till supercontigs, och för det tredje stängdes luckorna mellan contigs med ett iterativt tillvägagångssätt. Den första de novo-monteringen av contigs uppnåddes parallellt med Velvet, som sätter samman contigs genom att manipulera De Bruijn-grafer, och Edena, som är en OLC-baserad assembler
Att jämföra sammansättningen konstruerad med hybridmetoden med sammansättningen skapad med den traditionella referensgenommetoden visade att med tillgången på ett referensgenom är det mer fördelaktigt att använda en hybrid de novo-sammansättningsstrategi eftersom den bevarar fler genomsekvenser.
Använder korta och långa läsningar med hög genomströmning
Författarna till denna artikel presenterar Cerulean, ett hybridgenomsamlingsprogram som skiljer sig från traditionella hybridsammansättningsmetoder. Normalt involverade hybridsammansättning kartläggning av korta läsningar av hög kvalitet till långa läsningar av låg kvalitet, men detta introducerar fortfarande fel i de sammansatta genomen. Denna process är också beräkningsmässigt dyr och kräver en stor mängd körtid, även för relativt små bakteriegenom.
Cerulean, till skillnad från andra hybridsammansättningsmetoder, använder inte de korta läsningarna direkt, istället använder den en sammansättningsgraf som skapas på ett liknande sätt som OLC-metoden eller De Bruijn-metoden. Den här grafen används för att sätta samman en skelettgraf, som endast använder långa kontiger där kanterna på grafen representerar den förmodade genomiska kopplingen mellan contigs. Skelettgrafen är en förenklad version av en typisk De Bruijn-graf, vilket innebär att entydig montering med hjälp av skelettgrafen är mer fördelaktigt än traditionella metoder.
Denna metod testades genom att sammanställa genomet av en ''Escherichia coli''-stam. Först sammanställdes korta läsningar med hjälp av ABySS assembler. Dessa avläsningar mappades sedan till de långa avläsningarna med BLASR. Resultaten från ABySS-sammansättningen användes för att skapa sammansättningsgrafen, som användes för att generera ställningar med hjälp av filtrerad BLASR-data. Fördelarna med cerulean är att det kräver minimala resurser och resulterar i sammansatta ställningar med hög noggrannhet. Dessa egenskaper gör den bättre lämpad för uppskalning att användas på större eukaryota genom, men effektiviteten av cerulean när den appliceras på större genom återstår att verifiera.
Framtidsutsikter
De nuvarande utmaningarna inom genomsammansättning är relaterade till begränsningen av modern sekvenseringsteknik. Framsteg inom sekvenseringsteknik syftar till att utveckla system som kan producera långa sekvensläsningar med mycket hög tillförlitlighet, men vid denna tidpunkt utesluter dessa två saker varandra. Tillkomsten av tredje generationens sekvenseringsteknologi vidgar gränserna för genomisk forskning eftersom kostnaden för att generera högkvalitativ sekvenseringsdata minskar.
Idén om att använda flera sekvenseringsteknologier för att underlätta sammansättning av genom kan bli en idé från det förflutna när kvaliteten på långa sekvenseringsläsningar (hundratals eller tusentals baspar) närmar sig och överträffar kvaliteten på nuvarande andra generationens sekvenseringsläsningar. De beräkningssvårigheter som uppstår under genommontering kommer också att bli ett begrepp från det förflutna när beräkningseffektiviteten och prestanda ökar. Utvecklingen av mer effektiva sekvenseringsalgoritmer och assembleringsprogram behövs för att utveckla mer effektiva assemblermetoder som kan inkorporera sekvensläsningar från flera teknologier.
Många av de nuvarande begränsningarna inom genomisk forskning kretsar kring förmågan att producera stora mängder högkvalitativ sekvenseringsdata och att sammanställa hela genom av organismer av intresse. Att utveckla mer effektiva hybridgenomsammansättningsstrategier tar nästa steg i att avancera sekvensmonteringsteknologi och dessa strategier kommer garanterat att bli mer effektiva när mer kraftfulla teknologier dyker upp.
externa länkar
Hybridfelkorrigering och De Novo-sammansättning av sekvensläsningar med en molekyl
Virtuell affisch: Hybrid Genome Assembly of a Nocturnal Lemur
National Center for Biotechnology Information: Genome Assembly