De novo transkriptomsammansättning

De novo transcriptome assembly är de novo sekvensmonteringsmetoden för att skapa ett transkriptom utan hjälp av ett referensgenom .

Introduktion

Som ett resultat av utvecklingen av nya sekvenseringsteknologier såg åren mellan 2008 och 2012 en stor nedgång i kostnaden för sekvensering. Per megabas och genom sjönk kostnaden till 1/100 000 respektive 1/10 000 av priset. Dessförinnan sekvenserades endast transkriptomer av organismer som var av brett intresse och användbarhet för vetenskaplig forskning; Men dessa som utvecklades under 2010-talets högkapacitetssekvenseringsteknik (även kallad nästa generations sekvensering) är både kostnads- och arbetseffektiva, och utbudet av organismer som studeras med dessa metoder växer. Transkriptom har därefter skapats för kikärter , planarianer , Parhyale hawaiensis , såväl som hjärnorna hos nilkrokodilen , majsormen , den skäggiga draken och den rödörade glidaren , för att bara nämna några.

Att undersöka icke-modellorganismer kan ge nya insikter i de mekanismer som ligger bakom "mångfalden av fascinerande morfologiska innovationer" som har möjliggjort överflöd av liv på planeten jorden. Hos djur och växter inkluderar "innovationerna" som inte kan undersökas i vanliga modellorganismer mimik , mutualism , parasitism och asexuell reproduktion . De novo- transkriptomsammansättning är ofta den föredragna metoden för att studera icke-modellorganismer, eftersom det är billigare och enklare än att bygga ett genom, och referensbaserade metoder är inte möjliga utan ett befintligt genom. Transkriptomerna av dessa organismer kan således avslöja nya proteiner och deras isoformer som är inblandade i sådana unika biologiska fenomen.

De novo vs referensbaserad montering

En uppsättning sammansatta transkript möjliggör initiala genuttrycksstudier. Före utvecklingen av transkriptomsammansättningsdatorprogram analyserades transkriptomdata primärt genom kartläggning till ett referensgenom. Även om genomanpassning är ett robust sätt att karakterisera transkriptsekvenser, missgynnas denna metod av dess oförmåga att ta hänsyn till incidenter av strukturella förändringar av mRNA-transkript, såsom alternativ splitsning . Eftersom ett genom innehåller summan av alla introner och exoner som kan finnas i ett transkript, kan splitsade varianter som inte är i linje kontinuerligt längs genomet diskonteras som faktiska proteinisoformer. Även om ett referensgenom är tillgängligt de novo- montering utföras, eftersom det kan återställa transkript som transkriberas från segment av genomet som saknas från referensgenomsammansättningen.

Transkriptom kontra genomsammansättning

Till skillnad från genomsekvenstäckningsnivåer - som kan variera slumpmässigt som ett resultat av upprepat innehåll i icke-kodande intronregioner av DNA - kan transkriptomsekvenstäckningsnivåer vara direkt indikativa för genuttrycksnivåer. Dessa upprepade sekvenser skapar också tvetydigheter i bildandet av kontiger i genomsammansättning, medan tvetydigheter i transkriptomsammansättningskontiger vanligtvis motsvarar splitsade isoformer , eller mindre variation bland medlemmar av en genfamilj. Genom assembler kan inte användas direkt i transkriptomsammansättning av flera skäl. För det första är genomsekvenseringsdjupet vanligtvis detsamma över ett genom, men djupet på transkripten kan variera. För det andra är båda strängarna alltid sekvenserade i genomsekvensering, men RNA-seq kan vara strängspecifik. För det tredje är transkriptommontering mer utmanande eftersom transkriptvarianter från samma gen kan dela exoner och är svåra att lösa entydigt.

Metod

RNA-sekv

När RNA har extraherats och renats från celler skickas det till en sekvenseringsanläggning med hög genomströmning, där det först omvänt transkriberas för att skapa ett cDNA-bibliotek. Detta cDNA kan sedan fragmenteras i olika längder beroende på plattformen som används för sekvensering. Var och en av följande plattformar använder en annan typ av teknik för att sekvensera miljontals korta läsningar: 454 Sequencing , Illumina och SOLiD .

Monteringsalgoritmer

cDNA-sekvensläsningarna sätts samman till transkript via ett sammansättningsprogram för kortläst transkript. Troligtvis återspeglar vissa aminosyravariationer bland transkript som annars är lika olika proteinisoformer. Det är också möjligt att de representerar olika gener inom samma genfamilj, eller till och med gener som bara delar en konserverad domän, beroende på graden av variation.

Ett antal monteringsprogram finns tillgängliga (se Assemblers ). Även om dessa program generellt sett har varit framgångsrika vid sammansättning av genom, presenterar transkriptomsammansättning några unika utmaningar. Medan hög sekvenstäckning för ett genom kan indikera närvaron av repetitiva sekvenser (och därmed maskeras), för ett transkriptom kan de indikera överflöd. Dessutom, till skillnad från genomsekvensering, kan transkriptomsekvensering vara strängspecifik, på grund av möjligheten för både sens- och antisens- transkript. Slutligen kan det vara svårt att rekonstruera och riva isär alla skarvningsisoformer.

Kortläsningssammanställare använder vanligtvis en av två grundläggande algoritmer: överlappningsgrafer och de Bruijn-grafer. Överlappningsdiagram används för de flesta assemblers som är designade för Sanger- sekvensavläsningar. Överlappningarna mellan varje par av läsningar beräknas och kompileras till en graf, där varje nod representerar en enda sekvens som läses. Denna algoritm är mer beräkningsintensiv än de Bruijn-grafer och mest effektiv för att sammanställa färre läsningar med en hög grad av överlappning. De Bruijn-grafer anpassar k-merer (vanligtvis 25-50 bp) baserat på k-1-sekvenskonservering för att skapa kontiger. K-mererna är kortare än läslängderna, vilket möjliggör snabb hashning, så operationerna i de Bruijn-graferna är i allmänhet mindre beräkningsintensiva.

Funktionell anteckning

Funktionell annotering av de sammansatta transkripten möjliggör insikt i de särskilda molekylära funktionerna, cellulära komponenterna och biologiska processer i vilka de förmodade proteinerna är involverade. Blast2GO (B2G) möjliggör Gene Ontology- baserad datautvinning för att kommentera sekvensdata för vilka ingen GO-anteckning är tillgänglig ännu. Det är ett forskningsverktyg som ofta används i funktionell genomikforskning på icke-modellarter. Det fungerar genom att spränga sammansatta contigs mot en icke-redundant proteindatabas (vid NCBI), och sedan kommentera dem baserat på sekvenslikhet. GOanna är ett annat GO-anteckningsprogram specifikt för djur- och jordbruksväxtgenprodukter som fungerar på liknande sätt. Det är en del av AgBase-databasen med utvalda, allmänt tillgängliga svit av beräkningsverktyg för GO-kommentarer och analys. Efter annotering möjliggör KEGG (Kyoto Encyclopedia of Genes and Genomes) visualisering av metaboliska vägar och molekylära interaktionsnätverk som fångas i transkriptomet.

Förutom att vara annoterade för GO-termer, kan contigs också screenas för öppna läsramar (ORF) för att förutsäga aminosyrasekvensen för proteiner som härrör från dessa transkript. Ett annat tillvägagångssätt är att annotera proteindomäner och bestämma närvaron av genfamiljer, snarare än specifika gener.

Verifiering och kvalitetskontroll

Eftersom ett välupplöst referensgenom sällan är tillgängligt, kan kvaliteten på datormonterade contigs verifieras antingen genom att jämföra de sammansatta sekvenserna med de läsningar som används för att generera dem (referensfria), eller genom att ställa in sekvenserna av bevarade gendomäner som hittats i mRNA-transkript till transkriptom eller genom från närbesläktade arter (referensbaserad). Verktyg som Transrate och DETONATE tillåter statistisk analys av monteringskvalitet med dessa metoder. En annan metod är att designa PCR- primrar för förutsagda transkript, och sedan försöka amplifiera dem från cDNA-biblioteket. Ofta filtreras exceptionellt korta läsningar bort. Korta sekvenser (< 40 aminosyror) är osannolikt att representera funktionella proteiner, eftersom de inte kan vika sig oberoende och bilda hydrofoba kärnor.

Som komplement till dessa mått kan en kvantitativ bedömning av geninnehållet ge ytterligare insikter om kvaliteten på sammansättningen. För att utföra detta steg kan verktyg som modellerar det förväntade genutrymmet baserat på konserverade gener, såsom BUSCO, användas. För eukaryoter kan CEGMA också användas, även om det officiellt inte längre stöds sedan 2015.

Montörer

Följande är ett partiellt kompendium av monteringsmjukvara som har använts för att generera transkriptom, och som också har citerats i vetenskaplig litteratur.

SeqMan NGen

SeqMan NGen, en del av DNASTARs mjukvarupipeline, inkluderar en de novo transkriptomsammanställare för små eller stora transkriptomdatauppsättningar. SeqMan NGen använder en patenterad algoritm som använder RefSeq för att identifiera och slå samman transkript, och automatiskt kommenterar sammansatta transkript med DNASTARs patenterade transkriptannoteringsverktyg för att identifiera och markera kända och nya gener.

SOAPdenovo-Trans

SOAPdenovo-Trans är en de novo- transkriptomsamlare som ärvts från SOAPdenovo2-ramverket, designad för att montera transkriptom med alternativ splitsning och olika uttrycksnivåer. Samlaren tillhandahåller ett mer omfattande sätt att konstruera transkriptuppsättningarna i full längd jämfört med SOAPdenovo2.

Sammet/Oaser

Velvet-algoritmen använder de Bruijn-grafer för att sammanställa transkriptioner. I simuleringar kan Velvet producera kontiger upp till 50-kb N50-längd med hjälp av prokaryota data och 3-kb N50 i däggdjursbakteriella artificiella kromosomer (BAC). Dessa preliminära transkriptioner överförs till Oases , som använder parad läs- och långläst information för att bygga transkriptionsisoformer.

Trans-ABySS

ABySS är en parallell, parad sekvensmonterare. Trans-ABySS (Assembly By Short Sequences) är en mjukvarupipeline skriven i Python och Perl för att analysera ABySS-monterade transkriptomkontiger. Denna pipeline kan appliceras på sammansättningar som genereras över ett brett spektrum av k-värden. Den reducerar först datamängden till mindre uppsättningar av icke-redundanta kontiger och identifierar splitsningshändelser inklusive exon-hoppning, nya exoner, bibehållna introner, nya introner och alternativ splitsning. Trans-ABySS-algoritmerna kan också uppskatta genuttrycksnivåer, identifiera potentiella polyadenyleringsställen , såväl som kandidatgenfusionshändelser.

Treenighet

Trinity delar först upp sekvensdata i ett antal de Bruijn-grafer , som var och en representerar transkriptionsvariationer vid en enda gen eller lokus. Den extraherar sedan splitsningsisoformer i full längd och särskiljer transkript som härrör från paraloga gener från varje graf separat. Trinity består av tre oberoende mjukvarumoduler, som används sekventiellt för att producera transkript:

  • Inchworm sätter ihop RNA-Seq-data till transkriptsekvenser, ofta genererar fullängdstranskript för en dominant isoform, men rapporterar sedan bara de unika delarna av alternativt splitsade transkript.
  • Chrysalis kluster Inchworm-kontigerna och konstruerar kompletta de Bruijn-grafer för varje kluster. Varje kluster representerar den fullständiga transkriptionskomplexiteten för en given gen (eller en familj eller uppsättning gener som delar en konserverad sekvens). Chrysalis delar sedan upp hela läsuppsättningen bland dessa separata grafer.
  • Butterfly bearbetar sedan de individuella graferna parallellt, spårar vägarna för läsningar i grafen, rapporterar slutligen transkript i full längd för alternativt splitsade isoformer och plockar isär transkript som motsvarar paraloga gener.

Se även