Metatranskriptomik

Metatranscriptomics är den uppsättning tekniker som används för att studera genuttryck av mikrober i naturliga miljöer, dvs metatranskriptomet.

Medan metagenomics fokuserar på att studera det genomiska innehållet och på att identifiera vilka mikrober som finns inom en gemenskap, kan metatranscriptomics användas för att studera mångfalden av de aktiva generna inom en sådan gemenskap, för att kvantifiera deras uttrycksnivåer och för att övervaka hur dessa nivåer förändras under olika förhållanden (t.ex. fysiologiska vs. patologiska tillstånd i en organism). Fördelen med metatranscriptomics är att den kan ge information om skillnader i aktiva funktioner hos mikrobiella samhällen som annars skulle tyckas ha liknande sammansättning.

Introduktion

Mikrobiomet har definierats som ett mikrobiellt samhälle som upptar en väldefinierad livsmiljö . Dessa samhällen är allestädes närvarande och kan spela en nyckelroll för att upprätthålla egenskaperna hos deras miljö, och en obalans i dessa samhällen kan negativt påverka aktiviteterna i den miljö där de bor. För att studera dessa samhällen, och för att sedan fastställa deras inverkan och korrelation med deras nisch, har olika omics- metoder använts. Medan metagenomik kan hjälpa forskare att skapa en taxonomisk profil av provet, ger metatrascriptomics en funktionell profil genom att analysera vilka gener som uttrycks av samhället. Det är möjligt att härleda vilka gener som uttrycks under specifika förhållanden, och detta kan göras med hjälp av funktionella anteckningar av uttryckta gener.

Fungera

Eftersom metatranscriptomics fokuserar på vilka gener som uttrycks, möjliggör det karakterisering av den aktiva funktionella profilen för hela mikrobiella samhället. Översikten av genuttrycket i ett givet prov erhålls genom att fånga mikrobiomets totala mRNA och utföra helmetatranskriptomisk hagelgevärssekvensering .

Verktyg och tekniker

Även om mikroarrayer kan utnyttjas för att bestämma genuttrycksprofilerna för vissa modellorganismer, är nästa generations sekvensering och tredje generationens sekvensering de föredragna teknikerna inom metatranskriptomik. Protokollet som används för att utföra en metatranskriptomanalys kan variera beroende på vilken typ av prov som behöver analyseras. Faktum är att många olika protokoll har utvecklats för att studera metatranskriptomet hos mikrobiella prover. Generellt inkluderar stegen provskörd, RNA-extraktion (olika extraktionsmetoder för olika typer av prover har rapporterats i litteraturen), mRNA-anrikning, cDNA-syntes och beredning av metatranskriptomiska bibliotek, sekvensering och databearbetning och analys. mRNA-anrikning är ett av de tekniskt mest utmanande stegen, för vilka olika strategier har föreslagits:

  • tar bort rRNA genom Ribosomal RNA-infångning
  • med användning av ett 5-3 exonukleas för att bryta ned bearbetade RNA (främst rRNA och tRNA )
  • lägga till poly(A) till mRNA genom att använda ett polyA-polymeras (i E. coli )
  • använda antikroppar för att fånga mRNA som binder till specifika proteiner

De två sista strategierna rekommenderas inte eftersom de har rapporterats vara mycket partiska.

Beräkningsanalys

En typisk pipeline för metatranskriptomanalys:

  • maps läser till ett referensgenom, eller
  • utför de novo sammansättning av läsningarna till transkriptionskontiger och superkontiger

Den första strategikartan läser till referensgenom i databaser, för att samla information som är användbar för att härleda det relativa uttrycket av de enskilda generna. Metatranskriptomiska läsningar mappas mot databaser med hjälp av justeringsverktyg, såsom Bowtie2 , BWA och BLAST . Sedan kommenteras resultaten med hjälp av resurser som GO , KEGG , COG och Swiss-Prot . Den slutliga analysen av resultaten utförs beroende på syftet med studien. En av de senaste metatranskriptomikteknikerna är stabil isotopprobing (SIP), som har använts för att hämta specifika riktade transkriptom av aeroba mikrober i sjösediment. Begränsningen av denna strategi är dess beroende av information om referensgenom i databaser.

Den andra strategin hämtar överflöd i uttrycket av de olika generna genom att sätta ihop metatranskriptomiska läsningar till längre fragment som kallas contigs med hjälp av olika program. Trinity -mjukvaran för RNA-seq , i jämförelse med andra de novo-transkriptomsammansättare, rapporterades återvinna fler fullängdstranskript över ett brett spektrum av uttrycksnivåer, med en känslighet som liknar metoder som förlitar sig på genomanpassningar. Detta är särskilt viktigt i frånvaro av ett referensgenom.

En kvantitativ pipeline för transkriptomisk analys utvecklades av Li och Dewey och kallades RSEM (RNA-Seq by Expectation Maximization). Den kan fungera som fristående programvara eller som en plug-in för Trinity. RSEM börjar med en referenstranskriptom eller sammansättning tillsammans med RNA-Seq-läsningar som genereras från provet och beräknar normaliserad transkriptomfång (vilket betyder antalet RNA-Seq-läsningar som motsvarar varje referenstranskriptom eller sammansättning).

Även om både Trinity och RSEM designades för transkriptomiska datauppsättningar (dvs. erhållna från en enda organism), kan det vara möjligt att tillämpa dem på metatranskriptomiska data (dvs. erhållna från en hel mikrobiell gemenskap).

Bioinformatik

Användningen av beräkningsanalysverktyg har blivit viktigare i takt med att DNA-sekvenseringsförmågan har vuxit, särskilt inom metagenomisk och metatranskriptomisk analys, som kan generera en enorm mängd data. Många olika bioinformatiska pipelines har utvecklats för dessa ändamål, ofta som plattformar med öppen källkod som HUManN och de nyare HUManN2, MetaTrans, SAMSA, Leimena-2013 och mOTUs2.

HUManN2

HUManN2 är en bioinformatisk pipeline designad från den tidigare HUManN-mjukvaran, som utvecklades under Human Microbiome Project (HMP), som implementerar en "tiered search"-metod. I den första nivån screenar HUManN2 DNA- eller RNA-läsningar med MetaPhlAn2 för att identifiera redan kända mikrober och konstruera en provspecifik databas genom att slå samman pangenomer av annoterade arter; i den andra nivån utför algoritmen en mappning av läsningarna mot den sammansatta pangenomdatabasen; i den tredje nivån används icke-justerade läsningar för en översatt sökning mot en proteindatabas.

MetaTrans

MetaTrans är en pipeline som utnyttjar multithreading för att förbättra effektiviteten. Data erhålls från RNA-Seq med parad ände, huvudsakligen från 16S RNA för taxonomi och mRNA för genuttrycksnivåer. Rörledningen är uppdelad i fyra huvudsteg. För det första filtreras läsningar av parade ändar i kvalitetskontrollsyften, sorteras och filtreras sedan för taxonomisk analys (genom att ta bort tRNA-sekvenser) eller funktionell analys (genom att ta bort både tRNA- och rRNA-avläsningar). För den taxonomiska analysen kartläggs sekvenser mot 16S rRNA Greengenes v13.5-databas med SOAP2, medan för funktionell analys kartläggs sekvenser mot en funktionell databas som MetaHIT-2014 alltid med hjälp av SOAP2-verktyget. Denna pipeline är mycket flexibel, eftersom den erbjuder möjligheten att använda tredjepartsverktyg och förbättra enskilda moduler så länge den allmänna strukturen bevaras.

SAMSA

Denna pipeline är utformad specifikt för metatranskriptomisk dataanalys, genom att arbeta tillsammans med MG-RAST- servern för metagenomik. Denna pipeline är enkel att använda, kräver låg teknisk förberedelse och beräkningskraft och kan appliceras på ett brett spektrum av mikrober. Först filtreras sekvenser från rå sekvenseringsdata för kvalitet och skickas sedan till MG-RAST (som utför ytterligare steg som kvalitetskontroll, genanrop, klustring av aminosyrasekvenser och användning av sBLAT på varje kluster för att detektera de bästa matchningarna). Matchningar aggregeras sedan för taxonomiska och funktionella analyser.

Leimena-2013

Denna pipeline har inget officiellt namn och brukar refereras till med den första författaren till artikeln där den beskrivs. Denna algoritm förutser implementeringen av anpassningsverktyg som BLAST och MegaBLAST. Avläsningar grupperas i grupper av identiska sekvenser och bearbetas sedan för in-silico-borttagning av tRNA- och rRNA -sekvenser. Återstående läsningar mappas sedan till NCBI-databaser med BLAST och MegaBLAST, och klassificeras sedan efter deras bitscore. Sekvenser med högre bitpoäng används för att förutsäga fylogenetiskt ursprung och funktion, och avläsningar med lägre poäng är anpassade till den mer känsliga BLASTX och kan så småningom justeras i proteindatabaser så att deras funktion kan karakteriseras.

mOTUs2

mOTUs2 -profileraren, som är baserad på väsentliga hushållsgener , är bevisligen väl lämpad för kvantifiering av basal transkriptionell aktivitet hos medlemmar i mikrobiella samhällen . [ citat behövs ] Beroende på miljöförhållanden varierar antalet transkript per cell för de flesta gener. Ett undantag från detta är hushållningsgener som uttrycks konstitutivt och med låg variabilitet under olika förhållanden. [ Citat behövs ] Således överflöd av transkript från sådana gener korrelerar starkt med överflödet av aktiva celler i ett samhälle.

Mikroarrayer

En annan metod som kan utnyttjas för metatranskriptomiska ändamål är plattsättning av mikroarrayer . I synnerhet har mikroarrayer använts för att mäta mikrobiella transkriptionsnivåer, för att detektera nya transkript och för att få information om strukturen hos mRNA (till exempel UTR-gränserna). Nyligen har det också använts för att hitta nytt regulatoriskt ncRNA. Men mikroarrayer påverkas av några fallgropar:

  • krav på sonddesign
  • låg känslighet
  • förkunskaper om genmål.

RNA-Seq kan övervinna dessa begränsningar: det kräver ingen tidigare kunskap om de genom som måste analyseras och det ger hög genomströmningsvalidering av geners förutsägelse, struktur, uttryck. Genom att kombinera de två tillvägagångssätten är det således möjligt att få en mer fullständig representation av bakteriell transkriptom.

Begränsningar

  • Med sitt dominerande överflöd minskar ribosomalt RNA kraftigt täckningen av mRNA (vanligtvis huvudfokus för transkriptomiska studier) i det totala insamlade RNA:t.
  • Extraktion av högkvalitativt RNA från vissa biologiska eller miljömässiga prover (som avföring) kan vara svårt.
  • Instabilitet av mRNA som äventyrar provets integritet även före sekvensering.
  • Experimentella problem kan påverka kvantifieringen av skillnader i uttryck mellan flera prover: De kan påverka integritet och ingående RNA, såväl som mängden rRNA som finns kvar i proverna, storlekssektionen och genmodellerna. Dessutom är molekylära bastekniker mycket benägna för artefakter.
  • Svårigheter att skilja mellan värd- och mikrobiellt RNA, även om kommersiella kit för mikrobiell anrikning finns tillgängliga. Detta kan också göras i silico om ett referensgenom är tillgängligt för värden.
  • Transkriptomreferensdatabaser är begränsade i sin täckning.
  • I allmänhet utnyttjas stora populationer av celler i metatranskriptomisk analys, så det är svårt att lösa viktiga avvikelser som kan existera mellan subpopulationer. Hög variation i patogenpopulationer visades påverka sjukdomsprogression och virulens . [ citat behövs ]
  • Både för microarray och RNA-Seq är det svårt att sätta en verklig tröskel för att klassificera gener som "uttryckta", på grund av det höga dynamiska området i genuttryck.
  • Närvaron av mRNA är inte alltid associerad med den faktiska närvaron av respektive protein.

Ansökningar

Människans tarmmikrobiom

Tarmmikrobiomet har de senaste åren blivit en viktig aktör för människors hälsa . Dess vanliga funktioner är relaterade till jäsning av svårsmälta livsmedelskomponenter, tävlingar med patogener, förstärkning av tarmbarriären, stimulering och reglering av immunsystemet. Även om mycket har lärts om mikrobiomsamhället under de senaste åren, kräver den stora mångfalden av mikroorganismer och molekyler i tarmen nya verktyg för att möjliggöra nya upptäckter. Genom att fokusera på förändringar i uttrycket av generna kan metatrascriptomics generera en mer dynamisk bild av mikrobiomets tillstånd och aktivitet än metagenomics. Det har observerats att metatranskriptomiska funktionella profiler är mer varierande än vad som kan ha räknats endast med metagenomisk information. Detta tyder på att icke-hushållsgener inte uttrycks stabilt in situ

Ett exempel på metatranskriptomisk tillämpning är i studien av tarmmikrobiomet vid inflammatorisk tarmsjukdom. Inflammatorisk tarmsjukdom (IBD) är en grupp av kroniska sjukdomar i mag-tarmkanalen som drabbar miljontals människor världen över. Flera mänskliga genetiska mutationer har kopplats till en ökad känslighet för IBD, men ytterligare faktorer behövs för att sjukdomen ska kunna utvecklas fullt ut.

När det gäller förhållandet mellan IBD och tarmmikrobiom är det känt att det finns en dysbios hos patienter med IBD men mikrobiella taxonomiska profiler kan vara mycket olika mellan patienter, vilket gör det svårt att implicera specifika mikrobiella arter eller stammar i sjukdomsdebut och progression. Dessutom uppvisar tarmmikrobiomets sammansättning en stor variation över tid bland människor, med mer uttalade variationer hos patienter med IBD. En organisms funktionella potential, vilket betyder generna och vägarna som kodas i dess genom, ger endast indirekt information om nivån eller omfattningen av aktivering av sådana funktioner. Så, mätningen av funktionell aktivitet (genuttryck) är avgörande för att förstå mekanismen för tarmmikrobiomets dysbios.

Förändringar i transkriptionell aktivitet i IBD, fastställd på rRNA-uttrycket, indikerar att vissa bakteriepopulationer är aktiva hos patienter med IBD, medan andra grupper är inaktiva eller latenta.

En metatranskriptomisk analys som mäter den funktionella aktiviteten hos tarmmikrobiomet avslöjar insikter som endast delvis kan observeras i metagenomisk funktionell potential, inklusive sjukdomslänkade observationer för IBD. Det har rapporterats att många IBD-specifika signaler är antingen mer uttalade eller endast detekterbara på RNA-nivå. Dessa förändrade uttrycksprofiler är potentiellt resultatet av förändringar i tarmmiljön hos patienter med IBD, vilket inkluderar ökade nivåer av inflammation, högre koncentrationer av syre och ett minskat slemskikt. Metatranscriptomics har fördelen av att tillåta forskare att hoppa över analysen av biokemiska produkter in situ (som slem eller syre) och möjliggör utvärdering av effekterna av miljöförändringar på mikrobiella uttrycksmönster in vivo för stora mänskliga populationer. Dessutom kan det kombineras med longitudinell provtagning för att associera modulering av aktivitet med sjukdomsprogression. Det har faktiskt visat sig att även om en viss väg kan förbli stabil över tiden på genomisk nivå, varierar motsvarande uttryck med sjukdomens svårighetsgrad. Detta tyder på att mikrobiell dysbios påverkar tarmhälsan genom förändringar i transkriptionsprogrammen i ett stabilt samhälle. På så sätt framstår metatranskriptomisk profilering som ett viktigt verktyg för att förstå mekanismerna för det förhållandet.

Vissa tekniska begränsningar av RNA-mätningarna i avföring är relaterade till det faktum att det extraherade RNA:t kan brytas ned och, om inte, representerar det fortfarande bara de organismer som finns i avföringsprovet.

Övrig

  • Riktad odling: har använts för att förstå organismers näringspreferenser för att möjliggöra framställning av ett korrekt odlingsmedium, vilket resulterar i en framgångsrik isolering av mikrober in vitro.
  • Identifiera potentiella virulensfaktorer: genom jämförande transkriptomik, för att jämföra olika transkriptionssvar från besläktade stammar eller arter efter specifika stimuli.
  • Identifiera värdspecifika biologiska processer och interaktioner För detta ändamål är det viktigt att utveckla ny teknik som gör det möjligt att samtidigt upptäcka förändringar i uttrycksnivåerna för vissa gener.

Exempel på tillämpade tekniker: Mikroarrayer: tillåter övervakning av förändringar i uttrycksnivåerna för många gener parallellt för både värd och patogen. Första mikroarray-tillvägagångssätt har visat den första globala analysen av genuttrycksförändringar i patogener såsom Vibrio cholerae , Borrelia burgdorferi , Chlamydia trachomatis , Chlamydia pneumoniae och Salmonella enterica , vilket avslöjar de strategier som används av dessa mikroorganismer för att anpassa sig till värden. Dessutom ger mikroarrayer bara de första globala insikterna om värdens medfödda immunsvar mot PAMPs , som effekterna av bakterieinfektion på uttrycket av olika värdfaktorer. Hur som helst, upptäckten genom mikroarrayer av båda organismerna samtidigt kan vara problematisk. Problem:

  • Sondval (hundratals miljoner olika sonder)
  • Korshybridisering
  • Behov av dyra chips (med rätt design; högdensitetsmatriser)
  • Kräv att patogenen och värdcellerna separeras fysiskt före genuttrycksanalys (eukaryota cellers transkriptom är större jämfört med patogenernas, så det kan hända att signalen från patogenernas RNA är dold).
  • Förlust av RNA-molekyler under lysering av eukaryota celler .

Dual RNA-Seq: denna teknik möjliggör samtidig studie av både värd- och patogentranskriptomer. Det är möjligt att övervaka uttrycket av gener vid olika tidpunkter av infektionsprocessen; på detta sätt skulle det vara möjligt att studera förändringarna i cellulära nätverk i båda organismerna med början från den första kontakten fram till manipulationen av värden (samspelsvärd-patogen).

  • Potential: Inget behov av dyra marker
  • Sondoberoende tillvägagångssätt (RNA-seq ger transkriptionsinformation utan förkunskaper om mRNA-sekvenser)
  • Hög känslighet.
  • Möjlighet att studera uttrycksnivåerna för även okända gener under olika förhållanden

Dessutom är RNA-Seq ett viktigt tillvägagångssätt för att identifiera samreglerade gener, vilket möjliggör organisationen av patogengenom till operoner . Genomannotering har faktiskt gjorts för vissa eukaryota patogener, såsom Candida albicans , Trypanosoma brucei och Plasmodium falciparum .

Trots den ökande känsligheten och djupet av sekvensering som nu är tillgänglig, finns det fortfarande få publicerade RNA-Seq-studier angående svaret från däggdjursvärdcellen på infektionen.