Encellig transkriptomik

Single-cell transcriptomics undersöker genuttrycksnivån för individuella celler i en given population genom att samtidigt mäta RNA-koncentrationen (konventionellt endast budbärar-RNA (mRNA)) av hundratals till tusentals gener. Encellig transkriptomik gör det möjligt att reda ut heterogena cellpopulationer, rekonstruera cellulära utvecklingsvägar och modellera transkriptionsdynamik - allt tidigare maskerat i bulk-RNA-sekvensering.

Bakgrund

Utvecklingen av high-throughput RNA-sekvensering (RNA-seq) och mikroarrayer har gjort genuttrycksanalys till en rutin. RNA-analys var tidigare begränsad till att spåra individuella transkript med Northern blots eller kvantitativ PCR . Högre genomströmning och hastighet gör det möjligt för forskare att ofta karakterisera uttrycksprofilerna för populationer av tusentals celler. Data från bulkanalyser har lett till identifiering av gener differentiellt uttryckta i distinkta cellpopulationer och upptäckt av biomarkörer .

Dessa studier är begränsade eftersom de ger mätningar för hela vävnader och, som ett resultat, visar en genomsnittlig uttrycksprofil för alla ingående celler. Detta har ett par nackdelar. För det första kan olika celltyper inom samma vävnad ha distinkta roller i flercelliga organismer. De bildar ofta subpopulationer med unika transkriptionsprofiler. Korrelationer i genuttrycket av subpopulationerna kan ofta missas på grund av bristen på subpopulationsidentifiering. För det andra misslyckas bulkanalyser att identifiera om en förändring i uttrycksprofilen beror på en förändring i reglering eller sammansättning - till exempel om en celltyp uppstår för att dominera populationen. Slutligen, när ditt mål är att studera cellulär progression genom differentiering , kan genomsnittliga uttrycksprofiler bara ordna celler efter tid snarare än efter utvecklingsstadium. Följaktligen kan de inte visa trender i genuttrycksnivåer specifika för vissa stadier.

De senaste framstegen inom bioteknik möjliggör mätning av genuttryck i hundratals till tusentals enskilda celler samtidigt. Även om dessa genombrott inom transkriptomikteknologier har möjliggjort generering av encelliga transkriptomiska data, presenterade de också nya beräkningsmässiga och analytiska utmaningar. Bioinformatiker kan använda tekniker från bulk-RNA-seq för encellsdata. Ändå har många nya beräkningsmetoder behövt utformas för denna datatyp för att underlätta en fullständig och detaljerad studie av encellsuttrycksprofiler.

Experimentella steg

Det finns än så länge ingen standardiserad teknik för att generera encellsdata: alla metoder måste inkludera cellisolering från populationen, lysatbildning , amplifiering genom omvänd transkription och kvantifiering av uttrycksnivåer. Vanliga tekniker för att mäta uttryck är kvantitativ PCR eller RNA-seq.

Isolera enstaka celler

Fluorescensassisterad cellsortering arbetsflöde (FACS)

Det finns flera metoder tillgängliga för att isolera och amplifiera celler för encellsanalys. Tekniker med låg genomströmning kan isolera hundratals celler, är långsamma och möjliggör urval. Dessa metoder inkluderar:

Metoder med hög genomströmning kan snabbt isolera hundratals till tiotusentals celler. Vanliga tekniker inkluderar:

Att kombinera FACS med scRNA-seq har producerat optimerade protokoll som SORT-seq. En lista över studier som använde SORT-seq finns här. Dessutom har kombinationen av mikrofluidiska enheter med scRNA-seq optimerats i 10x Genomics-protokoll.

Kvantitativ PCR (qPCR)

För att mäta uttrycksnivån för varje transkript kan qPCR användas. Genspecifika primrar används för att amplifiera motsvarande gen som med vanlig PCR och som ett resultat erhålls data vanligtvis endast för provstorlekar på mindre än 100 gener. Inkluderingen av hushållningsgener , vars uttryck bör vara konstant under förhållandena, används för normalisering. De vanligaste hushållsgenerna inkluderar GAPDH och α- aktin , även om tillförlitligheten av normalisering genom denna process är tveksam eftersom det finns bevis för att uttrycksnivån kan variera avsevärt. Fluorescerande färgämnen används som reportermolekyler för att detektera PCR-produkten och övervaka amplifieringens fortskridande - ökningen av fluorescensintensiteten är proportionell mot amplikonkoncentrationen . En kurva över fluorescens mot cykelnummer görs och en tröskelfluorescensnivå används för att hitta cykelnummer vid vilket diagrammet når detta värde. Cykelnumret vid denna punkt är känt som tröskelcykeln (Ct) och mäts för varje gen.

Encellig RNA-sekv

RNA-sekvensexperiment

Enkelcells - RNA-seq- tekniken omvandlar en population av RNA till ett bibliotek av cDNA- fragment. Dessa fragment sekvenseras med nästa generations sekvenseringstekniker med hög genomströmning och läsningarna mappas tillbaka till referensgenomet, vilket ger en räkning av antalet läsningar som är associerade med varje gen.

Normalisering av RNA-sekv-data står för cell till cell-variation i effektiviteten av cDNA-bibliotekets bildning och sekvensering. En metod förlitar sig på användningen av externa RNA-spike-ins (RNA-sekvenser med känd sekvens och kvantitet) som läggs till i lika stora mängder till varje cellysat och används för att normalisera läsningsantalet med antalet läsningar som mappas till spike-in mRNA .

En annan kontroll använder unika molekylära identifierare (UMI)-korta DNA-sekvenser (6–10nt) som läggs till varje cDNA före amplifiering och fungerar som en streckkod för varje cDNA-molekyl. Normalisering uppnås genom att använda antalet unika UMI:er associerade med varje gen för att ta hänsyn till skillnader i amplifieringseffektivitet.

En kombination av både spike-ins, UMI och andra metoder har kombinerats för mer exakt normalisering.

Överväganden

Ett problem associerat med encellsdata uppstår i form av noll uppblåsta distributioner av genuttryck, så kallade tekniska bortfall, som är vanliga på grund av låga mRNA-koncentrationer av mindre uttryckta gener som inte fångas upp i den omvända transkriptionsprocessen. Andelen mRNA-molekyler i cellysatet som detekteras är ofta bara 10-20%.

När man använder RNA-spets-ins för normalisering görs antagandet att amplifierings- och sekvenseringseffektiviteten för det endogena och spike-in-RNA är desamma. Bevis tyder på att detta inte är fallet med tanke på grundläggande skillnader i storlek och egenskaper, såsom avsaknaden av en polyadenylerad svans i spike-ins och därför kortare längd. Dessutom antar normalisering med UMI:er att cDNA-biblioteket sekvenseras till mättnad, vilket inte alltid är fallet.

Dataanalys

Insikter baserade på encellsdataanalys förutsätter att indata är en matris av normaliserade genuttryck, genererade av tillvägagångssätten som beskrivs ovan, och kan ge möjligheter som inte kan erhållas i bulk.

Tre huvudsakliga insikter:

  1. Identifiering och karakterisering av celltyper och deras rumsliga organisation i tid
  2. Slutledning av genreglerande nätverk och deras styrka över enskilda celler
  3. Klassificering av den stokastiska komponenten av transkription

Teknikerna som beskrivs har utformats för att hjälpa till att visualisera och utforska mönster i data för att underlätta avslöjandet av dessa tre funktioner.

Klustring

K-Means-Gaussian-data
Irisdendrogram producerat med hjälp av en hierarkisk klustringsalgoritm

Clustering möjliggör bildandet av undergrupper i cellpopulationen. Celler kan klustras av sin transkriptomiska profil för att analysera subpopulationsstrukturen och identifiera sällsynta celltyper eller cellsubtyper. Alternativt kan gener klustras av deras uttryckstillstånd för att identifiera samvarierande gener. En kombination av båda klustringsmetoderna, känd som biklustring , har använts för att samtidigt klustra efter gener och celler för att hitta gener som beter sig på liknande sätt inom cellkluster.

Använda klustringsmetoder kan vara K-betyder klustring , bildande av disjunkta grupper eller hierarkisk klustring , bildande av kapslade partitioner.

Biklustering

Biklustring ger flera fördelar genom att förbättra upplösningen av klustring. Gener som endast är informativa för en delmängd av celler och därför endast uttrycks där kan identifieras genom biklustring. Dessutom kan gener som beter sig på samma sätt som skiljer ett cellkluster från ett annat identifieras med denna metod.

Dimensionalitetsreduktion

PCA-exempel på Guinea och andra afrikanska populationer Y-kromosomhaplogruppfrekvenser

Dimensionalitetsreduktionsalgoritmer som Principal component Analysis (PCA) och t-SNE kan användas för att förenkla data för visualisering och mönsterdetektering genom att transformera celler från ett högdimensionellt till ett lägre dimensionellt utrymme . Resultatet av denna metod producerar grafer med varje cell som en punkt i ett 2D- eller 3D-utrymme. Dimensionalitetsreduktion används ofta före klustring eftersom celler i höga dimensioner felaktigt kan tyckas vara nära på grund av avståndsmått som beter sig icke-intuitivt.

Huvudkomponentanalys

Den mest använda tekniken är PCA, som identifierar riktningarna för huvudkomponenter med största varians och transformerar data så att den första huvudkomponenten har största möjliga varians, och successiva principkomponenter i sin tur har var och en den högsta möjliga variansen samtidigt som de förblir ortogonala mot föregående komponenter. Bidraget varje gen ger till varje komponent används för att sluta sig till vilka gener som bidrar mest till variansen i populationen och är involverade i att differentiera olika subpopulationer.

Differentiellt uttryck

Att upptäcka skillnader i genuttrycksnivå mellan två populationer används både encellig och bulk transkriptomisk data. Specialiserade metoder har utformats för encellsdata som tar hänsyn till encellsfunktioner såsom tekniska bortfall och formen på distributionen, t.ex. Bimodal vs. unimodal .

Anrikning av genontologi

Genontologitermer beskriver genfunktioner och relationerna mellan dessa funktioner i tre klasser:

  1. Molekylär funktion
  2. Cellulär komponent
  3. Biologisk process

Gene Ontology (GO) termanrikning är en teknik som används för att identifiera vilka GO-termer som är överrepresenterade eller underrepresenterade i en given uppsättning gener. I encellsanalys kan indatalista över gener av intresse väljas baserat på differentiellt uttryckta gener eller grupper av gener genererade från biklustring. Antalet gener kommenterade till en GO-term i inmatningslistan normaliseras mot antalet gener som kommenteras till en GO-term i bakgrundsuppsättningen av alla gener i genomet för att bestämma statistisk signifikans.

Pseudotemporal ordning

Graf med minimalt spännträd

Pseudo-temporal ordning (eller baninferens) är en teknik som syftar till att härleda genuttrycksdynamik från ögonblicksbild av encellsdata. Metoden försöker ordna cellerna på ett sådant sätt att liknande celler ligger tätt intill varandra. Denna bana av celler kan vara linjär, men kan också dela sig eller följa mer komplexa grafstrukturer. Banan möjliggör därför slutsatsen av genuttrycksdynamik och ordningen av celler genom deras progression genom differentiering eller svar på yttre stimuli. Metoden bygger på antagandena att cellerna följer samma väg genom processen av intresse och att deras transkriptionstillstånd korrelerar med deras progression. Algoritmen kan tillämpas på både blandade populationer och tidsprover.

Mer än 50 metoder för pseudo-temporal ordning har utvecklats, och var och en har sina egna krav på förhandsinformation (såsom startceller eller tidsförloppsdata), detekterbara topologier och metodik. Ett exempel på algoritm är Monocle-algoritmen som utför dimensionsreduktion av data, bygger ett minimalt spännträd med hjälp av den transformerade datan, ordnar celler i pseudotid genom att följa trädets längsta anslutna väg och följaktligen märker celler efter typ. Ett annat exempel är diffusionspseudotidsalgoritmen (DPT), som använder en diffusionskarta och diffusionsprocess. En annan klass av metoder såsom MARGARET använder grafpartitionering för att fånga komplexa bantopologier såsom frånkopplade och multifurkatande banor.

Nätverks slutledning

Genreglerande nätverksinferens är en teknik som syftar till att konstruera ett nätverk, visat som en graf, där noderna representerar generna och kanterna indikerar samreglerande interaktioner. Metoden bygger på antagandet att ett starkt statistiskt samband mellan uttrycket av gener är en indikation på ett potentiellt funktionellt samband. Den vanligaste metoden för att mäta styrkan i ett statistiskt samband är korrelation . Korrelation misslyckas dock med att identifiera icke-linjära samband och ömsesidig information används som ett alternativ. Genkluster kopplade i ett nätverk betyder gener som genomgår koordinerade förändringar i uttryck.

Integration

Närvaron eller styrkan hos tekniska effekter och de observerade celltyperna skiljer sig ofta åt i encelliga transkriptomiska datauppsättningar genererade med hjälp av olika experimentella protokoll och under olika förhållanden. Denna skillnad resulterar i starka batcheffekter som kan påverka resultaten av statistiska metoder som tillämpas över batcher, särskilt i närvaro av confounding . Som ett resultat av de tidigare nämnda egenskaperna hos transkriptomiska encelliga data, observerades batchkorrigeringsmetoder som utvecklats för bulksekvenseringsdata fungera dåligt. Följaktligen utvecklade forskare statistiska metoder för att korrigera för batcheffekter som är robusta för egenskaperna hos transkriptomiska data från encelliga celler för att integrera data från olika källor eller experimentella batcher. Laleh Haghverdi utförde grundläggande arbete med att formulera användningen av ömsesidigt närmaste grannar mellan varje batch för att definiera batchkorrigeringsvektorer. Med dessa vektorer kan du slå samman datauppsättningar som var och en innehåller minst en delad celltyp. Ett ortogonalt tillvägagångssätt involverar projicering av varje datauppsättning på ett delat lågdimensionellt utrymme med hjälp av kanonisk korrelationsanalys . Ömsesidiga närmaste grannar och kanonisk korrelationsanalys har också kombinerats för att definiera integrations-"ankare" som består av referensceller i en datauppsättning, till vilken frågeceller i en annan datauppsättning normaliseras.

Se även

externa länkar