Flödescytometri bioinformatik
Flödescytometribioinformatik är tillämpningen av bioinformatik på flödescytometridata , vilket innebär att lagra, hämta, organisera och analysera flödescytometridata med hjälp av omfattande beräkningsresurser och verktyg. Flödescytometri bioinformatik kräver omfattande användning av och bidrar till utvecklingen av tekniker från beräkningsstatistik och maskininlärning . Flödescytometri och relaterade metoder möjliggör kvantifiering av flera oberoende biomarkörer på ett stort antal enstaka celler . Den snabba tillväxten av flerdimensionalitet och genomströmning av flödescytometridata, särskilt under 2000-talet, har lett till skapandet av en mängd olika beräkningsmetoder, datastandarder och offentliga databaser för delning av resultat.
Det finns beräkningsmetoder för att hjälpa till med förbearbetning av flödescytometridata, identifiera cellpopulationer inom den, matcha dessa cellpopulationer över prover och utföra diagnos och upptäckt med hjälp av resultaten från tidigare steg. För förbearbetning inkluderar detta kompensation för spektral överlappning, omvandling av data till skalor som underlättar visualisering och analys, bedömning av data för kvalitet och normalisering av data över prover och experiment. För befolkningsidentifiering finns verktyg tillgängliga för att underlätta traditionell manuell identifiering av populationer i tvådimensionella spridningsdiagram (gating), för att använda dimensionsreduktion för att underlätta gating och för att automatiskt hitta populationer i högre dimensionellt utrymme på en mängd olika sätt. Det är också möjligt att karakterisera data på mer omfattande sätt, såsom den densitetsstyrda binära rymduppdelningstekniken känd som sannolikhetsbinning, eller genom kombinatorisk grindning. Slutligen kan diagnos med hjälp av flödescytometridata underlättas av övervakade inlärningstekniker och upptäckt av nya celltyper av biologisk betydelse genom statistiska metoder med hög genomströmning, som en del av pipelines som innehåller alla de ovan nämnda metoderna.
Öppna standarder , data och mjukvara är också viktiga delar av flödescytometri bioinformatik. Datastandarder inkluderar den allmänt antagna Flow Cytometry Standard (FCS) som definierar hur data från cytometrar ska lagras, men också flera nya standarder under utveckling av International Society for Advancement of Cytometry (ISAC) för att hjälpa till med att lagra mer detaljerad information om experimentell design och analytiska steg. Öppna data växer långsamt med öppnandet av CytoBank-databasen 2010 och FlowRepository 2012, som båda tillåter användare att fritt distribuera sina data, och den senare har rekommenderats som det föredragna arkivet för MIFlowCyt-kompatibel data av ISAC . Öppen programvara är mest tillgänglig i form av en svit av Bioconductor- paket, men är också tillgänglig för webbexekvering på GenePattern -plattformen.
Datainsamling
Flödescytometrar fungerar genom att hydrodynamiskt fokusera suspenderade celler så att de separeras från varandra i en vätskeström. Strömmen avfrågas av en eller flera lasrar, och det resulterande fluorescerande och spridda ljuset detekteras av fotomultiplikatorer . Genom att använda optiska filter kan särskilda fluoroforer på eller inuti cellerna kvantifieras genom toppar i deras emissionsspektra . Dessa kan vara endogena fluoroforer såsom klorofyll eller transgent grönt fluorescerande protein, eller så kan de vara artificiella fluoroforer kovalent bundna till detektionsmolekyler såsom antikroppar för att detektera proteiner , eller hybridiseringsprober för att detektera DNA eller RNA .
Förmågan att kvantifiera dessa har lett till att flödescytometri används i ett brett spektrum av tillämpningar, inklusive men inte begränsat till:
- Övervakning av CD4 -antal i HIV
- Diagnos av olika cancerformer
- Analys av vattenmikrobiomer
- Spermiesortering
- Mätning av telomerlängd
Fram till början av 2000-talet kunde flödescytometri bara mäta ett fåtal fluorescerande markörer åt gången. Under slutet av 1990-talet till mitten av 2000-talet resulterade dock snabb utveckling av nya fluoroforer i moderna instrument som kunde kvantifiera upp till 18 markörer per cell. På senare tid ersätter den nya tekniken för masscytometri fluoroforer med sällsynta jordartsmetaller som upptäcks av masspektrometri, vilket uppnår förmågan att mäta uttrycket av 34 eller fler markörer. Samtidigt mikrofluidiska qPCR -metoder en flödescytometriliknande metod för att kvantifiera 48 eller fler RNA-molekyler per cell. Den snabba ökningen av dimensionaliteten hos flödescytometridata, tillsammans med utvecklingen av robotplattformar med hög genomströmning som kan analysera hundratals till tusentals prover automatiskt, har skapat ett behov av förbättrade beräkningsmetoder för analys.
Data
Flödescytometridata är i form av en stor matris av intensiteter över M våglängder av N händelser. De flesta händelser kommer att vara en speciell cell, även om vissa kan vara dubletter (par av celler som passerar lasern tätt tillsammans). För varje händelse registreras den uppmätta fluorescensintensiteten över ett visst våglängdsområde.
Den uppmätta fluorescensintensiteten indikerar mängden av den fluoroforen i cellen, vilket indikerar mängden som har bundit till detektormolekyler såsom antikroppar. Därför kan fluorescensintensitet betraktas som en proxy för mängden detektormolekyler som finns på cellen. Ett förenklat, om inte strikt korrekt, sätt att betrakta flödescytometridata är som en matris av M mätningar gånger N celler där varje element motsvarar mängden molekyler.
Steg i beräkningsbaserad flödescytometridataanalys
Processen att gå från primära FCM-data till sjukdomsdiagnostik och upptäckt av biomarkörer innefattar fyra huvudsteg:
- Dataförbehandling (inklusive kompensation, transformation och normalisering)
- Cellpopulationsidentifiering (alias gating)
- Cellpopulationsmatchning för jämförelse av korsprov
- Att relatera cellpopulationer till externa variabler (diagnos och upptäckt)
Att spara de steg som tagits i ett särskilt flödescytometriarbetsflöde stöds av en del flödescytometriprogram och är viktigt för reproducerbarheten av flödescytometriexperiment. Men sparade arbetsytefiler är sällan utbytbara mellan program. Ett försök att lösa detta problem är utvecklingen av den Gating-ML XML -baserade datastandarden (diskuteras mer i detalj under standardavsnittet), som långsamt antas i både kommersiell och öppen källkod för flödescytometri. CytoML R-paketet fyller också luckan genom att importera/exportera Gating-ML som är kompatibel med mjukvaran FlowJo, CytoBank och FACS Diva.
Förbearbetning av data
Före analys måste flödescytometridata vanligtvis genomgå förbearbetning för att ta bort artefakter och data av dålig kvalitet, och för att omvandlas till en optimal skala för att identifiera cellpopulationer av intresse. Nedan finns olika steg i en typisk flödescytometri-förbearbetningspipeline.
Ersättning
När mer än en fluorokrom används med samma laser överlappar deras emissionsspektra ofta. Varje särskild fluorokrom mäts typiskt med användning av ett optiskt bandpassfilter inställt på ett smalt band vid eller nära fluorokromens emissionsintensitetstopp. Resultatet är att avläsningen för en given fluorokrom faktiskt är summan av den fluorokromens maximala emissionsintensitet och intensiteten för alla andra fluorokromers spektra där de överlappar det frekvensbandet. Denna överlappning kallas spillover, och processen att ta bort spillover från flödescytometridata kallas kompensation.
Kompensation åstadkoms vanligtvis genom att köra en serie representativa prover som var och en färgas för endast en fluorokrom, för att ge mätningar på bidraget från varje fluorokrom till varje kanal. Den totala signalen att ta bort från varje kanal kan beräknas genom att lösa ett system av linjära ekvationer baserat på dessa data för att producera en spillover-matris, som när den inverteras och multipliceras med rådata från cytometern producerar kompenserade data. Processerna för att beräkna spillover-matrisen, eller använda en förberäknad spillover-matris för att kompensera flödescytometridata, är standardfunktioner i flödescytometrimjukvaran.
Omvandling
Cellpopulationer som detekteras med flödescytometri beskrivs ofta som att de har ungefär log-normalt uttryck. Som sådana har de traditionellt omvandlats till en logaritmisk skala . I tidiga cytometrar åstadkoms detta ofta redan innan datainsamling med hjälp av en logförstärkare . På moderna instrument lagras data vanligtvis i linjär form och transformeras digitalt före analys.
Kompenserad flödescytometridata innehåller emellertid ofta negativa värden på grund av kompensation, och cellpopulationer förekommer som har låga medelvärden och normala fördelningar. Logaritmiska transformationer kan inte korrekt hantera negativa värden och visar dåligt normalfördelade celltyper. Alternativa transformationer som löser detta problem inkluderar de loglinjära hybridtransformationerna Logicle och Hyperlog, såväl som den hyperboliska arcsine och Box-Cox .
En jämförelse av vanliga transformationer drog slutsatsen att de biexponentiella och Box-Cox-transformationerna, när de var optimalt parametriserade, gav den tydligaste visualiseringen och minsta variansen av cellpopulationer över prover. En senare jämförelse av flowTrans-paketet som användes i den jämförelsen visade dock att det inte parametriserade logiktransformationen på ett sätt som överensstämmer med andra implementeringar, vilket potentiellt ifrågasätter dessa resultat.
Kvalitetskontroll
Särskilt i nyare experiment med hög genomströmning finns det ett behov av visualiseringsmetoder för att hjälpa till att upptäcka tekniska fel i enskilda prover. Ett tillvägagångssätt är att visualisera sammanfattande statistik, såsom de empiriska fördelningsfunktionerna för enskilda dimensioner av tekniska eller biologiska replikat för att säkerställa att de är lika. För mer rigoritet Kolmogorov-Smirnov-testet användas för att avgöra om enskilda prover avviker från normen. Grubbs test för extremvärden kan användas för att upptäcka prover som avviker från gruppen.
En metod för kvalitetskontroll i högre dimensionellt utrymme är att använda sannolikhetsbinning med bins som passar hela datamängden sammanslagna. Då standardavvikelsen för antalet celler som faller i fackarna inom varje prov tas som ett mått på flerdimensionell likhet, där prover som ligger närmare normen har en mindre standardavvikelse. Med denna metod kan högre standardavvikelse indikera extremvärden, även om detta är ett relativt mått då det absoluta värdet delvis beror på antalet fack.
Med alla dessa metoder mäts korsprovsvariationen. Detta är dock kombinationen av tekniska variationer som införs av instrumenten och hanteringen och faktisk biologisk information som man önskar mäta. Att disambiguera de tekniska och biologiska bidragen till variationen mellan proven kan vara en svår till omöjlig uppgift.
Normalisering
Speciellt i multicenterstudier kan teknisk variation göra biologiskt ekvivalenta populationer av celler svåra att matcha över prover. Normaliseringsmetoder för att ta bort teknisk varians, ofta härledda från bildregistreringstekniker , är således ett kritiskt steg i många flödescytometrianalyser. Enkelmarkörsnormalisering kan utföras med hjälp av landmärkesregistrering, där toppar i en kärndensitetsuppskattning av varje prov identifieras och anpassas över prover.
Identifiera cellpopulationer
Komplexiteten hos råa flödescytometridata (dussintals mätningar för tusentals till miljoner celler) gör det svårt att svara på frågor direkt med statistiska tester eller övervakad inlärning. Således är ett kritiskt steg i analysen av flödescytometriska data att reducera denna komplexitet till något mer lätthanterligt samtidigt som man etablerar gemensamma drag över prover. Detta involverar vanligtvis identifiering av flerdimensionella regioner som innehåller funktionellt och fenotypiskt homogena grupper av celler. Detta är en form av klusteranalys . Det finns en rad olika metoder för att uppnå detta, som beskrivs nedan.
Gating
Data som genereras av flödescytometrar kan plottas i en eller två dimensioner för att producera ett histogram eller spridningsdiagram. Regionerna på dessa plotter kan separeras sekventiellt, baserat på fluorescensintensitet, genom att skapa en serie undergruppextraktioner, kallade " gates ". Dessa grindar kan produceras med hjälp av mjukvara, t.ex. Flowjo, FCS Express, WinMDI, CytoPaint (alias Paint-A-Gate), VenturiOne, Cellcion, CellQuest Pro, Cytospec, Kaluza. eller flowCore.
I datauppsättningar med ett lågt antal dimensioner och begränsad teknisk och biologisk variabilitet i korsprov (t.ex. kliniska laboratorier), kan manuell analys av specifika cellpopulationer ge effektiva och reproducerbara resultat. Emellertid är explorativ analys av ett stort antal cellpopulationer i en högdimensionell datauppsättning inte genomförbar. Dessutom kan manuell analys i mindre kontrollerade miljöer (t.ex. tvärlaboratoriestudier) öka studiens totala felfrekvens. I en studie fungerade flera beräkningsgrindningsalgoritmer bättre än manuell analys i närvaro av viss variation. Men trots de avsevärda framstegen inom beräkningsanalys förblir manuell gating huvudlösningen för identifiering av specifika sällsynta cellpopulationer som inte är väl separerade från andra celltyper.
Portar styrs av dimensionsreduktion
Antalet spridningsdiagram som behöver undersökas ökar med kvadraten på antalet uppmätta markörer (eller snabbare eftersom vissa markörer behöver undersökas flera gånger för varje grupp av celler för att lösa högdimensionella skillnader mellan celltyper som verkar vara liknande i de flesta markörer). För att lösa detta problem huvudkomponentanalys använts för att sammanfatta de högdimensionella datamängderna med en kombination av markörer som maximerar variansen för alla datapunkter. Men PCA är en linjär metod och kan inte bevara komplexa och icke-linjära samband. På senare tid har tvådimensionella minimumspännande trädlayouter använts för att styra den manuella grindningsprocessen. Densitetsbaserad nedsampling och klustring användes för att bättre representera sällsynta populationer och kontrollera tids- och minneskomplexiteten för den minsta spännande trädkonstruktionsprocessen. Mer sofistikerade dimensionsreduktionsalgoritmer har ännu inte undersökts.
Automatiserad grind
Att utveckla beräkningsverktyg för identifiering av cellpopulationer har varit ett område för aktiv forskning först sedan 2008. Många individuella klustringsmetoder har nyligen utvecklats, inklusive modellbaserade algoritmer (t.ex. flowClust och FLAME), densitetsbaserade algoritmer (t.ex. FLOCK och SWIFT, grafbaserade tillvägagångssätt (t.ex. SamSPECTRAL) och nu senast hybrider av flera tillvägagångssätt (flowMeans och flowPeaks). Dessa algoritmer är olika vad gäller minnes- och tidskomplexitet, deras mjukvarukrav, deras förmåga att automatiskt bestämma det antal cellpopulationer som krävs, och deras känslighet och specificitet. FlowCAP-projektet (Flow Cytometry: Critical Assessment of Population Identification Methods), med aktivt deltagande från de flesta akademiska grupper med forskningsinsatser inom området, tillhandahåller ett sätt att objektivt jämföra läget i konst automatiserade analysmetoder. Andra undersökningar har också jämfört automatiserade grindverktyg på flera datamängder.
Sannolikhetsbinningsmetoder
Sannolikhetsbinning är en icke-grindande analysmetod där flödescytometridata delas upp i kvantiler på en univariat basis. Kvantilernas placering kan sedan användas för att testa för skillnader mellan prover (i variablerna som inte delas) med hjälp av chi-kvadrattestet.
Detta utökades senare till flera dimensioner i form av frekvensskillnadsgrindning, en binär rymdpartitioneringsteknik där data iterativt partitioneras längs medianen. Dessa skiljeväggar (eller lådor) är anpassade till ett kontrollprov. Sedan kan andelen celler som faller inom varje fack i testprover jämföras med kontrollprovet genom chikvadrattestet.
Slutligen använder cytometrisk fingeravtryck en variant av frekvensskillnadsstyrning för att ställa in fack och mäta för en serie prover hur många celler som faller inom varje fack. Dessa fack kan användas som grindar och användas för efterföljande analys på samma sätt som automatiserade grindmetoder.
Kombinatorisk grind
Högdimensionella klustringsalgoritmer kan ofta inte identifiera sällsynta celltyper som inte är väl separerade från andra större populationer. Att matcha dessa små cellpopulationer över flera prover är ännu mer utmanande. Vid manuell analys ger tidigare biologisk kunskap (t.ex. biologiska kontroller) vägledning för att rimligen identifiera dessa populationer. Det har dock inte varit framgångsrikt att integrera denna information i den utforskande klustringsprocessen (t.ex. som i semi-övervakat lärande ).
Ett alternativ till högdimensionell klustring är att identifiera cellpopulationer med en markör åt gången och sedan kombinera dem för att producera högre dimensionella kluster. Denna funktionalitet implementerades först i FlowJo. FlowType-algoritmen bygger på detta ramverk genom att tillåta uteslutning av markörer. Detta möjliggör utveckling av statistiska verktyg (t.ex. RchyOptimyx) som kan undersöka vikten av varje markör och utesluta högdimensionella redundanser.
Diagnos och upptäckt
Efter identifiering av cellpopulationen av intresse kan en korsprovsanalys utföras för att identifiera fenotypiska eller funktionella variationer som är korrelerade med en extern variabel (t.ex. ett kliniskt resultat). Dessa studier kan delas in i två huvudgrupper:
Diagnos
I dessa studier är målet vanligtvis att diagnostisera en sjukdom (eller en underklass av en sjukdom) genom att använda variationer i en eller flera cellpopulationer. Till exempel kan man använda flerdimensionell klustring för att identifiera en uppsättning kluster, matcha dem över alla prover och sedan använda övervakad inlärning för att konstruera en klassificerare för att förutsäga klasserna av intresse (t.ex. kan detta tillvägagångssätt användas för att förbättra noggrannheten av klassificeringen av specifika lymfomsubtyper). Alternativt kan alla celler från hela kohorten slås samman i ett enda flerdimensionellt utrymme för klustring före klassificering. Detta tillvägagångssätt är särskilt lämpligt för datauppsättningar med en stor mängd biologisk variation (där korsprovsmatchning är utmanande) men kräver att tekniska variationer kontrolleras noggrant.
Upptäckt
I en upptäcktsmiljö är målet att identifiera och beskriva cellpopulationer som är korrelerade med en extern variabel (i motsats till diagnosinställningen där målet är att kombinera prediktiva kraften hos flera celltyper för att maximera resultatens noggrannhet). I likhet med användningsfallet för diagnos kan klustermatchning i högdimensionellt utrymme användas för utforskande analys, men den beskrivande kraften i detta tillvägagångssätt är mycket begränsad, eftersom det är svårt att karakterisera och visualisera en cellpopulation i ett högdimensionellt utrymme utan först minska dimensionaliteten. Slutligen har kombinatoriska grindmetoder varit särskilt framgångsrika i utforskande analys av FCM-data. Simplified Presentation of Incredibly Complex Evaluations (SPICE) är ett mjukvarupaket som kan använda FlowJos grindfunktion för att statistiskt utvärdera ett brett spektrum av olika cellpopulationer och visualisera de som är korrelerade med det externa resultatet. flowType och RchyOptimyx (som diskuterats ovan) utökar denna teknik genom att lägga till förmågan att utforska effekten av oberoende markörer på den övergripande korrelationen med det externa resultatet. Detta möjliggör borttagning av onödiga markörer och ger en enkel visualisering av alla identifierade celltyper. I en nyligen genomförd analys av en stor (n=466) kohort av HIV+-patienter identifierade denna pipeline tre korrelat av skydd mot HIV, av vilka endast ett tidigare hade identifierats genom omfattande manuell analys av samma datauppsättning.
Dataformat och utbyte
Flödescytometri standard
Flödescytometristandard (FCS) utvecklades 1984 för att möjliggöra registrering och delning av flödescytometridata. Sedan dess har FCS blivit standardfilformatet som stöds av alla mjukvaru- och hårdvaruleverantörer för flödescytometri. FCS-specifikationen har traditionellt utvecklats och underhållits av International Society for Advancement of Cytometry (ISAC). Under åren har uppdateringar införlivats för att anpassa sig till tekniska framsteg inom både flödescytometri och datorteknik med FCS 2.0 som introducerades 1990, FCS 3.0 1997 och den senaste specifikationen FCS 3.1 2010. FCS brukade vara den enda allmänt använda filen format i flödescytometri. Nyligen har ytterligare standardfilformat utvecklats av ISAC.
netCDF
ISAC överväger att ersätta FCS med en flödescytometrispecifik version av filformatet Network Common Data Form ( netCDF). netCDF är en uppsättning fritt tillgängliga programvarubibliotek och maskinoberoende dataformat som stöder skapande, åtkomst och delning av array-orienterade vetenskapliga data. 2008 utarbetade ISAC den första versionen av netCDF-konventioner för lagring av rå flödescytometridata.
Archival Cytometry Standard (ACS)
Archival Cytometry Standard (ACS) utvecklas för att bunta data med olika komponenter som beskriver cytometriexperiment. Den fångar relationer mellan data, metadata, analysfiler och andra komponenter, och inkluderar stöd för revisionsspår, versionshantering och digitala signaturer. ACS-behållaren är baserad på ZIP-filformatet med en XML -baserad innehållsförteckning som anger relationer mellan filer i behållaren. XML Signature W3C -rekommendationen har antagits för att möjliggöra digitala signaturer av komponenter i ACS-behållaren. Ett första utkast till ACS har utformats 2007 och färdigställts 2010. Sedan dess har ACS-stöd introducerats i flera mjukvaruverktyg, inklusive FlowJo och Cytobank.
Gating-ML
Bristen på interoperabilitet mellan grindsystem har traditionellt sett varit en flaskhals som förhindrar reproducerbarhet av flödescytometridataanalys och användningen av flera analytiska verktyg. För att komma till rätta med denna brist utvecklade ISAC Gating-ML, en XML-baserad mekanism för att formellt beskriva grindar och relaterade data (skala) transformationer. Utkastet till rekommendationsversionen av Gating-ML godkändes av ISAC 2008 och det stöds delvis av verktyg som FlowJo, flowUtils, CytoML-biblioteken i R/BioConductor och FlowRepository. Den stöder rektangulära grindar, polygonportar, konvexa polytoper, ellipsoider, beslutsträd och booleska samlingar av någon av de andra typerna av grindar. Dessutom innehåller den dussintals inbyggda offentliga transformationer som har visat sig vara potentiellt användbara för visning eller analys av cytometridata. 2013 godkändes Gating-ML version 2.0 av ISAC:s Data Standards Task Force som en rekommendation. Den här nya versionen erbjuder något mindre flexibilitet när det gäller kraften i gatingbeskrivningen; men det är också betydligt lättare att implementera i mjukvaruverktyg.
Klassificeringsresultat (CLR)
Filformatet Classification Results (CLR) har utvecklats för att utbyta resultaten av manuell grindning och algoritmiska klassificeringsmetoder på ett standardsätt för att kunna rapportera och bearbeta klassificeringen. CLR är baserat i det vanliga CSV-filformatet med kolumner som motsvarar olika klasser och cellvärden som innehåller sannolikheten för att en händelse är medlem i en viss klass. Dessa fångas in som värden mellan 0 och 1. Formatets enkelhet och dess kompatibilitet med vanliga kalkylbladsverktyg har varit de viktigaste kraven för utformningen av specifikationen. Även om det ursprungligen designades för området flödescytometri, är det tillämpbart i alla domäner som behöver fånga antingen suddiga eller entydiga klassificeringar av praktiskt taget alla typer av objekt.
Offentlig data och mjukvara
Liksom inom andra bioinformatikområden har utvecklingen av nya metoder i första hand tagit formen av fri programvara med öppen källkod och flera databaser har skapats för att deponera öppen data .
AutoGate
AutoGate utför kompensation, gating, förhandsgranskning av kluster, exhaustive projection pursuit (EPP), flerdimensionell skalning och fenogram, producerar ett visuellt dendogram för att uttrycka HiD-beredskap. Det är gratis för forskare och kliniker vid akademiska, statliga och ideella institutioner.
Bioledare
Bioconductor-projektet är ett arkiv med gratis programvara med öppen källkod, mestadels skriven i programmeringsspråket R. Från och med juli 2013 innehöll Bioconductor 21 mjukvarupaket för bearbetning av flödescytometridata. Dessa paket täcker det mesta av den funktionalitet som beskrivs tidigare i den här artikeln.
Genmönster
GenePattern är en övervägande genomisk analysplattform med över 200 verktyg för analys av genuttryck, proteomik och andra data. Ett webbaserat gränssnitt ger enkel åtkomst till dessa verktyg och möjliggör skapandet av automatiserade analyspipelines som möjliggör reproducerbar forskning. Nyligen har en GenePattern Flow Cytometry Suite utvecklats för att ge avancerade verktyg för flödescytometridataanalys till experimentalister utan programmatiska färdigheter. Den innehåller närmare 40 GenePattern-flödescytometrimoduler med öppen källkod som täcker metoder från grundläggande bearbetning av flödescytometristandardfiler (dvs. FCS) till avancerade algoritmer för automatiserad identifiering av cellpopulationer, normalisering och kvalitetsbedömning. Internt utnyttjar de flesta av dessa moduler funktionalitet som utvecklats i BioConductor.
Mycket av funktionaliteten i Bioconductor-paketen för flödescytometrianalys har paketerats för användning med arbetsflödessystemet GenePattern , i form av GenePattern Flow Cytometry Suite.
FACSanadu
FACSanadu är en bärbar applikation med öppen källkod för visualisering och analys av FCS-data. Till skillnad från Bioconductor är det ett interaktivt program riktat till icke-programmerare för rutinanalys. Den stöder standard FCS-filer samt COPAS-profildata.
hema.to
hema.to är en webbtjänst för klassificering av flödescytometridata för patienter som misstänks ha lymfom. Den artificiella intelligensen i verktyget använder ett djupt konvolutionellt neuralt nätverk för att känna igen mönster av distinkta subtyper. All data och kod är öppen åtkomst. Den bearbetar rådata, vilket gör gating onödigt. För bästa prestanda på ny data krävs finjustering genom kunskapsöverföring.
Offentliga databaser
Minimiinformationen om ett flödescytometriexperiment (MIFlowCyt) kräver att all flödescytometridata som används i en publikation är tillgänglig, även om detta inte inkluderar ett krav på att de ska deponeras i en offentlig databas. Även om tidskrifterna Cytometry Part A och B, liksom alla tidskrifter från Nature Publishing Group kräver MIFlowCyt-efterlevnad, finns det fortfarande relativt lite offentligt tillgänglig flödescytometridata. Vissa ansträngningar har dock gjorts för att skapa offentliga databaser.
För det första har CytoBank, som är en komplett webbaserad datalagrings- och analysplattform för flödescytometri, gjorts tillgänglig för allmänheten i begränsad form. Med hjälp av CytoBank-kodbasen utvecklades FlowRepository 2012 med stöd av ISAC för att vara ett offentligt arkiv för flödescytometridata. FlowRepository underlättar MIFlowCyt-efterlevnad och innehöll från och med juli 2013 65 offentliga datamängder.
Datauppsättningar
Under 2012 har flödescytometrigemenskapen börjat släppa en uppsättning offentligt tillgängliga datauppsättningar. En delmängd av dessa datauppsättningar som representerar de befintliga dataanalysutmaningarna beskrivs nedan. För jämförelse med manuell gating har FlowCAP-I-projektet släppt fem datauppsättningar, manuellt gated av mänskliga analytiker, och två av dem gated av åtta oberoende analytiker. FlowCAP-II-projektet inkluderade tre datamängder för binär klassificering och rapporterade även flera algoritmer som kunde klassificera dessa prover perfekt. FlowCAP-III inkluderade två större datauppsättningar för jämförelse mot manuella grindar samt ytterligare en utmanande provklassificeringsdatauppsättning. I mars 2013 pågick fortfarande offentlig utgivning av FlowCAP-III. Datauppsättningarna som används i FlowCAP-I, II och III har antingen ett lågt antal ämnen eller parametrar. Men nyligen har flera mer komplexa kliniska datauppsättningar släppts inklusive en datauppsättning av 466 HIV-infekterade försökspersoner, som ger både 14 parameteranalyser och tillräcklig klinisk information för överlevnadsanalys.
En annan klass av datamängder är högredimensionella masscytometrianalyser. En representant för denna klass av datamängder är en studie som inkluderar analys av två benmärgsprover med mer än 30 yt- eller intracellulära markörer under ett brett utbud av olika stimuleringar. Rådata för denna datauppsättning är allmänt tillgänglig enligt beskrivningen i manuskriptet, och manuella analyser av ytmarkörerna är tillgängliga på begäran från författarna.
Öppna problem
Trots snabb utveckling inom området för flödescytometri bioinformatik återstår flera problem att lösa.
Variabilitet över flödescytometriexperiment uppstår från biologisk variation mellan prover, tekniska variationer mellan instrument som används, såväl som analysmetoder. År 2010 påpekade en grupp forskare från Stanford University och National Institutes of Health att även om teknisk variation kan förbättras genom att standardisera provhantering, instrumentuppställning och val av reagenser, kommer att lösa variationer i analysmetoder kräva liknande standardisering och beräkningsautomatisering av grindmetoder. De menade vidare att centralisering av både data och analys kan hjälpa till att minska variationen mellan experiment och jämföra resultat.
Detta upprepades av en annan grupp forskare från Pacific Biosciences och Stanford University, som föreslog att cloud computing skulle kunna möjliggöra centraliserad, standardiserad analys med hög genomströmning av flödescytometriexperiment. De betonade också att pågående utveckling och antagande av standarddataformat kan fortsätta att hjälpa till att minska variationen mellan experiment. De föreslog också att det kommer att behövas nya metoder för att modellera och sammanfatta resultat av high-throughput-analyser på sätt som kan tolkas av biologer, samt sätt att integrera storskalig flödescytometridata med annan high-throughput biologisk information, som t.ex. genuttryck , genetisk variation , metabolitnivåer och sjukdomstillstånd.