DeMix

DeMix är en statistisk metod för att dekonvolvera blandade cancertranskriptomer för att förutsäga den sannolika andelen tumör- och stromacellprover med hjälp av en linjär blandningsmodell. Den utvecklades av Ahn et al .

Demix överväger uttryckligen fyra möjliga scenarier: matchade tumör- och normala prover, med referensgener ; matchade tumör- och normala prover, utan referensgener; omatchade tumör- och normala prover, med referensgener; och omatchade tumör- och normala prover, utan referensgener.

Referensgener är en uppsättning gener för vilka uttrycksprofiler har uppskattats noggrant baserat på externa data i alla ingående vävnadstyper.

Introduktion

Fasta tumörprover som erhållits från klinisk praxis är mycket heterogena . De består av flera klonala populationer av cancerceller såväl som närliggande normala vävnader, stromala och infiltrerande immunceller . Den mycket heterogena strukturen av tumörvävnader kan komplicera eller fördomsfulla olika genomiska dataanalyser. Att ta bort heterogenitet är av stort intresse för att isolera uttrycksdata från blandade prover i silico .

Det är viktigt att uppskatta och redogöra för tumörrenheten, eller andelen cancerceller i tumörprovet före analyser. På grund av de markanta skillnaderna mellan cancer och normala celler är det möjligt att uppskatta tumörrenhet från genomisk eller epigenomisk data med hög genomströmning.

DeMix uppskattar andelen och genuttrycksprofilen från cancerceller i blandade prover. I denna metod antas det blandade provet endast bestå av två celltyper: cancerceller (utan någon känd priori-genuttrycksprofil) och normala celler (med kända genuttrycksdata, som antingen kan komma från tumörmatchade eller omatchade prover ).

DeMix utvecklades för microarray-data och visar att det var viktigt att använda rådata som indata förutsatt att den följer en log-normalfördelning som är fallet för microarray, istället för att arbeta med log-transformerad data som de flesta andra metoder gjorde. DeMix uppskattar variansen av genuttrycket i de normala proverna och använder detta i maximal sannolikhetsuppskattning för att förutsäga cancercellens genuttryck och proportioner, och använder således implicit en genspecifik vikt för varje gen.

DeMix är den första metoden att följa en linjär blandning av genuttrycksnivåer på data innan de log-transformeras. Denna metod analyserar data från heterogena tumörprover innan data log-transformeras, uppskattar individuella uttrycksnivåer i varje prov och varje gen i en omatchad design.

Metod

Låt $N_{ig}\sim LN(\mu _{N_{g}},\sigma _{N_{g}}^{2 })$ och $T_{ig}\sim LN(\mu _{T_{g}},\sigma _{T_{g}} ^{2})$ är uttrycksnivån för en gen g och prov $i$ från rena normala respektive tumörvävnader. LN representerar $log_{2}$ normalfördelningen . När det $log_{2}$ överträds bör en försämring av noggrannheten förväntas. Uttrycksnivån från tumörvävnad $T_{ig}$ observeras inte. Låt $Y_{ig}$ beteckna uttrycksnivån för ett kliniskt härlett tumörprov som observeras. Låt $\pi _{i}$ , okänd, beteckna andelen tumörvävnad i prov i { $displaystyle i}$ . De råa uppmätta data skrivs som en linjär ekvation som

Y_{ig}=\pi _{i}T_{ig}+(1-\pi _{i})N_{ ig}

Observera att $Y_{ig}$ inte följer en $log_{2}$ Normalfördelning när både $N_{ig}$ och ${\ displaystyle T_{ig}}$ följ a $log_{2}$ Normalfördelning.

Det finns huvudsakligen två steg i DeMix-metoden:

Steg 1: Givet $Y$ och fördelningen av $N$ , maximeras sannolikheten för att observera $Y$ för att söka efter $\{\pi ,\mu _{T},\sigma _{T}^{2}\}$ .

Steg 2: Givet $\pi$ och fördelningen av $T$ och $N's$ , ett individuellt par av $(T,N)$ uppskattas för varje prov och varje gen.

Dessa steg anpassas sedan till specifika datascenarier.

DeMix utvecklades med hjälp av Nelder–Mead- optimeringsproceduren som inkluderar en numerisk integration av fogdensiteten. DeMix tar ett tillvägagångssätt i två steg genom att först uppskatta $\pi _{i}$ s och sedan uppskatta medel och varianser för genuttryck baserat på ${\hat {\pi } }_{i}$ s. En gemensam modell som uppskattar alla parametrar samtidigt kommer att kunna införliva osäkerhetsmåttet för vävnadsproportionerna ytterligare. Emellertid kan uppskattningssteget från en sådan modell vara beräkningsintensivt och kanske inte lämpar sig för analys av data med hög genomströmning.

Användande

DeMix adresserar fyra datascenarier: med eller utan en referensgen och matchad eller omatchad design. Även om algoritmen kräver minst en gen som referensgen, rekommenderas det att använda minst 5 till 10 gener för att lindra den potentiella påverkan från extremvärden och för att identifiera en optimal uppsättning $\pi$ s. DeMix antar att det blandade provet består av högst två cellulära avdelningar: normal och tumör, och att fördelningsparametrarna för normala celler kan uppskattas från andra tillgängliga data. För andra situationer kan mer komplex modellering behövas.