MA tomt
Inom beräkningsbiologi är en MA-plot en tillämpning av en Bland–Altman-plot för visuell representation av genomiska data. Diagrammet visualiserar skillnaderna mellan mätningar tagna i två prover, genom att transformera data till M (log ratio) och A ( medelmedelvärde ) skalor och sedan plotta dessa värden. Även om det ursprungligen tillämpades i samband med tvåkanals DNA- mikroarraygenexpressionsdata, används MA-plots också för att visualisera sekvenseringsanalys med hög genomströmning .
Förklaring
Mikroarraydata normaliseras ofta inom matriser för att kontrollera för systematiska fördomar i färgkopplings- och hybridiseringseffektivitet, såväl som andra tekniska fördomar i DNA-sonderna och utskriftsspetsen som används för att upptäcka matrisen. Genom att minimera dessa systematiska variationer kan verkliga biologiska skillnader hittas. För att avgöra om normalisering behövs kan man plotta Cy5 (R) intensiteter mot Cy3 (G) intensiteter och se om linjens lutning är runt 1. En förbättrad metod, som i grunden är en skalad, 45 graders rotation av R vs. G-plot är en MA-plot. MA-plotten är en kurva över fördelningen av det röda/gröna intensitetsförhållandet ('M') avsatt med medelintensiteten ('A'). M och A definieras av följande ekvationer.
M är därför den binära logaritmen för intensitetsförhållandet (eller skillnaden mellan log-intensiteter) och A är den genomsnittliga logaritmen för en punkt i diagrammet. MA-plots används sedan för att visualisera intensitetsberoende förhållande mellan rå mikroarraydata (mikroarrayer visar vanligtvis en bias här, med högre A som resulterar i högre |M|, dvs ju ljusare fläcken är desto mer sannolikt är en observerad skillnad mellan prov och kontroll). MA-plotten placerar variabeln M på y -axeln och A på x -axeln och ger en snabb överblick över fördelningen av data.
I många mikroarray-genexpressionsexperiment är ett underliggande antagande att de flesta av generna inte skulle se någon förändring i sitt uttryck; därför skulle majoriteten av punkterna på y -axeln ( M ) vara belägna vid 0, eftersom log(1) är 0. Om så inte är fallet bör en normaliseringsmetod som LOESS tillämpas på data före Statistisk analys. (På diagrammet nedan ser du den röda linjen som löper under nollmarkeringen före normalisering, den ska vara rak. Eftersom den inte är rak bör data normaliseras. Efter att ha normaliserats är den röda linjen rak på nolllinjen och visas som rosa/svart.)
Paket
Flera Bioconductor -paket, för R-programvaran , tillhandahåller möjligheten att skapa MA-plots. Dessa inkluderar affy (ma.plot, mva.pairs), limma (plotMA), marray (maPlot) och edgeR(maPlot)
Liknande "RA"-diagram kan genereras med hjälp av raPlot-funktionen i caroline CRAN R -paketet.
En interaktiv MA-plot för att filtrera gener efter M-, A- och p-värden, söka efter namn eller med ett lasso och spara utvalda gener, finns tillgänglig som en R-Shiny-kod Enhanced-MA- Plot .
Exempel i programmeringsspråket R
bibliotek ( affy ) if ( kräver ( affydata )) { data ( Dilution ) } y <- ( exprs ( Dilution )[, c ( "20B" , "10A" )]) x11 () ma.plot ( rowMeans ( log2 ( y )), log2 ( y [, 1 ]) - log2 ( y [, 2 ]), cex = 1 ) title ( "Dilutions Dataset (array 20B v 10A)" ) bibliotek ( preprocessCore ) # gör en kvantilnormalisering x < - normalize.quantiles ( y ) x11 () ma.plot ( rowMeans ( log2 ( x )), log2 ( x [, 1 ]) - log2 ( x [, 2 ]), cex = 1 ) title ( "Post Norm: Spädningsdatauppsättning (array 20B v 10A)" )
Se även
- ^ Robinson MD; McCarthy, DJ; Smyth, GK (11 november 2009). "edgeR: ett Bioconductor-paket för differentiell uttrycksanalys av digitala genuttrycksdata" . Bioinformatik . 26 (1): 139–140. doi : 10.1093/bioinformatics/btp616 . PMC 2796818 . PMID 19910308 .
- ^ Kärlek, Michael I; Huber, Wolfgang; Anders, Simon (5 december 2014). "Modererad uppskattning av veckförändring och dispersion för RNA-seq-data med DESeq2" . Genombiologi . 15 (12): 550. doi : 10.1186/s13059-014-0550-8 . PMC 4302049 . PMID 25516281 .
- ^ YH Yang , S Dudoit , P Luu, DM Lin, V Peng, J Ngai, TP Speed . (2002). Normalisering för cDNA-mikroarraydata: en robust sammansatt metod som adresserar systematisk variation av en och flera bilder. Nucleic Acids Research vol. 30 (4) s. e15.
- ^ Dudoit, S , Yang, YH , Callow, MJ, Speed, TP . (2002). Statistiska metoder för att identifiera differentiellt uttryckta gener i replikerade cDNA-mikroarrayexperiment. Statistik. Synd. 12:1 111–139