Batcheffekt
Inom molekylärbiologi uppstår en batcheffekt när icke-biologiska faktorer i ett experiment orsakar förändringar i data som produceras av experimentet. Sådana effekter kan leda till felaktiga slutsatser när deras orsaker är korrelerade med ett eller flera resultat av intresse i ett experiment. De är vanliga i många typer av sekvenseringsexperiment med hög genomströmning , inklusive de som använder mikroarrayer , masspektrometrar och encelliga RNA-sekvenseringsdata . De diskuteras oftast i samband med genomik och sekvenseringsforskning med hög genomströmning, men de finns också inom andra vetenskapsområden.
Definitioner
Flera definitioner av termen "satseffekt" har föreslagits i litteraturen. Lazar et al. (2013) noterade, "Att tillhandahålla en fullständig och entydig definition av den så kallade batcheffekten är en utmanande uppgift, särskilt eftersom dess ursprung och hur det manifesterar sig i data inte är helt känt eller inte registrerat." Med fokus på mikroarray-experiment föreslår de en ny definition baserad på flera tidigare: "[D]en batcheffekt representerar de systematiska tekniska skillnaderna när prover bearbetas och mäts i olika batcher och som inte är relaterade till någon biologisk variation som registrerats under MAGE [ microarray genuttryck] experiment."
Orsaker
Många potentiellt varierande faktorer har identifierats som potentiella orsaker till batcheffekter, inklusive följande:
- Laboratorieförhållanden
- Val av reagensparti eller batch
- Personalskillnader
- Tid på dygnet då experimentet utfördes
- Atmosfäriska ozonnivåer _
- Instrument som användes för att genomföra experimentet
Korrektion
Olika statistiska tekniker har utvecklats för att försöka korrigera för batcheffekter i experiment med hög genomströmning. Dessa tekniker är avsedda att användas under stadierna av experimentell design och dataanalys. De har historiskt mest fokuserat på genomikexperiment och har först nyligen börjat expandera till andra vetenskapliga områden som proteomik . Ett problem förknippat med sådana tekniker är att de oavsiktligt kan ta bort faktisk biologisk variation. Några tekniker som har använts för att upptäcka och/eller korrigera för batcheffekter inkluderar följande:
- För mikroarraydata har linjära blandade modeller använts, med störande faktorer inkluderade som slumpmässiga avlyssningar.
- År 2007, Johnson et al. föreslog en empirisk Bayesiansk teknik för att korrigera för batcheffekter. Detta tillvägagångssätt representerade en förbättring jämfört med tidigare metoder genom att det effektivt kunde användas med små batchstorlekar.
- 2012 introducerades mjukvarupaketet sva. Den innehåller flera funktioner för att justera för batcheffekter, inklusive användningen av surrogatvariabeluppskattning , som tidigare visat sig förbättra reproducerbarheten och minska beroendet i experiment med hög genomströmning.
- Haghverdi et al. (2018) föreslog en teknik designad för encellig RNA-sekv-data, baserad på detektering av ömsesidiga närmaste grannar i data.
- Papiez et al. (2019) föreslog en dynamisk programmeringsalgoritm för att identifiera batcheffekter av okänt värde i data med hög genomströmning.
- Voß et al. (2022) föreslog en algoritm som heter HarmonizR som möjliggör dataharmonisering över oberoende proteomiska datamängder med lämplig hantering av saknade värden.