Tryck val
Vid screening med hög genomströmning (HTS) är ett av huvudmålen att välja föreningar (inklusive små molekyler , siRNA , shRNA , gener , et al.) med en önskad storlek på hämnings- eller aktiveringseffekter. En förening med önskad storlek på effekter i en HTS-skärm kallas en träff. Processen att välja träffar kallas träffval .
Metoder för träffval i allmänhet
HTS-experiment har förmågan att snabbt screena tiotusentals (eller till och med miljoner) föreningar. Därför är det en utmaning att få fram kemisk/biokemisk betydelse från högar av data i processen för träffval. För att möta denna utmaning har lämpliga analysmetoder antagits för träffval. Det finns två huvudstrategier för att välja träffar med stora effekter. En är att använda vissa mätvärden för att rangordna och/eller klassificera föreningarna efter deras effekter och sedan välja det största antalet potenta föreningar som är praktiskt för valideringsanalyser . Den andra strategin är att testa om en substans har effekter som är tillräckligt starka för att nå en förinställd nivå. I denna strategi måste falsk-negativa frekvenser (FNR) och/eller falska positiva frekvenser (FPR) kontrolleras.
Det finns två huvudtyper av HTS-experiment, en utan replikat (vanligtvis i primära skärmar) och en med replikat (vanligtvis i bekräftande skärmar). De analytiska metoderna för träffval skiljer sig åt i dessa två typer av HTS-experiment. Till exempel är z-score-metoden lämplig för skärmar utan replikat medan t-statistiken är lämplig för skärmar med replikat. Beräkningen av SSMD för skärmar utan replikat skiljer sig också från den för skärmar med replikat.
Skärmar utan replikat
Det finns många mätvärden som används för träffval på primära skärmar utan replikat. De lätttolkbara är veckförändring, medelskillnad, procentuell hämning och procentuell aktivitet. Den gemensamma nackdelen för alla dessa mätvärden är dock att de inte fångar datavariabilitet effektivt. För att lösa detta problem vände sig forskarna sedan till z-score-metoden eller SSMD , som kan fånga datavariabilitet i negativa referenser.
Z-scoremetoden bygger på antagandet att de uppmätta värdena (vanligtvis fluorescerande intensitet i log-skala) för alla undersökta föreningar i en platta har en normalfördelning. SSMD fungerar också bäst under normalitetsantagandet. Men sanna träffar med stora effekter bör bete sig mycket annorlunda än majoriteten av föreningarna och är därför extremvärden. Starka analysartefakter kan också uppträda som extremvärden. Därför är extremvärden inte ovanliga i HTS-experiment. De vanliga versionerna av z-score och SSMD är känsliga för extremvärden och kan vara problematiska. Följaktligen har robusta metoder såsom z*-poängmetoden, SSMD *, B-poängmetoden och kvantilbaserad metod föreslagits och antagits för träffval i primära skärmar utan replikat.
I en primär screening utan replikat mäts varje förening endast en gång. Följaktligen kan vi inte direkt uppskatta datavariabiliteten för varje förening. Istället uppskattar vi indirekt datavariabilitet genom att göra ett starkt antagande att varje förening har samma variabilitet som en negativ referens i en platta i skärmen. Z-poängen, z*-poängen och B-poängen bygger på detta starka antagande; så är SSMD och SSMD* för fall utan replikat.
Skärmar med replikat
I en skärm med replikat kan vi direkt uppskatta datavariabilitet för varje förening, och därmed kan vi använda mer kraftfulla metoder, såsom SSMD för fall med replikat och t-statistik som inte förlitar sig på det starka antagandet att z-poängen och z*-poäng lita på. En fråga med användningen av t-statistik och tillhörande p-värden är att de påverkas av både urvalsstorlek och effektstorlek. De kommer från testning för ingen större skillnad, och är därför inte utformade för att mäta storleken på små molekyler eller siRNA-effekter. För träffval är det största intresset storleken på effekten i en testad liten molekyl eller siRNA . SSMD bedömer direkt storleken på effekter. SSMD har också visat sig vara bättre än andra vanliga effektstorlekar. Populationsvärdet för SSMD är jämförbart över experiment och därför kan vi använda samma cutoff för populationsvärdet för SSMD för att mäta storleken på siRNA-effekter.
SSMD kan övervinna nackdelen med att genomsnittlig veckändring inte kan fånga datavariabilitet. Å andra sidan, eftersom SSMD är förhållandet mellan medelvärde och standardavvikelse, kan vi få ett stort SSMD-värde när standardavvikelsen är mycket liten, även om medelvärdet är litet. I vissa fall kan ett för litet medelvärde inte ha någon biologisk påverkan. Som sådana kan föreningar med stora SSMD-värden (eller differentiering) men för små medelvärden inte vara av intresse. Konceptet med dubbla ficklampor har föreslagits för att lösa detta problem. I en dual-flashlight plot plottar vi SSMD kontra genomsnittlig log fold-ändring (eller genomsnittlig procentuell hämning/aktivering) på y- respektive x-axlarna för alla föreningar som undersökts i ett experiment. Med plotten med dubbla ficklampor kan vi se hur generna eller föreningarna är fördelade i varje kategori i effektstorlekar, som visas i figuren. Under tiden kan vi också se den genomsnittliga veckförändringen för varje förening.
Se även
Vidare läsning
- Zhang XHD (2011) "Optimal High-Throughput Screening: Practical Experimental Design and Data Analysis for Genome-scale RNAi Research, Cambridge University Press"