Viktad korrelationsnätverksanalys

Weighted Correlation Network Analysis , även känd som Weighted Gene Co-expression Network Analysis (WGCNA), är en mycket använd metod för datautvinning speciellt för att studera biologiska nätverk baserat på parvisa korrelationer mellan variabler. Även om det kan appliceras på de flesta högdimensionella datamängder, har det använts mest i genomiska tillämpningar. Det tillåter en att definiera moduler (kluster), intramodulära hubbar och nätverksnoder med avseende på modulmedlemskap, att studera relationerna mellan samuttrycksmoduler och att jämföra nätverkstopologin för olika nätverk (differentiell nätverksanalys). WGCNA kan användas som en datareduktionsteknik (relaterad till oblique factor analysis ), som en klustringsmetod (fuzzy clustering), som en egenskapsvalmetod (t.ex. som genscreeningsmetod), som ett ramverk för att integrera komplementära (genomiska) data ( baserat på viktade korrelationer mellan kvantitativa variabler), och som en datautforskande teknik. Även om WGCNA innehåller traditionella datautforskande tekniker, överskrider dess intuitiva nätverksspråk och analysramverk alla standardanalystekniker. Eftersom den använder nätverksmetodik och är väl lämpad för att integrera komplementära genomiska datamängder, kan den tolkas som systembiologisk eller systemgenetisk dataanalysmetod. Genom att välja intramodulära hubbar i konsensusmoduler ger WGCNA också upphov till nätverksbaserade metaanalystekniker .

Historia

WGCNA-metoden utvecklades av Steve Horvath , en professor i human genetik vid David Geffen School of Medicine vid UCLA och av biostatistik vid UCLA Fielding School of Public Health och hans kollegor vid UCLA, och (tidigare) labbmedlemmar (särskilt Peter Langfelder, Bin Zhang, Jun Dong). Mycket av arbetet kom från samarbeten med tillämpade forskare. I synnerhet utvecklades viktade korrelationsnätverk i gemensamma diskussioner med cancerforskarna Paul Mischel , Stanley F. Nelson och neuroforskarna Daniel H. Geschwind , Michael C. Oldham (enligt erkännandeavsnittet i). Det finns en omfattande litteratur om beroendenätverk, skalfria nätverk och samuttrycksnätverk. [ citat behövs ]

Jämförelse mellan viktade och ovägda korrelationsnätverk

Ett viktat korrelationsnätverk kan tolkas som ett specialfall av ett viktat nät , beroendenätverk eller korrelationsnätverk. Viktad korrelationsnätverksanalys kan vara attraktiv av följande skäl:

  • Nätverkskonstruktionen (baserat på mjuk tröskel för korrelationskoefficienten ) bevarar den kontinuerliga naturen hos den underliggande korrelationsinformationen. Till exempel kräver viktade korrelationsnätverk som är konstruerade på basis av korrelationer mellan numeriska variabler inte valet av en hård tröskel. Dikotomisering av information och (hård) tröskel kan leda till informationsförlust.
  • Nätverkskonstruktionen ger mycket robusta resultat med avseende på olika val av den mjuka tröskeln. Däremot beror resultat baserade på ovägda nätverk, konstruerade genom tröskelvärde för ett parvis associationsmått, ofta starkt på tröskeln.
  • Viktade korrelationsnätverk underlättar en geometrisk tolkning baserad på vinkeltolkningen av korrelationen, kapitel 6 in.
  • Resulterande nätverksstatistik kan användas för att förbättra standardmetoder för datautvinning såsom klusteranalys eftersom mätningar av (o)likhet ofta kan omvandlas till viktade nätverk; se kapitel 6 i.
  • WGCNA tillhandahåller kraftfull modulbevarandestatistik som kan användas för att kvantifiera likhet med ett annat tillstånd. Även modulbevarandestatistik tillåter en att studera skillnader mellan den modulära strukturen hos nätverk.
  • Viktade nätverk och korrelationsnätverk kan ofta approximeras av "faktoriserbara" nätverk. Sådana approximationer är ofta svåra att uppnå för glesa, oviktade nätverk. Därför tillåter viktade (korrelations) nätverk en sparsam parametrisering (när det gäller moduler och modulmedlemskap) (kapitel 2, 6 i ) och.

Metod

Först definierar man ett gensamuttryckslikhetsmått som används för att definiera nätverket . Vi betecknar gensamuttryckslikhetsmåttet för ett par gener i och j med . Många samuttrycksstudier använder det absoluta värdet av korrelationen som ett osignerat samuttryckslikhetsmått,

där genuttrycksprofilerna och består av uttrycket av generna i och j över flera prover. Men att använda det absoluta värdet av korrelationen kan fördunkla biologiskt relevant information, eftersom ingen skillnad görs mellan genrepression och aktivering. Däremot i signerade nätverk återspeglar likheten mellan gener tecknet på korrelationen mellan deras uttrycksprofiler. För att definiera ett signerat samuttrycksmått mellan genuttrycksprofilerna och kan man använda en enkel transformation av korrelationen:

Som det osignerade måttet , är den signerade likheten antar ett värde mellan 0 och 1. Observera att likheten utan tecken mellan två motsatt uttryckta gener ( ) är lika med 1 medan det är lika med 0 för teckenlikheten. På liknande sätt, medan det osignerade samuttrycksmåttet för två gener med nollkorrelation förblir noll, är den signerade likheten lika med 0,5.

Därefter används en adjacency-matris (nätverk), , för att kvantifiera hur starkt gener är kopplade till varandra. definieras genom att tröskelvärda samuttryckslikhetsmatrisen . 'Hård' tröskel (dikotomisering) av likhetsmåttet resulterar i ett oviktat gensamuttrycksnätverk. Specifikt definieras en oviktad nätverksadjacency till 1 om och 0 annars. Eftersom hård tröskelvärde kodar för genkopplingar på ett binärt sätt, kan det vara känsligt för valet av tröskelvärde och resultera i förlust av information om samuttryck. Den kontinuerliga naturen hos samuttrycksinformationen kan bevaras genom att använda mjuk tröskel, vilket resulterar i ett viktat nätverk. Specifikt använder WGCNA följande effektfunktion för att bedöma deras anslutningsstyrka:

,

där effekten är den mjuka tröskelparametern. Standardvärdena och används för osignerade respektive signerade nätverk. Alternativt väljas genom att använda det skalfria topologikriteriet vilket motsvarar att välja det minsta värdet på så att ungefärlig skalfri topologi uppnås.

Eftersom är den viktade nätverksgränsen linjärt relaterad till samuttryckslikhet på en logaritmisk skala. Notera att en högeffekts omvandlar höga likheter till höga närliggande punkter, samtidigt som låga likheter skjuts mot 0. Eftersom denna mjuktröskelprocedur som tillämpas på en parvis korrelationsmatris leder till viktad närliggande matris, hänvisas den efterföljande analysen till som vägd gensamuttrycksnätverksanalys.

Ett viktigt steg i den modulcentrerade analysen är att klustera gener i nätverksmoduler med hjälp av ett nätverksnärhetsmått. Grovt sett har ett par gener en hög närhet om det är nära sammankopplat. Enligt konvention är den maximala närheten mellan två gener 1 och den minsta närheten är 0. Vanligtvis använder WGCNA det topologiska överlappningsmåttet (TOM) som närhet. som även kan definieras för viktade nätverk. TOM kombinerar närliggande två gener och anslutningsstyrkorna dessa två gener delar med andra "tredje parts" gener. TOM är ett mycket robust mått på nätverkets sammankoppling (närhet). Denna närhet används som indata för genomsnittlig länkhierarkisk klustring. Moduler definieras som grenar av det resulterande klusterträdet med den dynamiska grenavskärningsmetoden. Därefter sammanfattas generna inuti en given modul med modulen eigengene , som kan betraktas som den bästa sammanfattningen av de standardiserade modulens uttrycksdata. Modulegengenen för en given modul definieras som den första huvudkomponenten i de standardiserade uttrycksprofilerna. Eigengenes definierar robusta biomarkörer och kan användas som funktioner i komplexa maskininlärningsmodeller som Bayesianska nätverk . För att hitta moduler som relaterar till ett kliniskt drag av intresse, korreleras modulegengener med det kliniska draget av intresse, vilket ger upphov till ett egengensignifikansmått. Eigengener kan användas som funktioner i mer komplexa prediktiva modeller inklusive beslutsträd och Bayesianska nätverk. Man kan också konstruera samuttrycksnätverk mellan modulegengener (eigengennätverk), dvs nätverk vars noder är moduler. För att identifiera intramodulära navgener inuti en given modul kan man använda två typer av anslutningsmått. Den första, hänvisad till som baserat på att korrelera varje gen med respektive gen modulegengen. Den andra, hänvisad till som kIN, definieras som summan av angränsningar med avseende på modulgenerna. I praktiken är dessa två mått likvärdiga. För att testa om en modul finns bevarad i en annan datamängd kan man använda olika nätverksstatistik, t.ex. .

Ansökningar

WGCNA har använts i stor utsträckning för att analysera genuttrycksdata (dvs transkriptionsdata), t.ex. för att hitta intramodulära navgener. Som en WGCNA-studie visar att nya transkriptionsfaktorer är associerade med Bisfenol A (BPA) dosrespons.

Det används ofta som datareduktionssteg i systemgenetiska applikationer där moduler representeras av "modulegengener", t.ex. Modulegengener kan användas för att korrelera moduler med kliniska egenskaper. Egengennätverk är samuttrycksnätverk mellan modulegengener (dvs nätverk vars noder är moduler). WGCNA används i stor utsträckning i neurovetenskapliga tillämpningar, t.ex. och för att analysera genomisk data inklusive mikroarraydata , encells RNA-Seq- data DNA-metyleringsdata , miRNA-data, peptidantal och mikrobiotadata (16S rRNA-gensekvensering). Andra applikationer inkluderar hjärnavbildningsdata, t.ex. funktionell MR- data.

R mjukvarupaket

WGCNA R tillhandahåller funktioner för att utföra alla aspekter av viktad nätverksanalys (modulkonstruktion, navgenval, modulbevarandestatistik, differentiell nätverksanalys, nätverksstatistik). WGCNA-paketet är tillgängligt från Comprehensive R Archive Network (CRAN), standardförrådet för R-tilläggspaket.