Multifaktorisk dimensionalitetsreduktion
Multifactor dimensionality reduction (MDR) är ett statistiskt tillvägagångssätt, som också används i automatiska metoder för maskininlärning, för att upptäcka och karakterisera kombinationer av attribut eller oberoende variabler som interagerar för att påverka en beroende eller klassvariabel. MDR designades specifikt för att identifiera icke-additiv interaktion [ disambiguation needed ] s bland diskreta variabler som påverkar ett binärt utfall och anses vara ett icke -parametriskt och modellfritt alternativ till traditionella statistiska metoder som logistisk regression .
Grunden för MDR-metoden är en konstruktiv induktions- eller funktionsteknikalgoritm som omvandlar två eller flera variabler eller attribut till ett enda attribut. Denna process att konstruera ett nytt attribut ändrar representationsutrymmet för data. Slutmålet är att skapa eller upptäcka en representation som underlättar detekteringen av olinjära eller icke-additiva interaktioner mellan attributen så att förutsägelsen av klassvariabeln förbättras jämfört med den ursprungliga representationen av data.
Illustrativt exempel
Betrakta följande enkla exempel med funktionen exklusiv ELLER (XOR). XOR är en logisk operator som ofta används inom datautvinning och maskininlärning som ett exempel på en funktion som inte är linjärt separerbar. Tabellen nedan representerar ett enkelt dataset där förhållandet mellan attributen (X1 och X2) och klassvariabeln (Y) definieras av XOR-funktionen så att Y = X1 XOR X2.
bord 1
X1 | X2 | Y |
---|---|---|
0 | 0 | 0 |
0 | 1 | 1 |
1 | 0 | 1 |
1 | 1 | 0 |
En maskininlärningsalgoritm skulle behöva upptäcka eller approximera XOR-funktionen för att exakt förutsäga Y med hjälp av information om X1 och X2. En alternativ strategi skulle vara att först ändra representationen av data med hjälp av konstruktiv induktion för att underlätta prediktiv modellering. MDR-algoritmen skulle ändra representationen av data (X1 och X2) på följande sätt. MDR börjar med att välja två attribut. I detta enkla exempel är X1 och X2 valda. Varje kombination av värden för X1 och X2 undersöks och antalet gånger Y=1 och/eller Y=0 räknas. I detta enkla exempel förekommer Y=1 noll gånger och Y=0 inträffar en gång för kombinationen av X1=0 och X2=0. Med MDR beräknas förhållandet mellan dessa räkningar och jämförs med ett fast tröskelvärde. Här är förhållandet mellan antal 0/1 vilket är mindre än vårt fasta tröskelvärde på 1. Eftersom 0/1 < 1 kodar vi ett nytt attribut (Z) som en 0. När förhållandet är större än ett kodar vi Z som en 1. Denna process upprepas för alla unika kombinationer av värden för X1 och X2. Tabell 2 illustrerar vår nya transformation av data.
Tabell 2
Z | Y |
---|---|
0 | 0 |
1 | 1 |
1 | 1 |
0 | 0 |
Maskininlärningsalgoritmen har nu mycket mindre arbete att göra för att hitta en bra prediktiv funktion. Faktum är att i detta mycket enkla exempel har funktionen Y = Z en klassificeringsnoggrannhet på 1. En trevlig egenskap hos konstruktiva induktionsmetoder som MDR är möjligheten att använda vilken datautvinning eller maskininlärning som helst för att analysera den nya representationen av data. Beslutsträd , neurala nätverk eller en naiv Bayes-klassificerare kan användas i kombination med mått på modellkvalitet som balanserad noggrannhet och ömsesidig information.
Maskininlärning med MDR
Som illustreras ovan är den grundläggande konstruktiva induktionsalgoritmen i MDR mycket enkel. Emellertid kan dess implementering för gruvmönster från verklig data vara beräkningsmässigt komplex. Som med alla maskininlärningsalgoritmer finns det alltid oro för överanpassning . Det vill säga maskininlärningsalgoritmer är bra på att hitta mönster i helt slumpmässiga data. Det är ofta svårt att avgöra om ett rapporterat mönster är en viktig signal eller bara en slump. Ett tillvägagångssätt är att uppskatta generaliserbarheten av en modell till oberoende datauppsättningar med hjälp av metoder som korsvalidering . Modeller som beskriver slumpmässiga data generaliserar vanligtvis inte. Ett annat tillvägagångssätt är att generera många slumpmässiga permutationer av data för att se vad datautvinningsalgoritmen hittar när den ges chansen att överanpassa. Permutationstestning gör det möjligt att generera ett empiriskt p-värde för resultatet. Replikering i oberoende data kan också ge bevis för en MDR-modell men kan vara känslig för skillnader i datamängderna. Dessa tillvägagångssätt har alla visat sig vara användbara för att välja och utvärdera MDR-modeller. Ett viktigt steg i en maskininlärningsövning är tolkning. Flera metoder har använts med MDR inklusive entropianalys och väganalys. Tips och tillvägagångssätt för att använda MDR för att modellera gen-geninteraktioner har granskats.
Tillägg till MDR
Många tillägg till MDR har introducerats. Dessa inkluderar familjebaserade metoder, fuzzy metoder, kovariatjustering, oddskvoter, riskpoäng, överlevnadsmetoder, robusta metoder, metoder för kvantitativa egenskaper och många andra.
Tillämpningar av MDR
MDR har mestadels använts för att upptäcka gen-geninteraktioner eller epistas i genetiska studier av vanliga mänskliga sjukdomar som förmaksflimmer , autism , blåscancer , bröstcancer , hjärt - kärlsjukdomar, högt blodtryck , fetma , pankreascancer , prostatacancer och tuberkulos . Det har också tillämpats på andra biomedicinska problem såsom genetisk analys av farmakologiska resultat. En central utmaning är skalningen av MDR till stordata som t.ex. från genomomfattande associationsstudier (GWAS). Flera tillvägagångssätt har använts. Ett tillvägagångssätt är att filtrera funktionerna före MDR-analys. Detta kan göras med hjälp av biologisk kunskap genom verktyg som BioFilter. Det kan också göras med hjälp av beräkningsverktyg som ReliefF. Ett annat tillvägagångssätt är att använda stokastiska sökalgoritmer som genetisk programmering för att utforska sökutrymmet för funktionskombinationer. Ytterligare ett tillvägagångssätt är en brute-force-sökning med hjälp av högpresterande datorer .
Genomföranden
- www.epistasis.org tillhandahåller ett MDR-programpaket med öppen källkod och fritt tillgängligt.
- Ett R-paket för MDR.
- En sklearn-kompatibel Python-implementering .
- Ett R-paket för modellbaserad MDR.
- MDR i Weka .
- Generaliserad MDR .
Se även
- Data mining
- Dimensionalitetsreduktion
- Epistasis
- Funktionsteknik
- Maskininlärning
- Multilinjär underrumsinlärning
Vidare läsning
- Michalski, RS, "Pattern Recognition as Knowledge-Guided Computer Induction," Department of Computer Science Reports, nr 927, University of Illinois, Urbana, juni 1978.