Maximal informationskoefficient

I statistik är den maximala informationskoefficienten ( MIC ) ett mått på styrkan av den linjära eller icke-linjära associationen mellan två variabler X och Y.

MIC tillhör den maximala informationsbaserade icke-parametriska utforskningsklassen (MINE) statistik. I en simuleringsstudie överträffade MIC vissa utvalda lågeffekttester, men farhågor har väckts angående minskad statistisk effekt vid detektering av vissa associationer i inställningar med låg urvalsstorlek jämfört med kraftfulla metoder som avståndskorrelation och Heller–Heller–Gorfine (HHG) . Jämförelser med dessa metoder, där MIC överträffades, gjordes i Simon och Tibshirani och i Gorfine, Heller och Heller. Det hävdas att MIC ungefär uppfyller en egenskap som kallas equitability vilket illustreras av utvalda simuleringsstudier. Det bevisades senare att ingen icke-trivial koefficient exakt kan tillfredsställa equitability -egenskapen enligt definitionen av Reshef et al., även om detta resultat har ifrågasatts. En del kritik av MIC tas upp av Reshef et al. i ytterligare studier publicerade på arXiv.

Översikt

Den maximala informationskoefficienten använder binning som ett sätt att tillämpa ömsesidig information på kontinuerliga slumpvariabler. Binning har använts under en tid som ett sätt att tillämpa ömsesidig information på kontinuerliga distributioner; det som MIC dessutom bidrar med är en metodik för att välja antal papperskorgar och plocka ett maximum över många möjliga rutnät.

Skälet är att bins för båda variablerna ska väljas på ett sådant sätt att den ömsesidiga informationen mellan variablerna är maximal. Detta uppnås närhelst . Sålunda, när den ömsesidiga informationen är maximal över en binning av data, bör vi förvänta oss att följande två egenskaper gäller, så mycket som möjligt av datas egen natur. För det första skulle fackarna ha ungefär samma storlek, eftersom entropierna och maximeras genom binning av lika stor storlek. Och för det andra kommer varje bin med X ungefär att motsvara en bin i Y .

Eftersom variablerna X och Y är reella tal är det nästan alltid möjligt att skapa exakt en bin för varje ( x , y ) datapunkt, och det skulle ge ett mycket högt värde på MI. För att undvika att bilda denna typ av trivial partitionering föreslår författarna av tidningen att man tar ett antal fack för X och vars produkt är relativt liten jämfört med storleken N på dataprovet . Konkret föreslår de:

I vissa fall är det möjligt att uppnå en bra överensstämmelse mellan och med siffror så låga som och , medan i andra fall kan antalet fack som krävs vara högre. Maxvärdet för bestäms av H(X), som i sin tur bestäms av antalet fack i varje axel, därför kommer det ömsesidiga informationsvärdet att vara beroende av antalet fack som väljs för varje variabel. För att jämföra ömsesidiga informationsvärden som erhållits med partitioner av olika storlekar, normaliseras det ömsesidiga informationsvärdet genom att dividera med det maximalt uppnåbara värdet för den givna partitionsstorleken. Det är värt att notera att en liknande adaptiv binning-procedur för att uppskatta ömsesidig information hade föreslagits tidigare. Entropi maximeras av enhetliga sannolikhetsfördelningar, eller i det här fallet bins med samma antal element. Dessutom minimeras gemensam entropi genom att ha en en-till-en överensstämmelse mellan fack. Om vi ​​ersätter sådana värden i formeln , vi kan se att det maximala värdet som kan uppnås av MI för ett givet par av bin counts är . Sålunda används detta värde som en normaliserande divisor för varje par av bin-räkningar.

Till sist tas det normaliserade maximala ömsesidiga informationsvärdet för olika kombinationer av och i tabellform, och det maximala värdet i tabellen väljs som värdet för statistiken .

Det är viktigt att notera att det är beräkningsmässigt omöjligt att prova alla möjliga binning-scheman som uppfyller för litet n. Därför tillämpar författarna i praktiken en heuristik som kanske eller kanske inte hittar det verkliga maximumet.

Anteckningar

  1. ^ "b"-prenumerationerna har använts för att betona att den ömsesidiga informationen beräknas med hjälp av papperskorgen