Fowlkes–Mallows index
Fowlkes –Mallows-indexet är en extern utvärderingsmetod som används för att bestämma likheten mellan två klustringar (kluster erhållna efter en klustringsalgoritm ), och även ett mått för att mäta förvirringsmatriser . Detta mått på likhet kan vara antingen mellan två hierarkiska klustringar eller en klustring och en benchmark-klassificering. Ett högre värde för Fowlkes–Mallows-indexet indikerar en större likhet mellan klustren och benchmark-klassificeringarna. Det uppfanns av Bell Labs statistiker Edward Fowlkes och Collin Mallows 1983.
Förberedelser
Fowlkes –Mallows-indexet , när resultat av två klustringsalgoritmer används för att utvärdera resultaten, definieras som
där är antalet sanna positiva , är antalet falska positiva , och antalet falskt negativa . är den sanna positiva frekvensen , även kallad sensitivitet eller återkallelse , och är den positiva prediktiva frekvensen , även känd som precision .
Minsta möjliga värde för Fowlkes–Mallows-indexet är 0, vilket motsvarar den sämsta möjliga binära klassificeringen, där alla element har blivit felklassificerade. Och det högsta möjliga värdet på Fowlkes–Mallows-indexet är 1, vilket motsvarar den bästa möjliga binära klassificeringen, där alla element har klassificerats perfekt.
Definition
Betrakta två hierarkiska klustringar av objekt märkta och . Träden och kan kapas till kluster för varje träd (genom att antingen välja kluster på en viss höjd av trädet eller ställa in olika styrka på den hierarkiska klustringen). För varje värde på kan följande tabell skapas
där är av objekt som är gemensamma mellan e klustret av och :e klustret av . Fowlkes –Mallows-indexet för det specifika värdet av definieras sedan som
var
kan sedan beräknas för varje värde av och likheten mellan de två klustringarna kan visas genom att plotta mot . För varje har vi .
Fowlkes–Mallows index kan också definieras baserat på antalet punkter som är vanliga eller ovanliga i de två hierarkiska klustringarna. Om vi definierar
- som antalet par av punkter som finns i samma kluster i både och .
- som antalet par av punkter som finns i samma kluster i men inte i .
- som antalet par av punkter som finns i samma kluster i men inte i .
- som antalet par av punkter som finns i olika kluster i både och .
Det kan visas att de fyra räkningarna har följande egenskap
och att Fowlkes–Mallows-indexet för två klustringar kan definieras som
- där är antalet sanna positiva , är talet av falska positiva , och är antalet falska negativa .
- är den sanna positiva frekvensen , även kallad sensitivitet eller återkallelse , och är den positiva prediktiva frekvensen , även känd som precision .
- Fowlkes–Mallows-indexet är det geometriska medelvärdet av precision och återkallelse .
Diskussion
Eftersom indexet är direkt proportionellt mot antalet sanna positiva, betyder ett högre index större likhet mellan de två klustringarna som används för att bestämma indexet. Ett grundläggande sätt att testa giltigheten av detta index är att jämföra två klustringar som inte är relaterade till varandra. Fowlkes och Mallows visade att vid användning av två icke-relaterade klustringar, närmar sig värdet av detta index noll när antalet totala datapunkter som valts för klustring ökar; medan värdet för Randindex för samma data snabbt närmar sig vilket gör Fowlkes–Mallows index till en mycket mer exakt representation för orelaterade data. Detta index fungerar också bra om brus läggs till en befintlig datauppsättning och deras likhet jämförs. Fowlkes och Mallows visade att indexvärdet minskar när komponenten av bruset ökar. Indexet visade också likhet även när den bullriga datamängden hade ett annat antal kluster än klustren i den ursprungliga datamängden. Detta gör det till ett pålitligt verktyg för att mäta likhet mellan två kluster.