Enkel matchningskoefficient

Den enkla matchningskoefficienten (SMC) eller Rand-likhetskoefficienten är en statistik som används för att jämföra likheten och mångfalden av urvalsuppsättningar .

A
0 1
B 0
1

Givet två objekt, A och B, var och en med n binära attribut, definieras SMC som:

var:

är det totala antalet attribut där A och B båda har värdet 0.
är det totala antalet attribut där A och B båda har en värde på 1.
är det totala antalet attribut där attributet för A är 0 och attributet för B är 1.
är det totala antalet av attribut där attributet för A är 1 och attributet för B är 0.


Det enkla matchningsavståndet (SMD) , som mäter olikheter mellan sampeluppsättningar, ges av .

SMC är linjärt relaterat till Hamann-likhet: . Dessutom är , där är det kvadratiska euklidiska avståndet mellan de två objekten ( binära vektorer) och n är antalet attribut.


SMC är mycket lik det mer populära Jaccard-indexet . Den största skillnaden är att SMC har termen i sin täljare och nämnare, medan Jaccard-index inte har det. Således räknar SMC både ömsesidig närvaro (när ett attribut finns i båda uppsättningarna) och ömsesidig frånvaro (när ett attribut saknas i båda uppsättningarna) som matchningar och jämför det med det totala antalet attribut i universum, medan Jaccard-indexet räknar endast ömsesidig närvaro som matchningar och jämför det med antalet attribut som har valts av minst en av de två uppsättningarna.

I marknadskorganalys, till exempel, kan varukorgen med två konsumenter som vi vill jämföra bara innehålla en liten del av alla tillgängliga produkter i butiken, så SMC kommer vanligtvis att returnera mycket höga värden av likheter även när korgarna har mycket liten likhet, vilket gör Jaccard-indexet till ett lämpligare mått på likhet i det sammanhanget. Tänk till exempel på en stormarknad med 1 000 produkter och två kunder. Den första kundens korg innehåller salt och peppar och den andras korg innehåller salt och socker. I det här scenariot skulle likheten mellan de två korgarna mätt med Jaccard-index vara 1/3, men likheten blir 0,998 med SMC.

I andra sammanhang, där 0 och 1 bär ekvivalent information (symmetri), är SMC ett bättre mått på likhet. Till exempel skulle vektorer av demografiska variabler lagrade i dummyvariabler , såsom binärt kön, vara bättre jämfört med SMC än med Jaccard-index eftersom köns inverkan på likhet bör vara lika, oberoende av om man definieras som 0 och hona som 1:a eller tvärtom. Men när vi har symmetriska dummyvariabler kan man replikera beteendet hos SMC genom att dela upp dummies i två binära attribut (i detta fall manliga och kvinnliga), och på så sätt omvandla dem till asymmetriska attribut, vilket tillåter användning av Jaccard-index utan införa någon partiskhet. Genom att använda detta trick kan Jaccard-indexet anses göra SMC till ett helt redundant mått. SMC förblir dock mer beräkningseffektiv i fallet med symmetriska dummyvariabler eftersom den inte kräver tillägg av extra dimensioner.

Jaccard-indexet är också mer generellt än SMC och kan användas för att jämföra andra datatyper än bara vektorer av binära attribut, såsom sannolikhetsmått .

Se även

Anteckningar