Optimal matchning
Optimal matchning är en sekvensanalysmetod som används inom samhällsvetenskap , för att bedöma olikheten mellan ordnade arrayer av tokens som vanligtvis representerar en tidsordnad sekvens av socioekonomiska tillstånd som två individer har upplevt. När sådana avstånd har beräknats för en uppsättning observationer (t.ex. individer i en kohort ) kan klassiska verktyg (som klusteranalys) användas. Metoden skräddarsyddes för samhällsvetenskap från en teknik som ursprungligen introducerades för att studera molekylärbiologiska (protein eller genetiska) sekvenser (se sekvensanpassning ). Optimal matchning använder Needleman-Wunsch-algoritmen .
Algoritm
Låt vara en sekvens av tillstånd tillhörande en ändlig uppsättning möjliga tillstånd. Låt oss beteckna sekvensutrymmet, dvs mängden av alla möjliga sekvenser av tillstånd.
Optimala matchningsalgoritmer fungerar genom att definiera enkla operatoralgebror som manipulerar sekvenser, dvs en uppsättning operatorer . I det enklaste tillvägagångssättet används en uppsättning som består av endast tre grundläggande operationer för att transformera sekvenser:
- ett tillstånd infogas i sekvensen
- ett tillstånd tas bort från sekvensen och
- ett tillstånd ersätts (ersätts) med tillstånd , .
Föreställ dig nu att en kostnad är associerad med varje operator. Med tanke på två sekvenser och är tanken att mäta kostnaden för att erhålla från med operatorer från algebra. Låt vara en sekvens av operatorer så att tillämpningen av alla operatorer för denna sekvens till den första sekvensen ger den andra sekvensen : a betecknar den sammansatta operatorn. Till denna uppsättning associerar vi kostnaden , som representerar den totala kostnaden för omvandlingen. Man bör nu tänka på att det kan finnas olika sådana sekvenser som transformerar till ; ett rimligt val är att välja den billigaste av sådana sekvenser. Vi kallar alltså distans kostnaden av den billigaste uppsättningen transformationer som gör till . Lägg märke till att per definition är icke-negativ eftersom det är summan av positiva kostnader, och trivialt om och endast om , det vill säga att det inte kostar något. Avståndsfunktionen är symmetrisk om kostnaderna för insättning och radering är lika med ; termen indelkostnad syftar vanligtvis på den gemensamma kostnaden för insättning och radering.
Med tanke på en uppsättning som endast består av de tre grundläggande operationerna som beskrivs ovan, tillfredsställer detta närhetsmått den triangulära olikheten. Transitivitet beror dock på definitionen av uppsättningen elementära operationer.
Kritik
Även om optimal matchningsteknik används i stor utsträckning inom sociologi och demografi, har sådana tekniker också sina brister. Som påpekades av flera författare (till exempel LL Wu), är huvudproblemet vid tillämpningen av optimal matchning att på lämpligt sätt definiera kostnaderna c ( .
programvara
- TDA är ett kraftfullt program som ger tillgång till några av de senaste utvecklingarna inom övergångsdataanalys.
- STATA har implementerat ett paket för att köra optimal matchningsanalys.
- TraMineR är ett R -paket med öppen källkod för att analysera och visualisera tillstånd och händelsesekvenser, inklusive optimal matchningsanalys.
Referenser och anteckningar
- ^ A. Abbott och A. Tsay, (2000) Sekvensanalys och optimala matcha metoder i sociologi: Granska och prospekt Sociologiska metoder & forskning], Vol. 29, 3-33. doi : 10.1177/0049124100029001001
- ^ LL Wu. (2000) Några kommentarer om "Sekvensanalys och optimala matchningsmetoder i sociologi: granskning och utsikter" Arkiverad 2006-10-24 på Wayback Machine Sociological Methods & Research, 29 41-64. doi : 10.1177/0049124100029001003