Matcha betygsmetod
Match rating approach (MRA) är en fonetisk algoritm för indexering av ord genom deras uttal utvecklad av Western Airlines 1977 för indexering och jämförelse av homofona namn.
Algoritmen i sig har en enkel uppsättning kodningsregler men en mer lång rad jämförelseregler. Huvudmekanismen är likhetsjämförelsen, som beräknar antalet omatchade tecken genom att jämföra strängarna från vänster till höger och sedan från höger till vänster, och ta bort identiska tecken. Detta värde subtraheras från 6 och jämförs sedan med en minimitröskel. Minsta tröskeln definieras i tabell A och är beroende av strängarnas längd.
Det kodade namnet är känt (kanske felaktigt) som en personlig numerisk identifierare (PNI). Det kodade namnet får aldrig innehålla mer än 6 tecken.
Matchningsvärderingsmetoden fungerar bra med namn som innehåller bokstaven "y", till skillnad från den ursprungliga varianten av NYSIIS -algoritmen; till exempel matchas efternamnen "Smith" och "Smyth". MRA fungerar dock inte bra med kodade namn som skiljer sig i längd med mer än 2.
Kodningsregler
- Ta bort alla vokaler om inte vokalen börjar ordet
- Ta bort den andra konsonanten av eventuella dubbelkonsonanter
- Minska codex till 6 bokstäver genom att bara slå ihop de första 3 och sista 3 bokstäverna
Jämförelsesregler
I det här avsnittet betyder orden "sträng(ar)" och "namn(n)" "kodad(a) sträng(ar)" och "kodad(a) namn(en)".
- Om längdskillnaden mellan de kodade strängarna är 3 eller större, görs ingen likhetsjämförelse.
- Få det lägsta betygsvärdet genom att beräkna längdsumman för de kodade strängarna och använda tabell A
- Bearbeta de kodade strängarna från vänster till höger och ta bort alla identiska tecken från båda strängarna.
- Bearbeta de omatchade tecknen från höger till vänster och ta bort alla identiska tecken från båda namnen.
- Subtrahera antalet omatchade tecken från 6 i den längre strängen. Detta är likhetsbetyget.
- Om likhetsbetyget är lika med eller större än minimibetyget anses matchningen vara bra.
Lägsta tröskel
Följande tabell visar mappningen mellan minimibetyget och stränglängderna.
Summan av längder | Minsta betyg |
---|---|
≤ 4 | 5 |
4 < summa ≤ 7 | 4 |
7 < summa ≤ 11 | 3 |
= 12 | 2 |
Exempel på matchningsbetyg
Tabellen nedan visar resultatet av matchningsvärderingsmetoden för några vanliga homofona namn.
namn | MRA Codex | Minsta betyg | Likhetsjämförelsebetyg |
---|---|---|---|
Byrne | BYRN | 4 | 5 |
Boern | BRN | ||
Smed | SMTH | 3 | 5 |
Smyth | SMYTH | ||
Catherine | CTHRN | 3 | 4 |
Kathryn | KTHRYN |
Se även
- ^ Moore, GB; Kuhns, J.L.; Treffzs, J.L.; Montgomery, C A. (1 februari 1977). Åtkomst till individuella poster från personliga datafiler med hjälp av icke-unika identifierare . US National Institute of Standards and Technology. sid. 17. NIST SP - 500-2.
externa länkar
- En översikt över frågorna relaterade till användningen av personliga identifierare, HSMD, Statistics Canada
- C#-implementering: http://sounditout.codeplex.com/