Fonetisk algoritm
En fonetisk algoritm är en algoritm för indexering av ord efter deras uttal . De flesta fonetiska algoritmer utvecklades för engelska och är inte användbara för att indexera ord på andra språk. Eftersom engelsk stavning varierar avsevärt beroende på flera faktorer, såsom ordets ursprung och användning över tid och lån från andra språk, tar fonetiska algoritmer med nödvändighet hänsyn till många regler och undantag.
Algoritmer
Bland de mest kända fonetiska algoritmerna är:
- Soundex , som utvecklades för att koda efternamn för användning i folkräkningar. Soundex-koder är strängar med fyra tecken som består av en enda bokstav följt av tre siffror.
- Daitch–Mokotoff Soundex , som är en förfining av Soundex designad för att bättre matcha efternamn av slaviskt och germanskt ursprung. Daitch–Mokotoff Soundex-koder är strängar som består av sex numeriska siffror.
- Kölns fonetik : Detta liknar Soundex, men mer lämpat för tyska ord.
- Metaphone och Double Metaphone som är lämpliga att använda med de flesta engelska ord, inte bara namn. Metafonalgoritmer är grunden för många populära stavningskontroller .
- New York State Identification and Intelligence System (NYSIIS), som kartlägger liknande fonem till samma bokstav. Resultatet är en sträng som kan uttalas av läsaren utan avkodning.
- Match Rating Approach utvecklad av Western Airlines 1977 - denna algoritm har en kodnings- och räckviddsjämförelseteknik.
- Caverphone , skapad för att hjälpa till med datamatchning mellan vallistor från slutet av 1800-talet och början av 1900-talet, optimerad för accenter som finns i delar av Nya Zeeland.
Vanliga användningsområden
- Stavningskontroller kan ofta innehålla fonetiska algoritmer. Metafonalgoritmen kan till exempel ta ett felstavat ord och skapa en kod . Koden slås sedan upp i katalogen för ord med samma eller liknande metafon. Ord som har samma eller liknande Metafon blir möjliga alternativa stavningar.
- Sökfunktioner använder ofta fonetiska algoritmer för att hitta resultat som inte exakt matchar termen/termerna som används i sökningen. Att söka efter namn kan vara svårt eftersom det ofta finns flera alternativa stavningar för namn. Ett exempel är namnet Claire . Den har två alternativ, Clare/Clair, som båda uttalas likadant. Att söka efter en stavning skulle inte visa resultat för de två andra. Med Soundex producerar alla tre varianterna samma Soundex-kod, C460. Genom att söka namn baserat på Soundex-koden kommer alla tre varianterna att returneras.
Se även
- Den här artikeln innehåller material som är allmän egendom från Paul E. Black. "fonetisk kodning" . Ordbok över algoritmer och datastrukturer . NIST .
externa länkar
- Algoritm för att konvertera ord till fonem och tillbaka.
- StringMetric projekterar ett Scala -bibliotek med fonetiska algoritmer.
- clj-fuzzy projekt ett Clojure -bibliotek med fonetiska algoritmer.
- SoundexBR bibliotek av fonetisk algoritm implementerad i R .
- Talisman ett JavaScript- bibliotek som samlar olika fonetiska algoritmer som man kan prova online.
Kategorier: