Caverphone
Caverphone inom lingvistik och databehandling , är en fonetisk matchningsalgoritm som uppfanns för att identifiera engelska namn med deras ljud, ursprungligen byggd för att bearbeta en anpassad datauppsättning mellan 1893 och 1938 i södra Dunedin , Nya Zeeland. Med utgångspunkt från ett liknande koncept som metaphone , har det utvecklats för att rymma och bearbeta allmän engelska sedan dess.
Etymologi
Caverphone skapades av David Hood i Caversham Project vid University of Otago i Nya Zeeland 2002, reviderad 2004. Den skapades för att hjälpa till med datamatchning mellan vallistor från slutet av 1800-talet och början av 1900-talet, där namnet bara behövdes att vara i en "allmänt igenkännbar form". Algoritmen var avsedd att gälla de namn som inte lätt kunde matchas mellan röstlängderna, efter att de exakta matchningarna tagits bort från poolen av potentiella matchningar. Algoritmen är optimerad för accenter som finns i studieområdet (södra delen av staden Dunedin , Nya Zeeland).
Procedur
Caverphone 1.0
Algoritmens regler tillämpas i följd på ett visst namn, som en serie ersättningar.
Algoritmen är som följer:
- Konvertera till gemener
- Ta bort allt som inte är A-Ö
- Om namnet börjar med...
- hosta , ersätt den med cou2f
- grov , ersätt den med rou2f
- tuff , ersätt den med tou2f
- nog , ersätt det med enou2f
- gn , ersätt den med 2n
- Om namnet slutar med
- mb , ersätt det med m2
- Byta ut
- cq med 2q
- ci med si
- ce med se
- cy med sy
- tch med 2ch
- c med k
- q med k
- x med k
- v med f
- dg med 2g
- tio med sio
- tia med sia
- d med t
- ph med fh
- b med sid
- sh med s2
- z med s
- någon initial vokal med ett A
- alla andra vokaler med 3
- 3gh3 med 3kh3
- gh med 22
- g med k
- grupper av bokstaven s med ett S
- grupper av bokstaven t med ett T
- grupper av bokstaven p med ett P
- grupper av bokstaven k med ett K
- grupper av bokstaven f med ett F
- grupper av bokstaven m med ett M
- grupper av bokstaven n med ett N
- w3 med W3
- wy med Wy
- wh3 med Wh3
- varför med Varför
- w med 2
- någon initial h med ett A
- alla andra förekomster av h med en 2
- r3 med R3
- ry med Ry
- r med 2
- l3 med L3
- ly med Ly
- l med 2
- j med y
- y3 med Y3
- y med 2
- ta bort alla
- 2
- 3
- sätt sex 1 på slutet
- ta de första sex tecknen som kod
Caverphone 2.0
- Börja med ett ord
- Konvertera till gemener
- Ta bort allt som inte finns i standardalfabetet (vanligtvis az )
- Ta bort sista e
- Om namnet börjar med
- hosta gör det cou2f
- grov gör det rou2f
- tufft gör det tou2f
- nog gör det enou2f
- trough make it trou2f
- gn gör det 2n
- Om namnet slutar med
- mb gör det till m2
- Byta ut
- cq med 2q
- ci med si
- ce med se
- cy med sy
- tch med 2ch
- c med k
- q med k
- x med k
- v med f
- dg med 2g
- tio med sio
- tia med sia
- d med t
- ph med fh
- b med sid
- sh med s2
- z med s
- en initial vokal med ett A
- alla andra vokaler med 3
- j med y
- ett initialt y3 med Y3
- ett initialt y med A
- y med 3
- 3gh3 med 3kh3
- gh med 22
- g med k
- grupper av bokstaven s med ett S
- grupper av bokstaven t med ett T
- grupper av bokstaven p med ett P
- grupper av bokstaven k med ett K
- grupper av bokstaven f med ett F
- grupper av bokstaven m med ett M
- grupper av bokstaven n med ett N
- w3 med W3
- wh3 med Wh3
- om namnet slutar på w ersätt det sista w med 3
- w med 2
- ett initialt h med ett A
- alla andra förekomster av h med en 2
- r3 med R3
- om namnet slutar på r ersätt det sista r med 3
- r med 2
- l3 med L3
- om namnet slutar på l ersätt det sista l med 3
- l med 2
- ta bort alla 2 s
- om namnet slutar på 3 , ersätt de sista 3 med A
- ta bort alla 3 s
- lägg tio 1 s på slutet
- ta de första tio tecknen som kod
Exempel
Caverphone 1.0
Lee -> lee lee -> l33 l33 -> L33 L33 -> L L -> L111111 L111111 -> L11111 Thompson -> thompson thompson -> th3mps3n th3mps3n -> th3mpS3n th3mpS3n th3mpS3n Th3mpS3n Th3mpS3n Th3mpS3n th3mpS3n Th3mpS3n th3mpS3n 3mPS3n -> Th3MPS3n Th3MPS3n -
> Th3MPS3N Th3MPS3N -> T23MPS3N T23MPS3N -> TMPSN TMPSN111111 -> TMPSN1
Caverphone 2.0
Lee -> lee lee -> le le -> l3 l3 -> L3 L3 -> LA LA -> LA1111111111 LA1111111111 -> LA11111111 Thompson -> thompson thompson -> th3mps3n th3mps> 3mps3n 3mps> 3:e n Th3mpS3n -> Th3mPS3n Th3mPS3n
- > Th3MPS3n Th3MPS3n -> Th3MPS3N Th3MPS3N -> T23MPS3N T23MPS3N -> TMPSN TMPSN1111111111 -> TMPSN11111
Se även
- Soundex
- New York State Identification and Intelligence System
- Matcha betygsmetod
- Metafon
- Kölns fonetik
externa länkar
- Caversham Project - Caversham datauppsättning namn och accenter i södra delen av Dunedin , Nya Zeeland 1893-1938.
- Original (2002) Caverphone-algoritm
- Reviderad (2004) Caverphone-algoritm
- Implementeringar:
- C# Reviderad implementering
- Java-implementering i Apache Commons Codec- projektet
- PHP implementering
- Python Implementation caverphone-algoritm (version 2.0) - AdvaS Advanced Search-projekt