Maskinläsbara uttal
CMU Pronouncing Dictionary (även känd som CMUdict ) är en uttalsordbok med öppen källkod som ursprungligen skapades av Speech Group vid Carnegie Mellon University ( CMU) för användning i taligenkänningsforskning .
CMUdict tillhandahåller en ortografisk/fonetisk kartläggning för engelska ord i deras nordamerikanska uttal. Det används vanligtvis för att generera representationer för taligenkänning (ASR), t.ex. CMU Sphinx- systemet, och talsyntes (TTS), t.ex. festivalsystemet . CMUdict kan användas som en utbildningskorpus för att bygga statistiska grafem-till-fonem (g2p)-modeller som kommer att generera uttal för ord som ännu inte finns med i ordboken.
Den senaste versionen är 0.7b; den innehåller över 134 000 poster. En interaktiv uppslagsversion är tillgänglig.
Databasformat
Databasen distribueras som en vanlig textfil med en post på en rad i formatet " ORD <uttal>
" med en tvåstegsavgränsare mellan delarna. Om flera uttal är tillgängliga för ett ord, identifieras varianter med numrerade versioner (t.ex. WORD(1) )
. Uttalet är kodat med hjälp av en modifierad form av ARPABET- systemet, med tillägg av stresstecken på vokaler på nivåerna 0, 1 och 2. En linje-initial ;;;
token indikerar en kommentar. Ett härlett format, direkt lämpligt för taligenkänningsmotorer är också tillgängligt som en del av distributionen; detta format kollapsar stressskillnader (används vanligtvis inte i ASR).
Följande är en tabell över fonem som används av CMU Pronouncing Dictionary.
Vokaler
ARPABET |
Rspl.
|
IPA
|
Exempel |
AA
|
ah
|
ɑ
|
o dd |
AE
|
a
|
æ
|
ett t |
AH0
|
ə
|
ə
|
en match |
AH
|
eh
|
ʌ
|
h u t |
AO
|
aw
|
ɔ
|
okej , st o ry |
AW
|
aj
|
aʊ
|
c oj
|
AY
|
öga
|
aɪ
|
h i de |
VA
|
va
|
ɛ
|
E d |
Vokaler
ARPABET |
Rspl.
|
IPA
|
Exempel |
ER
|
ur , ər
|
ɝ , ɚ
|
h ur t |
EY
|
ja
|
eɪ
|
ett te |
IH
|
jag , ih
|
ɪ
|
jag t |
IY
|
ee
|
i
|
ea t |
AJ
|
åh
|
oʊ
|
oa t |
OY
|
oj
|
ɔɪ
|
t oy
|
UH
|
U u
|
ʊ
|
h oo d |
UW
|
oo
|
u
|
t wo
|
Konsonanter
ARPABET |
Rspl.
|
IPA
|
Exempel |
B
|
b
|
b
|
b e |
CH
|
ch , tch
|
tʃ
|
ch eese |
D
|
d
|
d
|
d ee |
DH
|
dh
|
ð
|
den ee |
F
|
f
|
f
|
f ee |
G
|
g
|
ɡ
|
g reen |
HH
|
h
|
h
|
h e |
J H
|
j
|
dʒ
|
g ee |
Konsonanter
ARPABET |
Rspl.
|
IPA
|
Exempel |
K
|
k
|
k
|
k ey |
L
|
l
|
l
|
l ee |
M
|
m
|
m
|
m e |
N
|
n
|
n
|
kn ee |
NG
|
ng
|
ŋ
|
pi ng
|
P
|
sid
|
sid
|
p ee |
R
|
r
|
r
|
r ead |
S
|
s , ss
|
s
|
s ea |
Konsonanter
ARPABET |
Rspl.
|
IPA
|
Exempel |
SH
|
sh
|
ʃ
|
sh e |
T
|
t
|
t
|
t ea |
TH
|
th
|
θ
|
eta _ |
V
|
v
|
v
|
v ee |
W
|
w , wh
|
w
|
w e |
Y
|
y
|
j
|
y ield |
Z
|
z
|
z
|
z ee |
Z H
|
Z H
|
ʒ
|
se z ure |
Historia
Version |
Utgivningsdatum |
Licens |
0,1 |
16 september 1993 |
Allmängods |
0,2 |
10 mars 1994 |
Allmängods |
0,3 |
28 september 1994 |
Allmängods |
0,4 |
8 november 1995 |
Allmängods |
0,5 |
Ingen offentlig publicering |
Allmängods |
0,6 |
11 augusti 1998 |
Allmängods |
0,7 |
Ingen offentlig publicering |
Allmängods |
0,7a |
18 februari 2008 |
2-klausul BSD
|
0,7b |
19 november 2014 |
2-klausul BSD
|
GitHub (oversionerad) |
26 maj 2021 |
2-klausul BSD
|
Ansökningar
- Unifon - omvandlaren är baserad på CMU Pronouncing Dictionary.
- Natural Language Toolkit innehåller ett gränssnitt till CMU Pronouncing Dictionary.
- Carnegie Mellon Logios-verktyget innehåller CMU Pronouncing Dictionary.
-
PronunDict , en uttalsordbok för amerikansk engelska, använder CMU Pronouncing Dictionary som sin datakälla. Uttalet transkriberas i IPA- symboler. Denna ordbok stöder även sökning med uttal .
- Vissa sångröstsyntesprogram som CeVIO Creative Studio och Synthesizer V använder modifierad version av CMU Pronouncing Dictionary för att syntetisera engelska sångröster.
-
Transcriber , ett verktyg för fonetisk transkription av fulltext, använder CMU Pronouncing Dictionary
-
15.ai , ett text-till-tal-verktyg i realtid som använder artificiell intelligens, använder CMU Pronouncing Dictionary
Se även
externa länkar