CMU Pronouncing Dictionary

CMU Pronouncing Dictionary
Utvecklare Carnegie Mellon University
Stabil frisättning
0,7b / 19 november 2014 ; för 8 år sedan ( 2014-11-19 )
Tillgänglig i engelsk
Licens BSD
Hemsida www .speech .cs .cmu .edu /cgi-bin /cmudict

CMU Pronouncing Dictionary (även känd som CMUdict ) är en uttalsordbok med öppen källkod som ursprungligen skapades av Speech Group vid Carnegie Mellon University ( CMU) för användning i taligenkänningsforskning .

CMUdict tillhandahåller en ortografisk/fonetisk kartläggning för engelska ord i deras nordamerikanska uttal. Det används vanligtvis för att generera representationer för taligenkänning (ASR), t.ex. CMU Sphinx- systemet, och talsyntes (TTS), t.ex. festivalsystemet . CMUdict kan användas som en utbildningskorpus för att bygga statistiska grafem-till-fonem (g2p)-modeller som kommer att generera uttal för ord som ännu inte finns med i ordboken.

Den senaste versionen är 0.7b; den innehåller över 134 000 poster. En interaktiv uppslagsversion är tillgänglig.

Databasformat

Databasen distribueras som en vanlig textfil med en post på en rad i formatet " ORD <uttal> " med en tvåstegsavgränsare mellan delarna. Om flera uttal är tillgängliga för ett ord, identifieras varianter med numrerade versioner (t.ex. WORD(1) ) . Uttalet är kodat med hjälp av en modifierad form av ARPABET- systemet, med tillägg av stresstecken på vokaler på nivåerna 0, 1 och 2. En linje-initial ;;; token indikerar en kommentar. Ett härlett format, direkt lämpligt för taligenkänningsmotorer är också tillgängligt som en del av distributionen; detta format kollapsar stressskillnader (används vanligtvis inte i ASR).

Följande är en tabell över fonem som används av CMU Pronouncing Dictionary.

Vokaler
ARPABET Rspl. IPA Exempel
AA ah ɑ o dd
AE a æ ett t
AH0 ə ə en match
AH eh ʌ h u t
AO aw ɔ okej , st o ry
AW aj c oj
AY öga h i de
VA va ɛ E d
Vokaler
ARPABET Rspl. IPA Exempel
ER ur , ər ɝ , ɚ h ur t
EY ja ett te
IH jag , ih ɪ jag t
IY ee i ea t
AJ åh oa t
OY oj ɔɪ t oy
UH U u ʊ h oo d
UW oo u t wo
Påfrestning
AB Beskrivning
0 Ingen stress
1 Primär stress
2 Sekundär stress
Konsonanter
ARPABET Rspl. IPA Exempel
B b b b e
CH ch , tch ch eese
D d d d ee
DH dh ð den ee
F f f f ee
G g ɡ g reen
HH h h h e
J H j g ee
Konsonanter
ARPABET Rspl. IPA Exempel
K k k k ey
L l l l ee
M m m m e
N n n kn ee
NG ng ŋ pi ng
P sid sid p ee
R r r r ead
S s , ss s s ea
Konsonanter
ARPABET Rspl. IPA Exempel
SH sh ʃ sh e
T t t t ea
TH th θ eta _
V v v v ee
W w , wh w w e
Y y j y ield
Z z z z ee
Z H Z H ʒ se z ure

Historia

Version Utgivningsdatum Licens
0,1 16 september 1993 Allmängods
0,2 10 mars 1994 Allmängods
0,3 28 september 1994 Allmängods
0,4 8 november 1995 Allmängods
0,5 Ingen offentlig publicering Allmängods
0,6 11 augusti 1998 Allmängods
0,7 Ingen offentlig publicering Allmängods
0,7a 18 februari 2008 2-klausul BSD
0,7b 19 november 2014 2-klausul BSD
GitHub (oversionerad) 26 maj 2021 2-klausul BSD

Ansökningar

  • Unifon - omvandlaren är baserad på CMU Pronouncing Dictionary.
  • Natural Language Toolkit innehåller ett gränssnitt till CMU Pronouncing Dictionary.
  • Carnegie Mellon Logios-verktyget innehåller CMU Pronouncing Dictionary.
  • PronunDict , en uttalsordbok för amerikansk engelska, använder CMU Pronouncing Dictionary som sin datakälla. Uttalet transkriberas i IPA- symboler. Denna ordbok stöder även sökning med uttal .
  • Vissa sångröstsyntesprogram som CeVIO Creative Studio och Synthesizer V använder modifierad version av CMU Pronouncing Dictionary för att syntetisera engelska sångröster.
  • Transcriber , ett verktyg för fonetisk transkription av fulltext, använder CMU Pronouncing Dictionary
  • 15.ai , ett text-till-tal-verktyg i realtid som använder artificiell intelligens, använder CMU Pronouncing Dictionary

Se även

  1. ^ "Sequitur G2P - En träningsbar grafem-till-fonem-omvandlare" .
  2. ^ a b "CMU-uttalande ordboken" . CMU Pronouncing Dictionary . CMU Pronouncing Dictionary. 2015-07-16. Arkiverad från originalet 2022-06-03 . Hämtad 2022-06-04 .
  3. ^ ftp://ftp.cs.cmu.edu/project/speech/dict/ [ permanent död länk ]
  4. ^ http://svn.code.sf.net/p/cmusphinx/code/trunk/cmudict/00README_FIRST.txt [ ren URL ren textfil ]
  5. ^ "Cmusphinx - Revision 10973: /Trunk/Logios" . Arkiverad från originalet 2011-05-20 . Hämtad 2009-12-19 .

externa länkar