Moby-projektet

Moby -projektet är en samling lexikaliska resurser som är offentliga och skapade av Grady Ward . Resurserna ägnades åt det offentliga och återspeglas nu i Project Gutenberg . Från och med 2007 innehåller den den största gratis fonetiska databasen, med 177 267 ord och motsvarande uttal.

Bindestav

Moby Hyphenator II innehåller avstavningar av 187 175 ord och fraser (inklusive 9 752 poster där inga avstavningar ges, till exempel genom och avoir ). Teckenkodningen verkar vara MacRoman , och avstavning indikeras med en punkt (teckenvärde 165 decimal eller A5 hexadecimal). Vissa poster har dock en kombination av faktiska bindestreck och tecken 165, såsom "bar•ber-sur•geon".

Det finns lite eller ingen dokumentation av de avstavningsval som gjorts; Följande exempel kan ge en viss smak av avstavningsstilen som används: at•mos•phere; skötare; kapacitet; omöjligt att färga.

språk

Moby Language II innehåller ordlistor med fem språk: franska , tyska , italienska , japanska och spanska . Deras statistik är:

Språk Ord Storlek (i byte )
franska 138,257 1,524,757
tysk 159 809 2 055 986
italienska 60,453 561,981
japanska 115,523 934,783
spanska 86 059 850,523
Total 560,101 5,928,030

Vissa av listorna är dock kontaminerade: till exempel innehåller den japanska listan engelska ord som abnormal och icke-ord som abcdefgh och m,./ . Det finns också ovanliga egenheter i sorteringen av dessa listor, eftersom den franska listan innehåller en rak alfabetisk förteckning, medan den tyska listan innehåller den alfabetiska förteckningen över traditionellt versaler och sedan den alfabetiska förteckningen över traditionellt små bokstäver. Listan över italienska ord innehåller dock inga som helst versaler.

Listorna använder inte tecken med accent, så "e^tre" är hur en användare skulle slå upp det franska ordet être ("att vara").

Del av tal

Moby Part-of-Speech innehåller 233 356 ord som är fullständigt beskrivna av del(er) av tal, listade i prioriterad ordning. Filens format är word\parts-of-speech , där följande delar av tal identifieras:

Del av tal Koda
Substantiv N
Flertal sid
Substantiv fras h
Verb (vanligtvis particip ) V
Transitivt verb t
Intransitivt verb i
Adjektiv A
Adverb v
Samband C
Preposition P
Interjektion !
Pronomen r
Bestämd artikel D
Obestämd artikel jag
Nominativ o

Uttalare

Moby Pronunciator II innehåller 177 267 poster med motsvarande uttal. De flesta av posterna beskriver ett enda ord, men cirka 79 000 innehåller avstavade eller flera ordfraser, namn eller lexem . Project Gutenberg-distributionen innehåller också en kopia av cmudict v0.3. Filen innehåller rader med formatet ord[/ordsform] uttal . Varje rad avslutas med ASCII- vagnreturtecknet (CR, '\r', 0x0D, 13 i decimal).

Ordfältet kan innehålla apostrof (t.ex. är det inte ) , bindestreck (t.ex. arbetsföra ) och flera ord separerade med understreck (t.ex. monkey_wrench ). Icke-engelska ord återges i allmänhet, som anges i dokumentationen, utan accenter eller andra diakritiska tecken. I 36 poster (t.ex. São_Miguel ), finns dock några tecken utan ASCII-accent, representerade med Mac OS Roman- kodning.

Talordsfältet används för att disambiguera 770 av orden som har olika uttal beroende på deras orddel. Till exempel, för orden som stavas nära, / har ˈk l z / verbet uttalet , medan adjektivet är / ˈ k l s / . Orddelarna har tilldelats följande koder:

Del av tal Koda
Substantiv n
Verb v
Adjektiv aj
Adverb av
Interjektion interj

Efter detta är uttalet. Det finns flera speciella symboler:

Symbol Menande
_ Används för att skilja ord åt
' Primär betoning på följande stavelse
, Sekundär betoning på följande stavelse

Resten av symbolerna används för att representera IPA -tecken. Uttalen överensstämmer i allmänhet med en allmän amerikansk dialekt av engelska, som uppvisar fader-besvär-sammanslagning , bråttom-pälssammanslagning och lottduksdelning , men som inte uppvisar cot-fångad sammanslagning eller vin-whine-fusion . Varje fonem representeras av en sekvens av ett eller flera tecken. Vissa av sekvenserna är avgränsade med ett snedstreck "/", som visas i följande tabell, men observera att sekvensen för / ɔɪ / är avgränsad med två snedstreck i vardera änden:

Symbol IPA
/&/ æ
/-/ ə
/@/ ʌ, ə
/[@]/r ɜr, ər
/A/ ɑ, ɑː
/aI/
/AU/
b b
d d
/D/ ð
/dZ/
/E/ ɛ
/eI/
f f
g ɡ
h h
H w H w
/i/
/jag/ ɪ
/j/ j
/ju/ juː
k k
l l
m m
n n
/N/ ŋ
/O/ ɔ, ɔː
//Oi// ɔɪ
/oU/
sid sid
r r
s s
/S/ ʃ
t t
/T/ θ
/tS/
/u/
/U/ ʊ
v v
w w
z z
/Z/ ʒ

Till denna samling läggs ett antal extra sekvenser som representerar fonem som finns på flera andra språk. Dessa används för att koda de icke-engelska ord, fraser och namn som ingår i databasen. Följande tabell innehåller dessa extra fonem, men observera att det inte är klart i vilken utsträckning några av dessa kan existera på grund av kodningsfel.

Symbol IPA
A a
e e, ɛ
i jag, ɪ
N Nasalisering av föregående vokal
o o
O [uppsåt inte klart]
R ʁ
S s
u u
V v, β, ʋ
W w
/x/ x
/y/ o
Y y
/z/ ts
Z z

Shakespeare

Moby Shakespeare innehåller Shakespeares fullständiga oförkortade verk . Denna specifika resurs är inte tillgänglig från Project Gutenberg, men den är tillgänglig i en version från 1993 på webben.

Tesaurus

Moby Thesaurus II innehåller 30 260 grundord, med 2 520 264 synonymer och relaterade termer - i genomsnitt 83,3 per rotord. Varje rad består av en lista med kommaseparerade värden , där den första termen är rotordet och alla följande ord är relaterade termer.

Grady Ward placerade denna synonymordbok till allmän egendom 1996. Den är också tillgänglig som ett Debianpaket även om paketet har utgått från Bullseye .

Ord

Moby Words II är den största ordlistan i världen. [ ytterligare citat behövs ] Distributionen består av följande 16 filer:

Filnamn Ord Beskrivning
Akronymer.TXT 6,213 Vanliga akronymer och förkortningar
GEMENSAM.TXT 74 550 Vanliga ord som finns i två eller flera publicerade ordböcker
SAMMANSÄTT.TXT 256,772 Fraser, egennamn och akronymer som inte ingår i filen med vanliga ord
CROSSWD.TXT 113 809 Ord som ingår i den första upplagan av Official Scrabble Players Dictionary
CRSWD-D.TXT 4,160 Tillägg till den officiella Scrabble Players Dictionary i den andra upplagan
FIKTION.TXT 467 En lista över de vanligaste understrängarna i boken The Joy Luck Club
FREKV.TXT 1 000 Vanligast förekommande ord på engelska , listade i fallande ordning
FREQ-INT.TXT 1 000 Mest förekommande ord på Usenet 1992, listade med motsvarande procent i fallande ordning
KJVFREQ.TXT 1 185 Vanligast förekommande delsträngar i King James-versionen av Bibeln , listade i fallande ordning
NAMES.TXT 21 986 De vanligaste namnen som används i USA och Storbritannien
NAMN-F.TXT 4,946 Vanliga engelska kvinnonamn
NAMN-M.TXT 3,897 Vanliga engelska mansnamn
OFTENMIS.TXT 366 De vanligaste felstavade engelska orden
PLATSER.TXT 10 196 Ortnamn i USA
ENKEL.TXT 354,984 Enstaka ord exklusive egennamn, akronymer, sammansatta ord och fraser, men inklusive ålderdomliga ord och signifikanta varianter av stavningar
USACONST.TXT 7,618 Förenta staternas konstitution inklusive alla ändringar gällande 1993
Total 863,149 Inte summan av unika ord.
Total Uniq 639 995 Totalt enstaka, egennamn, akronymer och sammansatta ord och fraser (alla filer som innehåller unika ord).

externa länkar