Moby-projektet
Moby -projektet är en samling lexikaliska resurser som är offentliga och skapade av Grady Ward . Resurserna ägnades åt det offentliga och återspeglas nu i Project Gutenberg . Från och med 2007 innehåller den den största gratis fonetiska databasen, med 177 267 ord och motsvarande uttal.
Bindestav
Moby Hyphenator II innehåller avstavningar av 187 175 ord och fraser (inklusive 9 752 poster där inga avstavningar ges, till exempel genom och avoir ). Teckenkodningen verkar vara MacRoman , och avstavning indikeras med en punkt (teckenvärde 165 decimal eller A5 hexadecimal). Vissa poster har dock en kombination av faktiska bindestreck och tecken 165, såsom "bar•ber-sur•geon".
Det finns lite eller ingen dokumentation av de avstavningsval som gjorts; Följande exempel kan ge en viss smak av avstavningsstilen som används: at•mos•phere; skötare; kapacitet; omöjligt att färga.
språk
Moby Language II innehåller ordlistor med fem språk: franska , tyska , italienska , japanska och spanska . Deras statistik är:
Språk | Ord | Storlek (i byte ) |
---|---|---|
franska | 138,257 | 1,524,757 |
tysk | 159 809 | 2 055 986 |
italienska | 60,453 | 561,981 |
japanska | 115,523 | 934,783 |
spanska | 86 059 | 850,523 |
Total | 560,101 | 5,928,030 |
Vissa av listorna är dock kontaminerade: till exempel innehåller den japanska listan engelska ord som abnormal och icke-ord som abcdefgh och m,./ . Det finns också ovanliga egenheter i sorteringen av dessa listor, eftersom den franska listan innehåller en rak alfabetisk förteckning, medan den tyska listan innehåller den alfabetiska förteckningen över traditionellt versaler och sedan den alfabetiska förteckningen över traditionellt små bokstäver. Listan över italienska ord innehåller dock inga som helst versaler.
Listorna använder inte tecken med accent, så "e^tre" är hur en användare skulle slå upp det franska ordet être ("att vara").
Del av tal
Moby Part-of-Speech innehåller 233 356 ord som är fullständigt beskrivna av del(er) av tal, listade i prioriterad ordning. Filens format är word\parts-of-speech , där följande delar av tal identifieras:
Del av tal | Koda |
---|---|
Substantiv | N |
Flertal | sid |
Substantiv fras | h |
Verb (vanligtvis particip ) | V |
Transitivt verb | t |
Intransitivt verb | i |
Adjektiv | A |
Adverb | v |
Samband | C |
Preposition | P |
Interjektion | ! |
Pronomen | r |
Bestämd artikel | D |
Obestämd artikel | jag |
Nominativ | o |
Uttalare
Moby Pronunciator II innehåller 177 267 poster med motsvarande uttal. De flesta av posterna beskriver ett enda ord, men cirka 79 000 innehåller avstavade eller flera ordfraser, namn eller lexem . Project Gutenberg-distributionen innehåller också en kopia av cmudict v0.3. Filen innehåller rader med formatet ord[/ordsform] uttal . Varje rad avslutas med ASCII- vagnreturtecknet (CR, '\r', 0x0D, 13 i decimal).
Ordfältet kan innehålla apostrof (t.ex. är det inte ) , bindestreck (t.ex. arbetsföra ) och flera ord separerade med understreck (t.ex. monkey_wrench ). Icke-engelska ord återges i allmänhet, som anges i dokumentationen, utan accenter eller andra diakritiska tecken. I 36 poster (t.ex. São_Miguel ), finns dock några tecken utan ASCII-accent, representerade med Mac OS Roman- kodning.
Talordsfältet används för att disambiguera 770 av orden som har olika uttal beroende på deras orddel. Till exempel, för orden som stavas nära, / har ˈk l oʊ z / verbet uttalet , medan adjektivet är / ˈ k l oʊ s / . Orddelarna har tilldelats följande koder:
Del av tal | Koda |
---|---|
Substantiv | n |
Verb | v |
Adjektiv | aj |
Adverb | av |
Interjektion | interj |
Efter detta är uttalet. Det finns flera speciella symboler:
Symbol | Menande |
---|---|
_ | Används för att skilja ord åt |
' | Primär betoning på följande stavelse |
, | Sekundär betoning på följande stavelse |
Resten av symbolerna används för att representera IPA -tecken. Uttalen överensstämmer i allmänhet med en allmän amerikansk dialekt av engelska, som uppvisar fader-besvär-sammanslagning , bråttom-pälssammanslagning och lottduksdelning , men som inte uppvisar cot-fångad sammanslagning eller vin-whine-fusion . Varje fonem representeras av en sekvens av ett eller flera tecken. Vissa av sekvenserna är avgränsade med ett snedstreck "/", som visas i följande tabell, men observera att sekvensen för / ɔɪ / är avgränsad med två snedstreck i vardera änden:
Symbol | IPA |
---|---|
/&/ | æ |
/-/ | ə |
/@/ | ʌ, ə |
/[@]/r | ɜr, ər |
/A/ | ɑ, ɑː |
/aI/ | aɪ |
/AU/ | aʊ |
b | b |
d | d |
/D/ | ð |
/dZ/ | dʒ |
/E/ | ɛ |
/eI/ | eɪ |
f | f |
g | ɡ |
h | h |
H w | H w |
/i/ | iː |
/jag/ | ɪ |
/j/ | j |
/ju/ | juː |
k | k |
l | l |
m | m |
n | n |
/N/ | ŋ |
/O/ | ɔ, ɔː |
//Oi// | ɔɪ |
/oU/ | oʊ |
sid | sid |
r | r |
s | s |
/S/ | ʃ |
t | t |
/T/ | θ |
/tS/ | tʃ |
/u/ | uː |
/U/ | ʊ |
v | v |
w | w |
z | z |
/Z/ | ʒ |
Till denna samling läggs ett antal extra sekvenser som representerar fonem som finns på flera andra språk. Dessa används för att koda de icke-engelska ord, fraser och namn som ingår i databasen. Följande tabell innehåller dessa extra fonem, men observera att det inte är klart i vilken utsträckning några av dessa kan existera på grund av kodningsfel.
Symbol | IPA |
---|---|
A | a |
e | e, ɛ |
i | jag, ɪ |
N | Nasalisering av föregående vokal |
o | o |
O | [uppsåt inte klart] |
R | ʁ |
S | s |
u | u |
V | v, β, ʋ |
W | w |
/x/ | x |
/y/ | o |
Y | y |
/z/ | ts |
Z | z |
Shakespeare
Moby Shakespeare innehåller Shakespeares fullständiga oförkortade verk . Denna specifika resurs är inte tillgänglig från Project Gutenberg, men den är tillgänglig i en version från 1993 på webben.
Tesaurus
Moby Thesaurus II innehåller 30 260 grundord, med 2 520 264 synonymer och relaterade termer - i genomsnitt 83,3 per rotord. Varje rad består av en lista med kommaseparerade värden , där den första termen är rotordet och alla följande ord är relaterade termer.
Grady Ward placerade denna synonymordbok till allmän egendom 1996. Den är också tillgänglig som ett Debianpaket även om paketet har utgått från Bullseye .
Ord
Moby Words II är den största ordlistan i världen. [ ytterligare citat behövs ] Distributionen består av följande 16 filer:
Filnamn | Ord | Beskrivning |
---|---|---|
Akronymer.TXT | 6,213 | Vanliga akronymer och förkortningar |
GEMENSAM.TXT | 74 550 | Vanliga ord som finns i två eller flera publicerade ordböcker |
SAMMANSÄTT.TXT | 256,772 | Fraser, egennamn och akronymer som inte ingår i filen med vanliga ord |
CROSSWD.TXT | 113 809 | Ord som ingår i den första upplagan av Official Scrabble Players Dictionary |
CRSWD-D.TXT | 4,160 | Tillägg till den officiella Scrabble Players Dictionary i den andra upplagan |
FIKTION.TXT | 467 | En lista över de vanligaste understrängarna i boken The Joy Luck Club |
FREKV.TXT | 1 000 | Vanligast förekommande ord på engelska , listade i fallande ordning |
FREQ-INT.TXT | 1 000 | Mest förekommande ord på Usenet 1992, listade med motsvarande procent i fallande ordning |
KJVFREQ.TXT | 1 185 | Vanligast förekommande delsträngar i King James-versionen av Bibeln , listade i fallande ordning |
NAMES.TXT | 21 986 | De vanligaste namnen som används i USA och Storbritannien |
NAMN-F.TXT | 4,946 | Vanliga engelska kvinnonamn |
NAMN-M.TXT | 3,897 | Vanliga engelska mansnamn |
OFTENMIS.TXT | 366 | De vanligaste felstavade engelska orden |
PLATSER.TXT | 10 196 | Ortnamn i USA |
ENKEL.TXT | 354,984 | Enstaka ord exklusive egennamn, akronymer, sammansatta ord och fraser, men inklusive ålderdomliga ord och signifikanta varianter av stavningar |
USACONST.TXT | 7,618 | Förenta staternas konstitution inklusive alla ändringar gällande 1993 |
Total | 863,149 | Inte summan av unika ord. |
Total Uniq | 639 995 | Totalt enstaka, egennamn, akronymer och sammansatta ord och fraser (alla filer som innehåller unika ord). |
externa länkar
- Moby Projects hemsida , University of Sheffield; kopia gjord av Wayback Machine av sidan som den var den 30 september 2017. ("Senast ändrad: 24 oktober 2000") fungerande nedladdningssida .
- Project Gutenberg nedladdningar
- Söker efter rim med Perl ; motsvarande kod
- Wiktionary:Bilaga:Moby Thesaurus II