Wiktionary

Wiktionary
WiktionaryEn - DP Derivative.svg
Logotyp för engelsk Wiktionary
Skärmdump
English Wiktionary Main Page.png
Huvudsidan i den engelska Wiktionary den 14 januari 2019.
Typ av webbplats
Online ordbok
Tillgänglig i Flerspråkig (163 aktiva)
Ägare Wikimedia Foundation
Skapad av
URL Wiktionary .org
Kommersiell Nej
Registrering Frivillig
Lanserades 12 december 2002 ; 20 år sedan ( 2002-12-12 )
Nuvarande status Aktiva

Wiktionary ( Storbritannien : / ˈ w ɪ k ʃ ən ər i / , WIK -shə-nər-ee ; USA : / ˈ w ɪ k ʃ ə n ɛr i / , WIK -shə-nerr-ee ; rimmar på "ordbok" ) är ett flerspråkigt, webbaserat projekt för att skapa en gratis innehållsordbok med termer (inklusive ord , fraser , ordspråk , språkliga rekonstruktioner , etc.) på alla naturliga språk och på ett antal konstgjorda språk . Dessa poster kan innehålla definitioner , bilder för illustration, uttal , etymologier , böjningar , användningsexempel, citat , relaterade termer och översättningar av termer till andra språk, bland andra funktioner. Den redigeras i samarbete via en wiki . Dess namn är en portmanteau av orden wiki och ordbok . Den finns på 187 språk och på enkel engelska . Liksom sitt systerprojekt Wikipedia drivs Wiktionary av Wikimedia Foundation , och skrivs i samarbete av volontärer , kallade "Wiktionarians". Dess wikiprogramvara , MediaWiki , tillåter nästan alla med tillgång till webbplatsen att skapa och redigera poster.

Eftersom Wiktionary inte begränsas av överväganden om tryckutrymme, tillhandahåller de flesta av Wiktionarys språkutgåvor definitioner och översättningar av termer från många språk, och vissa utgåvor erbjuder ytterligare information som vanligtvis finns i synonymordboken .

Wiktionarys data används ofta i olika naturliga språkbehandlingsuppgifter .

Historia och utveckling

Wiktionary publicerades online den 12 december 2002, efter ett förslag av Daniel Alston och en idé av Larry Sanger , medgrundare av Wikipedia. Den 28 mars 2004 initierades de första icke- engelska Wiktionaries på franska och polska . Wiktionarys på många andra språk har sedan dess startats. Wiktionary fanns på ett tillfälligt domännamn (wiktionary.wikipedia.org) fram till den 1 maj 2004, då det bytte till det nuvarande domännamnet. Från och med juli 2021 innehåller Wiktionary över 30 miljoner artiklar (och ännu fler poster) i sina utgåvor. Den största av språkutgåvorna är den engelska Wiktionary, med över 7,3 miljoner poster, följt av den franska Wiktionary med över 4,6 miljoner och den malagasiska Wiktionary med över 1,8 miljoner poster. Fyrtiotre Wiktionary-språkutgåvor innehåller över 100 000 poster vardera.

Användningen av bots för att generera ett stort antal artiklar är synligt som "tillväxtspurtar" i denna graf över antalet artiklar i de största åtta Wiktionary-utgåvorna. (Data från december 2009)

Många av definitionerna i projektets största språkutgåvor skapades av bots som hittade kreativa sätt att generera poster eller (sällan) automatiskt importerade tusentals poster från tidigare publicerade ordböcker. Sju av de 18 botarna som registrerades på den engelska Wiktionary 2007 skapade 163 000 av inläggen där.

En annan av dessa bots, " ThirdPersBot " , var ansvarig för tillägget av ett antal tredjepersonsböjningar som inte skulle ha fått sina egna poster i standardordböcker; till exempel definierade den " smolders " som "tredje person singular enkla nuvarande formen av smolder ." Av de 1 269 938 definitionerna tillhandahåller den engelska Wiktionary 996 450 engelska ord, 478 068 är "form av" definitioner av detta slag. Detta innebär att även utan sådana poster är dess täckning av engelska betydligt större än för stora enspråkiga tryckta ordböcker. Merriam-Webster's Third New International Dictionary of the English Language, Unabridged, har till exempel 475 000 poster (med många ytterligare inbäddade sökord); Oxford English Dictionary har 615 000 sökord, men inkluderar även mellanengelska , för vilken den engelska Wiktionary har ytterligare 34 234 glossdefinitioner. Detaljerad statistik finns för att visa hur många poster av olika slag som finns.

Den engelska Wiktionary förlitar sig inte på bots i den utsträckning som vissa andra utgåvor gör. De franska och vietnamesiska Wiktionarys, till exempel, importerade stora delar av Free Vietnamese Dictionary Project (FVDP), som tillhandahåller gratis innehåll tvåspråkiga ordböcker till och från vietnamesiska. Dessa importerade poster utgör praktiskt taget allt innehåll i den vietnamesiska utgåvan. Liksom den engelska utgåvan har den franska Wiktionary importerat cirka 20 000 poster från Unihan -databasen med kinesiska, japanska, koreanska och indiska tecken . Den franska Wiktionary växte snabbt under 2006, till stor del tack vare att robotar kopierade många poster från gamla, fritt licensierade ordböcker, som den åttonde upplagan av Dictionnaire de l'Académie française (1935, cirka 35 000 ord) och använde botar för att lägga till ord från andra Wiktionary-utgåvor med franska översättningar. Den ryska utgåvan växte med nästan 80 000 poster när " LXbot " lade till texter (med rubriker, men utan definitioner) för ord på engelska och tyska .

Från och med juli 2021 har den engelska Wiktionary över 791 870 glansdefinitioner och över 1 269 938 totala definitioner (inklusive olika former) för enbart engelska poster, med totalt över 9 928 056 definitioner på alla språk.

Logotyper

Wiktionary har historiskt sett saknat en enhetlig logotyp över sina många språkutgåvor. Vissa utgåvor använder logotyper som visar en ordbokspost om termen "Wiktionary", baserad på den tidigare engelska Wiktionary-logotypen, som designades av Brion Vibber, en MediaWiki- utvecklare. Eftersom en rent textlig logotyp måste variera avsevärt från språk till språk, hölls en fyrfastävling för att anta en enhetlig logotyp på Wikimedia Meta-Wiki från september till oktober 2006. Vissa samhällen antog det vinnande bidraget av " Smurrayinchester ", en 3 ×3 rutnät av träplattor, var och en med en karaktär från olika skriftsystem. Men enkäten såg inte så mycket deltagande från Wiktionary-gemenskapen som vissa community-medlemmar hade hoppats på, och ett antal av de större wikierna behöll till slut sina textlogotyper.

I april 2009 återuppstod frågan med en ny tävling. Den här gången vann en skildring av "AAEngelman" av en öppen inbunden ordbok en direkt omröstning mot 2006 års logotyp, men processen att förfina och anta den nya logotypen avstannade sedan. Under de följande åren ersatte vissa wikis sina textlogotyper med en av de två nyare logotyperna. Under 2012 fick 55 wikis som hade använt den engelska Wiktionary-logotypen lokaliserade versioner av 2006 års design av "Smurrayinchester". I juli 2016 antog den engelska Wiktionary en variant av denna logotyp. Den 4 juli 2016 använder 135 wikis, som representerar 61 % av Wiktionarys inlägg, en logotyp baserad på 2006 års design av "Smurrayinchester", 33 wikis (36%) använder en textlogotyp och tre wikis (3%) använder 2009 design av "AAEngelman".

Kriterier för att säkerställa noggrannhet

För att säkerställa noggrannhet har den engelska Wiktionary en policy som kräver att villkoren ska bestyrkas . Termer på större språk som engelska och kinesiska måste verifieras av:

  1. klart utbredd användning, eller
  2. användning i permanent inspelade media, förmedlande mening, i minst tre oberoende tillfällen som sträcker sig över minst ett år.

För mindre dokumenterade språk som Creek och utdöda språk som latin är en användning i ett permanent inspelat medium eller ett omnämnande i ett uppslagsverk tillräcklig verifiering.

Flerspråkig

Från och med mars 2023 finns det Wiktionary-sajter för 187 språk, varav 163 är aktiva och 24 är stängda. De aktiva sajterna har 32 934 522 artiklar och de stängda sajterna har 339 artiklar. Det finns 6 890 857 registrerade användare varav 5 554 är nyligen aktiva.

De tio bästa Wiktionary-språkprojekten efter mainspace-artikel räknas:

Språk Wiki Bra Total Redigeringar Administratörer Användare Aktiva användare Filer
1 engelsk sv 7,355,323 8,585,410 72,149,321 109 4,047,545 2 218 22
2 franska fr 4,633,204 5 110 500 31,796,957 34 346,283 479 6
3 Madagaskar mg 1,869,916 1,927,449 29 700 739 2 10,383 8 3
4 kinesiska Z H 1,276,828 1 930 009 7,516,561 10 110,913 78 1
5 ryska ru 1,258,639 2,723,272 12,861,811 14 294,647 255 179
6 tysk de 1 075 826 1 251 002 9,749,130 15 224,312 213 104
7 spanska es 915,839 971,881 5,107,066 9 152,616 117 14
8 serbokroatiska sh 914,768 916,490 1 470 021 2 7 960 11 3
9 svenska sv 870,864 912,787 3,893,455 14 53,963 67 1
10 holländska nl 857,510 1,141,507 4,632,860 8 55,527 70 7

För en komplett lista med summor se Wikimedia Statistik:

kritisk mottagning

Det kritiska mottagandet av Wiktionary har varit blandat. 2006 Jill Lepore i artikeln "Noah's Ark" för The New Yorker ,



Det finns ingen handuppräckning på Wiktionary . Det finns inte ens en redaktion. "Var din egen lexikograf!", kan vara Wiktionarys motto. Vem behöver experter? Varför betala bra pengar för en ordbok skriven av lexikografer när vi kunde snickra ihop en själva? Wiktionary är inte så mycket republikansk eller demokratisk som maoistisk . Och det är bara så bra som de upphovsrättsligt utgångna böckerna som den snattar från.

Keir Graffs recension för Booklist var mindre kritisk:

Finns det en plats för Wiktionary? Otvivelaktigt. Branschen och entusiasmen hos dess många skapare är ett bevis på att det finns en marknad. Och det är underbart att ha ytterligare en stark källa att använda när man söker på de udda termer som dyker upp i dagens snabbt föränderliga värld och onlinemiljön. Men som med så många webbkällor (inklusive den här kolumnen), används den bäst av sofistikerade användare i kombination med mer välrenommerade källor. [ citat behövs ]

Referenser i andra publikationer är flyktiga och en del av större diskussioner om Wikipedia och går inte längre än en definition, även om David Brooks i The Nashua Telegraph beskrev det som "vild och ullig". Ett av hindren för oberoende täckning av Wiktionary är den fortsatta förvirringen att det bara är en förlängning av Wikipedia.

Måttet på korrekthet av böjningarna för en delmängd av de polska orden i den engelska Wiktionary visade att denna grammatiska data är mycket stabil. Endast 131 av 4 748 polska ord har fått sina böjningsdata korrigerade.

Från och med 2016 har Wiktionary sett växande användning i den akademiska världen .

Wiktionary data i naturlig språkbehandling

Wiktionary har semistrukturerad data . Wiktionary lexikografiska data kan konverteras till maskinläsbart format för att användas i naturliga språkbehandlingsuppgifter .

Wiktionarys datautvinning är en komplex uppgift. Det finns följande svårigheter:

  • (1) de konstanta och frekventa ändringarna av data och scheman
  • (2) heterogeniteten i Wiktionarys språkversionsschemata och
  • wikis människocentrerade natur .

Det finns flera parsers för olika Wiktionary-språkutgåvor:

Exempel på bearbetningsuppgifter för naturligt språk som har lösts med hjälp av Wiktionary-data inkluderar:

" Wikidata :Lexikografisk data" startades 2018 för att tillhandahålla strukturerat datastöd till Wiktionaries. Den lagrar orddata för alla språk i en maskinläsbar datamodell, under ett dedikerat " Lexeme "-namnområde i Wikidata. Från och med oktober 2021 har projektet samlat över 600 000 lexemposter på olika språk.

Se även

Anteckningar

Citat

Källor

  • Krizhanovsky, Andrew (2010). "Omvandling av Wiktionary-poststruktur till tabeller och relationer i ett relationsdatabasschema". arXiv : 1011.1368 [ cs ].
  • Krizhanovsky, Andrew (2010). "Jämförelsen av Wiktionary-tesauri förvandlas till det maskinläsbara formatet". arXiv : 1006.5040 [ cs ].
  • Li, Shen; Graça, Joao V.; Taskar, Ben (2012). "Wiki-ly övervakad ordstyre-taggning" (PDF) . Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning . Jeju Island, Korea: Association for Computational Linguistics. s. 1389–1398. Arkiverad från originalet (PDF) den 22 maj 2013 . Hämtad 10 maj 2013 .
  • Lin, Feiyu; Krizhanovsky, Andrew (2011). "Flerspråkig ontologimatchning baserad på Wiktionary-data tillgänglig via SPARQL-slutpunkt". Proc. av den 13:e ryska konferensen om digitala bibliotek RCDL'2011 . Voronezh, Ryssland. s. 19–26. arXiv : 1109.0732 . Bibcode : 2011arXiv1109.0732L .
  • "Wiktionary" . Topp 101 webbplatser. PC Magazine . Ziff Davis. 6 april 2005. Arkiverad från originalet 21 december 2005 . Hämtad 16 december 2005 .

externa länkar