Korpuslingvistik

Korpuslingvistik är studiet av ett språk eftersom det språket uttrycks i dess textkorpus (plural corpora ), dess kropp av "verkliga världens" text. Corpus linguistics föreslår att en tillförlitlig analys av ett språk är mer genomförbar med korpus samlade i fältet – det naturliga sammanhanget ("realia") för det språket – med minimal experimentell interferens.

Text-corpus-metoden använder kroppen av texter skrivna på vilket naturligt språk som helst för att härleda den uppsättning abstrakta regler som styr det språket. Dessa resultat kan användas för att utforska sambandet mellan det ämnesspråket och andra språk som har genomgått en liknande analys. De första sådana korporna härleddes manuellt från källtexter, men nu är det arbetet automatiserat.

Corpora har inte bara använts för lingvistikforskning, de har också använts för att sammanställa ordböcker (som börjar med The American Heritage Dictionary of the English Language 1969) och grammatikguider, som A Comprehensive Grammar of the English Language , publicerad 1985.

Experter på området har olika åsikter om annotering av en korpus. Dessa åsikter sträcker sig från John McHardy Sinclair , som förespråkar minimal anteckning så att texter talar för sig själva, till Survey of English Usage- teamet ( University College , London), som förespråkar annotering som möjliggör större språklig förståelse genom noggrann inspelning.

Historia

Några av de tidigaste försöken med grammatisk beskrivning baserades åtminstone delvis på korpus av särskild religiös eller kulturell betydelse. Till exempel Prātiśākhya -litteraturen ljudmönster av sanskrit som finns i Veda , och Pāṇinis grammatik av klassisk sanskrit baserades åtminstone delvis på analys av samma korpus. På liknande sätt ägnade de tidiga arabiska grammatikerna särskild uppmärksamhet åt språket i Koranen . I den västeuropeiska traditionen förberedde forskare konkordanser för att möjliggöra detaljerade studier av Bibelns språk och andra kanoniska texter.

engelska korpus

Ett landmärke inom modern korpuslingvistik var publiceringen av Computational Analysis of Present-Day American English 1967. Verket skrevs av Henry Kučera och W. Nelson Francis och baserades på en analys av Brown Corpus , som var en samtida sammanställning av ca. en miljon amerikanska engelska ord, noggrant utvalda från en mängd olika källor. Kučera och Francis utsatte Brown Corpus för en mängd olika beräkningsanalyser och kombinerade sedan element av lingvistik, språkundervisning, psykologi , statistik och sociologi för att skapa ett rikt och brokigt opus. En ytterligare nyckelpublikation var Randolph Quirks "Towards a description of English Usage" 1960 där han introducerade Survey of English Usage .

Kort därefter kontaktade Boston-förläggaren Houghton-Mifflin Kučera för att tillhandahålla en miljonord, tre raders citatbas för sin nya American Heritage Dictionary , den första ordboken som sammanställts med hjälp av korpuslingvistik. AHD tog det innovativa steget att kombinera preskriptiva element (hur språket ska användas) med beskrivande information (hur det faktiskt används ) .

Andra förlag följde efter. Det brittiska förlaget Collins COBUILD monolingual learner's dictionary, utformad för användare som lär sig engelska som främmande språk, sammanställdes med hjälp av Bank of English . The Survey of English Usage Corpus användes i utvecklingen av en av de viktigaste Corpus-baserade grammatikerna, som skrevs av Quirk et al. och publicerades 1985 som A Comprehensive Grammar of the English Language .

Brown Corpus har också gett upphov till ett antal liknande strukturerade korpora: LOB Corpus (1960-talets brittiska engelska ), Kolhapur ( indisk engelska ), Wellington ( Nya Zealand English ), Australian Corpus of English ( australisk engelska ), the Frown Corpus (tidigt 1990-tal). amerikansk engelska ) och FLOB Corpus (1990-talets brittiska engelska). Andra korpus representerar många språk, varianter och lägen, och inkluderar International Corpus of English och British National Corpus, en samling på 100 miljoner ord av en rad talade och skrivna texter, skapad på 1990-talet av ett konsortium av förlag, universitet ( Oxford och Lancaster ) och British Library . För samtida amerikansk engelska har arbetet avstannat med American National Corpus , men 400+ miljoner ord Corpus of Contemporary American English (1990–nutid) är nu tillgängligt via ett webbgränssnitt.

Den första datoriserade korpusen av transkriberat talat språk konstruerades 1971 av Montreal French Project, innehållande en miljon ord, vilket inspirerade Shana Poplacks mycket större korpus av talad franska i Ottawa-Hull-området.

Flerspråkig Corpora

På 1990-talet inträffade många av de anmärkningsvärda tidiga framgångarna med statistiska metoder inom programmering med naturligt språk (NLP) inom området maskinöversättning , särskilt tack vare arbete på IBM Research. Dessa system kunde dra fördel av befintliga flerspråkiga textkorpus som hade producerats av Kanadas parlament och Europeiska unionen som ett resultat av lagar som kräver översättning av alla statliga förfaranden till alla officiella språk i motsvarande regeringssystem.

Det finns korpus på icke-europeiska språk också. Till exempel har National Institute for Japanese Language and Linguistics i Japan byggt ett antal korpus av talad och skriven japanska.

Forntida språkkorpus

Förutom dessa korpus av levande språk har datoriserade korpus också gjorts av samlingar av texter på antika språk. Ett exempel är Andersen -Forbes-databasen för den hebreiska bibeln, utvecklad sedan 1970-talet, där varje sats tolkas med hjälp av grafer som representerar upp till sju syntaxnivåer och varje segment taggat med sju informationsfält. Koranens arabiska korpus är en kommenterad korpus för det klassiska arabiska språket i Koranen . Detta är ett nyligen genomfört projekt med flera lager av annotering, inklusive morfologisk segmentering, orddeltaggning och syntaktisk analys med hjälp av beroendegrammatik. The Digital Corpus of Sanskrit (DCS) är en "Sandhi-delad korpus av sanskrittexter med full morfologisk och lexikal analys... utformad för texthistorisk forskning inom sanskritspråkvetenskap och filologi."

Corpora från specifika områden

Förutom ren språklig undersökning hade forskare börjat tillämpa korpuslingvistik på andra akademiska och professionella områden, såsom den framväxande underdisciplinen Law and Corpus Linguistics , som försöker förstå juridiska texter med hjälp av korpusdata och verktyg. DBLP Discovery Dataset koncentrerar sig på datavetenskap , och innehåller relevanta datavetenskapliga publikationer med kännande metadata som författartillhörighet, citat eller studieområden . En mer fokuserad datauppsättning introducerades av NLP Scholar, en kombination av artiklar från ACL Anthology och Google Scholar -metadata.

Metoder

Korpuslingvistik har genererat ett antal forskningsmetoder som försöker spåra en väg från data till teori. Wallis och Nelson (2001) introducerade först vad de kallade 3A-perspektivet: Annotation, Abstraction and Analysis.

  • Anteckningar består av tillämpningen av ett schema på texter. Anteckningar kan inkludera strukturell uppmärkning, ordspråktaggning , tolkning och många andra representationer.
  • Abstraktion består av översättning (kartläggning) av termer i schemat till termer i en teoretiskt motiverad modell eller datauppsättning. Abstraktion inkluderar vanligtvis lingviststyrd sökning men kan inkludera t.ex. regelinlärning för parsers.
  • Analys består av att statistiskt sondera, manipulera och generalisera från datamängden. Analyser kan innefatta statistiska utvärderingar, optimering av regelbaser eller kunskapsupptäckningsmetoder.

De flesta lexikaliska korpus idag är orddeltaggade (POS-taggade). Men även korpuslingvister som arbetar med "okommentarerad klartext" tillämpar oundvikligen någon metod för att isolera framträdande termer. I sådana situationer kombineras annotering och abstraktion i en lexikal sökning.

Fördelen med att publicera en kommenterad korpus är att andra användare sedan kan utföra experiment på korpusen (genom korpushanterare ) . Språkvetare med andra intressen och andra perspektiv än upphovsmännens kan utnyttja detta arbete. Genom att dela data kan korpuslingvister behandla korpusen som en plats för språklig debatt och vidare studier.

Se även

Anteckningar och referenser

Vidare läsning

Böcker

Bokserie

Bokserier inom detta område inkluderar:

Tidskrifter

Det finns flera internationella peer-reviewed tidskrifter dedikerade till korpuslingvistik, till exempel:

externa länkar