Korpuslingvistik

Korpuslingvistik är studiet av ett språk eftersom det språket uttrycks i dess textkorpus (plural corpora ), dess kropp av "verkliga världens" text. Corpus linguistics föreslår att en tillförlitlig analys av ett språk är mer genomförbar med korpus samlade i fältet – det naturliga sammanhanget ("realia") för det språket – med minimal experimentell interferens.

Text-corpus-metoden använder kroppen av texter skrivna på vilket naturligt språk som helst för att härleda den uppsättning abstrakta regler som styr det språket. Dessa resultat kan användas för att utforska sambandet mellan det ämnesspråket och andra språk som har genomgått en liknande analys. De första sådana korporna härleddes manuellt från källtexter, men nu är det arbetet automatiserat.

Corpora har inte bara använts för lingvistikforskning, de har också använts för att sammanställa ordböcker (som börjar med The American Heritage Dictionary of the English Language 1969) och grammatikguider, som A Comprehensive Grammar of the English Language , publicerad 1985.

Experter på området har olika åsikter om annotering av en korpus. Dessa åsikter sträcker sig från John McHardy Sinclair , som förespråkar minimal anteckning så att texter talar för sig själva, till Survey of English Usage- teamet ( University College , London), som förespråkar annotering som möjliggör större språklig förståelse genom noggrann inspelning.

Historia

Några av de tidigaste försöken med grammatisk beskrivning baserades åtminstone delvis på korpus av särskild religiös eller kulturell betydelse. Till exempel Prātiśākhya -litteraturen ljudmönster av sanskrit som finns i Veda , och Pāṇinis grammatik av klassisk sanskrit baserades åtminstone delvis på analys av samma korpus. På liknande sätt ägnade de tidiga arabiska grammatikerna särskild uppmärksamhet åt språket i Koranen . I den västeuropeiska traditionen förberedde forskare konkordanser för att möjliggöra detaljerade studier av Bibelns språk och andra kanoniska texter.

engelska korpus

Ett landmärke inom modern korpuslingvistik var publiceringen av Computational Analysis of Present-Day American English 1967. Verket skrevs av Henry Kučera och W. Nelson Francis och baserades på en analys av Brown Corpus , som var en samtida sammanställning av ca. en miljon amerikanska engelska ord, noggrant utvalda från en mängd olika källor. Kučera och Francis utsatte Brown Corpus för en mängd olika beräkningsanalyser och kombinerade sedan element av lingvistik, språkundervisning, psykologi , statistik och sociologi för att skapa ett rikt och brokigt opus. En ytterligare nyckelpublikation var Randolph Quirks "Towards a description of English Usage" 1960 där han introducerade Survey of English Usage .

Kort därefter kontaktade Boston-förläggaren Houghton-Mifflin Kučera för att tillhandahålla en miljonord, tre raders citatbas för sin nya American Heritage Dictionary , den första ordboken som sammanställts med hjälp av korpuslingvistik. AHD tog det innovativa steget att kombinera preskriptiva element (hur språket ska användas) med beskrivande information (hur det faktiskt används ) .

Andra förlag följde efter. Det brittiska förlaget Collins COBUILD monolingual learner's dictionary, utformad för användare som lär sig engelska som främmande språk, sammanställdes med hjälp av Bank of English . The Survey of English Usage Corpus användes i utvecklingen av en av de viktigaste Corpus-baserade grammatikerna, som skrevs av Quirk et al. och publicerades 1985 som A Comprehensive Grammar of the English Language .

Brown Corpus har också gett upphov till ett antal liknande strukturerade korpora: LOB Corpus (1960-talets brittiska engelska ), Kolhapur ( indisk engelska ), Wellington ( Nya Zealand English ), Australian Corpus of English ( australisk engelska ), the Frown Corpus (tidigt 1990-tal). amerikansk engelska ) och FLOB Corpus (1990-talets brittiska engelska). Andra korpus representerar många språk, varianter och lägen, och inkluderar International Corpus of English och British National Corpus, en samling på 100 miljoner ord av en rad talade och skrivna texter, skapad på 1990-talet av ett konsortium av förlag, universitet ( Oxford och Lancaster ) och British Library . För samtida amerikansk engelska har arbetet avstannat med American National Corpus , men 400+ miljoner ord Corpus of Contemporary American English (1990–nutid) är nu tillgängligt via ett webbgränssnitt.

Den första datoriserade korpusen av transkriberat talat språk konstruerades 1971 av Montreal French Project, innehållande en miljon ord, vilket inspirerade Shana Poplacks mycket större korpus av talad franska i Ottawa-Hull-området.

Flerspråkig Corpora

På 1990-talet inträffade många av de anmärkningsvärda tidiga framgångarna med statistiska metoder inom programmering med naturligt språk (NLP) inom området maskinöversättning , särskilt tack vare arbete på IBM Research. Dessa system kunde dra fördel av befintliga flerspråkiga textkorpus som hade producerats av Kanadas parlament och Europeiska unionen som ett resultat av lagar som kräver översättning av alla statliga förfaranden till alla officiella språk i motsvarande regeringssystem.

Det finns korpus på icke-europeiska språk också. Till exempel har National Institute for Japanese Language and Linguistics i Japan byggt ett antal korpus av talad och skriven japanska.

Forntida språkkorpus

Förutom dessa korpus av levande språk har datoriserade korpus också gjorts av samlingar av texter på antika språk. Ett exempel är Andersen -Forbes-databasen för den hebreiska bibeln, utvecklad sedan 1970-talet, där varje sats tolkas med hjälp av grafer som representerar upp till sju syntaxnivåer och varje segment taggat med sju informationsfält. Koranens arabiska korpus är en kommenterad korpus för det klassiska arabiska språket i Koranen . Detta är ett nyligen genomfört projekt med flera lager av annotering, inklusive morfologisk segmentering, orddeltaggning och syntaktisk analys med hjälp av beroendegrammatik. The Digital Corpus of Sanskrit (DCS) är en "Sandhi-delad korpus av sanskrittexter med full morfologisk och lexikal analys... utformad för texthistorisk forskning inom sanskritspråkvetenskap och filologi."

Corpora från specifika områden

Förutom ren språklig undersökning hade forskare börjat tillämpa korpuslingvistik på andra akademiska och professionella områden, såsom den framväxande underdisciplinen Law and Corpus Linguistics , som försöker förstå juridiska texter med hjälp av korpusdata och verktyg. DBLP Discovery Dataset koncentrerar sig på datavetenskap , och innehåller relevanta datavetenskapliga publikationer med kännande metadata som författartillhörighet, citat eller studieområden . En mer fokuserad datauppsättning introducerades av NLP Scholar, en kombination av artiklar från ACL Anthology och Google Scholar -metadata.

Metoder

Korpuslingvistik har genererat ett antal forskningsmetoder som försöker spåra en väg från data till teori. Wallis och Nelson (2001) introducerade först vad de kallade 3A-perspektivet: Annotation, Abstraction and Analysis.

Anteckningar består av tillämpningen av ett schema på texter. Anteckningar kan inkludera strukturell uppmärkning, ordspråktaggning , tolkning och många andra representationer.
Abstraktion består av översättning (kartläggning) av termer i schemat till termer i en teoretiskt motiverad modell eller datauppsättning. Abstraktion inkluderar vanligtvis lingviststyrd sökning men kan inkludera t.ex. regelinlärning för parsers.
Analys består av att statistiskt sondera, manipulera och generalisera från datamängden. Analyser kan innefatta statistiska utvärderingar, optimering av regelbaser eller kunskapsupptäckningsmetoder.

De flesta lexikaliska korpus idag är orddeltaggade (POS-taggade). Men även korpuslingvister som arbetar med "okommentarerad klartext" tillämpar oundvikligen någon metod för att isolera framträdande termer. I sådana situationer kombineras annotering och abstraktion i en lexikal sökning.

Fördelen med att publicera en kommenterad korpus är att andra användare sedan kan utföra experiment på korpusen (genom korpushanterare ) . Språkvetare med andra intressen och andra perspektiv än upphovsmännens kan utnyttja detta arbete. Genom att dela data kan korpuslingvister behandla korpusen som en plats för språklig debatt och vidare studier.

Se även

A Linguistic Atlas of Early Middle English
Samlokalisering
Kollostruktionsanalys
Konkordans ( KWIC )
European Language Resource Association
Nyckelord (lingvistik)
Linguistic Data Consortium
Lista över textkorpus
Maskinöversättning
Naturligt språk verktygslåda
Mönstergrammatik
Sökmotorer : de kommer åt "webbkorpus"
Semantisk prosodi
Talkorpus
Textkorpus
Översättningsminne
Trädbank
Ordlista

Anteckningar och referenser

Vidare läsning

Böcker

Biber, D., Conrad, S., Reppen R. Corpus Linguistics, Investigating Language Structure and Use , Cambridge: Cambridge UP, 1998. ISBN 0-521-49957-7
McCarthy, D. och Sampson G. Corpus Linguistics: Readings in a Widening Discipline , Continuum, 2005. ISBN 0-8264-8803-X
Facchinetti, R. Teoretical Description and Practical Applications of Linguistic Corpora . Verona: QuiEdit, 2007 ISBN 978-88-89480-37-3
Facchinetti, R. (red.) Corpus Linguistics 25 Years on . New York/Amsterdam: Rodopi, 2007 ISBN 978-90-420-2195-2
Facchinetti, R. och Rissanen M. (red.) Corpus-based Studies of Diachronic English . Bern: Peter Lang, 2006 ISBN 3-03910-851-4
Lenders, W. Computational lexicography and corpus linguistics tom ca. 1970/1980 , i: Gouws, RH, Heid, U., Schweickard, W., Wiegand, HE (red.) Dictionaries – An International Encyclopedia of Lexicography. Tilläggsvolym: Senaste utvecklingen med fokus på elektronisk och beräkningslexikografi . Berlin: De Gruyter Mouton, 2013 ISBN 978-3112146651
Fuß, Eric et al. (Red.): Grammar and Corpora 2016 , Heidelberg: Heidelberg University Publishing, 2018. doi : 10.17885/heiup.361.509 ( digital open access ) .
Stefanowitsch A. 2020. Corpus linguistics: A guide to the methodology . Berlin: Language Science Press. ISBN 978-3-96110-225-9 , doi : 10.5281/zenodo.3735822 Open Access https://langsci-press.org/catalog/book/148 .

Bokserie

Bokserier inom detta område inkluderar:

Tidskrifter

Det finns flera internationella peer-reviewed tidskrifter dedikerade till korpuslingvistik, till exempel:

Corpora
Korpuslingvistik och lingvistisk teori
ICAME Journal
International Journal of Corpus Linguistics
Language Resources and Evaluation Journal , med stöd av European Language Resources Association
Forskning i Corpus Linguistics , stödd av den spanska föreningen för Corpus Linguistics (AELINCO)

externa länkar

Bokmärken för korpusbaserade lingvister – mycket omfattande webbplats med kategoriserade och kommenterade länkar till språkkorpus, programvara, referenser, etc.
Företagsdiskussionslista
Fritt tillgängliga, webbaserade korpus (100 miljoner – 400 miljoner ord vardera): amerikansk (COCA, COHA), brittisk (BNC), tid , spansk, portugisisk
Manuel Barberas översiktssajt
Przemek Kaszubskis referenslista
AskOxford.com sammansättningen och användningen av Oxford Corpus
DMCBC.com
Datum Multilanguage Corpora Baserat på kinesisk gratis nedladdning
Corpus4u Community ett kinesiskt onlineforum för korpuslingvistik
McEnery och Wilsons Corpus Linguistics Page
Corpus Linguistics med R e-postlista
Forsknings- och utvecklingsenheten för engelska studier
Undersökning av engelsk användning
Center for Corpus Linguistics vid Birmingham University
Verktyg för Corpus Linguistics (kommentarerad lista)
Gateway to Corpus Linguistics on the Internet : en kommenterad guide till korpusresurser på webben
Biomedicinska korpus
Linguistic Data Consortium , en stor distributör av korpora
Penn analyserade Corpora of Historical English
Corsis : (tidigare Tenka Text) ett korpusanalysverktyg med öppen källkod ( GPLed ) skrivet i C#
ICECUP och Fuzzy Tree Fragments
Diskussionsgrupp text mining
En korpuslingvistikrelaterad konferens MAG 2017: Du kan hitta information och evenemang relaterade till Metadiscourse Across Genres genom att besöka MAG 2017:s webbplats .
Corpus of Political Speeches , Fri tillgång till politiska tal av amerikanska och kinesiska politiker, utvecklad av Hong Kong Baptist University Library
LightTag -Text Annotation Tool , Ett textkommentarverktyg för maskininlärningskorpus fokuserat på teamledning
LIVAC Synchronous Corpus