Tjeckiens nationella korpus

Den tjeckiska nationella korpusen (CNC) (tjeckiska: Český národní korpus) är en stor elektronisk korpus av tjeckiskt språk i skrift och tal , utvecklad av Institutet för det tjeckiska nationella korpus (ICNC) vid Konstnärliga fakulteten vid Charles University i Prag . Samlingen används för undervisning och forskning i korpuslingvistik . ICNC samarbetar med över 200 forskare och studenter (främst för talad och parallell datainsamling), 270 förlag (som textleverantörer) och andra liknande forskningsprojekt.

Fokusområden

Tjeckiens nationella korpus fokuserar systematiskt på följande områden:

Synkrona skrivna korpus : SYN-seriens korpus kartlägger det tjeckiska språket under 1900- och 2000-talet (särskilt de senaste tjugo åren) och utgör kärnan i projektet. Texter är berikade med metadata , lemmatisering och morfologisk taggning.
Samtida spontant talat tjeckiska : Korporerna i ORAL-serien innehåller samtida, spontant talat språk som används i informella situationer i hela Tjeckien (i motsats till förberedda, sända eller manustexter som vanligtvis finns i talade korpus).
Flerspråkig parallellkorpus : InterCorp är en stor korpus av tjeckiska texter anpassade på meningsnivå med översättningar till eller från mer än 30 språk. Kärnan i korpusen består av manuellt justerade och korrekturlästa skönlitterära texter.
Diakronisk korpus av tjeckiska : DIAKORP-korpus av historisk tjeckisk innehåller texter från 1300-talet och framåt. DIAKORPs nuvarande fokus ligger på 1800-talet. Det långsiktiga målet för DIAKORP är att skapa en korpus som täcker perioden 1850–nutid och kopplar samman data med SYN-serien.
Specialiserade språkliga data : ICNC är också involverad i insamlingen av språkdata för specifika forskningsändamål, inklusive DIALEKT (dialektalt tal), CzeSL (texter skrivna av icke-infödda elever i tjeckiska), DEAF (tjeckiska texter skrivna av döva), eller Jerome (översatt och icke-översatt tjeckiska).

externa länkar

Korpuslingvistik
Textkorpus, engelska	American National Corpus Bank of English Bergen Corpus of London Teenage Language British National Corpus Brun Corpus Buckeye Corpus Cambridge English Corpus Corpus of Contemporary American English Enron Corpus EnTenTen International Corpus of English Lancaster-Oslo-Bergen Corpus Oxford English Corpus PropBank Talat engelska korpus TIMIT VerbNet Wellington Corpus of Spoken New Zealand English
Textkorpus, icke-engelska	Bijankhan Corpus BARN CorCenCC National Corpus of Contemporary Welsh kroatiska språkkorpus Kroatiska nationella korpus Tjeckiens nationella korpus Europarl Corpus Tyska referenskorpus Hamshahri Corpus National Corpus of Polish Neo-assyriska textkorpusprojekt Persiska talkorpus Koranens arabiska korpus Ryska nationalkorpus Scottish Corpus of Texts and Speech Sloveniens nationella korpus TalkBank Tatoeba Teheran Monolingual Corpus Textaro de Esperanto TenTen Corpus Family Synonymordbok Linguae Graecae
Organisationer	BNC konsortium SAMBYGGA Sketch Engine