Tjeckiens nationella korpus
Den tjeckiska nationella korpusen (CNC) (tjeckiska: Český národní korpus) är en stor elektronisk korpus av tjeckiskt språk i skrift och tal , utvecklad av Institutet för det tjeckiska nationella korpus (ICNC) vid Konstnärliga fakulteten vid Charles University i Prag . Samlingen används för undervisning och forskning i korpuslingvistik . ICNC samarbetar med över 200 forskare och studenter (främst för talad och parallell datainsamling), 270 förlag (som textleverantörer) och andra liknande forskningsprojekt.
Fokusområden
Tjeckiens nationella korpus fokuserar systematiskt på följande områden:
- Synkrona skrivna korpus : SYN-seriens korpus kartlägger det tjeckiska språket under 1900- och 2000-talet (särskilt de senaste tjugo åren) och utgör kärnan i projektet. Texter är berikade med metadata , lemmatisering och morfologisk taggning.
- Samtida spontant talat tjeckiska : Korporerna i ORAL-serien innehåller samtida, spontant talat språk som används i informella situationer i hela Tjeckien (i motsats till förberedda, sända eller manustexter som vanligtvis finns i talade korpus).
- Flerspråkig parallellkorpus : InterCorp är en stor korpus av tjeckiska texter anpassade på meningsnivå med översättningar till eller från mer än 30 språk. Kärnan i korpusen består av manuellt justerade och korrekturlästa skönlitterära texter.
- Diakronisk korpus av tjeckiska : DIAKORP-korpus av historisk tjeckisk innehåller texter från 1300-talet och framåt. DIAKORPs nuvarande fokus ligger på 1800-talet. Det långsiktiga målet för DIAKORP är att skapa en korpus som täcker perioden 1850–nutid och kopplar samman data med SYN-serien.
- Specialiserade språkliga data : ICNC är också involverad i insamlingen av språkdata för specifika forskningsändamål, inklusive DIALEKT (dialektalt tal), CzeSL (texter skrivna av icke-infödda elever i tjeckiska), DEAF (tjeckiska texter skrivna av döva), eller Jerome (översatt och icke-översatt tjeckiska).
externa länkar
Kategorier: