Bulgarian National Corpus
Bulgarian National Corpus (BulNC) är en stor representativ korpus av bulgariska som omfattar cirka 200 000 texter och uppgår till över 1 miljard ord.
Historia
Den bulgariska nationella korpusen skapas vid Institutet för det bulgariska språket „Prof. L. Andreychin” av forskarassistenter från avdelningen för beräkningslingvistik och avdelningen för bulgarisk lexikologi och lexikografi. BulNC innehåller flera individuella elektroniska korpora, utvecklade under perioden 2001-2009 för ändamålen för de två avdelningarna. Korpusen utökas ständigt med nya texter.
Innehåll
Den bulgariska nationella korpusen består av en enspråkig (bulgarisk) del och 47 parallella korpus. Den bulgariska delen innehåller cirka 1,2 miljarder ord i över 240 000 textexempel. Materialet i Corpus speglar tillståndet för det bulgariska språket (främst i dess skriftliga form) från mitten av 1900-talet (1945) fram till idag.
Den innehåller också parallella korpus av olika storlek för 47 främmande språk.
BulNC är kommenterad på olika språkliga nivåer.
Ansökningar
Bulgarian National Corpus möjliggör ett antal tillämpningar inom olika språkliga områden: i beräkningslingvistik; i lexikografi; inom teoretiska studier av specifika språkliga fenomen; för observationer av egenskaperna hos enskilda språkdomäner; för att utvinna exemplariska meningar för utbildningen i bulgariska språket m.m.
Några av de mer specifika tillämpningarna av Corpus listas nedan:
- Extraktion av specifika eller allmänna underkorpora enligt särskilda kriterier (ämne, författare, år/publiceringsperiod, källa, etc.), som skulle kunna användas som träningskorpor för ett antal tillämpningar – grammatisk och semantisk taggning, bland annat, som såväl som för andra forskningsändamål.
- Observationer om användningsfrekvens av ord eller språkkonstruktioner, generering av frekvenslistor m.m.
- Söker i Corpus efter exempel på speciella språkliga fenomen, lexikografiska exempel eller för utbildningsändamål i undervisningen i bulgariska språket (tillgänglig att använda över Internet).
Tillgång
Tillgång till BulNC är gratis för allmänt bruk [ förtydligande behövs] och inkluderar:
- Tillgång till BulNC-sökmotorn
- Vissa underkorporationer finns tillgängliga för nedladdning