Ryska nationalkorpus

Den ryska nationella korpusen ( ryska : Национальный корпус русского языка , lit. 'Ryska språkets nationella korpus') är en korpus av det ryska språket som delvis har varit tillgängligt via ett frågegränssnitt online sedan 29 april 2004. Det skapas av Institutet för det ryska språket, Russian Academy of Sciences .

Den innehåller för närvarande mer än 1 miljard ordformer som automatiskt lemmatiseras och POS -/grammeme- taggade , dvs alla möjliga morfologiska analyser för varje ortografisk form tillskrivs den. Lemmata, POS, grammatiska objekt och deras kombinationer är sökbara. Dessutom finns 6 miljoner ordformer i subkorpusen med manuellt löst homonymi .

Subkorpusen med upplöst morfologisk homonymi accentueras också automatiskt . Hela korpusen har en sökbar taggning rörande lexikal semantik (LS), inklusive morfosemantiska POS-underklasser (egennamn, reflexivt pronomen etc.), LS-egenskaper egentliga (tematisk klass, kausativitet, utvärdering), härledning (diminutiv, adverb bildat från adjektiv etc. ).

RNC inkluderar också följande underbolag:

  • en trädbank av syntaktiska beroenden (till stor del baserad på Igor Mel'čuk 's Meaning-Text Theory )
  • engelska⇔ryska, tyska⇒ryska, ukrainska⇔ryska och vitryska⇔ryska parallellkorpus ;
  • en stor (100+ miljoner ord) separat korpus av moderna tidningar (2001–2011);
  • en korpus av rysk poesi , där de rimmade orden och poetiska prosodi (inklusive meter, strofer etc.) dessutom är taggade;
  • en korpus av ryska dialekter med specifik dialektgrammatikmärkning;
  • en multimediakorpus med sökbara taggade fragment av ryskspråkiga filmer;
  • en korpus som visar historien om rysk stress
  • en pedagogisk underkorpus som återspeglar skolans standarder.

Alla texter har taggar med metatextuell information - författaren, hans/hennes födelsedatum, skapelsedatum, textstorlek, textgenrer (allmän skönlitteratur, deckare, tidningsartikel etc.); alla dessa kategorier är bläddringsbara och sökbara separat. Det är möjligt att definiera en användares underkorpus för att söka efter kombinationer av lemmata/POS-grammeme/semantiska taggar endast inom denna delmängd.

Se även

externa länkar