Teheran Monolingual Corpus

Teheran Monolingual Corpus (TMC) är en storskalig persisk enspråkig korpus. TMC lämpar sig för språkmodellering och relevanta forskningsområden inom Natural Language Processing .

Korpusen är extraherad från Hamshahri Corpus och ISNAs nyhetsbyrås webbplats. Kvaliteten på Hamshahri-korpus förbättras för språkmodelleringsändamål genom en serie tokeniserings- och stavningskontrollsteg.

TMC omfattar mer än 250 miljoner ord. Det totala antalet unika ord (med en frekvens av två eller fler) i korpusen är cirka 300 tusen, vilket är relativt bra för ett språk med hög böjning som persiska.

TMC är skapad av Natural Language Processing Lab vid University of Teheran . Korpusen är gratis för forskningsanvändning, efter att ha erhållit tillstånd från korpussamlaren.

Se även

externa länkar

TMC beskrivningssida

Korpuslingvistik
Textkorpus, engelska	American National Corpus Bank of English Bergen Corpus of London Teenage Language British National Corpus Brun Corpus Buckeye Corpus Cambridge English Corpus Corpus of Contemporary American English Enron Corpus EnTenTen International Corpus of English Lancaster-Oslo-Bergen Corpus Oxford English Corpus PropBank Talat engelska korpus TIMIT VerbNet Wellington Corpus of Spoken New Zealand English
Textkorpus, icke-engelska	Bijankhan Corpus BARN CorCenCC National Corpus of Contemporary Welsh kroatiska språkkorpus Kroatiska nationella korpus Tjeckiens nationella korpus Europarl Corpus Tyska referenskorpus Hamshahri Corpus Polskas nationella korpus Neo-assyriska textkorpusprojekt Persiska talkorpus Koranens arabiska korpus Ryska nationalkorpus Scottish Corpus of Texts and Speech Sloveniens nationella korpus TalkBank Tatoeba Teheran Monolingual Corpus Textaro de Esperanto TenTen Corpus Family Synonymordbok Linguae Graecae
Organisationer	BNC konsortium SAMBYGGA Sketch Engine