Teheran Monolingual Corpus

Teheran Monolingual Corpus (TMC) är en storskalig persisk enspråkig korpus. TMC lämpar sig för språkmodellering och relevanta forskningsområden inom Natural Language Processing .

Korpusen är extraherad från Hamshahri Corpus och ISNAs nyhetsbyrås webbplats. Kvaliteten på Hamshahri-korpus förbättras för språkmodelleringsändamål genom en serie tokeniserings- och stavningskontrollsteg.

TMC omfattar mer än 250 miljoner ord. Det totala antalet unika ord (med en frekvens av två eller fler) i korpusen är cirka 300 tusen, vilket är relativt bra för ett språk med hög böjning som persiska.

TMC är skapad av Natural Language Processing Lab vid University of Teheran . Korpusen är gratis för forskningsanvändning, efter att ha erhållit tillstånd från korpussamlaren.

Se även

externa länkar