Teheran Monolingual Corpus
Teheran Monolingual Corpus (TMC) är en storskalig persisk enspråkig korpus. TMC lämpar sig för språkmodellering och relevanta forskningsområden inom Natural Language Processing .
Korpusen är extraherad från Hamshahri Corpus och ISNAs nyhetsbyrås webbplats. Kvaliteten på Hamshahri-korpus förbättras för språkmodelleringsändamål genom en serie tokeniserings- och stavningskontrollsteg.
TMC omfattar mer än 250 miljoner ord. Det totala antalet unika ord (med en frekvens av två eller fler) i korpusen är cirka 300 tusen, vilket är relativt bra för ett språk med hög böjning som persiska.
TMC är skapad av Natural Language Processing Lab vid University of Teheran . Korpusen är gratis för forskningsanvändning, efter att ha erhållit tillstånd från korpussamlaren.