Gensim

Gensim
Originalförfattare Radim Řehůřek
Utvecklare RARE Technologies Ltd.
Initial release 2009
Stabil frisättning
4.3.0 / 21 december 2022 ; 2 månader sedan ( 21 december 2022 )
Förvar github .com /RaRe-Technologies /gensim
Skrivet i Pytonorm
Operativ system Linux , Windows , macOS
Typ Informationsinhämtning
Licens LGPL
Hemsida radimrehurek .com /gensim /

Gensim är ett bibliotek med öppen källkod för oövervakad ämnesmodellering , dokumentindexering , hämtning genom likhet och andra naturliga språkbehandlingsfunktioner , med hjälp av modern statistisk maskininlärning .

Gensim är implementerat i Python och Cython för prestanda. Gensim är designat för att hantera stora textsamlingar med hjälp av dataströmning och inkrementella onlinealgoritmer, vilket skiljer den från de flesta andra programvarupaket för maskininlärning som endast riktar in sig på bearbetning i minnet.

Huvuddrag

Gensim inkluderar strömmade parallelliserade implementeringar av fastText , word2vec och doc2vec algoritmer, såväl som latent semantisk analys (LSA, LSI, SVD), icke-negativ matrisfaktorisering (NMF), latent Dirichlet-allokering (LDA), tf-idf och slumpmässiga projektioner .

Några av de nya onlinealgoritmerna i Gensim publicerades också i 2011 års doktorsavhandling Scalability of Semantic Analysis in Natural Language Processing av Radim Řehůřek, skaparen av Gensim.

Användning av Gensim

Gensim har använts och citerats i över 1400 kommersiella och akademiska ansökningar från och med 2018, inom en mängd olika discipliner från medicin till analys av försäkringskrav till patentsökning. Mjukvaran har behandlats i flera nya artiklar, poddar och intervjuer.

Gratis och kommersiell support

Den öppna källkoden är utvecklad och värd på GitHub och ett offentligt supportforum upprätthålls på Google Groups och Gitter .

Gensim stöds kommersiellt av företaget rare-technologies.com, som också tillhandahåller studentmentorskap och akademiska examensarbeten för Gensim via deras Student Incubator-program.

externa länkar