Lemurprojekt
Lemurprojektet är ett samarbete mellan Center for Intelligent Information Retrieval vid University of Massachusetts Amherst och Language Technologies Institute vid Carnegie Mellon University . Lemurprojektet utvecklar sökmotorer, webbläsarverktygsfält, textanalysverktyg och dataresurser som stödjer forskning och utveckling av informationshämtning och textutvinningsprogram. Projektet är mest känt för sina Indri- och Galago-sökmotorer, datauppsättningarna ClueWeb09 och ClueWeb12 och RankLib-biblioteket för lärande-att-ranka. Programvaran och datauppsättningarna används i stor utsträckning i vetenskapliga och forskningsapplikationer, såväl som i vissa kommersiella applikationer.
Lemurprojektets mjukvaruutvecklingsfilosofi betonar toppmodern noggrannhet, flexibilitet och effektivitet. Till exempel ger Indri-sökmotorn exakt sökning efter stora textsamlingar "out of the box", och data lagras på ett tillgängligt sätt för att stödja utvecklingen av nya hämtningsstrategier. Programvara från Lemur Project distribueras under öppen källkod som ger flexibilitet till forskare och mjukvaruutvecklare.
Programmeringsspråken som används för att skapa Lemur är C , C++ och Java , och det kommer tillsammans med källfilerna och bygginstruktionerna. Den tillhandahållna källkoden kan modifieras i syfte att utveckla nya bibliotek. Den är kompatibel med olika operativsystem som inkluderar Linux och Windows.
Funktioner
Lemur stöder följande funktioner:
- Indexering:
- Engelsk, kinesisk och arabisk text
- Ordstammar _
- Stoppa ord
- Tokenisering
- Passage och inkrementell indexering
- Hämtning:
- Ad hoc-hämtning ( TF-IDF och InQuery)
- Passage och tvärspråkig hämtning
- Språkmodellering
- Uppdatering av frågemodell
- Tvåstegs utjämning
- Relevansfeedback
- Structured Query Language
- Matchning med jokertecken
- Distribuerad IR:
- Frågebaserad sampling
- Databasbaserad rankning (CORI)
- Resultat sammanslagna
- Dokumentklustring
- Sammanfattning
- Enkel textbehandling
Komponenter
Lemur Project har följande komponenter:
- Indri sökmotor i C++
- Galago sökmotorforskningsramverk i Java
- RankLib lärande-att-ranka bibliotek
- Sifaka data mining-applikation
- Datauppsättningar ClueWeb09 och ClueWeb12
- Frågeloggverktygsfält
Senaste versionen
Uppdateringar av Lemur-projektets komponenter görs två gånger om året, i juni och december. Den senaste versionen av Indri-sökmotorn är 5.17. Den senaste versionen av Galago-sökmotorn är version 3.18. Den senaste versionen av RankLib lärande-att-ranka-biblioteket är 2.14. Den senaste versionen av Sifakas datautvinningsapplikation är 1.8.
Indri sökmotor
Indri-sökmotorn är en av komponenterna som utvecklats av Lemur Project. Det är öppen källkod. Frågespråket som används i Indri tillåter forskare att indexera data eller strukturera dokument med enkla kommandoradsinstruktioner. Indri erbjuder flexibilitet vad gäller anpassning till olika aktuella applikationer. Den kan också distribueras över ett kluster av noder för hög prestanda. Indri sökmotor kan hantera stora samlingar av data och kan förstå olika dataformat som HTML och XML .
Indri API stöder olika programmerings- och skriptspråk som C++, Java , C# och PHP .
Funktioner i Indri sökmotor
- Kan använda sig av flera dokumentrepresentationer
- Explicit termviktning
- Robust frågespråk
- Formellt välgrundad
- Väldigt effektiv
- Kan implementeras effektivt
Se även
externa länkar