Lemurprojekt

Lemurprojektet är ett samarbete mellan Center for Intelligent Information Retrieval vid University of Massachusetts Amherst och Language Technologies Institute vid Carnegie Mellon University . Lemurprojektet utvecklar sökmotorer, webbläsarverktygsfält, textanalysverktyg och dataresurser som stödjer forskning och utveckling av informationshämtning och textutvinningsprogram. Projektet är mest känt för sina Indri- och Galago-sökmotorer, datauppsättningarna ClueWeb09 och ClueWeb12 och RankLib-biblioteket för lärande-att-ranka. Programvaran och datauppsättningarna används i stor utsträckning i vetenskapliga och forskningsapplikationer, såväl som i vissa kommersiella applikationer.

Lemurprojektets mjukvaruutvecklingsfilosofi betonar toppmodern noggrannhet, flexibilitet och effektivitet. Till exempel ger Indri-sökmotorn exakt sökning efter stora textsamlingar "out of the box", och data lagras på ett tillgängligt sätt för att stödja utvecklingen av nya hämtningsstrategier. Programvara från Lemur Project distribueras under öppen källkod som ger flexibilitet till forskare och mjukvaruutvecklare.

Programmeringsspråken som används för att skapa Lemur är C , C++ och Java , och det kommer tillsammans med källfilerna och bygginstruktionerna. Den tillhandahållna källkoden kan modifieras i syfte att utveckla nya bibliotek. Den är kompatibel med olika operativsystem som inkluderar Linux och Windows.

Funktioner

Lemur stöder följande funktioner:

  • Indexering:
  • Hämtning:
    • Ad hoc-hämtning ( TF-IDF och InQuery)
    • Passage och tvärspråkig hämtning
    • Språkmodellering
      • Uppdatering av frågemodell
      • Tvåstegs utjämning
    • Relevansfeedback
    • Structured Query Language
    • Matchning med jokertecken
  • Distribuerad IR:
    • Frågebaserad sampling
    • Databasbaserad rankning (CORI)
    • Resultat sammanslagna
  • Dokumentklustring
  • Sammanfattning
  • Enkel textbehandling

Komponenter

Lemur Project har följande komponenter:

  • Indri sökmotor i C++
  • Galago sökmotorforskningsramverk i Java
  • RankLib lärande-att-ranka bibliotek
  • Sifaka data mining-applikation
  • Datauppsättningar ClueWeb09 och ClueWeb12
  • Frågeloggverktygsfält

Senaste versionen

Uppdateringar av Lemur-projektets komponenter görs två gånger om året, i juni och december. Den senaste versionen av Indri-sökmotorn är 5.17. Den senaste versionen av Galago-sökmotorn är version 3.18. Den senaste versionen av RankLib lärande-att-ranka-biblioteket är 2.14. Den senaste versionen av Sifakas datautvinningsapplikation är 1.8.

Indri sökmotor

Indri-sökmotorn är en av komponenterna som utvecklats av Lemur Project. Det är öppen källkod. Frågespråket som används i Indri tillåter forskare att indexera data eller strukturera dokument med enkla kommandoradsinstruktioner. Indri erbjuder flexibilitet vad gäller anpassning till olika aktuella applikationer. Den kan också distribueras över ett kluster av noder för hög prestanda. Indri sökmotor kan hantera stora samlingar av data och kan förstå olika dataformat som HTML och XML .

Indri API stöder olika programmerings- och skriptspråk som C++, Java , C# och PHP .

Funktioner i Indri sökmotor

  • Kan använda sig av flera dokumentrepresentationer
  • Explicit termviktning
  • Robust frågespråk
  • Formellt välgrundad
  • Väldigt effektiv
  • Kan implementeras effektivt

Se även

externa länkar