Okapi BM25

Inom informationssökning är Okapi BM25 ( BM är en förkortning av bästa matchning ) en rankningsfunktion som används av sökmotorer för att uppskatta dokumentens relevans för en given sökfråga. Den är baserad på den probabilistiska återvinningsram som utvecklades på 1970- och 1980-talen av Stephen E. Robertson, Karen Spärck Jones och andra.

Namnet på den faktiska rankningsfunktionen är BM25 . Det fullständigare namnet, Okapi BM25 , inkluderar namnet på det första systemet som använde det, vilket var Okapi informationshämtningssystem, implementerat vid Londons City University på 1980- och 1990-talen . BM25 och dess nyare varianter, t.ex. BM25F (en version av BM25 som kan ta hänsyn till dokumentstruktur och ankartext), representerar TF-IDF- liknande hämtningsfunktioner som används vid dokumenthämtning. [ citat behövs ]

Rangordningsfunktionen

BM25 är en säck-of-words hämtningsfunktion som rangordnar en uppsättning dokument baserat på söktermerna som förekommer i varje dokument, oavsett deras närhet i dokumentet. Det är en familj av poängfunktioner med lite olika komponenter och parametrar. En av de mest framträdande instansieringarna av funktionen är följande.

Givet en fråga Q , som innehåller nyckelord , BM25-poängen för ett dokument D är:

där är antalet gånger som förekommer i dokumentet D , är längden på dokumentet D i ord, och avgdl är den genomsnittliga dokumentlängden i textsamlingen som dokumenten hämtas från. och b är fria parametrar, vanligtvis valda, i frånvaro av en avancerad optimering, som och . är IDF-vikten ( invers dokumentfrekvens ) för frågetermen . Det beräknas vanligtvis som:

där N är det totala antalet dokument i samlingen och är antalet dokument som innehåller .

Det finns flera tolkningar för IDF och små variationer på dess formel. I den ursprungliga BM25-härledningen är IDF-komponenten härledd från den binära oberoendemodellen .

IDF informationsteoretisk tolkning

Här är en tolkning från informationsteori. Antag att en frågeterm förekommer i dokument. Sedan kommer ett slumpmässigt valt dokument att innehålla termen med sannolikhet där återigen är kardinalitet av uppsättningen dokument i samlingen). Därför är informationsinnehållet i meddelandet " innehåller

Anta nu att vi har två frågetermer och . Om de två termerna förekommer i dokument helt oberoende av varandra, då är sannolikheten att se både och i ett slumpmässigt valt dokument är:

och informationsinnehållet för en sådan händelse är:

Med en liten variation är detta precis vad som uttrycks av IDF-komponenten i BM25.

Ändringar

  • Vid de extrema värdena av koefficienten b förvandlas BM25 till rangordningsfunktioner kända som BM11 (för ) och BM15 (för ).
  • BM25F (eller BM25-modellen med utvidgning till flera viktade fält ) är en modifiering av BM25 där dokumentet anses vara sammansatt av flera fält (som rubriker, huvudtext, ankartext) med möjligen olika grad av betydelse, termrelevans mättnad och längdnormalisering. BM25F definierar varje typ av fält som en ström , och tillämpar en viktning per ström för att skala varje ström mot den beräknade poängen.
  • BM25+ är en förlängning av BM25. BM25+ utvecklades för att åtgärda en brist hos standarden BM25 där komponenten av termfrekvensnormalisering genom dokumentlängd inte är korrekt nedre gräns; Som ett resultat av denna brist kan långa dokument som stämmer överens med söktermen ofta bedömas orättvist av BM25 som att de har liknande relevans som kortare dokument som inte alls innehåller frågetermen. Poängformeln för BM25+ har bara en ytterligare ledig parameter (ett standardvärde är 1,0 i frånvaro av träningsdata) jämfört med BM25:

Allmänna referenser

externa länkar