Binär oberoende modell

Den binära oberoende modellen ( BIM ) inom data- och informationsvetenskap är en probabilistisk teknik för informationsinhämtning . Modellen gör några enkla antaganden för att göra uppskattningen av dokument/fråga-likhet sannolik och genomförbar.

Definitioner

Det binära oberoende antagandet är att dokument är binära vektorer . Det vill säga att endast närvaron eller frånvaron av termer i dokument registreras. Villkor oberoende i uppsättningen relevanta dokument och de distribueras också oberoende i uppsättningen irrelevanta dokument. Representationen är en ordnad uppsättning booleska variabler. Det vill säga representationen av ett dokument eller en fråga är en vektor med ett booleskt element för varje term som övervägs. Mer specifikt representeras ett dokument av en vektor d ( x 1 , ..., x m ) xt = =0 där xt = 1 om termen t finns i dokumentet d och om den inte är det. Många dokument kan ha samma vektorrepresentation med denna förenkling. Frågor representeras på liknande sätt. "Oberoende" betyder att termer i dokumentet betraktas som oberoende av varandra och ingen koppling mellan termer modelleras. Detta antagande är mycket begränsande, men det har visat sig att det ger tillräckligt bra resultat för många situationer. Detta oberoende är det "naiva" antagandet av en naiv Bayes-klassificerare , där egenskaper som antyder varandra ändå behandlas som oberoende för enkelhetens skull. Detta antagande gör att representationen kan behandlas som en instans av en vektorrymdsmodell genom att betrakta varje term som ett värde på 0 eller 1 längs en dimension som är ortogonal mot dimensionerna som används för de andra termerna.

Sannolikheten relevant härrör från sannolikheten för relevans för termvektorn för det dokumentet . Genom att använda Bayes-regeln får vi:

där och är sannolikheterna att hämta ett relevant respektive icke-relevant dokument. Om så är fallet, är det dokumentets representation x . De exakta sannolikheterna kan inte vara kända i förväg, så uppskattningar från statistik om insamling av dokument måste användas.

och indikerar den tidigare sannolikheten att hämta en relevant eller icke-relevant dokument respektive för en fråga q . Om vi ​​till exempel visste procentandelen av relevanta dokument i samlingen, skulle vi kunna använda den för att uppskatta dessa sannolikheter. Eftersom ett dokument antingen är relevant eller icke-relevant för en fråga har vi följande:

Frågetermer Viktning

Givet en binär fråga och punktprodukten som likhetsfunktionen mellan ett dokument och en fråga, är problemet att tilldela vikter till termerna i frågan så att hämtningseffektiviteten blir hög. Låt och vara sannolikheten att ett relevant dokument och ett irrelevant dokument har den i :te termen. Yu och Salton , som först introducerade BIM, föreslår att vikten av den i : te termen är en ökande funktion av . Således, om är högre än vikten av term i att vara högre än term j . Yu och Salton visade att en sådan vikttilldelning av söktermer ger bättre hämtningseffektivitet än om frågetermer är lika viktade. Robertson och Spärck Jones visade senare att om den i: te termen tilldelas vikten av så erhålls optimal hämtningseffektivitet under antagandet om binär oberoende.

Den binära självständighetsmodellen introducerades av Yu och Salton. Namnet Binary Independence Model myntades av Robertson och Spärck Jones som använde log-oddssannolikheten för den probabilistiska relevansmodellen för att härleda där log-oddssannolikheten visas vara rang som motsvarar sannolikheten för relevans (dvs. ) av Luk, i enlighet med sannolikhetsrankningsprincipen.

Se även

Vidare läsning

  • Christopher D. Manning; Prabhakar Raghavan; Hinrich Schütze (2008), Introduktion till informationssökning , Cambridge University Press
  • Stefan Büttcher; Charles LA Clarke; Gordon V. Cormack (2010), Information Retrieval: Implementing and Evaluating Search Engines , MIT Press