Konferens för texthämtning
Text Retrieval Conference | |
---|---|
Förkortning | TREC |
Disciplin | informationsinhämtning |
Publiceringsinformation | |
Utgivare | NIST |
Historia | 1992 |
Frekvens | årlig |
Hemsida |
Text Retrieval Conference ( TREC ) är en pågående serie workshops som fokuserar på en lista över olika forskningsområden för informationshämtning (IR) eller spår. Det är medsponsrat av National Institute of Standards and Technology (NIST) och Intelligence Advanced Research Projects Activity (en del av kontoret för Director of National Intelligence ), och började 1992 som en del av TIPSTER Text-programmet . Dess syfte är att stödja och uppmuntra forskning inom informationssökningsgemenskapen genom att tillhandahålla den infrastruktur som krävs för storskalig utvärdering av texthämtningsmetoder och för att öka hastigheten för överföring av teknologi från labb till produkt .
TREC:s utvärderingsprotokoll har förbättrat många sökteknologier. En studie från 2010 uppskattade att "utan TREC skulle amerikanska internetanvändare ha spenderat upp till 3,15 miljarder extra timmar på att använda webbsökmotorer mellan 1999 och 2009." Hal Varian , chefsekonom på Google , skrev att "TREC-data vitaliserade forskning om informationssökning. Att ha en standard, allmänt tillgänglig och noggrant konstruerad uppsättning data lade grunden för ytterligare innovation inom detta område."
Varje spår har en utmaning där NIST förser deltagande grupper med datamängder och testproblem. Beroende på spår kan testproblem vara frågor, ämnen eller målutdragbara funktioner . Enhetlig poängsättning utförs så att systemen kan utvärderas rättvist. Efter utvärdering av resultaten ger en workshop en plats för deltagarna att samla tankar och idéer och presentera nuvarande och framtida forskningsarbete. Text Retrieval Conference startade 1992, finansierad av DARPA (US Defense Advanced Research Project) och drivs av NIST. Dess syfte var att stödja forskning inom informationssökningsgemenskapen genom att tillhandahålla den infrastruktur som är nödvändig för storskalig utvärdering av texthämtningsmetoder.
Mål
- Uppmuntra hämtning baserad på stora textsamlingar
- Öka kommunikationen mellan industri, akademi och myndigheter genom att skapa ett öppet forum för utbyte av forskningsidéer
- Påskynda överföringen av teknik från forskningslaboratorier till kommersiella produkter genom att demonstrera betydande förbättringsmetoder för hämtning av verkliga problem
- Att öka tillgången på lämpliga utvärderingstekniker för användning av industri och akademi, inklusive utveckling av nya utvärderingstekniker som är mer tillämpliga på nuvarande system
TREC övervakas av en programkommitté som består av representanter från myndigheter, industri och akademi. För varje TREC tillhandahåller NIST en uppsättning dokument och frågor. Deltagarna kör sitt eget hämtningssystem på datan och returnerar till NIST en lista över hämtade topprankade dokument. NIST slår samman det individuella resultatet bedömer de hämtade dokumenten för korrekthet och utvärderar resultaten. TREC-cykeln avslutas med en workshop som är ett forum för deltagarna att dela med sig av sina erfarenheter.
Relevansbedömningar i TREC
TREC använder binära relevanskriterier som antingen är att dokumentet är relevant eller inte relevant. Eftersom storleken på TREC-samlingen är stor är det omöjligt att beräkna den absoluta återkallelsen för varje fråga. För att bedöma relevansen av dokument i förhållande till en fråga använder TREC en specifik metodanropspoolning för att beräkna relativ återkallelse. Alla relevanta dokument som förekom i de 100 bästa dokumenten för varje system och för varje fråga kombineras för att skapa en pool av relevanta dokument. Minns att vara andelen av poolen av relevanta dokument som ett enda system hämtade för ett frågeämne.
Olika TREC
1992 hölls TREC-1 på NIST. Den första konferensen lockade 28 grupper av forskare från akademi och industri. Den visade ett brett utbud av olika tillvägagångssätt för att hämta text från stora dokumentsamlingar. Slutligen avslöjade TREC1 fakta att automatisk konstruktion av frågor från frågesatser på naturligt språk verkar fungera. Tekniker baserade på naturlig språkbehandling var inte bättre och inte sämre än de som baseras på vektor eller probabilistiskt tillvägagångssätt.
TREC2 ägde rum i augusti 1993. 31 grupp forskare deltog i detta. Två typer av hämtning undersöktes. Hämtning med en "ad hoc"-fråga och hämtning med en "routing"-fråga
I TREC-3 arbetade en liten grupp experiment med spanska språkinsamling och andra handlade om interaktiv frågeformulering i flera databaser
TREC-4 gjorde de ännu kortare för att undersöka problemen med mycket korta användarutlåtanden
TREC-5 innehåller både korta och långa versioner av ämnena med målet att genomföra djupare undersökningar av vilka typer av tekniker som fungerar bra på olika längder av ämnen
I TREC-6 introducerades tre nya spår, tal, korsspråk, högprecisionsinformation. Målet med korsspråkig informationshämtning är att underlätta forskning om system som kan hämta relevant dokument oavsett språket i källdokumentet
TREC-7 innehöll sju spår varav två var nytt frågespår och mycket stort korpusspår. Målet med frågespåret var att skapa en stor frågesamling
TREC-8 innehåller sju spår varav två –frågesvar och webbspår var nya. Syftet med QA-frågan är att utforska möjligheterna att ge svar på specifika naturliga språkfrågor
TREC-9 Innehåller sju spår
I TREC-10 introducerade videospår design för videospår för att främja forskning inom innehållsbaserad hämtning från digital video
I TREC-11 introducerades nya spår. Målet med nyhetsspåret är att undersöka systemets förmåga att lokalisera relevant och ny information inom den rankade uppsättningen dokument som returneras av ett traditionellt dokumenthämtningssystem
TREC-12 som hölls 2003 lade till tre nya spår; Genomspår, robust hämtningsspår, HARD (Highly Accurate Retrieval from Documents)
Spår
Aktuella spår
Nya spår läggs till när nya forskningsbehov identifieras, denna lista är aktuell för TREC 2018.
- CENTER Track - Mål: köra parallellt CLEF 2018, NTCIR-14, TREC 2018 för att utveckla och ställa in ett IR-reproducerbarhetsutvärderingsprotokoll (nytt spår för 2018).
- Common Core Track - Mål: en ad hoc-sökningsuppgift över nyhetsdokument.
- Complex Answer Retrieval (CAR) - Mål: att utveckla system som kan svara på komplexa informationsbehov genom att sammanställa information från en hel korpus.
- Incident Streams Track - Mål: att undersöka teknologier för att automatiskt bearbeta sociala mediaströmmar under nödsituationer (nytt spår för TREC 2018).
- The News Track - Mål: partnerskap med The Washington Post för att utveckla testsamlingar i nyhetsmiljö (nytt för 2018).
- Precision Medicine Track - Mål: en specialisering av Clinical Decision Support spåret för att fokusera på att koppla onkologisk patientdata till kliniska prövningar.
- Real-Time Summarization Track (RTS) - Mål: att utforska tekniker för uppdateringssammanfattningar i realtid från sociala medieströmmar.
Tidigare spår
- Chemical Track - Mål: att utveckla och utvärdera teknologi för storskalig sökning i kemirelaterade dokument, inklusive akademiska artiklar och patent, för att bättre möta behoven hos professionella sökare, och specifikt patentsökare och kemister.
- Clinical Decision Support Track - Mål: att undersöka tekniker för att koppla medicinska fall till information som är relevant för patientvård
- Contextual Suggestions Track - Mål: att undersöka söktekniker för komplexa informationsbehov som är starkt beroende av sammanhang och användarintressen.
- Crowdsourcing Track - Mål: att tillhandahålla en samarbetsplats för att utforska crowdsourcingmetoder både för att utvärdera sökning och för att utföra sökuppgifter.
- Genomics Track - Mål: att studera inhämtningen av genomisk data, inte bara gensekvenser utan också stödjande dokumentation såsom forskningsrapporter, labbrapporter etc. Kördes senast på TREC 2007.
- Dynamic Domain Track - Mål: att undersöka domänspecifika sökalgoritmer som anpassar sig till de dynamiska informationsbehoven hos professionella användare när de utforskar i komplexa domäner.
- Enterprise Track - Mål: att studera sökning över en organisations data för att slutföra en uppgift. Sprang senast på TREC 2008.
- Entity Track - Mål: att utföra entitetsrelaterad sökning på webbdata. Dessa sökuppgifter (som att hitta entiteter och egenskaper hos entiteter) adresserar vanliga informationsbehov som inte är så väl modellerade som ad hoc-dokumentsökning.
- Cross-Language Track - Mål: att undersöka möjligheten för hämtningssystem att hitta dokument lokalt oavsett källspråk. Efter 1999 växte detta spår av till CLEF .
- FedWeb Track - Mål: att välja de bästa resurserna att vidarebefordra en fråga till och slå samman resultaten så att de mest relevanta är överst.
- Federated Web Search Track - Mål: att undersöka tekniker för val och kombination av sökresultat från ett stort antal riktiga webbsökningstjänster online.
- Filtreringsspår - Mål: att binärt bestämma hämtning av nya inkommande dokument givet ett stabilt informationsbehov .
- HARD Track - Mål: att uppnå hög noggrann hämtning från dokument genom att utnyttja ytterligare information om den som söker och/eller sökkontexten.
- Interactive Track - Mål: att studera användarinteraktion med system för texthämtning.
- Knowledge Base Acceleration (KBA) Track - Mål: att utveckla tekniker för att dramatiskt förbättra effektiviteten hos (mänskliga) kunskapsbaskuratorer genom att låta systemet föreslå ändringar/tillägg till KB baserat på dess övervakning av dataströmmarna, skapade KBA streamcorpus , arrangerad av Diffeo .
- Juridisk spårning - Mål: att utveckla sökteknologi som möter juristers behov att engagera sig i effektiv upptäckt i digitala dokumentsamlingar .
- LiveQA Track - Mål: att generera svar på riktiga frågor som kommer från riktiga användare via en live frågeström, i realtid.
- Medical Records Track - Mål: att utforska metoder för att söka efter ostrukturerad information som finns i patientjournaler.
- Mikrobloggspår - Mål: att undersöka arten av informationsbehov i realtid och deras tillfredsställelse i samband med mikrobloggmiljöer som Twitter.
- Naturlig språkbehandling Spår - Mål: att undersöka hur specifika verktyg utvecklade av beräkningslingvister kan förbättra hämtningen.
- Novelty Track - Mål: att undersöka systemens förmåga att lokalisera ny (dvs icke-redundant) information.
- OpenSearch Track - Mål: att utforska ett utvärderingsparadigm för IR som involverar verkliga användare av operativa sökmotorer. För första året på banan var uppgiften ad hoc Academic Search.
- Frågesvarsspår - Mål: att uppnå mer informationshämtning än bara dokumenthämtning genom att svara på fakta-, list- och definitionsfrågor.
- Realtidssammanfattningsspår - Mål: att utforska tekniker för att konstruera uppdateringssammanfattningar i realtid från sociala mediaströmmar som svar på användarnas informationsbehov.
- Robust Retrieval Track - Mål: att fokusera på individuella ämneseffektivitet.
- Spår för relevansfeedback - Mål: att ytterligare djupgående utvärdera relevansfeedbacksprocesser.
- Session Track - Mål: att utveckla metoder för att mäta sessioner med flera frågeställningar där informationsbehoven glider eller blir mer eller mindre specifik under sessionen.
- Spam Track - Mål: att tillhandahålla en standardutvärdering av nuvarande och föreslagna metoder för skräppostfiltrering .
- Uppgiftsspårning - Mål: att testa om system kan inducera de möjliga uppgifter som användare kan försöka utföra med en fråga.
- Temporal Summarization Track - Mål: att utveckla system som tillåter användare att effektivt övervaka informationen som är associerad med en händelse över tid.
- Terabyte Track - Mål: att undersöka om/hur IR -gemenskapen kan skala traditionell IR-testsamlingsbaserad utvärdering till avsevärt stora samlingar.
- Total Recall Track - Mål: : att utvärdera metoder för att uppnå mycket hög återkallelse, inklusive metoder som inkluderar en mänsklig bedömare i slingan.
- Videospår - Mål: att forska inom automatisk segmentering, indexering och innehållsbaserad hämtning av digital video . 2003 blev det här spåret en egen oberoende utvärdering med namnet TRECVID
- Webbspårning - Mål: att utforska informationssökande beteenden som är vanliga vid allmän webbsökning.
Relaterade händelser
År 1997 lanserades en japansk motsvarighet till TREC (första workshopen 1999), kallad NTCIR ( NII Test Collection for IR Systems), och år 2000, CLEF , en europeisk motsvarighet, specifikt inriktad på studiet av tvärspråkig informationshämtning lanseras. Forum for Information Retrieval Evaluation (FIRE) startade 2008 med syftet att bygga en sydasiatisk motsvarighet till TREC, CLEF och NTCIR,
Konferensbidrag till sökeffektivitet
NIST hävdar att inom de första sex åren av verkstäderna fördubblades effektiviteten av återvinningssystem ungefär. Konferensen var också den första som genomförde storskaliga utvärderingar av icke-engelska dokument, tal, video och hämtning på olika språk. Dessutom har utmaningarna inspirerat en stor mängd publikationer . Teknik som först utvecklades i TREC ingår nu i många av världens kommersiella sökmotorer . En oberoende rapport från RTII fann att "ungefär en tredjedel av förbättringen i webbsökmotorer från 1999 till 2009 kan tillskrivas TREC. Dessa förbättringar sparade sannolikt upp till 3 miljarder timmars tid med hjälp av webbsökmotorer. ... Dessutom, Rapporten visade att för varje $1 som NIST och dess partners investerade i TREC, tillföll minst $3,35 till $5,07 i förmåner till amerikanska forskare för informationssökning i både den privata sektorn och akademin."
Medan en studie tyder på att den senaste tekniken för ad hoc-sökning inte utvecklades avsevärt under decenniet före 2009, men det syftar bara på att söka efter aktuellt relevanta dokument i små nyheter och webbsamlingar på några gigabyte. Det har gjorts framsteg inom andra typer av ad hoc-sökningar. Till exempel skapades testsamlingar för webbsökning med kända objekt som fann förbättringar från användningen av ankartext, titelviktning och webbadresslängd, vilket inte var användbara tekniker på de äldre ad hoc-testsamlingarna. 2009 introducerades en ny webbsamling på miljarder sidor, och spamfiltrering visade sig vara en användbar teknik för ad hoc-webbsökning, till skillnad från tidigare testsamlingar.
Testsamlingarna som utvecklats vid TREC är användbara inte bara för att (potentiellt) hjälpa forskare att utveckla den senaste tekniken, utan också för att tillåta utvecklare av nya (kommersiella) hämtningsprodukter att utvärdera deras effektivitet i standardtester. Under det senaste decenniet har TREC skapat nya tester för företagssökning av e-post, genomiksökning, skräppostfiltrering, e-Discovery och flera andra hämtningsdomäner. [ när? ] [ citat behövs ]
TREC-system utgör ofta en baslinje för vidare forskning. Exempel inkluderar:
- Hal Varian , chefsekonom på Google , säger Bättre data ger bättre vetenskap. Historien om informationssökning illustrerar denna princip väl", och beskriver TREC:s bidrag.
- TREC:s juridiska spår har påverkat e-Discovery-gemenskapen både i forskning och vid utvärdering av kommersiella leverantörer.
- IBMs forskarteam bygger IBM Watson (aka DeepQA ) , som slog världens bästa Jeopardy! spelare, använde data och system från TRECs QA Track som baslinjeprestandamätningar.
Deltagande
Konferensen består av en varierad, internationell grupp av forskare och utvecklare. Under 2003 deltog 93 grupper från både akademi och industri från 22 länder.