Informationsinhämtningsanläggning

IRF-logotyp

Information Retrieval Facility ( IRF ), grundad 2006 och belägen i Wien , Österrike , var en forskningsplattform för nätverk och samarbete för yrkesverksamma inom området informationssökning . Verksamheten upphörde 2012.

IRF hade medlemmar i följande kategorier:

Forskare inom informationssökning (IR) eller relaterade vetenskapliga områden
Industri/företagsinformationshanteringsproffs
Patentmyndigheter och statliga institutioner
Studenter i något av ovanstående

Vetenskapliga styrelsen

Maristella Agosti , professor, Institutionen för informationsteknik, Padovas universitet
Gerhard Budin , chef för Centre of Translation Studies vid Wiens universitet , chef för institutionen för korpuslingvistik och textteknik, Österrikiska vetenskapsakademin
Jamie Callan , professor, Language Technologies Institute, CMU, Carnegie Mellon University
Yves Chiaramella , professor emeritus, institutionen för datavetenskap och tillämpad matematik, Joseph Fourier University
Kilnam Chon , professor, datavetenskapsavdelningen, KAIST ( Korea Advanced Institute of Science and Technology )
W. Bruce Croft , framstående professor, Institutionen för datavetenskap och chef för Center for Intelligent IR University of Massachusetts Amherst
Hamish Cunningham , forskningsprofessor, datavetenskapsavdelningen University Sheffield
Norbert Fuhr , ordförande i den vetenskapliga styrelsen, professor, Institutet för informatik och interaktiva system University Duisburg-Essen
David Hawking , vetenskapsledare, projektledare, CSIRO ICT Center
Noriko Kando , professor, Software Engineering Research, Software Research Division, National Institute of Informatics (NII)
Arcot Desai Narasimhalu , biträdande dekanus, School of Information Systems Singapore Management University
John Tait , Chief Scientific Officer för IRF, fram till juli 2007 professor i intelligenta informationssystem och biträdande dekanus vid School of Computing and Technology
Benjamin T'sou , direktör, Språkinformationsvetenskaplig forskningscenter, City University of Hong Kong
CJ van Rijsbergen , avdelning för datavetenskap vid University of Glasgow

Vetenskapliga mål

Modellera innovativa och specialiserade informationshämtningssystem för globala patentdokumentsamlingar.
Undersöka och utveckla en adekvat teknisk infrastruktur som möjliggör interaktiva experiment med formella, matematiska hämtningskoncept för mycket storskaliga dokumentsamlingar.
Studera användbarheten av multimodala användargränssnitt till mycket storskaliga informationshämtningssystem.
Integrera verkliga användare med faktiska informationsbehov i forskningsprocessen för att modellera system för informationshämtning för att möjliggöra noggrann prestandautvärdering.
Möjlighet att skapa olika vyer av patentdata beroende på inriktningen av den information som behövs.
Definiera standardiserade metoder för benchmarking av informationshämtningsprocessen i patentdokumentsamlingar.
Förmåga att hantera text- och icke-textdelar av ett patent på ett sammanhängande sätt.
Designa, experimentera och utvärdera sökmotorer som kan hämta strukturerade och semistrukturerade dokument i mycket storskaliga patentsamlingar.
Integrering av den tidsmässiga dimensionen av patentdokument i hämtningsstrategier.
Förbättring av effektivitet och precision av patentsökning, baserat på ontologier och tekniker för förståelse av naturliga språk.
Förfina IR-metoder som tillåter ostrukturerad sökning genom att utnyttja tillgänglig struktur i patentdokumenten.
Formell (matematisk) identifiering och specifikation av relevanta affärsinformationsbehov inom området immaterialrättsinformation.
Undersöka effektiva skalningsmekanismer för informationssökning med hänsyn till egenskaperna hos patentdata.
Undersöker och experimenterar med datorarkitekturer för informationshantering med mycket hög kapacitet.
Etablering av en öppen eScience- plattform som möjliggör ett standardiserat och enkelt sätt att skapa och utföra IR-experiment på en gemensam forskningsinfrastruktur.
Upptäcka och undersöka nya användningsfall och affärsapplikationer som härrör från information om immateriella rättigheter.
Möjliggör formell informationssökning, naturligt språk och semantisk bearbetningsforskning att växa in i området tillämpad vetenskap i det globala, industriella sammanhanget.
Utveckling och integration av olika informationstillgångsmetoder.
Forskning om effektiva metoder för interaktiv informationssökning.

Semantisk supercomputing

Nuvarande teknik för att extrahera koncept från ostrukturerade dokument är extremt beräkningsintensiva. För att möjliggöra interaktiva experiment med rika och enorma textkorpor har IRF byggt en högpresterande datormiljö, i vilken de senaste tekniska framstegen har implementerats:

multi-nodkluster (för närvarande 80 kärnor, upp till 1024)
höghastighetsinterconnect teknologi
enkel systembild med stort sammansatt minne (för närvarande 320 GB, upp till 4 TB)
helt integrerad konfigurerbar datoranvändning (för närvarande 4 FPGA- kärnor, upp till 256)

Kombinationen av dessa HPC-funktioner för att påskynda textutvinning representerar IRF-implementeringen av semantisk supercomputing.

World Patent Corpus

IRF syftar till att tillföra den senaste informationsåtervinningstekniken till gemenskapen av patentinformationsproffs. IRF förväntar sig att informationshämtning (IR)-teknik kommer att bli fokus för informationsteknologi mycket snart. Alla industrisektorer kan dra nytta av att tillämpa moderna och framtida textutvinningsprocesser till patentforskningens speciella krav. Även om alla idéer och koncept är universellt tillämpliga på all slags immateriell egendomsinformation, kräver patent den mest sofistikerade och konfronterar oss med utmanande tekniska och organisatoriska problem. Hela samlingen av patentrelaterade dokument utgör möjligen den största samlingen av sammansatta dokument, vilket gör det till ett givande mål för både textutvinningsforskare och slutanvändare. Dessutom har patent blivit en avgörande fråga, särskilt för stora globala företag och universitet. De industriella användarna av patentdata är bland de mest krävande och viktiga informationspersonalen. Som en konsekvens kan de dra mest nytta av teknik som avlastar bördan av att undersöka den stora mängden patentinformation.

Forskningssamlingar

IRF tillhandahåller ett antal testdatainsamlingar som antingen har utvecklats av IRF, av en av dess medlemmar eller av tredje part. Dessa datasamlingar kan användas fritt för vetenskapliga experiment.

MAtrixware REsearch Collection ( MAREC ) är den första standardiserade patentdatakorpusen för forskningsändamål. Den består av 19 miljoner patentdokument på olika språk, normaliserade till ett mycket specifikt XML-format. Kollektionen har utvecklats av Matrixware för IRF.

ClueWeb09- samlingen ^{[ citat behövs ]} är en datauppsättning på 25 terabyte med cirka 1 miljard webbsidor som genomsöktes i januari och februari 2009. Den har skapats av Language Technologies Institute vid Carnegie Mellon University för att stödja forskning om informationssökning och relaterad mänskligt språkteknologi .

externa länkar