Automatisk indexering
Automatisk indexering är den datoriserade processen att skanna stora volymer dokument mot en kontrollerad vokabulär , taxonomi , synonymordbok eller ontologi och använda dessa kontrollerade termer för att snabbt och effektivt indexera stora elektroniska dokumentförvar. Dessa nyckelord eller språk tillämpas genom att träna ett system på reglerna som bestämmer vilka ord som ska matchas. Det finns ytterligare delar till detta såsom syntax, användning, närhet och andra algoritmer baserade på systemet och vad som krävs för indexering. Detta tas med i beräkningen med hjälp av booleska uttalanden för att samla in och fånga indexeringsinformationen ur texten. Eftersom antalet dokument ökar exponentiellt i takt med Internets utbredning , kommer automatisk indexering att bli avgörande för att upprätthålla möjligheten att hitta relevant information i ett hav av irrelevant information . Naturliga språksystem används för att träna ett system baserat på sju olika metoder för att hjälpa till med detta hav av irrelevant information. Dessa metoder är morfologiska, lexikala, syntaktiska, numeriska, fraseologiska, semantiska och pragmatiska. Var och en av dessa ser ut och olika delar av hastighet och termer för att bygga en domän för den specifika information som täcks för indexering. Detta används i den automatiserade processen för indexering.
Den automatiserade processen kan stöta på problem och dessa orsakas i första hand av två faktorer: 1) språkets komplexitet; och 2) bristen på intuitivitet och svårigheten att extrapolera begrepp ur påståenden från datorteknikens sida. Dessa är i första hand språkliga utmaningar och specifika problem involverar semantiska och syntaktiska aspekter av språket. Dessa problem uppstår baserat på definierade nyckelord. Med dessa nyckelord kan du bestämma systemets noggrannhet baserat på träffar, missar och brus. Dessa termer hänför sig till exakta matchningar, nyckelord som ett datoriserat system missade som en människa inte skulle ha, och nyckelord som datorn valde som en människa inte skulle ha. Noggrannhetsstatistiken baserad på detta bör vara över 85 % för träffar av 100 % för mänsklig indexering. Detta gör att missar och brus kombinerat är 15 % eller mindre. Denna skala ger en grund för vad som anses vara ett bra automatiskt indexeringssystem och visar var problem uppstår.
Historia
Det finns forskare som citerar att ämnet automatisk indexering väckte uppmärksamhet redan på 1950-talet, särskilt med kravet på snabbare och mer omfattande tillgång till vetenskaplig och ingenjörslitteratur. Denna uppmärksamhet vid indexering började med textbehandling mellan 1957 och 1959 av HP Lunh genom en serie artiklar som publicerades. Lunh föreslog att en dator skulle kunna hantera sökordsmatchning, sortering och innehållsanalys. Detta var början på automatisk indexering och formeln för att hämta nyckelord från text baserat på frekvensanalys. Det fastställdes senare att enbart frekvens inte var tillräckligt för bra deskriptorer, men detta började vägen dit vi är nu med automatisk indexering. Detta underströks av informationsexplosionen, som förutspåddes på 1960-talet och kom till genom framväxten av informationsteknologi och World Wide Web. Förutsägelsen utarbetades av Mooers där en disposition skapades med den förväntade rollen som datorer skulle ha för textbehandling och informationshämtning. Denna förutsägelse sa att maskiner skulle användas för lagring av dokument i stora samlingar och att vi skulle använda dessa maskiner för att köra sökningar. Mooers förutspådde också onlineaspekten och hämtningsmiljön för indexering av databaser. Detta fick Mooers att förutsäga en induktionsinferensmaskin som skulle revolutionera indexeringen. Detta fenomen krävde utvecklingen av ett indexeringssystem som kan hantera utmaningen att lagra och organisera stora mängder data och som kan underlätta informationstillgång. Ny elektronisk hårdvara avancerade ytterligare automatiserad indexering eftersom den övervann barriären som infördes av gamla pappersarkiv, vilket möjliggjorde kodning av information på molekylär nivå. Med denna nya elektroniska hårdvara utvecklades verktyg för att hjälpa användare. Dessa användes för att hantera filer och var organiserade i olika kategorier som PDM Suites som Outlook eller Lotus Note och Mind Mapping Tools som MindManager och Freemind. Dessa tillåter användare att fokusera på lagring och bygga en kognitiv modell. Den automatiska indexeringen drivs också delvis av framväxten av det fält som kallas beräkningslingvistik , som styrde forskning som så småningom producerade tekniker som tillämpningen av datoranalys på språkens struktur och betydelse. Automatisk indexering sporras ytterligare av forskning och utveckling inom området artificiell intelligens och självorganiserande system, även kallat tänkande maskin.
Medicin
Automatisk indexering har många praktiska tillämpningar som till exempel inom medicinområdet. I forskning publicerad 2009 talar forskare om hur automatisk indexering kan användas för att skapa en informationsportal där användare kan ta reda på tillförlitlig information om ett läkemedel. CISMeF är en sådan hälsoportal som är utformad för att ge information om droger. Webbplatsen använder MeSH thesaurus för att indexera de vetenskapliga artiklarna i MEDLINE-databasen och Dublin Core Metadata. Systemet skapar en metaterm drog och använder den som sökkriterier för att hitta all information om ett specifikt läkemedel. Webbplatsen använder enkel och avancerad sökning. Den enkla sökningen låter dig söka efter ett varumärke eller med valfri kod som ges av läkemedlen. Avancerad sökning möjliggör en mer specifik sökning genom att du kan ange allt som beskriver läkemedlet du letar efter.
Se även
- Ämnesindexering – processen som automatiseras genom automatisk indexering
- Tagg (metadata)
- Webbindexering