Dokumentklustring

Dokumentkluster (eller textkluster ) är tillämpningen av klusteranalys på textdokument. Den har applikationer inom automatisk dokumentorganisation, ämnesextraktion och snabb informationshämtning eller filtrering.

Översikt

Dokumentklustring involverar användning av deskriptorer och deskriptorextraktion. Deskriptorer är uppsättningar av ord som beskriver innehållet i klustret. Dokumentklustring anses allmänt vara en centraliserad process. Exempel på dokumentkluster inkluderar webbdokumentkluster för sökanvändare.

Tillämpningen av dokumentkluster kan kategoriseras i två typer, online och offline. Onlineapplikationer är vanligtvis begränsade av effektivitetsproblem jämfört med offlineapplikationer. Textklustring kan användas för olika uppgifter, som att gruppera liknande dokument (nyheter, tweets, etc.) och analys av feedback från kunder/anställda, för att upptäcka meningsfulla implicita ämnen i alla dokument.

I allmänhet finns det två vanliga algoritmer. Den första är den hierarkiskt baserade algoritmen, som inkluderar enkel länk, fullständig länkning, gruppgenomsnitt och Wards metod. Genom att aggregera eller dela kan dokument grupperas i en hierarkisk struktur, som är lämplig för bläddring. En sådan algoritm lider dock vanligtvis av effektivitetsproblem. Den andra algoritmen är utvecklad med hjälp av K-means-algoritmen och dess varianter. Generellt producerar hierarkiska algoritmer mer djupgående information för detaljerade analyser, medan algoritmer baserade på varianter av K-means-algoritmen är mer effektiva och ger tillräcklig information för de flesta ändamål.

Dessa algoritmer kan vidare klassificeras som hårda eller mjuka klustringsalgoritmer. Hård klustring beräknar en hård tilldelning – varje dokument är medlem i exakt ett kluster. Tilldelningen av mjuka klustringsalgoritmer är mjuk – ett dokuments tilldelning är en fördelning över alla kluster. I ett mjukt uppdrag har ett dokument en delmedlemskap i flera kluster. Dimensionalitetsreduktionsmetoder kan betraktas som en subtyp av mjuk klustring; för dokument inkluderar dessa latent semantisk indexering ( avkortad singularvärdesuppdelning på termhistogram) och ämnesmodeller .

Andra algoritmer involverar grafbaserad klustring, ontologistödd klustring och orderkänslig klustring.

Med tanke på en klustring kan det vara fördelaktigt att automatiskt härleda mänskliga läsbara etiketter för klustren. Olika metoder finns för detta ändamål.

Klustring i sökmotorer

En webbsökmotor returnerar ofta tusentals sidor som svar på en bred fråga, vilket gör det svårt för användare att bläddra eller att identifiera relevant information. Klustringsmetoder kan användas för att automatiskt gruppera de hämtade dokumenten i en lista med meningsfulla kategorier.

Förfaranden

I praktiken tar dokumentklustring ofta följande steg:

1. Tokenisering

Tokenisering är processen att tolka textdata till mindre enheter (tokens) som ord och fraser. Vanligt använda tokeniseringsmetoder inkluderar Bag-of-words-modellen och N-gram-modellen .

2. Stamning och lemmatisering

Olika tokens kan utföra liknande information (t.ex. tokenisering och tokenisering). Och vi kan undvika att beräkna liknande information upprepade gånger genom att reducera alla tokens till sin basform med hjälp av olika ordböcker för härdning och lemmatisering.

3. Ta bort stoppord och skiljetecken

Vissa tokens är mindre viktiga än andra. Till exempel kanske vanliga ord som "den" inte är särskilt användbara för att avslöja de väsentliga egenskaperna hos en text. Så vanligtvis är det en bra idé att ta bort stoppord och skiljetecken innan du gör ytterligare analys.

4. Beräkna term frekvenser eller tf-idf

Efter förbearbetning av textdata kan vi sedan fortsätta att generera funktioner. För dokumentklustring är ett av de vanligaste sätten att generera funktioner för ett dokument att beräkna termfrekvenserna för alla dess tokens. Även om de inte är perfekta, kan dessa frekvenser vanligtvis ge några ledtrådar om ämnet för dokumentet. Och ibland är det också användbart att vikta termen frekvenser med de omvända dokumentfrekvenserna. Se tf-idf för detaljerade diskussioner.

5. Klustring

Vi kan sedan gruppera olika dokument baserat på de funktioner vi har genererat. Se algoritmavsnittet i klusteranalys för olika typer av klustermetoder.

6. Utvärdering och visualisering

Slutligen kan klustringsmodellerna bedömas med olika mått. Och det är ibland till hjälp att visualisera resultaten genom att plotta klustren i ett lågt (två) dimensionellt utrymme. Se flerdimensionell skalning som ett möjligt tillvägagångssätt.

Clustering v. Klassificering

Klustringsalgoritmer i beräkningstextanalys grupperar dokument i gruppering av en uppsättning text som kallas delmängder eller kluster där algoritmens mål är att skapa internt sammanhängande kluster som skiljer sig från varandra. Klassificering å andra sidan är en form av övervakat lärande där funktionerna i dokumenten används för att förutsäga "typ" av dokument.

Se även

Bibliografi

  • Christopher D. Manning, Prabhakar Raghavan och Hinrich Schütze. Flat Clustering i introduktion till informationssökning. Cambridge University Press. 2008
  • Nicholas O. Andrews och Edward A. Fox, Recent Developments in Document Clustering, 16 oktober 2007 [ 1]
  •   Claudio Carpineto, Stanislaw Osiński, Giovanni Romano, Dawid Weiss. En undersökning av webbklustringsmotorer. ACM Computing Surveys, volym 41, nummer 3 (juli 2009), artikel nr 17, ISSN 0360-0300
  • Wui Lee Chang, Kai Meng Tay och Chee Peng Lim, en ny utvecklande trädbaserad modell med lokal återinlärning för dokumentkluster och visualisering, Neural Processing Letters, DOI: 10.1007/s11063-017-9597-3. https://link.springer.com/article/10.1007/s11063-017-9597-3