Sammanfattning av flera dokument

Sammanfattning av flera dokument är en automatisk procedur som syftar till att extrahera information från flera texter skrivna om samma ämne. Den resulterande sammanfattande rapporten gör det möjligt för enskilda användare, såsom professionella informationskonsumenter, att snabbt bekanta sig med information som finns i ett stort kluster av dokument. På ett sådant sätt kompletterar system för sammanfattning av flera dokument de nyhetssamlare som utför nästa steg på vägen för att hantera informationsöverbelastning .

Viktiga fördelar och svårigheter

Sammanfattning av flera dokument skapar informationsrapporter som är både kortfattade och heltäckande. Med olika åsikter sammansatta och beskrivna beskrivs varje ämne ur flera perspektiv i ett enda dokument. Även om målet med en kort sammanfattning är att förenkla informationssökning och minska tiden genom att peka på de mest relevanta källdokumenten, bör en omfattande sammanfattning av flera dokument i teorin innehålla den information som krävs, vilket begränsar behovet av tillgång till originalfiler till fall då förfining krävs. I praktiken är det svårt att sammanfatta flera dokument med motstridiga åsikter och fördomar. I själva verket är det nästan omöjligt att uppnå en tydlig extraktiv sammanfattning av dokument med motstridiga åsikter. Abstrakt sammanfattning är den föredragna platsen i detta fall.

Automatiska sammanfattningar presenterar information extraherad från flera källor algoritmiskt, utan någon redaktionell touch eller subjektiv mänsklig inblandning, vilket gör den helt opartisk. Svårigheterna kvarstår, om man gör automatiska extraherande sammanfattningar av dokument med motstridiga åsikter.

Tekniska utmaningar

Sammanfattningsuppgiften för flera dokument är mer komplex än att sammanfatta ett enda dokument, till och med ett långt. Svårigheten beror på tematisk mångfald inom en stor uppsättning dokument. En bra sammanfattningsteknik syftar till att kombinera huvudteman med fullständighet, läsbarhet och koncis. Document Understanding Conferences, som genomförs årligen av NIST , har utvecklat sofistikerade utvärderingskriterier för tekniker som accepterar utmaningen att sammanfatta flera dokument.

Ett idealiskt sammanfattningssystem för flera dokument förkortar inte bara källtexterna, utan presenterar också information organiserad kring nyckelaspekterna för att representera olika åsikter. Framgång ger en översikt över ett givet ämne. Sådana textsammanställningar bör också grundläggande krav på en översiktstext sammanställd av en människa. Kvalitetskriterierna för sammanfattning av flera dokument är följande:

  • tydlig struktur, inklusive en översikt över huvudinnehållet, varifrån det är lätt att navigera till fulltextavsnitten
  • text inom avsnitt är uppdelad i meningsfulla stycken
  • gradvis övergång från mer allmänna till mer specifika tematiska aspekter
  • god läsbarhet .

Den senare punkten förtjänar en ytterligare anmärkning. Se till att den automatiska översikten visar:

  • inget pappersrelaterat " informationsbrus " från respektive dokument (t.ex. webbsidor)
  • inga dinglande referenser till det som inte nämns eller förklaras i översikten
  • ingen text bryter över en mening
  • ingen semantisk redundans .

Verkliga system

Tekniken för sammanfattning av flera dokument börjar nu bli myndig - en vy som stöds av ett urval av avancerade webbaserade system som för närvarande är tillgängliga.

  • ReviewChomp presenterar sammanfattningar av kundrecensioner för en given produkt eller tjänst. Vissa produkter har tusentals onlinerecensioner som gör recensionerna oläsliga för människor i realtid. Sökning efter produkten eller tjänsten utförs av webbplatsen.
  • Ultimate Research Assistant - utför textutvinning på sökresultat på Internet för att hjälpa till att sammanfatta och organisera dem och göra det enklare för användaren att utföra onlineforskning. Specifika textutvinningstekniker som används av verktyget inkluderar konceptextraktion, textsammanfattning, hierarkisk begreppsklustring (t.ex. automatiserad taxonomigenerering) och olika visualiseringstekniker, inklusive taggmoln och tankekartor.
  • iResearch Reporter - Kommersiellt textextraktion och textsammanfattningssystem, gratis demosida accepterar användarinmatade frågor, skickar den vidare till Googles sökmotor, hämtar flera relevanta dokument, producerar kategoriserade, lättläsbara sammanfattningsrapporter för naturligt språk som täcker flera dokument i hämtad uppsättning, allt utdrag länkade till originaldokument på webben, efterbearbetning, enhetsextraktion, händelse- och relationsextraktion , textextraktion, extraktklustring, språklig analys, multidokument, fulltext, naturlig språkbehandling, kategoriseringsregler, klustring, språklig analys, text sammanfattning konstruktion verktyg set.
  • Newsblaster är ett system som hjälper användare att hitta nyheter som är av mest intresse för dem. Systemet samlar automatiskt in, grupperar, kategoriserar och sammanfattar nyheter från flera webbplatser på webben ( CNN , Reuters , Fox News , etc.) dagligen, och det ger användarna ett gränssnitt för att bläddra i resultaten.
  • NewsInEssence kan användas för att hämta och sammanfatta ett kluster av artiklar från webben. Det kan utgå från en URL och hämta dokument som liknar varandra, eller så kan det hämta dokument som matchar en given uppsättning nyckelord. NewsInEssence laddar också ner nyhetsartiklar dagligen och producerar nyhetskluster från dem.
  • NewsFeed Researcher är en nyhetsportal som utför kontinuerlig automatisk sammanfattning av dokument som initialt grupperats av nyhetsaggregatorerna (t.ex. Google News ). NewsFeed Researcher stöds av en gratis onlinemotor som täcker stora evenemang relaterade till affärer, teknik, amerikanska och internationella nyheter. Det här verktyget är också tillgängligt i on-demand-läge så att en användare kan skapa en sammanfattning av utvalda ämnen.
  • Skrapa Detta är som en sökmotor, men istället för att tillhandahålla länkar till de mest relevanta webbplatserna baserat på en fråga, skrapar den bort den relevanta informationen från de relevanta webbplatserna och ger användaren en sammanfattning av flera dokument, tillsammans med ordboksdefinitioner, bilder och videor.
  • JistWeb är en frågespecifik sammanfattning av flera dokument.

Eftersom automatiskt genererade sammanfattningar av flera dokument allt mer liknar översikter skrivna av en människa, kan deras användning av extraherade textutdrag en dag ställas inför upphovsrättsliga problem i förhållande till upphovsrättskonceptet för tillåten användning .

Bibliografi

  •    Günes Erkan; Dragomir R. Radev (1 december 2004). "LexRank: Grafbaserad lexikalisk centralitet som framträdande i textsammanfattning" . Journal of Artificial Intelligence Research . 22 : 457-479. arXiv : 1109.2128 . doi : 10.1613/JAIR.1523 . ISSN 1076-9757 . Wikidata Q81312697 .
  • Dragomir R. Radev, Hongyan Jing, Malgorzata Styś och Daniel Tam. Centroid-baserad sammanfattning av flera dokument. Information Processing and Management, 40:919–938, december 2004. [5]
  • Kathleen R. McKeown och Dragomir R. Radev. Generera sammanfattningar av flera nyhetsartiklar. I Proceedings, ACM Conference on Research and Development in Information Retrieval SIGIR'95, sid 74–82, Seattle, Washington, juli 1995. [ 6]
  • C.-Y. Lin, E. Hovy, " Från singel till multi-dokument summering: A prototype system and its evaluation ", I "Proceedings of the ACL", s. 457–464, 2002
  • Kathleen McKeown, Rebecca J. Passonneau, David K. Elson, Ani Nenkova, Julia Hirschberg, "Hjälp sammanfattningar? A Task-Based Evaluation of Multi-Document Summarization", SIGIR'05, Salvador, Brasilien, 15–19 augusti 2005 [7]
  • R. Barzilay, N. Elhadad, KR McKeown, "Inferring strategier for sentence ordering in multidocument news summarization", Journal of Artificial Intelligence Research, v. 17, s. 35–55, 2002
  • M. Soubbotin, S. Soubbotin, "Trade-Off Between Factors Influencing Quality of the Summary", Document Understanding Workshop (DUC), Vancouver, BC, Kanada, 9–10 oktober 2005 [8 ]
  • C Ravindranath Chowdary och P. Sreenivasa Kumar. " Esum: ett effektivt system för frågespecifik sammanfattning av flera dokument ." I ECIR (Advances in Information Retrieval), s. 724–728. Springer Berlin Heidelberg, 2009.

Se även

externa länkar