Semantisk vikning

Semantisk vikningsteori beskriver en procedur för att koda semantiken i naturligt språktext i en semantiskt grundad binär representation . Detta tillvägagångssätt ger ett ramverk för att modellera hur språkdata bearbetas av neocortex .

Teori

Semantisk vikningsteori hämtar inspiration från Douglas R. Hofstadters Analogy as the Core of Cognition som antyder att hjärnan förstår världen genom att identifiera och tillämpa analogier . Teorin antar att semantiska data därför måste introduceras till neocortex i en sådan form att de tillåter tillämpning av ett likhetsmått och erbjuder, som en lösning, den glesa binära vektorn som använder ett tvådimensionellt topografiskt semantiskt utrymme som en fördelningsreferensram . Teorin bygger på beräkningsteorin om den mänskliga cortex som kallas hierarkiskt temporalt minne (HTM), och positionerar sig som en kompletterande teori för representation av språksemantik.

En speciell styrka som detta tillvägagångssätt hävdar är att den resulterande binära representationen möjliggör att komplexa semantiska operationer kan utföras enkelt och effektivt på den mest grundläggande beräkningsnivån.

Tvådimensionellt semantiskt utrymme

Analogt med strukturen av neocortex, antyder teorin om Semantic Folding implementeringen av ett semantiskt utrymme som ett tvådimensionellt rutnät. Detta rutnät är befolkat av kontextvektorer på ett sådant sätt att liknande kontextvektorer placeras närmare varandra, till exempel genom att använda konkurrenskraftiga lärandeprinciper. Denna vektorrymdsmodell presenteras i teorin som en ekvivalens till den välkända ordrymdsmodellen som beskrivs i informationssökningslitteraturen .

Givet ett semantiskt utrymme (implementerat enligt beskrivningen ovan) kan en ordvektor erhållas för vilket givet ord Y som helst genom att använda följande algoritm :

     För varje  position  X  i den semantiska kartan (där X representerar  kartesiska koordinater  )  om  ordet  Y  finns i kontextvektorn vid position  X  , lägg till 1 till motsvarande position i ordvektorn för  Y  annars  lägg till 0 till motsvarande position i ordvektorn för  Y 

Resultatet av denna process blir en ordvektor som innehåller alla sammanhang där ordet Y förekommer och kommer därför att vara representativ för det ordets semantik i det semantiska rummet. Det kan ses att den resulterande ordvektorn också är i ett sparse distributed representation (SDR) format [Schütze, 1993] & [Sahlgreen, 2006]. Några egenskaper hos ord-SDR som är av särskilt intresse med avseende på beräkningssemantik är:

  • högt brusmotstånd : Som ett resultat av att liknande sammanhang placeras närmare varandra i den underliggande kartan är ord-SDR mycket toleranta mot falska eller förskjutna "bitar".
  • boolesk logik: Det är möjligt att manipulera ord-SDR på ett meningsfullt sätt med hjälp av booleska (OR, AND, exklusiv-OR) och/eller aritmetiska (SUBtract) funktioner.
  • delsampling: Word-SDR kan subsamplas i hög grad utan någon nämnvärd förlust av semantisk information.
  • topologisk tvådimensionell representation: SDR-representationen upprätthåller den topologiska fördelningen av den underliggande kartan, därför kommer ord med liknande betydelser att ha liknande ordvektorer. Detta tyder på att en mängd olika mått kan tillämpas på beräkningen av semantisk likhet , från en enkel överlappning av vektorelement, till en rad avståndsmått såsom: Euklidiskt avstånd , Hamming-avstånd , Jaccard-avstånd , cosinuslikhet , Levenshtein-avstånd , Sørensen -Tärningsindex osv.

Semantiska utrymmen

Semantiska rum i det naturliga språkdomänen syftar till att skapa representationer av naturligt språk som är kapabla att fånga mening. Den ursprungliga motiveringen för semantiska utrymmen härrör från två kärnutmaningar för naturligt språk: ordförrådsmissmatch (det faktum att samma betydelse kan uttryckas på många sätt) och tvetydighet i naturligt språk (det faktum att samma term kan ha flera betydelser).

Tillämpningen av semantiska utrymmen i naturlig språkbehandling (NLP) syftar till att övervinna begränsningarna hos regelbaserade eller modellbaserade tillvägagångssätt som fungerar på nyckelordsnivå . Den största nackdelen med dessa tillvägagångssätt är deras sprödhet och den stora manuella ansträngning som krävs för att skapa antingen regelbaserade NLP-system eller träningskorpus för modellinlärning. Regelbaserade och maskininlärningsbaserade modeller är fixerade på nyckelordsnivå och bryts ner om ordförrådet skiljer sig från det som definieras i reglerna eller från utbildningsmaterialet som används för de statistiska modellerna.

Forskning inom semantiska rum går tillbaka mer än 20 år. 1996 publicerades två artiklar som väckte mycket uppmärksamhet kring den allmänna idén om att skapa semantiska utrymmen: latent semantisk analys från Microsoft och Hyperspace Analogue to Language från University of California . Men deras antagande begränsades av den stora beräkningsansträngning som krävs för att konstruera och använda dessa semantiska utrymmen. Ett genombrott när det gäller noggrannheten i att modellera associativa relationer mellan ord (t.ex. "spindelnät", "tändare-cigarett", i motsats till synonyma relationer som "val-delfin", "astronaut-förare") uppnåddes genom explicit semantisk analys (ESA) 2007. ESA var en ny (icke-maskininlärning) baserad metod som representerade ord i form av vektorer med 100 000 dimensioner (där varje dimension representerar en artikel i Wikipedia ). Emellertid är praktiska tillämpningar av tillvägagångssättet begränsade på grund av det stora antalet erforderliga dimensioner i vektorerna.

På senare tid ledde framsteg inom neurala nätverkstekniker i kombination med andra nya tillvägagångssätt ( tensorer ) till en mängd nya utvecklingar: Word2vec från Google och GloVe från Stanford University .

Semantisk vikning representerar en ny, biologiskt inspirerad strategi för semantiska rum där varje ord representeras som en gles binär vektor med 16 000 dimensioner (ett semantiskt fingeravtryck) i en 2D semantisk karta (det semantiska universum). Gles binär representation är fördelaktiga i termer av beräkningseffektivitet och tillåter lagring av ett mycket stort antal möjliga mönster.

Visualisering

Semantisk fingeravtrycksbild som jämför termerna "hund" och "bil".
Semantisk fingeravtrycksbild som jämför termerna "jaguar" och "Porsche"

Den topologiska fördelningen över ett tvådimensionellt rutnät (skisserat ovan) lämpar sig för en bitmappsvisualisering av semantiken för ett ord eller text, där varje aktiv semantisk egenskap kan visas som t.ex. en pixel . Som kan ses i bilderna som visas här, möjliggör denna representation en direkt visuell jämförelse av semantiken för två (eller flera) språkliga objekt.

Bild 1 visar tydligt att de två olika termerna "hund" och "bil" har, som förväntat, mycket uppenbart olika semantik.

Bild 2 visar att endast ett av betydelsekontexterna för "jaguar", det för "Jaguar" bilen, överlappar meningen med Porsche (vilket indikerar partiell likhet). Andra betydelsekontexter av "jaguar" t.ex. "jaguar" djuret har helt klart olika icke-överlappande sammanhang. Visualiseringen av semantisk likhet med hjälp av Semantic Folding har en stark likhet med de fMRI- bilder som producerats i en forskningsstudie utförd av AG Huth et al., där det hävdas att ord grupperas i hjärnan efter betydelse. voxels , små volymsegment av hjärnan, visade sig följa ett mönster där semantisk information är representerad längs gränsen för den visuella cortex med visuella och språkliga kategorier representerade på bakre respektive främre sida.

Anteckningar