Författarprofilering
Författarprofilering är analysen av en given uppsättning texter i ett försök att avslöja olika egenskaper hos författaren utifrån stilistiska och innehållsbaserade drag, eller för att identifiera författaren. Karakteristika som analyseras inkluderar vanligtvis ålder och kön , även om nyare studier har tittat på andra egenskaper som personlighetsdrag och yrke
Författarprofilering är ett av de tre stora områdena inom Automatic Authorship Identification (AAI), de andra två är författarskapstillskrivning och författarskapsidentifiering. Processen med AAI uppstod i slutet av 1800-talet. Thomas Corwin Mendenhall , en amerikansk autodidakt fysiker och meteorolog , var den första att tillämpa denna process på Francis Bacons , William Shakespeares och Christopher Marlowes verk . Från dessa tre historiska figurer försökte Mendenhall avslöja deras kvantitativa stilistiska skillnader genom att inspektera ordlängder.
Även om stora framsteg har gjorts under 2000-talet förblir uppgiften att profilera författare ett olöst problem på grund av dess svårighet.
Tekniker
Genom analys av texter kan olika författarprofileringstekniker tillämpas för att förutsäga information om författaren. Till exempel kan funktionsord, liksom ordordsanalys, refereras för att bestämma författarens kön och sanning i en text.
Processen med författarprofilering innefattar vanligtvis följande steg:
- Identifiera specifika egenskaper som ska extraheras från texten
- Bygga en antagen standardrepresentation (t.ex. Bag-of-words-modell) för målprofilen
- Bygga en klassificeringsmodell med en standardklassificerare (t.ex. Support Vector Machines ) för målprofilen
Maskininlärningsalgoritmer för författarprofilering har blivit allt mer komplexa med tiden. Algoritmer som används i författarprofilering inkluderar:
- Stöd Vector Machines
- Naiva Bayes klassificerare
- Djupa medelvärdesnätverk, många lager i en cykel av maskininlärning som använder medelvärdet av ordinbäddningar i en text
- Långt korttidsminne
Tidigare var författarprofileringen begränsad till fysiska dokument, ofta i form av böcker och tidningsartiklar . Olika kombinationer av textattribut som tillhör författarna identifierades och analyserades med hjälp av författarprofilering, inklusive lexikaliska och syntaktiska egenskaper. Banbrytande forskning inom författarprofilering fokuserade mest på en enskild genre fram till övergången till författarprofilering på sociala medier och internet. Medan attribut, som innehållsord och POS-taggar , är effektiva i förutsägelser av författarprofiler på fysiska dokument, är deras effektivitet vid förutsägelser av författarprofiler på digitala texter subjektiv och beroende på vilken typ av onlineinnehåll som analyseras.
Med teknikens framsteg har författarprofilering på Internet blivit allt vanligare. Digitala texter, som inlägg i sociala medier, blogginlägg och e-postmeddelanden , används nu. Detta har utlöst större forskningsinsatser på grund av fördelarna med att analysera digitala texter för sektorer som marknadsföring och affärer. Författarprofilering på digitala texter har också möjliggjort förutsägelser om ett bredare spektrum av författaregenskaper som personlighet, inkomst och yrke.
De mest effektiva attributen för författarprofilering på digitala texter involverar en kombination av stilistiska och innehållsmässiga drag. Författarprofilering på digitala texter fokuserar på genreöverskridande författarprofilering, där en genre används för träningsdata och en annan genre används för att testa data, även om båda måste vara relativt lika för bra resultat.
Det finns vissa problem när man utför författarprofileringstekniker på onlinetexter. Dessa problem inkluderar:
- Stor variation i längder på använda texter
- Klassobalans i data
Författarprofilering och Internet
Internets framväxt under 20- till 2000-talet katalyserade en ökning av forskning om författarprofilering, eftersom data kunde utvinnas från webben, inklusive sociala medieplattformar, e-postmeddelanden och bloggar. Innehåll från webben har analyserats i uppgifter som författarprofilering för att identifiera webbanvändares ålder, kön, geografiska ursprung, nationalitet och psykometriska egenskaper. Den information som erhållits har använts för att tjäna olika tillämpningar, inklusive marknadsföring och kriminalteknik .
Sociala media
Den ökade integrationen av sociala medier i människors dagliga liv har gjort dem till en rik källa av textdata för författarprofilering. Detta beror främst på att användare ofta laddar upp och delar innehåll för olika ändamål, inklusive självuttryck, socialisering och personliga företag. Den sociala boten är också ett vanligt inslag på sociala medieplattformar, särskilt Twitter, och genererar innehåll som kan analyseras för författarprofilering. Även om olika plattformar innehåller liknande data kan de också innehålla olika funktioner beroende på formatet och strukturen för den specifika plattformen.
Det finns fortfarande begränsningar i att använda sociala medier som datakällor för författarprofilering, eftersom data som erhålls kanske inte alltid är tillförlitliga eller korrekta. Användare lämnar ibland falsk information om sig själva eller undanhåller information. Som ett resultat kan träningen av algoritmer för författarprofilering hindras av data som är mindre exakta. En annan begränsning är oegentligheten i text i sociala medier. Utmärkande för oegentligheter inkluderar avvikelser från normala språkliga standarder såsom stavfel, ostandardiserad translitteration som vid ersättning av bokstäver med siffror, stenografier, användarskapade förkortningar för fraser och så vidare, vilket kan utgöra en utmaning för författarprofilering. Forskare har antagit metoder för att övervinna dessa begränsningar när de tränar sina algoritmer för författarprofilering.
Facebook är användbart för författarprofileringsstudier som en social nätverkstjänst . Detta beror på hur ett socialt nätverk kan byggas, utökas och användas för sociala åtgärder på webbplatsen. I sådana processer delar användare personligt innehåll som kan användas för författarprofileringsstudier. Textdata hämtas från Facebook för författarprofilering från användarens personliga inlägg som "statusuppdateringar". Dessa förvärvas för att producera en korpus på det eller de valda språken för författarprofilering, för att skapa antingen en tvåspråkig eller flerspråkig databas med innehållsord, som sedan kan användas för författarprofilering.
I Facebook-sammanhang involverar författarprofilering främst engelska textdata, men använder också icke-engelska språk som inkluderar: romersk urdu , arabiska , brasiliansk portugisiska , spanska. Medan författarprofileringsstudier på Facebook huvudsakligen har varit för identifiering av kön och åldersgrupp, har det gjorts försök att härleda attribut för att förutsäga religiositet , användares IT-bakgrund och till och med grundläggande känslor (såsom definierats av Paul Ekman ) bland andra.
Sina Weibo är en av få asiatiska sociala medieplattformar som innehåller texter på asiatiska språk som har analyserats för författarprofilering. Det primära innehållet i fokus för författarprofilering på Weibo-innehåll inkluderar klassiska kinesiska tecken, hashtags , uttryckssymboler , kaomoji, homogen interpunktion , latinska sekvenser (på grund av textens flerspråkighet) och till och med poetiska format. Särskilt populära kinesiska uttryck, POS-taggar och ordtyper spåras också för författarprofilering.
Författarprofilering för Weibo-innehåll kräver algoritmer som skiljer sig från de som används för andra sociala medieplattformar, främst på grund av de språkliga skillnaderna mellan mandarinkinesiska och västerländska språk. Till exempel involverar kinesiska känslor kinesiska tecken som beskriver gesten eller ansiktsuttrycket inom parentes, såsom: t.ex. [哈哈] 'skratt', [泪] 'tårar', [偷笑] 'fniss', [爱你] 'kärlek' , [心] 'hjärta'. Detta skiljer sig från användningen av skiljetecken för uttryckssymboler på västerländska språk, eller den vanliga användningen av Unicode-emojis på andra plattformar som Facebook, Instagram , et cetera. Dessutom, medan det finns omkring 161 västerländska uttryckssymboler, finns det omkring 2900 uttryckssymboler som regelbundet används i Kina för webbinnehåll som i Weibo. För att ta itu med dessa skillnader har författarprofileringsalgoritmer tränats på kinesiska uttryckssymboler och språkliga egenskaper. Till exempel har författarprofileringsalgoritmer utformats för att upptäcka kinesiska stiluttryck som uttrycker formalitet och sentiment , istället för algoritmer som upptäcker engelska språkliga egenskaper som versaler.
Jämfört med andra mer populära, globaliserade plattformar är texter på Weibo inte lika vanligt förekommande i uppgiften att profilera författare. Detta beror troligen på centraliseringen av Weibo i den kinesiska befolkningen på det kinesiska fastlandet , vilket begränsar dess användning till övervägande kinesiska medborgare. Studier gjorda för den här plattformen har använt bots , maskininlärningsalgoritmer för att identifiera författares ålder och kön. Data hämtas från Weibo-mikroblogginlägg från villiga deltagare för att analyseras, och används för att träna algoritmer som bygger konceptbaserade profiler av användare till en viss noggrannhet.
Chattloggar
Chattloggar har studerats för författarprofilering eftersom de inkluderar mycket textdiskurs, vars analys har bidragit till tillämpningsstudier inklusive sociala trender och kriminalteknisk vetenskap . Datakällor för författarprofilering från chattloggar inkluderar plattformar som Yahoo! , AIM (mjukvara) och WhatsApp . Beräkningssystem har utvecklats för att producera konceptbaserade profiler som listar chattämnen som diskuteras i ett enda chattrum eller av oberoende användare.
Bloggar
Författarprofilering kan användas för att identifiera egenskaper hos bloggskribenter, såsom deras ålder, kön och geografiska plats , baserat på deras olika skrivstilar. Detta är särskilt användbart när det kommer till anonyma bloggar . Valet av innehållsord, stilbaserade funktioner och ämnesbaserade funktioner analyseras för att upptäcka egenskaper hos författaren.
Generellt sett inkluderar funktioner som ofta förekommer i bloggar en hög spridning av verb per skrift och en relativt hög användning av pronomen . Frekvensen av verb, pronomen och andra ordklasser används för att profilera och klassificera känslor i författares skrifter, såväl som deras kön och ålder. Författarprofilering med klassificeringsmodeller som användes på fysiska dokument tidigare, som Support Vector Machines, har också testats på bloggar. Det har dock visat sig vara olämpligt för den senare på grund av dess låga prestanda.
De maskininlärningsalgoritmer som fungerar bra för författarprofilering på bloggar inkluderar:
E-post
E-post har varit ett konsekvent fokus för författarprofilering på grund av rik textinformation som kan hittas i olika delar av en typisk e-postplattform. Dessa avsnitt inkluderar de skickade, inkorgen, skräpposten, papperskorgen och arkiverade mappar. Flerspråkiga metoder för författarprofilering för e-post har inkluderat engelska, spanska och arabiska e-postmeddelanden som datakällor, bland annat. Genom författarprofilering kan detaljer om e-postanvändare identifieras, såsom deras ålder, kön, geografiska ursprung, utbildningsnivå, nationalitet och till och med psykometriska personlighetsdrag , vilket inkluderar neuroticism , behaglighet , samvetsgrannhet och extraversion och introversion från Big Five-personligheten. egenskaper . [ citat behövs ]
I författarprofilering för e-post bearbetas innehåll för viktig textdata, medan oviktiga funktioner som metadata och andra överflödiga hypertextmarkeringsspråk ( HTML) exkluderas. Viktiga delar av Multi-purpose Internet Mail Extensions (MIME) som innehåller innehållet i e-postmeddelandena ingår också i analysen. Erhållen data tolkas ofta i olika delar av innehållet, inklusive författartext, signaturtext, reklam, citerad text och svarsrader. Ytterligare analys av textinnehåll i e-post i författarprofileringsuppgifter inbegriper extraktion av tonfall, sentiment , semantik och andra språkliga egenskaper som ska bearbetas.
Ansökningar
Författarprofilering har tillämpningar inom olika områden där det finns ett behov av att identifiera specifika egenskaper hos en författare till en text, med en växande betydelse inom områden som kriminalteknik och marknadsföring. Beroende på dess tillämpning kan uppgiften med författarprofilering variera i termer av egenskaper som ska identifieras, antal studerade författare och antal texter tillgängliga för analys.
Även om dess tillämpningar traditionellt har begränsats till skrivna texter, såsom litterära verk, har detta utvidgats till onlinetexter i och med datorns och Internets framsteg.
Forensisk lingvistik
I samband med rättslingvistik används författarprofilering för att identifiera egenskaper hos författaren av anonym, pseudonym eller förfalskad text, baserat på författarens användning av språket. Genom språklig analys försöker rättslingvister identifiera den misstänktes motivation och ideologi, tillsammans med andra klassdrag, såsom den misstänktes etnicitet eller yrke. Även om detta inte alltid leder till en avgörande författaridentifiering, kan sådan information hjälpa brottsbekämpande myndigheter att begränsa antalet misstänkta.
I de flesta fall innebär författarprofilering inom rättslingvistik ett enstaka textproblem, där det antingen finns inga eller få jämförelsetexter tillgängliga och inga externa bevis som pekar på författaren. Exempel på text som analyserats av rättslingvister inkluderar utpressning av brev, bekännelser , testamenten , självmordsbrev och plagiatskrivande. Detta har även utvidgats till onlinetexter, som sexuellt explicita chattloggar mellan medelålders män och minderåriga flickor, med det ökande antalet cyberbrott som begås på Internet.
Ett av de tidigaste och mest kända exemplen på användningen av författarprofilering är av Roger Shuy , som ombads undersöka en lösennota kopplad till ett ökänt kidnappningsfall 1979. Baserat på sin analys av kidnapparens idiolekt kunde Shuy identifiera avgörande delar av kidnapparens identitet från hans felstavningar och ett dialektobjekt , det vill säga att kidnapparen var välutbildad och från Akron, Ohio . Detta ledde så småningom till en framgångsrik arrestering och erkännande av den misstänkte.
Det finns dock kritik mot att författarprofileringsmetoder saknar objektivitet, eftersom dessa metoder är beroende av en rättslingvists subjektiva identifiering av avgörande sociolingvistiska markörer. Dessa metoder, som de som antagits av litteraturkritikern Donald Wayne Foster , sägs vara spekulativa och helt baserade på ens subjektiva erfarenheter, och kan därför inte testas empiriskt .
Botdetektering
Författarprofilering används för att identifiera sociala bots, den vanligaste är Twitter-bots . Sociala bots har ansetts som ett hot med tanke på deras kommersiella, politiska och ideologiska inflytande, såsom presidentvalet i USA 2016, under vilket de polariserade politiska samtal och spred desinformation och overifierad information. I samband med marknadsföring kan sociala bots på konstgjord väg öka populariteten för en produkt genom att publicera positiva recensioner och undergräva ryktet för konkurrenskraftiga produkter med ogynnsamma recensioner. Därför är botdetektering ur ett författarprofileringsperspektiv en uppgift av stor betydelse.
Gjorda för att visas som mänskliga konton, kan botar oftast identifieras genom information på deras profiler, som deras användarnamn, profilfoto och tidpunkt för inlägg. Uppgiften att identifiera bots enbart från textdata (dvs utan metadata) är dock betydligt mer utmanande och kräver tekniker för författarprofilering. Detta innebär vanligtvis en klassificeringsuppgift baserad på semantiska och syntaktiska egenskaper.
Uppgiften med bot- och könsprofilering var en av fyra delade uppgifter som organiserades av PAN, som organiserar en rad vetenskapliga evenemang och delade uppgifter om digital textforensik och stilometri, i sin 2019-utgåva. Deltagande team hade nått stora framgångar, med de bästa resultaten för botdetektering för engelska och spanska tweets på 95,95 % respektive 93,33 %.
Marknadsföring
Författarprofilering är också användbar ur marknadsföringssynpunkt, eftersom det gör det möjligt för företag att identifiera demografin för personer som gillar eller ogillar deras produkter baserat på en analys av bloggar, produktrecensioner online och innehåll på sociala medier. Detta är viktigt eftersom de flesta individer publicerar sina recensioner om produkter anonymt. Författarprofileringstekniker är till hjälp för affärsexperter för att fatta bättre informerade strategiska beslut baserat på demografin för deras målgrupp. Dessutom kan företag rikta sina marknadsföringskampanjer mot grupper av konsumenter som matchar demografin och profilen för nuvarande kunder.
Författaridentifiering och påverkansspårning
Författarprofileringstekniker används för att studera traditionella medier och litteratur för att identifiera olika författares skrivstil såväl som deras skrivna innehållsämnen. Författarprofilering för litteratur har också gjorts för att härleda författares sociala nätverk och deras litterära inflytande baserat på deras bibliografiska register över medförfattarskap. I fall av anonyma eller pseudepigrafiska verk har tekniken ibland använts för att försöka identifiera författaren eller författarna, eller avgöra vilka verk som skrevs av samma person.
Några exempel på författarprofileringsstudier om litteratur och traditionella medier inkluderar studier om följande:
- Bibeln
- Evangelier i Nya testamentet
- Shakespeares verk
- Federalist Papers på 1990- och 1960-talen
- Författarprofileringsstudier för litauiska litterära texter
- Primärfärger , roman från 1996 vars författare en tid var anonym
- A Warning , en politisk bok från 2019 vars författare ett tag var anonym
Katalogering av bibliotek
En annan tillämpning av författarprofilering är att utforma strategier för att katalogisera biblioteksresurser baserat på standardattribut. I detta tillvägagångssätt kan författarprofileringstekniker förbättra effektiviteten i bibliotekskatalogisering där biblioteksresurser automatiskt klassificeras baserat på författarnas bibliografiska poster . Detta var en viktig fråga i början av 2000-talet när mycket av bibliotekskatalogiseringen fortfarande gjordes manuellt.
Genom att använda författarprofilering för bibliotekskatalogisering har forskare använt maskininlärning för automatiska processer i biblioteket, såsom Support Vector Machine-algoritmer (SVM). Med användning av SVM för författarprofilering kan bibliografiska register över författare inom befintliga databaser identifieras, spåras och uppdateras för att identifiera en författare baserat på hennes ämnen med litterärt innehåll och expertis som anges i hans eller hennes bibliografiska register. I det här fallet använder författarprofilering de sociala strukturerna för författare som kan härledas från fysiska kopior av publicerade medier för att katalogisera biblioteksresurser.
I populärkulturen
Författarprofilering har varit med i populärkulturen. Discovery Channel -miniserien Manhunt: Unabomber från 2017 är en fiktiv skildring av FBI- utredningen kring Unabomber . Den innehåller en kriminell profiler som identifierar definierande egenskaper hos Unabomberens identitet baserat på hans analys av Unabomberns idiolekt i hans publicerade manifest och brev. Showen belyste vikten av författarprofilering inom kriminell kriminalteknik, eftersom det var avgörande för gripandet av den verkliga Unabomber-skyldige 1996.
Se även
- Relaterade ämnen