Handskriftsigenkänning
Handwriting recognition ( HWR ), även känd som handwritten text recognition ( HTR ), är en dators förmåga att ta emot och tolka begriplig handskriven input från källor som pappersdokument , fotografier , pekskärmar och andra enheter. Bilden av den skrivna texten kan kännas "off-line" från ett papper genom optisk skanning ( optisk teckenigenkänning) eller intelligent ordigenkänning . Alternativt kan pennspetsens rörelser kännas av "on-line", till exempel av en pennbaserad datorskärmyta, en generellt lättare uppgift eftersom det finns fler ledtrådar tillgängliga. Ett handskriftsigenkänningssystem hanterar formatering, utför korrekt segmentering i tecken och hittar de mest rimliga orden.
Offlineigenkänning
Offline-handskriftsigenkänning innebär automatisk konvertering av text i en bild till bokstavskoder som är användbara i dator- och textbehandlingsprogram. Data som erhålls med detta formulär betraktas som en statisk representation av handstil. Handskriftsigenkänning offline är jämförelsevis svårt, eftersom olika människor har olika handstilar. Och från och med idag är OCR-motorer främst inriktade på maskinutskriven text och ICR för hand "tryckt" (skriven med versaler) text.
Traditionella tekniker
Karaktärsextraktion
Offline teckenigenkänning innebär ofta att man skannar ett formulär eller dokument. Detta innebär att de individuella tecknen i den skannade bilden måste extraheras. Det finns verktyg som kan utföra detta steg. Det finns dock flera vanliga brister i detta steg. Det vanligaste är när tecken som är kopplade returneras som en enda underbild som innehåller båda tecknen. Detta orsakar ett stort problem i igenkänningsstadiet. Ändå finns många algoritmer tillgängliga som minskar risken för anslutna tecken.
Karaktärsigenkänning
Efter att enskilda tecken har extraherats används en igenkänningsmotor för att identifiera motsvarande datortecken. Flera olika igenkänningstekniker finns för närvarande tillgängliga.
Särdragsextraktion
Funktionsextraktion fungerar på ett liknande sätt som igenkännare för neurala nätverk. Programmerare måste dock manuellt bestämma vilka egenskaper de tycker är viktiga. Detta tillvägagångssätt ger igenkännaren mer kontroll över de egenskaper som används vid identifiering. Ändå kräver alla system som använder detta tillvägagångssätt avsevärt mer utvecklingstid än ett neuralt nätverk eftersom egenskaperna inte lärs in automatiskt.
Moderna tekniker
Där traditionella tekniker fokuserar på att segmentera enskilda tecken för igenkänning, fokuserar moderna tekniker på att känna igen alla tecken i en segmenterad textrad. Särskilt fokuserar de på maskininlärningstekniker som kan lära sig visuella funktioner, och undviker den begränsande funktionsteknik som tidigare använts. Toppmoderna metoder använder faltningsnätverk för att extrahera visuella egenskaper över flera överlappande fönster i en textradsbild som ett återkommande neuralt nätverk använder för att producera teckensannolikheter.
Online erkännande
Handskriftsigenkänning online innebär automatisk konvertering av text som den är skriven på en speciell digitaliserare eller handdator , där en sensor fångar upp pennspetsens rörelser samt byte av penna upp/penna ner. Denna typ av data kallas digitalt bläck och kan betraktas som en digital representation av handstil. Den erhållna signalen omvandlas till bokstavskoder som är användbara inom dator- och textbehandlingsapplikationer.
Elementen i ett online-handskriftsigenkänningsgränssnitt inkluderar vanligtvis:
- en penna eller penna som användaren kan skriva med.
- en beröringskänslig yta, som kan vara integrerad med eller intill en utgångsdisplay.
- en mjukvaruapplikation som tolkar pennans rörelser över skrivytan och översätter de resulterande strecken till digital text.
Processen för handskriftsigenkänning online kan delas upp i några allmänna steg:
- förbearbetning,
- funktionsextraktion och
- klassificering
Syftet med förbearbetningen är att kassera irrelevant information i indata, som kan påverka igenkänningen negativt. Det handlar om hastighet och precision. Förbearbetning består vanligtvis av binarisering, normalisering, sampling, utjämning och avbrusning. Det andra steget är funktionsextraktion. Ur det två- eller högredimensionella vektorfältet som tas emot från förbehandlingsalgoritmerna extraheras data med högre dimensioner. Syftet med detta steg är att lyfta fram viktig information för igenkänningsmodellen. Dessa data kan inkludera information som penntryck, hastighet eller ändringar av skrivriktning. Det sista stora steget är klassificering. I det här steget används olika modeller för att mappa de extraherade funktionerna till olika klasser och därmed identifiera de tecken eller ord som funktionerna representerar.
Hårdvara
Kommersiella produkter som innehåller handskriftsigenkänning som en ersättning för tangentbordsinmatning introducerades i början av 1980-talet. Exempel inkluderar handskriftsterminaler som Pencept Penpad och Inforite-terminalen. Med tillkomsten av den stora konsumentmarknaden för persondatorer introducerades flera kommersiella produkter för att ersätta tangentbordet och musen på en persondator med ett enda pek-/handskriftssystem, som de från Pencept, CIC och andra. Den första kommersiellt tillgängliga bärbara datorn av tablet-typ var GRiDPad från GRiD Systems , som släpptes i september 1989. Dess operativsystem var baserat på MS-DOS .
släppte hårdvarutillverkare inklusive NCR , IBM och EO surfplattor som körde operativsystemet PenPoint som utvecklats av GO Corp. PenPoint använde handskriftsigenkänning och gester genomgående och gav utrustning till tredjepartsprogramvara. IBM:s surfplatta var den första som använde ThinkPad- namnet och använde IBM:s handskriftsigenkänning. Detta igenkänningssystem portades senare till Microsoft Windows för Pen Computing och IBMs Pen för OS/2. Ingen av dessa var kommersiellt framgångsrik.
Framsteg inom elektronik gjorde det möjligt för den datorkraft som krävs för handskriftsigenkänning att passa in i en mindre formfaktor än surfplattor, och handskriftsigenkänning används ofta som en inmatningsmetod för handhållna handdatorer . Den första handdatorn som gav skriftliga indata var Apple Newton , som exponerade allmänheten för fördelen med ett strömlinjeformat användargränssnitt. Enheten blev dock ingen kommersiell framgång, på grund av programvarans opålitlighet, som försökte lära sig en användares skrivmönster. Vid tidpunkten för lanseringen av Newton OS 2.0, där handskriftsigenkänningen förbättrades avsevärt, inklusive unika funktioner som fortfarande inte finns i nuvarande igenkänningssystem, såsom modelllös felkorrigering, hade det i stort sett negativa första intrycket gjorts. Efter att Apple Newton avvecklats , införlivades funktionen i Mac OS X 10.2 och senare som Inkwell .
Palm lanserade senare en framgångsrik serie handdatorer baserade på graffitiigenkänningssystemet . Graffiti förbättrade användbarheten genom att definiera en uppsättning "unistrokes", eller entaktsformer, för varje karaktär. Detta minskade möjligheten för felaktig inmatning, även om memorering av slagmönster ökade inlärningskurvan för användaren. Graffiti-handskriftsigenkänningen befanns göra intrång i ett patent som innehas av Xerox, och Palm ersatte Graffiti med en licensierad version av CIC-handskriftsigenkänningen som, samtidigt som den också stödde unistroke-former, daterades före Xerox-patentet. Domstolens konstaterande av intrång upphävdes vid överklagande och upphävdes sedan igen vid ett senare överklagande. De inblandade parterna förhandlade därefter fram en uppgörelse om detta och andra patent.
En Tablet PC är en bärbar dator med en digitaliserad surfplatta och en penna, som gör att en användare kan skriva text för hand på enhetens skärm. Operativsystemet känner igen handstilen och konverterar den till text. Windows Vista och Windows 7 inkluderar anpassningsfunktioner som lär sig en användares skrivmönster eller ordförråd för engelska, japanska, traditionell kinesiska, förenklad kinesiska och koreanska. Funktionerna inkluderar en "personaliseringsguide" som frågar efter exempel på en användares handstil och använder dem för att träna om systemet för högre noggrannhet igenkänning. Detta system skiljer sig från det mindre avancerade handskriftsigenkänningssystemet som används i dess Windows Mobile OS för handdatorer.
Även om handskriftsigenkänning är en inmatningsform som allmänheten har vant sig vid, har den inte nått utbredd användning i vare sig stationära eller bärbara datorer. Det är fortfarande allmänt accepterat att tangentbordsinmatning är både snabbare och mer tillförlitlig. Från och med 2006 erbjuder många handdatorer handskriftsinmatning, ibland accepterar de till och med naturlig kursiv handskrift, men noggrannheten är fortfarande ett problem, och vissa människor tycker fortfarande att även ett enkelt tangentbord på skärmen är mer effektivt.
programvara
Tidig mjukvara kunde förstå tryckt handstil där tecknen var åtskilda; emellertid presenterade kursiv handstil med anslutna karaktärer Sayres paradox , en svårighet som involverar karaktärssegmentering. 1962 Shelia Guberman , då i Moskva, det första programmet för tillämpad mönsterigenkänning. Kommersiella exempel kom från företag som Communications Intelligence Corporation och IBM.
I början av 1990-talet kom två företag – ParaGraph International och Lexicus – med system som kunde förstå igenkänning av kursiv handskrift. ParaGraph var baserat i Ryssland och grundades av datavetaren Stepan Pachikov medan Lexicus grundades av Ronjon Nag och Chris Kortge som var studenter vid Stanford University. ParaGraph CalliGrapher-systemet distribuerades i Apple Newton-systemen, och Lexicus Longhand-systemet gjordes tillgängligt kommersiellt för operativsystemen PenPoint och Windows. Lexicus förvärvades av Motorola 1993 och fortsatte med att utveckla kinesiska handskriftsigenkänning och prediktiva textsystem för Motorola. ParaGraph förvärvades 1997 av SGI och dess team för handskriftsigenkänning bildade en P&I-division, senare förvärvad från SGI av Vadem. Microsoft har förvärvat CalliGrapher handskriftsigenkänning och andra digitala bläckteknologier utvecklade av P&I från Vadem 1999.
Wolfram Mathematica (8.0 eller senare) tillhandahåller också en handskrifts- eller textigenkänningsfunktion TextRecognize.
Forskning
Handskriftsigenkänning har en aktiv gemenskap av akademiker som studerar den. De största konferenserna för handskriftsigenkänning är International Conference on Frontiers in Handwriting Recognition (ICFHR), som hålls i jämna år, och International Conference on Document Analysis and Recognition (ICDAR), som hålls i udda år. Båda dessa konferenser stöds av IEEE och IAPR . År 2021 kommer ICDAR-handlingarna att publiceras av LNCS , Springer.
Aktiva forskningsområden inkluderar:
- Online erkännande
- Offlineigenkänning
- Signaturverifiering
- Tolkning av postadress
- Bearbetning av bankcheck
- Författarigenkänning
Resultat sedan 2009
Sedan 2009 har de återkommande neurala nätverken och de djupgående neurala nätverken som utvecklats i forskargruppen Jürgen Schmidhuber vid det schweiziska AI Lab IDSIA vunnit flera internationella handskriftstävlingar. I synnerhet det dubbelriktade och flerdimensionella långa korttidsminnet (LSTM) av Alex Graves et al. vann tre tävlingar i ansluten handskriftsigenkänning vid 2009 års internationella konferens om dokumentanalys och igenkänning (ICDAR), utan några förkunskaper om de tre olika språken (franska, arabiska, persiska ) som ska läras. Nya GPU -baserade metoder för djupinlärning för feedforward-nätverk av Dan Ciresan och kollegor på IDSIA vann ICDAR 2011 offline kinesiska handskriftsigenkänningstävling; deras neurala nätverk var också de första artificiella mönsterigenkännarna som uppnådde människokonkurrensprestanda på det berömda MNIST -problemet med handskrivna siffror av Yann LeCun och kollegor vid NYU .
Se även
- AI-effekt
- Tillämpningar av artificiell intelligens
- Elektronisk signatur
- Handskriftsrörelseanalys
- Intelligent karaktärsigenkänning
- Lösning för Live Ink Character Recognition
- Neokognitron
- Optisk teckenigenkänning
- Pennberäkning
- Skissigenkänning
- Stylus (dator)
- Surfplatta