Jämförelse av programvara för optisk teckenigenkänning

Denna jämförelse av programvara för optisk teckenigenkänning inkluderar:

  • OCR-motorer, som gör själva karaktärsidentifieringen
  • Layoutanalysprogram, som delar in skannade dokument i zoner som är lämpliga för OCR
  • Grafiska gränssnitt till en eller flera OCR-motorer
  • Mjukvaruutvecklingskit som används för att lägga till OCR-funktioner till annan programvara (t.ex. formulärbearbetningsapplikationer, dokumenthanteringssystem, e-discovery- system, registerhanteringslösningar)
Sorterbart bord
namn Grundat år Senaste stabila versionen Utgivningsår Licens Uppkopplad Windows Mac OS X Linux BSD Android iOS Programmeringsspråk SDK ? språk Teckensnitt Utdataformat Anteckningar
Google Drive OCR eller Google Cloud Vision 2015 Proprietär Ja Webbläsare Webbläsare Webbläsare Okänd ? ? Okänd Ja 200+ Alla typsnitt text Google blogginlägg
Tesseract 1985 5.2.0 2022 Apache Nej Ja Ja Ja Ja ? ? C++, C Ja 100+ Alla tryckta teckensnitt Text, ALTO , hOCR , PDF, andra med olika användargränssnitt eller API Skapad av Hewlett-Packard ; under vidareutveckling av Google
ABBYY FineReader 1989 16 2022 Proprietär Ja Ja Ja Nej Ja Ja Ja C/C++ Ja 192 Alla typsnitt DOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, HTML, CSV, TXT, ODT, DjVu, EPUB, FB2 ABBYY tillhandahåller även SDK:er för inbäddade och mobila enheter. Professional, Corporate och Site License Editions för Windows, Express Edition för Mac.
E-aksharayan 2010 Ja Nej Ja Nej ? ? 14 RTF, TXT, BRL
Asprise OCR SDK 1998 15 2015 Proprietär Ja Ja Ja Ja Ja ? ? Java, C#,VB.NET, C/C++/Delphi Ja 20+ ? Oformaterad text, sökbar PDF, XML Java, C#, VB.NET, C/C++/Delphi SDK för OCR och streckkodsigenkänning på Windows, Linux, Mac OS X och Unix.
AnyDoc programvara 1989 ? ? Proprietär Nej Ja Nej Nej Nej ? ? VBScript ? ? ? Arbetar med strukturerade, semistrukturerade och ostrukturerade dokument.
CuneiForm 1996 1.1 2011-04-19 BSD variant Nej Ja Ja Ja Ja ? ? C/C++ Ja 28 Alla tryckta teckensnitt HTML, hOCR, native, RTF, TeX , TXT System i företagsklass, kan spara textformatering och känner igen komplicerade tabeller av vilken struktur som helst
Dynamsoft OCR SDK 2003 8.2 2012 Proprietär Ja Ja Nej Nej Nej ? ? C/C++ Ja 40+ ? PDF, TXT
OmniPage 1970-talet 19.2 2015 Proprietär Ja Ja Ja Ja Nej ? ? C/C++, C# Ja 125 Maskin- och handtryckta typsnitt DOC/DOCX XLS/XLSX PPTX RTF PDF PDF/A Sökbar PDF HTML Text XML ePUB MP3 Produkt från Nuance Communications
Microsoft Office OneNote 2007 2011 ? 2007 Proprietär Nej Ja Nej Nej Nej ? ? ? ? ? ?
GOCR 2000 0,52 2018-10-15 GPL Ja Ja Ja Ja Ja ? ? C ? 20+ ?
Ocrad ? 0,26 2017-03-31 GPL Ja Nej Ja Ja Ja ? ? C++ Ja latinska alfabetet ? Kommandorad
SmartScore 1991 10.5.8 2015-07 Proprietär Nej Ja Ja Nej Nej ? ? ? ? ? ? För partitur
Microsoft Office Document Imaging ? Office 2007 2007 Proprietär Nej Ja Nej Nej Nej ? ? ? ? ? ? Använder OmniPage [ citat behövs ]
Puma.NET ? ? 2009-10-29 BSD Nej Ja Nej Nej Nej ? ? C# Ja 28 Alla tryckta teckensnitt .NET OCR SDK baserad på Cognitive Technologies CuneiForm-igenkänningsmotor. Omsluter Puma COM-server och tillhandahåller förenklat API för .NET-applikationer
ReadSoft ? ? ? Proprietär Nej Ja Nej Nej Nej ? ? ? ? ? ? Skanna, fånga och klassificera affärsdokument såsom fakturor, formulär och inköpsorder integrerade med affärsprocesser.
Scantron ? ? ? Proprietär Nej Ja Nej Nej Nej ? ? ? ? ? ? För att arbeta med lokaliserade gränssnitt krävs motsvarande språkstöd.
OCRFeeder 2009-03 0.8.3 2014-12-22 GPL Nej Nej Nej Ja Nej ? ? Pytonorm ? ? ? Har ett komplett användargränssnitt och har ett kommandoradsverktyg för automatiska operationer. Har sin egen segmenteringsalgoritm men använder systemomfattande OCR-motorer som Tesseract eller Ocrad
OCRopus 2007 1.3.3 2017-12-16 Apache Nej Nej Ja Ja Ja ? ? Pytonorm ? Alla språk som använder latinsk skrift (andra språk kan tränas) Normalt latinskt skrift och Fraktur (andra skript kan tränas) TXT, hOCR, PDF Pluggbart ramverk under aktiv utveckling, används för Google Böcker
namn Grundat år Senaste stabila versionen Utgivningsår Licens Uppkopplad Windows Mac OS X Linux BSD Android iOS Programmeringsspråk SDK? språk Teckensnitt Utdataformat Anteckningar

Utvärdering

En analys från 2016 av noggrannheten och tillförlitligheten hos OCR-paketen Google Docs OCR, Tesseract, ABBYY FineReader och Transym, som använder en datauppsättning med 1227 bilder från 15 olika kategorier, visade att Google Docs OCR och ABBYY presterade bättre än andra.