Jämförelse av programvara för optisk teckenigenkänning
Denna jämförelse av programvara för optisk teckenigenkänning inkluderar:
- OCR-motorer, som gör själva karaktärsidentifieringen
- Layoutanalysprogram, som delar in skannade dokument i zoner som är lämpliga för OCR
- Grafiska gränssnitt till en eller flera OCR-motorer
- Mjukvaruutvecklingskit som används för att lägga till OCR-funktioner till annan programvara (t.ex. formulärbearbetningsapplikationer, dokumenthanteringssystem, e-discovery- system, registerhanteringslösningar)
namn | Grundat år | Senaste stabila versionen | Utgivningsår | Licens | Uppkopplad | Windows | Mac OS X | Linux | BSD | Android | iOS | Programmeringsspråk | SDK ? | språk | Teckensnitt | Utdataformat | Anteckningar |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Google Drive OCR eller Google Cloud Vision | 2015 | Proprietär | Ja | Webbläsare | Webbläsare | Webbläsare | Okänd | ? | ? | Okänd | Ja | 200+ | Alla typsnitt | text | Google blogginlägg | ||
Tesseract | 1985 | 5.2.0 | 2022 | Apache | Nej | Ja | Ja | Ja | Ja | ? | ? | C++, C | Ja | 100+ | Alla tryckta teckensnitt | Text, ALTO , hOCR , PDF, andra med olika användargränssnitt eller API | Skapad av Hewlett-Packard ; under vidareutveckling av Google |
ABBYY FineReader | 1989 | 16 | 2022 | Proprietär | Ja | Ja | Ja | Nej | Ja | Ja | Ja | C/C++ | Ja | 192 | Alla typsnitt | DOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, HTML, CSV, TXT, ODT, DjVu, EPUB, FB2 | ABBYY tillhandahåller även SDK:er för inbäddade och mobila enheter. Professional, Corporate och Site License Editions för Windows, Express Edition för Mac. |
E-aksharayan | 2010 | Ja | Nej | Ja | Nej | ? | ? | 14 | RTF, TXT, BRL | ||||||||
Asprise OCR SDK | 1998 | 15 | 2015 | Proprietär | Ja | Ja | Ja | Ja | Ja | ? | ? | Java, C#,VB.NET, C/C++/Delphi | Ja | 20+ | ? | Oformaterad text, sökbar PDF, XML | Java, C#, VB.NET, C/C++/Delphi SDK för OCR och streckkodsigenkänning på Windows, Linux, Mac OS X och Unix. |
AnyDoc programvara | 1989 | ? | ? | Proprietär | Nej | Ja | Nej | Nej | Nej | ? | ? | VBScript | ? | ? | ? | Arbetar med strukturerade, semistrukturerade och ostrukturerade dokument. | |
CuneiForm | 1996 | 1.1 | 2011-04-19 | BSD variant | Nej | Ja | Ja | Ja | Ja | ? | ? | C/C++ | Ja | 28 | Alla tryckta teckensnitt | HTML, hOCR, native, RTF, TeX , TXT | System i företagsklass, kan spara textformatering och känner igen komplicerade tabeller av vilken struktur som helst |
Dynamsoft OCR SDK | 2003 | 8.2 | 2012 | Proprietär | Ja | Ja | Nej | Nej | Nej | ? | ? | C/C++ | Ja | 40+ | ? | PDF, TXT | |
OmniPage | 1970-talet | 19.2 | 2015 | Proprietär | Ja | Ja | Ja | Ja | Nej | ? | ? | C/C++, C# | Ja | 125 | Maskin- och handtryckta typsnitt | DOC/DOCX XLS/XLSX PPTX RTF PDF PDF/A Sökbar PDF HTML Text XML ePUB MP3 | Produkt från Nuance Communications |
Microsoft Office OneNote 2007 | 2011 | ? | 2007 | Proprietär | Nej | Ja | Nej | Nej | Nej | ? | ? | ? | ? | ? | ? | ||
GOCR | 2000 | 0,52 | 2018-10-15 | GPL | Ja | Ja | Ja | Ja | Ja | ? | ? | C | ? | 20+ | ? | ||
Ocrad | ? | 0,26 | 2017-03-31 | GPL | Ja | Nej | Ja | Ja | Ja | ? | ? | C++ | Ja | latinska alfabetet | ? | Kommandorad | |
SmartScore | 1991 | 10.5.8 | 2015-07 | Proprietär | Nej | Ja | Ja | Nej | Nej | ? | ? | ? | ? | ? | ? | För partitur | |
Microsoft Office Document Imaging | ? | Office 2007 | 2007 | Proprietär | Nej | Ja | Nej | Nej | Nej | ? | ? | ? | ? | ? | ? | Använder OmniPage [ citat behövs ] | |
Puma.NET | ? | ? | 2009-10-29 | BSD | Nej | Ja | Nej | Nej | Nej | ? | ? | C# | Ja | 28 | Alla tryckta teckensnitt | .NET OCR SDK baserad på Cognitive Technologies CuneiForm-igenkänningsmotor. Omsluter Puma COM-server och tillhandahåller förenklat API för .NET-applikationer | |
ReadSoft | ? | ? | ? | Proprietär | Nej | Ja | Nej | Nej | Nej | ? | ? | ? | ? | ? | ? | Skanna, fånga och klassificera affärsdokument såsom fakturor, formulär och inköpsorder integrerade med affärsprocesser. | |
Scantron | ? | ? | ? | Proprietär | Nej | Ja | Nej | Nej | Nej | ? | ? | ? | ? | ? | ? | För att arbeta med lokaliserade gränssnitt krävs motsvarande språkstöd. | |
OCRFeeder | 2009-03 | 0.8.3 | 2014-12-22 | GPL | Nej | Nej | Nej | Ja | Nej | ? | ? | Pytonorm | ? | ? | ? | Har ett komplett användargränssnitt och har ett kommandoradsverktyg för automatiska operationer. Har sin egen segmenteringsalgoritm men använder systemomfattande OCR-motorer som Tesseract eller Ocrad | |
OCRopus | 2007 | 1.3.3 | 2017-12-16 | Apache | Nej | Nej | Ja | Ja | Ja | ? | ? | Pytonorm | ? | Alla språk som använder latinsk skrift (andra språk kan tränas) | Normalt latinskt skrift och Fraktur (andra skript kan tränas) | TXT, hOCR, PDF | Pluggbart ramverk under aktiv utveckling, används för Google Böcker |
namn | Grundat år | Senaste stabila versionen | Utgivningsår | Licens | Uppkopplad | Windows | Mac OS X | Linux | BSD | Android | iOS | Programmeringsspråk | SDK? | språk | Teckensnitt | Utdataformat | Anteckningar |
Utvärdering
En analys från 2016 av noggrannheten och tillförlitligheten hos OCR-paketen Google Docs OCR, Tesseract, ABBYY FineReader och Transym, som använder en datauppsättning med 1227 bilder från 15 olika kategorier, visade att Google Docs OCR och ABBYY presterade bättre än andra.