Indiska OCR
Indic OCR hänvisar till processen att konvertera textbilder skrivna i indiska skript till e-text med tekniker för optisk teckenigenkänning ( OCR). I stort sett kan det också hänvisa till OCR-systemen för brahmiska skript för språk i Sydasien och Sydostasien , inte bara skripten på den indiska subkontinenten , som alla är skrivna i ett abugida -baserat skriftsystem.
OCR för latinska tecken är fortfarande inte 100% korrekt men en relativt hög grad av noggrannhet i konverteringen har kunnat uppnås. Sådan noggrannhet har ännu inte kunnat uppnås för indiska skript som använder OCR. Detta beror delvis på skrivsystemen för indiska språk samt bristen på standardrepresentation, kodning och stöd bland operativsystem och tangentbord.
Centret för utveckling av avancerad datoranvändning (C-DAC) och teknologiutveckling för indiska språk, den främsta FoU-organisationen vid ministeriet för elektronik och informationsteknologi ( även känd som MeitY) i Indien har genomfört många projekt som rör OCR. Deras projekt inkluderar OCR för manus från Malayalam , Odia , Punjabi , Telugu och Devanagari .
Egenskaper för indiska skriftsystem
Det finns 22 officiellt erkända språk i Indien. Av dessa hindi , bengali och punjabi de mest talade indo-ariska språken och är också de fjärde, sjunde respektive tionde mest talade språken i världen. Två eller flera språk kan skrivas med samma skript. Till exempel används Devanagari för att skriva hindi , marathi , rajasthani , sanskrit , bhojpuri och andra, medan östra Nagari används för att skriva bengaliska , assamiska , manipuri och andra.
Förutom grundläggande tecken som konsonanter och vokaler , kombinerar de flesta indiska språk 2 eller fler grundläggande tecken för att bilda sammansatta tecken. Formen på en sammansatt karaktär är mer komplex än de ingående grundteckenen. Vissa indo-ariska språk (inklusive hindi och punjabi) har en horisontell linje över tecknen, medan andra språk (inklusive gujarati ) och dravidiska språk ( malayalam , kannada , tamil och telugu ) inte har det. Det här är några av de största utmaningarna för att skapa en enda OCR för alla indiska språk.
Indic OCR inkluderar också i allmänhet stöd för nyligen uppfunna skript i Indien som Ol Chiki , Warang Citi , Mundari Bani , etc. som huvudsakligen är skapade för att skriva Munda-språk av österrikisk familj .
Begreppet versaler /gemener saknas i indiska skrifter. Förutom Urdu , Sindhi , Kashmiri och Thaana , skrivs alla andra indiska språk från vänster till höger.
Exempel
- SanskritOCR - OCR-programvara för sanskrit, hindi och andra indo-ariska språk baserad på Devanagari-skriptet. Sanskrit OCR är utvecklad av en sanskritforskare från Tyskland - Dr Oliver Hellwig vid Institutionen för språk och kulturer i södra Asien, Freie Universität Berlin . Den officiella webbplatsen är på tyska. Gränssnittet för tidigare versioner av programvaran var också på tyska, men senare versioner har också ett engelskt gränssnitt.
- E-aksharayan - Motor för optisk teckenigenkänning för indiska språk
- Chitrankan - Denna teknik utvecklades av ISI , Kolkata, och överfördes till C-DAC . Den bearbetar tryckt hinditext från en skanner eller från en bild .
- Indiska OCR-modeller för Tesseract (mjukvara)
OCR används
OCR har använts för Wikisource och andra projekt.
- ^ GmbH, lektion nio. "De 10 mest talade språken i världen" . The Babbel Magazine . Hämtad 2018-03-20 .
- ^ Pal, U.; Chaudhuri, BB (2004-09-01). "Indisk teckenigenkänning av manus: en undersökning". Mönsterigenkänning . 37 (9): 1887–1899. doi : 10.1016/j.patcog.2004.02.003 . ISSN 0031-3203 .
-
^
Prabhu, S. (2020-06-04). "Pazhur Patasala — en väckelseberättelse" . Hinduen . ISSN 0971-751X . Hämtad 2021-09-01 .
En OCR (Optical Character Recognition) för sanskrit har skapat en offlinekorpus som innehåller över 3 000 böcker.
- ^ "Digitalisering som pågår i rask takt: rektor Prof V Muralidhara Sharma" . www.thehansindia.com . Hans Nyhetstjänst. 2019-03-20 . Hämtad 2021-09-01 .
- ^ Dikshit, Ashish (2016-10-27). "Vem säger att sanskrit är död? Det skakar Wikivärlden" . TheQuint . Hämtad 2021-09-01 .
-
^
Prabhu, S. (2020-06-04). "Pazhur Patasala — en väckelseberättelse" . Hinduen . ISSN 0971-751X . Hämtad 2021-09-01 .
En OCR (Optical Character Recognition) för sanskrit har skapat en offlinekorpus som innehåller över 3 000 böcker.
- ^ "Digitalisering som pågår i rask takt: rektor Prof V Muralidhara Sharma" . www.thehansindia.com . Hans Nyhetstjänst. 2019-03-20 . Hämtad 2021-09-01 .
- ^ Dikshit, Ashish (2016-10-27). "Vem säger att sanskrit är död? Det skakar Wikivärlden" . TheQuint . Hämtad 2021-09-01 .
- "Multilingual Computing & Heritage Computing" . www.cdac.in . Hämtad 2017-02-12 .
- Singh, Rustam (2016-04-16). "The Magic of OCR & Augmented Reality översätter text på indiska språk, realtid – utan internet" . Entreprenör . Hämtad 2017-02-12 .
- "Indian Language Technology Proliferation and Deployment Center - Hem" . www.tdil-dc.in . Hämtad 2017-02-12 .
- Pal, U.; Chaudhuri, BB (2004-09-01). "Indisk teckenigenkänning av manus: en undersökning". Mönsterigenkänning . 37 (9): 1887–1899. doi : 10.1016/j.patcog.2004.02.003 . ISSN 0031-3203 .
externa länkar
- "SanskritOCR - Optisk textigenkänning för sanskritdokument" .
- "C-DAC: GIST - Produkter - Chitrankan" . cdac.in . Hämtad 2017-02-12 .