OCR на индийских языках - OCR in Indian languages
Оптическое распознавание символов (Также известный как OCR) - это процесс преобразования изображение в текст. OCR для английского и других европейских языков удалось достичь высокого процента точности преобразования. Но OCR для индийских языков не смог достичь той точности, которой они достигли. В основном это связано со сложностью индийского языка, отсутствием стандартного представления, кодировки, поддержки операционной системы и клавиатуры. Центр развития передовых вычислений (C-DAC) и Развитие технологий для индийских языков, ведущая научно-исследовательская организация Министерство электроники и информационных технологий (Также известный как MeitY) из Индия выполнил много проектов для OCR. Их проекты включают OCR для Малаялам, Одиа, Пенджаби, телугу и Деванагари сценарий.
Свойства индийских письменностей
В Индии их 22 официально признанные языки. Среди этих хинди, Бенгальский и Пенджаби являются наиболее распространенными языками в Индии и четвертым, седьмым и десятым по популярности языками в мире.[1] Один и тот же сценарий можно написать на двух или более языках. Например, Деванагири используется для написания хинди, Маратхи, Раджастхани, Бходжпури и многое другое. В то время как Бенгальский сценарий используется для написания санскрит, Манипури и т.п.
Помимо основных персонажей как согласные и гласные, большинство индийских языков объединяет 2 или более основных символа в составные символы. Форма составного символа более сложна, чем составные основные символы. В некоторых индийских языках (хинди, панджаби и т. Д.) Над символами имеется горизонтальная линия. Хотя некоторые языки (например, Гуджарати, Тамильский и т.д.) не имеет этих горизонтальных линий. Это некоторые из основных проблем при создании единого OCR для всех индийских языков.[2]
Концепция чего-либо верхний / нижний регистр иероглиф отсутствует в индийских языках. Как и в случае с английскими языками, режим написания языков слева направо, кроме Урду.
Примеры
- СанскритOCR - Программное обеспечение OCR для санскрита, хинди и других языков Индии на основе системы письма Деванагари | скрипта.
- Е-Акшараян - Механизм оптического распознавания символов для индийских языков
- Читранкан - Разработано ISI, Калькутта, и технология передается в C-DAC. Он обрабатывает печатные хинди текст либо прямо из сканер или из изображение.
Рекомендации
- ^ GmbH, Урок девятый. «10 самых распространенных языков в мире». Журнал Babbel. Получено 2018-03-20.
- ^ Pal, U .; Чаудхури, Би Би (2004-09-01). «Распознавание символов индийского алфавита: обзор». Распознавание образов. 37 (9): 1887–1899. Дои:10.1016 / j.patcog.2004.02.003. ISSN 0031-3203.
- "Многоязычные вычисления и традиционные вычисления". www.cdac.in. Получено 2017-02-12.
- Сингх, Рустам (2016-04-16). «Магия OCR и дополненной реальности переводит текст на индийские языки в реальном времени - без Интернета». Предприниматель. Получено 2017-02-12.
- "Центр распространения и внедрения индийских языковых технологий - главная". www.tdil-dc.in. Получено 2017-02-12.
- Pal, U .; Чаудхури, Би Би (2004-09-01). «Распознавание символов индийского алфавита: обзор». Распознавание образов. 37 (9): 1887–1899. Дои:10.1016 / j.patcog.2004.02.003. ISSN 0031-3203.
внешняя ссылка
- «SanskritOCR - Оптическое распознавание текста для санскритских документов».
- «C-DAC: GIST - Продукция - Читранкан». cdac.in. Получено 2017-02-12.
Этот программного обеспечения статья - это заглушка. Вы можете помочь Википедии расширяя это. |