Сравнение программ оптического распознавания символов - Comparison of optical character recognition software

Эта сравнение оптическое распознавание символов программное обеспечение включает:

  • Механизмы OCR, которые выполняют фактическую идентификацию символов
  • Программное обеспечение для анализа макета, которое разделяет отсканированные документы на зоны, подходящие для OCR
  • Графические интерфейсы к одному или нескольким механизмам OCR
  • Комплекты для разработки программного обеспечения которые используются для добавления возможностей OCR в другое программное обеспечение (например, приложения для обработки форм, системы управления изображениями документов, электронное открытие системы, решения для управления записями)
Сортируемый стол
имяГод основанияПоследняя стабильная версияГод выпускаЛицензияонлайнWindowsMac OS XLinuxBSDЯзык программированияSDK ?ЯзыкиШрифтыФорматы выводаЗаметки
Гугл Диск OCR или Google Cloud Vision2015ПроприетарныйдаБраузерБраузерБраузерНеизвестноНеизвестнода200+Все шрифтытекстСообщение в блоге Google [1] [2]
Тессеракт19854.1.12019ApacheНетдадададаC ++, Cда100+[3]Любой печатный шрифтТекст, АЛЬТО, hOCR,[4] PDF, другие с разными пользовательскими интерфейсами[5] или APIСоздан Hewlett Packard; в стадии дальнейшей разработки Google[6]
ABBYY FineReader1989152019ПроприетарныйдададададаC / C ++да192[7]Все шрифтыDOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, HTML, CSV, TXT, ODT, DjVu, EPUB, FB2[8]ABBYY также поставляет SDK для встраиваемых и мобильных устройств. Версии Professional, Corporate и Site License для Windows, Express Edition для Mac.[9]
Е-Акшараян2010даНетдаНет14RTF, TXT, BRL
Asprise OCR SDK1998152015ПроприетарныйдададададаJava, C #, VB.NET, C / C ++ / Delphiда20+[10]?Обычный текст, PDF, XML с возможностью поиска[11]Пакеты SDK Java, C #, VB.NET, C / C ++ / Delphi для OCR и распознавания штрих-кода в Windows, Linux, Mac OS X и Unix.[12]
Программное обеспечение AnyDoc1989??ПроприетарныйНетдаНетНетНетVBScript???Работает со структурированными, полуструктурированными и неструктурированными документами.
CuneiForm19961.12011-04-19BSD вариантНетдадададаC / C ++да28Любой печатный шрифтHTML, hOCR, нативный, RTF, TeX, ТЕКСТ[13]Система корпоративного класса, может сохранять форматирование текста и распознавать сложные таблицы любой структуры
SDK Dynamsoft OCR20038.22012ПроприетарныйдадаНетНетНетC / C ++да40+[14]?PDF, TXT
OmniPage1970-е годы19.22015ПроприетарныйдадададаНетC / C ++, C #[15]да125[16]Машинные и ручные шрифтыDOC / DOCX XLS / XLSX PPTX RTF PDF PDF / A PDF с возможностью поиска HTML Текст XML ePUB MP3Продукт Nuance Communications
Microsoft Office OneNote 20072011?2007ПроприетарныйНетдаНетНетНет????
GOCR20000.52[17]2018-10-15GPLда[18]дадададаC?20+?
Окрад?0.26[19]2017-03-31GPLдаНетдададаC ++даЛатинский алфавит?Командная строка
SmartScore199110.5.82015-07ПроприетарныйНетдадаНетНет????Для нот
Обработка изображений документов Microsoft Office?Office 20072007ПроприетарныйНетдаНетНетНет????Использует OmniPage[нужна цитата ]
Puma.NET??2009-10-29BSDНетдаНетНетНетC #да28Любой печатный шрифт.СЕТЬ OCR SDK на основе механизма распознавания CuneiForm от Cognitive Technologies. Обертывает Puma COM-сервер и упрощает API для приложений .NET
ReadSoft???ПроприетарныйНетдаНетНетНет????Сканируйте, регистрируйте и классифицируйте бизнес-документы, такие как счета, формы и заказы на поставку, интегрированные с бизнес-процессами.
Scantron???ПроприетарныйНетдаНетНетНет????Для работы с локализованными интерфейсами требуется соответствующая языковая поддержка.
OCRFeeder2009-030.8.12014-12-22GPLНетНетНетдаНетPython???Имеет полный пользовательский интерфейс и инструмент командной строки для автоматических операций. Имеет собственный алгоритм сегментации, но использует общесистемные механизмы распознавания текста, такие как Тессеракт или Окрад
OCRopus20071.3.32017-12-16ApacheНетНетдададаPython?Все языки, использующие Латинский шрифт (другие языки можно обучать)Нормальный латинский шрифт и Fraktur (другие скрипты можно обучить)TXT, hOCR,[20] PDF[21]Подключаемый фреймворк в активной разработке, используется для Google Книги
имяГод основанияПоследняя стабильная версияГод выпускаЛицензияонлайнWindowsMac OS XLinuxBSDЯзык программированияSDK?ЯзыкиШрифтыФорматы выводаЗаметки

Оценка

Анализ точности и надежности пакетов OCR Гугл документы OCR, Тессеракт, ABBYY FineReader, и Transym, используя набор данных, включающий 1227 изображений из 15 различных категорий, пришли к выводу, что Google Docs OCR и ABBYY работают лучше, чем другие.[22]

использованная литература

  1. ^ Дмитрий Гензель; Ашок Попат (6 мая 2015 г.). «Бумага в цифровую форму на 200+ языках».
  2. ^ Ашок Попат (4 сентября, 2015). «IEEE SPS: оптическое распознавание символов для большинства языков мира».
  3. ^ На основе количества файлов языковой подготовки для версии 3.04. Доступны на страница загрузки.
  4. ^ Использование объяснено в Тессеракте Прочти меня и Вопросы-Ответы
  5. ^ Такие как ODF с OCRFeeder
  6. ^ "GitHub - tesseract-ocr / tesseract: Tesseract Open Source OCR Engine (основной репозиторий)". Получено 2018-11-05.
  7. ^ «ABBYY FineReader 14: Технические характеристики». Finereader.abbyy.com. Получено 2017-02-23.
  8. ^ «ABBYY FineReader 11: Технические характеристики». Finereader.abbyy.com. Получено 2013-09-12.
  9. ^ «Лучшее программное обеспечение для оптического распознавания текста». Ocrworld.com. 30 марта 2010 г. Архивировано из оригинал на 2017-02-23. Получено 2013-09-12.
  10. ^ «Возможности Asprise OCR SDK». asprise.com. Получено 2014-06-21.
  11. ^ «Возможности библиотеки Asprise Java OCR». asprise.com. Получено 2014-06-21.
  12. ^ "Asprise Java, C # / VB.NET OCR API". asprise.com. 2015-11-19. Получено 2015-11-19.
  13. ^ Debian страница руководства для Cuneiform для Linux версии 1.1.0
  14. ^ "Загрузка языковых пакетов OCR SDK". Dynamsoft.com. Получено 2013-09-12.
  15. ^ «OmniPage CSDK - Набор инструментов для распознавания документов с оптическим распознаванием текста | Обработка изображений и распознавание текста». Нюанс. Архивировано из оригинал на 24.08.2010. Получено 2013-09-12.
  16. ^ «Преобразование стандартного документа OmniPage». Нюанс. Архивировано из оригинал на 2014-03-13. Получено 2014-02-25.
  17. ^ "Домашняя страница GOCR". wasd.urz.uni-magdeburg.de. Получено 2018-10-17.
  18. ^ «ГОКР». Jocr.sourceforge.net. Получено 2013-09-12.
  19. ^ Диас, Антонио (16 апреля 2015 г.). "Выпущен GNU Ocrad 0.26" (Список рассылки). инфо-гну.
  20. ^ OCRopus включает инструмент ocropus-hocr, который производит hOCR на основе результатов распознавания.
  21. ^ В сочетании с инструментами hocr
  22. ^ Ассефи, Мехди (01.12.2016). «OCR как услуга: экспериментальная оценка Google Docs OCR, Tesseract, ABBYY FineReader и Transym». Ворота исследования. Получено 2019-01-31.