OCR-A - OCR-A
Категория | Без засечек |
---|---|
Дизайнер (ы) | Основатели американского типа |
По заказу | Американский национальный институт стандартов |
Дата выпуска | 1968[1] |
Вариации | OCR-A расширенный |
Образец |
OCR-A это шрифт создан в 1968 году, на заре компьютерной оптическое распознавание символов, когда возникла потребность в шрифте, который могли бы распознавать не только компьютеры того времени, но и люди.[2] OCR-A использует простые толстые штрихи для формирования узнаваемых символов.[3]Шрифт моноширинный (фиксированной ширины), с принтером, необходимым для размещения глифов 0.254 см (0.10 дюйм) друг от друга, и читатель должен принять любое расстояние между 0.2286 см (0.09 дюйм) и 0.4572 см (0.18 дюйм).
Стандартизация
Шрифт OCR-A был стандартизирован Американский национальный институт стандартов (ANSI) как ANSI X3.17-1981. X3.4 с тех пор стал ИНЦИТЫ и стандарт OCR-A теперь называется ISO 1073-1: 1976. Также существует немецкий стандарт OCR-A под названием DIN 66008.[4]
Реализации
В 1968 г. Основатели американского типа разработал OCR-A, один из первых шрифтов для оптического распознавания символов, который отвечает критериям, установленным Бюро стандартов США. Конструкция проста, поэтому ее легко прочитать на машине, но человеческому глазу читать труднее.[5]
Когда металлический шрифт уступил место компьютерному набору, Тор Лиллквист использовал Метафонт для описания шрифта OCR-A.[когда? ] Это определение впоследствии было улучшено Ричардом Б. Уэльсом. Их работы доступны из CTAN.[6]
Чтобы сделать бесплатную версию шрифта более доступной для пользователей Microsoft Windows, Джон Заутер преобразовал определения Metafont в TrueType с помощью Potrace и FontForge в 2004 г.[7] В 2007 году Гюркан Сенгюн создал Debian пакет из этой реализации.[8] В 2008 году Люк Деврой исправил вертикальное позиционирование в реализации Джона Саутера и исправил имя строчной буквы z.[9]
Независимо, Мэтью Скала[10] использовал mftrace[11] преобразовать Метафонт определений в формат TrueType в 2006 году. В 2011 году он выпустил новую версию, созданную путем переписывания определений Metafont для работы с МЕТАТИП1, создавая контуры напрямую, без промежуточного шага трассировки. 27 сентября 2012 г. он обновил свою реализацию до версии 0.2.[12]
Помимо этих бесплатных реализаций OCR-A, есть также реализации, продаваемые несколькими поставщиками.
Использовать
Хотя технология оптического распознавания символов продвинулась до такой степени, что такие простые шрифты больше не нужны, шрифт OCR-A по-прежнему используется. Его использование остается широко распространенным при кодировании чеки во всем мире. Немного сейф Компании по-прежнему настаивают на том, чтобы номер счета и сумма задолженности на бланке возврата счета были напечатаны в OCR-A.[13] Кроме того, из-за своего необычного внешнего вида он иногда используется в рекламе и демонстрационной графике.
Примечательно, что он используется для субтитров в телесериалах. Черный список и для основных заголовков в Самозванец. Дополнительно для фильма используется OCR-A. 13 часов: Тайные солдаты Бенгази.
Кодовые точки
Шрифт - это набор форм символов или глифы. Чтобы компьютер мог использовать шрифт, каждому глифу должен быть присвоен кодовая точка в набор символов. Когда OCR-A стандартизировался, обычная кодировка символов была Американский стандартный код для обмена информацией или ASCII. Не все глифы OCR-A подходят для ASCII, а для пяти символов были альтернативные глифы, которые могли указывать на необходимость второго шрифта. Однако для удобства и эффективности все глифы должны были быть доступны в одном шрифте с использованием кодирования ASCII, с дополнительными символами, размещенными в точках кодирования, которые в противном случае не использовались бы.
Современный потомок ASCII - это Unicode, также известный как ISO 10646. Unicode содержит ASCII и имеет специальные положения для символов OCR, поэтому в некоторых реализациях OCR-A использовались рекомендации Unicode по назначению кодов символов.
Стандартное представление до Unicode
В ISO стандарт ISO 2033: 1983, и соответствующие Японский промышленный стандарт JIS X 9010: 1984 (первоначально JIS C 6229-1984), определяют кодировки символов для OCR-A, OCR-B и E-13B. Для OCR-A они определяют модифицированный 7-битный набор ASCII (также известный как ISO-IR номер ISO-IR-91), включая только прописные буквы, цифры, подмножество знаков препинания и символов, а также некоторые дополнительные символы.[14] Коды, которые переопределены относительно ASCII, а не просто опущены, перечислены ниже:
Характер | Изображение | Место расположения | В ASCII | Комментарии |
---|---|---|---|---|
£ | 0x23 | # | Соответствует BS 4730, вариант для Великобритании. ISO 646.[15] | |
{ | 0x28 | ( | Имя персонажа по-прежнему "ЛЕВЫЙ ПАРЕНТЕЗ", несмотря на фигурную скобку. Обычный код ASCII левой скобки 0x7B опущен.[14] | |
} | 0x29 | ) | Имя персонажа по-прежнему "ПРАВИЛЬНЫЙ ПАРЕНТЕЗ", несмотря на фигурную скобку. Обычный код ASCII правой скобки 0x7D опущен.[14] | |
⑀ | 0x3C | < | ||
⑁ | 0x3E | > | ||
¥ | 0x5C | совпадения JIS X 0201. Включено в JIS X 9010, но не включено в ISO 2033.[14] | ||
⑂ | 0x5D | ] |
Дополнительно длинная вертикальная метка () кодируется как 0x7C, что соответствует вертикальной полосе ASCII (|).[14]
Выделенные символы OCR-A в Юникоде
Следующие символы были определены для целей управления и теперь находятся в «Оптическое распознавание символов» Диапазон Unicode 2440–245F:
Имя | Изображение | Текст | Unicode |
---|---|---|---|
Крючок OCR | ⑀ | U + 2440 | |
OCR стул | ⑁ | U + 2441 | |
OCR Fork | ⑂ | U + 2442 | |
OCR перевернутая вилка | ⑃ | ⑃ | U + 2443 |
Пряжка ремня OCR | ⑄ | ⑄ | U + 2444 |
OCR галстук-бабочка | ⑅ | ⑅ | U + 2445 |
Пробелы, цифры и буквы без ударения
Все реализации OCR-A используют U + 0020 для пробела, от U + 0030 до U + 0039 для десятичных цифр, от U + 0041 до U + 005A для букв верхнего регистра без ударения и от U + 0061 до U + 007A для нижнего регистра без ударения. регистр букв.
Обычные персонажи
В дополнение к цифрам и безударным буквам многие символы OCR-A имеют очевидные кодовые точки в ASCII. Из тех, которые этого не делают, большинство, включая все акцентированные буквы OCR-A, имеют очевидные кодовые точки в Unicode.
Имя | Глиф | Unicode |
---|---|---|
Восклицательный знак | U + 0021 | |
Кавычка | U + 0022 | |
Номер Знак | U + 0023 | |
Знак доллара | U + 0024 | |
Знак процента | U + 0025 | |
Амперсанд | U + 0026 | |
Апостроф | U + 0027 | |
Левая скобка | U + 0028 | |
Правая скобка | U + 0029 | |
Звездочка | U + 002A | |
Знак плюс | U + 002B | |
Запятая | U + 002C | |
Дефис-Минус | U + 002D | |
Полная остановка (период) | U + 002E | |
Солидус (косая черта) | U + 002F | |
Двоеточие | U + 003A | |
Точка с запятой | U + 003B | |
Знак меньше | U + 003C | |
Знак равенства | U + 003D | |
Знак "больше" | U + 003E | |
Вопросительный знак | U + 003F | |
Коммерческий в | U + 0040 | |
Левая квадратная скобка | U + 005B | |
Обратный солидус (обратная косая черта) | U + 005C | |
Правая квадратная скобка | U + 005D | |
Циркумфлекс Акцент | U + 005E | |
Левая фигурная скобка | U + 007B | |
Правая фигурная скобка | U + 007D | |
Знак фунта (стерлингов) | U + 00A3 | |
Знак иены | U + 00A5 | |
Латинская заглавная буква А с Дерезисом | U + 00C4 | |
Латинская заглавная буква A с кольцом наверху | U + 00C5 | |
Латинская заглавная буква AE | U + 00C6 | |
Латинская заглавная буква N с тильдой | U + 00D1 | |
Латинская заглавная буква O с Дерезисом | U + 00D6 | |
Латинская заглавная буква O с штрихом | U + 00D8 | |
Латинская заглавная буква U с Дерезисом | U + 00DC |
Остальные персонажи
Линотип[17] закодировал остальные символы OCR-A следующим образом:
Имя | Глиф | Unicode | Юникод имя |
---|---|---|---|
Длинная вертикальная метка | U + 007C | Вертикальная линия |
Дополнительные персонажи
Шрифты, созданные Тором Лиллквистом и Ричардом Б. Уэльсом, определяют четыре символа, отсутствующие в OCR-A, для заполнения набора символов ASCII. Эти фигуры используют тот же стиль, что и фигуры символов OCR-A. Они есть:
Имя | Глиф | Unicode |
---|---|---|
Низкая линия | U + 005F | |
Могильный акцент | U + 0060 | |
Вертикальная линия | U + 007C | |
Тильда | U + 007E |
Линотип также определяет дополнительные символы.[18]
Исключения
Некоторые реализации не используют вышеуказанные присвоения кодовых точек для некоторых символов.
PrecisionID
Реализация PrecisionID OCR-A имеет следующие нестандартные кодовые точки:[19]
- Крюк OCR на U + 007E
- Председатель OCR в U + 00C1
- Вилка OCR на U + 00C2
- Знак евро на U + 0080
Barcodesoft
Реализация OCR-A Barcodesoft имеет следующие нестандартные кодовые точки:[20][21]
- Крюк OCR на U + 0060
- Председатель OCR в U + 007E
- Вилка OCR на U + 005F
- Длинная вертикальная метка на U + 007C (соответствует Линотипу)
- Удаление персонажа на U + 0008
Моровия
Реализация OCR-A в Morovia имеет следующие нестандартные кодовые точки:[22]
- OCR Hook в U + 007E (согласно с PrecisionID)
- Стул OCR в U + 00F0
- OCR Fork в U + 005F (согласовано с Barcodesoft)
- Длинная вертикальная метка на U + 007C (соответствует Линотипу)
IDAutomation
Реализация OCR-A в IDAutomation имеет следующие нестандартные кодовые точки:[23]
- OCR Hook в U + 007E (согласно с PrecisionID)
- Председатель OCR в U + 00C1 (согласно с PrecisionID)
- OCR Fork в U + 00C2 (согласно с PrecisionID)
- Пряжка ремня OCR на U + 00C3
Приложения
Этот раздел пуст. Вы можете помочь добавляя к этому. (Январь 2017 г.) |
Продавцы шрифтовых стандартов
- Печатная копия ISO 1073-1: 1976, распространенная через ANSI, с Amazon.com
- ISO 1073-1 также доступен в Techstreet, которая распространяет стандарты ANSI и ISO.
Смотрите также
- Распознавание символов магнитными чернилами
- Оптическое распознавание символов
- Вестминстер (шрифт), шрифт, внешне напоминающий MICR.
- OCR-B
Примечания
- ^ Фон на шрифте OCR-A от Adobe
- ^ Мотивация для OCR-A от Microscan
- ^ «История распознавания текста от разработчиков встроенного программного обеспечения». Архивировано из оригинал на 2016-09-17. Получено 2012-09-01.
- ^ DIN 66008-1 Шрифт A для оптического распознавания символов; Символы и номинальные размеры
- ^ Справочная информация об OCR-A от Adobe
- ^ Исходники MetaFont для OCR-A от CTAN
- ^ Шрифт John Sauter 2004 OCR-A из этих источников MetaFont
- ^ Пакет fonts-ocr-a Debian, основанный на проекте Джона Саутера SourceForge
- ^ Отчет Люка Девроя о его изменениях в реализации OCR-A Джона Саутера
- ^ Домашняя страница Мэтью Скала
- ^ Пакет Debian mftrace
- ^ Шрифт Matthew Skala 2012 OCR-A из источников MetaFont
- ^ Описание услуги сейфа, примечание "Счет содержит счет-фактуру и выписку с информацией о пациенте, содержащуюся в сканируемой строке оптического распознавания символов (OCR). Строка OCR внешне похожа на ту, что находится в выписке по кредитной карте или телефонном счете. "
- ^ а б c d е ISO / TC97 / SC2 (1985-08-01). Набор графических символов японского OCR-A (PDF). ITSCJ /IPSJ. ISO-IR-91.
- ^ BSI (1975-12-01). Набор графических символов 7-битного кода данных Соединенного Королевства (PDF). ITSCJ /IPSJ. ISO-IR-4.
- ^ https://www.unicode.org/charts/PDF/U2440.pdf
- ^ Шрифт Linotype OCR-A: выберите карту символов, чтобы увидеть символы и их код
- ^ Шрифт Linotype OCR-A Extended: выберите «Карта символов», затем «Показать все».
- ^ Руководство пользователя PrecisionID по реализации PrecisionID шрифта OCR-A
- ^ Информационная страница для реализации штрих-кода шрифта OCR-A
- ^ Еще один источник информации о шрифтах Barcode
- ^ Информационная страница о реализации шрифта OCR-A в Morovia
- ^ Информационная страница о реализации IDAutomation шрифтов OCR-A и OCR-B