OCR-A - OCR-A

OCR-A
Категория	Без засечек
Дизайнер (ы)	Основатели американского типа
По заказу	Американский национальный институт стандартов
Дата выпуска	1968
Вариации	OCR-A расширенный
	Образец

OCR-A это шрифт создан в 1968 году, на заре компьютерной оптическое распознавание символов, когда возникла потребность в шрифте, который могли бы распознавать не только компьютеры того времени, но и люди.^[2] OCR-A использует простые толстые штрихи для формирования узнаваемых символов.^[3]Шрифт моноширинный (фиксированной ширины), с принтером, необходимым для размещения глифов 0.254 см (0.10 дюйм) друг от друга, и читатель должен принять любое расстояние между 0.2286 см (0.09 дюйм) и 0.4572 см (0.18 дюйм).

Стандартизация

Шрифт OCR-A был стандартизирован Американский национальный институт стандартов (ANSI) как ANSI X3.17-1981. X3.4 с тех пор стал ИНЦИТЫ и стандарт OCR-A теперь называется ISO 1073-1: 1976. Также существует немецкий стандарт OCR-A под названием DIN 66008.^[4]

Реализации

В 1968 г. Основатели американского типа разработал OCR-A, один из первых шрифтов для оптического распознавания символов, который отвечает критериям, установленным Бюро стандартов США. Конструкция проста, поэтому ее легко прочитать на машине, но человеческому глазу читать труднее.^[5]

Когда металлический шрифт уступил место компьютерному набору, Тор Лиллквист использовал Метафонт для описания шрифта OCR-A.^{[когда? ]} Это определение впоследствии было улучшено Ричардом Б. Уэльсом. Их работы доступны из CTAN.^[6]

Чтобы сделать бесплатную версию шрифта более доступной для пользователей Microsoft Windows, Джон Заутер преобразовал определения Metafont в TrueType с помощью Potrace и FontForge в 2004 г.^[7] В 2007 году Гюркан Сенгюн создал Debian пакет из этой реализации.^[8] В 2008 году Люк Деврой исправил вертикальное позиционирование в реализации Джона Саутера и исправил имя строчной буквы z.^[9]

Независимо, Мэтью Скала^[10] использовал mftrace^[11] преобразовать Метафонт определений в формат TrueType в 2006 году. В 2011 году он выпустил новую версию, созданную путем переписывания определений Metafont для работы с МЕТАТИП1, создавая контуры напрямую, без промежуточного шага трассировки. 27 сентября 2012 г. он обновил свою реализацию до версии 0.2.^[12]

Помимо этих бесплатных реализаций OCR-A, есть также реализации, продаваемые несколькими поставщиками.

Использовать

Хотя технология оптического распознавания символов продвинулась до такой степени, что такие простые шрифты больше не нужны, шрифт OCR-A по-прежнему используется. Его использование остается широко распространенным при кодировании чеки во всем мире. Немного сейф Компании по-прежнему настаивают на том, чтобы номер счета и сумма задолженности на бланке возврата счета были напечатаны в OCR-A.^[13] Кроме того, из-за своего необычного внешнего вида он иногда используется в рекламе и демонстрационной графике.

Примечательно, что он используется для субтитров в телесериалах. Черный список и для основных заголовков в Самозванец. Дополнительно для фильма используется OCR-A. 13 часов: Тайные солдаты Бенгази.

Кодовые точки

Шрифт - это набор форм символов или глифы. Чтобы компьютер мог использовать шрифт, каждому глифу должен быть присвоен кодовая точка в набор символов. Когда OCR-A стандартизировался, обычная кодировка символов была Американский стандартный код для обмена информацией или ASCII. Не все глифы OCR-A подходят для ASCII, а для пяти символов были альтернативные глифы, которые могли указывать на необходимость второго шрифта. Однако для удобства и эффективности все глифы должны были быть доступны в одном шрифте с использованием кодирования ASCII, с дополнительными символами, размещенными в точках кодирования, которые в противном случае не использовались бы.

Современный потомок ASCII - это Unicode, также известный как ISO 10646. Unicode содержит ASCII и имеет специальные положения для символов OCR, поэтому в некоторых реализациях OCR-A использовались рекомендации Unicode по назначению кодов символов.

Стандартное представление до Unicode

В ISO стандарт ISO 2033: 1983, и соответствующие Японский промышленный стандарт JIS X 9010: 1984 (первоначально JIS C 6229-1984), определяют кодировки символов для OCR-A, OCR-B и E-13B. Для OCR-A они определяют модифицированный 7-битный набор ASCII (также известный как ISO-IR номер ISO-IR-91), включая только прописные буквы, цифры, подмножество знаков препинания и символов, а также некоторые дополнительные символы.^[14] Коды, которые переопределены относительно ASCII, а не просто опущены, перечислены ниже:

Характер	Место расположения	В ASCII	Комментарии
£	0x23	#	Соответствует BS 4730, вариант для Великобритании. ISO 646.^[15]
{	0x28	(	Имя персонажа по-прежнему "ЛЕВЫЙ ПАРЕНТЕЗ", несмотря на фигурную скобку. Обычный код ASCII левой скобки 0x7B опущен.^[14]
}	0x29	)	Имя персонажа по-прежнему "ПРАВИЛЬНЫЙ ПАРЕНТЕЗ", несмотря на фигурную скобку. Обычный код ASCII правой скобки 0x7D опущен.^[14]
⑀	0x3C	<
⑁	0x3E	>
¥	0x5C		совпадения JIS X 0201. Включено в JIS X 9010, но не включено в ISO 2033.^[14]
⑂	0x5D	]

Дополнительно длинная вертикальная метка () кодируется как 0x7C, что соответствует вертикальной полосе ASCII (|).^[14]

Выделенные символы OCR-A в Юникоде

Следующие символы были определены для целей управления и теперь находятся в «Оптическое распознавание символов» Диапазон Unicode 2440–245F:

Выделенные кодовые точки OCR-A на основе ASCII и Unicode^[16]
Имя	Изображение	Текст	Unicode
Крючок OCR		⑀	U + 2440
OCR стул		⑁	U + 2441
OCR Fork		⑂	U + 2442
OCR перевернутая вилка	⑃	⑃	U + 2443
Пряжка ремня OCR	⑄	⑄	U + 2444
OCR галстук-бабочка	⑅	⑅	U + 2445

Пробелы, цифры и буквы без ударения

OCR-A цифры

OCR-A заглавные буквы без ударения

OCR-A строчные буквы без ударения

Все реализации OCR-A используют U + 0020 для пробела, от U + 0030 до U + 0039 для десятичных цифр, от U + 0041 до U + 005A для букв верхнего регистра без ударения и от U + 0061 до U + 007A для нижнего регистра без ударения. регистр букв.

Обычные персонажи

В дополнение к цифрам и безударным буквам многие символы OCR-A имеют очевидные кодовые точки в ASCII. Из тех, которые этого не делают, большинство, включая все акцентированные буквы OCR-A, имеют очевидные кодовые точки в Unicode.

Дополнительные кодовые точки OCR-A на основе ASCII и Unicode
Имя	Глиф	Unicode
Восклицательный знак		U + 0021
Кавычка		U + 0022
Номер Знак		U + 0023
Знак доллара		U + 0024
Знак процента		U + 0025
Амперсанд		U + 0026
Апостроф		U + 0027
Левая скобка		U + 0028
Правая скобка		U + 0029
Звездочка		U + 002A
Знак плюс		U + 002B
Запятая		U + 002C
Дефис-Минус		U + 002D
Полная остановка (период)		U + 002E
Солидус (косая черта)		U + 002F
Двоеточие		U + 003A
Точка с запятой		U + 003B
Знак меньше		U + 003C
Знак равенства		U + 003D
Знак "больше"		U + 003E
Вопросительный знак		U + 003F
Коммерческий в		U + 0040
Левая квадратная скобка		U + 005B
Обратный солидус (обратная косая черта)		U + 005C
Правая квадратная скобка		U + 005D
Циркумфлекс Акцент		U + 005E
Левая фигурная скобка		U + 007B
Правая фигурная скобка		U + 007D
Знак фунта (стерлингов)		U + 00A3
Знак иены		U + 00A5
Латинская заглавная буква А с Дерезисом		U + 00C4
Латинская заглавная буква A с кольцом наверху		U + 00C5
Латинская заглавная буква AE		U + 00C6
Латинская заглавная буква N с тильдой		U + 00D1
Латинская заглавная буква O с Дерезисом		U + 00D6
Латинская заглавная буква O с штрихом		U + 00D8
Латинская заглавная буква U с Дерезисом		U + 00DC

Остальные персонажи

Линотип^[17] закодировал остальные символы OCR-A следующим образом:

Дополнительные символы OCR-A
Имя	Глиф	Unicode	Юникод имя
Длинная вертикальная метка		U + 007C	Вертикальная линия

Дополнительные персонажи

Шрифты, созданные Тором Лиллквистом и Ричардом Б. Уэльсом, определяют четыре символа, отсутствующие в OCR-A, для заполнения набора символов ASCII. Эти фигуры используют тот же стиль, что и фигуры символов OCR-A. Они есть:

Дополнительные символы ASCII
Имя	Глиф	Unicode
Низкая линия		U + 005F
Могильный акцент		U + 0060
Вертикальная линия		U + 007C
Тильда		U + 007E

Линотип также определяет дополнительные символы.^[18]

Исключения

Некоторые реализации не используют вышеуказанные присвоения кодовых точек для некоторых символов.

PrecisionID

Реализация PrecisionID OCR-A имеет следующие нестандартные кодовые точки:^[19]

Крюк OCR на U + 007E
Председатель OCR в U + 00C1
Вилка OCR на U + 00C2
Знак евро на U + 0080

Barcodesoft

Реализация OCR-A Barcodesoft имеет следующие нестандартные кодовые точки:^[20]^[21]

Крюк OCR на U + 0060
Председатель OCR в U + 007E
Вилка OCR на U + 005F
Длинная вертикальная метка на U + 007C (соответствует Линотипу)
Удаление персонажа на U + 0008

Моровия

Реализация OCR-A в Morovia имеет следующие нестандартные кодовые точки:^[22]

OCR Hook в U + 007E (согласно с PrecisionID)
Стул OCR в U + 00F0
OCR Fork в U + 005F (согласовано с Barcodesoft)
Длинная вертикальная метка на U + 007C (соответствует Линотипу)

IDAutomation

Реализация OCR-A в IDAutomation имеет следующие нестандартные кодовые точки:^[23]

OCR Hook в U + 007E (согласно с PrecisionID)
Председатель OCR в U + 00C1 (согласно с PrecisionID)
OCR Fork в U + 00C2 (согласно с PrecisionID)
Пряжка ремня OCR на U + 00C3

Приложения

Продавцы шрифтовых стандартов

Смотрите также

Распознавание символов магнитными чернилами
Оптическое распознавание символов
Вестминстер (шрифт), шрифт, внешне напоминающий MICR.
OCR-B

Примечания

внешняя ссылка

[1] Фон на шрифте OCR-A от Adobe

[2] Мотивация для OCR-A от Microscan

[3] «История распознавания текста от разработчиков встроенного программного обеспечения». Архивировано из оригинал на 2016-09-17. Получено 2012-09-01.

[4] DIN 66008-1 Шрифт A для оптического распознавания символов; Символы и номинальные размеры

[5] Справочная информация об OCR-A от Adobe

[6] Исходники MetaFont для OCR-A от CTAN

[7] Шрифт John Sauter 2004 OCR-A из этих источников MetaFont

[8] Пакет fonts-ocr-a Debian, основанный на проекте Джона Саутера SourceForge

[9] Отчет Люка Девроя о его изменениях в реализации OCR-A Джона Саутера

[10] Домашняя страница Мэтью Скала

[11] Пакет Debian mftrace

[12] Шрифт Matthew Skala 2012 OCR-A из источников MetaFont

[13] Описание услуги сейфа, примечание "Счет содержит счет-фактуру и выписку с информацией о пациенте, содержащуюся в сканируемой строке оптического распознавания символов (OCR). Строка OCR внешне похожа на ту, что находится в выписке по кредитной карте или телефонном счете. "

[ir91-14] а ^б ^c ^d ^е ISO / TC97 / SC2 (1985-08-01). Набор графических символов японского OCR-A (PDF). ITSCJ /IPSJ. ISO-IR-91.

[ISO-IR-004-15] BSI (1975-12-01). Набор графических символов 7-битного кода данных Соединенного Королевства (PDF). ITSCJ /IPSJ. ISO-IR-4.

[16] ttps://www.unicode.org/charts/PDF/U2440.pdf

[17] Шрифт Linotype OCR-A: выберите карту символов, чтобы увидеть символы и их код

[18] Шрифт Linotype OCR-A Extended: выберите «Карта символов», затем «Показать все».

[19] Руководство пользователя PrecisionID по реализации PrecisionID шрифта OCR-A

[20] Информационная страница для реализации штрих-кода шрифта OCR-A

[21] Еще один источник информации о шрифтах Barcode

[22] Информационная страница о реализации шрифта OCR-A в Morovia

[23] Информационная страница о реализации IDAutomation шрифтов OCR-A и OCR-B

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

Бесплатно и с открытым исходным кодом типография
Программное обеспечение и библиотеки	FontForge Fontmatrix FreeType Ghostscript HarfBuzz Метафонт MetaPost МЕТАТИП1 Панго TeX Графит (SIL) ICU
Лицензии	Лицензия Apache Лицензии BSD Лицензии Creative Commons Стандартная общественная лицензия GNU + Исключение шрифта GPL Стандартная общественная лицензия ограниченного применения GNU Публичная лицензия проекта LaTeX Лицензия MIT Лицензия открытого шрифта SIL Лицензия на шрифт Ubuntu
Операционная система, корпоративные и профессиональный	Bitstream Charter Bitstream Vera Дежавю Breeze Sans Код Каскадии Cantarell Charis SIL Компьютер Модерн Бетон Роман Курьер Прайм Doulos SIL Дроид Ното Open Sans Фира Шрифты Ghostscript GNU FreeFont GNU Unifont Go and Go моно Hershey шрифты IBM Plex Освобождение Croscore Literata Lohit Нанум шрифты Нимбус Моно Sans Римский OCR-A OCR-B Эстакада PT шрифты Робото Селавик Исходный код Источник Хан Санс Источник Хан Сериф Source Sans Source Serif Шрифты STIX Тиресий Ubuntu, Название Ubuntu утопия Вэньцюаньи Zilla Slab
Другой шрифты	Амири Antykwa Półtawskiego Асана-Матх Кардо Чандас Comic Neue Баклан Э.Б. Гарамонд Gentium Инконсолата IM упал Джомолхари Юникод Кочи Lato Linux Libertine M + Цикл новостей Открыть Баскервиль OpenDyslexic Railway Sans Squarish Sans CT Теано Дидо XITS
Группы и люди	Дональд Кнут Font Awesome Греческое шрифтовое общество Библиотека шрифтов Google шрифты SIL International
Портал бесплатного программного обеспечения с открытым исходным кодом Гарнитуры Unicode с открытым исходным кодом Список шрифтов с открытым исходным кодом Список бесплатных программных шрифтов Unicode

ISO стандарты по стандартному номеру
Список Стандарты ISO / Романизация ISO / Стандарты IEC
1–9999	1 2 3 4 5 6 7 9 16 17 31 -0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -11 -12 -13 128 216 217 226 228 233 259 269 302 306 361 428 500 518 519 639 -1 -2 -3 -5 -6 646 657 668 690 704 732 764 838 843 860 898 965 999 1000 1004 1007 1073-1 1155 1413 1538 1629 1745 1989 2014 2015 2022 2033 2047 2108 2145 2146 2240 2281 2533 2709 2711 2720 2788 2848 2852 3029 3103 3166 -1 -2 -3 3297 3307 3601 3602 3864 3901 3950 3977 4031 4157 4165 4217 4909 5218 5426 5427 5428 5725 5775 5776 5800 5807 5964 6166 6344 6346 6385 6425 6429 6438 6523 6709 6943 7001 7002 7010 7027 7064 7098 7185 7200 7498 -1 7637 7736 7810 7811 7812 7813 7816 7942 8000 8093 8178 8217 8373 8501-1 8571 8583 8601 8613 8632 8651 8652 8691 8805/8806 8807 8820-5 8859 -1 -2 -3 -4 -5 -6 -7 -8 -8-я -9 -10 -11 -12 -13 -14 -15 -16 8879 9000/9001 9036 9075 9126 9141 9227 9241 9293 9314 9362 9407 9506 9529 9564 9592/9593 9594 9660 9797-1 9897 9899 9945 9984 9985 9995
10000–19999	10005 10006 10007 10116 10118-3 10160 10161 10165 10179 10206 10218 10303 -11 -21 -22 -28 -238 10383 10487 10585 10589 10646 10664 10746 10861 10957 10962 10967 11073 11170 11179 11404 11544 11783 11784 11785 11801 11889 11898 11940 (-2 ) 11941 11941 (TR) 11992 12006 12182 12207 12234-2 13211 -1 -2 13216 13250 13399 13406-2 13450 13485 13490 13567 13568 13584 13616 14000 14031 14224 14289 14396 14443 14496 -2 -3 -6 -10 -11 -12 -14 -17 -20 14644 14649 14651 14698 14750 14764 14882 14971 15022 15189 15288 15291 15292 15398 15408 15444 -3 15445 15438 15504 15511 15686 15693 15706 -2 15707 15897 15919 15924 15926 15926 WIP 15930 16023 16262 16355-1 16612-2 16750 16949 (ТС) 17024 17025 17100 17203 17369 17442 17799 18000 18004 18014 18245 18629 18916 19005 19011 19092 -1 -2 19114 19115 19125 19136 19407 19439 19500 19501 19502 19503 19505 19506 19507 19508 19509 19510 19600 19752 19757 19770 19775-1 19794-5 19831
20000+	20000 20022 20121 20400 21000 21047 21500 21827 22000 22300 22395 23270 23271 23360 24517 24613 24617 24707 25178 25964 26000 26262 26300 26324 27000 серии 27000 27001 27002 27005 27006 27729 28000 29110 29148 29199-2 29500 30170 31000 32000 37001 38500 40500 42010 45001 50001 55000 80000 -1
Категория