Кодировки символов KOI - KOI character encodings
КОИ (КОИ) - это семья из нескольких кодовые страницы для Кириллица. Название означает Код Обмен Информацией (русский: Код Обмена Информацией), что означает «Код для обмена информацией».
Особенностью кодовых страниц KOI является то, что текст остается читабельным, когда крайний левый кусочек удаляется, если он случайно пройдет через оборудование или программное обеспечение, которое может работать только с 7-битными символами. Это связано с тем, что символы размещены в особом порядке (128 кодовых точек, кроме латинской буквы, на которую они наиболее похожи), что, однако, не соответствует алфавитному порядку на любом языке, который написан кириллицей, и требует использования таблицы поиска выполнять сортировка.
Эти кодировки получены из ASCII на основе некоторого соответствия между латиницей и кириллицей (почти фонетическим), которое уже использовалось в Русский диалект азбуки Морзе И в МТК-2 телеграфный код. Первые 26 символов из А (0xE1) в KOI8-R: А, Б, Ц, Д, Е, Ф, Г, Х, И, Й, К, Л, М, Н, О, П, Я, Р, С, Т, У, Ж, В, Ь, Ы, З.
КОИ-7
Исходная кодировка KOI (1967) представляла собой 7-битную кодовую страницу с именем КОИ-7 (КОИ-7), который не содержал строчных букв. В КОИ-7 коды 31 или 32 русских букв упорядочены по латинским буквам. Остальные кодовые точки такие же, как в ASCII (Тем не менее знак доллара $ (код 24шестнадцатеричный) может быть заменен на универсальный знак валюты ¤).
КОИ-8
КОИ-8 (КОИ-8), стандартизированный в 1974 г. ГОСТ 19768, является 8-битным расширения ASCII.[1][2] Изначально в него входили только 32 строчные и 31 прописная русские буквы.
Более поздние производные от KOI-8 составляют семейство кодировок, известных как KOI8, КОИ 8 и КОИ-8.
Члены семьи:
- КОИ8-Б (с Ё ё и Ъ )[1]
- КОИ8-Р / КОИ8-РОССИЯ за русский и болгарский (RFC 1489 ).[3]
- КОИ8-У / КОИ8-УКРАИНА за украинец (RFC 2319 ).[3]
- КОИ8-РУ за украинец, Белорусский и русский.[4][5][6][7][8]
- КОИ8-Т за Таджикский.[9]
- KOI8-C, также KOI8-CA, предложение по Кавказ и Центральная Азия; почти никогда не использовался.[10]
- ISO-IR-111 / КОИ8-Э[11] (ECMA-113 (1-е изд., 1986),[12] многоязычный для славянских языков).
- КОИ8-Ф, КОИ-8 Унифицированный. Включает выделение букв из KOI8-U и KOI8-E с подмножеством псевдографических изображений из KOI8-R.[13][14]
- КОИ8-К1 «Кириллица-1» (определена в ДСН 36 9103, СТ СЭВ 358-88)
- КОИ8-О (ранее KOI8-C) для Древнерусская орфография.[15]
Кроме того, ГОСТ Р 34.303-92 определяет "КОИ-8 В1", который ISO-IR-153, а также «КОИ-8 Н1» и «КОИ-8 Н2», которые являются вариантами Кодовая страница 866.[16] Они не соответствуют компоновке КОИ-8.
DKOI
DKOI является EBCDIC кодирование на основе, используемое в ES EVM мэйнфреймы. Он определен несколькими стандартами: ГОСТ 19768-74 / СТ СЭВ 358-76, СТ СЭВ 358-88 / ГОСТ 19768-93, ЧСН 36 9103.[17]
Есть два варианта:
- ДКОИ К1 (ДКОИ К1) каждой букве кириллицы присваивается собственный код.
- ДКОИ К2 (ДКОИ К1) некоторые буквы кириллицы (А, В, Е, К, М, Н, О, Р, С, Т, Х, а, е, о, р, с, у, х) объединены с визуально идентичными Латинские буквы.
Латинские варианты
Некоторые кодировки называются KOI, но определяют латинские алфавиты:
- KOI8-CS[18] / KOI8-CS2[17] за Чешский и словацкий (ČSN (Чешский технический стандарт) 369103, разработанный Comecon. Это закодированная латынь с диакритические знаки, как используется в чешском и словацком языках, а не в кириллице, но основная идея была той же - текст должен оставаться разборчивым с очищенным 8-м битом, например, Č стал C и т. Д.).
- KOI8-L2 "Latin-2" (определено в CSN 36 9103), ISO IR 139[19] (почти идентично ISO 8859-2 (1987), но поменяны местами знак доллара и знак валюты)
- DKOI CS2 (определено в CSN 36 9103)[17]
- DKOI L2 (определено в CSN 36 9103)[17]
Рекомендации
- ^ а б Чиборра, Роман (1998-11-30) [1998-05-25]. "Суп с кириллической кодировкой". В архиве из оригинала от 03.12.2016. Получено 2016-12-03.
- ^ Флор, Гвидо; Чернов, Андрей А. (2016) [2006]. "Locale :: RecodeData :: KOI_8 - Процедуры преобразования для KOI-8". CPAN libintl-perl. 1.0. В архиве из оригинала на 2017-01-15. Получено 2017-01-15.
- ^ а б да Круз, Франк (2010-04-02). "Кермит и имена наборов символов MIME". Проект Кермит. Колумбийский университет, Нью-Йорк, США. В архиве из оригинала от 03.12.2016. Получено 2016-12-02.
- ^ Юрий Демченко. Регистрация набора символов украинской кириллицы KOI8-RU (как расширение для русских KOI8-R и ISO-IR-111) (Интернет-проект). 1997 г. (срок действия истек).
- ^ Флор, Гвидо (2016) [2006]. "Locale :: RecodeData :: KOI8_RU - Процедуры конвертации для KOI8-RU". CPAN libintl-perl. В архиве из оригинала на 2017-01-15. Получено 2017-01-15.
- ^ «Информация о кодовой странице SBCS - CPGID: 01167 / Название: Белорусский / Украинский KOI8-RU». Программное обеспечение IBM: Глобализация: Наборы кодированных символов и связанные ресурсы: Кодовые страницы по CPGID: Идентификаторы кодовых страниц. IBM. С-Н 3-3220-050. В архиве из оригинала на 18.02.2017. Получено 2017-02-18. [1] [2]
- ^ «Информационный документ CCSID; CCSID 1167; KOI8-RU». IBM. В архиве из оригинала на 18.02.2017. Получено 2017-02-18.
- ^ Лейшер, Марк (2008) [1999-12-20]. "KOI8-RU Белорусская / Украинская кириллица в таблицу преобразования Unicode 2.1". Департамент математических наук Государственного университета Нью-Мексико. Архивировано из оригинал на 2017-02-19. Получено 2017-02-18.
- ^ Флор, Гвидо; Дэвис, Майкл (2016) [2006]. "Locale :: RecodeData :: KOI8_T - Процедуры преобразования для KOI8-T". CPAN libintl-perl. В архиве из оригинала на 2017-01-15. Получено 2017-01-15.
- ^ Обсуждение
- ^ «Наборы символов IANA».
- ^ ECMA-113. 8-битные однобайтовые наборы графических символов - латинский / кириллица (1-е изд., Июнь 1986 г.)
- ^ http://segfault.kiev.ua/cyrillic-encodings/
- ^ Лейшер, Марк (2008) [1998-03-05]. "Таблица отображения унифицированной кириллицы в Unicode 2.1 KOI8". Департамент математических наук Государственного университета Нью-Мексико. Архивировано из оригинал на 2017-02-19. Получено 2017-02-18.
- ^ Серж Виницки. Расширенный набор символов кириллицы KOI8-C (Internet Draft). 2002 г. (срок действия истек).
- ^ (на русском) ГОСТ Р 34.303-92. Наборы 8-битных кодированных символов. 8-битный код обмена и обработки информации. = 8-битные наборы символов. 8-битный код для обмена информацией.
- ^ а б c d Петрлик, Лукас (19.06.1996). "Объяснение путаницы в кодировке чешских и словацких символов". cs-encodings-faq. 1.10. В архиве из оригинала от 21.06.2016. Получено 2016-06-21.
- ^ «Архивная копия». Архивировано из оригинал на 2011-03-21. Получено 2011-04-19.CS1 maint: заархивированная копия как заголовок (связь)
- ^ ISO-IR-139
дальнейшее чтение
- Корнаи, Андрас; Бирнбаум, Дэвид Дж .; да Круз, Франк; Дэвис, Бур; Фаулер, Джордж; Пейн, Ричард Б.; Паперно, Слава; Simonsen, Keld J .; Thobe, Glenn E .; Вулис, Дмитрий; ван Винген, Йохан В. (13 марта 1993 г.). "FAQ по КИРИЛИЧЕСКОМУ КОДИРОВАНИЮ Версия 1.3". 1.3. Получено 2017-02-18.
- "Kodierungen und Zeichensätze" [Кодировки и наборы символов]. Роботрон Техник (Виртуальный компьютерный музей) (на немецком). 2016-11-29. Код ASCII / Код KOI. Получено 2017-02-21.
внешняя ссылка
- «Дом KOI8-R с 1995 года». Получено 2016-12-05.
- Хохлов, Ю. Э. «Представление кириллической информации в электронном виде - Таблицы кодовых страниц». В архиве из оригинала от 05.12.2016. Получено 2016-12-05.
- Нечаев, Валентин (2013) [2001]. «Обзор вселенной 8-битных кодировок кириллицы». В архиве из оригинала от 05.12.2016. Получено 2016-12-05.