ISO-IR-165 - ISO-IR-165
MIME / IANA | iso-ir-165 |
---|---|
Псевдоним (а) | CN-GB-ISOIR165 (EUC форма)[1] |
Язык (и) | Упрощенный китайский, английский, русский Частичная поддержка: Греческий, Японский |
Стандарт | ITU T.101, приложение C |
Определения | ISO-IR 165 |
Расширяется | ГБ 2312 |
Форматы кодирования | ISO-2022-CN-EXT, Синтаксис данных Videotex 2 |
Преемник | ГБ 18030 |
В CCITT китайский основной набор[2] это многобайтовая графика набор символов за Китайский коммуникации, созданные для Консультативный комитет по международной телефонной и телеграфной связи (CCITT) в 1992 г.[3] Это определено в ITU T.101, приложение C, которое кодифицирует синтаксис данных 2 Видеотекс.[2] Он зарегистрирован в ISO-IR реестр для использования с ISO / IEC 2022 в качестве ISO-IR-165,[4] и кодируется в ISO-2022-CN-EXT версия кода.[1]
Это расширенная модификация ГБ 2312 -80, и соответствует союзу материкового Китая Стандарты GB ГБ 6345.1-86 и ГБ 8565.2-88, с некоторыми доработками и расширениями. Подмножество расширений GB 6345.1 включены в ГБ 18030, в то время как GB 8565.2 служит ссылкой на источник материкового Китая. Унифицированные идеограммы CJK.
ГБ 6345.1
ГБ 6345.1-86 (Набор китайских иероглифов 32 × 32 матричных шрифтов для обмена информацией) включает как исправление и расширение для GB 2312. Исправление изменяет следующие два символа:[3]
Строка-ячейка | EUC | Без поправок | ГБ 6341.1 | Примечания |
---|---|---|---|---|
03-71 | 0xA3E7 | ɡ | [а] | |
79-81 | 0xEFF1 | 鍾 | 锺 | [b] |
- ^ Соответствует U + FF47 g в Юникоде; однако неизмененный ссылочный глиф также может соответствовать U + 0261 ɡ . См. Ниже, как U + 0261 отображается в / из GB 6341.1, в отличие от того, как он отображается в / из ISO-IR-165.
- ^ Неизмененный ссылочный глиф - это традиционный китайский иероглиф, соответствующий U + 937E. Рассматриваемый символ обычно заменяется на 钟 (U + 949F, а также упрощение 鐘 ) на упрощенном китайском языке, за исключением имен лиц; измененный глиф представляет собой альтернативную упрощенную форму, соответствующую U + 953A.
Развернутые реализации, включающие GB 2312, такие как Кодовая страница Windows 936, обычно следуйте этим исправлениям при выборе их сопоставлений Unicode.[5]
Расширение добавляет половину ширины ISO 646-CN символов в строке 10 (в дополнение к существующим полноширинным символам в строке 3) расширяет набор из 26 не-ASCII пиньинь символов в строке 8 с шестью дополнительными такими символами и добавляет формы половинной ширины этих 32 символов пиньинь в строку 11.[3] Эти расширения GB 6345.1 также включены в ГБ / т 12345, то Традиционный китайский аналог GB 2312, в дополнение к 29 формам вертикального представления в строке 6.[3][6]
Шесть дополнительных символов пиньинь из GB 6345.1 и формы вертикального представления из GB 12345, но не полуширины, включены в классическая Mac OS кодировка для упрощенного китайского (модификация EUC-CN ),[7] а также как двухбайтовые коды в ГБ 18030.[8] Дополнительные символы пиньинь следующие:[7]
Строка-ячейка | EUC | Характер[7][8] | Примечания |
---|---|---|---|
08-27 | 0xA8BB | U + 0251 ɑ | |
08-28 | 0xA8BC | U + 1E3F ḿ | [а] |
08-29 | 0xA8BD | U + 0144 ń | |
08-30 | 0xA8BE | U + 0148 ň | |
08-31 | 0xA8BF | U + 01F9 ǹ | [b] |
08-32 | 0xA8C0 | U + 0261 ɡ | [c] |
- ^ Сопоставлен с Зона частного использования U + E7C7 первым (2000 г.) изданием ГБ 18030; это было исправлено изданием 2005 года.[8]
- ^ Этот составной символ был добавлен в Unicode 3.0. До этого этот персонаж был сопоставлен с его композиционной последовательностью (т.е. U + 006E + 0300) от Apple.[7] Это изменение предшествует стабилизации Юникод нормализация Forms, который был представлен в Unicode 3.1.[9]
- ^ Соответствует неизмененному ссылочному глифу для 03-71 (см. Выше). ISO-IR-165 здесь отличается (см. Ниже).
ГБ 8565.2
ГБ 8565.2-88 (Обработка информации - Наборы кодированных символов для текстовой коммуникации - Часть 2: Графические символы) определяет расширение для GB 2312, добавляя 705 символов между строками 13–15 и 90–94, из которых 69 (все в строке 15) не являются ханзи. Он включает исправления GB 2312 из GB 6345.1, но не его расширения.[3]
В Unihan база данных ссылается на GB 8565.2 как на источник материкового Китая нескольких ханьцзы, включенных в Unicode. Сокращенное наименование источника Unihan: G8
.[2]
CCITT изменения
ISO-IR-165 включает в себя расширения GB 2312 как из GB 6345.1-86, так и из GB 8565.2-88.[3] Кроме того, он добавляет еще 161 символ (включая 139 символов ханзи, обозначенных как «общие китайские символы и варианты»).[3][4] Эти расширения CCITT hanzi иногда ошибочно принимались за стандартные символы GB 8565.2, в том числе в предыдущих версиях Unihan база данных.[2] Всего в наборе 8446 знаков.
Ряд узорчатых полуграфический символы включены в строку 6.[4] Это противоречит формам вертикального представления, включенным в другие расширения, такие как упрощенный китайский Mac OS.[7] и GB 18030.[8]
Поправки GB 6345.1 к GB 2312 применяются только частично, в результате чего два отображения Unicode меняются местами по сравнению с другими кодировками, которые включают GB 2312 с расширениями GB 6345.1:
Строка-ячейка | EUC | GB 2312 (без поправок) | ГБ 6341.1 | Сопоставление GB 6341.1[7][8] | ISO-IR-165[4] | Отображение ISO-IR-165[10] |
---|---|---|---|---|---|---|
03-71 | 0xA3E7 | ɡ | U + FF47 | ɡ | U + 0261 | |
08-32 | 0xA8C0 | (отсутствующий) | ɡ | U + 0261 | U + FF47 | |
79-81 | 0xEFF1 | 鍾 | 锺 | U + 953A | 锺 | U + 953A |
Рекомендации
- ^ а б Чжу, HF .; Hu, DY .; Wang, ZG .; Kao, TC .; Чанг, WCH .; Криспин, М. (1996). «Кодировка китайских символов для Интернет-сообщений». Запросы на комментарии. IETF. Дои:10.17487 / rfc1922. RFC 1922.
- ^ а б c d Чунг, Джемин (2018-01-24). «Персонажи псевдо-G8» (PDF). ISO / IEC JTC 1 / SC 2 / WG 2 /IRG N2276.
- ^ а б c d е ж грамм час Лунде, Кен (2009). Обработка информации CJKV: вычисления на китайском, японском, корейском и вьетнамском языках (2-е изд.). Севастополь, Калифорния: О'Рейли. С. 94–111. ISBN 978-0-596-51447-1.
- ^ а б c d CCITT (1992-07-13). Коды китайского графического набора символов для общения (PDF). ITSCJ /IPSJ. ISO-IR-165.
- ^ Стил, Шон (2000). "cp936 в таблицу Unicode". Microsoft, Консорциум Unicode.
- ^ Лунде, Кен (1998). «Приложение F: GB / T 12345» (PDF). CJKV Обработка информации. O'Reilly Media. ISBN 9781565922242.
- ^ а б c d е ж «Карта (внешняя версия) из упрощенной китайской кодировки Mac OS в Unicode 3.0 и выше». Apple, Inc.
- ^ а б c d е Управление по стандартизации Китая (SAC) (18 ноября 2005 г.). GB 18030-2005: Информационные технологии - набор китайских кодированных символов.
- ^ «Политика стабильности кодировки символов Unicode». Консорциум Unicode. 2017-06-23.
- ^ Вишванадха, Рагурам (30 августа 2000 г.). «Таблица Unicode в ISO-IR-165». Международные компоненты для Unicode. IBM. (Примечание: коды перечислены в источнике в 7-битной форме: добавьте 0x80 к каждому байту для формы EUC или вычтите 0x20 для формы kuten)
внешняя ссылка
- ISO-IR-165: Код набора китайских графических символов для связи (зарегистрирован в 1992 г., с изменениями в 1994 г.)
- Отображения Unicode для ISO-IR-165