VISCII - VISCII

VISCII
MIME / IANAVISCII
Язык (и)вьетнамский, английский
СделаноViet-Std Group
ОпределенияRFC  1456
Классификация8 бит SBCS
На основеASCII

VISCII неофициально определенная модифицированная ASCII кодировка символов за использование вьетнамского языка с компьютерами. Его не следует путать с официально зарегистрированными одноименными VSCII кодирование. VISCII сохраняет 95 печатных символов ASCII неизменными, но заменяет 6 из 33 управляющих символов на печатные символы. Это добавляет 128 заранее составленные символы. Unicode и Окна-1258 кодовые страницы теперь используются практически для всех вьетнамских компьютерных данных,[нужна цитата ] но устаревшие файлы VSCII и VISCII могут нуждаться в преобразовании.

История и нейминг

VISCII был разработан Вьетнамской рабочей группой по стандартизации (Viet-Std Group)[1] основанный в Силиконовая долина, Калифорния, в 1992 году, когда они работали с консорциумом Unicode над включением предварительно составленных вьетнамских символов в стандарт Unicode. VISCII вместе с VIQR, был впервые опубликован в двуязычном отчете в сентябре 1992 года, в котором он был назван «Вьетнамским стандартным кодексом обмена информацией».[2] В отчете отмечается рост использования компьютеров во Вьетнаме, что существующие приложения используют кодировки конкретных производителей, которые не могут взаимодействовать друг с другом, и что стандартизация между поставщиками поэтому было необходимо.[2]

В следующем году, в 1993 году, Вьетнам принял TCVN 5712, его первый национальный стандарт в информационные технологии домен.[3] Это определило кодировку символов с именем VSCII, который был разработан TCVN Технический комитет по информационным технологиям (TCVN / TC1), название которого расшифровывается как «вьетнамский стандартный код для обмена информацией».[3] VSCII несовместим с ранее опубликованным VISCII и не связан с ним.[4] В отличие от VISCII, VSCII является «вьетнамским стандартом» в смысле национальный стандарт.

VISCII и VIQR утверждены как информационно-статусные RFC  1456, приписываемые группе Viet-Std и датированные маем 1993 года. В этом RFC отмечается, что они являются "соглашениями", используемыми иностранными вьетнамскими спикерами на Usenet, и что он «не указывает уровень стандарта». Несмотря на это, он продолжает называть VISCII «стандартным кодом VIetname for Information Interchange» (то же имя, что и VSCII).[5] Этикетки VISCII и csVISCII зарегистрированы в IANA для VISCII, со ссылкой на RFC 1456.[6] (С другой стороны, нет официального ярлыка IANA для TCVN 5712 / VSCII, хотя x-viet-tcvn5712 ранее поддерживался Mozilla Firefox.[7])

Дизайн

Традиционный расширенный ASCII набор символов состоит из набора ASCII плюс до 128 символов. Вьетнамский требует 134 дополнительных буквенно-диакритических сочетания, что на шесть больше. Есть (если не считать отказа от тонового знака для заглавных букв, как в ВСКИИ-3 ) по существу четыре разных способа решения этой проблемы:

  1. Использовать кодирование с переменной шириной (так же как и UTF-8 )
  2. Включают комбинирование диакритических знаков для тоновых знаков (как и ВСКИИ-2 и Окна-1258 ) или для диакритических знаков в целом (как и ANSEL и ВНИ )
  3. Замените некоторые знаки препинания ASCII, предпочтительно знаки препинания, которые не являются неизменными в ISO 646 (так же как и VNI для DOS )
  4. Заменить хотя бы шесть базовых ASCII управляющие символы (как и VPS и ВСКИИ-1 )

VISCII выбрала последний вариант, заменив шесть наименее проблемных (например, с наименьшей вероятностью распознавания приложением и принятия специальных мер) Коды управления C0 (STX, ENQ, ACK, DC4, EM и RS) с шестью наименее используемыми комбинациями прописных букв и диакритических знаков.[2] Хотя этот параметр может привести к сбою программ, использующих эти управляющие коды при обработке текста VISCII, он создает меньше сложностей, чем два других варианта (разработчики отмечают, что не-8-битный чистый было обнаружено, что на практике передача представляет большую трудность, чем повторное использование управляющего символа).[2] Тем не менее, расположение как управляющих символов C0 или C1, так и кодов, используемых для неразрывное пространство в ISO-8859-1, Mac OS Роман и OEM-США были намеренно присвоены прописным буквам с намерением использовать строчные кодовые точки с полностью заглавным шрифтом в качестве исправного обходного пути, если графические символы не могли отображаться для этих кодов.[2]

Однако израсходовав все расширенные кодовые точки для акцентированных букв не оставалось места для добавления полезных символов, надстрочных чисел, изогнутых кавычек, правильных тире и т. д., как и для большинства других расширенных наборов символов ASCII.

Расположение персонажей намеренно в основном следует ISO-8859-1 где есть общие символы между двумя кодовыми страницами (верхний регистр Õ отмечены как исключение), мотивированные соображениями удобства для пользователя.[2]

Поддерживать

VISCII частично поддерживается Группа программного обеспечения TriChlor в Калифорнии, которая выпустила различные программные пакеты, библиотеки и шрифты, совместимые с VISCII, для MS-DOS и Windows, Unix и Macintosh. Программное обеспечение, совместимое с VISCII, доступно во многих FTP сайты.

VISCII исторически предлагался как кодировка исходящих электронное письмо к Mozilla Thunderbird.[8]

VISCII в основном использовался иностранцами, говорящими на вьетнамском языке, с VSCII (TCVN) более популярен в северном Вьетнаме и ВНИ более популярен в южном Вьетнаме.[9]

Набор символов

VISCII
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
0_
0
NUL
0000
SOH
0001

1EB2
ETX
0003
EOT
0004

1EB4

1EAA
BEL
0007
BS
0008
HT
0009
LF
000A
VT
000B
FF
000C
CR
000D
ТАК
000E
SI
000F
1_
16
DLE
0010
DC1
0011
DC2
0012
DC3
0013

1EF6
НАК
0015
SYN
0016
ETB
0017
МОЖЕТ
0018

1EF8
SUB
001A
ESC
001B
FS
001C
GS
001D

1EF4
нас
001F
2_
32
SP
0020
!
0021
"
0022
#
0023
$
0024
%
0025
&
0026
'
0027
(
0028
)
0029
*
002A
+
002B
,
002C
-
002D
.
002E
/
002F
3_
48
0
0030
1
0031
2
0032
3
0033
4
0034
5
0035
6
0036
7
0037
8
0038
9
0039
:
003A
;
003B
<
003C
=
003D
>
003E
?
003F
4_
64
@
0040
А
0041
B
0042
C
0043
D
0044
E
0045
F
0046
грамм
0047
ЧАС
0048
я
0049
J
004A
K
004B
L
004C
M
004D
N
004E
О
004F
5_
80
п
0050
Q
0051
р
0052
S
0053
Т
0054
U
0055
V
0056
W
0057
Икс
0058
Y
0059
Z
005A
[
005B
\
005C
]
005D
^
005E
_
005F
6_
96
`
0060
а
0061
б
0062
c
0063
d
0064
е
0065
ж
0066
грамм
0067
час
0068
я
0069
j
006A
k
006B
л
006C
м
006D
п
006E
о
006F
7_
112
п
0070
q
0071
р
0072
s
0073
т
0074
ты
0075
v
0076
ш
0077
Икс
0078
у
0079
z
007A
{
007B
|
007C
}
007D
~
007E
DEL
007F
8_
128

1EA0

1EAE

1EB0

1EB6

1EA4

1EA6

1EA8

1EAC

1EBC

1EB8

1EBE

1EC0

1EC2

1EC4

1EC6

1ED0
9_
144

1ED2

1ED4

1ED6

1ED8

1EE2

1EDA

1EDC

1EDE
Я
1ECA

1ECE

1ECC
Я
1EC8

1EE6
Ũ
0168

1EE4

1EF2
A_
160
Õ
00D5

1EAF

1EB1

1EB7

1EA5

1EA7

1EA9

1EAD

1EBD

1EB9
ế
1EBF

1EC1

1EC3

1EC5

1EC7

1ED1
B_
176

1ED3

1ED5

1ED7

1EE0
Ơ
01A0

1ED9

1EDD

1EDF
я
1ECB

1EF0

1EE8

1EEA

1EEC
ơ
01A1

1EDB
Ư
01AF
C_
192
А
00C0
Á
00C1
Â
00C2
Ã
00C3

1EA2
Ă
0102

1EB3

1EB5
È
00C8
É
00C9
Ê
00CA

1EBA
Я
00CC
Я
00CD
Я
0128

1EF3
D_
208
Đ
0110

1EE9
Ò
00D2
Ó
00D3
Ô
00D4

1EA1

1EF7

1EEB

1EED
Ù
00D9
Ú
00DA

1EF9

1EF5
Ý
00DD

1EE1
ư
01B0
E_
224
à
00E0
á
00E1
â
00E2
ã
00E3

1EA3
ă
0103

1EEF

1EAB
è
00E8
é
00E9
ê
00EA

1EBB
я
00EC
я
00ED
я
0129
я
1EC9
F_
240
đ
0111

1EF1
ò
00F2
ó
00F3
ô
00F4
х
00F5

1ECF

1ECD

1EE5
ù
00F9
ú
00FA
ũ
0169

1EE7
ý
00FD

1EE3

1EEE

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Отличия от ISO-8859-1 показаны заштрихованными.

Смотрите также

Рекомендации

  1. ^ Phung, Quang; Ngo, Hoc D .; Буй, Куонг. "Домашняя страница рабочей группы вьетнамского стандарта". Viet-Std Group. Получено 2019-08-23.
  2. ^ а б c d е ж Отчет о стандартизации кодировки символов вьетнамского языка - спецификации кодирования символов VISCII и VIQR 1.1 (Технический отчет). Группа Вьет-Стд. 1992 г.
  3. ^ а б "[новости] TCVN 5712: 1993 (VSCII) - вьетнамский национальный стандарт". 1993-06-02. Архивировано из оригинал на 2017-01-11.
  4. ^ Лунде, Кен. «Глава 1: Обзор обработки информации CJKV (§ Идентичны ли VISCII и VSCII? А как насчет TCVN?)». CJKV Обработка информации (2-е изд.). п. 17. ISBN  978-0-596-51447-1.
  5. ^ Вьетнамская рабочая группа по стандартизации. «RFC 1456: Соглашения о кодировании вьетнамского языка». IETF.
  6. ^ «Наборы символов». IANA.
  7. ^ Сивонен, Анри (26.09.2014). «Для изменения кодировки символов в m-c требуется действие c-c». mozilla.dev.apps.thunderbird.
  8. ^ Сивонен, Анри (26.09.2014). «Для изменения кодировки символов в m-c требуется действие c-c». mozilla.dev.apps.thunderbird. VISCII и armscii-8 особенные в том смысле, что в течение долгого времени сам Thunderbird (ошибочно) предоставлял эти кодировки в пользовательском интерфейсе для выбора исходящей кодировки символов при составлении сообщения. Следовательно, возможно, что существует созданное Thunderbird наследие электронной почты VISCII и armscii-8 и сообщений Usenet.
  9. ^ Нго, Хок Динь; Тран, Тубинь. «5. Зачем нужна вьетнамская кодировка (набор символов - кодировка)?». Некоторые специальные функции WinVNKey.

дальнейшее чтение

внешняя ссылка