Индийский алфавитный код для обмена информацией - Indian Script Code for Information Interchange
Индийский алфавитный код для обмена информацией (ISCII) - это схема кодирования для представления различных систем письма Индия. Он кодирует основные Индийские скрипты и латинская транслитерация. Поддерживаемые скрипты: Ассамский, Бенгалия (Бангла), Деванагари, Гуджарати, Гурмукхи, Каннада, Малаялам, Ория, Тамильский, и телугу. ISCII не кодирует системы письма Индии, основанные на Персидский, но его коды переключения системы записи, тем не менее, предусматривают Кашмири, Синдхи, Урду, Персидский, Пушту и арабский. Системы письма на основе персидского языка были впоследствии закодированы в PASCII кодирование.
ISCII не использовался широко за пределами определенных государственных учреждений и в настоящее время в значительной степени устарел. Unicode. Unicode использует отдельный блок для каждой индийской системы письма и в значительной степени сохраняет структуру ISCII внутри каждого блока.
Фон
Системы письма, производные от брахми, имеют аналогичную структуру. Таким образом, ISCII кодирует буквы с одним и тем же фонетическим значением в одной и той же кодовой точке, перекрывая различные сценарии. Например, коды ISCII 0xB3 0xDB представляют [ki]. Это будет отображаться как കി в Малаялам, В Деванагари, как ਕਿ в Гурмукхи, и как கி на тамильском. Система записи может быть выбрана в формате RTF с помощью разметки или в виде обычного текста с помощью кода ATR, описанного ниже.
Одним из мотивов использования единой кодировки является идея, что она позволит легко транслитерация от одной системы письма к другой. Однако существует достаточно несовместимости, поэтому это не совсем практическая идея.
ISCII - это 8-битная кодировка. Нижние 128 кодовых точек просты ASCII, верхние 128 кодовых точек относятся к ISCII. В дополнение к кодовым точкам, представляющим символы, ISCII использует кодовую точку с мнемоническим ATR, которая указывает, что следующий байт содержит один из двух видов информации. Один набор значений изменяет систему записи до следующего индикатора системы записи или конца строки. Другой набор значений выбирает режимы отображения, такие как полужирный и курсив. ISCII не предоставляет средств указания системы письма по умолчанию.
Макет кодовой страницы
В следующей таблице показан набор символов для Деванагари. Наборы кодов для ассамского, бенгали, гуджарати, гурмукхи, каннада, малаялам, ория, тамильского и телугу аналогичны, причем каждая форма деванагари заменена эквивалентная форма в каждой системе письма. Каждый символ отображается с его десятичным кодом и Unicode эквивалент.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0_ 0 | NUL 0000 | SOH 0001 | STX 0002 | ETX 0003 | EOT 0004 | ENQ 0005 | ACK 0006 | BEL 0007 | BS 0008 | HT 0009 | LF 000A | VT 000B | FF 000C | CR 000D | ТАК 000E | SI 000F |
1_ 16 | DLE 0010 | DC1 0011 | DC2 0012 | DC3 0013 | DC4 0014 | НАК 0015 | SYN 0016 | ETB 0017 | МОЖЕТ 0018 | ЭМ 0019 | SUB 001A | ESC 001B | FS 001C | GS 001D | RS 001E | нас 001F |
2_ 32 | SP 0020 | ! 0021 | " 0022 | # 0023 | $ 0024 | % 0025 | & 0026 | ' 0027 | ( 0028 | ) 0029 | * 002A | + 002B | , 002C | - 002D | . 002E | / 002F |
3_ 48 | 0 0030 | 1 0031 | 2 0032 | 3 0033 | 4 0034 | 5 0035 | 6 0036 | 7 0037 | 8 0038 | 9 0039 | : 003A | ; 003B | < 003C | = 003D | > 003E | ? 003F |
4_ 64 | @ 0040 | А 0041 | B 0042 | C 0043 | D 0044 | E 0045 | F 0046 | грамм 0047 | ЧАС 0048 | я 0049 | J 004A | K 004B | L 004C | M 004D | N 004E | О 004F |
5_ 80 | п 0050 | Q 0051 | р 0052 | S 0053 | Т 0054 | U 0055 | V 0056 | W 0057 | Икс 0058 | Y 0059 | Z 005A | [ 005B | \ 005C | ] 005D | ^ 005E | _ 005F |
6_ 96 | ` 0060 | а 0061 | б 0062 | c 0063 | d 0064 | е 0065 | ж 0066 | грамм 0067 | час 0068 | я 0069 | j 006A | k 006B | л 006C | м 006D | п 006E | о 006F |
7_ 112 | п 0070 | q 0071 | р 0072 | s 0073 | т 0074 | ты 0075 | v 0076 | ш 0077 | Икс 0078 | у 0079 | z 007A | { 007B | | 007C | } 007D | ~ 007E | DEL 007F |
8_ 128 | ||||||||||||||||
9_ 144 | ||||||||||||||||
A_ 160 | ँ 0901 | ं 0902 | ः 0903 | अ 0905 | आ 0906 | इ 0907 | ई 0908 | उ 0909 | ऊ 090A | ऋ 090B | ऎ 090E | ए 090F | ऐ 0910 | ऍ 090D | ऒ 0912 | |
B_ 176 | ओ 0913 | औ 0914 | ऑ 0911 | क 0915 | ख 0916 | ग 0917 | घ 0918 | ङ 0919 | च 091A | छ 091B | ज 091C | झ 091D | ञ 091E | ट 091F | ठ 0920 | ड 0921 |
C_ 192 | ढ 0922 | ण 0923 | त 0924 | थ 0925 | द 0926 | ध 0927 | न 0928 | ऩ 0929 | प 092A | फ 092B | ब 092C | भ 092D | म 092E | य 092F | य़ 095F | र 0930 |
D_ 208 | ऱ 0931 | ल 0932 | ळ 0933 | ऴ 0934 | व 0935 | श 0936 | ष 0937 | स 0938 | ह 0939 | INV | ा 093E | ि 093F | ी 0940 | ु 0941 | ू 0942 | ृ 0943 |
E_ 224 | ॆ 0946 | े 0947 | ै 0948 | ॅ 0945 | ॊ 094A | ो 094B | ौ 094C | ॉ 0949 | ् 094D | ़ 093C | । 0964 | ATR | ||||
F_ 240 | EXT | ० 0966 | १ 0967 | २ 0968 | ३ 0969 | ४ 096A | ५ 096B | ६ 096C | ७ 096D | ८ 096E | ९ 096F |
Письмо Число Пунктуация Символ Другой Неопределенный
Специальные кодовые точки
- Символ INV - кодовая точка D9 (217)
- Символ INV используется как псевдосогласный для изолированного отображения комбинируемых элементов. Например, क (ка) + ् (галант) + INV = क् (половина ка). Эквивалент Unicode U + 200D НУЛЕВАЯ ШИРИНА СОЕДИНИТЕЛЯ.
- Символ ATR - кодовая точка EF (239)
- Символ ATR, за которым следует байтовый код, используется для переключения на другой атрибут шрифта (например, полужирный) или язык (например, бенгальский) до следующей последовательности ATR или до конца строки. У него нет прямого эквивалента Unicode, поскольку атрибуты шрифта не являются частью Unicode, и каждый скрипт имеет отдельный набор кодовых точек.
- Символ EXT - кодовая точка F0 (240)
- Символ EXT, за которым следует байтовый код, указывает на ведический акцент. У этого нет прямого эквивалента Unicode, поскольку ведические акценты назначаются отдельным кодовым точкам.
- Символ Halant ् - кодовая точка E8 (232)
- Галантный символ удаляет неявную гласную из согласной и используется между согласными для обозначения соединенных согласных. Например, क (ka) + ् (halant) + त (ta) = क्त (kta). Последовательность ् (halant) + ् (halant) отображает конъюнкт с явным halant, например क (ka) + ् (halant) + ् (halant) + त (ta) = क्त. Последовательность ् (галант) + ़ (нукта) отображает конъюнкт с половинными согласными, если они доступны, например क (ка) + ् (галант) + ़ (нукта) + त (та) = क्त.
ISCII | Unicode | ||
---|---|---|---|
одинарный галант | E8 | Halant | 094D |
галант + галант | E8 E8 | галант + ZWNJ | 094D 200C |
халант + нукта | E8 E9 | галант + ZWJ | 094D 200D |
- Символ нукта ़ - кодовая точка E9 (233)
- В нукта Символ после другого символа ISCII используется для ряда более редких символов, которых нет в основном наборе ISCII. Например, क (ka) + ़ (nukta) = क़ (qa). Эти символы имеют предварительно составленные формы в Юникоде, как показано в следующей таблице.
ISCII кодовая точка | Оригинал персонаж | Характер с нуктой | Unicode кодовая точка |
---|---|---|---|
A1 (161) | ँ | ॐ | 0950 |
A6 (166) | इ | ऌ | 090C |
A7 (167) | ई | ॡ | 0961 |
AA (176) | ऋ | ॠ | 0960 |
B3 (179) | क | क़ | 0958 |
В4 (180) | ख | ख़ | 0959 |
B5 (181) | ग | ग़ | 095A |
BA (186) | ज | ज़ | 095B |
BF (191) | ड | ड़ | 095C |
C0 (192) | ढ | ढ़ | 095D |
C9 (201) | फ | फ़ | 095E |
ДБ (219) | ि | ॢ | 0962 |
DC (220) | ी | ॣ | 0963 |
DF (223) | ृ | ॄ | 0944 |
EA (234) | । | ऽ | 093D |
Кодовые страницы для преобразования ISCII
Для преобразования из Unicode (UTF-8) в кодировку ISCII / ANSI могут использоваться следующие кодовые страницы:
- 57002: деванагари (хинди, маратхи, санскрит, конкани)
- 57003: бенгальский
- 57004: тамильский
- 57005: телугу
- 57006: ассамский
- 57007: Одиа
- 57008: каннада
- 57009: малаялам
- 57010: гуджарати
- 57011: пенджаби (гурмукхи)
Кодовые баллы для всех языков
Кодовый набор для всех abugidas, использующих ISCII | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|