Объединение Grapheme Joiner - Combining Grapheme Joiner
В объединение графема (CGJ), U + 034F ͏ ОБЪЕДИНЕНИЕ GRAPHEME JOINER (HTML͏
) это Unicode символ, который не имеет видимого глифа и "по умолчанию игнорируется" приложениями. Его название неправильное и не описывает его функцию: персонаж не присоединяется к графемам.[1] Его цель - семантически отдельный персонажи, которые должны нет считать диграфы а также заблокировать каноническое изменение порядка объединение знаков в течение нормализация.
Например, в Венгерский язык контекст, соседние буквы c и s обычно считается эквивалентным cs орграф. Если они разделены CGJ, они будут рассматриваться как две отдельные графемы. Однако в отличие от соединитель нулевой ширины и подобных символов, CGJ не влияет на то, являются ли две буквы оказано отдельно или в виде лигатуры или курсивного соединения - поведение по умолчанию для этого определяется шрифтом.[2]
CGJ также необходим для сложные скрипты. Например, в большинстве случаев иврит кантилляция акцент метег должен появиться слева от гласная и по умолчанию большинство систем отображения будут отображать это так, даже если оно напечатано перед гласной. Но в некоторых словах в Библейский иврит метег появляется справа от гласной, и чтобы указать механизму отображения, чтобы он правильно отображал его справа, необходимо ввести CGJ между метегом и гласной. Сравнивать:
он | ה |
патха (гласная) | ַ |
метег | ֽ |
он + патх + метег | הַֽ |
он + метег + патах | הַֽ |
он + метег + CGJ + pathah | הֽ͏ַ |
В случае нескольких последовательных сочетание диакритических знаков, промежуточный CGJ указывает, что они не должны подвергаться каноническому изменению порядка.[2]
Напротив, "не соединяющийся с нулевой шириной "при U + 200C в Общая пунктуация диапазон, который предотвращает превращение двух соседних символов в лигатуру.
Рекомендации
- ^ «UTN # 27: Известные аномалии в именах символов Юникода».
- ^ а б «Стандартная версия Unicode 6.0 - основная спецификация» (PDF). www.unicode.org. Получено 2020-04-16.