Частота арабских букв - Arabic letter frequency
Эта статья нужны дополнительные цитаты для проверка.Январь 2018) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
В частота писем в тексте часто изучается для использования в криптоанализ, и частотный анализ особенно.
Ни в одном языке нет точного частотного распределения букв, поскольку все авторы пишут немного по-разному. Как правило, тексты на разных языках с использованием Арабский шрифт (например. арабский, Османский Турецкий, Персидский и Урду ) будет иметь разную частоту букв, что наиболее очевидно в случае букв, которые используются только в некоторых языках (например, персидские буквы پ, چ, گ, которые не используются для письма на арабском языке).
Методы кодирования наиболее часто встречающихся букв самыми короткими символами были впервые применены в телеграфных кодах и используются в современных методах сжатия данных, таких как Кодирование Хаффмана.
Что учитывается при вводе арабского текста?
Арабский алфавит состоит из 28 основных букв, это буквы с 1 по 28 в таблице 1. Восемь измененных букв, перечисленных в позициях с 29 по 36 в той же таблице, используются точно так же.[требуется разъяснение ]. Если эти 8 модифицированных форм сложить в основной список на основе формы или фонетического сходства, результат будет таким, как показано в таблице 2. Для точного частотного анализа частота каждой из 36 букв таблицы 1 подсчитывается независимо.
Порядок алфавита, показанный в таблицах, более логичен.[нужна цитата ] чем используется Unicode стандарт.
Хотя полный набор арабских символов включает около десяти диакритических знаков, как показано на рисунке 1, частотный анализ арабских символов касается только вычисления частоты букв алфавита, показанной в таблице 2.
Источники с более чем пятью миллионами писем
Следующие известные арабские источники используются для получения приемлемого количества данных, по которым проводится статистика частоты.
- Первые семь томов серии البداية والنهاية (Начало и конец)[1] из Ибн Касир, с 2 855 страницами, содержащими 1 096 047 слов, содержащих 4 326 031 букву.
- Книга الرحيق المختوم (Запечатанный нектар )[2] Алмубаракфури, с 284 страницами, содержащими 134 662 слова, содержащие 553 740 букв.
- Книга تحفة العروسين (Шедевр невест)[3] Аль-шури, с 239 страницами, содержащими 66 550 слов, содержащих 242 361 букву.
В совокупности эти источники составляют 3378 страниц, содержащих 1 297 259 слов и 5 122 132 буквы.
На следующих графиках показано распределение частоты букв для подсчитанных букв; На рисунке 2 показаны данные гистограммы, отсортированные по Unicode ценить. На рисунке 3 показаны данные гистограммы, отсортированные по частоте.
Письмо | Относительная частота в арабском языке | |
---|---|---|
ء | 0.2% | |
ؤ | 0.05% | |
ئ | 0.18% | |
ا | 12.5% | |
آ | 0.1% | |
أ | 3% | |
إ | 1% | |
ب | 4.5% | |
ة | 3.2% | |
ت | 0.8% | |
ث | 1.1% | |
ج | 1.8% | |
ح | 0.8% | |
خ | 0.9% | |
د | 2.5% | |
ذ | 0.8% | |
ر | 4.1% | |
ز | 0.4% | |
س | 2.3% | |
ش | 0.7% | |
ص | 0.9% | |
ض | 0.4% | |
ط | 0.5% | |
ظ | 0.1% | |
ع | 3.9% | |
غ | 0.3% | |
ف | 2.7% | |
ق | 2.6% | |
ك | 1.9% | |
ل | 12% | |
م | 6.3% | |
ن | 6.4% | |
ه | 5% | |
و | 5.8% | |
ى | 1% | |
ي | 6.2% |
Рекомендации
- ^ Ибн Касир, Исмаил (13 ??). Начало и конец (по-арабски). Получено 23 января 2011. Проверить значения даты в:
| год =
(помощь) - ^ Альмубаракфури, Сафийюррахман (2002). Запечатанный нектар (по-арабски). ISBN 978-1591440710. Получено 24 января 2011.
- ^ Аш-сюри, Маджди (19 ??). Шедевр невесты (по-арабски). Получено 24 января 2011. Проверить значения даты в:
| год =
(помощь)