Кентерберийский корпус - Canterbury corpus
В Кентерберийский корпус это собрание файлы предназначен для использования в качестве эталона для тестирования сжатие данных без потерь алгоритмы. Создан в 1997 г. Кентерберийский университет, Новая Зеландия и предназначен для замены Калгари корпус. Файлы были отобраны на основе их способности обеспечивать репрезентативные результаты производительности.[1]
Содержание
В своей наиболее часто используемой форме корпус состоит из 11 файлов, выбранных в качестве «средних» документов из 11 классов документов,[2] всего 2 810 784 байта следующим образом.
Размер (байты) | Имя файла | Описание |
---|---|---|
152,089 | Алиса 29.txt | Английский текст |
125,179 | Асюлик.текст | Шекспир |
24,603 | cp.html | HTML источник |
11,150 | fields.c | C источник |
3,721 | grammar.lsp | LISP источник |
1,029,744 | kennedy.xls | Электронная таблица Excel |
426,754 | lcet10.txt | Техническое письмо |
481,861 | plrabn12.txt | Поэзия (потерянный рай ) |
513,216 | ptt5 | CCITT набор тестов |
38,240 | сумма | SPARC исполняемый файл |
4,227 | xargs.1 | GNU страница руководства |
Смотрите также
Рекомендации
- ^ Ян Х. Виттен; Алистер Моффат; Тимоти С. Белл (1999). Управление гигабайтами: сжатие и индексирование документов и изображений. Морган Кауфманн. п. 92. ISBN 9781558605701.
- ^ Саломон, Дэвид (2007). Сжатие данных: полный справочник (Четвертое изд.). Springer. п. 12. ISBN 9781846286032.
внешняя ссылка
Этот Информатика статья - это заглушка. Вы можете помочь Википедии расширяя это. |