Кентерберийский корпус - Canterbury corpus

В Кентерберийский корпус это собрание файлы предназначен для использования в качестве эталона для тестирования сжатие данных без потерь алгоритмы. Создан в 1997 г. Кентерберийский университет, Новая Зеландия и предназначен для замены Калгари корпус. Файлы были отобраны на основе их способности обеспечивать репрезентативные результаты производительности.[1]

Содержание

В своей наиболее часто используемой форме корпус состоит из 11 файлов, выбранных в качестве «средних» документов из 11 классов документов,[2] всего 2 810 784 байта следующим образом.

Размер (байты)Имя файлаОписание
152,089Алиса 29.txtАнглийский текст
125,179Асюлик.текстШекспир
24,603cp.htmlHTML источник
11,150fields.cC источник
3,721grammar.lspLISP источник
1,029,744kennedy.xlsЭлектронная таблица Excel
426,754lcet10.txtТехническое письмо
481,861plrabn12.txtПоэзия (потерянный рай )
513,216ptt5CCITT набор тестов
38,240суммаSPARC исполняемый файл
4,227xargs.1GNU страница руководства

Смотрите также

Рекомендации

  1. ^ Ян Х. Виттен; Алистер Моффат; Тимоти С. Белл (1999). Управление гигабайтами: сжатие и индексирование документов и изображений. Морган Кауфманн. п. 92. ISBN  9781558605701.
  2. ^ Саломон, Дэвид (2007). Сжатие данных: полный справочник (Четвертое изд.). Springer. п. 12. ISBN  9781846286032.

внешняя ссылка