Калгари корпус - Calgary corpus
Эта статья нужны дополнительные цитаты для проверка.Ноябрь 2012 г.) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
В Калгари корпус это собрание текст и двоичные данные файлы, обычно используемые для сравнения Сжатие данных алгоритмы. Он был создан Ян Виттен, Тим Белл и Джон Клири из Университет Калгари в 1987 году и широко использовался в 1990-х годах. В 1997 году его заменили на Кентерберийский корпус,[1] на основании опасений по поводу репрезентативности корпуса Калгари,[2] но корпус Калгари все еще существует для сравнения и по-прежнему полезен по своему первоначальному назначению.
Содержание
В наиболее часто используемом виде корпус состоит из 14 файлов общим размером 3 141 622 байта, как показано ниже.
Размер (байты) | Имя файла | Описание |
---|---|---|
111,261 | BIB | Текст ASCII в UNIX "ссылаться Формат - 725 библиографических ссылок. |
768,771 | КНИГА1 | неформатированный текст ASCII - Томас Харди: Вдали от обезумевшей толпы. |
610,856 | КНИГА2 | Текст ASCII в UNIX "Troff формат - Виттен: Принципы компьютерной речи. |
102,400 | GEO | 32-битные числа в формате IBM с плавающей запятой - сейсмические данные. |
377,109 | НОВОСТИ | Текст ASCII - USENET командный файл на самые разные темы. |
21,504 | OBJ1 | VAX исполняемая программа - компиляция PROGP. |
246,814 | OBJ2 | Исполняемая программа Macintosh - «Система поддержки знаний». |
53,161 | БУМАГА1 | Формат UNIX "troff" - Виттен, Нил, Клири: арифметическое кодирование для сжатия данных. |
82,199 | БУМАГА2 | Формат UNIX "troff" - Виттен: компьютерная (не) безопасность. |
513,216 | ПОС | 1728 х 2376 растровое изображение (Сначала MSB): текст на французском языке и линейные диаграммы. |
39,611 | PROGC | Исходный код на C - UNIX compress v4.0. |
71,646 | ПРОГЛ | Исходный код на Лиспе - системное ПО. |
49,379 | PROGP | Исходный код на Паскале - программа для оценки сжатия PPM. |
93,695 | ТРАНС | ASCII и управляющие символы - стенограмма терминальной сессии. |
Существует также менее часто используемая версия из 18 файлов, которая включает 4 дополнительных текстовых файла в формате «troff» UNIX, от PAPER3 до PAPER6.
Контрольные точки
Корпус Калгари обычно использовался ориентир для сжатия данных в 1990-е годы. Чаще всего результаты приводились в битах на байт (бит / байт) для каждого файла, а затем суммировались путем усреднения. В последнее время было принято просто добавлять сжатые размеры всех файлов. Это называется средневзвешенное потому что это эквивалентно взвешиванию коэффициентов сжатия по исходным размерам файла. Тест UCLC[3] Йохан де Бок использует этот метод.
Для некоторых компрессоров данных можно уменьшить корпус, объединив входные данные в несжатый архив (например, деготь файл) перед сжатием из-за взаимная информация между текстовыми файлами. В других случаях компрессия хуже, потому что компрессор плохо обрабатывает неоднородную статистику. Этот метод использовался в тесте в онлайн-книге. Объяснение сжатия данных пользователя Мэтт Махони.[4]
В таблице ниже показаны сжатые размеры корпуса из 14 файлов Калгари с использованием обоих методов для некоторых популярных программ сжатия. Параметры, если они используются, позволяют выбрать наилучшее сжатие. Более полный список см. В приведенных выше тестах.
Компрессор | Опции | В виде 14 отдельных файлов | Как файл tar |
---|---|---|---|
Несжатый | 3,141,622 | 3,152,896 | |
компресс | 1,272,772 | 1,319,521 | |
Info-ZIP 2.32 | -9 | 1,020,781 | 1,023,042 |
gzip 1.3.5 | -9 | 1,017,624 | 1,022,810 |
bzip2 1.0.3 | -9 | 828,347 | 860,097 |
7-молния 9,12b | 848,687 | 824,573 | |
ppmd Jr1 | -m256 -o16 | 740,737 | 754,243 |
ppmonstr J | 675,485 | 669,497 | |
ZPAQ v7.15 | -метод 5 | 659,709 | 659,853 |
Проблема сжатия
"Сжатие корпуса Калгари и SHA-1 трещина вызов »[5] Конкурс, начатый Леонидом Броухисом 21 мая 1996 г., направлен на сжатие 14-файловой версии корпуса Калгари. Конкурс предлагает небольшой денежный приз, размер которого со временем менялся. В настоящее время приз составляет 1 доллар США за улучшение предыдущего результата на 111 байт.
Согласно правилам конкурса, заявка должна состоять как из сжатых данных, так и из программы декомпрессии, упакованных в один из нескольких стандартных архивных форматов. Ограничения по времени и памяти, форматы архивов и языки декомпрессии со временем были ослаблены. В настоящее время программа должна работать в течение 24 часов на машине 2000 MIPS под управлением Windows или же Linux и использовать менее 800 МБ памяти. An SHA-1 Позднее был добавлен вызов. Это позволяет программе декомпрессии выводить файлы, отличные от корпуса Калгари, при условии, что они имеют те же значения, что и исходные файлы. Пока эта часть задачи не решена.
Первая полученная запись была 759 881 байт в сентябре 1997 года Малкольмом Тейлором, автором RK и WinRK. Самая последняя запись была 580 170 байт от Александр Ратушняк 2 июля 2010 г. Запись состоит из сжатого файла размером 572 465 байт и программы распаковки, написанной на C ++ и сжатой до 7700 байт как переменная PPMd. Я архивирую плюс 5 байтов для имени и размера сжатого файла. История такова.
Размер (байты) | Месяц год | Автор |
---|---|---|
759,881 | 09/1997 | Малкольм Тейлор |
692,154 | 08/2001 | Максим Смирнов |
680,558 | 09/2001 | Максим Смирнов |
653,720 | 11/2002 | Серж Воскобойников |
645,667 | 01/2004 | Мэтт Махони |
637,116 | 04/2004 | Александр Ратушняк |
608,980 | 12/2004 | Александр Ратушняк |
603,416 | 04/2005 | Пшемыслав Скибински |
596,314 | 10/2005 | Александр Ратушняк |
593,620 | 12/2005 | Александр Ратушняк |
589,863 | 05/2006 | Александр Ратушняк |
580,170 | 07/2010 | Александр Ратушняк |
Смотрите также
Рекомендации
- ^ Ян Х. Виттен; Алистер Моффат; Тимоти С. Белл (1999). Управление гигабайтами: сжатие и индексирование документов и изображений. Морган Кауфманн. п. 92.
- ^ Саломон, Дэвид (2007). Сжатие данных: полный справочник (Четвертое изд.). Springer. п. 12. ISBN 9781846286032.
- ^ http://uclc.info/calgary_corpus_compression_test.htm
- ^ http://mattmahoney.net/dc/dce.html#Section_214
- ^ http://mailcom.com/challenge/