Калгари корпус - Calgary corpus
|  | Эта статья нужны дополнительные цитаты для проверка.  (Ноябрь 2012 г.) (Узнайте, как и когда удалить этот шаблон сообщения) | 
В Калгари корпус это собрание текст и двоичные данные файлы, обычно используемые для сравнения Сжатие данных алгоритмы. Он был создан Ян Виттен, Тим Белл и Джон Клири из Университет Калгари в 1987 году и широко использовался в 1990-х годах. В 1997 году его заменили на Кентерберийский корпус,[1] на основании опасений по поводу репрезентативности корпуса Калгари,[2] но корпус Калгари все еще существует для сравнения и по-прежнему полезен по своему первоначальному назначению.
Содержание
В наиболее часто используемом виде корпус состоит из 14 файлов общим размером 3 141 622 байта, как показано ниже.
| Размер (байты) | Имя файла | Описание | 
|---|---|---|
| 111,261 | BIB | Текст ASCII в UNIX "ссылаться Формат - 725 библиографических ссылок. | 
| 768,771 | КНИГА1 | неформатированный текст ASCII - Томас Харди: Вдали от обезумевшей толпы. | 
| 610,856 | КНИГА2 | Текст ASCII в UNIX "Troff формат - Виттен: Принципы компьютерной речи. | 
| 102,400 | GEO | 32-битные числа в формате IBM с плавающей запятой - сейсмические данные. | 
| 377,109 | НОВОСТИ | Текст ASCII - USENET командный файл на самые разные темы. | 
| 21,504 | OBJ1 | VAX исполняемая программа - компиляция PROGP. | 
| 246,814 | OBJ2 | Исполняемая программа Macintosh - «Система поддержки знаний». | 
| 53,161 | БУМАГА1 | Формат UNIX "troff" - Виттен, Нил, Клири: арифметическое кодирование для сжатия данных. | 
| 82,199 | БУМАГА2 | Формат UNIX "troff" - Виттен: компьютерная (не) безопасность. | 
| 513,216 | ПОС | 1728 х 2376 растровое изображение (Сначала MSB): текст на французском языке и линейные диаграммы. | 
| 39,611 | PROGC | Исходный код на C - UNIX compress v4.0. | 
| 71,646 | ПРОГЛ | Исходный код на Лиспе - системное ПО. | 
| 49,379 | PROGP | Исходный код на Паскале - программа для оценки сжатия PPM. | 
| 93,695 | ТРАНС | ASCII и управляющие символы - стенограмма терминальной сессии. | 
Существует также менее часто используемая версия из 18 файлов, которая включает 4 дополнительных текстовых файла в формате «troff» UNIX, от PAPER3 до PAPER6.
Контрольные точки
Корпус Калгари обычно использовался ориентир для сжатия данных в 1990-е годы. Чаще всего результаты приводились в битах на байт (бит / байт) для каждого файла, а затем суммировались путем усреднения. В последнее время было принято просто добавлять сжатые размеры всех файлов. Это называется средневзвешенное потому что это эквивалентно взвешиванию коэффициентов сжатия по исходным размерам файла. Тест UCLC[3] Йохан де Бок использует этот метод.
Для некоторых компрессоров данных можно уменьшить корпус, объединив входные данные в несжатый архив (например, деготь файл) перед сжатием из-за взаимная информация между текстовыми файлами. В других случаях компрессия хуже, потому что компрессор плохо обрабатывает неоднородную статистику. Этот метод использовался в тесте в онлайн-книге. Объяснение сжатия данных пользователя Мэтт Махони.[4]
В таблице ниже показаны сжатые размеры корпуса из 14 файлов Калгари с использованием обоих методов для некоторых популярных программ сжатия. Параметры, если они используются, позволяют выбрать наилучшее сжатие. Более полный список см. В приведенных выше тестах.
| Компрессор | Опции | В виде 14 отдельных файлов | Как файл tar | 
|---|---|---|---|
| Несжатый | 3,141,622 | 3,152,896 | |
| компресс | 1,272,772 | 1,319,521 | |
| Info-ZIP 2.32 | -9 | 1,020,781 | 1,023,042 | 
| gzip 1.3.5 | -9 | 1,017,624 | 1,022,810 | 
| bzip2 1.0.3 | -9 | 828,347 | 860,097 | 
| 7-молния 9,12b | 848,687 | 824,573 | |
| ppmd Jr1 | -m256 -o16 | 740,737 | 754,243 | 
| ppmonstr J | 675,485 | 669,497 | |
| ZPAQ v7.15 | -метод 5 | 659,709 | 659,853 | 
Проблема сжатия
"Сжатие корпуса Калгари и SHA-1 трещина вызов »[5] Конкурс, начатый Леонидом Броухисом 21 мая 1996 г., направлен на сжатие 14-файловой версии корпуса Калгари. Конкурс предлагает небольшой денежный приз, размер которого со временем менялся. В настоящее время приз составляет 1 доллар США за улучшение предыдущего результата на 111 байт.
Согласно правилам конкурса, заявка должна состоять как из сжатых данных, так и из программы декомпрессии, упакованных в один из нескольких стандартных архивных форматов. Ограничения по времени и памяти, форматы архивов и языки декомпрессии со временем были ослаблены. В настоящее время программа должна работать в течение 24 часов на машине 2000 MIPS под управлением Windows или же Linux и использовать менее 800 МБ памяти. An SHA-1 Позднее был добавлен вызов. Это позволяет программе декомпрессии выводить файлы, отличные от корпуса Калгари, при условии, что они имеют те же значения, что и исходные файлы. Пока эта часть задачи не решена.
Первая полученная запись была 759 881 байт в сентябре 1997 года Малкольмом Тейлором, автором RK и WinRK. Самая последняя запись была 580 170 байт от Александр Ратушняк 2 июля 2010 г. Запись состоит из сжатого файла размером 572 465 байт и программы распаковки, написанной на C ++ и сжатой до 7700 байт как переменная PPMd. Я архивирую плюс 5 байтов для имени и размера сжатого файла. История такова.
| Размер (байты) | Месяц год | Автор | 
|---|---|---|
| 759,881 | 09/1997 | Малкольм Тейлор | 
| 692,154 | 08/2001 | Максим Смирнов | 
| 680,558 | 09/2001 | Максим Смирнов | 
| 653,720 | 11/2002 | Серж Воскобойников | 
| 645,667 | 01/2004 | Мэтт Махони | 
| 637,116 | 04/2004 | Александр Ратушняк | 
| 608,980 | 12/2004 | Александр Ратушняк | 
| 603,416 | 04/2005 | Пшемыслав Скибински | 
| 596,314 | 10/2005 | Александр Ратушняк | 
| 593,620 | 12/2005 | Александр Ратушняк | 
| 589,863 | 05/2006 | Александр Ратушняк | 
| 580,170 | 07/2010 | Александр Ратушняк | 
Смотрите также
Рекомендации
- ^ Ян Х. Виттен; Алистер Моффат; Тимоти С. Белл (1999). Управление гигабайтами: сжатие и индексирование документов и изображений. Морган Кауфманн. п. 92.
- ^ Саломон, Дэвид (2007). Сжатие данных: полный справочник (Четвертое изд.). Springer. п. 12. ISBN 9781846286032.
- ^ http://uclc.info/calgary_corpus_compression_test.htm
- ^ http://mattmahoney.net/dc/dce.html#Section_214
- ^ http://mailcom.com/challenge/
 
				 Форматы сжатия
 Форматы сжатия