DjVu - DjVu

DjVu
Djvu icon.png
Расширения имени файла
.djvu, .djv
Тип интернет-СМИ
изображение / vnd.djvu, изображение / x-djvu
РазработанAT&T Labs - Исследования
изначальный выпуск1998; 22 года назад (1998)
Последний релиз
Версия 26[1]
(Июнь 2006 г.; 14 лет назад (2006-06))
Тип форматаФорматы файлов изображений
Открытый формат ?GNU GPLv2 для справочной библиотеки DjVu и DjVuLibre-3.5;
Предоставление лицензий под GNU GPL для нескольких патентов, которые охватывают аспекты библиотеки.[2]
Интернет сайтdjvu.org

DjVu (/ˌdʒɑːˈvu/ ДЕНЬ-жах-VOO, как французский "дежавю "[3]) это компьютер формат файла предназначен в первую очередь для хранения отсканированные документы, особенно те, которые содержат комбинацию текста, штриховых рисунков, индексированных цветных изображений и фотографий. Он использует такие технологии, как разделение слоев изображения текста и фона / изображений, прогрессивная загрузка, арифметическое кодирование, и сжатие с потерями для битонала (монохромный ) изображений. Это позволяет хранить высококачественные, читаемые изображения на минимальном пространстве, чтобы их можно было сделать доступными на сеть.

DjVu рекламировался как предоставляющий файлы меньшего размера, чем PDF для большинства отсканированных документов.[4] Разработчики DjVu сообщают, что страницы цветных журналов сжимаются до 40–70 кБ, черно-белые технические статьи сжимаются до 15–40 кБ, а древние рукописи сжимаются примерно до 100 кБ; удовлетворительный JPEG изображение обычно требует 500 КБ.[5] Как и PDF, DjVu может содержать OCR текстовый слой, упрощающий выполнение скопировать и вставить и операции текстового поиска.

Доступны бесплатные создатели, манипуляторы, конвертеры, плагины для веб-браузера и программы просмотра на рабочем столе.[3] DjVu поддерживается рядом многоформатных программ просмотра документов и программ для чтения электронных книг в Linux (Окулар, Evince ), Windows (Окулар, СуматраPDF ), Android (EBookDroid, PocketBook).

История

Технология DjVu изначально была разработана Янн ЛеКун, Леон Ботту, Патрик Хаффнер, Пол Дж. Ховард, Патрис Симард, и Йошуа Бенжио в AT&T Labs с 1996 по 2001 гг.[5]

До стандартизации PDF в 2008,[6][7] DjVu считался лучшим из-за того, что открытый формат файла в отличие от проприетарного характера PDF в то время. Заявленная более высокая степень сжатия (и, следовательно, меньший размер файла) и заявленная простота преобразования больших объемов текста в формат DjVu были другими аргументами в пользу превосходства DjVu над PDF в технологическом ландшафте 2004 года. Независимый технолог Брюстер Кале в своем выступлении на тему «Беседы в ИТ» в 2004 году обсуждались преимущества упрощения доступа к файлам DjVu.[8][9]

Библиотека DjVu распространяется как часть пакета с открытым исходным кодом DjVuLibre стала эталонной реализацией формата DjVu. DjVuLibre поддерживается и обновляется первоначальными разработчиками DjVu с 2002 года.[10]

Спецификация формата файла DjVu претерпела ряд изменений, последняя из которых была внесена в 2005 году.

Лист регистраций изменений
Статус поддержкиВерсияДата выходаПримечания
Не поддерживается1–19[1]1996–1999Разрабатываемые версии лабораторий AT&T, предшествующие продаже формата LizardTech.
Не поддерживаетсяВерсия 20[1]Апрель 1999 г.DjVu версии 3. Формат DjVu изменен с одностраничного на многостраничный формат.
Старые, все еще поддерживаютсяВерсия 21[1]Сентябрь 1999 г.Заменен косвенный формат хранения. Добавлен текстовый слой с возможностью поиска.
Старые, все еще поддерживаютсяВерсия 22[1]Апрель 2001 г.Ориентация страницы, цвет JB2
Не поддерживаетсяВерсия 23[1]Июль 2002 г.Чанк CID
Не поддерживаетсяВерсия 24[1]Февраль 2003 г.LTAnno chunk
Старые, все еще поддерживаютсяВерсия 25[1]Май 2003 г.Чанк NAVM. Добавлена ​​поддержка закладок (контуров) DjVu. Изменения, внесенные в Версии 23 и 24, устарели.
ТекущийВерсия 26[1]Апрель 2005 г.Текстовые / строчные аннотации

Роль в экосистеме программного обеспечения

Основным использованием формата DjVu было электронное распространение документов с качеством, сопоставимым с качеством печатных документов. Поскольку эта ниша также является основным направлением использования PDF-файлов, эти два формата неизбежно стали конкурентами. Однако следует отметить, что эти два формата подходят к проблеме доставки документов с высоким разрешением по-разному: PDF в первую очередь кодирует графику и текст как векторизованные данные, тогда как DjVu в первую очередь кодирует их как растровое изображение изображений. Это означает, что PDF возлагает бремя рендеринг документ на читателя, тогда как DjVu возлагает эту ношу на создателя.

В течение ряда лет, значительно совпадающих с периодом разработки DjVu, не существовало программ просмотра PDF для бесплатных операционных систем - особым камнем преткновения была визуализация векторизованных шрифтов, которые необходимы для сочетания небольшого размера файла с высоким разрешением в PDF. Поскольку отображение DjVu было более простой задачей, для которой было доступно бесплатное программное обеспечение, высказывались предположения, что движение за свободное программное обеспечение следует использовать DjVu вместо PDF для распространения документации; рендеринг для создания DjVu в принципе не сильно отличается от рендеринга для драйвера принтера для конкретного устройства, и DjVu в крайнем случае может быть сгенерирован из сканированных бумажных носителей. Однако когда FreeType 2.0 в 2000 году начал предоставлять рендеринг всех основных форматов векторизованных шрифтов, и это специфическое преимущество DjVu начало исчезать.

В 2000-е годы с ростом Всемирная паутина и до широкого распространения широкополосный, DjVu часто использовался электронные библиотеки в качестве предпочтительного формата благодаря интеграции с таким программным обеспечением, как Гринстоун[11] и Интернет-архив,[12] плагины для браузера, которые позволяли расширенный просмотр в Интернете, меньший размер файла для сопоставимого качества сканирования книг и других документов с большим количеством изображений[13] и поддержка встраивания и поиска полного текста из OCR.[14][15]Некоторые функции, такие как предварительный просмотр миниатюр, были позже интегрированы в BookReader Интернет-архива.[16] и просмотр DjVu устарел в его пользу, поскольку примерно в 2015 году некоторые основные браузеры перестали поддерживать NPAPI и плагины DjVu с ними.[17]

Просмотрщик DjVu.js пытается заменить недостающие плагины.

Технический обзор

Файловая структура

Формат файла DjVu основан на Формат файла обмена и состоит из иерархически организованных блоков. Структуре IFF предшествует 4-байтовый AT&T магическое число. Ниже приводится сингл ФОРМА чанк со вторичным идентификатором либо DJVU или же DJVM для одностраничного или многостраничного документа соответственно.

Все фрагменты могут содержаться в одном файле в случае так называемых связанных документов или могут содержаться в нескольких файлах: один файл для каждой страницы плюс несколько файлов с общими фрагментами.

Типы чанков

Типы чанков в файлах DjVu
Идентификатор чанкаСодержитсяОписание
ФОРМА: DJVUФОРМА: DJVMОписывает одну страницу. Может быть либо в корне документа и быть одностраничным документом, либо ссылаться на DIRM кусок.
ФОРМА: DJVMНет данныхОписывает многостраничный документ. Корневая часть документа.
ФОРМА: DJVIФОРМА: DJVMСодержит данные, совместно используемые несколькими страницами.
ФОРМА: THUMФОРМА: DJVMСодержит эскизы.
ИНФОРМАЦИЯФОРМА: DJVUДолжен быть первый кусок. Описывает ширину, высоту страницы, версию формата, разрешающая способность, гамма, и вращение.
DIRMФОРМА: DJVMДолжен быть первый кусок. Ссылки другие ФОРМА куски. Эти фрагменты могут следовать за этим фрагментом внутри ФОРМА: DJVM блок или содержаться во внешних файлах. Эти типы документов называются в комплекте или же косвенный, соответственно.
NAVMФОРМА: DJVMЕсли присутствует, должен немедленно следовать DIRM кусок. Содержит сжатую структуру документа в формате BZZ.

Сжатие

DjVu разделяет одно изображение на множество разных изображений, а затем сжимает их по отдельности. Чтобы создать файл DjVu, исходное изображение сначала разделяется на три изображения: фоновое изображение, изображение переднего плана и изображение маски. Фоновые изображения и изображения переднего плана обычно представляют собой цветные изображения с более низким разрешением (например, 100 точек на дюйм); изображение маски представляет собой двухуровневое изображение с высоким разрешением (например, 300 точек на дюйм) и обычно является местом, где хранится текст. Затем изображения фона и переднего плана сжимаются с использованием сжатие на основе вейвлетов алгоритм назван IW44.[5] Изображение маски сжимается с использованием метода JB2 (аналогично JBIG2 ). Метод кодирования JB2 идентифицирует практически идентичные формы на странице, например, несколько вхождений определенного символа в заданном шрифте, стиле и размере. Он сжимает растровое изображение каждой уникальной формы отдельно, а затем кодирует места, где каждая фигура появляется на странице. Таким образом, вместо того, чтобы многократно сжимать букву «е» в заданном шрифте, он сжимает букву «е» один раз (как сжатое растровое изображение), а затем записывает каждое место на странице, где оно встречается.

При желании эти формы могут быть сопоставлены с UTF-8 коды (вручную или потенциально система распознавания текста ) и хранится в файле DjVu. Если это сопоставление существует, можно выделить и скопировать текст.

Поскольку JBIG2 был основан на JB2,[нужна цитата ] оба метода сжатия имеют одинаковые проблемы при выполнении сжатия с потерями. Числа могут быть заменены аналогичными числами (например, заменой 6 на 8), если текст был отсканирован с низким разрешением до сжатия с потерями.

Лицензирование формата

DjVu - это открытый формат файла с патентами.[4] Публикуется спецификация формата файла, а также исходный код справочной библиотеки.[4] Авторы оригинала распространяют Открытый исходный код реализация под названием "DjVuLibre" под Стандартная общественная лицензия GNU. Права на коммерческую разработку программного обеспечения для кодирования передавались разным компаниям на протяжении многих лет, в том числе Корпорация AT&T, LizardTech,[18] Celartem[19] и Кумина.[20]

Celartem приобретен LizardTech и Extensis.[21][22][19][23][24]

Поддерживать

Программа для сканирования и просмотра широко не поддерживает DjVu.[25] Хотя программы просмотра могут быть загружены, открытие файлов DjVu по умолчанию не реализовано в большинстве операционных систем.[26]

В 2002 году формат файла DjVu был выбран Интернет-архив как формат, в котором Проект "Миллион книг" предоставляет отсканированные всеобщее достояние книги онлайн (вместе с TIFF и PDF).[27] В феврале 2016 года IA объявило, что DjVu больше не будет использоваться для новых загрузок.[28]

Wikimedia Commons, медиа-репозиторий, используемый Википедия среди прочего, условно разрешает медиафайлы PDF и DjVu.[29]

Смотрите также

Рекомендации

  1. ^ а б c d е ж грамм час я Версия формата файла DjVu, Джим Райл, Размещено: 23 февраля 2007 г., 1:08, PlanetDjVu
  2. ^ «Лицензирование DjVu». Страница DjVu Sourceforge. Sourceforge.net. 2011-08-17. Получено 2011-09-21.
  3. ^ а б "DjVu.org - главное меню для ресурсов djvu". djvu.org. Получено 2017-07-02.
  4. ^ а б c "Что такое DjVu - DjVu.org". DjVu.org. Получено 2009-03-05.
  5. ^ а б c Леон Ботту; Патрик Хаффнер; Пол Дж. Ховард; Патрис Симард; Йошуа Бенджио; Янн Ле Кун (1998). «Сжатие изображений документов высокого качества с помощью DjVu, 7 (3): 410–425» (PDF). Журнал электронного изображения.
  6. ^ «ISO 32000-1: 2008 - Управление документами - Формат переносимых документов - Часть 1: PDF 1.7». Iso.org. 2008-07-01. Получено 2010-02-21.
  7. ^ Орион, Иган (05.12.2007). «PDF 1.7 утвержден как ISO 32000». Спрашивающий. Спрашивающий. Архивировано из оригинал 13 декабря 2007 г.. Получено 2007-12-05.
  8. ^ Брюстер Кале (16 декабря 2004 г.). «Универсальный доступ ко всем знаниям» (Аудио; выступление 1 час: 31 мин: 20 сек). Разговорная сеть.
  9. ^ "LizardTech, чтобы открыть программу просмотра Java в формате DjVu". Подключение ECM. 7 декабря 2004 г.. Получено 18 августа 2017.
  10. ^ "DjVuLibre: библиотека и программа просмотра DjVu с открытым исходным кодом". djvu.sourceforge.net.
  11. ^ «Проекты и демонстрации NZDL».
  12. ^ Эрик Рамси (05.09.2018). "Google Книги против DjVu в Интернет-архиве".
  13. ^ Эрик Рамси (10.09.2018). "DjVu снова".
  14. ^ Джефф Каплан (2004-12-09). «Новая коллекция книг: цветные сканы, djvu, немного pdf».
  15. ^ Януш С. Бень (11.09.2011). «Эффективный поиск по скрытому тексту больших документов DjVu».
  16. ^ Эрик Рамси (10.09.2010). "Просмотр эскизов в программе чтения книг Интернет-архива".
  17. ^ Брюстер Кале и Джефф Каплан (26 февраля 2016 г.). «Файлы DjVu для новых загрузок».
  18. ^ Extensis. «Компания - О компании - LizardTech». www.lizardtech.com.
  19. ^ а б "Селартем, Инк.: Информация о частной компании - Блумберг". www.bloomberg.com.
  20. ^ «会 社 情報 - Cuminas Corporation». www.cuminas.jp. Архивировано из оригинал на 2018-01-15. Получено 2018-01-14.
  21. ^ «Обзор компании - Celartem Technology, Inc».
  22. ^ «Celartem Technology объявляет о слиянии американских холдингов - Extensis.com». Архивировано из оригинал на 2018-01-15. Получено 2018-01-14.
  23. ^ "Celartem Technology Inc.: Информация о частной компании - Bloomberg". www.bloomberg.com.
  24. ^ «Celartem продает плагины Extensis, LizardTech и XTensions для onOne Software - общая картина - широкоформатная печать». bigpicture.net.
  25. ^ Руководство для Xerox / Visioneer OneTouch, широко используемое программное обеспечение для сканирования для бизнеса и дома, демонстрирующее поддержку нескольких форматов файлов, но не DjVu.
  26. ^ Тестовый файл DjVu. Щелкните изображение на странице, чтобы открыть файл на компьютере с поддержкой формата .djvu.
  27. ^ «Форматы файлов изображений - OLPC». Wiki.laptop.org. Получено 2008-09-09.
  28. ^ "файлы djvu для новых загрузок", Брюстер Кале, 26 февраля 2016 г.
  29. ^ Wikimedia Commons. Объем проекта: PDF и DjVu.

внешняя ссылка