DjVu - DjVu
Расширения имени файла | .djvu, .djv |
---|---|
Тип интернет-СМИ | изображение / vnd.djvu, изображение / x-djvu |
Разработан | AT&T Labs - Исследования |
изначальный выпуск | 1998 |
Последний релиз | Версия 26[1] (Июнь 2006 г. ) |
Тип формата | Форматы файлов изображений |
Открытый формат ? | GNU GPLv2 для справочной библиотеки DjVu и DjVuLibre-3.5; Предоставление лицензий под GNU GPL для нескольких патентов, которые охватывают аспекты библиотеки.[2] |
Интернет сайт | djvu |
DjVu (/ˌdeɪʒɑːˈvu/ ДЕНЬ-жах-VOO, как французский "дежавю "[3]) это компьютер формат файла предназначен в первую очередь для хранения отсканированные документы, особенно те, которые содержат комбинацию текста, штриховых рисунков, индексированных цветных изображений и фотографий. Он использует такие технологии, как разделение слоев изображения текста и фона / изображений, прогрессивная загрузка, арифметическое кодирование, и сжатие с потерями для битонала (монохромный ) изображений. Это позволяет хранить высококачественные, читаемые изображения на минимальном пространстве, чтобы их можно было сделать доступными на сеть.
DjVu рекламировался как предоставляющий файлы меньшего размера, чем PDF для большинства отсканированных документов.[4] Разработчики DjVu сообщают, что страницы цветных журналов сжимаются до 40–70 кБ, черно-белые технические статьи сжимаются до 15–40 кБ, а древние рукописи сжимаются примерно до 100 кБ; удовлетворительный JPEG изображение обычно требует 500 КБ.[5] Как и PDF, DjVu может содержать OCR текстовый слой, упрощающий выполнение скопировать и вставить и операции текстового поиска.
Доступны бесплатные создатели, манипуляторы, конвертеры, плагины для веб-браузера и программы просмотра на рабочем столе.[3] DjVu поддерживается рядом многоформатных программ просмотра документов и программ для чтения электронных книг в Linux (Окулар, Evince ), Windows (Окулар, СуматраPDF ), Android (EBookDroid, PocketBook).
История
Технология DjVu изначально была разработана Янн ЛеКун, Леон Ботту, Патрик Хаффнер, Пол Дж. Ховард, Патрис Симард, и Йошуа Бенжио в AT&T Labs с 1996 по 2001 гг.[5]
До стандартизации PDF в 2008,[6][7] DjVu считался лучшим из-за того, что открытый формат файла в отличие от проприетарного характера PDF в то время. Заявленная более высокая степень сжатия (и, следовательно, меньший размер файла) и заявленная простота преобразования больших объемов текста в формат DjVu были другими аргументами в пользу превосходства DjVu над PDF в технологическом ландшафте 2004 года. Независимый технолог Брюстер Кале в своем выступлении на тему «Беседы в ИТ» в 2004 году обсуждались преимущества упрощения доступа к файлам DjVu.[8][9]
Библиотека DjVu распространяется как часть пакета с открытым исходным кодом DjVuLibre стала эталонной реализацией формата DjVu. DjVuLibre поддерживается и обновляется первоначальными разработчиками DjVu с 2002 года.[10]
Спецификация формата файла DjVu претерпела ряд изменений, последняя из которых была внесена в 2005 году.
Статус поддержки | Версия | Дата выхода | Примечания |
---|---|---|---|
Не поддерживается | 1–19[1] | 1996–1999 | Разрабатываемые версии лабораторий AT&T, предшествующие продаже формата LizardTech. |
Не поддерживается | Версия 20[1] | Апрель 1999 г. | DjVu версии 3. Формат DjVu изменен с одностраничного на многостраничный формат. |
Старые, все еще поддерживаются | Версия 21[1] | Сентябрь 1999 г. | Заменен косвенный формат хранения. Добавлен текстовый слой с возможностью поиска. |
Старые, все еще поддерживаются | Версия 22[1] | Апрель 2001 г. | Ориентация страницы, цвет JB2 |
Не поддерживается | Версия 23[1] | Июль 2002 г. | Чанк CID |
Не поддерживается | Версия 24[1] | Февраль 2003 г. | LTAnno chunk |
Старые, все еще поддерживаются | Версия 25[1] | Май 2003 г. | Чанк NAVM. Добавлена поддержка закладок (контуров) DjVu. Изменения, внесенные в Версии 23 и 24, устарели. |
Текущий | Версия 26[1] | Апрель 2005 г. | Текстовые / строчные аннотации |
Роль в экосистеме программного обеспечения
Основным использованием формата DjVu было электронное распространение документов с качеством, сопоставимым с качеством печатных документов. Поскольку эта ниша также является основным направлением использования PDF-файлов, эти два формата неизбежно стали конкурентами. Однако следует отметить, что эти два формата подходят к проблеме доставки документов с высоким разрешением по-разному: PDF в первую очередь кодирует графику и текст как векторизованные данные, тогда как DjVu в первую очередь кодирует их как растровое изображение изображений. Это означает, что PDF возлагает бремя рендеринг документ на читателя, тогда как DjVu возлагает эту ношу на создателя.
В течение ряда лет, значительно совпадающих с периодом разработки DjVu, не существовало программ просмотра PDF для бесплатных операционных систем - особым камнем преткновения была визуализация векторизованных шрифтов, которые необходимы для сочетания небольшого размера файла с высоким разрешением в PDF. Поскольку отображение DjVu было более простой задачей, для которой было доступно бесплатное программное обеспечение, высказывались предположения, что движение за свободное программное обеспечение следует использовать DjVu вместо PDF для распространения документации; рендеринг для создания DjVu в принципе не сильно отличается от рендеринга для драйвера принтера для конкретного устройства, и DjVu в крайнем случае может быть сгенерирован из сканированных бумажных носителей. Однако когда FreeType 2.0 в 2000 году начал предоставлять рендеринг всех основных форматов векторизованных шрифтов, и это специфическое преимущество DjVu начало исчезать.
В 2000-е годы с ростом Всемирная паутина и до широкого распространения широкополосный, DjVu часто использовался электронные библиотеки в качестве предпочтительного формата благодаря интеграции с таким программным обеспечением, как Гринстоун[11] и Интернет-архив,[12] плагины для браузера, которые позволяли расширенный просмотр в Интернете, меньший размер файла для сопоставимого качества сканирования книг и других документов с большим количеством изображений[13] и поддержка встраивания и поиска полного текста из OCR.[14][15]Некоторые функции, такие как предварительный просмотр миниатюр, были позже интегрированы в BookReader Интернет-архива.[16] и просмотр DjVu устарел в его пользу, поскольку примерно в 2015 году некоторые основные браузеры перестали поддерживать NPAPI и плагины DjVu с ними.[17]
Просмотрщик DjVu.js пытается заменить недостающие плагины.
Технический обзор
Файловая структура
Формат файла DjVu основан на Формат файла обмена и состоит из иерархически организованных блоков. Структуре IFF предшествует 4-байтовый AT&T
магическое число. Ниже приводится сингл ФОРМА
чанк со вторичным идентификатором либо DJVU
или же DJVM
для одностраничного или многостраничного документа соответственно.
Все фрагменты могут содержаться в одном файле в случае так называемых связанных документов или могут содержаться в нескольких файлах: один файл для каждой страницы плюс несколько файлов с общими фрагментами.
Типы чанков
Идентификатор чанка | Содержится | Описание |
---|---|---|
ФОРМА: DJVU | ФОРМА: DJVM | Описывает одну страницу. Может быть либо в корне документа и быть одностраничным документом, либо ссылаться на DIRM кусок. |
ФОРМА: DJVM | Нет данных | Описывает многостраничный документ. Корневая часть документа. |
ФОРМА: DJVI | ФОРМА: DJVM | Содержит данные, совместно используемые несколькими страницами. |
ФОРМА: THUM | ФОРМА: DJVM | Содержит эскизы. |
ИНФОРМАЦИЯ | ФОРМА: DJVU | Должен быть первый кусок. Описывает ширину, высоту страницы, версию формата, разрешающая способность, гамма, и вращение. |
DIRM | ФОРМА: DJVM | Должен быть первый кусок. Ссылки другие ФОРМА куски. Эти фрагменты могут следовать за этим фрагментом внутри ФОРМА: DJVM блок или содержаться во внешних файлах. Эти типы документов называются в комплекте или же косвенный, соответственно. |
NAVM | ФОРМА: DJVM | Если присутствует, должен немедленно следовать DIRM кусок. Содержит сжатую структуру документа в формате BZZ. |
Сжатие
DjVu разделяет одно изображение на множество разных изображений, а затем сжимает их по отдельности. Чтобы создать файл DjVu, исходное изображение сначала разделяется на три изображения: фоновое изображение, изображение переднего плана и изображение маски. Фоновые изображения и изображения переднего плана обычно представляют собой цветные изображения с более низким разрешением (например, 100 точек на дюйм); изображение маски представляет собой двухуровневое изображение с высоким разрешением (например, 300 точек на дюйм) и обычно является местом, где хранится текст. Затем изображения фона и переднего плана сжимаются с использованием сжатие на основе вейвлетов алгоритм назван IW44.[5] Изображение маски сжимается с использованием метода JB2 (аналогично JBIG2 ). Метод кодирования JB2 идентифицирует практически идентичные формы на странице, например, несколько вхождений определенного символа в заданном шрифте, стиле и размере. Он сжимает растровое изображение каждой уникальной формы отдельно, а затем кодирует места, где каждая фигура появляется на странице. Таким образом, вместо того, чтобы многократно сжимать букву «е» в заданном шрифте, он сжимает букву «е» один раз (как сжатое растровое изображение), а затем записывает каждое место на странице, где оно встречается.
При желании эти формы могут быть сопоставлены с UTF-8 коды (вручную или потенциально система распознавания текста ) и хранится в файле DjVu. Если это сопоставление существует, можно выделить и скопировать текст.
Поскольку JBIG2 был основан на JB2,[нужна цитата ] оба метода сжатия имеют одинаковые проблемы при выполнении сжатия с потерями. Числа могут быть заменены аналогичными числами (например, заменой 6 на 8), если текст был отсканирован с низким разрешением до сжатия с потерями.
Лицензирование формата
DjVu - это открытый формат файла с патентами.[4] Публикуется спецификация формата файла, а также исходный код справочной библиотеки.[4] Авторы оригинала распространяют Открытый исходный код реализация под названием "DjVuLibre" под Стандартная общественная лицензия GNU. Права на коммерческую разработку программного обеспечения для кодирования передавались разным компаниям на протяжении многих лет, в том числе Корпорация AT&T, LizardTech,[18] Celartem[19] и Кумина.[20]
Celartem приобретен LizardTech и Extensis.[21][22][19][23][24]
Поддерживать
Программа для сканирования и просмотра широко не поддерживает DjVu.[25] Хотя программы просмотра могут быть загружены, открытие файлов DjVu по умолчанию не реализовано в большинстве операционных систем.[26]
В 2002 году формат файла DjVu был выбран Интернет-архив как формат, в котором Проект "Миллион книг" предоставляет отсканированные всеобщее достояние книги онлайн (вместе с TIFF и PDF).[27] В феврале 2016 года IA объявило, что DjVu больше не будет использоваться для новых загрузок.[28]
Wikimedia Commons, медиа-репозиторий, используемый Википедия среди прочего, условно разрешает медиафайлы PDF и DjVu.[29]
Смотрите также
Рекомендации
- ^ а б c d е ж грамм час я Версия формата файла DjVu, Джим Райл, Размещено: 23 февраля 2007 г., 1:08, PlanetDjVu
- ^ «Лицензирование DjVu». Страница DjVu Sourceforge. Sourceforge.net. 2011-08-17. Получено 2011-09-21.
- ^ а б "DjVu.org - главное меню для ресурсов djvu". djvu.org. Получено 2017-07-02.
- ^ а б c "Что такое DjVu - DjVu.org". DjVu.org. Получено 2009-03-05.
- ^ а б c Леон Ботту; Патрик Хаффнер; Пол Дж. Ховард; Патрис Симард; Йошуа Бенджио; Янн Ле Кун (1998). «Сжатие изображений документов высокого качества с помощью DjVu, 7 (3): 410–425» (PDF). Журнал электронного изображения.
- ^ «ISO 32000-1: 2008 - Управление документами - Формат переносимых документов - Часть 1: PDF 1.7». Iso.org. 2008-07-01. Получено 2010-02-21.
- ^ Орион, Иган (05.12.2007). «PDF 1.7 утвержден как ISO 32000». Спрашивающий. Спрашивающий. Архивировано из оригинал 13 декабря 2007 г.. Получено 2007-12-05.
- ^ Брюстер Кале (16 декабря 2004 г.). «Универсальный доступ ко всем знаниям» (Аудио; выступление 1 час: 31 мин: 20 сек). Разговорная сеть.
- ^ "LizardTech, чтобы открыть программу просмотра Java в формате DjVu". Подключение ECM. 7 декабря 2004 г.. Получено 18 августа 2017.
- ^ "DjVuLibre: библиотека и программа просмотра DjVu с открытым исходным кодом". djvu.sourceforge.net.
- ^ «Проекты и демонстрации NZDL».
- ^ Эрик Рамси (05.09.2018). "Google Книги против DjVu в Интернет-архиве".
- ^ Эрик Рамси (10.09.2018). "DjVu снова".
- ^ Джефф Каплан (2004-12-09). «Новая коллекция книг: цветные сканы, djvu, немного pdf».
- ^ Януш С. Бень (11.09.2011). «Эффективный поиск по скрытому тексту больших документов DjVu».
- ^ Эрик Рамси (10.09.2010). "Просмотр эскизов в программе чтения книг Интернет-архива".
- ^ Брюстер Кале и Джефф Каплан (26 февраля 2016 г.). «Файлы DjVu для новых загрузок».
- ^ Extensis. «Компания - О компании - LizardTech». www.lizardtech.com.
- ^ а б "Селартем, Инк.: Информация о частной компании - Блумберг". www.bloomberg.com.
- ^ «会 社 情報 - Cuminas Corporation». www.cuminas.jp. Архивировано из оригинал на 2018-01-15. Получено 2018-01-14.
- ^ «Обзор компании - Celartem Technology, Inc».
- ^ «Celartem Technology объявляет о слиянии американских холдингов - Extensis.com». Архивировано из оригинал на 2018-01-15. Получено 2018-01-14.
- ^ "Celartem Technology Inc.: Информация о частной компании - Bloomberg". www.bloomberg.com.
- ^ «Celartem продает плагины Extensis, LizardTech и XTensions для onOne Software - общая картина - широкоформатная печать». bigpicture.net.
- ^ Руководство для Xerox / Visioneer OneTouch, широко используемое программное обеспечение для сканирования для бизнеса и дома, демонстрирующее поддержку нескольких форматов файлов, но не DjVu.
- ^ Тестовый файл DjVu. Щелкните изображение на странице, чтобы открыть файл на компьютере с поддержкой формата .djvu.
- ^ «Форматы файлов изображений - OLPC». Wiki.laptop.org. Получено 2008-09-09.
- ^ "файлы djvu для новых загрузок", Брюстер Кале, 26 февраля 2016 г.
- ^ Wikimedia Commons. Объем проекта: PDF и DjVu.
внешняя ссылка
- Коллекция документов DjVu (в основном разделенных)
- Сайт DjVuLibre
- Сайт DjVu.js Viewer, который можно использовать с текущими версиями Firefox и Chrome.
- pdf2djvu Инструменты Якуба Вилка
- djvu.org (поддерживается анонимным веб-мастером)
- djvu.com ("Вселенная DjVu") (Caminova Corporation)
- Cuminas Corporation - Загрузки программного обеспечения
- Cuminas DjVu SDK Библиотека декодера / кодировщика DjVu
- Фактическая ссылка на (2001) Документ DjVu