Поиск мультимедийной информации - Multimedia information retrieval
Эта статья поднимает множество проблем. Пожалуйста помоги Улучши это или обсудите эти вопросы на страница обсуждения. (Узнайте, как и когда удалить эти сообщения-шаблоны) (Узнайте, как и когда удалить этот шаблон сообщения)
|
Поиск мультимедийной информации (MMIR или же МИР) является исследовательской дисциплиной Информатика который направлен на извлечение семантической информации из мультимедиа источники данных.[1][неудачная проверка ] Источники данных включают непосредственно воспринимаемые носители, такие как аудио, изображение и видео, косвенно воспринимаемые источники, такие как текст, семантические описания,[2] биосигналы а также недоступные для восприятия источники, такие как биоинформация, цены на акции и т. д. Методология MMIR может быть разделена на три группы:
- Методы реферирования медиаконтента (извлечение признаков ). Результатом извлечения признаков является описание.
- Методы фильтрации описаний СМИ (например, устранение избыточность )
- Методы для категоризация медиаописаний в классы.
Методы извлечения признаков
Извлечение функций мотивируется огромным размером мультимедийных объектов, а также их избыточностью и, возможно, шумностью.[1]:2[неудачная проверка ] Как правило, с помощью извлечения признаков можно достичь двух возможных целей:
- Обобщение медиа-контента. Методы реферирования включают в себя аудиодомен, например, мел-частотные кепстральные коэффициенты, Скорость перехода через ноль, кратковременная энергия. В визуальной области цветовые гистограммы[3] такой как MPEG-7 Масштабируемый дескриптор цвета можно использовать для резюмирования.
- Обнаружение закономерностей автокорреляция и / или взаимная корреляция. Шаблоны - это повторяющиеся фрагменты мультимедиа, которые можно обнаружить либо путем сравнения фрагментов по размерам мультимедиа (время, пространство и т. Д.), Либо путем сравнения фрагментов мультимедиа с шаблонами (например, шаблонами лиц, фразами). Типичные методы включают линейное прогнозирующее кодирование в области аудио / биосигналов,[4] описание текстуры в визуальной области и n-граммы в поиске текстовой информации.
Методы слияния и фильтрации
Получение мультимедийной информации подразумевает, что для понимания мультимедийного контента используются несколько каналов.[5] Каждый из этих каналов описывается преобразованиями функций, зависящих от медиа. Полученные описания необходимо объединить в одно описание для каждого медиа-объекта. Слияние может быть выполнено простым объединением, если описания имеют фиксированный размер. Описания переменного размера - как они часто встречаются в описании движения - сначала необходимо нормализовать до фиксированной длины.
Часто используемые методы фильтрации описаний включают факторный анализ (например, с помощью PCA), разложение на единичные значения (например, как скрытое семантическое индексирование при поиске текста), а также извлечение и тестирование статистических моментов. Продвинутые концепции, такие как Фильтр Калмана используются для объединения описаний.
Методы категоризации
Как правило, для категоризации мультимедийных описаний можно использовать все формы машинного обучения.[1]:125[неудачная проверка ] хотя некоторые методы чаще используются в одной области, чем в другой. Например, скрытые марковские модели передовые в распознавание речи, пока динамическое искажение времени - семантически связанный метод - современный метод выравнивания последовательностей генов. Список применимых классификаторов включает следующее:
- Метрические подходы (Кластерный анализ, векторная космическая модель, Минковский расстояния, динамическое выравнивание)
- Ближайшие методы соседства (Алгоритм K-ближайших соседей, K-означает, самоорганизующаяся карта )
- Минимизация рисков (регрессия вектора поддержки, Машина опорных векторов, линейный дискриминантный анализ )
- Методы, основанные на плотности (байесовские сети, Марковские процессы, смешанные модели)
- Нейронные сети (Перцептрон, ассоциативные воспоминания, шипы сети)
- Эвристика (Деревья решений, случайные леса и т. д.)
Выбор лучшего классификатора для данной задачи (набор тестов с описаниями и метками классов, т. Н. наземная правда ) может выполняться автоматически, например, с помощью Weka Data Miner.
Открытые проблемы
Качество MMIR Systems[6] сильно зависит от качества обучающих данных. Дискриминационные описания могут быть извлечены из медиаисточников в различных формах. Машинное обучение предоставляет методы категоризации для всех типов данных. Однако классификатор может быть настолько хорош, насколько хорош данные обучающие данные. С другой стороны, создание меток классов для больших баз данных требует значительных усилий. Будущий успех MMIR будет зависеть от предоставления таких данных.[7] Ежегодный TRECVID конкуренция в настоящее время является одним из наиболее важных источников достоверной достоверной информации.
Связанные области
MMIR предоставляет обзор методов, используемых в области поиска информации.[8][9] Методы одной области адаптированы и используются на других типах носителей. Мультимедийный контент объединяется перед выполнением классификации. Поэтому методы MMIR обычно повторно используются из других областей, таких как:
- Биоинформационный анализ
- Обработка биосигналов
- Поиск изображений и видео на основе контента
- Распознавание лица
- Классификация аудио и музыки (поиск музыкальной информации)
- Автоматическое распознавание контента
- Распознавание речи
- Анализ технических графиков
- Просмотр видео
- Поиск текстовой информации
- Поиск изображений
- Учимся ранжировать
В Международный журнал поиска мультимедийной информации[10] документирует развитие MMIR как исследовательской дисциплины, независимой от этих областей. Смотрите также Справочник по поиску мультимедийной информации[11] для полного обзора этой исследовательской дисциплины.
Рекомендации
- ^ а б c H Eidenberger. Основное понимание СМИ, атпресс, 2011, с. 1.
- ^ Сикос, Л. Ф. (2016). «Инструменты семантической аннотации видео на основе RDF с отображением концепций в связанные данные для индексирования видео следующего поколения: всесторонний обзор». Мультимедийные инструменты и приложения. 76 (12): 14437–14460. Дои:10.1007 / s11042-016-3705-7.
- ^ Дель Бимбо. Визуальный поиск информации, Морган Кауфманн, 1999.
- ^ Х. Г. Ким, Н. Моро, Т. Сикора. MPEG-7 Audio и не только », Wiley, 2005.
- ^ Лью (ред.). Принципы визуального поиска информации, Спрингер, 2001.
- ^ JC Nordbotten. "Системы поиска мультимедийной информации ". Проверено 14 октября 2011 года.
- ^ H Eidenberger. Границы понимания СМИ, атпресс, 2012.
- ^ H Eidenberger. Профессиональное понимание СМИ, атпресс, 2012.
- ^ Райэли, Роберто (2016). «Знакомство с поиском мультимедийной информации в библиотеках». JLIS.it. 7 (3): 9–42. Дои:10.4403 / jlis.it-11530. Получено 8 октября 2016.
- ^ "Международный журнал поиска мультимедийной информации ", Springer, 2011 г., дата обращения 21 октября 2011 г.
- ^ H Eidenberger. Справочник по поиску мультимедийной информации, атпресс, 2012.