Детектор выраженности Кадира – Брэди - Kadir–Brady saliency detector
Эта статья нужны дополнительные цитаты для проверка.Ноябрь 2007 г.) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
Обнаружение функции |
---|
Обнаружение края |
Обнаружение углов |
Обнаружение капли |
Обнаружение гребня |
Преобразование Хафа |
Структурный тензор |
Обнаружение аффинно-инвариантных признаков |
Описание функции |
Масштабировать пространство |
В Детектор выраженности Кадира – Брэди извлекает отличительные и репрезентативные черты объектов на изображениях. Его изобрел Тимор Кадир и Дж. Майкл Брэди[1] в 2001 г., а аффинно-инвариантная версия была представлена Кадиром и Брэди в 2004 г.[2] а надежная версия была разработана Шао и др.[3] в 2007.
Детектор использует алгоритмы для более эффективного удаления фонового шума и упрощения идентификации функций, которые можно использовать в 3D-модели. По мере того, как детектор сканирует изображения, он использует три основных принципа: глобальное преобразование, локальные возмущения и внутриклассовые вариации для определения областей поиска и идентифицирует уникальные области этих изображений, а не использует более традиционный поиск по углам или по каплям. Он пытается быть инвариантным к аффинным преобразованиям и изменениям освещения.[4]
Это приводит к более объектно-ориентированному поиску, чем предыдущие методы, и превосходит другие детекторы из-за отсутствия размытия изображений, способности игнорировать медленно изменяющиеся области и более широкого определения свойств геометрии поверхности. В результате детектор заметности Кадира – Брэди более способен распознавать объекты, чем другие детекторы, основной упор которых делается на соответствие всего изображения.
Вступление
Много компьютерное зрение и обработка изображений приложения работают напрямую с функциями, извлеченными из изображения, а не с необработанным изображением; например, для вычисления соответствий изображений или для учебный объект категории. В зависимости от области применения предпочтительны разные характеристики. Однако существует три широких класса изменения изображения, при которых может потребоваться хорошая производительность:
Глобальная трансформация: Функции должны повторяться в ожидаемом классе глобальных преобразований изображений. К ним относятся как геометрические, так и фотометрические преобразования, возникающие из-за изменения условий съемки. Например, обнаружение области должно быть ковариантным с точкой обзора, как показано на рисунке 1. Короче говоря, нам нужно, чтобы сегментация переключалась с изменением точки обзора. Это свойство будет оцениваться по повторяемости и точности локализации и оценки региона.
Местные возмущения: Элементы должны быть нечувствительны к классам полулокальных искажений изображения. Например, функция, реагирующая на глаз человеческого лица, не должна зависеть от движения рта. Второй класс возмущений - это когда область соседствует с границей переднего / заднего плана. От детектора может потребоваться обнаружение области переднего плана, несмотря на изменения фона.
Внутриклассовые вариации: Функции должны захватывать соответствующие части объекта при внутриклассовых вариациях объектов. Например, фара автомобиля для разных марок автомобилей (изображение с одной точки зрения).
Все Обнаружение функции алгоритмы пытаются обнаружить области, которые стабильны при трех типах изменения изображения, описанных выше. Вместо того, чтобы находить угол, пятно или любую конкретную форму области, детектор заметности Кадира – Брейди ищет области, которые являются локально сложными и глобально различимыми. Такие области обычно соответствуют областям, более устойчивым к таким типам изменения изображения.
Информационно-теоретическая значимость
В области Теория информации Энтропия Шеннона определяется для количественной оценки сложности распределения п в качестве . Следовательно, более высокая энтропия означает п более сложный, следовательно, более непредсказуемый.
Чтобы измерить сложность области изображения вокруг точки с формой , дескриптор что принимает ценности (например, в 8 бит изображение с уровнем серого, D будет в диапазоне от 0 до 255 для каждого пикселя) определяется так, что , вероятность значения дескриптора происходит в регионе можно вычислить. Кроме того, энтропия области изображения можно вычислить как
Используя это уравнение энтропии, мы можем далее вычислить за каждую точку и форма области . Более сложная область, такая как область глаза, имеет более сложный распределитель и, следовательно, более высокую энтропию.
- хороший показатель локальной сложности. Энтропия измеряет только статистику локального атрибута. Он не измеряет пространственное расположение локального атрибута. Однако эти четыре региона не одинаково различимы при изменении масштаба. Это наблюдение используется для определения меры дискриминативности в подразделах.
В следующих подразделах обсуждаются различные методы выбора регионов с высокой локальной сложностью и большей дискриминацией между разными регионами.
Важность, инвариантная к подобию
Первая версия детектора заметности Кадира – Брэди [10] находит только существенные области, инвариантные относительно преобразование подобия. Алгоритм находит области круга с разным масштабом. Другими словами, учитывая , где s - масштабный параметр области круга , алгоритм выбирает набор областей круга, .
Метод состоит из трех этапов:
- Расчет энтропии Шеннона атрибутов локального изображения для каждого x в диапазоне масштабов - ;
- Выберите масштабы, при которых функция энтропии в зависимости от масштаба показывает пик - ;
- Рассчитайте изменение величины PDF в зависимости от масштаба на каждом пике - (s).
Последняя заметность это продукт и .
Для каждого x метод выбирает масштаб и вычисляет выдающуюся оценку .Сравнивая разных точек детектор может ранжировать значимость точек и выбирать наиболее репрезентативные.
Аффинно-инвариантная значимость
Предыдущий метод инвариантен к группе подобия геометрических преобразований и к фотометрическим сдвигам. Однако, как упоминалось во вступительных замечаниях, идеальный детектор должен обнаруживать область, инвариантную до изменения точки обзора. Есть несколько детекторов [], которые могут обнаруживать аффинно-инвариантную область, которая является лучшим приближением изменения точки зрения, чем преобразование подобия.
Чтобы обнаружить аффинную инвариантную область, детектор должен обнаруживать эллипс, как на рисунке 4. Теперь параметризуется тремя параметрами (s, «ρ», «θ»), где «ρ» - это отношение осей, а «θ» - ориентация эллипса.
Эта модификация увеличивает пространство поиска предыдущего алгоритма от масштаба до набора параметров, и поэтому сложность аффинно-инвариантного детектора значимости увеличивается. На практике детектор аффинно-инвариантной заметности начинается с набор точек и шкалы, полученные с помощью детектора значимости, инвариантного к подобию, затем итеративно аппроксимируют субоптимальные параметры.
Сравнение
Хотя инвариантный детектор заметности подобия быстрее, чем аффинно-инвариантный детектор заметности, он также имеет недостаток, заключающийся в предпочтении изотропной структуры, так как дискриминационная мера измеряется в изотропном масштабе.
Подводя итог: детектор аффинно-инвариантной заметности инвариантен к аффинное преобразование и может обнаруживать более выдающиеся области.
Заметный объем
Интуитивно интуитивно понятно выбирать точки из более высокого значимого балла и останавливаться, когда удовлетворяется определенное количество пороговых значений по «количеству баллов» или «значительному баллу». Естественные изображения содержат шум и Размытость которые действуют как рандомизаторы и обычно увеличивают энтропию, влияя на ранее низкие значения энтропии больше, чем на высокие значения энтропии.
Более надежным методом будет выбор регионов, а не точек в энтропийном пространстве. Хотя отдельные пиксели в пределах заметной области могут быть затронуты шумом в любой данный момент, маловероятно, что они повлияют на все так, что область в целом станет незаметной.
Также необходимо проанализировать все пространство значимости, чтобы была представлена каждая характерная черта. Подход с глобальным порогом привел бы к тому, что в одной части изображения наиболее заметные элементы будут доминировать над остальными. Подход с локальным порогом потребует установки другого параметра масштаба.
Простой алгоритм кластеризации удовлетворяет этим двум требованиям, которые используются в конце алгоритма. Он работает, выбирая наиболее заметные точки, которые имеют местную поддержку, то есть близлежащие точки с аналогичной заметностью и масштабом. Каждый регион должен быть достаточно удален от всех остальных (в R3), чтобы считаться отдельным объектом. Для надежности мы используем представление, которое включает все точки в выбранной области. Метод работает следующим образом:
- Примените глобальный порог.
- Выберите самый высокий выступ в пространстве выступа (Y).
- Найдите K ближайших соседей (K - заданная константа).
- Проверьте их поддержку, используя разброс центральных точек.
- Найдите расстояние D в R3 от уже сгруппированных выступов.
- Принять, если D> scalemean области и если достаточно кластеризован (дисперсия меньше предварительно установленного порога Vth).
- Сохраните как средний масштаб и пространственное расположение K точек.
- Повторите, начиная с шага 2, со следующей самой высокой точкой выступа.
Алгоритм реализован как GreedyCluster1.m в matlab доктором Тимором Кадиром.[5]
Оценка эффективности
В области компьютерное зрение разные детекторы функций были оценены несколькими тестами. Наиболее глубокая оценка опубликована в Международном журнале компьютерного зрения в 2006 году.[6]В следующем подразделе обсуждается эффективность детектора заметности Кадира – Брэди на подмножестве теста в статье.
Производительность в условиях глобальной трансформации
Чтобы измерить согласованность области, обнаруженной на одном объекте или сцене на изображениях при глобальном преобразовании, показатель повторяемости, который впервые был предложен Миколайчик и Корделия Шмид в [18, 19], рассчитывается следующим образом:[7][8]
Во-первых, ошибка перекрытия пары соответствующих эллипсов и каждый на разных изображениях определяется:
где A - локально линеаризованное аффинное преобразование гомографии между двумя изображениями,
и и представляют собой область пересечения и объединения эллипсов соответственно.
Уведомление масштабируется до фиксированной шкалы для подсчета изменения размера различных обнаруженных областей. Только если меньше определенного , пара эллипсов считается соответствующей.
Затем показатель повторяемости для данной пары изображений вычисляется как отношение между количеством соответствий между областями и меньшим из числа областей в паре изображений, где только области, расположенные в части сцены присутствующие на обоих изображениях подсчитываются. В целом нам бы хотелось, чтобы детектор имел высокий показатель повторяемости и большое количество соответствий.
Конкретные глобальные преобразования, протестированные в тестовый набор данных находятся:
- Изменение точки зрения
- Масштаб + поворот
- Размытие изображения
- Сжатие JPEG
- Изменение света
Детектор яркости Кадира – Брэди уступает по своим характеристикам большинству других детекторов главным образом потому, что количество обнаруживаемых точек обычно меньше, чем у других детекторов.
Точная процедура приведена в коде Matlab из оценки детектора.# Внедрение программного обеспечения.
Производительность при внутриклассовых вариациях и возмущениях изображения
В задаче категоризации классов объектов очень важна способность обнаруживать похожие области с учетом внутриклассовых вариаций и возмущений изображения в экземпляре объекта. Предлагаются меры повторяемости по внутриклассовой вариации и возмущениям изображения. В следующем подразделе будет представлено определение и обсуждаются характеристики.
Тест внутриклассной вариации
Предположим, есть набор изображений одного и того же класса объектов, например мотоциклов. Оператор определения области, на который не влияют вариации внутри класса, будет надежно выбирать области на соответствующих частях всех объектов - скажем, на колесах, двигателе или сиденье для мотоциклов.
Повторяемость по внутриклассовой вариации - это измерение (среднего) количества правильных соответствий по набору изображений, где правильные соответствия устанавливаются путем ручного выбора.
Регион считается выбранным, если он соответствует трем требованиям:
- Его положение совпадает в пределах 10 пикселей.
- Его масштаб находится в пределах 20%.
- Нормализованный взаимная информация между появлением> 0,4.
Подробно средний балл соответствия S измеряется следующим образом.
На каждом изображении из M изображений в наборе данных обнаруживается N областей. Затем для конкретного эталонного изображения я, заочная оценка задается долей соответствующих обнаруженных областей для всех других изображений в наборе данных, то есть:
Очки вычисляется для различных вариантов выбора эталонного изображения M / 2 и усредняется для получения S. Оценка оценивается как функция количества обнаруженных областей N.
Детектор заметности Кадира-Брэди дает наивысший балл по трем классам испытаний: мотоцикл, автомобиль и лицо. Детектор заметности показывает, что большинство обнаружений происходит вблизи объекта. Напротив, карты других детекторов показывают гораздо более размытый узор по всей области, вызванный плохой локализацией и ложными срабатываниями на фоновые помехи.
Тест возмущений изображения
Чтобы проверить нечувствительность к возмущению изображения, набор данных разделен на две части: первая содержит изображения с однородным фоном, а вторая - изображения с различной степенью беспорядка фона. Если детектор устойчив к фоновым помехам, тогда средний балл соответствия S должен быть одинаковым для обоих подмножеств изображений.
В этом тесте детектор заметности также превосходит другие детекторы по трем причинам:
- Несколько методов обнаружения размывают изображение, что приводит к большей степени сходства между объектами и фоном.
- На большинстве изображений интересующие объекты обычно находятся в фокусе, а фон не в фокусе и, следовательно, размыт. Размытые области имеют тенденцию демонстрировать медленно изменяющуюся статистику, что приводит к относительно низкой энтропии и межмасштабной значимости в детекторе заметности.
- Другие детекторы определяют значимость по отношению к особые свойства локальной геометрии поверхности. В отличие от этого детектор заметности использует гораздо более широкое определение.
Детектор значимости наиболее полезен в задаче распознавания объектов, тогда как несколько других детекторов более полезны в задаче вычисления соответствий изображений. Тем не менее, в задаче распознавания 3D-объектов, где сочетаются все три типа изменения изображения, детектор заметности все еще может быть мощным.[нужна цитата ]
Программная реализация
- Масштаб заметности и дескрипторы масштабов Тимор Кадир
- Важность аффинно-инвариантного масштаба Тимор Кадир
- Сравнение детекторов аффинной области
Рекомендации
- ^ Кадир, Тимор; Зиссерман, Андрей; Брэди, Майкл (2004). "Детектор аффинно-инвариантной заметной области". Компьютерное зрение - ECCV 2004. Конспект лекций по информатике. 3021. С. 228–241. Дои:10.1007/978-3-540-24670-1_18. ISBN 978-3-540-21984-2. ISSN 0302-9743.
- ^ Зиссерман, А.
- ^ Лин Шао, Тимор Кадир и Майкл Брэди. Обнаружение геометрических и фотометрических инвариантных отличительных областей. Информационные науки. 177 (4): 1088-1122, 2007. Дои:10.1016 / j.ins.2006.09.003
- ^ В. Ли; Г. Бебис; Н. Г. Бурбакис (2008). «Распознавание трехмерных объектов с использованием двухмерных изображений». IEEE Transactions по обработке изображений. 17 (11): 2236–2255. Bibcode:2008ITIP ... 17.2236L. CiteSeerX 10.1.1.158.1872. Дои:10.1109 / tip.2008.2003404. PMID 18854254.
- ^ [1] Кадир, Т GreedyCluster1.m скачать
- ^ Сравнение детекторов аффинных областей. К. Миколайчик, Т. Туйтелаарс, К. Шмид, А. Зиссерман, Дж. Матас, Ф. Шаффалицки, Т. Кадир и Л. Ван Гул. Международный журнал компьютерного зрения
- ^ [2] Миколайчик
- ^ [3] Шмид, C
дальнейшее чтение
- А. Баумберг (2000). «Надежное сопоставление функций в широко разделенных представлениях». Труды конференции IEEE по компьютерному зрению и распознаванию образов. С. I: 1774–1781.
- Т. Линдеберг (1998). «Обнаружение признаков с автоматическим выбором шкалы» (Абстрактные). Международный журнал компьютерного зрения. 30 (2): 77–116. Дои:10.1023 / А: 1008045108935.(масштабно-адаптивный и масштабный инвариант точки интереса из лапласиана и определитель гессиана обнаружение капли а также более общие механизмы автоматического выбора масштаба)
- Т. Линдеберг (2008–2009). «Масштаб-пространство». В Бенджамине Ва (ред.). Энциклопедия компьютерных наук и инженерии. IV. Джон Уайли и сыновья. С. 2495–2504. Дои:10.1002 / 9780470050118.ecse609. ISBN 978-0470050118. (краткое изложение и обзор ряда сформулированных детекторов признаков; на основе Масштабное пространственное представление )
- Т. Линдеберг; Дж. Гардинг (1997). «Сглаживание с адаптацией к форме при оценке трехмерных сигналов глубины на основе аффинных искажений локальной двумерной структуры». Вычисления изображений и зрения. 15 (6): 415–434. Дои:10.1016 / S0262-8856 (97) 01144-X. (теория аффинных инвариантных точек интереса и дескрипторов формы из матриц второго момента)
- Дж. Матас; О. Чум; М. Урбан; Т. Пайдла (2002). «Устойчивое широкое базовое стерео из максимально устойчивых экстремальных областей» (PDF). Труды Британской конференции по машинному зрению. С. 384–393.
- К. Миколайчик; К. Шмид (2002). «Аффинный инвариантный детектор точки интереса». Труды Европейской конференции по компьютерному зрению.
- Ф. Шаффалицкий; А. Зиссерман (2002). «Сопоставление нескольких изображений для неупорядоченных наборов изображений или» Как организовать праздничные снимки?'" (PDF). Труды Европейской конференции по компьютерному зрению. С. 414–431.
- Т. Туйтелаарс; Л. Ван Гул (2000). «Стерео с широкой базой, основанное на локальных, аффинно-инвариантных регионах» (PDF). Труды Британской конференции по машинному зрению. С. 412–422.
- С. Агарвал; Д. Рот (2002). «Изучение разреженного представления для обнаружения объектов» (PDF). Труды Европейской конференции по компьютерному зрению. С. 113–130.
- Э. Боренштейн; С. Ульман (2002). «Сегментация сверху вниз по классам». Труды Европейской конференции по компьютерному зрению. С. 109–124. CiteSeerX 10.1.1.908.9327.
- Р. Фергус; П. Перона; А. Зиссерман (2003). «Распознавание классов объектов с помощью масштабно-инвариантного обучения без учителя» (PDF). Труды конференции IEEE по компьютерному зрению и распознаванию образов. С. II: 264–271.
- М. Вебер; М. Веллинг; П. Перона (2002). «Обучение моделей распознавания без учителя» (PDF). Труды Европейской конференции по компьютерному зрению.