Схема распознавания объекта - Outline of object recognition

Следующее контур предоставляется как обзор и актуальное руководство по распознаванию объектов:

Распознавание объекта - технологии в области компьютерное зрение для поиска и идентификации объектов на изображении или видео. Люди распознают множество объектов на изображениях с небольшими усилиями, несмотря на то, что изображение объектов может несколько отличаться в разных точках обзора, во многих разных размерах и масштабах или даже при их перемещении или повороте. Объекты можно распознать даже тогда, когда они частично закрыты для обзора. Эта задача по-прежнему остается проблемой для систем компьютерного зрения. Многие подходы к поставленной задаче были реализованы за несколько десятилетий.

Подходы на основе объектных моделей типа САПР

Распознавание по частям

Методы, основанные на внешнем виде

  • Используйте образцы изображений (называемые шаблонами или образцами) объектов для распознавания
  • В разных условиях объекты выглядят по-разному:
    • Изменения освещения или цвета
    • Изменения направления взгляда
    • Изменения в размере / форме
  • Единичный экземпляр вряд ли получится надежно. Однако невозможно представить все образы объекта.

Совмещение краев

  • Использует методы обнаружения краев, такие как Обнаружение хитрых краев, чтобы найти края.
  • Изменения освещения и цвета обычно не сильно влияют на края изображения.
  • Стратегия:
    1. Обнаружение краев в шаблоне и изображении
    2. Сравните изображения краев, чтобы найти шаблон
    3. Необходимо учитывать диапазон возможных позиций шаблона
  • Размеры:
    • Хорошо - посчитайте количество пересекающихся краев. Не устойчив к изменениям формы
    • Лучше - подсчитать количество пикселей края шаблона с некоторым расстоянием до края в поисковом изображении
    • Наилучшее - определить распределение вероятностей расстояния до ближайшего края в поисковом изображении (если шаблон находится в правильном положении). Оцените вероятность того, что каждая позиция шаблона генерирует изображение

Разделяй и властвуй поиск

  • Стратегия:
    • Рассматривать все позиции как набор (ячейку в пространстве позиций)
    • Определите нижнюю границу оценки в лучшем положении в ячейке
    • Если граница слишком большая, обрежьте ячейку
    • Если граница не слишком велика, разделите ячейку на подъячейки и рекурсивно попробуйте каждую подъячейку.
    • Процесс останавливается, когда ячейка «достаточно мала»
  • В отличие от поиска с несколькими разрешениями, этот метод гарантированно найдет все совпадения, соответствующие критерию (при условии, что нижняя граница точна).
  • В поисках границы:
    • Чтобы найти нижнюю границу наилучшего результата, посмотрите на оценку для позиции шаблона, представленной центром ячейки.
    • Вычтите максимальное изменение из «центрального» положения для любой другой позиции в ячейке (происходит в углах ячейки).
  • Сложности возникают из-за определения границ расстояния

Соответствие оттенков серого

  • Края (в основном) устойчивы к изменениям освещения, однако они отбрасывают много информации.
  • Необходимо вычислять расстояние до пикселя как функцию как от положения пикселя, так и от его интенсивности.
  • Может применяться и к цвету

Согласование градиента

  • Еще один способ быть устойчивым к изменениям освещенности, не теряя при этом большого количества информации, - это сравнить градиенты изображения.
  • Сопоставление выполняется как сопоставление изображений в оттенках серого
  • Простая альтернатива: использовать (нормализованную) корреляцию

Гистограммы ответов рецептивного поля

  • Избегает явных точечных соответствий
  • Отношения между разными точками изображения, неявно закодированные в ответах рецептивного поля
  • Суэйн и Баллард (1991),[2] Шиле и Кроули (2000),[3] Линде и Линдеберг (2004, 2012)[4][5]

Большие модели

  • Один из подходов к эффективному поиску в базе данных конкретного изображения с использованием собственных векторов шаблонов (называемый собственные лица )
  • Базы моделей - это набор геометрических моделей объектов, которые следует распознать.

Функциональные методы

  • поиск используется для поиска возможных совпадений между характеристиками объекта и особенности изображения.
  • Основное ограничение состоит в том, что одна позиция объекта должна учитывать все возможные совпадения.
  • методы, которые извлечь особенности от распознаваемых объектов и изображений для поиска.
    • пятна на поверхности
    • углы
    • линейные края

Деревья интерпретации

  • Метод поиска возможных совпадений - поиск в дереве.
  • Каждый узел в дереве представляет собой набор совпадений.
    • Корневой узел представляет собой пустой набор
    • Каждый другой узел представляет собой объединение совпадений в родительском узле и одного дополнительного совпадения.
    • Подстановочный знак используется для функций, у которых нет совпадений
  • Узлы «обрезаются», когда набор совпадений невозможен.
    • У обрезанного узла нет детей
  • Исторически значимый и до сих пор используется, но реже

Выдвинуть гипотезу и проверить

  • Главная идея:
    • Выдвинуть гипотезу переписка между набором функций изображения и набором функций объекта
    • Затем используйте это для генерации гипотезы о проекции из кадра координат объекта на кадр изображения.
    • Используйте эту гипотезу проекции для создания визуализации объекта. Этот шаг обычно называют обратной проекцией.
    • Сравните рендеринг с изображением и, если они достаточно похожи, примите гипотезу
  • Получение гипотезы:
    • Есть множество различных способов создания гипотез.
    • Когда внутренние параметры камеры известны, гипотеза эквивалентна гипотетическому положению и ориентации - поза - за объект.
    • Используйте геометрические ограничения
    • Постройте соответствие небольших наборов характеристик объекта каждому подмножеству точек изображения правильного размера. (Это гипотезы)
  • Три основных подхода:
    • Получение гипотез с помощью последовательности позы
    • Получение гипотез с помощью кластеризации поз
    • Получение гипотез с помощью инвариантов
  • Поиск расходов, который также является избыточным, но может быть улучшен с помощью рандомизации и / или группировки
    • Рандомизация
      • Изучение небольших наборов функций изображения до тех пор, пока вероятность пропуска объекта не станет небольшой.
      • Для каждого набора функций изображения необходимо учитывать все возможные совпадающие наборы функций модели.
      • Формула:
        (1 - Втc)k = Z
        • W = доля «хороших» точек изображения (w ~ m / n)
        • c = количество необходимых соответствий
        • k = количество испытаний
        • Z = вероятность того, что каждое испытание использует одно (или несколько) неверных соответствий
    • Группировка
      • Если мы сможем определить группы точек, которые, вероятно, будут исходить от одного и того же объекта, мы сможем уменьшить количество гипотез, которые необходимо проверить.

Последовательность позы

  • Также называется выравниванием, поскольку объект выравнивается по изображению.
  • Соответствия между элементами изображения и элементами модели не являются независимыми - геометрические ограничения
  • Небольшое количество соответствий дает положение объекта - остальные должны соответствовать этому
  • Главная идея:
    • Если мы выдвинем гипотезу о совпадении между достаточно большой группой характеристик изображения и достаточно большой группой характеристик объекта, то мы сможем восстановить недостающие параметры камеры из этой гипотезы (и таким образом визуализировать остальную часть объекта).
  • Стратегия:
    • Создавать гипотезы, используя небольшое количество соответствий (например, тройки точек для распознавания 3D)
    • Спроецировать другие элементы модели на изображение (бэкпроект ) и проверить дополнительные соответствия
  • Используйте наименьшее количество соответствий, необходимых для достижения дискретных поз объекта

Кластеризация поз

  • Главная идея:
    • Каждый объект приводит к множеству правильных наборов соответствий, каждый из которых имеет (примерно) одну и ту же позу.
    • Проголосуйте за позу. Используйте массив аккумуляторов, представляющий пространство позы для каждого объекта.
    • По сути, это Преобразование Хафа
  • Стратегия:
    • Для каждого объекта настройте массив аккумуляторов, который представляет пространство позы - каждый элемент в массиве аккумуляторов соответствует «ведру» в пространстве позы.
    • Затем возьмите каждую группу кадров изображения и выдвиньте гипотезу о соответствии между ней и каждой группой кадров на каждом объекте.
    • Для каждого из этих соответствий определите параметры позы и сделайте запись в массиве аккумуляторов для текущего объекта в значении позы.
    • Если есть большое количество голосов в массиве аккумуляторов любого объекта, это можно интерпретировать как свидетельство присутствия этого объекта в этой позе.
    • Доказательства можно проверить с помощью метода верификации.
  • Обратите внимание, что этот метод использует наборы соответствий, а не отдельные соответствия.
    • Реализация проще, поскольку каждый набор дает небольшое количество возможных поз объекта.
  • Улучшение
    • Шумостойкость этого метода можно улучшить, если не считать голоса за объекты в позах, в которых голосование явно ненадежно.
    § Например, в случаях, когда объект находился в этой позе, группа рамок объекта была бы невидимой.
    • Этих улучшений достаточно, чтобы получить работающие системы.

Инвариантность

  • Есть геометрические свойства, инвариантные к преобразованиям камеры.
  • Наиболее легко разрабатывается для изображений плоских объектов, но может применяться и в других случаях.

Геометрическое хеширование

  • Алгоритм, использующий геометрические инварианты для голосования за объектные гипотезы
  • Подобно кластеризации позы, но вместо голосования по позе мы теперь голосуем по геометрии.
  • Методика, первоначально разработанная для сопоставления геометрических элементов (неоткалиброванные аффинные виды моделей плоскостей) с базой данных таких элементов.
  • Широко используется для сопоставления с образцом, CAD / CAM и медицинской визуализации.
  • Трудно подобрать размер ведер
  • Трудно сказать, что означает «достаточно». Следовательно, может возникнуть опасность засорения стола.

Масштабно-инвариантное преобразование признаков (ПРОСЕЯТЬ)

  • Ключевые точки объектов сначала извлекаются из набора эталонных изображений и сохраняются в базе данных.
  • Объект распознается в новом изображении путем индивидуального сравнения каждого признака из нового изображения с этой базой данных и нахождения подходящих признаков соответствия на основе евклидова расстояния их векторов признаков.
  • Лоу (2004)[6][7]

Ускоренные надежные функции (ПОВЕРХНОСТЬ)

  • Надежный детектор и дескриптор изображений
  • Стандартная версия в несколько раз быстрее, чем SIFT, и, по утверждениям ее авторов, более устойчива к различным преобразованиям изображений, чем SIFT.
  • На основе сумм примерных 2D отклики вейвлетов Хаара и эффективно использовали цельные изображения.
  • Bay et al. (2008)[8]

Мешок представлений слов

Генетический алгоритм

Генетические алгоритмы может работать без предварительного знания данного набора данных и может разрабатывать процедуры распознавания без вмешательства человека. В рамках недавнего проекта удалось достичь 100-процентной точности на эталонных наборах данных изображений мотоциклов, лиц, самолетов и автомобилей от Caltech и 99,4-процентной точности на наборах данных изображений видов рыб.[9][10]

Другие подходы

Приложения

Методы распознавания объектов имеют следующие применения:

Обзоры

  • Даниилидес и Эклунд, Эдельман.
  • Рот, Питер М. и Винтер, Мартин (2008). «МЕТОДЫ РАСПОЗНАНИЯ ОБЪЕКТОВ, ОСНОВАННЫЕ НА ОБСЛЕДОВАНИИ ОБЪЕКТА» (PDF). Технический отчет. ICG-TR-01/08.

Смотрите также

Списки

Заметки

  1. ^ Рахеш Мохан и Ракамант Неватия (1992). «Перцептивная организация для сегментации и описания сцены» (PDF). IEEE Trans Pat Anal Mach Intell.
  2. ^ М. Дж. Суэйн и Д. Х. Баллард «Цветовая индексация», Международный журнал компьютерного зрения, 7: 1, 11-32, 1991.
  3. ^ Б. Шиле и Дж. Л. Кроули "Распознавание без соответствия с использованием многомерных гистограмм рецептивного поля", Международный журнал компьютерного зрения, 36: 1, 31-50, 2000
  4. ^ О. Линде и Т. Линдеберг "Распознавание объектов с использованием составных гистограмм рецептивного поля более высокой размерности", Proc. Международная конференция по распознаванию образов (ICPR'04), Кембридж, Великобритания II: 1-6, 2004.
  5. ^ О. Линде и Т. Линдеберг «Составленные гистограммы сложных сигналов: исследование информационного содержания в дескрипторах изображения на основе рецептивного поля для распознавания объектов», Computer Vision and Image Understanding, 116: 4, 538-560, 2012.
  6. ^ Лоу, Д. Г., "Отличительные особенности изображения от масштабно-инвариантных ключевых точек", Международный журнал компьютерного зрения, 60, 2, стр. 91-110, 2004.
  7. ^ Линдеберг, Тони (2012). «Масштабно-инвариантное преобразование элемента». Scholarpedia. 7 (5): 10491. Дои:10.4249 / scholarpedia.10491.
  8. ^ Бэй, Герберт; Эсс, Андреас; Tuytelaars, Tinne; Ван Гул, Люк (2008). «Ускоренные надежные функции (SURF)». Компьютерное зрение и понимание изображений. 110 (3): 346–359. CiteSeerX  10.1.1.205.738. Дои:10.1016 / j.cviu.2007.09.014.
  9. ^ «Новый алгоритм распознавания объектов обучается на лету». Gizmag.com. Получено 2014-01-21.
  10. ^ Lillywhite, K .; Ли, Д. Дж .; Типпетс, В .; Арчибальд, Дж. (2013). «Метод построения признаков для общего распознавания объектов». Распознавание образов. 46 (12): 3300. Дои:10.1016 / j.patcog.2013.06.002.
  11. ^ Браун, Мэтью и Дэвид Г. Лоу. "Неконтролируемое распознавание и реконструкция 3D-объектов в неупорядоченных наборах данных. "3-D цифровое изображение и моделирование, 2005. 3DIM 2005. Пятая международная конференция по. IEEE, 2005.
  12. ^ а б Олива, Од и Антонио Торральба. "Роль контекста в распознавании объектов. »Тенденции в когнитивных науках 11.12 (2007): 520-527.
  13. ^ а б Ню, Чжэньсин и др. "Контекстно-зависимая тематическая модель для распознавания сцены. "Конференция IEEE 2012 года по компьютерному зрению и распознаванию образов. IEEE, 2012.
  14. ^ Штейн, Фритьоф и Жерар Медиони. "Структурная индексация: эффективное распознавание трехмерных объектов. "IEEE Transactions on Pattern Analysis & Machine Intelligence 2 (1992): 125-145.
  15. ^ Чжу, Сон-Чун и Дэвид Мамфорд. "Стохастическая грамматика изображений. "Основы и тенденции в компьютерной графике и зрении 2.4 (2007): 259-362.
  16. ^ Наяр, Шри К. и Рууд М. Болле. "Распознавание объектов на основе отражательной способности. »Международный журнал компьютерного зрения 17.3 (1996): 219-240.
  17. ^ Уортингтон, Филип Л. и Эдвин Р. Хэнкок. "Распознавание объектов с помощью шейдинга по форме. "IEEE Transactions on Pattern Analysis and Machine Intelligence 23.5 (2001): 535-542.
  18. ^ Шоттон, Джейми и др. "Textonboost для понимания изображений: распознавание и сегментация объектов нескольких классов путем совместного моделирования текстуры, макета и контекста. »Международный журнал компьютерного зрения 81.1 (2009): 2-23.
  19. ^ «Лучшее зрение робота». KurzweilAI. Получено 2013-10-09.
  20. ^ Донахью, Джеффри и др. "Долгосрочные рекуррентные сверточные сети для визуального распознавания и описания. »Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2015.
  21. ^ Карпаты, Андрей и Ли Фей-Фэй. "Глубокие визуально-семантические согласования для создания описаний изображений. »Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2015.
  22. ^ П. Дуйгулу; К. Барнард; Н. де Фретиас и Д. Форсайт (2002). «Распознавание объектов как машинный перевод: изучение словаря фиксированных изображений». Труды Европейской конференции по компьютерному зрению. С. 97–112. Архивировано из оригинал на 2005-03-05.
  23. ^ "Android Eyes Computer Vision".Марта Дж. Фарах "Визуальная агнозия", Компьютерное зрение, вычислительная когнитивная нейробиология, MIT Press, 2011-05-01, страницы 760-781, ISSN 1468-4233 [1][мертвая ссылка ]
  24. ^ Эстева, Андре и др. "Классификация рака кожи на уровне дерматологов с помощью глубоких нейронных сетей. »Nature 542.7639 (2017): 115.
  25. ^ Браун, М., и Лоу, Д.Г. "Распознавание панорам, "ICCV, стр. 1218, Девятая Международная конференция IEEE по компьютерному зрению (ICCV'03) - Том 2, Ницца, Франция, 2003 г.
  26. ^ Ли, Л., Го, Б., и Шао, К. "Геометрически надежное нанесение водяных знаков на изображения с использованием масштабно-инвариантного преобразования функций и моментов Цернике, "Chinese Optics Letters, Volume 5, Issue 6, pp. 332-335, 2007.
  27. ^ Се, С., Лоу, Д.Г., и Литтл, Дж. Дж., "Глобальная локализация и картография на основе Vision для мобильных роботов ", IEEE Transactions on Robotics, 21, 3 (2005), стр. 364-375.
  28. ^ Томас Серр, Максимилиан Ризенхубер, Дженнифер Луи, Томазо Поджио "О роли объектно-специфических особенностей для распознавания объектов реального мира в биологическом зрении. »Лаборатория искусственного интеллекта и Департамент мозговых и когнитивных наук, Массачусетский технологический институт, Центр биологического и вычислительного обучения, Институт исследования мозга Мак-Говер, Кембридж, Массачусетс, США.
  29. ^ Энн Пермалофф и Карл Графтон "Оптическое распознавание символов "Политология и политика, том 25, номер 3 (сентябрь 1992 г.), стр. 523-531".
  30. ^ Кристиан Демант, Бернд Штрайхер-Абель, Питер Вашкевиц, «Промышленная обработка изображений: визуальный контроль качества на производстве» Схема распознавания объекта в Google Книги
  31. ^ Нуно Васконселос "Индексирование изображений с помощью иерархий смесей " В архиве 2011-01-18 на Wayback Machine Compaq Computer Corporation, Proc. Конференция IEEE по компьютерному зрению и распознаванию образов, Кауаи, Гавайи, 2001 г.
  32. ^ Хейккиля, Янне; Сильвен, Олли (2004). «Система мониторинга велосипедистов и пешеходов в реальном времени». Вычисления изображений и зрения. 22 (7): 563–570. Дои:10.1016 / j.imavis.2003.09.010.
  33. ^ Хо Ги Чжон, Дон Сок Ким, Пал Джу Юн, Джайхи Ким "Распознавание разметки парковочных мест на основе анализа структуры для полуавтоматической системы парковки «Структурное, синтаксическое и статистическое распознавание образов, Springer Berlin / Heidelberg, 2006 г.
  34. ^ С.К. Наяр, Х. Мурасе и С.А. Нене "Обучение, позиционирование и отслеживание внешнего вида "Proc. Of IEEE International Conf. On Robotics and Automation, San Diego, May 1994.
  35. ^ Лю, Ф .; Gleicher, M .; Jin, H .; Агарвала, А. (2009). «Деформации с сохранением содержимого для стабилизации 3D-видео». Транзакции ACM на графике. 28 (3): 1. CiteSeerX  10.1.1.678.3088. Дои:10.1145/1531326.1531350.

использованная литература

внешние ссылки