Схема распознавания объекта - Outline of object recognition
Следующее контур предоставляется как обзор и актуальное руководство по распознаванию объектов:
Распознавание объекта - технологии в области компьютерное зрение для поиска и идентификации объектов на изображении или видео. Люди распознают множество объектов на изображениях с небольшими усилиями, несмотря на то, что изображение объектов может несколько отличаться в разных точках обзора, во многих разных размерах и масштабах или даже при их перемещении или повороте. Объекты можно распознать даже тогда, когда они частично закрыты для обзора. Эта задача по-прежнему остается проблемой для систем компьютерного зрения. Многие подходы к поставленной задаче были реализованы за несколько десятилетий.
Подходы на основе объектных моделей типа САПР
- Обнаружение края
- Первоначальный эскиз
- Марр, Мохан и Неватия[1]
- Лоу
- Оливье Фожерас
Распознавание по частям
- Обобщенные цилиндры (Томас Бинфорд )
- Geons (Ирвинг Бидерман )
- Дикинсон, Форсайт и Понсе
Методы, основанные на внешнем виде
- Используйте образцы изображений (называемые шаблонами или образцами) объектов для распознавания
- В разных условиях объекты выглядят по-разному:
- Изменения освещения или цвета
- Изменения направления взгляда
- Изменения в размере / форме
- Единичный экземпляр вряд ли получится надежно. Однако невозможно представить все образы объекта.
Совмещение краев
- Использует методы обнаружения краев, такие как Обнаружение хитрых краев, чтобы найти края.
- Изменения освещения и цвета обычно не сильно влияют на края изображения.
- Стратегия:
- Обнаружение краев в шаблоне и изображении
- Сравните изображения краев, чтобы найти шаблон
- Необходимо учитывать диапазон возможных позиций шаблона
- Размеры:
- Хорошо - посчитайте количество пересекающихся краев. Не устойчив к изменениям формы
- Лучше - подсчитать количество пикселей края шаблона с некоторым расстоянием до края в поисковом изображении
- Наилучшее - определить распределение вероятностей расстояния до ближайшего края в поисковом изображении (если шаблон находится в правильном положении). Оцените вероятность того, что каждая позиция шаблона генерирует изображение
Разделяй и властвуй поиск
- Стратегия:
- Рассматривать все позиции как набор (ячейку в пространстве позиций)
- Определите нижнюю границу оценки в лучшем положении в ячейке
- Если граница слишком большая, обрежьте ячейку
- Если граница не слишком велика, разделите ячейку на подъячейки и рекурсивно попробуйте каждую подъячейку.
- Процесс останавливается, когда ячейка «достаточно мала»
- В отличие от поиска с несколькими разрешениями, этот метод гарантированно найдет все совпадения, соответствующие критерию (при условии, что нижняя граница точна).
- В поисках границы:
- Чтобы найти нижнюю границу наилучшего результата, посмотрите на оценку для позиции шаблона, представленной центром ячейки.
- Вычтите максимальное изменение из «центрального» положения для любой другой позиции в ячейке (происходит в углах ячейки).
- Сложности возникают из-за определения границ расстояния
Соответствие оттенков серого
- Края (в основном) устойчивы к изменениям освещения, однако они отбрасывают много информации.
- Необходимо вычислять расстояние до пикселя как функцию как от положения пикселя, так и от его интенсивности.
- Может применяться и к цвету
Согласование градиента
- Еще один способ быть устойчивым к изменениям освещенности, не теряя при этом большого количества информации, - это сравнить градиенты изображения.
- Сопоставление выполняется как сопоставление изображений в оттенках серого
- Простая альтернатива: использовать (нормализованную) корреляцию
Гистограммы ответов рецептивного поля
- Избегает явных точечных соответствий
- Отношения между разными точками изображения, неявно закодированные в ответах рецептивного поля
- Суэйн и Баллард (1991),[2] Шиле и Кроули (2000),[3] Линде и Линдеберг (2004, 2012)[4][5]
Большие модели
- Один из подходов к эффективному поиску в базе данных конкретного изображения с использованием собственных векторов шаблонов (называемый собственные лица )
- Базы моделей - это набор геометрических моделей объектов, которые следует распознать.
Функциональные методы
Обнаружение функции |
---|
Обнаружение края |
Обнаружение углов |
Обнаружение капли |
Обнаружение гребня |
Преобразование Хафа |
Структурный тензор |
Обнаружение аффинно-инвариантных признаков |
Описание функции |
Масштабировать пространство |
- поиск используется для поиска возможных совпадений между характеристиками объекта и особенности изображения.
- Основное ограничение состоит в том, что одна позиция объекта должна учитывать все возможные совпадения.
- методы, которые извлечь особенности от распознаваемых объектов и изображений для поиска.
- пятна на поверхности
- углы
- линейные края
Деревья интерпретации
- Метод поиска возможных совпадений - поиск в дереве.
- Каждый узел в дереве представляет собой набор совпадений.
- Корневой узел представляет собой пустой набор
- Каждый другой узел представляет собой объединение совпадений в родительском узле и одного дополнительного совпадения.
- Подстановочный знак используется для функций, у которых нет совпадений
- Узлы «обрезаются», когда набор совпадений невозможен.
- У обрезанного узла нет детей
- Исторически значимый и до сих пор используется, но реже
Выдвинуть гипотезу и проверить
- Главная идея:
- Выдвинуть гипотезу переписка между набором функций изображения и набором функций объекта
- Затем используйте это для генерации гипотезы о проекции из кадра координат объекта на кадр изображения.
- Используйте эту гипотезу проекции для создания визуализации объекта. Этот шаг обычно называют обратной проекцией.
- Сравните рендеринг с изображением и, если они достаточно похожи, примите гипотезу
- Получение гипотезы:
- Есть множество различных способов создания гипотез.
- Когда внутренние параметры камеры известны, гипотеза эквивалентна гипотетическому положению и ориентации - поза - за объект.
- Используйте геометрические ограничения
- Постройте соответствие небольших наборов характеристик объекта каждому подмножеству точек изображения правильного размера. (Это гипотезы)
- Три основных подхода:
- Получение гипотез с помощью последовательности позы
- Получение гипотез с помощью кластеризации поз
- Получение гипотез с помощью инвариантов
- Поиск расходов, который также является избыточным, но может быть улучшен с помощью рандомизации и / или группировки
- Рандомизация
- Изучение небольших наборов функций изображения до тех пор, пока вероятность пропуска объекта не станет небольшой.
- Для каждого набора функций изображения необходимо учитывать все возможные совпадающие наборы функций модели.
- Формула:
- (1 - Втc)k = Z
- W = доля «хороших» точек изображения (w ~ m / n)
- c = количество необходимых соответствий
- k = количество испытаний
- Z = вероятность того, что каждое испытание использует одно (или несколько) неверных соответствий
- Группировка
- Если мы сможем определить группы точек, которые, вероятно, будут исходить от одного и того же объекта, мы сможем уменьшить количество гипотез, которые необходимо проверить.
- Рандомизация
Последовательность позы
- Также называется выравниванием, поскольку объект выравнивается по изображению.
- Соответствия между элементами изображения и элементами модели не являются независимыми - геометрические ограничения
- Небольшое количество соответствий дает положение объекта - остальные должны соответствовать этому
- Главная идея:
- Если мы выдвинем гипотезу о совпадении между достаточно большой группой характеристик изображения и достаточно большой группой характеристик объекта, то мы сможем восстановить недостающие параметры камеры из этой гипотезы (и таким образом визуализировать остальную часть объекта).
- Стратегия:
- Создавать гипотезы, используя небольшое количество соответствий (например, тройки точек для распознавания 3D)
- Спроецировать другие элементы модели на изображение (бэкпроект ) и проверить дополнительные соответствия
- Используйте наименьшее количество соответствий, необходимых для достижения дискретных поз объекта
Кластеризация поз
- Главная идея:
- Каждый объект приводит к множеству правильных наборов соответствий, каждый из которых имеет (примерно) одну и ту же позу.
- Проголосуйте за позу. Используйте массив аккумуляторов, представляющий пространство позы для каждого объекта.
- По сути, это Преобразование Хафа
- Стратегия:
- Для каждого объекта настройте массив аккумуляторов, который представляет пространство позы - каждый элемент в массиве аккумуляторов соответствует «ведру» в пространстве позы.
- Затем возьмите каждую группу кадров изображения и выдвиньте гипотезу о соответствии между ней и каждой группой кадров на каждом объекте.
- Для каждого из этих соответствий определите параметры позы и сделайте запись в массиве аккумуляторов для текущего объекта в значении позы.
- Если есть большое количество голосов в массиве аккумуляторов любого объекта, это можно интерпретировать как свидетельство присутствия этого объекта в этой позе.
- Доказательства можно проверить с помощью метода верификации.
- Обратите внимание, что этот метод использует наборы соответствий, а не отдельные соответствия.
- Реализация проще, поскольку каждый набор дает небольшое количество возможных поз объекта.
- Улучшение
- Шумостойкость этого метода можно улучшить, если не считать голоса за объекты в позах, в которых голосование явно ненадежно.
- § Например, в случаях, когда объект находился в этой позе, группа рамок объекта была бы невидимой.
- Этих улучшений достаточно, чтобы получить работающие системы.
Инвариантность
- Есть геометрические свойства, инвариантные к преобразованиям камеры.
- Наиболее легко разрабатывается для изображений плоских объектов, но может применяться и в других случаях.
Геометрическое хеширование
- Алгоритм, использующий геометрические инварианты для голосования за объектные гипотезы
- Подобно кластеризации позы, но вместо голосования по позе мы теперь голосуем по геометрии.
- Методика, первоначально разработанная для сопоставления геометрических элементов (неоткалиброванные аффинные виды моделей плоскостей) с базой данных таких элементов.
- Широко используется для сопоставления с образцом, CAD / CAM и медицинской визуализации.
- Трудно подобрать размер ведер
- Трудно сказать, что означает «достаточно». Следовательно, может возникнуть опасность засорения стола.
Масштабно-инвариантное преобразование признаков (ПРОСЕЯТЬ)
- Ключевые точки объектов сначала извлекаются из набора эталонных изображений и сохраняются в базе данных.
- Объект распознается в новом изображении путем индивидуального сравнения каждого признака из нового изображения с этой базой данных и нахождения подходящих признаков соответствия на основе евклидова расстояния их векторов признаков.
- Лоу (2004)[6][7]
Ускоренные надежные функции (ПОВЕРХНОСТЬ)
- Надежный детектор и дескриптор изображений
- Стандартная версия в несколько раз быстрее, чем SIFT, и, по утверждениям ее авторов, более устойчива к различным преобразованиям изображений, чем SIFT.
- На основе сумм примерных 2D отклики вейвлетов Хаара и эффективно использовали цельные изображения.
- Bay et al. (2008)[8]
Мешок представлений слов
Генетический алгоритм
Генетические алгоритмы может работать без предварительного знания данного набора данных и может разрабатывать процедуры распознавания без вмешательства человека. В рамках недавнего проекта удалось достичь 100-процентной точности на эталонных наборах данных изображений мотоциклов, лиц, самолетов и автомобилей от Caltech и 99,4-процентной точности на наборах данных изображений видов рыб.[9][10]
Другие подходы
- Распознавание 3D-объектов и реконструкция[11]
- Биологически вдохновленный распознавание объекта
- Искусственные нейронные сети и Глубокое обучение особенно сверточные нейронные сети
- Контекст[12][13]
- Явные и неявный 3D-модели объектов
- Быстрая индексация[14]
- Представления глобальной сцены[12]
- Гистограммы градиента
- Стохастические грамматики[15]
- Интракласс передача обучения
- Категоризация объектов из поиска изображений
- Отражение[16]
- Форма от затенения[17]
- Соответствие шаблонов
- Текстура[18]
- Тематические модели[13]
- Обучение без учителя
- Обнаружение на основе окна
- Модель деформируемой детали
- Распределение Бингема[19]
Приложения
Методы распознавания объектов имеют следующие применения:
- Распознавание активности[20]
- Автоматическая аннотация изображения[21][22]
- Автоматическое распознавание цели
- Android Eyes - Распознавание объектов[23]
- Компьютерная диагностика[24]
- Образ панорамы[25]
- Водяной знак изображения[26]
- Глобальный локализация роботов[27]
- Распознавание лиц [28]
- Оптическое распознавание символов [29]
- Производство контроль качества [30]
- Поиск изображений на основе содержимого [31]
- Подсчет и мониторинг объектов [32]
- Автоматизированные парковочные системы[33]
- Визуальное позиционирование и отслеживание [34]
- Стабилизация видео [35]
- Обнаружение пешеходов
Обзоры
- Даниилидес и Эклунд, Эдельман.
- Рот, Питер М. и Винтер, Мартин (2008). «МЕТОДЫ РАСПОЗНАНИЯ ОБЪЕКТОВ, ОСНОВАННЫЕ НА ОБСЛЕДОВАНИИ ОБЪЕКТА» (PDF). Технический отчет. ICG-TR-01/08.
Смотрите также
- Гистограмма ориентированных градиентов
- Сверточная нейронная сеть
- OpenCV
- Масштабно-инвариантное преобразование признаков (ПРОСЕЯТЬ)
- Обнаружение объекта
- Статья в Scholarpedia о масштабно-инвариантном преобразовании функций и методах распознавания связанных объектов
- СЕРФ
- Соответствие шаблонов
- Встроенная функция канала
- Списки
Заметки
- ^ Рахеш Мохан и Ракамант Неватия (1992). «Перцептивная организация для сегментации и описания сцены» (PDF). IEEE Trans Pat Anal Mach Intell.
- ^ М. Дж. Суэйн и Д. Х. Баллард «Цветовая индексация», Международный журнал компьютерного зрения, 7: 1, 11-32, 1991.
- ^ Б. Шиле и Дж. Л. Кроули "Распознавание без соответствия с использованием многомерных гистограмм рецептивного поля", Международный журнал компьютерного зрения, 36: 1, 31-50, 2000
- ^ О. Линде и Т. Линдеберг "Распознавание объектов с использованием составных гистограмм рецептивного поля более высокой размерности", Proc. Международная конференция по распознаванию образов (ICPR'04), Кембридж, Великобритания II: 1-6, 2004.
- ^ О. Линде и Т. Линдеберг «Составленные гистограммы сложных сигналов: исследование информационного содержания в дескрипторах изображения на основе рецептивного поля для распознавания объектов», Computer Vision and Image Understanding, 116: 4, 538-560, 2012.
- ^ Лоу, Д. Г., "Отличительные особенности изображения от масштабно-инвариантных ключевых точек", Международный журнал компьютерного зрения, 60, 2, стр. 91-110, 2004.
- ^ Линдеберг, Тони (2012). «Масштабно-инвариантное преобразование элемента». Scholarpedia. 7 (5): 10491. Дои:10.4249 / scholarpedia.10491.
- ^ Бэй, Герберт; Эсс, Андреас; Tuytelaars, Tinne; Ван Гул, Люк (2008). «Ускоренные надежные функции (SURF)». Компьютерное зрение и понимание изображений. 110 (3): 346–359. CiteSeerX 10.1.1.205.738. Дои:10.1016 / j.cviu.2007.09.014.
- ^ «Новый алгоритм распознавания объектов обучается на лету». Gizmag.com. Получено 2014-01-21.
- ^ Lillywhite, K .; Ли, Д. Дж .; Типпетс, В .; Арчибальд, Дж. (2013). «Метод построения признаков для общего распознавания объектов». Распознавание образов. 46 (12): 3300. Дои:10.1016 / j.patcog.2013.06.002.
- ^ Браун, Мэтью и Дэвид Г. Лоу. "Неконтролируемое распознавание и реконструкция 3D-объектов в неупорядоченных наборах данных. "3-D цифровое изображение и моделирование, 2005. 3DIM 2005. Пятая международная конференция по. IEEE, 2005.
- ^ а б Олива, Од и Антонио Торральба. "Роль контекста в распознавании объектов. »Тенденции в когнитивных науках 11.12 (2007): 520-527.
- ^ а б Ню, Чжэньсин и др. "Контекстно-зависимая тематическая модель для распознавания сцены. "Конференция IEEE 2012 года по компьютерному зрению и распознаванию образов. IEEE, 2012.
- ^ Штейн, Фритьоф и Жерар Медиони. "Структурная индексация: эффективное распознавание трехмерных объектов. "IEEE Transactions on Pattern Analysis & Machine Intelligence 2 (1992): 125-145.
- ^ Чжу, Сон-Чун и Дэвид Мамфорд. "Стохастическая грамматика изображений. "Основы и тенденции в компьютерной графике и зрении 2.4 (2007): 259-362.
- ^ Наяр, Шри К. и Рууд М. Болле. "Распознавание объектов на основе отражательной способности. »Международный журнал компьютерного зрения 17.3 (1996): 219-240.
- ^ Уортингтон, Филип Л. и Эдвин Р. Хэнкок. "Распознавание объектов с помощью шейдинга по форме. "IEEE Transactions on Pattern Analysis and Machine Intelligence 23.5 (2001): 535-542.
- ^ Шоттон, Джейми и др. "Textonboost для понимания изображений: распознавание и сегментация объектов нескольких классов путем совместного моделирования текстуры, макета и контекста. »Международный журнал компьютерного зрения 81.1 (2009): 2-23.
- ^ «Лучшее зрение робота». KurzweilAI. Получено 2013-10-09.
- ^ Донахью, Джеффри и др. "Долгосрочные рекуррентные сверточные сети для визуального распознавания и описания. »Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2015.
- ^ Карпаты, Андрей и Ли Фей-Фэй. "Глубокие визуально-семантические согласования для создания описаний изображений. »Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2015.
- ^ П. Дуйгулу; К. Барнард; Н. де Фретиас и Д. Форсайт (2002). «Распознавание объектов как машинный перевод: изучение словаря фиксированных изображений». Труды Европейской конференции по компьютерному зрению. С. 97–112. Архивировано из оригинал на 2005-03-05.
- ^ "Android Eyes Computer Vision".Марта Дж. Фарах "Визуальная агнозия", Компьютерное зрение, вычислительная когнитивная нейробиология, MIT Press, 2011-05-01, страницы 760-781, ISSN 1468-4233 [1][мертвая ссылка ]
- ^ Эстева, Андре и др. "Классификация рака кожи на уровне дерматологов с помощью глубоких нейронных сетей. »Nature 542.7639 (2017): 115.
- ^ Браун, М., и Лоу, Д.Г. "Распознавание панорам, "ICCV, стр. 1218, Девятая Международная конференция IEEE по компьютерному зрению (ICCV'03) - Том 2, Ницца, Франция, 2003 г.
- ^ Ли, Л., Го, Б., и Шао, К. "Геометрически надежное нанесение водяных знаков на изображения с использованием масштабно-инвариантного преобразования функций и моментов Цернике, "Chinese Optics Letters, Volume 5, Issue 6, pp. 332-335, 2007.
- ^ Се, С., Лоу, Д.Г., и Литтл, Дж. Дж., "Глобальная локализация и картография на основе Vision для мобильных роботов ", IEEE Transactions on Robotics, 21, 3 (2005), стр. 364-375.
- ^ Томас Серр, Максимилиан Ризенхубер, Дженнифер Луи, Томазо Поджио "О роли объектно-специфических особенностей для распознавания объектов реального мира в биологическом зрении. »Лаборатория искусственного интеллекта и Департамент мозговых и когнитивных наук, Массачусетский технологический институт, Центр биологического и вычислительного обучения, Институт исследования мозга Мак-Говер, Кембридж, Массачусетс, США.
- ^ Энн Пермалофф и Карл Графтон "Оптическое распознавание символов "Политология и политика, том 25, номер 3 (сентябрь 1992 г.), стр. 523-531".
- ^ Кристиан Демант, Бернд Штрайхер-Абель, Питер Вашкевиц, «Промышленная обработка изображений: визуальный контроль качества на производстве» Схема распознавания объекта в Google Книги
- ^ Нуно Васконселос "Индексирование изображений с помощью иерархий смесей " В архиве 2011-01-18 на Wayback Machine Compaq Computer Corporation, Proc. Конференция IEEE по компьютерному зрению и распознаванию образов, Кауаи, Гавайи, 2001 г.
- ^ Хейккиля, Янне; Сильвен, Олли (2004). «Система мониторинга велосипедистов и пешеходов в реальном времени». Вычисления изображений и зрения. 22 (7): 563–570. Дои:10.1016 / j.imavis.2003.09.010.
- ^ Хо Ги Чжон, Дон Сок Ким, Пал Джу Юн, Джайхи Ким "Распознавание разметки парковочных мест на основе анализа структуры для полуавтоматической системы парковки «Структурное, синтаксическое и статистическое распознавание образов, Springer Berlin / Heidelberg, 2006 г.
- ^ С.К. Наяр, Х. Мурасе и С.А. Нене "Обучение, позиционирование и отслеживание внешнего вида "Proc. Of IEEE International Conf. On Robotics and Automation, San Diego, May 1994.
- ^ Лю, Ф .; Gleicher, M .; Jin, H .; Агарвала, А. (2009). «Деформации с сохранением содержимого для стабилизации 3D-видео». Транзакции ACM на графике. 28 (3): 1. CiteSeerX 10.1.1.678.3088. Дои:10.1145/1531326.1531350.
использованная литература
- Эльгаммал, Ахмед «CS 534: Распознавание на основе 3D-модели компьютерного зрения», Факультет компьютерных наук, Университет Рутгерса;
- Хартли, Ричард и Зиссерман, Эндрю «Многоканальная геометрия в компьютерном зрении», Кембридж Пресс, 2000, ISBN 0-521-62304-9.
- Рот, Питер М. и Винтер, Мартин «Обзор методов распознавания объектов на основе внешнего вида», Технический отчет ICG-TR-01/08, Инст. компьютерной графики и зрения, Технологический университет Граца, Австрия; 15 января 2008 г.
- Коллинз, Роберт «Лекция 31: Распознавание объектов: ключи SIFT», CSE486, Penn State
- IPRG Обработка изображений - Online Open Research Group
- Кристиан Сегеди, Александр Тошев и Думитру Эрхан. Глубокие нейронные сети для обнаружения объектов. Достижения в системах обработки нейронной информации 26, 2013. С. 2553–2561.