Калифорнийский технологический институт 101 - Caltech 101

Калифорнийский технологический институт 101 это набор данных из цифровые изображения создан в сентябре 2003 г. и составлен Фэй-Фэй Ли, Марко Андреетто, Марк Аурелио Ранзато и Пьетро Перона на Калифорнийский технологический институт. Он предназначен для облегчения Компьютерное зрение исследования и методы и наиболее применим к методам, включающим распознавание изображений классификация и категоризация. Caltech 101 содержит в общей сложности 9 146 изображений, разделенных на 101 отдельную категорию объектов (лица, часы, муравьи, пианино и т. д.) и фоновую категорию. К изображениям прилагается набор аннотации описывая очертания каждого изображения, вместе с Matlab сценарий для просмотра.

Цель

Большинство компьютерного зрения и Машинное обучение алгоритмы работают путем обучения на примерах входных данных. Для эффективной работы им требуется большой и разнообразный набор обучающих данных. Например, метод обнаружения лиц в реальном времени, используемый Полом Виолой и Майклом Дж. Джонсом, был обучен на 4916 лицах, помеченных вручную.[1]

Обрезка, изменение размера и ручная маркировка интересных мест утомительны и отнимают много времени.

Исторически сложилось так, что большинство наборов данных, используемых в исследованиях компьютерного зрения, были адаптированы к конкретным потребностям проекта, над которым ведется работа. Большая проблема в сравнении компьютерное зрение методы заключается в том, что большинство групп используют свои собственные наборы данных. Каждый набор может иметь разные свойства, что затрудняет прямое сравнение результатов, полученных разными методами. Например, различия в размере изображения, качестве изображения, относительном расположении объектов на изображениях и уровне присутствия преграды и беспорядка могут привести к различным результатам.[2]

Набор данных Caltech 101 призван облегчить многие из этих общих проблем.

  • Изображения будут обрезаны и изменен размер.
  • Представлено много категорий, что подходит как для алгоритмов распознавания одного, так и нескольких классов.
  • Обозначены подробные очертания объекта.
  • Доступный для общего использования, Caltech 101 действует как общий стандарт для сравнения различных алгоритмов без предвзятости из-за разных наборов данных.

Однако недавнее исследование [3] демонстрирует, что тесты, основанные на неконтролируемых естественных изображениях (таких как набор данных Caltech 101), могут серьезно вводить в заблуждение, потенциально направляя прогресс в неверном направлении.

Набор данных

Изображений

Набор данных Caltech 101 состоит из 9 146 изображений, разделенных на 101 категорию объектов, а также дополнительную категорию фона / помех.

Каждая категория объектов содержит от 40 до 800 изображений. Общие и популярные категории, такие как лица, как правило, содержат большее количество изображений, чем другие.

Каждое изображение имеет размер около 300x200 пикселей. Изображения ориентированных объектов, таких как самолеты и мотоциклы были зеркально отражены для выравнивания слева направо, а вертикально ориентированные конструкции, такие как здания, были повернуты смещением от оси.

Аннотации

К каждому изображению предоставляется набор аннотаций. Каждый набор аннотаций содержит две части информации: общий ограничивающий прямоугольник, в котором расположен объект, и подробный контур объекта, определяемый человеком.

Сценарий Matlab снабжен аннотациями. Он загружает изображение и соответствующий ему файл аннотации и отображает их как фигуру Matlab.

Использует

Набор данных Caltech 101 использовался для обучения и тестирования нескольких алгоритмов распознавания и классификации компьютерного зрения. Первая статья, в которой использовался Caltech 101, была дополнительным Байесовский подход к обучению одним выстрелом,[4] попытка классифицировать объект, используя только несколько примеров, основываясь на предварительных знаниях других классов.

Изображения Caltech 101, вместе с аннотациями, были использованы для еще одной краткой обучающей статьи в Caltech.[5]

Другие документы по компьютерному зрению, которые сообщают об использовании набора данных Caltech 101, включают:

  • Сопоставление форм и распознавание объектов с использованием соответствия с низким уровнем искажений. Александр С. Берг, Тамара Л. Берг, Джитендра Малик. CVPR 2005
  • Ядро соответствия пирамиды: дискриминационная классификация с наборами характеристик изображения. К. Грауман и Т. Даррелл. Международная конференция по компьютерному зрению (ICCV), 2005 г. [6]
  • Комбинирование генеративных моделей и ядер Фишера для распознавания классов объектов. Голуб, AD. Веллинг, М. Перона, П. Международная конференция по компьютерному зрению (ICCV), 2005 г. [7]
  • Распознавание объектов с помощью функций, вдохновленных Visual Cortex. Т. Серр, Л. Вольф и Т. Поджио. Материалы конференции IEEE Computer Society 2005 г. по компьютерному зрению и распознаванию образов (CVPR 2005), IEEE Computer Society Press, Сан-Диего, июнь 2005 г.[8]
  • SVM-KNN: Дискриминационная классификация ближайшего соседа для визуального распознавания категорий. Хао Чжан, Алекс Берг, Майкл Мэйр, Джитендра Малик. CVPR, 2006 г.[9]
  • За пределами набора функций: сопоставление пространственных пирамид для распознавания категорий природных сцен. Светлана Лазебник, Корделия Шмид и Жан Понсе. CVPR, 2006 г.[10]
  • Эмпирическое исследование многомасштабных банков фильтров для категоризации объектов. M.J. Mar -Jim ez и N. P ez de la Blanca. Декабрь 2005 г.[11]
  • Распознавание мультиклассовых объектов с редкими локализованными функциями. Джим Матч и Дэвид Г. Лоу., Стр. 11-18, CVPR 2006, IEEE Computer Society Press, Нью-Йорк, июнь 2006 г.[12]
  • Использование зависимых регионов или категоризации объектов в генеративной структуре. Г. Ван, Ю. Чжан, Л. Фей-Фэй. IEEE Comp. Vis. Патт. Recog. 2006 г.[13]

Анализ и сравнение

Преимущества

Caltech 101 имеет несколько преимуществ перед другими подобными наборами данных:

  • Единый размер и представление:
    • Почти все изображения в каждой категории имеют одинаковый размер и взаимное расположение интересующих объектов. Пользователям Caltech 101 обычно не нужно обрезать или масштабировать изображения перед их использованием.
  • Низкий уровень беспорядка / засорения:
    • Алгоритмы, связанные с распознаванием, обычно работают, сохраняя особенности, уникальные для объекта. Однако большинство сделанных изображений имеют различную степень загромождения фона, что означает, что алгоритмы могут строиться неправильно.
  • Подробные аннотации

Недостатки

Слабые стороны набора данных Caltech 101[3][14] могут быть сознательными компромиссами, но другие ограничения набора данных. Статьи, основанные исключительно на Caltech 101, часто отклоняются.

К недостаткам можно отнести:

  • Набор данных слишком чистый:
    • Изображения очень единообразны в представлении, выровнены слева направо и обычно не закрыты. В результате изображения не всегда представляют практические входные данные, которые алгоритм мог бы ожидать позже. В практических условиях изображения более загромождены, затемнены и демонстрируют большую разницу в относительном положении и ориентации интересующих объектов. Единообразие позволяет выводить концепции с использованием среднего значения категории, что нереально.
  • Ограниченное количество категорий:
    • Набор данных Caltech 101 представляет лишь небольшую часть возможных категорий объектов.
  • Некоторые категории содержат несколько изображений:
    • Некоторые категории представлены не так хорошо, как другие, содержащие всего 31 изображение.
    • Это означает, что . Количество изображений, используемых для обучения, должно быть меньше или равно 30, что недостаточно для всех целей.
  • Псевдонимы и артефакты из-за манипуляций:
    • Некоторые изображения были повернуты и масштабированы относительно своей исходной ориентации, и некоторые из них артефакты или же сглаживание.

Другие наборы данных

  • Калтех 256 - еще один набор данных изображения, созданный в 2007 году. Он является преемником Caltech 101. Он предназначен для устранения некоторых недостатков Caltech 101. В целом, это более сложный набор данных, чем Caltech 101, но он страдает от сопоставимых проблем. . Это включает в себя[3]
    • 30 607 изображений, охватывающих большее количество категорий
    • Минимальное количество изображений в категории увеличено до 80
    • Изображения не выровнены по левому краю
    • Больше вариаций в представлении изображений
  • LabelMe это открытый динамический набор данных, созданный в Лаборатория компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL). LabelMe использует другой подход к проблеме создания большого набора данных изображения, но с разными компромиссами.
    • 106 739 изображений, 41 724 аннотированных изображения и 203 363 помеченных объекта.
    • Пользователи могут добавлять изображения к набору данных путем загрузки, а также добавлять ярлыки или аннотации к существующим изображениям.
    • Благодаря своей открытой природе LabelMe имеет гораздо больше изображений, охватывающих гораздо более широкий диапазон, чем Caltech 101. Однако, поскольку каждый человек решает, какие изображения загружать, а также как пометить и аннотировать каждое изображение, изображения менее согласованы.
  • VOC 2008 - это европейский проект по сбору изображений для тестирования методов визуальной категоризации. По сравнению с Caltech 101/256 собрано меньшее количество категорий (около 20). Однако количество изображений в каждой категории больше.
  • Набор данных исследования накладных изображений (OIRDS) - аннотированная библиотека изображений и инструментов.[15] OIRDS v1.0 состоит из объектов легковых автомобилей, аннотированных на изображениях сверху. К легковым транспортным средствам в OIRDS относятся автомобили, грузовики, фургоны и т. Д. Помимо контуров объектов, OIRDS включает субъективную и объективную статистику, которая дает количественную оценку транспортного средства в контексте изображения. Например, субъективные показатели беспорядка изображения, четкости, шума и цвета транспортного средства включены вместе с более объективной статистикой, такой как расстояние до образца земли (GSD), время суток и день года.
    • ~ 900 изображений, содержащих ~ 1800 изображений с аннотациями
    • ~ 30 аннотаций на объект
    • ~ 60 статистических измерений на объект
    • Широкое разнообразие контекста объекта
    • Только легковые автомобили на изображениях сверху
  • MICC-Flickr 101 - это набор данных изображения, созданный в Media Integration and Communication Center (MICC), Университет Флоренции, в 2012 году. Он основан на Caltech 101 и собирается из Flickr. MICC-Flickr 101[16] исправляет главный недостаток Caltech 101, то есть его низкую межклассовую изменчивость и предоставляет социальные аннотации с помощью пользовательских тегов. Он основан на стандартном и широко используемом наборе данных, состоящем из управляемого количества категорий (101), и поэтому может использоваться для сравнения производительности категоризации объектов в ограниченном сценарии (Caltech 101) и категоризации объектов «в дикой природе» (MICC-Flickr 101) по той же 101 категории.

Смотрите также

Рекомендации

  1. ^ Виола, Поль; Джонс, Майкл Дж. (2004). «Надежное обнаружение лиц в реальном времени». Международный журнал компьютерного зрения. 57 (2): 137–154. Дои:10.1023 / B: VISI.0000013087.49260.fb. S2CID  2796017.
  2. ^ Эртель, Карстен; Холоднее, Брайан; Коломб, Джеффри; Высокий, Джулия; Инграм, Майкл; Салли, Фил (2008). «Актуальные проблемы автоматизации зрительного восприятия». 2008 37-й семинар IEEE по распознаванию образов прикладных изображений. С. 1–8. Дои:10.1109 / AIPR.2008.4906457. ISBN  978-1-4244-3125-0. S2CID  36669995.
  3. ^ а б c Пинто, Николас; Кокс, Дэвид Д.; Дикарло, Джеймс Дж. (2008). «Почему трудно распознавать визуальные объекты в реальном мире?». PLOS вычислительная биология. 4 (1): e27. Дои:10.1371 / journal.pcbi.0040027. ЧВК  2211529. PMID  18225950.
  4. ^ Л. Фей-Фей, Р. Фергус и П. Перона. Изучение генеративных визуальных моделей на нескольких обучающих примерах: пошаговый байесовский подход, протестированный на 101 категории объектов. IEEE. CVPR 2004, Семинар по видению на основе генеративных моделей. 2004 г.
  5. ^ "Л. Фей-Фей, Р. Фергус и П. Перона. Однократное обучение категорий объектов. IEEE Trans. Анализ шаблонов и машинный интеллект, Том 28 (4), 594 - 611, 2006" (PDF). Архивировано из оригинал (PDF) на 2007-06-09. Получено 2008-01-16.
  6. ^ Ядро соответствия пирамиды: дискриминационная классификация с наборами характеристик изображения. К. Грауман и Т. Даррелл. Международная конференция по компьютерному зрению (ICCV), 2005 г.
  7. ^ «Объединение генеративных моделей и ядер Фишера для распознавания классов объектов. Голуб, А. Д. Веллинг, М. Перона, П. Международная конференция по компьютерному зрению (ICCV), 2005». Архивировано из оригинал на 2007-08-14. Получено 2008-01-16.
  8. ^ Распознавание объектов с помощью функций, вдохновленных Visual Cortex. Т. Серр, Л. Вольф и Т. Поджио. Материалы конференции 2005 г. IEEE Computer Society по компьютерному зрению и распознаванию образов (CVPR 2005), IEEE Computer Society Press, Сан-Диего, июнь 2005 г.
  9. ^ SVM-KNN: Дискриминационная классификация ближайшего соседа для визуального распознавания категорий. Хао Чжан, Алекс Берг, Майкл Мэйр, Джитендра Малик. CVPR, 2006 г.
  10. ^ За пределами набора функций: сопоставление пространственных пирамид для распознавания категорий природных сцен. Светлана Лазебник, Корделия Шмид и Жан Понсе. CVPR, 2006 г.
  11. ^ Эмпирическое исследование многомасштабных банков фильтров для категоризации объектов, M.J. Mar -Jim ez и N. P ez de la Blanca. Декабрь 2005 г.
  12. ^ Распознавание мультиклассовых объектов с разреженными, локализованными элементами, Джим Матч и Дэвид Г. Лоу. , стр. 11-18, CVPR 2006, IEEE Computer Society Press, Нью-Йорк, июнь 2006 г.
  13. ^ «Использование зависимых регионов или категоризации объектов в генеративной структуре, Г. Ван, Я. Чжан и Л. Фей-Фей. IEEE Comp. Vis. Patt. Recog. 2006» (PDF). Архивировано из оригинал (PDF) на 2008-07-05. Получено 2008-01-16.
  14. ^ «Проблемы с набором данных в распознавании объектов. Дж. Понсе, Т.Л. Берг, М. Эверингем, Д.А. Форсайт, М. Хеберт, С. Лазебник, М. Маршалек, К. Шмид, BC Рассел, А. Торральба, CKI Williams, J. Zhang и А. Зиссерман. К распознаванию объектов на уровне категорий, Лекционные заметки Springer-Verlag по компьютерным наукам. Дж. Понсе, М. Хеберт, К. Шмид и А. Зиссерман (ред.), 2006 " (PDF). Архивировано из оригинал (PDF) на 2016-12-24. Получено 2008-02-08.
  15. ^ Ф. Таннер, Б. Колдер, К. Пуллен, Д. Хиги, К. Эртель и П. Салли, Набор данных исследования служебных изображений (OIRDS) - аннотированная библиотека данных и инструменты для помощи в разработке алгоритмов компьютерного зрения, Июнь 2009 г., <http://sourceforge.net/apps/mediawiki/oirds/index.php?title=Documentation В архиве 2012-11-09 в Wayback Machine > (28 декабря 2009 г.)
  16. ^ "Л. Баллан, М. Бертини, А. Дель Бимбо, А. М. Серен, Г. Серра, Б. Ф. Закконе. Комбинирование генеративных и дискриминирующих моделей для классификации социальных изображений из 101 категории объектов. Международная конференция по распознаванию образов (ICPR), 2012" (PDF). Архивировано из оригинал (PDF) на 2014-08-26. Получено 2012-07-11.

внешняя ссылка