Калифорнийский технологический институт 101 - Caltech 101

Калифорнийский технологический институт 101 это набор данных из цифровые изображения создан в сентябре 2003 г. и составлен Фэй-Фэй Ли, Марко Андреетто, Марк Аурелио Ранзато и Пьетро Перона на Калифорнийский технологический институт. Он предназначен для облегчения Компьютерное зрение исследования и методы и наиболее применим к методам, включающим распознавание изображений классификация и категоризация. Caltech 101 содержит в общей сложности 9 146 изображений, разделенных на 101 отдельную категорию объектов (лица, часы, муравьи, пианино и т. д.) и фоновую категорию. К изображениям прилагается набор аннотации описывая очертания каждого изображения, вместе с Matlab сценарий для просмотра.

Цель

Большинство компьютерного зрения и Машинное обучение алгоритмы работают путем обучения на примерах входных данных. Для эффективной работы им требуется большой и разнообразный набор обучающих данных. Например, метод обнаружения лиц в реальном времени, используемый Полом Виолой и Майклом Дж. Джонсом, был обучен на 4916 лицах, помеченных вручную.^[1]

Обрезка, изменение размера и ручная маркировка интересных мест утомительны и отнимают много времени.

Исторически сложилось так, что большинство наборов данных, используемых в исследованиях компьютерного зрения, были адаптированы к конкретным потребностям проекта, над которым ведется работа. Большая проблема в сравнении компьютерное зрение методы заключается в том, что большинство групп используют свои собственные наборы данных. Каждый набор может иметь разные свойства, что затрудняет прямое сравнение результатов, полученных разными методами. Например, различия в размере изображения, качестве изображения, относительном расположении объектов на изображениях и уровне присутствия преграды и беспорядка могут привести к различным результатам.^[2]

Набор данных Caltech 101 призван облегчить многие из этих общих проблем.

Изображения будут обрезаны и изменен размер.
Представлено много категорий, что подходит как для алгоритмов распознавания одного, так и нескольких классов.
Обозначены подробные очертания объекта.
Доступный для общего использования, Caltech 101 действует как общий стандарт для сравнения различных алгоритмов без предвзятости из-за разных наборов данных.

Однако недавнее исследование ^[3] демонстрирует, что тесты, основанные на неконтролируемых естественных изображениях (таких как набор данных Caltech 101), могут серьезно вводить в заблуждение, потенциально направляя прогресс в неверном направлении.

Набор данных

Изображений

Набор данных Caltech 101 состоит из 9 146 изображений, разделенных на 101 категорию объектов, а также дополнительную категорию фона / помех.

Каждая категория объектов содержит от 40 до 800 изображений. Общие и популярные категории, такие как лица, как правило, содержат большее количество изображений, чем другие.

Каждое изображение имеет размер около 300x200 пикселей. Изображения ориентированных объектов, таких как самолеты и мотоциклы были зеркально отражены для выравнивания слева направо, а вертикально ориентированные конструкции, такие как здания, были повернуты смещением от оси.

Аннотации

К каждому изображению предоставляется набор аннотаций. Каждый набор аннотаций содержит две части информации: общий ограничивающий прямоугольник, в котором расположен объект, и подробный контур объекта, определяемый человеком.

Сценарий Matlab снабжен аннотациями. Он загружает изображение и соответствующий ему файл аннотации и отображает их как фигуру Matlab.

Использует

Набор данных Caltech 101 использовался для обучения и тестирования нескольких алгоритмов распознавания и классификации компьютерного зрения. Первая статья, в которой использовался Caltech 101, была дополнительным Байесовский подход к обучению одним выстрелом,^[4] попытка классифицировать объект, используя только несколько примеров, основываясь на предварительных знаниях других классов.

Изображения Caltech 101, вместе с аннотациями, были использованы для еще одной краткой обучающей статьи в Caltech.^[5]

Другие документы по компьютерному зрению, которые сообщают об использовании набора данных Caltech 101, включают:

Сопоставление форм и распознавание объектов с использованием соответствия с низким уровнем искажений. Александр С. Берг, Тамара Л. Берг, Джитендра Малик. CVPR 2005
Ядро соответствия пирамиды: дискриминационная классификация с наборами характеристик изображения. К. Грауман и Т. Даррелл. Международная конференция по компьютерному зрению (ICCV), 2005 г. ^[6]
Комбинирование генеративных моделей и ядер Фишера для распознавания классов объектов. Голуб, AD. Веллинг, М. Перона, П. Международная конференция по компьютерному зрению (ICCV), 2005 г. ^[7]
Распознавание объектов с помощью функций, вдохновленных Visual Cortex. Т. Серр, Л. Вольф и Т. Поджио. Материалы конференции IEEE Computer Society 2005 г. по компьютерному зрению и распознаванию образов (CVPR 2005), IEEE Computer Society Press, Сан-Диего, июнь 2005 г.^[8]
SVM-KNN: Дискриминационная классификация ближайшего соседа для визуального распознавания категорий. Хао Чжан, Алекс Берг, Майкл Мэйр, Джитендра Малик. CVPR, 2006 г.^[9]
За пределами набора функций: сопоставление пространственных пирамид для распознавания категорий природных сцен. Светлана Лазебник, Корделия Шмид и Жан Понсе. CVPR, 2006 г.^[10]
Эмпирическое исследование многомасштабных банков фильтров для категоризации объектов. M.J. Mar -Jim ez и N. P ez de la Blanca. Декабрь 2005 г.^[11]
Распознавание мультиклассовых объектов с редкими локализованными функциями. Джим Матч и Дэвид Г. Лоу., Стр. 11-18, CVPR 2006, IEEE Computer Society Press, Нью-Йорк, июнь 2006 г.^[12]
Использование зависимых регионов или категоризации объектов в генеративной структуре. Г. Ван, Ю. Чжан, Л. Фей-Фэй. IEEE Comp. Vis. Патт. Recog. 2006 г.^[13]

Анализ и сравнение

Преимущества

Caltech 101 имеет несколько преимуществ перед другими подобными наборами данных:

Единый размер и представление:
- Почти все изображения в каждой категории имеют одинаковый размер и взаимное расположение интересующих объектов. Пользователям Caltech 101 обычно не нужно обрезать или масштабировать изображения перед их использованием.
Низкий уровень беспорядка / засорения:
- Алгоритмы, связанные с распознаванием, обычно работают, сохраняя особенности, уникальные для объекта. Однако большинство сделанных изображений имеют различную степень загромождения фона, что означает, что алгоритмы могут строиться неправильно.
Подробные аннотации

Недостатки

Слабые стороны набора данных Caltech 101^[3]^[14] могут быть сознательными компромиссами, но другие ограничения набора данных. Статьи, основанные исключительно на Caltech 101, часто отклоняются.

К недостаткам можно отнести:

Набор данных слишком чистый:
- Изображения очень единообразны в представлении, выровнены слева направо и обычно не закрыты. В результате изображения не всегда представляют практические входные данные, которые алгоритм мог бы ожидать позже. В практических условиях изображения более загромождены, затемнены и демонстрируют большую разницу в относительном положении и ориентации интересующих объектов. Единообразие позволяет выводить концепции с использованием среднего значения категории, что нереально.
Ограниченное количество категорий:
- Набор данных Caltech 101 представляет лишь небольшую часть возможных категорий объектов.
Некоторые категории содержат несколько изображений:
- Некоторые категории представлены не так хорошо, как другие, содержащие всего 31 изображение.
- Это означает, что ${ displaystyle mathrm {N} _ { mathrm {train}} leq 30}$ . Количество изображений, используемых для обучения, должно быть меньше или равно 30, что недостаточно для всех целей.
Псевдонимы и артефакты из-за манипуляций:
- Некоторые изображения были повернуты и масштабированы относительно своей исходной ориентации, и некоторые из них артефакты или же сглаживание.

Другие наборы данных

Калтех 256 - еще один набор данных изображения, созданный в 2007 году. Он является преемником Caltech 101. Он предназначен для устранения некоторых недостатков Caltech 101. В целом, это более сложный набор данных, чем Caltech 101, но он страдает от сопоставимых проблем. . Это включает в себя^[3]
- 30 607 изображений, охватывающих большее количество категорий
- Минимальное количество изображений в категории увеличено до 80
- Изображения не выровнены по левому краю
- Больше вариаций в представлении изображений
LabelMe это открытый динамический набор данных, созданный в Лаборатория компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL). LabelMe использует другой подход к проблеме создания большого набора данных изображения, но с разными компромиссами.
- 106 739 изображений, 41 724 аннотированных изображения и 203 363 помеченных объекта.
- Пользователи могут добавлять изображения к набору данных путем загрузки, а также добавлять ярлыки или аннотации к существующим изображениям.
- Благодаря своей открытой природе LabelMe имеет гораздо больше изображений, охватывающих гораздо более широкий диапазон, чем Caltech 101. Однако, поскольку каждый человек решает, какие изображения загружать, а также как пометить и аннотировать каждое изображение, изображения менее согласованы.
VOC 2008 - это европейский проект по сбору изображений для тестирования методов визуальной категоризации. По сравнению с Caltech 101/256 собрано меньшее количество категорий (около 20). Однако количество изображений в каждой категории больше.
Набор данных исследования накладных изображений (OIRDS) - аннотированная библиотека изображений и инструментов.^[15] OIRDS v1.0 состоит из объектов легковых автомобилей, аннотированных на изображениях сверху. К легковым транспортным средствам в OIRDS относятся автомобили, грузовики, фургоны и т. Д. Помимо контуров объектов, OIRDS включает субъективную и объективную статистику, которая дает количественную оценку транспортного средства в контексте изображения. Например, субъективные показатели беспорядка изображения, четкости, шума и цвета транспортного средства включены вместе с более объективной статистикой, такой как расстояние до образца земли (GSD), время суток и день года.
- ~ 900 изображений, содержащих ~ 1800 изображений с аннотациями
- ~ 30 аннотаций на объект
- ~ 60 статистических измерений на объект
- Широкое разнообразие контекста объекта
- Только легковые автомобили на изображениях сверху
MICC-Flickr 101 - это набор данных изображения, созданный в Media Integration and Communication Center (MICC), Университет Флоренции, в 2012 году. Он основан на Caltech 101 и собирается из Flickr. MICC-Flickr 101^[16] исправляет главный недостаток Caltech 101, то есть его низкую межклассовую изменчивость и предоставляет социальные аннотации с помощью пользовательских тегов. Он основан на стандартном и широко используемом наборе данных, состоящем из управляемого количества категорий (101), и поэтому может использоваться для сравнения производительности категоризации объектов в ограниченном сценарии (Caltech 101) и категоризации объектов «в дикой природе» (MICC-Flickr 101) по той же 101 категории.

Смотрите также

внешняя ссылка

http://www.vision.caltech.edu/Image_Datasets/Caltech101/ -Главная страница Caltech 101 (включая загрузку)
http://www.vision.caltech.edu/Image_Datasets/Caltech256/ -Caltech 256 Домашняя страница (включая загрузку)
http://labelme.csail.mit.edu/ -LabelMe Домашняя страница
http://www2.it.lut.fi/project/visiq/ -Рандомизированная страница загрузки Caltech 101 (включая загрузку)
http://www.micc.unifi.it/vim/datasets/micc-flickr-101/ -MICC-Flickr101 Домашняя страница (включая загрузку)

[Viola_Jones-1] Виола, Поль; Джонс, Майкл Дж. (2004). «Надежное обнаружение лиц в реальном времени». Международный журнал компьютерного зрения. 57 (2): 137–154. Дои:10.1023 / B: VISI.0000013087.49260.fb. S2CID 2796017.

[oertel-2] Эртель, Карстен; Холоднее, Брайан; Коломб, Джеффри; Высокий, Джулия; Инграм, Майкл; Салли, Фил (2008). «Актуальные проблемы автоматизации зрительного восприятия». 2008 37-й семинар IEEE по распознаванию образов прикладных изображений. С. 1–8. Дои:10.1109 / AIPR.2008.4906457. ISBN 978-1-4244-3125-0. S2CID 36669995.

[pinto_et_al_2008-3] а ^б ^c Пинто, Николас; Кокс, Дэвид Д.; Дикарло, Джеймс Дж. (2008). «Почему трудно распознавать визуальные объекты в реальном мире?». PLOS вычислительная биология. 4 (1): e27. Дои:10.1371 / journal.pcbi.0040027. ЧВК 2211529. PMID 18225950.

[OneShot-4] Л. Фей-Фей, Р. Фергус и П. Перона. Изучение генеративных визуальных моделей на нескольких обучающих примерах: пошаговый байесовский подход, протестированный на 101 категории объектов. IEEE. CVPR 2004, Семинар по видению на основе генеративных моделей. 2004 г.

[OneShot2-5] "Л. Фей-Фей, Р. Фергус и П. Перона. Однократное обучение категорий объектов. IEEE Trans. Анализ шаблонов и машинный интеллект, Том 28 (4), 594 - 611, 2006" (PDF). Архивировано из оригинал (PDF) на 2007-06-09. Получено 2008-01-16.

[6] Ядро соответствия пирамиды: дискриминационная классификация с наборами характеристик изображения. К. Грауман и Т. Даррелл. Международная конференция по компьютерному зрению (ICCV), 2005 г.

[7] «Объединение генеративных моделей и ядер Фишера для распознавания классов объектов. Голуб, А. Д. Веллинг, М. Перона, П. Международная конференция по компьютерному зрению (ICCV), 2005». Архивировано из оригинал на 2007-08-14. Получено 2008-01-16.

[8] Распознавание объектов с помощью функций, вдохновленных Visual Cortex. Т. Серр, Л. Вольф и Т. Поджио. Материалы конференции 2005 г. IEEE Computer Society по компьютерному зрению и распознаванию образов (CVPR 2005), IEEE Computer Society Press, Сан-Диего, июнь 2005 г.

[9] SVM-KNN: Дискриминационная классификация ближайшего соседа для визуального распознавания категорий. Хао Чжан, Алекс Берг, Майкл Мэйр, Джитендра Малик. CVPR, 2006 г.

[10] За пределами набора функций: сопоставление пространственных пирамид для распознавания категорий природных сцен. Светлана Лазебник, Корделия Шмид и Жан Понсе. CVPR, 2006 г.

[11] Эмпирическое исследование многомасштабных банков фильтров для категоризации объектов, M.J. Mar -Jim ez и N. P ez de la Blanca. Декабрь 2005 г.

[12] Распознавание мультиклассовых объектов с разреженными, локализованными элементами, Джим Матч и Дэвид Г. Лоу. , стр. 11-18, CVPR 2006, IEEE Computer Society Press, Нью-Йорк, июнь 2006 г.

[13] «Использование зависимых регионов или категоризации объектов в генеративной структуре, Г. Ван, Я. Чжан и Л. Фей-Фей. IEEE Comp. Vis. Patt. Recog. 2006» (PDF). Архивировано из оригинал (PDF) на 2008-07-05. Получено 2008-01-16.

[14] «Проблемы с набором данных в распознавании объектов. Дж. Понсе, Т.Л. Берг, М. Эверингем, Д.А. Форсайт, М. Хеберт, С. Лазебник, М. Маршалек, К. Шмид, BC Рассел, А. Торральба, CKI Williams, J. Zhang и А. Зиссерман. К распознаванию объектов на уровне категорий, Лекционные заметки Springer-Verlag по компьютерным наукам. Дж. Понсе, М. Хеберт, К. Шмид и А. Зиссерман (ред.), 2006 " (PDF). Архивировано из оригинал (PDF) на 2016-12-24. Получено 2008-02-08.

[OIRDSVehicles-15] Ф. Таннер, Б. Колдер, К. Пуллен, Д. Хиги, К. Эртель и П. Салли, Набор данных исследования служебных изображений (OIRDS) - аннотированная библиотека данных и инструменты для помощи в разработке алгоритмов компьютерного зрения, Июнь 2009 г., <http://sourceforge.net/apps/mediawiki/oirds/index.php?title=Documentation В архиве 2012-11-09 в Wayback Machine > (28 декабря 2009 г.)

[ballan_et_al_2012-16] "Л. Баллан, М. Бертини, А. Дель Бимбо, А. М. Серен, Г. Серра, Б. Ф. Закконе. Комбинирование генеративных и дискриминирующих моделей для классификации социальных изображений из 101 категории объектов. Международная конференция по распознаванию образов (ICPR), 2012" (PDF). Архивировано из оригинал (PDF) на 2014-08-26. Получено 2012-07-11.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]