Калифорнийский технологический институт 101 - Caltech 101
Калифорнийский технологический институт 101 это набор данных из цифровые изображения создан в сентябре 2003 г. и составлен Фэй-Фэй Ли, Марко Андреетто, Марк Аурелио Ранзато и Пьетро Перона на Калифорнийский технологический институт. Он предназначен для облегчения Компьютерное зрение исследования и методы и наиболее применим к методам, включающим распознавание изображений классификация и категоризация. Caltech 101 содержит в общей сложности 9 146 изображений, разделенных на 101 отдельную категорию объектов (лица, часы, муравьи, пианино и т. д.) и фоновую категорию. К изображениям прилагается набор аннотации описывая очертания каждого изображения, вместе с Matlab сценарий для просмотра.
Цель
Большинство компьютерного зрения и Машинное обучение алгоритмы работают путем обучения на примерах входных данных. Для эффективной работы им требуется большой и разнообразный набор обучающих данных. Например, метод обнаружения лиц в реальном времени, используемый Полом Виолой и Майклом Дж. Джонсом, был обучен на 4916 лицах, помеченных вручную.[1]
Обрезка, изменение размера и ручная маркировка интересных мест утомительны и отнимают много времени.
Исторически сложилось так, что большинство наборов данных, используемых в исследованиях компьютерного зрения, были адаптированы к конкретным потребностям проекта, над которым ведется работа. Большая проблема в сравнении компьютерное зрение методы заключается в том, что большинство групп используют свои собственные наборы данных. Каждый набор может иметь разные свойства, что затрудняет прямое сравнение результатов, полученных разными методами. Например, различия в размере изображения, качестве изображения, относительном расположении объектов на изображениях и уровне присутствия преграды и беспорядка могут привести к различным результатам.[2]
Набор данных Caltech 101 призван облегчить многие из этих общих проблем.
- Изображения будут обрезаны и изменен размер.
- Представлено много категорий, что подходит как для алгоритмов распознавания одного, так и нескольких классов.
- Обозначены подробные очертания объекта.
- Доступный для общего использования, Caltech 101 действует как общий стандарт для сравнения различных алгоритмов без предвзятости из-за разных наборов данных.
Однако недавнее исследование [3] демонстрирует, что тесты, основанные на неконтролируемых естественных изображениях (таких как набор данных Caltech 101), могут серьезно вводить в заблуждение, потенциально направляя прогресс в неверном направлении.
Набор данных
Изображений
Набор данных Caltech 101 состоит из 9 146 изображений, разделенных на 101 категорию объектов, а также дополнительную категорию фона / помех.
Каждая категория объектов содержит от 40 до 800 изображений. Общие и популярные категории, такие как лица, как правило, содержат большее количество изображений, чем другие.
Каждое изображение имеет размер около 300x200 пикселей. Изображения ориентированных объектов, таких как самолеты и мотоциклы были зеркально отражены для выравнивания слева направо, а вертикально ориентированные конструкции, такие как здания, были повернуты смещением от оси.
Аннотации
К каждому изображению предоставляется набор аннотаций. Каждый набор аннотаций содержит две части информации: общий ограничивающий прямоугольник, в котором расположен объект, и подробный контур объекта, определяемый человеком.
Сценарий Matlab снабжен аннотациями. Он загружает изображение и соответствующий ему файл аннотации и отображает их как фигуру Matlab.
Использует
Набор данных Caltech 101 использовался для обучения и тестирования нескольких алгоритмов распознавания и классификации компьютерного зрения. Первая статья, в которой использовался Caltech 101, была дополнительным Байесовский подход к обучению одним выстрелом,[4] попытка классифицировать объект, используя только несколько примеров, основываясь на предварительных знаниях других классов.
Изображения Caltech 101, вместе с аннотациями, были использованы для еще одной краткой обучающей статьи в Caltech.[5]
Другие документы по компьютерному зрению, которые сообщают об использовании набора данных Caltech 101, включают:
- Сопоставление форм и распознавание объектов с использованием соответствия с низким уровнем искажений. Александр С. Берг, Тамара Л. Берг, Джитендра Малик. CVPR 2005
- Ядро соответствия пирамиды: дискриминационная классификация с наборами характеристик изображения. К. Грауман и Т. Даррелл. Международная конференция по компьютерному зрению (ICCV), 2005 г. [6]
- Комбинирование генеративных моделей и ядер Фишера для распознавания классов объектов. Голуб, AD. Веллинг, М. Перона, П. Международная конференция по компьютерному зрению (ICCV), 2005 г. [7]
- Распознавание объектов с помощью функций, вдохновленных Visual Cortex. Т. Серр, Л. Вольф и Т. Поджио. Материалы конференции IEEE Computer Society 2005 г. по компьютерному зрению и распознаванию образов (CVPR 2005), IEEE Computer Society Press, Сан-Диего, июнь 2005 г.[8]
- SVM-KNN: Дискриминационная классификация ближайшего соседа для визуального распознавания категорий. Хао Чжан, Алекс Берг, Майкл Мэйр, Джитендра Малик. CVPR, 2006 г.[9]
- За пределами набора функций: сопоставление пространственных пирамид для распознавания категорий природных сцен. Светлана Лазебник, Корделия Шмид и Жан Понсе. CVPR, 2006 г.[10]
- Эмпирическое исследование многомасштабных банков фильтров для категоризации объектов. M.J. Mar -Jim ez и N. P ez de la Blanca. Декабрь 2005 г.[11]
- Распознавание мультиклассовых объектов с редкими локализованными функциями. Джим Матч и Дэвид Г. Лоу., Стр. 11-18, CVPR 2006, IEEE Computer Society Press, Нью-Йорк, июнь 2006 г.[12]
- Использование зависимых регионов или категоризации объектов в генеративной структуре. Г. Ван, Ю. Чжан, Л. Фей-Фэй. IEEE Comp. Vis. Патт. Recog. 2006 г.[13]
Анализ и сравнение
Преимущества
Caltech 101 имеет несколько преимуществ перед другими подобными наборами данных:
- Единый размер и представление:
- Почти все изображения в каждой категории имеют одинаковый размер и взаимное расположение интересующих объектов. Пользователям Caltech 101 обычно не нужно обрезать или масштабировать изображения перед их использованием.
- Низкий уровень беспорядка / засорения:
- Алгоритмы, связанные с распознаванием, обычно работают, сохраняя особенности, уникальные для объекта. Однако большинство сделанных изображений имеют различную степень загромождения фона, что означает, что алгоритмы могут строиться неправильно.
- Подробные аннотации
Недостатки
Слабые стороны набора данных Caltech 101[3][14] могут быть сознательными компромиссами, но другие ограничения набора данных. Статьи, основанные исключительно на Caltech 101, часто отклоняются.
К недостаткам можно отнести:
- Набор данных слишком чистый:
- Изображения очень единообразны в представлении, выровнены слева направо и обычно не закрыты. В результате изображения не всегда представляют практические входные данные, которые алгоритм мог бы ожидать позже. В практических условиях изображения более загромождены, затемнены и демонстрируют большую разницу в относительном положении и ориентации интересующих объектов. Единообразие позволяет выводить концепции с использованием среднего значения категории, что нереально.
- Ограниченное количество категорий:
- Набор данных Caltech 101 представляет лишь небольшую часть возможных категорий объектов.
- Некоторые категории содержат несколько изображений:
- Некоторые категории представлены не так хорошо, как другие, содержащие всего 31 изображение.
- Это означает, что . Количество изображений, используемых для обучения, должно быть меньше или равно 30, что недостаточно для всех целей.
- Псевдонимы и артефакты из-за манипуляций:
- Некоторые изображения были повернуты и масштабированы относительно своей исходной ориентации, и некоторые из них артефакты или же сглаживание.
Другие наборы данных
- Калтех 256 - еще один набор данных изображения, созданный в 2007 году. Он является преемником Caltech 101. Он предназначен для устранения некоторых недостатков Caltech 101. В целом, это более сложный набор данных, чем Caltech 101, но он страдает от сопоставимых проблем. . Это включает в себя[3]
- 30 607 изображений, охватывающих большее количество категорий
- Минимальное количество изображений в категории увеличено до 80
- Изображения не выровнены по левому краю
- Больше вариаций в представлении изображений
- LabelMe это открытый динамический набор данных, созданный в Лаборатория компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL). LabelMe использует другой подход к проблеме создания большого набора данных изображения, но с разными компромиссами.
- 106 739 изображений, 41 724 аннотированных изображения и 203 363 помеченных объекта.
- Пользователи могут добавлять изображения к набору данных путем загрузки, а также добавлять ярлыки или аннотации к существующим изображениям.
- Благодаря своей открытой природе LabelMe имеет гораздо больше изображений, охватывающих гораздо более широкий диапазон, чем Caltech 101. Однако, поскольку каждый человек решает, какие изображения загружать, а также как пометить и аннотировать каждое изображение, изображения менее согласованы.
- VOC 2008 - это европейский проект по сбору изображений для тестирования методов визуальной категоризации. По сравнению с Caltech 101/256 собрано меньшее количество категорий (около 20). Однако количество изображений в каждой категории больше.
- Набор данных исследования накладных изображений (OIRDS) - аннотированная библиотека изображений и инструментов.[15] OIRDS v1.0 состоит из объектов легковых автомобилей, аннотированных на изображениях сверху. К легковым транспортным средствам в OIRDS относятся автомобили, грузовики, фургоны и т. Д. Помимо контуров объектов, OIRDS включает субъективную и объективную статистику, которая дает количественную оценку транспортного средства в контексте изображения. Например, субъективные показатели беспорядка изображения, четкости, шума и цвета транспортного средства включены вместе с более объективной статистикой, такой как расстояние до образца земли (GSD), время суток и день года.
- ~ 900 изображений, содержащих ~ 1800 изображений с аннотациями
- ~ 30 аннотаций на объект
- ~ 60 статистических измерений на объект
- Широкое разнообразие контекста объекта
- Только легковые автомобили на изображениях сверху
- MICC-Flickr 101 - это набор данных изображения, созданный в Media Integration and Communication Center (MICC), Университет Флоренции, в 2012 году. Он основан на Caltech 101 и собирается из Flickr. MICC-Flickr 101[16] исправляет главный недостаток Caltech 101, то есть его низкую межклассовую изменчивость и предоставляет социальные аннотации с помощью пользовательских тегов. Он основан на стандартном и широко используемом наборе данных, состоящем из управляемого количества категорий (101), и поэтому может использоваться для сравнения производительности категоризации объектов в ограниченном сценарии (Caltech 101) и категоризации объектов «в дикой природе» (MICC-Flickr 101) по той же 101 категории.
Смотрите также
Рекомендации
- ^ Виола, Поль; Джонс, Майкл Дж. (2004). «Надежное обнаружение лиц в реальном времени». Международный журнал компьютерного зрения. 57 (2): 137–154. Дои:10.1023 / B: VISI.0000013087.49260.fb. S2CID 2796017.
- ^ Эртель, Карстен; Холоднее, Брайан; Коломб, Джеффри; Высокий, Джулия; Инграм, Майкл; Салли, Фил (2008). «Актуальные проблемы автоматизации зрительного восприятия». 2008 37-й семинар IEEE по распознаванию образов прикладных изображений. С. 1–8. Дои:10.1109 / AIPR.2008.4906457. ISBN 978-1-4244-3125-0. S2CID 36669995.
- ^ а б c Пинто, Николас; Кокс, Дэвид Д.; Дикарло, Джеймс Дж. (2008). «Почему трудно распознавать визуальные объекты в реальном мире?». PLOS вычислительная биология. 4 (1): e27. Дои:10.1371 / journal.pcbi.0040027. ЧВК 2211529. PMID 18225950.
- ^ Л. Фей-Фей, Р. Фергус и П. Перона. Изучение генеративных визуальных моделей на нескольких обучающих примерах: пошаговый байесовский подход, протестированный на 101 категории объектов. IEEE. CVPR 2004, Семинар по видению на основе генеративных моделей. 2004 г.
- ^ "Л. Фей-Фей, Р. Фергус и П. Перона. Однократное обучение категорий объектов. IEEE Trans. Анализ шаблонов и машинный интеллект, Том 28 (4), 594 - 611, 2006" (PDF). Архивировано из оригинал (PDF) на 2007-06-09. Получено 2008-01-16.
- ^ Ядро соответствия пирамиды: дискриминационная классификация с наборами характеристик изображения. К. Грауман и Т. Даррелл. Международная конференция по компьютерному зрению (ICCV), 2005 г.
- ^ «Объединение генеративных моделей и ядер Фишера для распознавания классов объектов. Голуб, А. Д. Веллинг, М. Перона, П. Международная конференция по компьютерному зрению (ICCV), 2005». Архивировано из оригинал на 2007-08-14. Получено 2008-01-16.
- ^ Распознавание объектов с помощью функций, вдохновленных Visual Cortex. Т. Серр, Л. Вольф и Т. Поджио. Материалы конференции 2005 г. IEEE Computer Society по компьютерному зрению и распознаванию образов (CVPR 2005), IEEE Computer Society Press, Сан-Диего, июнь 2005 г.
- ^ SVM-KNN: Дискриминационная классификация ближайшего соседа для визуального распознавания категорий. Хао Чжан, Алекс Берг, Майкл Мэйр, Джитендра Малик. CVPR, 2006 г.
- ^ За пределами набора функций: сопоставление пространственных пирамид для распознавания категорий природных сцен. Светлана Лазебник, Корделия Шмид и Жан Понсе. CVPR, 2006 г.
- ^ Эмпирическое исследование многомасштабных банков фильтров для категоризации объектов, M.J. Mar -Jim ez и N. P ez de la Blanca. Декабрь 2005 г.
- ^ Распознавание мультиклассовых объектов с разреженными, локализованными элементами, Джим Матч и Дэвид Г. Лоу. , стр. 11-18, CVPR 2006, IEEE Computer Society Press, Нью-Йорк, июнь 2006 г.
- ^ «Использование зависимых регионов или категоризации объектов в генеративной структуре, Г. Ван, Я. Чжан и Л. Фей-Фей. IEEE Comp. Vis. Patt. Recog. 2006» (PDF). Архивировано из оригинал (PDF) на 2008-07-05. Получено 2008-01-16.
- ^ «Проблемы с набором данных в распознавании объектов. Дж. Понсе, Т.Л. Берг, М. Эверингем, Д.А. Форсайт, М. Хеберт, С. Лазебник, М. Маршалек, К. Шмид, BC Рассел, А. Торральба, CKI Williams, J. Zhang и А. Зиссерман. К распознаванию объектов на уровне категорий, Лекционные заметки Springer-Verlag по компьютерным наукам. Дж. Понсе, М. Хеберт, К. Шмид и А. Зиссерман (ред.), 2006 " (PDF). Архивировано из оригинал (PDF) на 2016-12-24. Получено 2008-02-08.
- ^ Ф. Таннер, Б. Колдер, К. Пуллен, Д. Хиги, К. Эртель и П. Салли, Набор данных исследования служебных изображений (OIRDS) - аннотированная библиотека данных и инструменты для помощи в разработке алгоритмов компьютерного зрения, Июнь 2009 г., <http://sourceforge.net/apps/mediawiki/oirds/index.php?title=Documentation В архиве 2012-11-09 в Wayback Machine > (28 декабря 2009 г.)
- ^ "Л. Баллан, М. Бертини, А. Дель Бимбо, А. М. Серен, Г. Серра, Б. Ф. Закконе. Комбинирование генеративных и дискриминирующих моделей для классификации социальных изображений из 101 категории объектов. Международная конференция по распознаванию образов (ICPR), 2012" (PDF). Архивировано из оригинал (PDF) на 2014-08-26. Получено 2012-07-11.
внешняя ссылка
- http://www.vision.caltech.edu/Image_Datasets/Caltech101/ -Главная страница Caltech 101 (включая загрузку)
- http://www.vision.caltech.edu/Image_Datasets/Caltech256/ -Caltech 256 Домашняя страница (включая загрузку)
- http://labelme.csail.mit.edu/ -LabelMe Домашняя страница
- http://www2.it.lut.fi/project/visiq/ -Рандомизированная страница загрузки Caltech 101 (включая загрузку)
- http://www.micc.unifi.it/vim/datasets/micc-flickr-101/ -MICC-Flickr101 Домашняя страница (включая загрузку)