ImageNet - ImageNet

В ImageNet проект большой визуальный база данных предназначен для использования в ПО для распознавания визуальных объектов исследование. Более 14 миллионов[1][2] изображения были вручную аннотированы проектом, чтобы указать, какие объекты изображены, и, по крайней мере, в одном миллионе изображений также предусмотрены ограничивающие рамки.[3] ImageNet содержит более 20 000 категорий[2] с типичной категорией, такой как «воздушный шар» или «клубника», состоящей из нескольких сотен изображений.[4] База аннотаций сторонних изображений URL-адреса свободно доступен прямо из ImageNet, хотя фактические изображения не принадлежат ImageNet.[5] С 2010 года в рамках проекта ImageNet проводится ежегодный конкурс программного обеспечения ImageNet Large Scale Visual Recognition Challenge (ILSVRC ), где программы соревнуются в правильной классификации и обнаружении объектов и сцен. Задача использует «обрезанный» список из тысячи неперекрывающихся классов.[6]

Значение для глубокого обучения

30 сентября 2012 г. сверточная нейронная сеть (CNN) позвонил AlexNet[7] достигла ошибки в первой пятерке в 15,3% в конкурсе ImageNet 2012 Challenge, что более чем на 10,8 процентных пункта ниже, чем у занявшего второе место. Это стало возможным благодаря использованию графические процессоры (GPU) во время обучения,[7] важный ингредиент глубокое обучение революция. В соответствии с Экономист «Внезапно люди начали обращать на это внимание не только в сообществе ИИ, но и во всей технологической отрасли в целом».[4][8][9]

В 2015 году AlexNet уступил очень глубокому CNN Microsoft с более чем 100 слоями, который выиграл конкурс ImageNet 2015.[10]

История базы данных

Исследователь ИИ Фэй-Фэй Ли начал работу над идеей ImageNet в 2006 году. В то время, когда большинство исследований ИИ было сосредоточено на моделях и алгоритмах, Ли хотел расширить и улучшить данные, доступные для обучения алгоритмов ИИ.[11] В 2007 году Ли встретился с профессором Принстона. Кристиан Феллбаум, один из создателей WordNet обсудить проект. В результате этой встречи Ли продолжил создание ImageNet, начав с базы данных WordNet и используя многие из ее функций.[12]

В качестве доцента в Принстоне Ли собрал команду исследователей для работы над проектом ImageNet. Они использовали Amazon Mechanical Turk чтобы помочь с классификацией изображений.[12]

Они впервые представили свою базу данных в качестве плаката на выставке 2009 г. Конференция по компьютерному зрению и распознаванию образов (CVPR) во Флориде.[12][13][14]

Набор данных

ImageNet краудсорс его процесс аннотации. Аннотации на уровне изображения указывают на наличие или отсутствие класса объекта на изображении, например, «на этом изображении есть тигры» или «на этом изображении нет тигров». Аннотации на уровне объекта представляют собой ограничивающую рамку вокруг (видимой части) указанного объекта. ImageNet использует вариант широкого WordNet схема для категоризации объектов, дополненная 120 категориями собачьи породы для демонстрации детальной классификации.[6] Одним из недостатков использования WordNet является то, что категории могут быть более «повышенными», чем было бы оптимально для ImageNet: «Большинство людей больше интересуются Леди Гага или iPod Mini, чем этим редким видом диплодок."[требуется разъяснение ] В 2012 году ImageNet был крупнейшим в мире академическим пользователем Механический турок. В среднем рабочий распознал 50 изображений в минуту.[2]

История конкурса ImageNet

История ошибок в ImageNet (показывает лучший результат на команду и до 10 записей в год)

Цель ILSVRC - «пойти по стопам» более мелкой задачи PASCAL VOC, созданной в 2005 году, которая содержала всего около 20 000 изображений и двадцать классов объектов.[6] Чтобы «демократизировать» ImageNet, Фей-Фей Ли предложил команде PASCAL VOC сотрудничество, начиная с 2010 года, в котором исследовательские группы будут оценивать свои алгоритмы на заданном наборе данных и соревноваться за достижение более высокой точности в нескольких задачах визуального распознавания.[12]

Итоговый ежегодный конкурс теперь известен как ImageNet Large Scale Visual Recognition Challenge (ILSVRC). ILSVRC использует «обрезанный» список только из 1000 категорий или «классов» изображений, включая 90 из 120 пород собак, классифицированных по полной схеме ImageNet.[6] В 2010-х годах произошел значительный прогресс в обработке изображений. Примерно в 2011 году частота ошибок первой пятерки по классификации ILSVRC составляла 25%. В 2012 г. сверточная нейронная сеть называется AlexNet достиг 16%; в следующие пару лет количество ошибок в топ-5 упало до нескольких процентов.[15] В то время как прорыв 2012 года «объединил элементы, которые были там раньше», резкое количественное улучшение ознаменовало начало промышленного бума в области искусственного интеллекта.[4] К 2015 году исследователи Microsoft сообщили, что их CNN превзошли человеческие возможности в узких задачах ILSVRC.[10][16] Однако, как один из организаторов конкурса, Ольга Русаковская Как отмечалось в 2015 году, программы должны идентифицировать изображения только как принадлежащие к одной из тысячи категорий; люди могут распознавать большее количество категорий, а также (в отличие от программ) могут судить о контексте изображения.[17]

К 2014 году в ILSVRC приняли участие более пятидесяти организаций.[6] В 2015 г. Baidu Ученые были заблокированы на год за использование разных учетных записей, значительно превышающее установленный лимит - два представления в неделю.[18][19] Позже Baidu заявила, что уволила руководителя группы и создала научную консультативную группу.[20]

В 2017 году 29 из 38 соревнующихся команд имели точность более 95%.[21] В 2017 году ImageNet заявила, что в 2018 году развернет новую, гораздо более сложную задачу, связанную с классификацией 3D-объектов с использованием естественного языка. Поскольку создание 3D-данных обходится дороже, чем аннотирование уже существующего 2D-изображения, ожидается, что набор данных будет меньше. Применение прогресса в этой области будет варьироваться от роботизированной навигации до дополненная реальность.[1]

Смещение в ImageNet

Изучение истории нескольких слоев (таксономия, классы объектов и маркировка) ImageNet и WordNet в 2019 описали, как предвзятость глубоко встроен в большинство подходов к классификации всех видов изображений.[22][23][24][25] ImageNet работает над устранением различных источников предвзятости.[26]

Смотрите также

Рекомендации

  1. ^ а б «Новая задача компьютерного зрения хочет научить роботов видеть в 3D». Новый ученый. 7 апреля 2017 г.. Получено 3 февраля 2018.
  2. ^ а б c Марков, Джон (19 ноября 2012 г.). «Для веб-изображений, создание новых технологий поиска и поиска». Нью-Йорк Таймс. Получено 3 февраля 2018.
  3. ^ «Сводка и статистика ImageNet». ImageNet. Получено 22 июн 2016.
  4. ^ а б c «От неработающего к нейросетям». Экономист. 25 июня 2016 г.. Получено 3 февраля 2018.
  5. ^ «Обзор ImageNet». ImageNet. Получено 22 июн 2016.
  6. ^ а б c d е Ольга Русаковская *, Цзя Дэн *, Хао Су, Джонатан Краузе, Санджив Сатиш, Шон Ма, Чжихэн Хуанг, Андрей Карпаты, Адитья Хосла, Майкл Бернштейн, Александр С. Берг и Ли Фей-Фей. (* = равный вклад) ImageNet Large Scale Visual Recognition Challenge. IJCV, 2015.
  7. ^ а б Крижевский, Алексей; Суцкевер Илья; Хинтон, Джеффри Э. (июнь 2017 г.). «Классификация ImageNet с глубокими сверточными нейронными сетями» (PDF). Коммуникации ACM. 60 (6): 84–90. Дои:10.1145/3065386. ISSN  0001-0782. S2CID  195908774. Получено 24 мая 2017.
  8. ^ «Машины побеждают людей при выполнении все большего количества задач». Financial Times. 30 ноября 2017 г.. Получено 3 февраля 2018.
  9. ^ Гершгорн, Дэйв; Гершгорн, Дэйв. «Внутренняя история того, как ИИ стал достаточно хорош, чтобы доминировать в Кремниевой долине». Кварцевый. Получено 10 декабря 2018.
  10. ^ а б Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2016). «Глубокое остаточное обучение для распознавания изображений». Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR) 2016 г.: 770–778. arXiv:1512.03385. Дои:10.1109 / CVPR.2016.90. ISBN  978-1-4673-8851-1. S2CID  206594692.
  11. ^ Хемпель, Джесси (13 ноября 2018 г.). «Стремление Фэй-Фэй Ли сделать ИИ лучше для человечества». Проводной. Получено 5 мая 2019. Когда Ли, которая вернулась в Принстон, чтобы устроиться на работу доцентом в 2007 году, рассказала о своей идее ImageNet, ей было трудно заставить преподавателей помочь. Наконец, профессор, специализирующийся на компьютерной архитектуре, согласился присоединиться к ней в качестве соавтора.
  12. ^ а б c d Гершгорн, Дэйв (26 июля 2017 г.). «Данные, которые изменили исследования ИИ - и, возможно, весь мир». Кварцевый. Atlantic Media Co. Получено 26 июля 2017. Прочитав о подходе WordNet, Ли во время своего визита в Принстон в 2006 году встретился с профессором Кристиан Феллбаум, исследователем, имеющим большое значение для продолжения работы над WordNet.
  13. ^ Дэн, Цзя; Донг, Вэй; Сохер, Ричард; Ли, Ли-Цзя; Ли, Кай; Фэй-Фэй, Ли (2009), «ImageNet: крупномасштабная база данных иерархических изображений» (PDF), Конференция 2009 года по компьютерному зрению и распознаванию образов
  14. ^ Ли, Фэй-Фэй, Как мы учим компьютеры понимать картинки, получено 16 декабря 2018
  15. ^ Роббинс, Мартин (6 мая 2016 г.). «Должен ли ИИ заниматься любовью с девушкой Рембрандта, чтобы заниматься искусством?». Хранитель. Получено 22 июн 2016.
  16. ^ Марков, Джон (10 декабря 2015 г.). «Успехи в обучении искусственному интеллекту конкурируют с человеческими способностями». Нью-Йорк Таймс. Получено 22 июн 2016.
  17. ^ Арон, Джейкоб (21 сентября 2015 г.). «Забудьте о тесте Тьюринга - есть способы лучше судить об ИИ». Новый ученый. Получено 22 июн 2016.
  18. ^ Марков, Джон (3 июня 2015 г.). «Ученые-информатики встают после того, как команду Baidu исключили из соревнований по искусственному интеллекту». Нью-Йорк Таймс. Получено 22 июн 2016.
  19. ^ «Китайский поисковый гигант Baidu исключен из теста ИИ». Новости BBC. 14 июня 2015 г.. Получено 22 июн 2016.
  20. ^ "Baidu увольняет исследователя, участвовавшего в конкурсе AI". Компьютерный мир. 11 июня 2015 г.. Получено 22 июн 2016.
  21. ^ Гершгорн, Дэйв (10 сентября 2017 г.). «Кварцевый гид по искусственному интеллекту: что это такое, почему это важно и чего нам бояться?». Кварцевый. Получено 3 февраля 2018.
  22. ^ «Вирусное приложение, которое называет вас, не совсем то, о чем вы думаете». Проводной. ISSN  1059-1028. Получено 22 сентября 2019.
  23. ^ Вонг, Джулия Кэрри (18 сентября 2019 г.). «Вирусное селфи-приложение ImageNet Roulette показалось мне забавным - пока оно не назвало меня расистским оскорблением». Хранитель. ISSN  0261-3077. Получено 22 сентября 2019.
  24. ^ Кроуфорд, Кейт; Паглен, Тревор (19 сентября 2019 г.). «Раскопки ИИ: политика обучающих наборов для машинного обучения». -. Получено 22 сентября 2019.
  25. ^ Лайонс, Майкл (4 сентября 2020 г.). «Раскопки» ИИ «Раскопки»: Слон в галерее ». arXiv:2009.01215 [cs.CY ].
  26. ^ «На пути к более справедливым наборам данных: фильтрация и балансировка распределения поддерева людей в иерархии ImageNet». image-net.org. 17 сентября 2019 г.. Получено 22 сентября 2019.

внешняя ссылка