База данных MNIST - MNIST database

В База данных MNIST (Изменено Национальный институт стандартов и технологий база данных) является большим база данных рукописных цифр, которые обычно используются для обучение персонала разные обработка изображений системы.[1][2] База данных также широко используется для обучения и тестирования в области машинное обучение.[3][4] Он был создан путем «повторного смешивания» выборок из исходных наборов данных NIST.[5] Создатели посчитали, что, поскольку набор данных обучения NIST был взят из американских Бюро переписи населения сотрудников, а набор данных тестирования был взят из Американец Средняя школа студентов, он не подходил для экспериментов с машинным обучением.[6] Кроме того, черно-белые изображения из NIST были нормализованный чтобы поместиться в ограничительную рамку 28x28 пикселей и сглаженный, который ввел уровни оттенков серого.[6]

Образцы изображений MNIST
Примеры изображений из тестового набора данных MNIST

База данных MNIST содержит 60 000 обучающих изображений и 10 000 тестовых изображений.[7] Половина обучающего набора и половина тестового набора были взяты из набора обучающих данных NIST, тогда как другая половина обучающего набора и другая половина набора тестов были взяты из набора данных тестирования NIST.[8] Первоначальные создатели базы данных ведут список некоторых из протестированных на ней методов.[6] В своей исходной статье они используют Машина опорных векторов чтобы получить коэффициент ошибок 0,8%.[9] В 2017 году был опубликован расширенный набор данных, подобный MNIST, под названием EMNIST, который содержит 240 000 обучающих изображений и 40 000 тестовых изображений рукописных цифр и символов.[10]

Набор данных

Набор изображений в базе данных MNIST представляет собой комбинацию двух баз данных NIST: Специальная база данных 1 и Специальная база данных 3. Специальная база данных 1 и Специальная база данных 3 состоят из цифр, написанных старшеклассниками и сотрудниками Бюро переписи населения США, соответственно.[6]

Спектакль

Некоторые исследователи достигли «почти человеческих характеристик» в базе данных MNIST, используя комитет нейронных сетей; в той же статье авторы добиваются вдвое большей производительности, чем люди, в других задачах распознавания.[11] Самая высокая частота ошибок в списке[6] на исходном сайте базы данных - 12 процентов, что достигается с помощью простого линейного классификатора без предварительной обработки.[9]

В 2004 году коэффициент ошибок в лучшем случае 0,42 процента был достигнут в базе данных исследователями, использовавшими новый классификатор под названием LIRA, который представляет собой нейронный классификатор с тремя слоями нейронов, основанный на принципах персептрона Розенблатта.[12]

Некоторые исследователи тестировали системы искусственного интеллекта, используя базу данных, подвергнутую случайным искажениям. Системы в этих случаях обычно представляют собой нейронные сети, и используемые искажения имеют тенденцию либо аффинные искажения или же упругие искажения.[6] Иногда эти системы могут быть очень успешными; одна такая система достигла коэффициента ошибок в базе данных 0,39 процента.[13]

В 2011 году исследователи, использующие аналогичную систему нейронных сетей, сообщили о частоте ошибок 0,27%, что лучше предыдущего лучшего результата.[14] В 2013 году было заявлено, что подход, основанный на регуляризации нейронных сетей с использованием DropConnect, позволяет достичь коэффициента ошибок 0,21 процента.[15] В 2016 году лучшая производительность одиночной сверточной нейронной сети составила 0,25 процента ошибок.[16] По состоянию на август 2018 года лучшая производительность одной сверточной нейронной сети, обученной на обучающих данных MNIST с использованием не увеличение данных составляет 0,25 процента ошибок.[16][17] Кроме того, Центр параллельных вычислений (Хмельницкий, Украина) получил ансамбль всего из 5 сверточных нейронных сетей, которые работают в MNIST с частотой ошибок 0,21%.[18][19] Некоторые изображения в наборе данных тестирования плохо читаются и могут помешать достижению коэффициента ошибок тестирования 0%.[20] В 2018 году исследователи из Департамента системной и информационной инженерии Университета Вирджинии объявили об ошибке 0,18% при одновременном сложении трех типов нейронных сетей (полносвязные, рекуррентные и сверточные нейронные сети).[21]

Классификаторы

Это таблица некоторых машинное обучение методы, используемые в наборе данных, и их частота ошибок, по типу классификатора:

ТипКлассификаторИскажениеПредварительная обработкаЧастота ошибок (%)
Линейный классификаторПопарный линейный классификаторНиктоВыравнивание7.6[9]
Поток решений с чрезвычайно рандомизированными деревьямиОдиночная модель (глубина> 400 уровней)НиктоНикто2.7[22]
K-Ближайшие соседиК-НН с нелинейной деформацией (П2ДХМДМ)НиктоСдвигающиеся края0.52[23]
Усиленные пниПродукт культей на Особенности ХаараНиктоОсобенности Хаара0.87[24]
Нелинейный классификатор40 PCA + квадратичный классификаторНиктоНикто3.3[9]
Случайный лесБыстрые унифицированные случайные леса для выживания, регрессии и классификации (RF-SRC)[25]НиктоПростая статистическая важность пикселей2.8[26]
Машина опорных векторов (SVM)Виртуальный SVM, deg-9 poly, 2-пиксельное дрожаниеНиктоВыравнивание0.56[27]
Глубокий нейронная сеть (DNN)2-х слойный 784-800-10НиктоНикто1.6[28]
Глубокий нейронная сеть2-х слойный 784-800-10Упругие искаженияНикто0.7[28]
Глубокий нейронная сеть6-слойный 784-2500-2000-1500-1000-500-10Упругие искаженияНикто0.35[29]
Сверточная нейронная сеть (CNN)6-слойный 784-40-80-500-1000-2000-10НиктоРасширение обучающих данных0.31[30]
Сверточная нейронная сеть6-слойный 784-50-100-500-1000-10-10НиктоРасширение обучающих данных0.27[31]
Сверточная нейронная сеть (CNN)13-слойный 64-128 (5x) -256 (3x) -512-2048-256-256-10НиктоНикто0.25[16]
Сверточная нейронная сетьКомитет 35 CNN, 1-20-P-40-P-150-10Упругие искаженияНормализация ширины0.23[11]
Сверточная нейронная сетьКомитет 5 CNN, 6 слоев 784-50-100-500-1000-10-10НиктоРасширение обучающих данных0.21[18][19]
Случайное многомодельное глубокое обучение (RMDL)10 NN-10 RNN - 10 CNNНиктоНикто0.18[21]
Сверточная нейронная сетьКомитет 20 CNNS с сетями сжатия и возбуждения[32]НиктоУвеличение данных0.17[33]

Смотрите также

Рекомендации

  1. ^ «Поддержка векторных машин распознавания образов скорости - Vision Systems Design». Дизайн систем технического зрения. Получено 17 августа 2013.
  2. ^ Гангапутра, Сачин. «База данных рукописных цифр». Получено 17 августа 2013.
  3. ^ Цяо, Ю (2007). "БАЗА ДАННЫХ рукописных цифр MNIST". Получено 18 августа 2013.
  4. ^ Платт, Джон С. (1999). «Использование аналитического QP и разреженности для ускорения обучения опорных векторных машин» (PDF). Достижения в системах обработки нейронной информации: 557–563. Архивировано из оригинал (PDF) 4 марта 2016 г.. Получено 18 августа 2013.
  5. ^ Гротер, Патрик Дж. "Специальная база данных NIST 19 - База данных форм и символов, отпечатанных вручную" (PDF). Национальный институт стандартов и технологий.
  6. ^ а б c d е ж ЛеКун, Янн; Кортез, Коринна; Берджес, Кристофер С.Дж. "База данных рукописных цифр MNIST". Веб-сайт Яна ЛеКуна yann.lecun.com. Получено 30 апреля 2020.
  7. ^ Куссул, Эрнст; Байдык, Татьяна (2004). «Улучшенный метод распознавания рукописных цифр протестирован в базе данных MNIST». Вычисления изображений и зрения. 22 (12): 971–981. Дои:10.1016 / j.imavis.2004.03.008.
  8. ^ Чжан, Бинь; Шрихари, Саргур Н. (2004). "Быстрый k-Классификация ближайшего соседа с использованием кластерных деревьев » (PDF). IEEE Transactions по анализу шаблонов и машинному анализу. 26 (4): 525–528. Дои:10.1109 / TPAMI.2004.1265868. PMID  15382657. S2CID  6883417. Получено 20 апреля 2020.
  9. ^ а б c d ЛеКун, Янн; Леон Ботту; Йошуа Бенджио; Патрик Хаффнер (1998). «Градиентное обучение применительно к распознаванию документов» (PDF). Труды IEEE. 86 (11): 2278–2324. Дои:10.1109/5.726791. Получено 18 августа 2013.
  10. ^ Коэн, Грегори; Афшар, Саид; Тэпсон, Джонатан; ван Шайк, Андре (17.02.2017). «EMNIST: расширение MNIST для рукописных букв». arXiv:1702.05373 [cs.CV ].
  11. ^ а б Чиресан, Дан; Ули Мейер; Юрген Шмидхубер (2012). «Многоколоночные глубокие нейронные сети для классификации изображений» (PDF). Конференция IEEE 2012 года по компьютерному зрению и распознаванию образов. С. 3642–3649. arXiv:1202.2745. CiteSeerX  10.1.1.300.3283. Дои:10.1109 / CVPR.2012.6248110. ISBN  978-1-4673-1228-8. S2CID  2161592.
  12. ^ Куссул, Эрнст; Татьяна Байдык (2004). «Улучшенный метод распознавания рукописных цифр протестирован в базе данных MNIST» (PDF). Вычисления изображений и зрения. 22 (12): 971–981. Дои:10.1016 / j.imavis.2004.03.008. Архивировано из оригинал (PDF) 21 сентября 2013 г.. Получено 20 сентября 2013.
  13. ^ Ранзато, Марк'Аурелио; Кристофер Поултни; Сумит Чопра; Янн ЛеКун (2006). «Эффективное изучение разреженных представлений с помощью модели, основанной на энергии» (PDF). Достижения в системах обработки нейронной информации. 19: 1137–1144. Получено 20 сентября 2013.
  14. ^ Чиресан, Дэн Клаудиу; Ули Мейер; Лука Мария Гамбарделла; Юрген Шмидхубер (2011). «Комитеты сверточных нейронных сетей для классификации рукописных символов» (PDF). 2011 Международная конференция по анализу и распознаванию документов (ICDAR). С. 1135–1139. CiteSeerX  10.1.1.465.2138. Дои:10.1109 / ICDAR.2011.229. ISBN  978-1-4577-1350-7. S2CID  10122297. Архивировано из оригинал (PDF) 22 февраля 2016 г.. Получено 20 сентября 2013.
  15. ^ Ван, Ли; Мэтью Цайлер; Сиксин Чжан; Янн ЛеКун; Роб Фергус (2013). Регуляризация нейронной сети с помощью DropConnect. Международная конференция по машинному обучению (ICML).
  16. ^ а б c SimpleNet (2016). «Давайте оставим это простым, используя простые архитектуры, чтобы превзойти более глубокие и сложные архитектуры». arXiv:1608.06037. Получено 3 декабря 2020.
  17. ^ SimpNet. «На пути к принципиальному проектированию глубоких сверточных сетей: введение в SimpNet». Github. arXiv:1802.06205. Получено 3 декабря 2020.
  18. ^ а б Романуке, Вадим. «Центр параллельных вычислений (Хмельницкий, Украина) представляет собой ансамбль из 5 сверточных нейронных сетей, которые работают на MNIST с частотой ошибок 0,21%». Получено 24 ноября 2016.
  19. ^ а б Романуке, Вадим (2016). «Расширение обучающих данных и усиление сверточных нейронных сетей для уменьшения количества ошибок набора данных MNIST». Вестник НТУУ «Киевский политехнический институт». 6 (6): 29–34. Дои:10.20535/1810-0546.2016.6.84115.
  20. ^ Классификатор MNIST, GitHub. «Классифицируйте цифры MNIST с помощью сверточных нейронных сетей». Получено 3 августа 2018.
  21. ^ а б Ковсари, Камран; Хейдарисафа, Моджтаба; Браун, Дональд Э .; Мейманди, Киана Джафари; Барнс, Лаура Э. (2018-05-03). «RMDL: случайное многомодельное глубокое обучение для классификации». Материалы Международной конференции по информационным системам и интеллектуальному анализу данных 2018 г.. arXiv:1805.01890. Дои:10.1145/3206098.3206111. S2CID  19208611.
  22. ^ Игнатов Д.Ю .; Игнатов, А.Д. (2017). «Поток принятия решений: выращивание глубоких деревьев решений». IEEE Ictai: 905–912. arXiv:1704.07657. Bibcode:2017arXiv170407657I. Дои:10.1109 / ICTAI.2017.00140. ISBN  978-1-5386-3876-7.
  23. ^ Кейзерс, Дэниел; Томас Дезелаерс; Кристиан Голлан; Герман Ней (август 2007 г.). «Деформационные модели для распознавания изображений». IEEE Transactions по анализу шаблонов и машинному анализу. 29 (8): 1422–1435. CiteSeerX  10.1.1.106.3963. Дои:10.1109 / TPAMI.2007.1153. PMID  17568145. S2CID  2528485.
  24. ^ Кегл, Балаж; Роберт Буса-Фекете (2009). «Повышение качества продуктов базовых классификаторов» (PDF). Материалы 26-й ежегодной международной конференции по машинному обучению: 497–504. Получено 27 августа 2013.
  25. ^ «RandomForestSRC: быстрые унифицированные случайные леса для выживания, регрессии и классификации (RF-SRC)». 21 января 2020.
  26. ^ "Мехрад Махмудиан / MNIST с RandomForest".
  27. ^ ДеКост и Шолкопф, MLJ 2002
  28. ^ а б Патрис Ю. Симард; Дэйв Стейнкраус; Джон С. Платт (2003). «Лучшие практики сверточных нейронных сетей, применяемые для визуального анализа документов». Материалы Седьмой Международной конференции по анализу и распознаванию документов. 1. Институт инженеров по электротехнике и электронике. п. 958. Дои:10.1109 / ICDAR.2003.1227801. ISBN  978-0-7695-1960-9. S2CID  4659176.
  29. ^ Чиресан, Клаудиу Дан; Ули Мейер; Лука Мария Гамбарделла; Юрген Шмидхубер (декабрь 2010 г.). «Глубокие большие простые нейронные сети Excel по распознаванию рукописных цифр». Нейронные вычисления. 22 (12): 3207–20. arXiv:1003.0358. Дои:10.1162 / NECO_a_00052. PMID  20858131. S2CID  1918673.
  30. ^ Романуке, Вадим. «Лучшая производительность одиночной сверточной нейронной сети за 18 эпох на расширенных обучающих данных в Центре параллельных вычислений, Хмельницкий, Украина». Получено 16 ноября 2016.
  31. ^ Романуке, Вадим. «Центр параллельных вычислений (Хмельницкий, Украина) дает единую сверточную нейронную сеть, работающую на MNIST с коэффициентом ошибок 0,27%». Получено 24 ноября 2016.
  32. ^ Ху, Цзе; Шен, Ли; Албани, Самуэль; Солнце, банда; Ву, Эньхуа (2019). «Сети сжатия и возбуждения». IEEE Transactions по анализу шаблонов и машинному анализу. 42 (8): 2011–2023. arXiv:1709.01507. Дои:10.1109 / TPAMI.2019.2913372. PMID  31034408. S2CID  140309863.
  33. ^ "GitHub - Matuzas77 / MNIST-0.17: классификатор MNIST со средней ошибкой 0,17%". 25 февраля 2020.

дальнейшее чтение

внешняя ссылка