Список наборов данных для исследований в области машинного обучения - List of datasets for machine-learning research
Часть серии по |
Машинное обучение и сбор данных |
---|
Площадки для машинного обучения |
Эти наборы данных используются для машинное обучение исследования и цитировались в рецензируемый академические журналы. Наборы данных являются неотъемлемой частью машинного обучения. Значительный прогресс в этой области может быть достигнут благодаря прогрессу в обучении. алгоритмы (Такие как глубокое обучение ), компьютерное оборудование и, что менее интуитивно, доступность высококачественных наборов данных для обучения.[1] Высококачественные маркированные наборы обучающих данных для под наблюдением и полууправляемый Алгоритмы машинного обучения обычно сложно и дорого производить из-за большого количества времени, необходимого для маркировки данных. Хотя их не нужно маркировать, высококачественные наборы данных для без присмотра обучение также может быть трудным и дорогостоящим.[2][3][4][5]
Данные изображения
Наборы данных, состоящие в основном из изображений или видео, для таких задач, как обнаружение объекта, распознавание лиц, и классификация с несколькими этикетками.
Распознавание лиц
В компьютерное зрение, изображения лиц широко использовались для разработки системы распознавания лиц, обнаружение лица, и многие другие проекты, в которых используются изображения лиц.
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Aff-Wild | 298 видео с 200 людьми, ~ 1 250 000 изображений с ручными аннотациями: аннотированные с точки зрения размерного аффекта (валентное возбуждение); в дикой природе; база цветов; различные разрешения (среднее = 640x360) | обнаруженные лица, черты лица и аннотации валентного возбуждения | ~ 1,250,000 изображений с ручными аннотациями | видео (визуальные + аудио) | аффект распознавания (оценка валентности-возбуждения) | 2017 | CVPR[6] IJCV[7] | D.Kollias et al. |
Aff-Wild2 | 558 видеороликов 458 человек, ~ 2 800 000 изображений с ручными аннотациями: аннотированные с точки зрения i) категориального аффекта (7 основных выражений: нейтральный, счастье, печаль, удивление, страх, отвращение, гнев); б) размерный аффект (валентное возбуждение); iii) боевые единицы (1,2,4,6,12,15,20,25 ед.); в дикой природе; база цветов; различные разрешения (среднее = 1030x630) | обнаруженные лица, обнаруженные и выровненные лица и аннотации | ~ 2 800 000 изображений с ручными аннотациями | видео (визуальные + аудио) | распознавание аффекта (оценка валентного возбуждения, классификация основных выражений, обнаружение единиц действия) | 2019 | BMVC[8] FG[9] | D.Kollias et al. |
FERET (технология распознавания лиц) | 11338 изображений 1199 человек в разных положениях и в разное время. | Никто. | 11,338 | Изображений | Классификация, распознавание лиц | 2003 | [10][11] | Министерство обороны США |
Аудиовизуальная база данных эмоциональной речи и песни Ryerson (RAVDESS) | 7356 видео- и аудиозаписей 24 профессиональных актеров. 8 эмоций двух уровней интенсивности каждая. | Файлы, помеченные выражением. Оценки перцепционной валидации предоставлены 319 оценщиками. | 7,356 | Видео, звуковые файлы | Классификация, распознавание лиц, распознавание голоса | 2018 | [12][13] | S.R. Ливингстон и Ф.А.Руссо |
SCFace | Цветные изображения лиц под разными углами. | Расположение извлеченных черт лица. Приведены координаты объектов. | 4,160 | Изображения, текст | Классификация, распознавание лица | 2011 | [14][15] | M. Grgic et al. |
Йельская база данных лиц | Лица 15 человек в 11 различных выражениях. | Ярлыки выражений. | 165 | Изображений | Распознавание лица | 1997 | [16][17] | J. Yang et al. |
Cohn-Kanade База данных выражений, закодированных в AU | Большая база изображений с надписями для выражений. | Отслеживание определенных черт лица. | 500+ последовательностей | Изображения, текст | Анализ выражения лица | 2000 | [18][19] | T. Kanade et al. |
База данных выражений лица JAFFE | 213 изображений 7 выражений лица (6 основных выражений лица + 1 нейтральное), представленных 10 японскими моделями. | Изображения обрезаются до лицевой области. Включает данные семантических оценок для ярлыков эмоций. | 213 | Изображения, текст | Познание выражения лица | 1998 | [20][21] | Лион, Камачи, Гьоба |
Скраб для лица | Изображения общественных деятелей удалены из результатов поиска. | Название и м / ж аннотация. | 107,818 | Изображения, текст | Распознавание лица | 2014 | [22][23] | H. Ng et al. |
База данных лиц BioID | Изображения лиц с отмеченным положением глаз. | Установите положение глаз вручную. | 1521 | Изображения, текст | Распознавание лица | 2001 | [24][25] | BioID |
Набор данных сегментации кожи | Случайно выбранные значения цвета из изображений лиц. | B, G, R, значения извлечены. | 245,057 | Текст | Сегментация, классификация | 2012 | [26][27] | Р. Бхатт. |
Босфор | База данных трехмерных изображений лиц. | Отмечены 34 единицы действий и 6 выражений; Обозначены 24 лицевых ориентира. | 4652 | Изображения, текст | Распознавание лиц, классификация | 2008 | [28][29] | А. Савран и др. |
UOY 3D-лицо | нейтральное лицо, 5 выражений: гнев, счастье, печаль, глаза закрыты, брови подняты. | маркировка. | 5250 | Изображения, текст | Распознавание лиц, классификация | 2004 | [30][31] | Йоркский университет |
База данных лиц CASIA 3D | Выражения: гнев, улыбка, смех, удивление, закрытые глаза. | Никто. | 4624 | Изображения, текст | Распознавание лиц, классификация | 2007 | [32][33] | Институт автоматики Китайской академии наук |
КАЗИЯ НИР | Выражения: Гнев Отвращение Страх Счастье Печаль Сюрприз | Никто. | 480 | Запись видео в видимом спектре и ближнем инфракрасном диапазоне с аннотациями со скоростью 25 кадров в секунду | Распознавание лиц, классификация | 2011 | [34] | Zhao, G. et al. |
БУ-3ДФЭ | нейтральное лицо и 6 выражений: гнев, счастье, печаль, удивление, отвращение, страх (4 уровня). 3D изображения извлечены. | Никто. | 2500 | Изображения, текст | Распознавание мимики, классификация | 2006 | [35] | Бингемтонский университет |
Распознавание лиц: грандиозный вызов Набор данных | До 22 образцов по каждому предмету. Выражения: гнев, счастье, печаль, удивление, отвращение, отечность. 3D-данные. | Никто. | 4007 | Изображения, текст | Распознавание лиц, классификация | 2004 | [36][37] | Национальный институт стандартов и технологий |
Гавабдб | До 61 образца по каждому предмету. Выражения лица нейтральное, улыбка, фронтальный подчеркнутый смех, фронтальный случайный жест. 3D изображения. | Никто. | 549 | Изображения, текст | Распознавание лиц, классификация | 2008 | [38][39] | Университет короля Хуана Карлоса |
3D-RMA | До 100 субъектов, выражения в основном нейтральные. Также несколько поз. | Никто. | 9971 | Изображения, текст | Распознавание лиц, классификация | 2004 | [40][41] | Королевская военная академия (Бельгия) |
SoF | 112 человек (66 мужчин и 46 женщин) носят очки при различных условиях освещения. | Набор синтетических фильтров (размытие, окклюзия, шум и постеризация) с разным уровнем сложности. | 42,592 (2,662 исходных изображения × 16 синтетических изображений) | Изображения, Мат файл | Классификация по полу, распознавание лиц, распознавание лиц, оценка возраста и обнаружение очков | 2017 | [42][43] | Афифи М. и соавт. |
IMDB-WIKI | IMDB и Википедия сталкиваются с изображениями с отметками пола и возраста. | Никто | 523,051 | Изображений | Половая классификация, распознавание лиц, распознавание лиц, оценка возраста | 2015 | [44] | Р. Роте, Р. Тимофте, Л. В. Гул |
Распознавание действий
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных о взаимодействии с людьми на телевидении | Видео из 20 различных телешоу для предсказания социальных действий: рукопожатие, дай пять, объятия, поцелуй и т. Д. | Никто. | 6766 видеоклипов | видеоклипы | Прогноз действий | 2013 | [45] | Патрон-Перес, А. и др. |
База данных мультимодальных действий человека в Беркли (MHAD) | Записи одного человека, выполняющего 12 действий | Предварительная обработка MoCap | 660 образцов действий | 8 PhaseSpace Motion Capture, 2 стереокамеры, 4 камеры Quad, 6 акселерометров, 4 микрофона | Классификация действий | 2013 | [46] | Офли, Ф. и др. |
Набор данных THUMOS | Большой набор видеоданных для классификации действий. | Действия классифицированы и помечены. | 45 млн кадров видео | Видео, изображения, текст | Классификация, обнаружение действий | 2013 | [47][48] | Y. Jiang et al. |
MEXAction2 | Набор видеоданных для локализации и обнаружения действий | Действия классифицированы и помечены. | 1000 | видео | Обнаружение действия | 2014 | [49] | Stoian et al. |
Обнаружение и распознавание объектов
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Визуальный геном | Изображения и их описание | 108,000 | изображения, текст | Подписи к изображениям | 2016 | [50] | Р. Кришна и др. | |
Набор данных трехмерных объектов Беркли | 849 изображений, снятых в 75 различных сценах. Отмечено около 50 различных классов объектов. | Ограничительные рамки и маркировка объектов. | 849 | помеченные изображения, текст | Распознавание объекта | 2014 | [51][52] | A. Janoch et al. |
Набор данных сегментации Berkeley и контрольные показатели 500 (BSDS500) | 500 естественных изображений, явно разделенных на непересекающиеся подмножества обучающих, проверочных и тестовых + тестовый код. На основе BSDS300. | Каждое изображение сегментировано в среднем по пяти различным объектам. | 500 | Сегментированные изображения | Обнаружение контуров и иерархическая сегментация изображений | 2011 | [53] | Калифорнийский университет в Беркли |
Общие объекты Microsoft в контексте (COCO) | сложные повседневные сцены обычных предметов в их естественном контексте. | Подсветка, маркировка и классификация объектов по 91 типу объектов. | 2,500,000 | Помеченные изображения, текст | Распознавание объекта | 2015 | [54][55] | T. Lin et al. |
База данных SUN | Очень большая база данных по распознаванию сцен и объектов. | Маркируются места и объекты. Объекты сегментированы. | 131,067 | Изображения, текст | Распознавание объектов, распознавание сцен | 2014 | [56][57] | J. Xiao et al. |
ImageNet | База данных изображений помеченных объектов, используемых в ImageNet - крупномасштабная задача по визуальному распознаванию | Помеченные объекты, ограничивающие рамки, описательные слова, функции SIFT | 14,197,122 | Изображения, текст | Распознавание объектов, распознавание сцен | 2009 (2014) | [58][59][60] | J. Deng et al. |
Открытые изображения | Большой набор изображений, имеющих лицензию CC BY 2.0, с метками уровня изображения и ограничивающими рамками, охватывающими тысячи классов. | Метки уровня изображения, ограничивающие рамки | 9,178,275 | Изображения, текст | Классификация, Распознавание объектов | 2017 | [61] | |
Набор данных обнаружения коммерческих новостных телеканалов | Телевизионные рекламные ролики и выпуск новостей. | Аудио и видео функции, извлеченные из неподвижных изображений. | 129,685 | Текст | Кластеризация, классификация | 2015 | [62][63] | P. Guha et al. |
Набор данных Statlog (Image Segmentation) | Экземпляры были отобраны случайным образом из базы данных из 7 наружных изображений и вручную сегментированы для создания классификации для каждого пикселя. | Многие функции просчитаны. | 2310 | Текст | Классификация | 1990 | [64] | Массачусетский университет |
Калифорнийский технологический институт 101 | Картинки предметов. | Обозначены подробные очертания объекта. | 9146 | Изображений | Классификация, распознавание объектов. | 2003 | [65][66] | F. Li et al. |
Калтех-256 | Большой набор изображений для классификации объектов. | Изображения категоризированы и отсортированы вручную. | 30,607 | Изображения, текст | Классификация, обнаружение объекта | 2007 | [67][68] | G. Griffin et al. |
Набор данных SIFT10M | Особенности SIFT набора данных Caltech-256. | Расширенное извлечение функций SIFT. | 11,164,866 | Текст | Классификация, обнаружение объекта | 2016 | [69] | X. Fu et al. |
LabelMe | Аннотированные изображения сцен. | Обозначены объекты. | 187,240 | Изображения, текст | Классификация, обнаружение объекта | 2005 | [70] | Лаборатория компьютерных наук и искусственного интеллекта Массачусетского технологического института |
Набор данных "Городские пейзажи" | Стерео видеопоследовательности, записанные в уличных сценах, с аннотациями на уровне пикселей. Также включены метаданные. | Сегментация и маркировка на уровне пикселей | 25,000 | Изображения, текст | Классификация, обнаружение объекта | 2016 | [71] | Daimler AG и другие. |
Набор данных PASCAL VOC | Большое количество изображений для задач классификации. | Маркировка, ограничительная рамка в комплекте | 500,000 | Изображения, текст | Классификация, обнаружение объекта | 2010 | [72][73] | M. Everingham et al. |
СИФАР-10 Набор данных | Множество небольших изображений с низким разрешением 10 классов объектов. | Размечены классы, созданы разбиения обучающего набора. | 60,000 | Изображений | Классификация | 2009 | [59][74] | А. Крижевский и др. |
Набор данных CIFAR-100 | Подобно CIFAR-10, выше, но дано 100 классов объектов. | Размечены классы, созданы разбиения обучающего набора. | 60,000 | Изображений | Классификация | 2009 | [59][74] | А. Крижевский и др. |
Набор данных CINIC-10 | Единый вклад CIFAR-10 и Imagenet с 10 классами и 3 разделениями. Больше, чем CIFAR-10. | Размечены классы, обучение, проверка, разбиты наборы тестов. | 270,000 | Изображений | Классификация | 2018 | [75] | Люк Н. Дарлоу, Эллиот Дж. Кроули, Антреас Антониу, Амос Дж. Сторки |
Fashion-MNIST | База данных модных товаров в стиле MNIST | Размечены классы, созданы разбиения обучающего набора. | 60,000 | Изображений | Классификация | 2017 | [76] | Zalando SE |
notMNIST | Некоторые общедоступные шрифты и извлеченные из них глифы, чтобы сделать набор данных похожим на MNIST. Всего существует 10 классов, буквы A – J взяты из разных шрифтов. | Размечены классы, созданы разбиения обучающего набора. | 500,000 | Изображений | Классификация | 2011 | [77] | Ярослав Булатов |
Набор данных по обнаружению дорожных знаков в Германии | Изображения с автомобилей дорожных знаков на немецких дорогах. Эти знаки соответствуют стандартам ООН и поэтому такие же, как в других странах. | Знаки с ручной маркировкой | 900 | Изображений | Классификация | 2013 | [78][79] | S Houben et al. |
Набор данных KITTI Vision Benchmark | Автономные транспортные средства, проезжающие по среднему городу, снимали различные районы с помощью камер и лазерных сканеров. | Многие тесты взяты из данных. | > 100 ГБ данных | Изображения, текст | Классификация, обнаружение объекта | 2012 | [80][81] | Гейгер и др. |
Набор данных Linnaeus 5 | Изображения 5 классов предметов. | Размечены классы, созданы разбиения обучающего набора. | 8000 | Изображений | Классификация | 2017 | [82] | Чаладзе и Калатозишвили |
FieldSAFE | Мультимодальный набор данных для обнаружения препятствий в сельском хозяйстве, включая стереокамеру, тепловизор, веб-камеру, камеру 360 градусов, лидар, радар и точную локализацию. | Классы с географической маркировкой. | > 400 ГБ данных | Изображения и трехмерные облака точек | Классификация, обнаружение объекта, локализация объекта | 2017 | [83] | M. Kragh et al. |
11K рук | 11076 изображений рук (1600 x 1200 пикселей) 190 субъектов разного возраста от 18 до 75 лет для распознавания пола и биометрической идентификации. | Никто | 11076 изображений рук | Изображения и файлы меток (.mat, .txt и .csv) | Распознавание пола и биометрическая идентификация | 2017 | [84] | М Афифи |
CORe50 | Специально разработанный для непрерывного / непрерывного обучения и распознавания объектов, представляет собой сборник из более чем 500 видеороликов (30 кадров в секунду) с 50 домашними объектами, принадлежащими к 10 различным категориям. | Классы помечены, обучающие наборы разбиты, созданы на основе трехстороннего многозадачного теста. | 164866 изображений RBG-D | изображения (.png или .pkl) и файлы меток (.pkl, .txt, .tsv) | Классификация, Распознавание объектов | 2017 | [85] | В. Ломонако и Д. Мальтони |
OpenLORIS-Объект | Набор данных пожизненного / непрерывного роботизированного зрения (OpenLORIS-Object), собранный настоящими роботами, установленными с несколькими датчиками высокого разрешения, включает коллекцию из 121 экземпляра объекта (1-я версия набора данных, 40 категорий предметов первой необходимости в пределах 20 сцен). В наборе данных тщательно учтены 4 фактора среды в разных сценах, включая освещение, загорание, размер пикселя объекта и беспорядок, и явно определены уровни сложности каждого фактора. | Обозначенные классы, разбиения на наборы для обучения / проверки / тестирования, созданные с помощью сценариев тестирования. | 1 106 424 изображения RBG-D | изображения (.png и .pkl) и файлы этикеток (.pkl) | Классификация, Распознавание объектов на протяжении всей жизни, Роботизированное зрение | 2019 | [86] | Q. She et al. |
Набор данных ТГц и тепловизионного видеосигнала | Этот набор мультиспектральных данных включает терагерцовое, тепловое, визуальное, ближнее инфракрасное и трехмерное видео объектов, скрытых под одеждой людей. | Предоставляются таблицы поиска 3D, которые позволяют проецировать изображения на облака точек 3D. | Более 20 видео. Продолжительность каждого видео составляет около 85 секунд (около 345 кадров). | AP2J | Эксперименты с обнаружением скрытых объектов | 2019 | [87][88] | Алексей А. Морозов и Ольга С. Сушкова |
Рукописный ввод и распознавание символов
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных искусственных персонажей | Искусственно сгенерированные данные, описывающие структуру 10 заглавных букв английского алфавита. | Координаты нарисованных линий даны как целые числа. Различные другие функции. | 6000 | Текст | Распознавание почерка, классификация | 1992 | [89] | H. Guvenir et al. |
Набор данных букв | Печатные буквы верхнего регистра. | 17 функций извлечены из всех изображений. | 20,000 | Текст | OCR, классификация | 1991 | [90][91] | D. Slate et al. |
CASIA-HWDB | Оффлайн рукописный китайский символ база данных. 3755 классов в ГБ 2312 набор символов. | Изображения в оттенках серого с пикселями фона, обозначенными как 255. | 1,172,907 | Изображения, текст | Распознавание почерка, классификация | 2009 | [92] | КАЗИЯ |
CASIA-OLHWDB | Онлайн-база данных рукописных китайских иероглифов, собранных с помощью ручки Anoto на бумаге. 3755 классов в ГБ 2312 набор символов. | Предоставляет последовательности координат штрихов. | 1,174,364 | Изображения, текст | Распознавание почерка, классификация | 2009 | [93][92] | КАЗИЯ |
Набор данных траекторий персонажей | Маркированные образцы траекторий кончика пера для людей, пишущих простые символы. | Трехмерная матрица траекторий скорости кончика пера для каждого образца | 2858 | Текст | Распознавание почерка, классификация | 2008 | [94][95] | Б. Уильямс |
Набор данных Chars74K | Распознавание символов в естественных изображениях символов, используемых как в английском, так и в английском языках. Каннада | 74,107 | Распознавание символов, распознавание почерка, OCR, классификация | 2009 | [96] | Т. де Кампос | ||
Набор данных символов пера UJI | Изолированные рукописные символы | Приведены координаты положения пера по мере написания. | 11,640 | Текст | Распознавание почерка, классификация | 2009 | [97][98] | F. Prat et al. |
Набор данных Gisette | Образцы почерка из часто путающих 4 и 9 знаков. | Функции, извлеченные из изображений, разделенные на поезд / тест, изображения рукописного ввода с нормализацией размера. | 13,500 | Изображения, текст | Распознавание почерка, классификация | 2003 | [99] | Ян ЛеКун и др. |
Набор данных Omniglot | 1623 разных рукописных символа из 50 разных алфавитов. | Маркированы вручную. | 38,300 | Изображения, текст, штрихи | Классификация, однократное обучение | 2015 | [100][101] | Американская ассоциация развития науки |
База данных MNIST | База данных рукописных цифр. | Маркированы вручную. | 60,000 | Изображения, текст | Классификация | 1998 | [102][103] | Национальный институт стандартов и технологий |
Оптическое распознавание набора данных рукописных цифр | Нормализованные растровые изображения рукописных данных. | Размер нормализован и сопоставлен с растровыми изображениями. | 5620 | Изображения, текст | Распознавание почерка, классификация | 1998 | [104] | Э. Алпайдин и др. |
Распознавание набора рукописных цифр с помощью пера | Рукописные цифры на электронном планшете. | Векторы признаков, извлеченные для равномерного распределения. | 10,992 | Изображения, текст | Распознавание почерка, классификация | 1998 | [105][106] | Э. Алпайдин и др. |
Набор рукописных цифр Semeion | Рукописные цифры от 80 человек. | Все рукописные цифры нормализованы по размеру и сопоставлены с той же сеткой. | 1593 | Изображения, текст | Распознавание почерка, классификация | 2008 | [107] | T. Srl |
HASYv2 | Рукописные математические символы | Все символы расположены по центру и имеют размер 32 x 32 пикселя. | 168233 | Изображения, текст | Классификация | 2017 | [108] | Мартин Тома |
Шумный рукописный набор данных Bangla | Включает набор данных рукописных цифр (10 классов) и базовый набор данных символов (50 классов), каждый набор данных имеет три типа шума: белый гауссовский, размытие при движении и пониженный контраст. | Все изображения расположены по центру и имеют размер 32x32. | Числовой набор данных: 23330, Набор данных символов: 76000 | Изображений, текст | Распознавание почерка, классификация | 2017 | [109][110] | M. Karki et al. |
Аэрофотоснимки
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных сегментации аэрофотоснимков | 80 аэрофотоснимков высокого разрешения с пространственным разрешением от 0,3 до 1,0. | Изображения сегментированы вручную. | 80 | Изображений | Классификация по воздуху, обнаружение объектов | 2013 | [111][112] | J. Yuan et al. |
Комплект данных KIT AIS | Множественные помеченные наборы данных для обучения и оценки аэрофотоснимков толпы. | Изображения помечены вручную, чтобы показать пути людей через толпу. | ~ 150 | Изображения с путями | Отслеживание людей, воздушное отслеживание | 2012 | [113][114] | M. Butenuth et al. |
Набор данных Уилта | Данные дистанционного зондирования больных деревьев и другого растительного покрова. | Извлечены различные функции. | 4899 | Изображений | Классификация, обнаружение воздушных объектов | 2014 | [115][116] | Б. Джонсон |
Набор данных MASATI | Морские сцены из оптических аэрофотоснимков видимого спектра. Он содержит цветные изображения в динамической морской среде, каждое изображение может содержать одну или несколько целей в разных погодных условиях и условиях освещения. | Ограничительные рамки и маркировка объектов. | 7389 | Изображений | Классификация, обнаружение воздушных объектов | 2018 | [117][118] | А.-Дж. Gallego et al. |
Набор данных сопоставления типов леса | Спутниковые снимки лесов Японии. | Полосы длин волн изображения извлечены. | 326 | Текст | Классификация | 2015 | [119][120] | Б. Джонсон |
Набор данных исследования накладных изображений | Аннотированные изображения над головой. Изображения с несколькими объектами. | Более 30 аннотаций и более 60 статистических данных, описывающих цель в контексте изображения. | 1000 | Изображения, текст | Классификация | 2009 | [121][122] | F. Tanner et al. |
SpaceNet | SpaceNet - это совокупность коммерческих спутниковых изображений и маркированных тренировочных данных. | Файлы GeoTiff и GeoJSON, содержащие контуры зданий. | >17533 | Изображений | Классификация, идентификация объекта | 2017 | [123][124][125] | DigitalGlobe, Inc. |
UC Merced Land Use Dataset | Эти изображения были вручную извлечены из больших изображений из коллекции изображений городских районов USGS National Map для различных городских районов США. | Это набор данных изображений землепользования 21 класса, предназначенный для исследовательских целей. Для каждого класса есть 100 изображений. | 2,100 | Чипы изображения 256x256, 30 см (1 фут) GSD | Классификация земного покрова | 2010 | [126] | Йи Ян и Шон Ньюсэм |
Комплект бортовых данных SAT-4 | Изображения были извлечены из набора данных Национальной программы обработки изображений сельского хозяйства (NAIP). | SAT-4 имеет четыре широких класса земного покрова, включая бесплодные земли, деревья, луга и класс, который состоит из всех классов земельного покрова, кроме трех вышеупомянутых. | 500,000 | Изображений | Классификация | 2015 | [127][128] | S. Basu et al. |
Комплект бортовых данных SAT-6 | Изображения были извлечены из набора данных Национальной программы обработки изображений сельского хозяйства (NAIP). | SAT-6 имеет шесть широких классов земного покрова, включая бесплодные земли, деревья, луга, дороги, здания и водоемы. | 405,000 | Изображений | Классификация | 2015 | [127][128] | S. Basu et al. |
Другие изображения
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Теория функционала плотности квантовое моделирование графена | Помеченные изображения сырых входных данных для моделирования графена | Исходные данные (в формате HDF5) и выходные метки из квантового моделирования теории функционала плотности | 60744 тестовых и 501473 и обучающих файлов | Помеченные изображения | Регресс | 2019 | [129] | К. Миллс и И. Тэмблин |
Квантовое моделирование электрона в двумерной потенциальной яме | Помеченные изображения исходных данных для моделирования 2-й квантовой механики | Исходные данные (в формате HDF5) и выходные метки из квантового моделирования | 1,3 миллиона изображений | Помеченные изображения | Регресс | 2017 | [130] | К. Миллс, М.А. Шпаннер, И. Тэмблин |
Набор данных о кулинарии MPII | Видео и изображения различных кулинарных мероприятий. | Пути и направления действий, метки, мелкозернистая маркировка движения, класс активности, извлечение и маркировка неподвижных изображений. | 881755 кадров | Помеченное видео, изображения, текст | Классификация | 2012 | [131][132] | M. Rohrbach et al. |
Набор данных FAMOS | 5000 уникальных микроструктур, все образцы были получены 3 раза с помощью двух разных камер. | Исходные файлы PNG, отсортированные по камерам, а затем по получению. Файлы данных MATLAB с одной матрицей 16384 × 5000 на камеру за одно получение. | 30,000 | Изображения и файлы .mat | Аутентификация | 2012 | [133] | С. Волошиновский и др. |
Набор данных PharmaPack | 1000 уникальных классов с 54 изображениями в классе. | Маркировка классов, множество локальных дескрипторов, таких как SIFT и aKaZE, и локальные агенты функций, такие как Fisher Vector (FV). | 54,000 | Изображения и файлы .mat | Классификация мелкого зерна | 2017 | [134] | О. Таран, С. Резаифар и др. |
Набор данных Stanford Dogs | Изображения 120 пород собак со всего мира. | Предоставляются разделение на обучение / тестирование и аннотации ImageNet. | 20,580 | Изображения, текст | Классификация мелкого зерна | 2011 | [135][136] | A. Khosla et al. |
StanfordExtra Dataset | 2D ключевые точки и сегментации для набора данных Stanford Dogs. | Предусмотрены 2D характерные точки и сегментация. | 12,035 | Помеченные изображения | 3D-реконструкция / оценка позы | 2020 | [137] | Б. Биггс и др. |
Набор данных домашних животных Oxford-IIIT | 37 категорий домашних животных, примерно по 200 изображений каждой. | Породы помечены, жесткая ограничивающая рамка, сегментация переднего и заднего плана. | ~ 7,400 | Изображения, текст | Классификация, обнаружение объекта | 2012 | [136][138] | О. Пархи и др. |
Набор данных функций Corel Image | База данных изображений с извлеченными функциями. | Множество функций, включая гистограмму цветов, текстуру совместного появления и цвета, | 68,040 | Текст | Классификация, обнаружение объекта | 1999 | [139][140] | M. Ortega-Bindenberger et al. |
Характеристики онлайн-видео и набор временных данных для транскодирования. | Время перекодирования для различных видео и свойств видео. | Приведены особенности видео. | 168,286 | Текст | Регресс | 2015 | [141] | T. Deneke et al. |
Набор данных повествования последовательного изображения Microsoft (SIND) | Набор данных для последовательного перевода видения на язык | Описательная подпись и повествование даны для каждой фотографии, а фотографии расположены в последовательности. | 81,743 | Изображения, текст | Визуальное повествование | 2016 | [142] | Microsoft Research |
Набор данных Caltech-UCSD Birds-200-2011 | Большой набор изображений птиц. | Расположение деталей для птиц, ограничивающие рамки, задано 312 двоичных атрибутов | 11,788 | Изображения, текст | Классификация | 2011 | [143][144] | C. Wah et al. |
Ютуб-8М | Большой и разнообразный набор видеоданных | Идентификаторы видео YouTube и соответствующие ярлыки из разнообразного словаря из 4800 визуальных объектов. | 8 миллионов | Видео, текст | Классификация видео | 2016 | [145][146] | S. Abu-El-Haija et al. |
YFCC100M | Большой и разнообразный маркированный набор изображений и видео | Видео и изображения Flickr и соответствующее описание, заголовки, теги и другие метаданные (например, EXIF и геотеги) | 100 миллионов | Видео, изображение, текст | Классификация видео и изображений | 2016 | [147][148] | B. Thomee et al. |
Дискретный ЛИРИС-АКСЕДЕ | Короткие видеоролики с комментариями о валентности и возбуждении. | Ярлыки валентности и возбуждения. | 9800 | видео | Обнаружение видео эмоций | 2015 | [149] | Y. Baveye et al. |
Непрерывный LIRIS-ACCEDE | Длинные видеоролики с аннотациями для валентности и возбуждения, а также для сбора данных о кожно-гальванической реакции. | Ярлыки валентности и возбуждения. | 30 | видео | Обнаружение видео эмоций | 2015 | [150] | Y. Baveye et al. |
Средневековый LIRIS-ACCEDE | Расширение Discrete LIRIS-ACCEDE, включая аннотации уровней насилия в фильмах. | Ярлыки насилия, валентности и возбуждения. | 10900 | видео | Обнаружение видео эмоций | 2015 | [151] | Y. Baveye et al. |
Спортивная поза Лидса | Сочлененные аннотации позы человека в 2000 изображениях естественных видов спорта с Flickr. | Необработанный урожай вокруг одного человека, представляющего интерес, с 14 этикетками | 2000 | Изображения плюс метки файлов .mat | Оценка позы человека | 2010 | [152] | С. Джонсон и М. Эверингем |
Расширенная тренировка позы Leeds Sports Pose | Сочлененные аннотации позы человека в 10 000 изображений естественных видов спорта с Flickr. | 14 совместных лейблов через краудсорсинг | 10000 | Изображения плюс метки файлов .mat | Оценка позы человека | 2011 | [153] | С. Джонсон и М. Эверингем |
Набор данных MCQ | 6 различных реальных экзаменов с множественным выбором (735 листов ответов и 33 540 блоков для ответов) для оценки методов и систем компьютерного зрения, разработанных для систем оценки тестов с множественным выбором. | Никто | 735 листов для ответов и 33 540 ящиков для ответов | Ярлыки изображений и файлов .mat | Разработка систем оценки тестов с множественным выбором | 2017 | [154][155] | Афифи М. и соавт. |
Видео наблюдения | Реальные видео наблюдения охватывают длительное время наблюдения (7 дней по 24 часа каждый). | Никто | 19 видео наблюдения (7 дней по 24 часа). | Ролики | Сжатие данных | 2016 | [156] | Тадж-Эддин, И.А.Т.Ф. и др. |
ЛИЛА БК | Маркированная информационная библиотека Александрии: биология и сохранение. Помеченные изображения, поддерживающие исследования машинного обучения в области экологии и науки об окружающей среде. | Никто | ~ 10 млн изображений | Изображений | Классификация | 2019 | [157] | LILA рабочая группа |
Можем ли мы увидеть фотосинтез? | 32 видео для восьми живых и восьми мертвых листьев, записанных при постоянном и переменном освещении. | Никто | 32 видео | Ролики | Обнаружение живучести растений | 2017 | [158] | Тадж-Эддин, И.А.Т.Ф. и др. |
Текстовые данные
Наборы данных, состоящие в основном из текста, для таких задач, как обработка естественного языка, анализ настроений, перевод и кластерный анализ.
Отзывы
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Обзоры Amazon | Обзоры продуктов в США от Amazon.com. | Никто. | ~ 82 млн | Текст | Классификация, анализ настроений | 2015 | [159] | McAuley et al. |
Набор данных обзора OpinRank | Обзоры машин и отелей от Edmunds.com и TripAdvisor соответственно. | Никто. | 42,230 / ~ 259,000 соответственно | Текст | Анализ настроений, кластеризация | 2011 | [160][161] | K. Ganesan et al. |
MovieLens | 22 000 000 оценок и 580 000 тегов, примененных к 33 000 фильмам 240 000 пользователей. | Никто. | ~ 22 млн | Текст | Регрессия, кластеризация, классификация | 2016 | [162] | GroupLens Research |
Yahoo! Рейтинги музыкальных пользователей музыкальных исполнителей | Пользователи Yahoo оценили более 10 миллионов художников. | Ничего не описано. | ~ 10 млн | Текст | Кластеризация, регрессия | 2004 | [163][164] | Yahoo! |
Набор данных оценки автомобиля | Свойства автомобилей и их приемлемость в целом. | Дано шесть категориальных признаков. | 1728 | Текст | Классификация | 1997 | [165][166] | М. Боханец |
Набор данных о предпочтениях в YouTube Comedy Slam | Данные о голосовании пользователей для пар видео, показываемых на YouTube. Пользователи голосовали за более смешные видео. | Указаны метаданные видео. | 1,138,562 | Текст | Классификация | 2012 | [167][168] | |
Набор данных отзывов пользователей Skytrax | Отзывы пользователей об авиакомпаниях, аэропортах, местах и залах ожидания Skytrax. | Рейтинги точны и включают многие аспекты опыта в аэропорту. | 41396 | Текст | Классификация, регрессия | 2015 | [169] | К. Нгуен |
Набор данных оценки помощника учителя | Отзывы о помощниках учителя. | Даны характеристики каждого экземпляра, такие как класс, размер класса и преподаватель. | 151 | Текст | Классификация | 1997 | [170][171] | W. Loh et al. |
Корпус отзывов вьетнамских студентов (UIT-VSFC) | Отзывы студентов. | Комментарии | 16,000 | Текст | Классификация | 1997 | [172] | Nguyen et al. |
Корпус вьетнамских социальных сетей Emotion Corpus (UIT-VSMEC) | Комментарии пользователей в Facebook. | Комментарии | 6,927 | Текст | Классификация | 1997 | [173] | Nguyen et al. |
Новостные статьи
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных NYSK | Статьи на английском языке о деле, касающемся обвинений в сексуальном посягательстве на бывшего МВФ директор Доминик Стросс-Кан. | Отфильтрован и представлен в формате XML. | 10,421 | XML, текст | Анализ тональности, извлечение темы | 2013 | [174] | Dermouche, M. et al. |
Корпус Reuters, том 1 | Большой корпус Рейтер новости на английском языке. | Детальная категоризация и коды тем. | 810,000 | Текст | Классификация, кластеризация, обобщение | 2002 | [175] | Рейтер |
Корпус Reuters, том 2 | Большой корпус Рейтер новости на нескольких языках. | Детальная категоризация и коды тем. | 487,000 | Текст | Классификация, кластеризация, обобщение | 2005 | [176] | Рейтер |
Сборник текстовых исследований Thomson Reuters | Большой корпус новостей. | Подробности не описаны. | 1,800,370 | Текст | Классификация, кластеризация, обобщение | 2009 | [177] | T. Rose et al. |
Корпус саудовских газет | 31 030 газетных статей на арабском языке. | Метаданные извлечены. | 31,030 | JSON | Обобщение, кластеризация | 2015 | [178] | М. Альхагри |
RE3D (набор данных оценки извлечения взаимосвязей и сущностей) | Entity and Relation отметили данные из различных новостных и государственных источников. При поддержке Dstl | Отфильтровано, категоризация с использованием типов Baleen | Неизвестный | JSON | Классификация, признание сущности и отношения | 2017 | [179] | Dstl |
Экзаменатор Каталог спам-приманок | Clickbait, спам, краудсорсинговые заголовки с 2010 по 2015 год | Дата публикации и заголовки | 3,089,781 | CSV | Кластеризация, События, Настроения | 2016 | [180] | Р. Кулкарни |
ABC Корпус новостей Австралии | Весь новостной корпус ABC Australia с 2003 по 2019 год | Дата публикации и заголовки | 1,186,018 | CSV | Кластеризация, События, Настроения | 2020 | [181] | Р. Кулкарни |
Мировые новости - в совокупности 20K Корма | Снимок всех заголовков на более чем 20 языках за неделю | Время публикации, URL и заголовки | 1,398,431 | CSV | Кластеризация, события, определение языка | 2018 | [182] | Р. Кулкарни |
Рейтер Заголовок новостной ленты | 11 лет событий с указанием времени, опубликованных в ленте новостей | Время публикации, текст заголовка | 16,121,310 | CSV | НЛП, Компьютерная лингвистика, События | 2018 | [183] | Р. Кулкарни |
The Irish Times Корпус новостей Ирландии | 24 года новостей Ирландии с 1996 по 2019 год | Время публикации, категория заголовка и текст | 1,484,340 | CSV | НЛП, Компьютерная лингвистика, События | 2020 | [184] | Р. Кулкарни |
Набор данных заголовков новостей для обнаружения сарказма | Высококачественный набор данных с саркастическими и несаркастическими заголовками новостей. | Чистый, нормализованный текст | 26,709 | JSON | НЛП, Классификация, Лингвистика | 2018 | [185] | Ришаб Мишра |
Сообщения
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных электронной почты Enron | Электронные письма от сотрудников в Enron организованы в папки. | Вложения удалены, неверные адреса электронной почты преобразованы в [email protected] или [email protected]. | ~ 500,000 | Текст | Сетевой анализ, анализ настроений | 2004 (2015) | [186][187] | Климт, Б. и Ю. Ян |
Набор данных Ling-Spam | Корпус, содержащий как законные, так и спам электронные письма. | Четыре версии корпуса с указанием того, лемматизатор или был включен стоп-лист. | 2,412 Ham 481 Спам | Текст | Классификация | 2000 | [188][189] | Androutsopoulos, J. et al. |
Набор данных сбора SMS-спама | Собранные SMS-спам-сообщения. | Никто. | 5,574 | Текст | Классификация | 2011 | [190][191] | T. Almeida et al. |
Набор данных "Двадцать групп новостей" | Сообщения из 20 разных групп новостей. | Никто. | 20,000 | Текст | Обработка естественного языка | 1999 | [192] | T. Mitchell et al. |
Набор данных Spambase | Спам-письма. | Извлечено много текстовых функций. | 4,601 | Текст | Обнаружение спама, классификация | 1999 | [193] | M. Hopkins et al. |
Твиттер и твиты
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Фильм Твиты | Набор данных рейтинга фильмов на основе публичных и хорошо структурированных твитов | ~710,000 | Текст | Классификация, регрессия | 2018 | [194] | С. Дума | |
Twitter100k | Пары изображений и твитов | 100,000 | Текст и изображения | Кросс-медиа поиск | 2017 | [195][196] | Y. Hu, et al. | |
Настроение140 | Данные твита за 2009 год, включая исходный текст, отметку времени, пользователя и настроение. | Классифицируется с помощью дистанционного наблюдения за наличием смайлика в твите. | 1,578,627 | Твиты, запятая, значения с разделителями | Анализ настроений | 2009 | [197][198] | A. Go et al. |
Набор данных Twitter ASU | Сетевые данные Twitter, а не настоящие твиты. Показывает связи между большим количеством пользователей. | Никто. | 11316811 пользователей, 85 331 846 подключений | Текст | Кластеризация, анализ графиков | 2009 | [199][200] | R. Zafarani et al. |
Социальные круги SNAP: база данных Twitter | Большие сетевые данные Twitter. | Особенности узлов, круги и сети эго. | 1,768,149 | Текст | Кластеризация, анализ графиков | 2012 | [201][202] | J. McAuley et al. |
Набор данных Twitter для анализа настроений арабов | Арабские твиты. | Образцы помечаются вручную как положительные или отрицательные. | 2000 | Текст | Классификация | 2014 | [203][204] | Н. Абдулла |
Жужжание в наборе данных социальных сетей | Данные из Twitter и Tom's Hardware. Этот набор данных посвящен конкретным темам, обсуждаемым на этих сайтах. | Данные отображаются в виде окон, чтобы пользователь мог попытаться предсказать события, приведшие к появлению шума в социальных сетях. | 140,000 | Текст | Регрессия, Классификация | 2013 | [205][206] | F. Kawala et al. |
Парафраз и семантическое сходство в Twitter (PIT) | Этот набор данных фокусируется на том, имеют ли твиты (почти) одинаковое значение / информацию или нет. Отмечено вручную. | токенизация, теги частей речи и именованных сущностей | 18,762 | Текст | Регрессия, Классификация | 2015 | [207][208] | Xu et al. |
Набор данных тестов Geoparse Twitter | Этот набор данных содержит твиты во время различных новостных событий в разных странах. Упоминания местоположения, помеченные вручную. | аннотации местоположения добавлены в метаданные JSON | 6,386 | Твиты, JSON | Классификация, извлечение информации | 2014 | [209][210] | S.E. Миддлтон и др. |
Диалоги
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Корпус чата NPS | Сообщения из онлайн-чатов для разных возрастных категорий. | Конфиденциальность рук замаскирована, помечена для части речи и диалога. | ~ 500,000 | XML | НЛП, программирование, лингвистика | 2007 | [211] | Форсайт, Э., Лин, Дж., И Мартелл, К. |
Twitter Triple Corpus | Тройки A-B-A извлечены из Twitter. | 4,232 | Текст | НЛП | 2016 | [212] | Сордини, А. и др. | |
UseNet Corpus | Сообщения на форуме UseNet. | Анонимные электронные письма и URL-адреса. Пропущенные документы с длиной <500 слов или> 500 000 слов, или которые были <90% на английском языке. | 7 миллиардов | Текст | 2011 | [213] | Шауль К. и Уэстбери К. | |
NUS SMS Corpus | SMS-сообщения, собранные между двумя пользователями, с временным анализом. | ~ 10,000 | XML | НЛП | 2011 | [214] | КАН, М | |
Reddit Корпус всех комментариев | Все комментарии Reddit (по состоянию на 2015 год). | ~ 1,7 миллиарда | JSON | НЛП, исследования | 2015 | [215] | Застрявший в матрице | |
Корпус диалогов Ubuntu | Диалоги, извлеченные из потока чата Ubuntu в IRC. | CSV | Исследование диалоговых систем | 2015 | [216] | Lowe, R. et al. |
Другой текст
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных Web of Science | Иерархические наборы данных для классификации текста | Никто. | 46,985 | Текст | Классификация, Категоризация | 2017 | [217][218] | K. Kowsari et al. |
Отчеты по судебным делам | Федеральный суд Австралии дел с 2006 по 2009 гг. | Никто. | 4,000 | Текст | Обобщение, анализ цитирования | 2012 | [219][220] | F. Galgani et al. |
Blogger Authorship Corpus | Записи в блогах 19 320 человек с blogger.com. | Блогер сам указал пол, возраст, отрасль и знак зодиака. | 681,288 | Текст | Анализ тональности, обобщение, классификация | 2006 | [221][222] | J. Schler et al. |
Социальная структура сетей Facebook | Большой набор данных социальной структуры Facebook. | Никто. | 100 колледжей покрыты | Текст | Сетевой анализ, кластеризация | 2012 | [223][224] | A. Traud et al. |
Набор данных для машинного понимания текста | Рассказы и связанные вопросы для проверки понимания текста. | Никто. | 660 | Текст | Обработка естественного языка, машинное понимание | 2013 | [225][226] | M. Richardson et al. |
Проект Penn Treebank | Естественный текст с аннотациями для лингвистической структуры. | Текст разбирается на семантические деревья. | ~ 1 млн слов | Текст | Обработка естественного языка, реферирование | 1995 | [227][228] | M. Marcus et al. |
Набор данных DEXTER | Данная задача состоит в том, чтобы определить по приведенным характеристикам, какие статьи посвящены корпоративным поглощениям. | Извлеченные элементы включают основы слов. Включены функции дистрактора. | 2600 | Текст | Классификация | 2008 | [229] | Рейтер |
N-граммы Google Книги | N-граммы из очень большого корпуса книг | Никто. | 2,2 ТБ текста | Текст | Classification, clustering, regression | 2011 | [230][231] | |
Personae Corpus | Collected for experiments in Authorship Attribution and Personality Prediction. Consists of 145 Dutch-language essays. | In addition to normal texts, syntactically annotated texts are given. | 145 | Текст | Classification, regression | 2008 | [232][233] | K. Luyckx et al. |
CNAE-9 Dataset | Categorization task for free text descriptions of Brazilian companies. | Word frequency has been extracted. | 1080 | Текст | Классификация | 2012 | [234][235] | P. Ciarelli et al. |
Sentiment Labeled Sentences Dataset | 3000 sentiment labeled sentences. | Sentiment of each sentence has been hand labeled as positive or negative. | 3000 | Текст | Classification, sentiment analysis | 2015 | [236][237] | D. Kotzias |
BlogFeedback Dataset | Dataset to predict the number of comments a post will receive based on features of that post. | Many features of each post extracted. | 60,021 | Текст | Регресс | 2014 | [238][239] | K. Buza |
Stanford Natural Language Inference (SNLI) Corpus | Image captions matched with newly constructed sentences to form entailment, contradiction, or neutral pairs. | Entailment class labels, syntactic parsing by the Stanford PCFG parser | 570,000 | Текст | Natural language inference/recognizing textual entailment | 2015 | [240] | S. Bowman et al. |
DSL Corpus Collection (DSLCC) | A multilingual collection of short excerpts of journalistic texts in similar languages and dialects. | Никто | 294,000 phrases | Текст | Discriminating between similar languages | 2017 | [241] | Tan, Liling et al. |
Urban Dictionary Набор данных | Corpus of words, votes and definitions | User names anonymised | 2,580,925 | CSV | NLP, Machine comprehension | 2016 May | [242] | Анонимный |
T-REx | Википедия abstracts aligned with Викиданные сущности | Alignment of Wikidata triples with Wikipedia abstracts | 11M aligned triples | JSON and NIF [1] | NLP, Relation Extraction | 2018 | [243] | H. Elsahar et al. |
General Language Understanding Evaluation (GLUE) | Benchmark of nine tasks | Разные | ~1M sentences and sentence pairs | NLU | 2018 | [244][245] | Wang et al. | |
Atticus Open Contract Dataset (AOK) | Dataset of legal contracts with rich expert annotations | ~3,000 labels | CSV and PDF | Natural language processing, QnA | 2020 | The Atticus Project | ||
Vietnamese Image Captioning Dataset (UIT-ViIC) | Vietnamese Image Captioning Dataset | 19,250 captions for 3,850 images | CSV and PDF | Natural language processing, Computer vision | 2020 | [246] | Lam et al. | |
Vietnamese Names annotated with Genders (UIT-ViNames) | Vietnamese Names annotated with Genders | 26,850 Vietnamese full names annotated with genders | CSV | Обработка естественного языка | 2020 | [247] | To et al. |
Sound data
Datasets of sounds and sound features.
Речь
Dataset Name | Краткое описание | Предварительная обработка | Экземпляры | Формат | Default Task | Created (updated) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Zero Resource Speech Challenge 2015 | Spontaneous speech (English), Read speech (Xitsonga). | raw wav | English: 5h, 12 speakers; Xitsonga: 2h30; 24 speakers | звук | Unsupervised discovery of speech features/subword units/word units | 2015 | [248][249] | Versteegh et al. |
Parkinson Speech Dataset | Multiple recordings of people with and without Parkinson's Disease. | Voice features extracted, disease scored by physician using unified Parkinson's disease rating scale | 1,040 | Текст | Classification, regression | 2013 | [250][251] | B. E. Sakar et al. |
Spoken Arabic Digits | Spoken Arabic digits from 44 male and 44 female. | Time-series of mel-frequency cepstrum коэффициенты. | 8,800 | Текст | Классификация | 2010 | [252][253] | M. Bedda et al. |
ISOLET Dataset | Spoken letter names. | Features extracted from sounds. | 7797 | Текст | Классификация | 1994 | [254][255] | R. Cole et al. |
Japanese Vowels Dataset | Nine male speakers uttered two Japanese vowels successively. | Applied 12-degree linear prediction analysis to it to obtain a discrete-time series with 12 cepstrum coefficients. | 640 | Текст | Классификация | 1999 | [256][257] | M. Kudo et al. |
Parkinson's Telemonitoring Dataset | Multiple recordings of people with and without Parkinson's Disease. | Sound features extracted. | 5875 | Текст | Классификация | 2009 | [258][259] | A. Tsanas et al. |
ТИМИТ | Recordings of 630 speakers of eight major dialects of American English, each reading ten phonetically rich sentences. | Speech is lexically and phonemically transcribed. | 6300 | Текст | Speech recognition, classification. | 1986 | [260][261] | J. Garofolo et al. |
Arabic Speech Corpus | A single-speaker, Современный Стандартный арабский (MSA) speech corpus with phonetic and orthographic transcripts aligned to phoneme level | Speech is orthographically and phonetically transcribed with stress marks. | ~1900 | Text, WAV | Speech Synthesis, Speech Recognition, Corpus Alignment, Speech Therapy, Education. | 2016 | [262] | N. Halabi |
Общий голос | A public domain database of краудсорсинг data across a wide range of dialects. | Validation by other users | English: 1,118 hours | MP3 with corresponding text files | Распознавание речи | June 2017 (December 2019) | [263] | Mozilla |
Музыка
Dataset Name | Краткое описание | Предварительная обработка | Экземпляры | Формат | Default Task | Created (updated) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Geographic Origin of Music Data Set | Audio features of music samples from different locations. | Audio features extracted using MARSYAS software. | 1,059 | Текст | Geographic classification, clustering | 2014 | [264][265] | F. Zhou et al. |
Million Song Dataset | Audio features from one million different songs. | Audio features extracted. | 1 млн | Текст | Classification, clustering | 2011 | [266][267] | T. Bertin-Mahieux et al. |
MUSDB18 | Multi-track popular music recordings | Raw audio | 150 | MP4, WAV | Source Separation | 2017 | [268] | Z. Rafii et al. |
Бесплатный Музыкальный Архив | Audio under Creative Commons from 100k songs (343 days, 1TiB) with a hierarchy of 161 genres, metadata, user data, free-form text. | Raw audio and audio features. | 106,574 | Text, MP3 | Classification, recommendation | 2017 | [269] | M. Defferrard et al. |
Bach Choral Harmony Dataset | Bach chorale chords. | Audio features extracted. | 5665 | Текст | Классификация | 2014 | [270][271] | D. Radicioni et al. |
Other sounds
Dataset Name | Краткое описание | Предварительная обработка | Экземпляры | Формат | Default Task | Created (updated) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
UrbanSound | Labeled sound recordings of sounds like air conditioners, car horns and children playing. | Sorted into folders by class of events as well as metadata in a JSON file and annotations in a CSV file. | 1,059 | Звук (WAV ) | Классификация | 2014 | [272][273] | J. Salamon et al. |
AudioSet | 10-second sound snippets from YouTube videos, and an ontology of over 500 labels. | 128-d PCA'd VGG-ish features every 1 second. | 2,084,320 | Text (CSV) and TensorFlow Record files | Классификация | 2017 | [274] | J. Gemmeke et al., Google |
Bird Audio Detection challenge | Audio from environmental monitoring stations, plus crowdsourced recordings | 17,000+ | Классификация | 2016 (2018) | [275][276] | Университет Королевы Марии и Общество обработки сигналов IEEE | ||
WSJ0 Hipster Ambient Mixtures | Audio from WSJ0 mixed with noise recorded in the Область залива Сан-Франциско | Noise clips matched to WSJ0 clips | 28,000 | Sound (WAV ) | Audio source separation | 2019 | [277] | Wichern, G., et al., Whisper and MERL |
Clotho | 4,981 audio samples of 15 to 30 seconds long, each audio sample having five different captions of eight to 20 words long. | 24,905 | Sound (WAV ) and text (CSV ) | Automated audio captioning | 2020 | [278][279] | K. Drossos, S. Lipping, and T. Virtanen |
Signal data
Datasets containing electric signal information requiring some sort of Обработка сигналов for further analysis.
Электрические
Dataset Name | Краткое описание | Предварительная обработка | Экземпляры | Формат | Default Task | Created (updated) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Witty Worm Dataset | Dataset detailing the spread of the Witty worm and the infected computers. | Split into a publicly available set and a restricted set containing more sensitive information like IP and UDP headers. | 55,909 IP addresses | Текст | Классификация | 2004 | [280][281] | Центр прикладного анализа интернет-данных |
Cuff-Less Blood Pressure Estimation Dataset | Cleaned vital signals from human patients which can be used to estimate blood pressure. | 125 Hz vital signs have been cleaned. | 12,000 | Текст | Classification, regression | 2015 | [282][283] | M. Kachuee et al. |
Gas Sensor Array Drift Dataset | Measurements from 16 chemical sensors utilized in simulations for drift compensation. | Extensive number of features given. | 13,910 | Текст | Классификация | 2012 | [284][285] | A. Vergara |
Servo Dataset | Data covering the nonlinear relationships observed in a servo-amplifier circuit. | Levels of various components as a function of other components are given. | 167 | Текст | Регресс | 1993 | [286][287] | K. Ullrich |
UJIIndoorLoc-Mag Dataset | Indoor localization database to test indoor positioning systems. Data is magnetic field based. | Train and test splits given. | 40,000 | Текст | Classification, regression, clustering | 2015 | [288][289] | D. Rambla et al. |
Sensorless Drive Diagnosis Dataset | Electrical signals from motors with defective components. | Statistical features extracted. | 58,508 | Текст | Классификация | 2015 | [290][291] | M. Bator |
Motion-tracking
Dataset Name | Краткое описание | Предварительная обработка | Экземпляры | Формат | Default Task | Created (updated) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Wearable Computing: Classification of Body Postures and Movements (PUC-Rio) | People performing five standard actions while wearing motion trackers. | Никто. | 165,632 | Текст | Классификация | 2013 | [292][293] | Папский католический университет Рио-де-Жанейро |
Gesture Phase Segmentation Dataset | Features extracted from video of people doing various gestures. | Features extracted aim at studying gesture phase segmentation. | 9900 | Текст | Classification, clustering | 2014 | [294][295] | R. Madeo et a |
Vicon Physical Action Data Set Dataset | 10 normal and 10 aggressive physical actions that measure the human activity tracked by a 3D tracker. | Many parameters recorded by 3D tracker. | 3000 | Текст | Классификация | 2011 | [296][297] | T. Theodoridis |
Daily and Sports Activities Dataset | Motor sensor data for 19 daily and sports activities. | Many sensors given, no preprocessing done on signals. | 9120 | Текст | Классификация | 2013 | [298][299] | B. Barshan et al. |
Human Activity Recognition Using Smartphones Dataset | Gyroscope and accelerometer data from people wearing smartphones and performing normal actions. | Actions performed are labeled, all signals preprocessed for noise. | 10,299 | Текст | Классификация | 2012 | [300][301] | J. Reyes-Ortiz et al. |
Australian Sign Language Signs | Australian sign language signs captured by motion-tracking gloves. | Никто. | 2565 | Текст | Классификация | 2002 | [302][303] | M. Kadous |
Weight Lifting Exercises monitored with Inertial Measurement Units | Five variations of the biceps curl exercise monitored with IMUs. | Some statistics calculated from raw data. | 39,242 | Текст | Классификация | 2013 | [304][305] | W. Ugulino et al. |
sEMG for Basic Hand movements Dataset | Two databases of surface electromyographic signals of 6 hand movements. | Никто. | 3000 | Текст | Классификация | 2014 | [306][307] | C. Sapsanis et al. |
REALDISP Activity Recognition Dataset | Evaluate techniques dealing with the effects of sensor displacement in wearable activity recognition. | Никто. | 1419 | Текст | Классификация | 2014 | [307][308] | O. Banos et al. |
Heterogeneity Activity Recognition Dataset | Data from multiple different smart devices for humans performing various activities. | Никто. | 43,930,257 | Текст | Classification, clustering | 2015 | [309][310] | A. Stisen et al. |
Indoor User Movement Prediction from RSS Data | Temporal wireless network data that can be used to track the movement of people in an office. | Никто. | 13,197 | Текст | Классификация | 2016 | [311][312] | D. Bacciu |
PAMAP2 Physical Activity Monitoring Dataset | 18 different types of physical activities performed by 9 subjects wearing 3 IMUs. | Никто. | 3,850,505 | Текст | Классификация | 2012 | [313] | A. Reiss |
OPPORTUNITY Activity Recognition Dataset | Human Activity Recognition from wearable, object, and ambient sensors is a dataset devised to benchmark human activity recognition algorithms. | Никто. | 2551 | Текст | Классификация | 2012 | [314][315] | D. Roggen et al. |
Real World Activity Recognition Dataset | Human Activity Recognition from wearable devices. Distinguishes between seven on-body device positions and comprises six different kinds of sensors. | Никто. | 3,150,000 (per sensor) | Текст | Классификация | 2016 | [316] | T. Sztyler et al. |
Toronto Rehab Stroke Pose Dataset | 3D human pose estimates (Kinect) of stroke patients and healthy participants performing a set of tasks using a stroke rehabilitation robot. | Никто. | 10 healthy person and 9 stroke survivors (3500-6000 frames per person) | CSV | Классификация | 2017 | [317][318][319] | E. Dolatabadi et al. |
Corpus of Social Touch (CoST) | 7805 gesture captures of 14 different social touch gestures performed by 31 subjects. The gestures were performed in three variations: gentle, normal and rough, on a pressure sensor grid wrapped around a mannequin arm. | Touch gestures performed are segmented and labeled. | 7805 gesture captures | CSV | Классификация | 2016 | [320][321] | M. Jung et al. |
Other signals
Dataset Name | Краткое описание | Предварительная обработка | Экземпляры | Формат | Default Task | Created (updated) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Wine Dataset | Chemical analysis of wines grown in the same region in Italy but derived from three different cultivars. | 13 properties of each wine are given | 178 | Текст | Classification, regression | 1991 | [322][323] | M. Forina et al. |
Combined Cycle Power Plant Data Set | Data from various sensors within a power plant running for 6 years. | Никто | 9568 | Текст | Регресс | 2014 | [324][325] | P. Tufekci et al. |
Физические данные
Datasets from physical systems.
Физика высоких энергий
Dataset Name | Краткое описание | Предварительная обработка | Экземпляры | Формат | Default Task | Created (updated) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
HIGGS Dataset | Monte Carlo simulations of particle accelerator collisions. | 28 features of each collision are given. | 11 млн | Текст | Классификация | 2014 | [326][327][328] | D. Whiteson |
HEPMASS Dataset | Monte Carlo simulations of particle accelerator collisions. Goal is to separate the signal from noise. | 28 features of each collision are given. | 10,500,000 | Текст | Классификация | 2016 | [327][328][329] | D. Whiteson |
Системы
Dataset Name | Краткое описание | Предварительная обработка | Экземпляры | Формат | Default Task | Created (updated) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Yacht Hydrodynamics Dataset | Yacht performance based on dimensions. | Six features are given for each yacht. | 308 | Текст | Регресс | 2013 | [330][331] | R. Lopez |
Robot Execution Failures Dataset | 5 data sets that center around robotic failure to execute common tasks. | Integer valued features such as torque and other sensor measurements. | 463 | Текст | Классификация | 1999 | [332] | L. Seabra et al. |
Pittsburgh Bridges Dataset | Design description is given in terms of several properties of various bridges. | Various bridge features are given. | 108 | Текст | Классификация | 1990 | [333][334] | Y. Reich et al. |
Automobile Dataset | Data about automobiles, their insurance risk, and their normalized losses. | Car features extracted. | 205 | Текст | Регресс | 1987 | [335][336] | J. Schimmer et al. |
Auto MPG Dataset | MPG data for cars. | Eight features of each car given. | 398 | Текст | Регресс | 1993 | [337] | Университет Карнеги Меллон |
Energy Efficiency Dataset | Heating and cooling requirements given as a function of building parameters. | Building parameters given. | 768 | Текст | Classification, regression | 2012 | [338][339] | A. Xifara et al. |
Airfoil Self-Noise Dataset | A series of aerodynamic and acoustic tests of two and three-dimensional airfoil blade sections. | Data about frequency, angle of attack, etc., are given. | 1503 | Текст | Регресс | 2014 | [340] | R. Lopez |
Challenger USA Space Shuttle O-Ring Dataset | Attempt to predict O-ring problems given past Challenger data. | Several features of each flight, such as launch temperature, are given. | 23 | Текст | Регресс | 1993 | [341][342] | D. Draper et al. |
Statlog (Shuttle) Dataset | NASA space shuttle datasets. | Nine features given. | 58,000 | Текст | Классификация | 2002 | [343] | НАСА |
Астрономия
Dataset Name | Краткое описание | Предварительная обработка | Экземпляры | Формат | Default Task | Created (updated) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Volcanoes on Venus – JARtool experiment Dataset | Venus images returned by the Magellan spacecraft. | Images are labeled by humans. | не дано | Изображений | Классификация | 1991 | [344][345] | M. Burl |
MAGIC Gamma Telescope Dataset | Monte Carlo generated high-energy gamma particle events. | Numerous features extracted from the simulations. | 19,020 | Текст | Классификация | 2007 | [345][346] | R. Bock |
Solar Flare Dataset | Measurements of the number of certain types of solar flare events occurring in a 24-hour period. | Many solar flare-specific features are given. | 1389 | Текст | Regression, classification | 1989 | [347] | Г. Брэдшоу |
Науки о Земле
Dataset Name | Краткое описание | Предварительная обработка | Экземпляры | Формат | Default Task | Created (updated) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Вулканы мира | Volcanic eruption data for all known volcanic events on earth. | Details such as region, subregion, tectonic setting, dominant rock type are given. | 1535 | Текст | Regression, classification | 2013 | [348] | E. Venzke et al. |
Seismic-bumps Dataset | Seismic activities from a coal mine. | Seismic activity was classified as hazardous or not. | 2584 | Текст | Классификация | 2013 | [349][350] | M. Sikora et al. |
Other physical
Dataset Name | Краткое описание | Предварительная обработка | Экземпляры | Формат | Default Task | Created (updated) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Concrete Compressive Strength Dataset | Dataset of concrete properties and compressive strength. | Nine features are given for each sample. | 1030 | Текст | Регресс | 2007 | [351][352] | I. Yeh |
Concrete Slump Test Dataset | Concrete slump flow given in terms of properties. | Features of concrete given such as fly ash, water, etc. | 103 | Текст | Регресс | 2009 | [353][354] | I. Yeh |
Musk Dataset | Predict if a molecule, given the features, will be a musk or a non-musk. | 168 features given for each molecule. | 6598 | Текст | Классификация | 1994 | [355] | Arris Pharmaceutical Corp. |
Steel Plates Faults Dataset | Steel plates of 7 different types. | 27 features given for each sample. | 1941 | Текст | Классификация | 2010 | [356] | Semeion Research Center |
Biological data
Datasets from biological systems.
Человек
Dataset Name | Краткое описание | Предварительная обработка | Экземпляры | Формат | Default Task | Created (updated) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
EEG Database | Study to examine EEG correlates of genetic predisposition to alcoholism. | Measurements from 64 electrodes placed on the scalp sampled at 256 Hz (3.9 ms epoch) for 1 second. | 122 | Текст | Классификация | 1999 | [357] | H. Begleiter |
P300 Interface Dataset | Data from nine subjects collected using P300-based brain-computer interface for disabled subjects. | Split into four sessions for each subject. MATLAB code given. | 1,224 | Текст | Классификация | 2008 | [358][359] | U. Hoffman et al. |
Heart Disease Data Set | Attributed of patients with and without heart disease. | 75 attributes given for each patient with some missing values. | 303 | Текст | Классификация | 1988 | [360][361] | A. Janosi et al. |
Breast Cancer Wisconsin (Diagnostic) Dataset | Dataset of features of breast masses. Diagnoses by physician is given. | 10 features for each sample are given. | 569 | Текст | Классификация | 1995 | [362][363] | W. Wolberg et al. |
Национальное исследование употребления наркотиков и здоровья | Large scale survey on health and drug use in the United States. | Никто. | 55,268 | Текст | Classification, regression | 2012 | [364] | Министерство здравоохранения и социальных служб США |
Lung Cancer Dataset | Lung cancer dataset without attribute definitions | 56 features are given for each case | 32 | Текст | Классификация | 1992 | [365][366] | Z. Hong et al. |
Arrhythmia Dataset | Data for a group of patients, of which some have cardiac arrhythmia. | 276 features for each instance. | 452 | Текст | Классификация | 1998 | [367][368] | H. Altay et al. |
Diabetes 130-US hospitals for years 1999–2008 Dataset | 9 years of readmission data across 130 US hospitals for patients with diabetes. | Many features of each readmission are given. | 100,000 | Текст | Classification, clustering | 2014 | [369][370] | J. Clore et al. |
Diabetic Retinopathy Debrecen Dataset | Features extracted from images of eyes with and without diabetic retinopathy. | Features extracted and conditions diagnosed. | 1151 | Текст | Классификация | 2014 | [371][372] | B. Antal et al. |
Diabetic Retinopathy Messidor Dataset | Methods to evaluate segmentation and indexing techniques in the field of retinal ophthalmology (MESSIDOR) | Features retinopathy grade and risk of macular edema | 1200 | Images, Text | Classification, Segmentation | 2008 | [373][374] | Messidor Project |
Liver Disorders Dataset | Data for people with liver disorders. | Seven biological features given for each patient. | 345 | Текст | Классификация | 1990 | [375][376] | Bupa Medical Research Ltd. |
Thyroid Disease Dataset | 10 databases of thyroid disease patient data. | Никто. | 7200 | Текст | Классификация | 1987 | [377][378] | R. Quinlan |
Mesothelioma Dataset | Mesothelioma patient data. | Large number of features, including asbestos exposure, are given. | 324 | Текст | Классификация | 2016 | [379][380] | A. Tanrikulu et al. |
Parkinson's Vision-Based Pose Estimation Dataset | 2D human pose estimates of Parkinson's patients performing a variety of tasks. | Camera shake has been removed from trajectories. | 134 | Текст | Classification, regression | 2017 | [381][382][383] | M. Li et al. |
KEGG Metabolic Reaction Network (Undirected) Dataset | Network of metabolic pathways. A reaction network and a relation network are given. | Detailed features for each network node and pathway are given. | 65,554 | Текст | Classification, clustering, regression | 2011 | [384] | M. Naeem et al. |
Modified Human Sperm Morphology Analysis Dataset (MHSMA) | Human sperm images from 235 patients with male factor infertility, labeled for normal or abnormal sperm acrosome, head, vacuole, and tail. | Cropped around single sperm head. Magnification normalized. Training, validation, and test set splits created. | 1,540 | .npy files | Классификация | 2019 | [385][386] | S. Javadi and S.A. Mirroshandel |
Животное
Dataset Name | Краткое описание | Предварительная обработка | Экземпляры | Формат | Default Task | Created (updated) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Abalone Dataset | Physical measurements of Abalone. Weather patterns and location are also given. | Никто. | 4177 | Текст | Регресс | 1995 | [387] | Marine Research Laboratories – Taroona |
Zoo Dataset | Artificial dataset covering 7 classes of animals. | Animals are classed into 7 categories and features are given for each. | 101 | Текст | Классификация | 1990 | [388] | R. Forsyth |
Demospongiae Dataset | Data about marine sponges. | 503 sponges in the Демоспондж class are described by various features. | 503 | Текст | Классификация | 2010 | [389] | E. Armengol et al. |
Splice-junction Gene Sequences Dataset | Primate splice-junction gene sequences (DNA) with associated imperfect domain theory. | Никто. | 3190 | Текст | Классификация | 1992 | [366] | G. Towell et al. |
Mice Protein Expression Dataset | Expression levels of 77 proteins measured in the cerebral cortex of mice. | Никто. | 1080 | Текст | Classification, Clustering | 2015 | [390][391] | C. Higuera et al. |
Растение
Dataset Name | Краткое описание | Предварительная обработка | Экземпляры | Формат | Default Task | Created (updated) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Forest Fires Dataset | Forest fires and their properties. | 13 features of each fire are extracted. | 517 | Текст | Регресс | 2008 | [392][393] | P. Cortez et al. |
Iris Dataset | Three types of iris plants are described by 4 different attributes. | Никто. | 150 | Текст | Классификация | 1936 | [394][395] | R. Fisher |
Plant Species Leaves Dataset | Sixteen samples of leaf each of one-hundred plant species. | Shape descriptor, fine-scale margin, and texture histograms are given. | 1600 | Текст | Классификация | 2012 | [396][397] | J. Cope et al. |
Mushroom Dataset | Mushroom attributes and classification. | Many properties of each mushroom are given. | 8124 | Текст | Классификация | 1987 | [398] | J. Schlimmer |
Soybean Dataset | Database of diseased soybean plants. | 35 features for each plant are given. Plants are classified into 19 categories. | 307 | Текст | Классификация | 1988 | [399] | R. Michalski et al. |
Seeds Dataset | Measurements of geometrical properties of kernels belonging to three different varieties of wheat. | Никто. | 210 | Текст | Classification, clustering | 2012 | [400][401] | Charytanowicz et al. |
Covertype Dataset | Data for predicting forest cover type strictly from cartographic variables. | Many geographical features given. | 581,012 | Текст | Классификация | 1998 | [402][403] | J. Blackard et al. |
Abscisic Acid Signaling Network Dataset | Data for a plant signaling network. Goal is to determine set of rules that governs the network. | Никто. | 300 | Текст | Causal-discovery | 2008 | [404] | J. Jenkens et al. |
Folio Dataset | 20 photos of leaves for each of 32 species. | Никто. | 637 | Images, text | Classification, clustering | 2015 | [405][406] | T. Munisami et al. |
Oxford Flower Dataset | 17 category dataset of flowers. | Train/test splits, labeled images, | 1360 | Images, text | Классификация | 2006 | [138][407] | M-E Nilsback et al. |
Plant Seedlings Dataset | 12 category dataset of plant seedlings. | Labelled images, segmented images, | 5544 | Изображений | Classification, detection | 2017 | [408] | Giselsson et al. |
Fruits 360 dataset | Database with images of 120 fruits and vegetables. | 100x100 pixels, White background. | 82213 | Images (jpg) | Классификация | 2017-2019 | [409][410] | Mihai Oltean, Horea Muresan |
Микроб
Dataset Name | Краткое описание | Предварительная обработка | Экземпляры | Формат | Default Task | Created (updated) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Ecoli Dataset | Protein localization sites. | Various features of the protein localizations sites are given. | 336 | Текст | Классификация | 1996 | [411][412] | K. Nakai et al. |
MicroMass Dataset | Identification of microorganisms from mass-spectrometry data. | Various mass spectrometer features. | 931 | Текст | Классификация | 2013 | [413][414] | P. Mahe et al. |
Yeast Dataset | Predictions of Cellular localization sites of proteins. | Eight features given per instance. | 1484 | Текст | Классификация | 1996 | [415][416] | K. Nakai et al. |
Открытие наркотиков
Dataset Name | Краткое описание | Предварительная обработка | Экземпляры | Формат | Default Task | Created (updated) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Tox21 Dataset | Prediction of outcome of biological assays. | Chemical descriptors of molecules are given. | 12707 | Текст | Классификация | 2016 | [417] | A. Mayr et al. |
Anomaly data
Dataset Name | Краткое описание | Предварительная обработка | Экземпляры | Формат | Default Task | Created (updated) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Numenta Anomaly Benchmark (NAB) | Data are ordered, timestamped, single-valued metrics. All data files contain anomalies, unless otherwise noted. | Никто | 50+ files | Comma separated values | Обнаружение аномалий | 2016 (continually updated) | [418] | Numenta |
On the Evaluation of Unsupervised Outlier Detection: Measures, Datasets, and an Empirical Study | Most data files are adapted from UCI Machine Learning Repository data, some are collected from the literature. | treated for missing values, numerical attributes only, different percentages of anomalies, labels | 1000+ files | ARFF | Обнаружение аномалий | 2016 (possibly updated with new datasets and/or results) | Campos et al. |
Question Answering data
This section includes datasets that deals with structured data.
Dataset Name | Краткое описание | Предварительная обработка | Экземпляры | Формат | Default Task | Created (updated) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
DBpedia Neural Question Answering (DBNQA) Dataset | A large collection of Question to SPARQL specially design for Open Domain Neural Question Answering over DBpedia Knowledgebase. | This dataset contains a large collection of Open Neural SPARQL Templates and instances for training Neural SPARQL Machines; it was pre-processed by semi-automatic annotation tools as well as by three SPARQL experts. | 894,499 | Question-query pairs | Ответ на вопрос | 2018 | [420][421] | Hartmann, Soru, and Marx et al. |
Vietnamese Question Answering Dataset (UIT-ViQuAD) | A large collection of Vietnamese questions for evaluating MRC models. | This dataset comprises over 23,000 human-generated question-answer pairs based on 5,109 passages of 174 Vietnamese articles from Wikipedia. | 23,074 | Question-answer pairs | Ответ на вопрос | 2020 | [422] | Nguyen et al. |
Vietnamese Multiple-Choice Machine Reading Comprehension Corpus(ViMMRC) | A collection of Vietnamese multiple-choice questions for evaluating MRC models. | This corpus includes 2,783 Vietnamese multiple-choice questions. | 2,783 | Question-answer pairs | Question Answering/Machine Reading Comprehension | 2020 | [423] | Nguyen et al. |
Multivariate data
Datasets consisting of rows of observations and columns of attributes characterizing those observations. Typically used for регрессивный анализ or classification but other types of algorithms can also be used. This section includes datasets that do not fit in the above categories.
Финансовые
Dataset Name | Краткое описание | Предварительная обработка | Экземпляры | Формат | Default Task | Created (updated) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Индекс Доу-Джонса | Weekly data of stocks from the first and second quarters of 2011. | Calculated values included such as percentage change and a lags. | 750 | Comma separated values | Classification, regression, Временные ряды | 2014 | [424][425] | M. Brown et al. |
Statlog (Australian Credit Approval) | Credit card applications either accepted or rejected and attributes about the application. | Attribute names are removed as well as identifying information. Factors have been relabeled. | 690 | Comma separated values | Классификация | 1987 | [426][427] | R. Quinlan |
eBay auction data | Auction data from various eBay.com objects over various length auctions | Contains all bids, bidderID, bid times, and opening prices. | ~ 550 | Текст | Regression, classification | 2012 | [428][429] | G. Shmueli и другие. |
Statlog (German Credit Data) | Binary credit classification into "good" or "bad" with many features | Various financial features of each person are given. | 690 | Текст | Классификация | 1994 | [430] | H. Hofmann |
Bank Marketing Dataset | Data from a large marketing campaign carried out by a large bank . | Many attributes of the clients contacted are given. If the client subscribed to the bank is also given. | 45,211 | Текст | Классификация | 2012 | [431][432] | S. Moro et al. |
Istanbul Stock Exchange Dataset | Several stock indexes tracked for almost two years. | Никто. | 536 | Текст | Classification, regression | 2013 | [433][434] | O. Akbilgic |
Default of Credit Card Clients | Credit default data for Taiwanese creditors. | Various features about each account are given. | 30,000 | Текст | Классификация | 2016 | [435][436] | I. Yeh |
Погода
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Облачный набор данных | Данные о 1024 различных облаках. | Особенности изображения извлечены. | 1024 | Текст | Классификация, кластеризация | 1989 | [437] | П. Коллард |
Набор данных Эль-Ниньо | Океанографические и приземные метеорологические данные взяты с ряда буев, расположенных по всей экваториальной части Тихого океана. | У каждого буя измеряется 12 погодных атрибутов. | 178080 | Текст | Регресс | 1999 | [438] | Тихоокеанская лаборатория морской среды |
Набор данных сети наблюдения за парниковыми газами | Временные ряды концентраций парниковых газов в 2921 ячейке сетки в Калифорнии, созданные с использованием моделирования погоды. | Никто. | 2921 | Текст | Регресс | 2015 | [439] | Д. Лукас |
Атмосферный CO2 из непрерывных проб воздуха в обсерватории Мауна-Лоа | Непрерывные пробы воздуха на Гавайях, США. 44 года рекордов. | Никто. | 44 года | Текст | Регресс | 2001 | [440] | Обсерватория Мауна-Лоа |
Набор данных ионосферы | Радиолокационные данные из ионосферы. Задача состоит в том, чтобы разделить радары на хорошие и плохие. | Приведено множество функций радара. | 351 | Текст | Классификация | 1989 | [378][441] | Университет Джона Хопкинса |
Набор данных определения уровня озона | Два набора данных об уровне приземного озона. | Приведено множество функций, включая погодные условия на момент измерения. | 2536 | Текст | Классификация | 2008 | [442][443] | K. Zhang et al. |
Перепись
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных для взрослых | Данные переписи 1994 года, содержащие демографические характеристики взрослых и их доходы. | Очищено и анонимно. | 48,842 | Значения, разделенные запятыми | Классификация | 1996 | [444] | Бюро переписи населения США |
Доход от переписи (KDD) | Взвешенные данные переписи 1994 и 1995 гг. Текущие обследования населения. | Разделить на тренировочную и тестовую наборы. | 299,285 | Значения, разделенные запятыми | Классификация | 2000 | [445][446] | Бюро переписи населения США |
База данных переписи IPUMS | Данные переписи населения в районах Лос-Анджелеса и Лонг-Бич. | Никто | 256,932 | Текст | Классификация, регрессия | 1999 | [447] | IPUMS |
Данные переписи населения США 1990 г. | Частичные данные переписи населения США 1990 года. | Результаты рандомизированы и полезные атрибуты выбраны. | 2,458,285 | Текст | Классификация, регрессия | 1990 | [448] | Бюро переписи населения США |
Транзит
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных для обмена велосипедами | Почасовой и посуточный счет проката велосипедов в большом городе. | Приведены многие характеристики, включая погоду, продолжительность поездки и т. Д. | 17,389 | Текст | Регресс | 2013 | [449][450] | Х. Фанаи-Т |
Данные о поездках на такси Нью-Йорка | Данные о поездках желтых и зеленых такси в Нью-Йорке. | Предоставляет места получения и высадки, тарифы и другие детали поездок. | 6 лет | Текст | Классификация, кластеризация | 2015 | [451] | Комиссия по такси и лимузину Нью-Йорка |
Траектория службы такси ECML PKDD | Траектории всех такси в большом городе. | Приведено множество функций, включая точки начала и остановки. | 1,710,671 | Текст | Кластеризация, причинно-следственные связи | 2015 | [452][453] | M. Ferreira et al. |
Интернет
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Веб-страницы из Common Crawl 2012 | Большая коллекция веб-страниц и то, как они связаны гиперссылками | Никто. | 3,5 млрд | Текст | кластеризация, классификация | 2013 | [454] | В. Гранвиль |
Набор данных интернет-рекламы | Набор данных для прогнозирования, является ли данное изображение рекламой. | Функции кодируют геометрию объявлений и фраз, встречающихся в URL. | 3279 | Текст | Классификация | 1998 | [455][456] | Н. Кушмерик |
Набор данных об использовании Интернета | Общая демография интернет-пользователей. | Никто. | 10,104 | Текст | Классификация, кластеризация | 1999 | [457] | Д. Кук |
Набор данных URL | Данные URL за 120 дней с большой конференции. | Приведены многие характеристики каждого URL-адреса. | 2,396,130 | Текст | Классификация | 2009 | [458][459] | Дж. Ма |
Набор данных фишинговых сайтов | Набор данных фишинговых сайтов. | Приведены многие особенности каждого сайта. | 2456 | Текст | Классификация | 2015 | [460] | R. Mustafa et al. |
Набор данных для розничной торговли в Интернете | Онлайн-транзакции для британского интернет-магазина. | Приведены детали каждой транзакции. | 541,909 | Текст | Классификация, кластеризация | 2015 | [461] | Д. Чен |
Дамп простой темы Freebase | Freebase - это онлайн-попытка структурировать все человеческие знания. | Темы из Freebase были извлечены. | большой | Текст | Классификация, кластеризация | 2011 | [462][463] | Freebase |
Набор данных Farm Ads | Текст фермерских объявлений с сайтов. Дается двоичное одобрение или неодобрение со стороны владельцев контента. | Рассчитаны разреженные векторы SVMlight текстовых слов в объявлениях. | 4143 | Текст | Классификация | 2011 | [464][465] | C. Masterharm et al. |
Игры
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных покерных рук | 5 карточных рук из стандартной колоды из 52 карт. | Даны атрибуты каждой руки, в том числе руки в покере, образованные картами, которые она содержит. | 1,025,010 | Текст | Регрессия, классификация | 2007 | [466] | Р. Каттраль |
Набор данных Connect-4 | Содержит все допустимые 8-слойные позиции в игре Connect-4, в которых ни один из игроков еще не выиграл и в которых следующий ход не является принудительным. | Никто. | 67,557 | Текст | Классификация | 1995 | [467] | Дж. Тромп |
Шахматы (король-ладья против короля) Набор данных | База данных эндшпиля для белого короля и ладьи против черного короля. | Никто. | 28,056 | Текст | Классификация | 1994 | [468][469] | M. Bain et al. |
Набор данных шахмат (король-ладья против королевской пешки) | Король + ладья против короля + пешка на a7. | Никто. | 3196 | Текст | Классификация | 1989 | [470] | Р. Хольте |
Набор данных эндшпиля в крестики-нолики | Бинарная классификация условий победы в крестики-нолики. | Никто. | 958 | Текст | Классификация | 1991 | [471] | Д. Ага |
Другое многомерное
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных о жилье | Средняя стоимость дома в Бостоне с соответствующими атрибутами дома и района. | Никто. | 506 | Текст | Регресс | 1993 | [472] | D. Harrison et al. |
Словари Гетти | структурированная терминология для искусства и другой материальной культуры, архивные материалы, визуальные суррогаты и библиографические материалы. | Никто. | большой | Текст | Классификация | 2015 | [473] | Центр Гетти |
Yahoo! Первая страница модуля Сегодня пользователь нажимает журнал | Журнал кликов пользователя для новостных статей, отображаемых на вкладке "Интересные" модуля "Сегодня" на Yahoo! Титульная страница. | Сопряженный анализ с билинейной моделью. | 45 811 883 посещений пользователей | Текст | Регрессия, кластеризация | 2009 | [474][475] | Чу и др. |
Британский центр океанографических данных | Биологические, химические, физические и геофизические данные по океанам. Отслежено 22K переменных. | Разные. | 22K переменных, много экземпляров | Текст | Регрессия, кластеризация | 2015 | [476] | Британский центр океанографических данных |
Набор данных для голосования в Конгрессе | Данные о голосовании всех представителей США по 16 вопросам. | Помимо необработанных данных голосования, предоставляются различные другие функции. | 435 | Текст | Классификация | 1987 | [477] | Дж. Шлиммер |
Набор данных рекомендаций Entree Chicago | Запись взаимодействия пользователей с системой рекомендаций Entree Chicago. | Подробная информация об использовании приложения каждым пользователем записывается подробно. | 50,672 | Текст | Регресс, рекомендация | 2000 | [478] | Р. Берк |
Индекс страховых компаний (COIL 2000) | Информация о клиентах страховой компании. | Многие особенности каждого клиента и услуг, которые они используют. | 9,000 | Текст | Регрессия, классификация | 2000 | [479][480] | П. ван дер Путтен |
Детский набор данных | Данные поступающих в детские сады. | Включены данные о семье заявителя и различных других факторах. | 12,960 | Текст | Классификация | 1997 | [481][482] | V. Rajkovic et al. |
Набор данных университета | Данные, описывающие большое количество университетов. | Никто. | 285 | Текст | Кластеризация, классификация | 1988 | [483] | S. Sounders et al. |
Набор данных центра службы переливания крови | Данные сервисного центра переливания крови. Предоставляет данные о доходности доноров, частоте и т. Д. | Никто. | 748 | Текст | Классификация | 2008 | [484][485] | И. Да |
Запись набора данных шаблонов сравнения связей | Большой набор данных записей. Задача - связать соответствующие записи вместе. | Процедура блокировки применяется для выбора только определенных пар записей. | 5,749,132 | Текст | Классификация | 2011 | [486][487] | Университет Майнца |
Набор данных Nomao | Nomao собирает данные о местах из множества различных источников. Задача - обнаружить предметы, описывающие одно и то же место. | Дубликаты помечены. | 34,465 | Текст | Классификация | 2012 | [488][489] | Nomao Labs |
Набор данных фильмов | Данные для 10 000 фильмов. | Дано несколько характеристик для каждого фильма. | 10,000 | Текст | Кластеризация, классификация | 1999 | [490] | Г. Видерхольд |
Набор данных аналитики обучения открытого университета | Информация об учениках и их взаимодействии с виртуальной учебной средой. | Никто. | ~ 30,000 | Текст | Классификация, кластеризация, регрессия | 2015 | [491][492] | J. Kuzilek et al. |
Записи с мобильных телефонов | Телекоммуникационная деятельность и взаимодействие | Агрегация по ячейкам географической сетки и каждые 15 минут. | большой | Текст | Классификация, кластеризация, регрессия | 2015 | [493] | G. Barlacchi et al. |
Курируемые репозитории наборов данных
Поскольку наборы данных имеют множество форматов и иногда могут быть трудными в использовании, была проделана значительная работа по изучению и стандартизации формата наборов данных, чтобы упростить их использование для исследований в области машинного обучения.
- OpenML:[494] Веб-платформа с Python, R, Java и другими API для загрузки сотен наборов данных машинного обучения, оценки алгоритмов на наборах данных и сравнения производительности алгоритмов с десятками других алгоритмов.
- PMLB:[495] Большой тщательно отобранный репозиторий наборов контрольных данных для оценки алгоритмов контролируемого машинного обучения. Предоставляет наборы данных классификации и регрессии в стандартизированном формате, которые доступны через Python API.
- Метатекст НЛП: https://metatext.io/datasets веб-репозиторий, поддерживаемый сообществом, содержащий около 1000 наборов контрольных данных, и их количество постоянно растет. Предоставляет множество задач, от классификации до контроля качества, и различные языки от английского, португальского до арабского.
Смотрите также
- Сравнение программного обеспечения для глубокого обучения
- Список инструментов ручного аннотирования изображений
- Список биологических баз данных
Рекомендации
- ^ Висснер-Гросс, А. «Наборы данных по алгоритмам». Edge.com. Получено 8 января 2016.
- ^ Weiss, G.M .; Провост, Ф. (1 сентября 2003 г.). «Обучение, когда данные обучения стоят дорого: влияние распределения классов на индукцию дерева». Журнал исследований искусственного интеллекта. Фонд AI Access. 19: 315–354. Дои:10.1613 / jair.1199. ISSN 1076-9757. S2CID 2344521.
- ^ Терни, Питер (2000). «Типы затрат в индуктивном изучении концепций». arXiv:cs / 0212034.
- ^ Эбни, Стивен (17 сентября 2007 г.). Полуавтоматическое обучение для компьютерной лингвистики. CRC Press. ISBN 978-1-4200-1080-0.
- ^ Жлиобайте, Индре; Бифет, Альберт; Пфарингер, Бернхард; Холмс, Джефф (2011). «Активное обучение с развивающимися потоковыми данными». Машинное обучение и обнаружение знаний в базах данных. Берлин, Гейдельберг: Springer Berlin Heidelberg. С. 597–612. Дои:10.1007/978-3-642-23808-6_39. ISBN 978-3-642-23807-9. ISSN 0302-9743.
- ^ Zafeiriou, S .; Коллиас, Д .; Nicolaou, M.A .; Papaioannou, A .; Zhao, G .; Коця, И. (2017). "Aff-Wild: вызов валентности и возбуждения в дикой природе" (PDF). Мастерские по компьютерному зрению и распознаванию образов (CVPRW), 2017 г.: 1980–1987. Дои:10.1109 / CVPRW.2017.248. ISBN 978-1-5386-0733-6. S2CID 3107614.
- ^ Коллиас, Д .; Tzirakis, P .; Nicolaou, M.A .; Papaioannou, A .; Zhao, G .; Schuller, B .; Kotsia, I .; Зафейриу, С. (2019). "Deep Affect Prediction in the wild: Aff-Wild Database and Challenge, Deep Architectures, and Beyond". Международный журнал компьютерного зрения (IJCV), 2019. 127 (6–7): 907–929. Дои:10.1007 / s11263-019-01158-4. S2CID 13679040.
- ^ Коллиас, Д .; Зафейриу, С. (2019). «Выражение, аффект, распознавание единиц действия: Aff-wild2, многозадачное обучение и arcface» (PDF). Британская конференция по машинному зрению (BMVC), 2019. arXiv:1910.04855.
- ^ Коллиас, Д .; Schulc, A .; Гаджиев, Э .; Зафейриу, С. (2020). «Анализ аффективного поведения на первом конкурсе abaw 2020». Международная конференция IEEE по автоматическому распознаванию лиц и жестов (FG), 2020 г.. arXiv:2001.11409.
- ^ Филлипс, П. Джонатон; и другие. (1998). «База данных FERET и процедура оценки алгоритмов распознавания лиц». Вычисления изображений и зрения. 16 (5): 295–306. Дои:10.1016 / s0262-8856 (97) 00070-х.
- ^ Вискотт, Лоренц; и другие. (1997). «Распознавание лиц путем сопоставления упругого сгустка графа». IEEE Transactions по анализу шаблонов и машинному анализу. 19 (7): 775–779. CiteSeerX 10.1.1.44.2321. Дои:10.1109/34.598235.
- ^ Ливингстон, Стивен Р .; Руссо, Франк А. (2018). «Аудиовизуальная база данных эмоциональной речи и песни Ryerson (RAVDESS): динамический, мультимодальный набор мимики и вокала на североамериканском английском». PLOS ONE. 13 (5): e0196391. Bibcode:2018PLoSO..1396391L. Дои:10.1371 / journal.pone.0196391. ЧВК 5955500. PMID 29768426.
- ^ Ливингстон, Стивен Р .; Руссо, Франк А. (2018). «Эмоция». Аудиовизуальная база данных эмоциональной речи и песни Райерсона (RAVDESS). Дои:10.5281 / zenodo.1188976.
- ^ Гргич, Мислав; Делак, Кресимир; Grgic, Соня (2011). «SCface - база данных по лицам камер наблюдения». Мультимедийные инструменты и приложения. 51 (3): 863–879. Дои:10.1007 / s11042-009-0417-2. S2CID 207218990.
- ^ Уоллес, Рой и др. "Моделирование межсессионной изменчивости и совместный факторный анализ для аутентификации лиц." Биометрия (IJCB), Международная совместная конференция 2011 г.. IEEE, 2011.
- ^ Георгиадес, А. "Йельская база данных лиц". Центр вычислительного зрения и управления Йельского университета, http://CVC.yale.edu/Projects/Yalefaces/Yalefa. 2: 1997. Внешняя ссылка в
| журнал =
(помощь) - ^ Нгуен, Дай; и другие. (2006). «Обнаружение лиц и выделение губ в реальном времени с использованием программируемых вентильных матриц». Транзакции IEEE по системам, человеку и кибернетике - Часть B: Кибернетика. 36 (4): 902–912. CiteSeerX 10.1.1.156.9848. Дои:10.1109 / tsmcb.2005.862728. PMID 16903373. S2CID 7334355.
- ^ Канаде, Такео, Джеффри Ф. Кон и Ингли Тиан. "Обширная база данных для анализа мимики." Автоматическое распознавание лиц и жестов, 2000. Труды. Четвертая международная конференция IEEE по. IEEE, 2000.
- ^ Цзэн, Чжихун; и другие. (2009). «Обзор методов распознавания аффектов: аудио, визуальные и спонтанные выражения». IEEE Transactions по анализу шаблонов и машинному анализу. 31 (1): 39–58. CiteSeerX 10.1.1.144.217. Дои:10.1109 / тпами.2008.52. PMID 19029545.
- ^ Лайонс, Майкл; Камачи, Миюки; Гёба, Дзиро (1998). «Образы выражения лица». База данных по выражению лица японских женщин (JAFFE). Дои:10.5281 / zenodo.3451524.
- ^ Лайонс, Майкл; Акамацу, Сигеру; Камачи, Миюки; Гёба, Дзиро "Кодирование мимики с помощью вейвлетов Габора." Автоматическое распознавание лиц и жестов, 1998. Труды. Третья международная конференция IEEE по. IEEE, 1998.
- ^ Нг, Хун-Вэй и Стефан Винклер. "Управляемый данными подход к очистке больших наборов данных лиц." Обработка изображений (ICIP), Международная конференция IEEE 2014 г.. IEEE, 2014 г.
- ^ Рой Чоудхури, Аруни; Линь Цун-Ю; Маджи, Субхрансу; Леннед-Миллер, Эрик (2015). «Распознавание лиц« один ко многим »с билинейными CNN». arXiv:1506.01342 [cs.CV ].
- ^ Йесорский, Оливер, Клаус Дж. Кирхберг и Роберт В. Фришгольц. «Надежное обнаружение лиц с использованием расстояния Хаусдорфа». Биометрическая аутентификация личности на основе аудио и видео. Springer Berlin Heidelberg, 2001.
- ^ Хуанг, Гэри Б. и др. Маркированные лица в дикой природе: база данных для изучения распознавания лиц в неограниченных условиях. Vol. 1. № 2. Технический отчет 07-49, Массачусетский университет, Амхерст, 2007 г.
- ^ Бхатт, Раджен Б. и др. "Эффективная сегментация областей кожи с использованием нечеткой модели дерева решений низкой сложности." Конференция в Индии (INDICON), Ежегодный IEEE 2009 г.. IEEE, 2009 г.
- ^ Лингала, Муника; и другие. (2014). «Распознавание цвета с помощью нечеткой логики: синие области на изображениях при меланоме, полученных при дерматоскопии». Компьютеризированная медицинская визуализация и графика. 38 (5): 403–410. Дои:10.1016 / j.compmedimag.2014.03.007. ЧВК 4287461. PMID 24786720.
- ^ Мэйс, Крис и др. "Обнаружение особенностей на трехмерных поверхностях лица для нормализации позы и распознавания." Биометрия: теоретические приложения и системы (BTAS), Четвертая Международная конференция IEEE 2010 г.. IEEE, 2010 г.
- ^ Савран, Арман и др. "База данных Bosphorus для 3D-анализа лица." Биометрия и управление идентификацией. Springer Berlin Heidelberg, 2008. 47–56.
- ^ Хезелтин, Томас, Ник Пирс и Джим Остин. "Трехмерное распознавание лиц: подход собственной поверхности." Обработка изображений, 2004. ICIP'04. 2004 Международная конференция по. Vol. 2. IEEE, 2004.
- ^ Ге, Юнь; и другие. (2011). «Моделирование образцов лица в 3D-новелле для распознавания лиц». Журнал мультимедиа. 6 (5): 467–475. CiteSeerX 10.1.1.461.9710. Дои:10.4304 / jmm.6.5.467-475.
- ^ Ван, Юэмин; Лю, Цзяньчжуан; Тан, Сяоу (2010). «Надежное 3D-распознавание лиц за счет локального увеличения разницы форм». IEEE Transactions по анализу шаблонов и машинному анализу. 32 (10): 1858–1870. CiteSeerX 10.1.1.471.2424. Дои:10.1109 / тпами.2009.200. PMID 20724762. S2CID 15263913.
- ^ Чжун, Чэн, Чжэнань Сунь и Тиэню Тан. "Надежное трехмерное распознавание лиц с использованием изученной визуальной кодовой книги." Компьютерное зрение и распознавание образов, 2007. CVPR'07. Конференция IEEE по. IEEE, 2007.
- ^ Zhao, G .; Хуанг, X .; Тайни, М .; Li, S. Z .; Пиетикяйнен, М. (2011). «Распознавание лиц по видео в ближнем инфракрасном диапазоне» (PDF). Вычисления изображений и зрения. 29 (9): 607–619. Дои:10.1016 / j.imavis.2011.07.002.
- ^ Сойель, Хамит и Хасан Демирель. "Распознавание выражения лица с использованием расстояния между чертами лица в 3D." Анализ и распознавание изображений. Springer Berlin Heidelberg, 2007. 831–838.
- ^ Бойер, Кевин В .; Чанг, Кьонг; Флинн, Патрик (2006). «Обзор подходов и проблем в 3D и мультимодальном распознавании лиц 3D + 2D». Компьютерное зрение и понимание изображений. 101 (1): 1–15. CiteSeerX 10.1.1.134.8784. Дои:10.1016 / j.cviu.2005.05.005.
- ^ Тан, Сяоянь; Триггс, Билл (2010). «Расширенные наборы функций локальной текстуры для распознавания лиц в сложных условиях освещения». IEEE Transactions по обработке изображений. 19 (6): 1635–1650. Bibcode:2010ITIP ... 19.1635T. CiteSeerX 10.1.1.105.3355. Дои:10.1109 / tip.2010.2042645. PMID 20172829. S2CID 4943234.
- ^ Мусави, Мир Хашем, Карим Фаез и Амин Асгари. "Трехмерное распознавание лиц с использованием классификатора SVM." Компьютерные и информационные науки, 2008. ICIS 08. Седьмая Международная конференция IEEE / ACIS по. IEEE, 2008 г.
- ^ Амберг, Брайан, Рейнхард Ноте и Томас Веттер. "Распознавание лиц с инвариантным выражением лица с помощью морфируемой модели." Автоматическое распознавание лиц и жестов, 2008. FG'08. 8-я Международная конференция IEEE по. IEEE, 2008 г.
- ^ Ирфаноглу М. О., Берк Гёкберк и Лале Акарун. "Распознавание лиц на основе 3D-форм с использованием автоматически регистрируемых поверхностей лица." Распознавание образов, 2004. ICPR 2004. Труды 17-й Международной конференции по. Vol. 4. IEEE, 2004.
- ^ Бомье, Шарль; Ахерой, Марк (2001). «Подтверждение лица по 3D и подсказкам уровня серого». Письма с распознаванием образов. 22 (12): 1321–1329. Дои:10.1016 / s0167-8655 (01) 00077-0.
- ^ Афифи, Махмуд; Абдельхамед, Абдельрахман (13 июня 2017 г.). «AFIF4: Глубокая гендерная классификация, основанная на слиянии изолированных черт лица и туманных лиц на основе AdaBoost». arXiv:1706.04277 [cs.CV ].
- ^ "Набор данных SoF". sites.google.com. Получено 18 ноября 2017.
- ^ «IMDB-WIKI». data.vision.ee.ethz.ch. Получено 13 марта 2018.
- ^ Патрон-Перес, А .; Маршалек, М .; Reid, I .; Зиссерман, А. (2012). «Структурированное обучение человеческому взаимодействию в телешоу». IEEE Transactions по анализу шаблонов и машинному анализу. 34 (12): 2441–2453. Дои:10.1109 / тпами.2012.24. PMID 23079467. S2CID 6060568.
- ^ Офли, Ф., Чаудри, Р., Курилло, Г., Видал, Р., и Байчи, Р. (январь 2013 г.). Berkeley MHAD: комплексная мультимодальная база данных о деятельности человека. In Applications of Computer Vision (WACV), семинар IEEE 2013 г. (стр. 53–60). IEEE.
- ^ Цзян, Ю. Г. и др. «Задача THUMOS: распознавание действий с большим количеством классов». Семинар ICCV по распознаванию действий с большим количеством классов, http://crcv.ucf.edu/ICCV13-Action-Workshop. 2013.
- ^ Симонян, Карен и Андрей Зиссерман. "Двухпотоковые сверточные сети для распознавания действий в видео." Достижения в системах обработки нейронной информации. 2014.
- ^ Стоян Андрей; Ферекату, Марин; Бенуа-Пино, Дженни; Круциану, Мишель (2016). «Быстрая локализация действий в крупномасштабных видеоархивах». Транзакции IEEE по схемам и системам для видеотехнологий. 26 (10): 1917–1930. Дои:10.1109 / TCSVT.2015.2475835. S2CID 31537462.
- ^ Кришна, Ранджай; Чжу, Юкэ; Грот, Оливер; Джонсон, Джастин; Хата, Кендзи; Кравиц, Джошуа; Чен, Стефани; Калантидис, Яннис; Ли, Ли-Цзя; Шамма, Дэвид А; Бернштейн, Майкл С; Фэй-Фэй, Ли (2017). "Визуальный геном: соединение языка и зрения с помощью краудсорсинговых аннотаций плотных изображений". Международный журнал компьютерного зрения. 123: 32–73. arXiv:1602.07332. Дои:10.1007 / s11263-016-0981-7. S2CID 4492210.
- ^ Караев С. и др. "Набор данных трехмерных объектов уровня категории: как заставить Kinect работать." Материалы Международной конференции IEEE по семинарам по компьютерному зрению. 2011.
- ^ Тиге, Иосиф и Светлана Лазебник. "Суперпарсинг: масштабируемый непараметрический анализ изображений с помощью суперпикселей." Компьютерное зрение – ECCV 2010. Springer Berlin Heidelberg, 2010. 352–365.
- ^ Arbelaez, P .; Maire, M; Фаулкс, К; Малик, Дж (май 2011 г.). «Обнаружение контуров и иерархическая сегментация изображений» (PDF). IEEE Transactions по анализу шаблонов и машинному анализу. 33 (5): 898–916. Дои:10.1109 / tpami.2010.161. PMID 20733228. S2CID 206764694. Получено 27 февраля 2016.
- ^ Линь, Цунг-Йи и др. "Microsoft coco: общие объекты в контексте." Компьютерное зрение – ECCV 2014. Springer International Publishing, 2014. 740–755.
- ^ Русаковский, Ольга; и другие. (2015). «Imagenet крупномасштабная задача визуального распознавания». Международный журнал компьютерного зрения. 115 (3): 211–252. arXiv:1409.0575. Дои:10.1007 / s11263-015-0816-у. HDL:1721.1/104944. S2CID 2930547.
- ^ Сяо, Цзяньсюн и др. «База данных Sun: Распознавание крупномасштабных сцен от аббатства до зоопарка». Компьютерное зрение и распознавание образов (CVPR), конференция IEEE 2010 г.. IEEE, 2010 г.
- ^ Донахью, Джефф; Цзя, Янцин; Виньялс, Ориол; Хоффман, Джуди; Чжан, Нин; Ценг, Эрик; Даррелл, Тревор (2013). «DeCAF: функция глубокой сверточной активации для общего визуального распознавания». arXiv:1310.1531 [cs.CV ].
- ^ Дэн, Цзя и др. "Imagenet: крупномасштабная база данных иерархических изображений."Компьютерное зрение и распознавание образов, 2009. CVPR 2009. Конференция IEEE по. IEEE, 2009 г.
- ^ а б c Крижевский, Алекс, Илья Суцкевер и Джеффри Э. Хинтон. "Классификация Imagenet с глубокими сверточными нейронными сетями." Достижения в области нейронных систем обработки информации. 2012.
- ^ Русаковский, Ольга; Дэн, Цзя; Су, Хао; Краузе, Джонатан; Сатиш, Санджив; и другие. (11 апреля 2015 г.). «Проблема визуального распознавания большого масштаба ImageNet». Международный журнал компьютерного зрения. 115 (3): 211–252. arXiv:1409.0575. Дои:10.1007 / s11263-015-0816-у. HDL:1721.1/104944. S2CID 2930547.
- ^ Иван Красин, Том Дуэриг, Нил Аллдрин, Андреас Вейт, Сами Абу-Эль-Хайджа, Серж Белонги, Дэвид Кай, Жеюн Фенг, Витторио Феррари, Виктор Гомеш, Абхинав Гупта, Дхьянеш Нараянан, Чен Сун, Гал Чечик, Кевин Мерфи. "OpenImages: общедоступный набор данных для крупномасштабной классификации изображений с несколькими метками и несколькими классами, 2017 г. Доступно с https://github.com/openimages."
- ^ Вяс, Апурв и др. "Обнаружение коммерческих блоков в новостных трансляциях." Труды Индийской конференции 2014 года по графике компьютерного зрения и обработке изображений. ACM, 2014.
- ^ Гауптманн, Александр Г. и Майкл Дж. Витброк. "Сегментация сюжета и обнаружение рекламы в трансляционном новостном видео." Исследования и технологические достижения в электронных библиотеках, 1998. ADL 98. Proceedings. Международный форум IEEE по. IEEE, 1998.
- ^ Тунг, Энтони К.Х., Синь Сюй и Бэн Чин Оои. "Curler: поиск и визуализация кластеров нелинейной корреляции." Материалы международной конференции ACM SIGMOD 2005 по управлению данными. ACM, 2005.
- ^ Джарретт, Кевин и др. "Какая многоступенчатая архитектура для распознавания объектов лучше всего?." Компьютерное зрение, 12-я Международная конференция IEEE 2009 г.. IEEE, 2009 г.
- ^ Лазебник, Светлана, Корделия Шмид и Жан Понсе. "Помимо множества функций: сопоставление пространственной пирамиды для распознавания категорий естественных сцен."Компьютерное зрение и распознавание образов, Конференция компьютерного общества IEEE 2006 г.. Vol. 2. IEEE, 2006.
- ^ Гриффин, Г., А. Голуб, и П. Перона. Набор данных категории объектов Caltech-256 California Inst. Technol., Tech. Rep. 7694, 2007 [Online]. Имеется в наличии: http://authors.library.caltech.edu/7694, 2007.
- ^ Баеза-Йетс, Рикардо и Бертье Рибейро-Нето. Современный информационный поиск. Vol. 463. Нью-Йорк: ACM press, 1999.
- ^ Фу, Сипин и др. "NOKMeans: неортогональное хеширование K-средних." Компьютерное зрение — ACCV 2014. Springer International Publishing, 2014. 162–177.
- ^ Хейтц, Гереми; и другие. (2009). «Локализация объекта на основе формы для описательной классификации». Международный журнал компьютерного зрения. 84 (1): 40–62. CiteSeerX 10.1.1.142.280. Дои:10.1007 / s11263-009-0228-y. S2CID 646320.
- ^ М. Кордтс, М. Омран, С. Рамос, Т. Шарвехтер, М. Энцвейлер, Р. Бененсон, У. Франке, С. Рот и Б. Шиле "Набор данных "Городские пейзажи". »В семинаре CVPR о будущем наборов данных в Vision, 2015 г.
- ^ Эверингем, Марк; и другие. (2010). "Задача классов визуальных объектов Паскаля (вокал)". Международный журнал компьютерного зрения. 88 (2): 303–338. Дои:10.1007 / s11263-009-0275-4. S2CID 4246903.
- ^ Felzenszwalb, Pedro F .; и другие. (2010). «Обнаружение объектов с помощью детективно обученных моделей на основе деталей». IEEE Transactions по анализу шаблонов и машинному анализу. 32 (9): 1627–1645. CiteSeerX 10.1.1.153.2745. Дои:10.1109 / tpami.2009.167. PMID 20634557. S2CID 3198903.
- ^ а б Гонг, Юньчао и Светлана Лазебник. «Итеративное квантование: прокрастов подход к изучению двоичных кодов». Компьютерное зрение и распознавание образов (CVPR), Конференция IEEE 2011 г.. IEEE, 2011.
- ^ «Набор данных CINIC-10». Люк Н. Дарлоу, Эллиот Дж. Кроули, Антреас Антониу, Амос Дж. Сторки (2018) CINIC-10 не является ImageNet или CIFAR-10. 9 октября 2018 г.. Получено 13 ноября 2018.
- ^ fashion-mnist: База данных модных товаров, подобная MNIST. Тест: point_right, Zalando Research, 7 октября 2017 г., получено 7 октября 2017
- ^ "набор данных notMNIST". Машинное обучение и т. Д.. 8 сентября 2011 г.. Получено 13 октября 2017.
- ^ Хубен, Себастьян и др. "Обнаружение дорожных знаков на реальных изображениях: немецкий тест на обнаружение дорожных знаков." Нейронные сети (IJCNN), Международная совместная конференция 2013 г.. IEEE, 2013.
- ^ Матиас, Майель и др. "Распознавание дорожных знаков - насколько мы далеки от решения?." Нейронные сети (IJCNN), Международная совместная конференция 2013 г.. IEEE, 2013.
- ^ Гейгер, Андреас, Филип Ленц и Ракель Уртасун. "Готовы ли мы к автономному вождению? набор тестов Kitti Vision." Компьютерное зрение и распознавание образов (CVPR), Конференция IEEE 2012 г.. IEEE, 2012.
- ^ Штурм, Юрген и др. "Тест для оценки систем RGB-D SLAM." Интеллектуальные роботы и системы (IROS), Международная конференция IEEE / RSJ 2012 г.. IEEE, 2012.
- ^ Чаладзе, Г., Калатозишвили, Л. (2017).Набор данных Linnaeus 5. Chaladze.com. Проверено 13 ноября 2017 г. с http://chaladze.com/l5/
- ^ Kragh, Mikkel F .; и другие. (2017). «FieldSAFE - набор данных для обнаружения препятствий в сельском хозяйстве». Датчики. 17 (11): 2579. arXiv:1709.03526. Bibcode:2017arXiv170903526F. Дои:10.3390 / с17112579. ЧВК 5713196. PMID 29120383.
- ^ Афифи, Махмуд (12 ноября 2017 г.). «Распознавание пола и биометрическая идентификация с использованием большого набора данных изображений рук». arXiv:1711.04322 [cs.CV ].
- ^ Ломонако, Винченцо; Мальтони, Давиде (18 октября 2017 г.). «CORe50: новый набор данных и эталон для непрерывного распознавания объектов». arXiv:1705.03550 [cs.CV ].
- ^ Она, Ци; Фэн, Фан; Хао, Синьюэ; Ян, Цихан; Лан, Чуаньлинь; Ломонако, Винченцо; Ши, Сюэсон; Ван, Чжэнвэй; Го, Яо; Чжан, Иминь; Цяо, Фэй; Чан, Роза Х. (15 ноября 2019 г.). «OpenLORIS-Object: набор данных роботизированного зрения и эталон для глубокого обучения на протяжении всей жизни». arXiv:1911.06487v2 [cs.CV ].
- ^ Морозов Алексей; Сушкова, Ольга (13 июня 2019). «Набор данных ТГц и тепловизионного видеосигнала». Разработка подхода многоагентного логического программирования к анализу поведения человека в многоканальном видеонаблюдении.. Москва: ИРЭ РАН.. Получено 19 июля 2019.
- ^ Морозов, Алексей; Сушкова Ольга; Кершнер, Иван; Полупанов, Александр (9 июля 2019). «Разработка метода интеллектуального видеонаблюдения терагерцового диапазона на основе семантического объединения терагерцовых и 3D видеоизображений» (PDF). CEUR. 2391: paper19. Получено 19 июля 2019.
- ^ Ботта М., А. Джордана и Л. Саитта. "Изучение нечетких определений понятий." Нечеткие системы, 1993., Вторая международная конференция IEEE по. IEEE, 1993.
- ^ Фрей, Питер В .; Сланец, Дэвид Дж. (1991). «Распознавание букв с помощью адаптивных классификаторов голландского типа». Машинное обучение. 6 (2): 161–182. Дои:10.1007 / bf00114162.
- ^ Пелтонен, Яакко; Клами, Арто; Каски, Самуэль (2004). «Улучшенное изучение римановых метрик для исследовательского анализа». Нейронные сети. 17 (8): 1087–1100. CiteSeerX 10.1.1.59.4865. Дои:10.1016 / j.neunet.2004.06.008. PMID 15555853.
- ^ а б Лю, Чэн-Линь; Инь, Фэй; Ван, Да-Хан; Ван, Цю-Фэн (январь 2013 г.). «Онлайн и офлайн распознавание рукописных китайских символов: сравнительный анализ в новых базах данных». Распознавание образов. 46 (1): 155–162. Дои:10.1016 / j.patcog.2012.06.021.
- ^ Wang, D .; Liu, C .; Yu, J .; Чжоу, X. (2009). «CASIA-OLHWDB1: база данных онлайн-рукописных китайских иероглифов». 2009 10-я Международная конференция по анализу и распознаванию документов: 1206–1210. Дои:10.1109 / ICDAR.2009.163. ISBN 978-1-4244-4500-4. S2CID 5705532.
- ^ Уильямс, Бен Х., Марк Туссен и Амос Дж. Сторки. Извлечение примитивов движения из данных естественного почерка. Springer Berlin Heidelberg, 2006 г.
- ^ Мейер, Франциска и др. "Сегментация движения с использованием примитивной библиотеки."Интеллектуальные роботы и системы (IROS), Международная конференция IEEE / RSJ 2011 г.. IEEE, 2011.
- ^ Т. Э. де Кампос, Б. Р. Бабу и М. Варма. Распознавание символов в естественных изображениях. В Труды Международной конференции по теории и приложениям компьютерного зрения (VISAPP), Лиссабон, Португалия, Февраль 2009 г.
- ^ Льоренс, Дэвид и др. "База данных UJIpenchars: база данных изолированных рукописных символов на основе пера." LREC. 2008.
- ^ Кальдерара, Симона; Прати, Андреа; Куккьяра, Рита (2011). «Смеси распределений фон Мизеса для анализа формы траектории движения людей». Транзакции IEEE по схемам и системам для видеотехнологий. 21 (4): 457–471. Дои:10.1109 / tcsvt.2011.2125550. S2CID 1427766.
- ^ Гийон, Изабель и др. "Анализ результатов задачи выбора функции nips 2003." Достижения в области нейронных систем обработки информации. 2004.
- ^ Lake, B. M .; Салахутдинов, Р .; Тененбаум, Дж. Б. (11 декабря 2015 г.). «Изучение концепций на уровне человека посредством индукции вероятностной программы». Наука. 350 (6266): 1332–1338. Bibcode:2015Научный ... 350.1332L. Дои:10.1126 / science.aab3050. ISSN 0036-8075. PMID 26659050.
- ^ Озеро, Бренден (9 ноября 2019 г.), Набор данных Omniglot для однократного обучения, получено 10 ноября 2019
- ^ ЛеКун, Янн; и другие. (1998). «Градиентное обучение применительно к распознаванию документов». Труды IEEE. 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552. Дои:10.1109/5.726791.
- ^ Куссул, Эрнст; Байдык, Татьяна (2004). «Улучшенный метод распознавания рукописных цифр протестирован в базе данных MNIST». Вычисления изображений и зрения. 22 (12): 971–981. Дои:10.1016 / j.imavis.2004.03.008.
- ^ Сюй, Лэй; Krzyżak, Адам; Суен, Чинг Ю. (1992). «Методы объединения нескольких классификаторов и их приложения для распознавания почерка». IEEE Transactions по системам, человеку и кибернетике. 22 (3): 418–435. Дои:10.1109/21.155943. HDL:10338.dmlcz / 135217.
- ^ Алимоглу, Февзи и др. "Комбинирование нескольких классификаторов для распознавания рукописных цифр на основе пера." (1996).
- ^ Тан, Э. Кэ; и другие. (2005). «Уменьшение линейной размерности с использованием LDA, взвешенного по релевантности». Распознавание образов. 38 (4): 485–493. Дои:10.1016 / j.patcog.2004.09.005.
- ^ Хонг, Йи и др. "Изучение смеси разреженных метрик расстояния для классификации и уменьшения размерности." Компьютерное зрение (ICCV), Международная конференция IEEE 2011 г.. IEEE, 2011.
- ^ Тома, Мартин (2017). «Набор данных HASYv2». arXiv:1701.08380 [cs.CV ].
- ^ Карки, Манохар; Лю, Цюнь; ДиБиано, Роберт; Басу, Сайкат; Мухопадхьяй, Супратик (20 июня 2018 г.). «Реконструкция на уровне пикселей и классификация шумных рукописных символов Bangla». arXiv:1806.08037 [cs.CV ].
- ^ Лю, Цюнь; Кольер, Эдвард; Mukhopadhyay, Supratik (2019), «PCGAN-CHAR: Постепенно обучаемые сети, генерирующие состязательные сети классификатора для классификации зашумленных рукописных символов Bangla», Электронные библиотеки на перекрестке цифровой информации будущего, Springer International Publishing, стр. 3–15, arXiv:1908.08987, Дои:10.1007/978-3-030-34058-2_1, ISBN 978-3-030-34057-5, S2CID 201665955
- ^ Юань, Цзянге; Глисон, Шон С .; Чериядат, Анил М. (2013). «Систематический сравнительный анализ сегментации аэрофотоснимков». Письма IEEE по геонаукам и дистанционному зондированию. 10 (6): 1527–1531. Bibcode:2013IGRSL..10.1527Y. Дои:10.1109 / lgrs.2013.2261453. S2CID 629629.
- ^ Ватсавай, Ранга Раджу. "Классификация изображений на основе объектов: современное состояние и вычислительные задачи." Материалы 2-го международного семинара ACM SIGSPATIAL по аналитике больших геопространственных данных. ACM, 2013.
- ^ Бутенут, Маттиас и др. "Интеграция моделирования пешеходов, отслеживания и обнаружения событий для анализа толпы." Семинары по компьютерному зрению (ICCV Workshops), Международная конференция IEEE 2011 г.. IEEE, 2011.
- ^ Фради, Хаджер и Жан-Люк Дюжеле. "Низкоуровневый анализ толпы с использованием функции нормализации по кадрам для подсчета людей." Информационная криминалистика и безопасность (WIFS), Международный семинар IEEE 2012 г.. IEEE, 2012.
- ^ Джонсон, Брайан Алан, Рютаро Татейши и Нгуен Тхань Хоан. "Гибридный подход с усилением резкости и многомасштабный объектно-ориентированный анализ изображений для картирования больных сосен и дубов.." Международный журнал дистанционного зондирования34.20 (2013): 6969–6982.
- ^ Мохд Пози, Мухаммад Сяфик; Сулейман, штат Мэриленд Насир; Мустафа, Норвати; Перумал, Тинагаран (2015). «Новая модель классификации для несбалансированного набора данных по классам с использованием генетического программирования и вспомогательных векторных машин: тематическое исследование для классификации болезней увядания». Письма о дистанционном зондировании. 6 (7): 568–577. Дои:10.1080 / 2150704X.2015.1062159. S2CID 58788630.
- ^ Gallego, A.-J .; Pertusa, A .; Гил П. "Автоматическая классификация судов по оптическим аэрофотоснимкам с помощью сверточных нейронных сетей." Дистанционное зондирование. 2018; 10(4):511.
- ^ Gallego, A.-J .; Pertusa, A .; Гил, П. "Набор данных MAritime SATellite Imagery" [Интернет]. Имеется в наличии: https://www.iuii.ua.es/datasets/masati/, 2018.
- ^ Джонсон, Брайан; Татейши, Рютаро; Се, Чжисяо (2012). «Использование географически взвешенных переменных для классификации изображений». Письма о дистанционном зондировании. 3 (6): 491–499. Дои:10.1080/01431161.2011.629637. S2CID 122543681.
- ^ Чаттерджи, Санкхадип и др. "Классификация типов леса: гибридный подход на основе модели NN-GA." Дизайн информационных систем и интеллектуальные приложения. Springer India, 2016. 227–236.
- ^ Дигерт, Карл. "Комбинаторный метод трассировки объектов с использованием семантики их формы.." Практикум по распознаванию образов прикладных изображений (AIPR), 2010 г., IEEE 39. IEEE, 2010 г.
- ^ Разакаривони, Себастьян и Фредерик Жюри. "Обнаружение малых целей, сочетающее передний и задний планы." Международная конференция IAPR по приложениям машинного зрения. 2013.
- ^ «СпейсНет». explore.digitalglobe.com. Получено 13 марта 2018.
- ^ Эттен, Адам Ван (5 января 2017 г.). «Начало работы с данными SpaceNet». The DownLinQ. Получено 13 марта 2018.
- ^ Vakalopoulou, M .; Автобус, N .; Karantzalosa, K .; Парагиос, Н. (июль 2017 г.). Интеграция априорных значений границ / границ с оценками классификации для обнаружения зданий в данных с очень высоким разрешением. 2017 Международный симпозиум IEEE по геонаукам и дистанционному зондированию (IGARSS). С. 3309–3312. Дои:10.1109 / IGARSS.2017.8127705. ISBN 978-1-5090-4951-6. S2CID 8297433.
- ^ Ян, Йи; Ньюсэм, Шон (2010). Пакет визуальных слов и пространственные расширения для классификации землепользования. Материалы 18-й Международной конференции SIGSPATIAL по достижениям в географических информационных системах - ГИС '10. Нью-Йорк, Нью-Йорк, США: ACM Press. Дои:10.1145/1869790.1869829. ISBN 9781450304283. S2CID 993769.
- ^ а б Басу, Сайкат; Гангули, Санграм; Мухопадхьяй, Супратик; ДиБиано, Роберт; Карки, Манохар; Немани, Рамакришна (3 ноября 2015 г.). DeepSat: обучающая платформа для спутниковых снимков. ACM. п. 37. Дои:10.1145/2820783.2820816. ISBN 9781450339674. S2CID 4387134.
- ^ а б Лю, Цюнь; Басу, Сайкат; Гангули, Санграм; Мухопадхьяй, Супратик; ДиБиано, Роберт; Карки, Манохар; Немани, Рамакришна (21 ноября 2019 г.). «DeepSat V2: функция дополненных сверточных нейронных сетей для классификации спутниковых изображений». Письма о дистанционном зондировании. 11 (2): 156–165. arXiv:1911.07747. Дои:10.1080 / 2150704x.2019.1693071. ISSN 2150-704X. S2CID 208138097.
- ^ Миллс, Кайл; Тэмблин, Исаак (16 мая 2018 г.), Большой набор данных графена, Национальный исследовательский совет Канады, Дои:10.4224 / c8sc04578j.data
- ^ Миллс, Кайл; Шпаннер, Майкл; Тэмблин, Исаак (16 мая 2018 г.). «Квантовое моделирование». Квантовое моделирование электрона в двумерной потенциальной яме. Национальный исследовательский совет Канады. Дои:10.4224 / PhysRevA.96.042113.data.
- ^ Rohrbach, M .; Amin, S .; Андрилука, М .; Шиле, Б. (2012). База данных для детального определения активности кулинарии. IEEE. Дои:10.1109 / cvpr.2012.6247801. ISBN 978-1-4673-1228-8.
- ^ Кюне, Хильде, Али Арслан и Томас Серр. "Язык действий: восстановление синтаксиса и семантики целенаправленной человеческой деятельности.."Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2014.
- ^ Святослав, Волошиновский и др. "На пути к воспроизводимым результатам аутентификации на основе физических неклонируемых функций: оптический набор микроструктуры судебной аутентификации (FAMOS). "Proc. Материалы международного семинара IEEE по криминалистике и безопасности информации. 2012.
- ^ Ольга, Таран и Шидех, Резаифар и др. "PharmaPack: мобильное детальное распознавание фармацевтических пакетов."Proc. Европейская конференция по обработке сигналов (EUSIPCO). 2017.
- ^ Хосла, Адитья и др. "Новый набор данных для детальной категоризации изображений: собаки Стэнфордского университета."Proc. CVPR Семинар по детальной визуальной категоризации (FGVC). 2011.
- ^ а б Пархи, Омкар М. и др. "Кошки и собаки."Компьютерное зрение и распознавание образов (CVPR), Конференция IEEE 2012 г.. IEEE, 2012.
- ^ Биггс, Бенджамин и др. "Кто оставил собак? Трехмерная реконструкция животных с максимизацией ожидания в цикле.."Proc. ECCV. 2020.
- ^ а б Разавиан, Али и др. "Готовые возможности CNN: потрясающая база для признания." Материалы конференции IEEE по компьютерному зрению и семинарам по распознаванию образов. 2014.
- ^ Ортега, Майкл; и другие. (1998). «Поддержка ранжированных логических запросов подобия в MARS». IEEE Transactions по разработке знаний и данных. 10 (6): 905–925. CiteSeerX 10.1.1.36.6079. Дои:10.1109/69.738357.
- ^ Он, Сюмин, Ричард С. Земель и Мигель А. Каррейра-Перпиньян. "Мультимасштабные условные случайные поля для маркировки изображений." Компьютерное зрение и распознавание образов, 2004 г. CVPR 2004 г. Материалы конференции компьютерного сообщества IEEE 2004 г.. Vol. 2. IEEE, 2004.
- ^ Денеке, Теодрос и др. "Прогнозирование времени перекодирования видео для упреждающей балансировки нагрузки. »Мультимедиа и выставка (ICME), 2014 Международная конференция IEEE по. IEEE, 2014.
- ^ Тинг-Хао (Кеннет) Хуанг, Фрэнсис Ферраро, Насрин Мостафазаде, Ишан Мисра, Айшвария Агравал, Джейкоб Девлин, Росс Гиршик, Сяодун Хе, Пушмит Кохли, Дхрув Батра, К. Лоуренс Зитник, Деви Парикх, Люси Вандервенде, Мишель Галлей, Мишель Галлей Митчелл (13 апреля 2016 г.). «Визуальное повествование». arXiv:1604.03968 [cs.CL ].CS1 maint: несколько имен: список авторов (связь)
- ^ Вау, Кэтрин и др. "Набор данных caltech-ucsd birds-200-2011." (2011).
- ^ Дуан, Кун и др. "Обнаружение локализованных атрибутов для детального распознавания." Компьютерное зрение и распознавание образов (CVPR), Конференция IEEE 2012 г.. IEEE, 2012.
- ^ "Набор данных YouTube-8M". research.google.com. Получено 1 октября 2016.
- ^ Абу-эль-Хайджа, саамы; Котари, Нисарг; Ли, Джунсок; Нацев, Павел; Тодеричи, Джордж; Варадараджан, Балакришнан; Виджаянарасимхан, Судхендра (27 сентября 2016 г.). «YouTube-8M: эталон крупномасштабной классификации видео». arXiv:1609.08675 [cs.CV ].
- ^ "Набор данных YFCC100M". mmcommons.org. Yahoo-ICSI-LLNL. Получено 1 июня 2017.
- ^ Барт Томи; Дэвид А Шамма; Джеральд Фридланд; Бенджамин Элизальде; Карл Ни; Дуглас Польша; Дамиан Борт; Ли-Цзя Ли (25 апреля 2016 г.). «Yfcc100m: новые данные в мультимедийных исследованиях». Коммуникации ACM. 59 (2): 64–73. arXiv:1503.01817. Дои:10.1145/2812802. S2CID 207230134.
- ^ Ю. Бавей, Э. Делландреа, К. Шамарет и Л. Чен "LIRIS-ACCEDE: база данных видео для анализа аффективного контента, "в IEEE Transactions on Affective Computing, 2015 г.
- ^ Ю. Бавей, Э. Делландреа, К. Шамарет и Л. Чен "Глубокое обучение и методы ядра: производительность для прогнозирования эмоций в видео, "в 2015 г. Конференция ассоциации Humaine по эффективным вычислениям и интеллектуальному взаимодействию (ACII), 2015 г.
- ^ M. Sjöberg, Y. Baveye, H. Wang, V. L. Quang, B. Ionescu, E. Dellandréa, M. Schedl, C.-H. Демарти и Л. Чен "Средневековый 2015 аффективное влияние кинозадачи, "в MediaEval 2015 Workshop, 2015.
- ^ S. Johnson and M. Everingham, "Clustered Pose and Nonlinear Appearance Models for Human Pose Estimation ", in Proceedings of the 21st British Machine Vision Conference (BMVC2010)
- ^ S. Johnson and M. Everingham, "Learning Effective Human Pose Estimation from Inaccurate Annotation ", In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR2011)
- ^ Afifi, Mahmoud; Hussain, Khaled F. (2 November 2017). "The Achievement of Higher Flexibility in Multiple Choice-based Tests Using Image Classification Techniques". arXiv:1711.00972 [cs.CV ].
- ^ "MCQ Dataset". sites.google.com. Получено 18 ноября 2017.
- ^ Taj-Eddin, I. A. T. F.; Afifi, M.; Korashy, M.; Hamdy, D.; Nasser, M.; Derbaz, S. (July 2016). A new compression technique for surveillance videos: Evaluation using new dataset. 2016 Sixth International Conference on Digital Information and Communication Technology and Its Applications (DICTAP). С. 159–164. Дои:10.1109/DICTAP.2016.7544020. ISBN 978-1-4673-9609-7. S2CID 8698850.
- ^ Tabak, Michael A.; Norouzzadeh, Mohammad S.; Wolfson, David W.; Sweeney, Steven J.; Vercauteren, Kurt C.; Snow, Nathan P.; Halseth, Joseph M.; Di Salvo, Paul A.; Lewis, Jesse S.; White, Michael D.; Teton, Ben; Бизли, Джеймс С.; Schlichting, Peter E.; Boughton, Raoul K.; Wight, Bethany; Newkirk, Eric S.; Ivan, Jacob S.; Odell, Eric A.; Brook, Ryan K.; Lukacs, Paul M.; Moeller, Anna K.; Mandeville, Elizabeth G.; Clune, Jeff; Miller, Ryan S.; Photopoulou, Theoni (2018). "Machine learning to classify animal species in camera trap images: Applications in ecology". Methods in Ecology and Evolution. 10 (4): 585–590. Дои:10.1111/2041-210X.13120. ISSN 2041-210X.
- ^ Taj-Eddin, Islam A. T. F.; Afifi, Mahmoud; Korashy, Mostafa; Ahmed, Ali H.; Ng, Yoke Cheng; Hernandez, Evelyng; Abdel-Latif, Salma M. (November 2017). "Can we see photosynthesis? Magnifying the tiny color changes of plant green leaves using Eulerian video magnification". Журнал электронного изображения. 26 (6): 060501. arXiv:1706.03867. Bibcode:2017JEI....26f0501T. Дои:10.1117/1.jei.26.6.060501. ISSN 1017-9909. S2CID 12367169.
- ^ McAuley, Julian, et al. "Image-based recommendations on styles and substitutes." Proceedings of the 38th international ACM SIGIR conference on Research and development in information retrieval. ACM, 2015
- ^ Ganesan, Kavita; Zhai, Chengxiang (2012). "Opinion-based entity ranking". Поиск информации. 15 (2): 116–150. Дои:10.1007/s10791-011-9174-8. HDL:2142/15252. S2CID 16258727.
- ^ Lv, Yuanhua, Dimitrios Lymberopoulos, and Qiang Wu. "An exploration of ranking heuristics in mobile local search." Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval. ACM, 2012.
- ^ Harper, F. Maxwell; Konstan, Joseph A. (2015). "The MovieLens Datasets: History and Context". Транзакции ACM в интерактивных интеллектуальных системах. 5 (4): 19. Дои:10.1145/2827872. S2CID 16619709.
- ^ Koenigstein, Noam, Gideon Dror, and Yehuda Koren. "Yahoo! music recommendations: modeling music ratings with temporal dynamics and item taxonomy." Proceedings of the fifth ACM conference on Recommender systems. ACM, 2011.
- ^ McFee, Brian, et al. "The million song dataset challenge." Proceedings of the 21st international conference companion on World Wide Web. ACM, 2012.
- ^ Bohanec, Marko, and Vladislav Rajkovic. "Knowledge acquisition and explanation for multi-attribute decision making." 8th Intl Workshop on Expert Systems and their Applications. 1988.
- ^ Tan, Peter J., and David L. Dowe. "MML inference of decision graphs with multi-way joins." Australian Joint Conference on Artificial Intelligence. 2002.
- ^ "Quantifying comedy on YouTube: why the number of o's in your LOL matter". Metatext NLP Database. Получено 26 октября 2020.
- ^ Kim, Byung Joo (2012). "A Classifier for Big Data". Convergence and Hybrid Information Technology. Коммуникации в компьютерных и информационных науках. 310. pp. 505–512. Дои:10.1007/978-3-642-32692-9_63. ISBN 978-3-642-32691-2.
- ^ Pérezgonzález, Jose D.; Gilbey, Andrew (2011). "Predicting Skytrax airport rankings from customer reviews". Journal of Airport Management. 5 (4): 335–339.
- ^ Loh, Wei-Yin, and Yu-Shan Shih. "Split selection methods for classification trees." Statistica sinica(1997): 815–840.
- ^ Lim, Tjen-Sien; Loh, Wei-Yin; Shih, Yu-Shan (2000). "A comparison of prediction accuracy, complexity, and training time of thirty-three old and new classification algorithms". Машинное обучение. 40 (3): 203–228. Дои:10.1023/a:1007608224229. S2CID 17030953.
- ^ Kiet Van Nguyen, Vu Duc Nguyen, Phu X. V. Nguyen, Tham T. H. Truong, Ngan Luu-Thuy Nguyen. "UIT-VSFC: Vietnamese Students’ Feedback Corpus for Sentiment Analysis }}
- ^ Vong Anh Ho, Duong Huynh-Cong Nguyen, Danh Hoang Nguyen, Linh Thi-Van Pham, Duc-Vu Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen. "Emotion Recognition for Vietnamese Social Media Text }}
- ^ Dermouche, Mohamed; Velcin, Julien; Khouas, Leila; Loudcher, Sabine (2014). A Joint Model for Topic-Sentiment Evolution over Time. IEEE. Дои:10.1109/icdm.2014.82. ISBN 978-1-4799-4302-9.
- ^ Rose, Tony; Stevenson, Mark; Whitehead, Miles (2002). "The Reuters Corpus Volume 1-from Yesterday's News to Tomorrow's Language Resources" (PDF). LREC. 2. S2CID 9239414.
- ^ Amini, Massih R.; Usunier, Nicolas; Goutte, Cyril (2009). "Learning from Multiple Partially Observed Views - an Application to Multilingual Text Categorization". Достижения в системах обработки нейронной информации: 28–36.
- ^ Liu, Ming; и другие. (2015). "VRCA: a clustering algorithm for massive amount of texts". Материалы 24-й Международной конференции по искусственному интеллекту. AAAI Press.
- ^ Al-Harbi, S; Almuhareb, A; Al-Thubaity, A; Khorsheed, M. S.; Al-Rajeh, A (2008). "Automatic Arabic Text Classification". Proceedings of the 9th International Conference on the Statistical Analysis of Textual Data, Lyon, France.
- ^ "Relationship and Entity Extraction Evaluation Dataset: Dstl/re3d". 17 December 2018.
- ^ "The Examiner - SpamClickBait Catalogue".
- ^ "A Million News Headlines".
- ^ "One Week of Global News Feeds".
- ^ Kulkarni, Rohit (2018), Reuters News-Wire Archive, Harvard Dataverse, Дои:10.7910/DVN/XDB74W
- ^ "IrishTimes - the Waxy-Wany News".
- ^ "News Headlines Dataset For Sarcasm Detection". kaggle.com. Получено 27 апреля 2019.
- ^ Klimt, Bryan, and Yiming Yang. "Introducing the Enron Corpus." CEAS. 2004.
- ^ Kossinets, Gueorgi, Jon Kleinberg, and Duncan Watts. "The structure of information pathways in a social communication network." Материалы 14-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных. ACM, 2008.
- ^ Андроутсопулос, Ион; Koutsias, John; Chandrinos, Konstantinos V.; Paliouras, George; Spyropoulos, Constantine D. (2000). "An evaluation of Naive Bayesian anti-spam filtering". In Potamias, G.; Moustakis, V.; van Someren, M. (eds.). Proceedings of the Workshop on Machine Learning in the New Information Age. 11th European Conference on Machine Learning, Barcelona, Spain. 11. С. 9–17. arXiv:cs/0006013. Bibcode:2000cs........6013A.
- ^ Bratko, Andrej; и другие. (2006). "Spam filtering using statistical data compression models" (PDF). Журнал исследований в области машинного обучения. 7: 2673–2698.
- ^ Almeida, Tiago A., José María G. Hidalgo, and Akebo Yamakami. "Contributions to the study of SMS spam filtering: new collection and results."Proceedings of the 11th ACM symposium on Document engineering. ACM, 2011.
- ^ Delany; Jane, Sarah; Buckley, Mark; Greene, Derek (2012). "SMS spam filtering: methods and data". Экспертные системы с приложениями. 39 (10): 9899–9908. Дои:10.1016/j.eswa.2012.02.053.
- ^ Joachims, Thorsten. A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization. No. CMU-CS-96-118. Carnegie-mellon univ pittsburgh pa dept of computer science, 1996.
- ^ Dimitrakakis, Christos, and Samy Bengio. Online Policy Adaptation for Ensemble Algorithms. No. EPFL-REPORT-82788. IDIAP, 2002.
- ^ Dooms, S. et al. "Movietweetings: a movie rating dataset collected from twitter, 2013. Available from https://github.com/sidooms/MovieTweetings."
- ^ RoyChowdhury, Aruni; Lin, Tsung-Yu; Maji, Subhransu; Learned-Miller, Erik (2017). "Twitter100k: A Real-world Dataset for Weakly Supervised Cross-Media Retrieval". arXiv:1703.06618 [cs.CV ].
- ^ "huyt16/Twitter100k". GitHub. Получено 26 марта 2018.
- ^ Go, Alec; Bhayani, Richa; Huang, Lei (2009). "Twitter sentiment classification using distant supervision". CS224N Project Report, Stanford. 1: 12.
- ^ Chikersal, Prerna, Soujanya Poria, and Erik Cambria. "SeNTU: sentiment analysis of tweets by combining a rule-based classifier with supervised learning." Proceedings of the International Workshop on Semantic Evaluation, SemEval. 2015.
- ^ Zafarani, Reza, and Huan Liu. "Social computing data repository at ASU." School of Computing, Informatics and Decision Systems Engineering, Arizona State University (2009).
- ^ Bisgin, Halil, Nitin Agarwal, and Xiaowei Xu. "Investigating homophily in online social networks." Web Intelligence and Intelligent Agent Technology (WI-IAT), 2010 IEEE/WIC/ACM International Conference on. Vol. 1. IEEE, 2010.
- ^ McAuley, Julian J.; Leskovec, Jure. "Learning to Discover Social Circles in Ego Networks". NIPS. 2012: 2012.
- ^ Šubelj, Lovro; Fiala, Dalibor; Bajec, Marko (2014). "Network-based statistical comparison of citation topology of bibliographic databases". Научные отчеты. 4 (6496): 6496. arXiv:1502.05061. Bibcode:2014NatSR...4E6496S. Дои:10.1038/srep06496. ЧВК 4178292. PMID 25263231.
- ^ Abdulla, N., et al. "Arabic sentiment analysis: Corpus-based and lexicon-based." Proceedings of the IEEE conference on Applied Electrical Engineering and Computing Technologies (AEECT). 2013.
- ^ Abooraig, Raddad, et al. "On the automatic categorization of Arabic articles based on their political orientation." Third International Conference on Informatics Engineering and Information Science (ICIEIS2014). 2014.
- ^ Kawala, François, et al. "Prédictions d'activité dans les réseaux sociaux en ligne." 4ième conférence sur les modèles et l'analyse des réseaux: Approches mathématiques et informatiques. 2013.
- ^ Сабхарвал, Ашиш; Samulowitz, Horst; Tesauro, Gerald (2015). "Selecting Near-Optimal Learners via Incremental Data Allocation". arXiv:1601.00024 [cs.LG ].
- ^ Xu et al. "SemEval-2015 Task 1: Paraphrase and Semantic Similarity in Twitter (PIT) " Proceedings of the 9th International Workshop on Semantic Evaluation. 2015.
- ^ Xu et al. "Extracting Lexically Divergent Paraphrases from Twitter " Transactions of the Association for Computational (TACL). 2014.
- ^ Middleton, Stuart E; Middleton, Lee; Modafferi, Stefano (2014). "Real-Time Crisis Mapping of Natural Disasters Using Social Media" (PDF). Интеллектуальные системы IEEE. 29 (2): 9–17. Дои:10.1109/MIS.2013.126. S2CID 15139204.
- ^ "geoparsepy". 2016. Python PyPI library
- ^ Forsyth, E., Lin, J., & Martell, C. (2008, June 25). The NPS Chat Corpus. Извлекаются из http://faculty.nps.edu/cmartell/NPSChat.htm
- ^ Alessandro Sordoni, Michel Galley, Michael Auli, Chris Brockett, Yangfeng Ji, Meg Mitchell, Jian-Yun Nie, Jianfeng Gao, and Bill Dolan, A Neural Network Approach to Context-Sensitive Generation of Conversational Responses, Conference of the North American Chapter of the Association for Computational Linguistics – Human Language Technologies (NAACL-HLT 2015), June 2015.
- ^ Shaoul, C. & Westbury C. (2013) A reduced redundancy USENET corpus (2005-2011) Edmonton, AB: University of Alberta (downloaded from http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus.download.html )
- ^ KAN, M. (2011, January). NUS Short Message Service (SMS) Corpus. Извлекаются из http://www.comp.nus.edu.sg/entrepreneurship/innovation/osr/corpus/
- ^ Stuck_In_the_Matrix. (2015, July 3). I have every publicly available Reddit comment for research. ~ 1.7 billion comments @ 250 GB compressed. Any interest in this? [Original post]. Сообщение отправлено в https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/
- ^ Ryan Lowe, Nissan Pow, Iulian V. Serban and Joelle Pineau, "The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructure Multi-Turn Dialogue Systems ", SIGDial 2015.
- ^ K. Kowsari, D. E. Brown, M. Heidarysafa, K. Jafari Meimandi, M. S. Gerber and L. E. Barnes, "HDLTex: Hierarchical Deep Learning for Text Classification", 2017 16th IEEE International Conference on Machine Learning and Applications (ICMLA), pp. 364-371. doi: 10.1109/ICMLA.2017.0-134
- ^ K. Kowsari, D. E. Brown, M. Heidarysafa, K. Jafari Meimandi, M. S. Gerber and L. E. Barnes, "Web of Science Dataset", Дои:10.17632/9rw3vkcfy4.6
- ^ Galgani, Filippo, Paul Compton, and Achim Hoffmann. "Combining different summarization techniques for legal text." Proceedings of the Workshop on Innovative Hybrid Approaches to the Processing of Textual Data. Association for Computational Linguistics, 2012.
- ^ Nagwani, N. K. (2015). "Summarizing large text collection using topic modeling and clustering based on MapReduce framework". Журнал больших данных. 2 (1): 1–18. Дои:10.1186/s40537-015-0020-5.
- ^ Schler, Jonathan; и другие. (2006). "Effects of Age and Gender on Blogging" (PDF). AAAI Spring Symposium: Computational Approaches to Analyzing Weblogs. 6.
- ^ Anand, Pranav, et al. "Believe Me-We Can Do This! Annotating Persuasive Acts in Blog Text."Computational Models of Natural Argument. 2011.
- ^ Traud, Amanda L., Peter J. Mucha, and Mason A. Porter. "Social structure of Facebook networks." Physica A: Статистическая механика и ее приложения391.16 (2012): 4165–4180.
- ^ Richard, Emile; Savalle, Pierre-Andre; Vayatis, Nicolas (2012). "Estimation of Simultaneously Sparse and Low Rank Matrices". arXiv:1206.6474 [cs.DS ].
- ^ Ричардсон, Мэтью; Burges, Christopher JC; Renshaw, Erin (2013). "MCTest: A Challenge Dataset for the Open-Domain Machine Comprehension of Text". EMNLP. 1.
- ^ Уэстон, Джейсон; Бордес, Антуан; Чопра, Сумит; Rush, Alexander M.; Bart van Merriënboer; Joulin, Armand; Mikolov, Tomas (2015). "Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks". arXiv:1502.05698 [cs.AI ].
- ^ Marcus, Mitchell P.; Ann Marcinkiewicz, Mary; Santorini, Beatrice (1993). "Building a large annotated corpus of English: The Penn Treebank". Компьютерная лингвистика. 19 (2): 313–330.
- ^ Collins, Michael (2003). "Head-driven statistical models for natural language parsing". Компьютерная лингвистика. 29 (4): 589–637. Дои:10.1162/089120103322753356.
- ^ Guyon, Isabelle, et al., eds. Feature extraction: foundations and applications. Vol. 207. Springer, 2008.
- ^ Lin, Yuri, et al. "Syntactic annotations for the google books ngram corpus." Proceedings of the ACL 2012 system demonstrations. Association for Computational Linguistics, 2012.
- ^ Krishnamoorthy, Niveda; и другие. (2013). "Generating Natural-Language Video Descriptions Using Text-Mined Knowledge". AAAI. 1.
- ^ Luyckx, Kim, and Walter Daelemans. "Personae: a Corpus for Author and Personality Prediction from Text." LREC. 2008.
- ^ Solorio, Thamar, Ragib Hasan, and Mainul Mizan. "A case study of sockpuppet detection in wikipedia." Workshop on Language Analysis in Social Media (LASM) at NAACL HLT. 2013.
- ^ Ciarelli, Patrick Marques, and Elias Oliveira. "Agglomeration and elimination of terms for dimensionality reduction." Intelligent Systems Design and Applications, 2009. ISDA'09. Ninth International Conference on. IEEE, 2009 г.
- ^ Zhou, Mingyuan, Oscar Hernan Madrid Padilla, and James G. Scott. "Priors for random count matrices derived from a family of negative binomial processes." Журнал Американской статистической ассоциации just-accepted (2015): 00–00.
- ^ Kotzias, Dimitrios, et al. "From group to individual labels using deep features." Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2015.
- ^ Ning, Yue; Muthiah, Sathappan; Rangwala, Huzefa; Ramakrishnan, Naren (2016). "Modeling Precursors for Event Forecasting via Nested Multi-Instance Learning". arXiv:1602.08033 [cs.SI ].
- ^ Buza, Krisztian. "Feedback prediction for blogs."Data analysis, machine learning and knowledge discovery. Springer International Publishing, 2014. 145–152.
- ^ Soysal, Ömer M (2015). "Association rule mining with mostly associated sequential patterns". Экспертные системы с приложениями. 42 (5): 2582–2592. Дои:10.1016/j.eswa.2014.10.049.
- ^ Bowman, Samuel, et al. "A large annotated corpus for learning natural language inference." Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP). ACL, 2015.
- ^ "DSL Corpus Collection". ttg.uni-saarland.de. Получено 22 сентября 2017.
- ^ "Urban Dictionary Words and Definitions".
- ^ H. Elsahar, P. Vougiouklis, A. Remaci, C. Gravier, J. Hare, F. Laforest, E. Simperl, "T-REx: A Large Scale Alignment of Natural Language with Knowledge Base Triples ", Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC-2018).
- ^ Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., & Bowman, S. R. (2018). Glue: A multi-task benchmark and analysis platform for natural language understanding. arXiv preprint arXiv:1804.07461.
- ^ "Computers Are Learning to Read—But They're Still Not So Smart". Проводной. Получено 29 декабря 2019.
- ^ Quan, Hoang Lam; Quang, Duy Le; Van Kiet, Nguyen; Ngan, Luu-Thuy Nguyen. "UIT-ViIC: A Dataset for the First Evaluation on Vietnamese Image Captioning".
- ^ To, Quoc Huy; Nguyen, Van Kiet; Nguyen, Luu Thuy Ngan; Nguyen, Gia Tuan Anh. "Gender Prediction Based on Vietnamese Names with Machine Learning Techniques" (PDF).
- ^ M. Versteegh, R. Thiollière, T. Schatz, X.-N. Cao, X. Anguera, A. Jansen, and E. Dupoux (2015). "The Zero Resource Speech Challenge 2015," in INTERSPEECH-2015.
- ^ M. Versteegh, X. Anguera, A. Jansen, and E. Dupoux, (2016). "The Zero Resource Speech Challenge 2015: Proposed Approaches and Results," in SLTU-2016.
- ^ Sakar, Betul Erdogdu; и другие. (2013). "Collection and analysis of a Parkinson speech dataset with multiple types of sound recordings". Журнал IEEE по биомедицинской и медицинской информатике. 17 (4): 828–834. Дои:10.1109/jbhi.2013.2245674. PMID 25055311. S2CID 15491516.
- ^ Zhao, Shunan, et al. "Automatic detection of expressed emotion in Parkinson's disease." Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014.
- ^ Used in: Hammami, Nacereddine, and Mouldi Bedda. "Improved tree model for Arabic speech recognition." Computer Science and Information Technology (ICCSIT), 2010 3rd IEEE International Conference on. Vol. 5. IEEE, 2010.
- ^ Maaten, Laurens. "Learning discriminative fisher kernels." Proceedings of the 28th International Conference on Machine Learning (ICML-11). 2011.
- ^ Cole, Ronald, and Mark Fanty. "Spoken letter recognition." Proc. Third DARPA Speech and Natural Language Workshop. 1990.
- ^ Chapelle, Olivier; Sindhwani, Vikas; Keerthi, Sathiya S. (2008). "Optimization techniques for semi-supervised support vector machines" (PDF). Журнал исследований в области машинного обучения. 9: 203–233.
- ^ Kudo, Mineichi; Toyama, Jun; Shimbo, Masaru (1999). "Multidimensional curve classification using passing-through regions". Письма с распознаванием образов. 20 (11): 1103–1111. CiteSeerX 10.1.1.46.2515. Дои:10.1016/s0167-8655(99)00077-x.
- ^ Jaeger, Herbert; и другие. (2007). "Optimization and applications of echo state networks with leaky-integrator neurons". Нейронные сети. 20 (3): 335–352. Дои:10.1016/j.neunet.2007.04.016. PMID 17517495.
- ^ Tsanas, Athanasios; и другие. (2010). "Accurate telemonitoring of Parkinson's disease progression by noninvasive speech tests". IEEE Transactions по биомедицинской инженерии (Представлена рукопись). 57 (4): 884–893. Дои:10.1109/tbme.2009.2036000. PMID 19932995. S2CID 7382779.
- ^ Clifford, Gari D.; Clifton, David (2012). "Wireless technology in disease management and medicine". Annual Review of Medicine. 63: 479–492. Дои:10.1146/annurev-med-051210-114650. PMID 22053737.
- ^ Zue, Victor; Seneff, Stephanie; Glass, James (1990). "Speech database development at MIT: TIMIT and beyond". Речевое общение. 9 (4): 351–356. Дои:10.1016/0167-6393(90)90010-7.
- ^ Kapadia, Sadik, Valtcho Valtchev, and S. J. Young. "MMI training for continuous phoneme recognition on the TIMIT database." Acoustics, Speech, and Signal Processing, 1993. ICASSP-93., 1993 IEEE International Conference on. Vol. 2. IEEE, 1993.
- ^ Halabi, Nawar (2016). Modern Standard Arabic Phonetics for Speech Synthesis (PDF) (Кандидатская диссертация). Саутгемптонский университет, School of Electronics and Computer Science.
- ^ Ardila, Rosana; Branson, Megan; Дэвис, Келли; Henretty, Michael; Kohler, Michael; Meyer, Josh; Morais, Reuben; Saunders, Lindsay; Tyers, Francis M.; Weber, Gregor (13 December 2019). "Common Voice: A Massively-Multilingual Speech Corpus". arXiv:1912.06670v2 [cs.CL ].
- ^ Zhou, Fang, Q. Claire, and Ross D. King. "Predicting the geographical origin of music." Data Mining (ICDM), 2014 IEEE International Conference on. IEEE, 2014.
- ^ Saccenti, Edoardo; Camacho, José (2015). "On the use of the observation‐wise k‐fold operation in PCA cross‐validation". Journal of Chemometrics. 29 (8): 467–478. Дои:10.1002/cem.2726. HDL:10481/55302. S2CID 62248957.
- ^ Bertin-Mahieux, Thierry, et al. "The million song dataset." ISMIR 2011: Proceedings of the 12th International Society for Music Information Retrieval Conference, 24–28 October 2011, Miami, Florida. University of Miami, 2011.
- ^ Henaff, Mikael; и другие. (2011). "Unsupervised learning of sparse features for scalable audio classification" (PDF). ISMIR. 11.
- ^ Rafii, Zafar (2017). "Музыка". MUSDB18 - a corpus for music separation. Дои:10.5281/zenodo.1117372.
- ^ Defferrard, Michaël; Benzi, Kirell; Vandergheynst, Pierre; Bresson, Xavier (6 December 2016). "FMA: A Dataset For Music Analysis". arXiv:1612.01840 [cs.SD ].
- ^ Esposito, Roberto; Radicioni, Daniele P. (2009). "Carpediem: Optimizing the viterbi algorithm and applications to supervised sequential learning" (PDF). Журнал исследований в области машинного обучения. 10: 1851–1880.
- ^ Sourati, Jamshid; и другие. (2016). "Classification Active Learning Based on Mutual Information". Энтропия. 18 (2): 51. Bibcode:2016Entrp..18...51S. Дои:10.3390/e18020051.
- ^ Salamon, Justin; Jacoby, Christopher; Bello, Juan Pablo. "A dataset and taxonomy for urban sound research." Proceedings of the ACM International Conference on Multimedia. ACM, 2014.
- ^ Lagrange, Mathieu; Lafay, Grégoire; Rossignol, Mathias; Benetos, Emmanouil; Roebel, Axel (2015). "An evaluation framework for event detection using a morphological model of acoustic scenes". arXiv:1502.00141 [stat.ML ].
- ^ Gemmeke, Jort F., et al. "Audio Set: An ontology and human-labeled dataset for audio events." IEEE Международная конференция по акустике, речи и обработке сигналов (ICASSP). 2017 г.
- ^ "Watch out, birders: Artificial intelligence has learned to spot birds from their songs". Наука | AAAS. 18 July 2018. Получено 22 июля 2018.
- ^ "Bird Audio Detection challenge". Machine Listening Lab at Университет Королевы Марии. 3 мая 2016. Получено 22 июля 2018.
- ^ Wichern, G., et al. "WHAM!: Extending Speech Separation to Noisy Environments", Interspeech, 2019, https://arxiv.org/abs/1907.01160
- ^ Drossos, K., Lipping, S., and Virtanen, T. "Clotho: An Audio Captioning Dataset" IEEE Международная конференция по акустике, речи и обработке сигналов (ICASSP). 2020.
- ^ Drossos, K., Lipping, S., and Virtanen, T. (2019). Clotho dataset (Version 1.0) [Data set]. Зенодо. http://doi.org/10.5281/zenodo.3490684
- ^ The CAIDA UCSD Dataset on the Witty Worm – 19–24 March 2004, http://www.caida.org/data/passive/witty_worm_dataset.xml
- ^ Chen, Zesheng, and Chuanyi Ji. "Optimal worm-scanning method using vulnerable-host distributions." International Journal of Security and Networks 2.1–2 (2007): 71–80.
- ^ Kachuee, Mohamad, et al. "Cuff-less high-accuracy calibration-free blood pressure estimation using pulse transit time." Circuits and Systems (ISCAS), 2015 IEEE International Symposium on. IEEE, 2015.
- ^ PhysioBank, PhysioToolkit. "PhysioNet: components of a new research resource for complex physiologic signals." Тираж. v101 i23. e215-e220.
- ^ Vergara, Alexander; и другие. (2012). "Chemical gas sensor drift compensation using classifier ensembles". Датчики и исполнительные механизмы B: химические. 166: 320–329. Дои:10.1016/j.snb.2012.01.074.
- ^ Korotcenkov, G.; Cho, B. K. (2014). "Engineering approaches to improvement of conductometric gas sensor parameters. Part 2: Decrease of dissipated (consumable) power and improvement stability and reliability". Датчики и исполнительные механизмы B: химические. 198: 316–341. Дои:10.1016/j.snb.2014.03.069.
- ^ Quinlan, John R (1992). "Learning with continuous classes" (PDF). 5th Australian Joint Conference on Artificial Intelligence. 92.
- ^ Merz, Christopher J.; Pazzani, Michael J. (1999). "A principal components approach to combining regression estimates". Машинное обучение. 36 (1–2): 9–32. Дои:10.1023/a:1007507221352.
- ^ Torres-Sospedra, Joaquin, et al. "UJIIndoorLoc-Mag: A new database for magnetic field-based localization problems." Indoor Positioning and Indoor Navigation (IPIN), 2015 International Conference on. IEEE, 2015.
- ^ Berkvens, Rafael, Maarten Weyn, and Herbert Peremans. "Mean Mutual Information of Probabilistic Wi-Fi Localization." Indoor Positioning and Indoor Navigation (IPIN), 2015 International Conference on. Banff, Canada: IPIN. 2015.
- ^ Paschke, Fabian, et al. "Sensorlose Zustandsüberwachung an Synchronmotoren."Ход работы. 23. Workshop Computational Intelligence, Dortmund, 5.-6. Dezember 2013. KIT Scientific Publishing, 2013.
- ^ Lessmeier, Christian, et al. "Data Acquisition and Signal Analysis from Measured Motor Currents for Defect Detection in Electromechanical Drive Systems."
- ^ Ugulino, Wallace, et al. "Wearable computing: Accelerometers’ data classification of body postures and movements." Advances in Artificial Intelligence-SBIA 2012. Springer Berlin Heidelberg, 2012. 52–61.
- ^ Schneider, Jan; и другие. (2015). "Augmenting the senses: a review on sensor-based learning support". Датчики. 15 (2): 4097–4133. Дои:10.3390/s150204097. ЧВК 4367401. PMID 25679313.
- ^ Madeo, Renata CB, Clodoaldo AM Lima, and Sarajane M. Peres. "Gesture unit segmentation using support vector machines: segmenting gestures from rest positions." Proceedings of the 28th Annual ACM Symposium on Applied Computing. ACM, 2013.
- ^ Lun, Roanna; Zhao, Wenbing (2015). "A survey of applications and human motion recognition with Microsoft Kinect". International Journal of Pattern Recognition and Artificial Intelligence. 29 (5): 1555008. Дои:10.1142/s0218001415550083.
- ^ Theodoridis, Theodoros, and Huosheng Hu. "Action classification of 3d human models using dynamic ANNs for mobile robot surveillance."Robotics and Biomimetics, 2007. ROBIO 2007. IEEE International Conference on. IEEE, 2007.
- ^ Etemad, Seyed Ali, and Ali Arya. "3D human action recognition and style transformation using resilient backpropagation neural networks." Intelligent Computing and Intelligent Systems, 2009. ICIS 2009. IEEE International Conference on. Vol. 4. IEEE, 2009.
- ^ Altun, Kerem; Barshan, Billur; Tunçel, Orkun (2010). "Comparative study on classifying human activities with miniature inertial and magnetic sensors". Распознавание образов. 43 (10): 3605–3620. Дои:10.1016/j.patcog.2010.04.019. HDL:11693/11947.
- ^ Nathan, Ran; и другие. (2012). "Using tri-axial acceleration data to identify behavioral modes of free-ranging animals: general concepts and tools illustrated for griffon vultures". Журнал экспериментальной биологии. 215 (6): 986–996. Дои:10.1242/jeb.058602. ЧВК 3284320. PMID 22357592.
- ^ Anguita, Davide, et al. "Human activity recognition on smartphones using a multiclass hardware-friendly support vector machine." Ambient assisted living and home care. Springer Berlin Heidelberg, 2012. 216–223.
- ^ Su, Xing; Tong, Hanghang; Ji, Ping (2014). "Activity recognition with smartphone sensors". Tsinghua Science and Technology. 19 (3): 235–249. Дои:10.1109/tst.2014.6838194.
- ^ Kadous, Mohammed Waleed. Temporal classification: Extending the classification paradigm to multivariate time series. Дисс. The University of New South Wales, 2002.
- ^ Graves, Alex, et al. "Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks." Материалы 23-й международной конференции по машинному обучению. ACM, 2006.
- ^ Веллозо, Эдуардо и др. "Качественное распознавание активности упражнений по поднятию тяжестей."Материалы 4-й Международной конференции по дополненному человечеству. ACM, 2013.
- ^ Мортазави, Бобак Джек и др. "Определение единственной наилучшей оси для распознавания повторения упражнений и подсчет на умных часах." Носимые и имплантируемые сенсорные сети тела (BSN), 11-я Международная конференция по. IEEE, 2014 г.
- ^ Сапсанис, Христос и др. "Улучшение классификации основных движений рук на основе ЭМГ с помощью EMD." Общество инженерии в медицине и биологии (EMBC), 35-я ежегодная международная конференция IEEE, 2013 г.. IEEE, 2013.
- ^ а б Андрианезис, Константинос; Цес, Энтони (2015). «Разработка и контроль многофункционального протеза руки с приводами из сплава с памятью формы». Журнал интеллектуальных и робототехнических систем. 78 (2): 257–289. Дои:10.1007 / s10846-014-0061-6. S2CID 207174078.
- ^ Банос, Орести; и другие. (2014). «Работа с эффектами смещения сенсора при распознавании активности носимых устройств». Датчики. 14 (6): 9995–10023. Дои:10,3390 / с140609995. ЧВК 4118358. PMID 24915181.
- ^ Стисен, Аллан и др. "Умные устройства разные: оценка и устранение неоднородностей мобильного зондирования для распознавания активности."Материалы 13-й конференции ACM по встроенным сетевым сенсорным системам. ACM, 2015.
- ^ Бхаттачарья, Сурав и Николас Д. Лейн. "От умного к глубокому: надежное распознавание активности на умных часах с использованием глубокого обучения."
- ^ Баччу, Давиде; и другие. (2014). «Экспериментальная характеристика резервуарных вычислений в приложениях, связанных с окружающей средой». Нейронные вычисления и приложения. 24 (6): 1451–1464. Дои:10.1007 / s00521-013-1364-4. HDL:11568/237959. S2CID 14124013.
- ^ Паламбо, Филиппо; Барсоччи, Паоло; Галликкио, Клаудио; Чесса, Стефано; Микели, Алессио (2013). «Объединение мультисенсорных данных для распознавания активности на основе пластовых вычислений». Оценка систем AAL с помощью конкурентного бенчмаркинга. Коммуникации в компьютерных и информационных науках. 386. С. 24–35. Дои:10.1007/978-3-642-41043-7_3. ISBN 978-3-642-41042-0.
- ^ Рейсс, Аттила и Дидье Стрикер. "Представляем новый набор данных для мониторинга активности."Носимые компьютеры (ISWC), 16-й Международный симпозиум 2012 г.. IEEE, 2012.
- ^ Roggen, Daniel, et al. "ВОЗМОЖНОСТЬ: На пути к оппортунистической деятельности и системам распознавания контекста." Мир беспроводных, мобильных и мультимедийных сетей и семинары, 2009 г. WoWMoM 2009. Международный симпозиум IEEE по. IEEE, 2009 г.
- ^ Курц, Марк и др. "Динамическая количественная оценка возможностей распознавания активности в оппортунистических системах." Конференция по автомобильным технологиям (VTC Spring), 2011 IEEE 73-я. IEEE, 2011.
- ^ Штайлер, Тимо и Хайнер Штукеншмидт. "Локализация носимых устройств на теле: исследование распознавания активности с учетом положения." Pervasive Computing and Communications (PerCom), Международная конференция IEEE 2016 г.. IEEE, 2016.
- ^ Чжи, Ин Сюань; Лукасик, Мишель; Ли, Майкл Х .; Долатабади, Эльхам; Ван, Розали Х .; Таати, Бабак (2018). «Автоматическое определение компенсации при роботизированной реабилитационной терапии после инсульта». Журнал IEEE по трансляционной инженерии в здравоохранении и медицине. 6: 2100107. Дои:10.1109 / JTEHM.2017.2780836. ISSN 2168-2372. ЧВК 5788403. PMID 29404226.
- ^ Долатабади, Эльхам; Чжи, Ин Сюань; Йе, Бинг; Коахран, Мардж; Лупиначчи, Джорджия; Михайлидис, Алекс; Ван, Розали; Таати, Бабак (23 мая 2017 г.). Набор данных позы инсульта в реабилитационном центре торонто для определения компенсации во время реабилитационной терапии после инсульта. ACM. С. 375–381. Дои:10.1145/3154862.3154925. ISBN 9781450363631. S2CID 24581930.
- ^ "Набор данных позы для инсульта в реабилитации Торонто".
- ^ Юнг, Мерел М .; Поэль, Маннес; Поппе, Рональд; Хейлен, Дирк К. Дж. (1 марта 2017 г.). «Автоматическое распознавание сенсорных жестов в корпусе социального прикосновения». Журнал по мультимодальным пользовательским интерфейсам. 11 (1): 81–96. Дои:10.1007 / s12193-016-0232-9. ISSN 1783-8738. S2CID 1802116.
- ^ Юнг, М. (Мерел) (1 июня 2016 г.). «Корпус социальных контактов (CoST)». Университет Твенте. Дои:10.4121 / uuid: 5ef62345-3b3e-479c-8e1d-c922748c9b29. Цитировать журнал требует
| журнал =
(помощь) - ^ Эберхард С., Д. Куманс и О. Де Вел. «Сравнение классификаторов в параметрах большой размерности». Кафедра математики. Статист., Университет Джеймса Кука, Северный Квинсленд, Австралия, Tech. Представитель 92-02 (1992).
- ^ Басу, Сугато. "Полу-контролируемая кластеризация с ограниченными базовыми знаниями." AAAI. 2004.
- ^ Тюфекчи, Пынар (2014). «Прогнозирование выходной электрической мощности при полной нагрузке электростанции комбинированного цикла, работающей при базовой нагрузке, с использованием методов машинного обучения». Международный журнал электроэнергетических и энергетических систем. 60: 126–140. Дои:10.1016 / j.ijepes.2014.02.027.
- ^ Кая, Хейсем, Пынар Тюфекчи и Фикрет С. Гюрген. «Локальные и глобальные методы обучения для прогнозирования мощности комбинированной газовой и паровой турбины». Международная конференция по новым тенденциям в компьютерной и электронной инженерии (ICETCEE'2012), Дубай. 2012.
- ^ Бальди, Пьер; Садовский, Питер; Уайтсон, Дэниел (2014). «Поиск экзотических частиц в физике высоких энергий с глубоким обучением». Nature Communications. 5: 2014. arXiv:1402.4735. Bibcode:2014 НатКо ... 5.4308B. Дои:10.1038 / ncomms5308. PMID 24986233. S2CID 195953.
- ^ а б Бальди, Пьер; Садовский, Питер; Уайтсон, Дэниел (2015). «Улучшенный бозон Хиггса для поиска τ + τ– с глубоким обучением». Письма с физическими проверками. 114 (11): 111801. arXiv:1410.3469. Bibcode:2015ПхРвЛ.114к1801Б. Дои:10.1103 / Physrevlett.114.111801. PMID 25839260. S2CID 2339142.
- ^ а б Adam-Bourdarios, C .; Cowan, G .; Germain-Renaud, C .; Guyon, I .; Kégl, B .; Руссо, Д. (2015). «Проблема машинного обучения Хиггса». Журнал серии конференций по физике. 664 (7): 072015. Bibcode:2015JPhCS.664g2015A. Дои:10.1088/1742-6596/664/7/072015.
- ^ Пьер Бальди, Кайл Кранмер, Тейлор Фосетт, Питер Садовски и Дэниел Уайтсон. 'Параметризованное машинное обучение для физики высоких энергий. ' В подчинении.
- ^ Ортигоса, I .; Lopez, R .; Гарсиа, Дж. "Подход нейронных сетей к остаточному сопротивлению прогнозирования парусных яхт". Материалы Международной конференции по морской инженерии MARINE. 2007.
- ^ Дж. Герритсма, Р. Оннинк и А. Верслуис.Геометрия, прочность и устойчивость корпуса яхт серии delft systematic. Делфтский технологический университет, 1981.
- ^ Лю, Хуан и Хироши Мотода. Извлечение, построение и выбор признаков: перспектива интеллектуального анализа данных. Springer Science & Business Media, 1998.
- ^ Райх, Йорам. Приведение к идеальным знаниям в области дизайна путем обучения. [Университет Карнеги-Меллона], Исследовательский центр инженерного дизайна, 1989.
- ^ Тодоровски, Люпчо; Джероски, Сашо (1999). «Эксперименты по метауровневому обучению с помощью ILP». Принципы интеллектуального анализа данных и обнаружения знаний. Конспект лекций по информатике. 1704. С. 98–106. Дои:10.1007/978-3-540-48247-5_11. ISBN 978-3-540-66490-1.
- ^ Ван, Юн. Новый подход к подгонке линейных моделей в пространствах большой размерности. Дисс. Университет Вайкато, 2000 г.
- ^ Киблер, Деннис; Ага, Дэвид В .; Альберт, Марк К. (1989). «Прогнозирование действительных атрибутов на основе экземпляров». Вычислительный интеллект. 5 (2): 51–57. Дои:10.1111 / j.1467-8640.1989.tb00315.x. S2CID 40800413.
- ^ Палмер, Кристофер Р. и Христос Фалаутсос. "Электричество по внешнему сходству категориальных признаков." Достижения в области обнаружения знаний и интеллектуального анализа данных. Springer Berlin Heidelberg, 2003. 486–500.
- ^ Цанас, Афанасий; Ксифара, Ангелики (2012). «Точная количественная оценка энергоэффективности жилых домов с использованием инструментов статистического машинного обучения». Энергия и здания. 49: 560–567. Дои:10.1016 / j.enbuild.2012.03.003.
- ^ Де Уайлд, Питер (2014). «Разрыв между прогнозируемыми и измеренными энергоэффективностью зданий: основа для исследования». Автоматизация в строительстве. 41: 40–49. Дои:10.1016 / j.autcon.2014.02.009.
- ^ Брукс, Томас Ф., Д. Стюарт Поуп и Майкл А. Марколини. Самошум аэродинамического профиля и прогнозирование. Vol. 1218. Национальное управление по аэронавтике и исследованию космического пространства, Управление управления, Отдел научно-технической информации, 1989 г.
- ^ Дрейпер, Дэвид. "Оценка и распространение неопределенности модели." Журнал Королевского статистического общества, серия B (методологический) (1995): 45–97.
- ^ Лавин, Майкл (1991). «Проблемы экстраполяции, проиллюстрированные данными об уплотнительном кольце космического челнока». Журнал Американской статистической ассоциации. 86 (416): 919–921. Дои:10.1080/01621459.1991.10475132.
- ^ Ван, Цзюнь, Бей Ю и Лесс Гассер. "Визуализация кластеризации на основе дерева концепций с заштрихованными матрицами сходства." Data Mining, 2002. ICDM 2003. Труды. Международная конференция IEEE 2002 г.. IEEE, 2002.
- ^ Петтенгилл, Гордон Х. и др. "Magellan: характеристики радара и информационные продукты." Наука252.5003 (1991): 260–265.
- ^ а б Aharonian, F .; и другие. (2008). «Энергетический спектр электронов космических лучей при энергиях ТэВ». Письма с физическими проверками. 101 (26): 261104. arXiv:0811.3894. Bibcode:2008PhRvL.101z1104A. Дои:10.1103 / PhysRevLett.101.261104. HDL:2440/51450. PMID 19437632. S2CID 41850528.
- ^ Bock, R.K .; и другие. (2004). «Методы классификации многомерных событий: тематическое исследование с использованием изображений с черенковского гамма-телескопа». Ядерные инструменты и методы в физических исследованиях Секция A: ускорители, спектрометры, детекторы и связанное с ними оборудование. 516 (2): 511–528. Bibcode:2004НИМПА.516..511Б. Дои:10.1016 / j.nima.2003.08.157.
- ^ Ли, Цзиньянь; и другие. (2004). "Deeps: новая система отложенного обнаружения и классификации на основе экземпляров". Машинное обучение. 54 (2): 99–124. Дои:10.1023 / b: mach.0000011804.08528.7d.
- ^ Зиберт, Ли и Том Симкин. «Вулканы мира: иллюстрированный каталог вулканов голоцена и их извержений». (2014).
- ^ Сикора, Марек; Wróbel, Лукаш (2010). «Применение алгоритмов индукции правил для анализа данных, собранных системами мониторинга сейсмической опасности на угольных шахтах». Архив горных наук. 55 (1): 91–114.
- ^ Сикора, Марек и Беата Сикора. «Грубый мониторинг опасных природных явлений». Грубые наборы: избранные методы и приложения в менеджменте и инженерии. Springer London, 2012. 163–179.
- ^ Да, I – C (1998). «Моделирование прочности высокопрочного бетона с помощью искусственных нейронных сетей». Цемент и бетонные исследования. 28 (12): 1797–1808. Дои:10.1016 / с0008-8846 (98) 00165-3.
- ^ Заранди, М. Х. Фазель; и другие. (2008). «Нечеткие полиномиальные нейронные сети для аппроксимации прочности бетона на сжатие». Прикладные мягкие вычисления. 8 (1): 488–498. Bibcode:2008ApSoC ... 8 ... 79S. Дои:10.1016 / j.asoc.2007.02.010.
- ^ Yeh, I. "Моделирование просадки бетона с помощью летучей золы и суперпластификатора". Компьютеры и бетон5.6 (2008): 559–572.
- ^ Генсель, Осман; и другие. (2011). «Сравнение искусственных нейронных сетей и общих линейных модельных подходов для анализа абразивного износа бетона». Строительные и строительные материалы. 25 (8): 3486–3494. Дои:10.1016 / j.conbuildmat.2011.03.040.
- ^ Диттерих, Томас Г. и др. "Сравнение динамического отклика и тангенциального расстояния для прогнозирования активности препарата.." Достижения в системах обработки нейронной информации (1994): 216–216.
- ^ Бушема, Массимо, Уильям Дж. Тастл и Стефано Терци. "Мета-сеть: новое семейство мета-классификаторов."Приложения интеллектуального анализа данных с использованием искусственных адаптивных систем. Springer New York, 2013. 141–182.
- ^ Ингбер, Лестер (1997). «Статистическая механика неокортикальных взаимодействий: канонические импульсные индикаторы электроэнцефалографии». Физический обзор E. 55 (4): 4578–4593. arXiv:физика / 0001052. Bibcode:1997PhRvE..55.4578I. Дои:10.1103 / PhysRevE.55.4578. S2CID 6390999.
- ^ Хоффманн, Ульрих; Весин, Жан-Марк; Эбрахими, Турадж; Дисеренс, Карин (2008). «Эффективный интерфейс мозг-компьютер на базе P300 для лиц с ограниченными возможностями». Журнал методов неврологии. 167 (1): 115–125. CiteSeerX 10.1.1.352.4630. Дои:10.1016 / j.jneumeth.2007.03.005. PMID 17445904. S2CID 9648828.
- ^ Дончин, Эмануэль; Спенсер, Кевин М .; Wijesinghe, Ranjith (2000). «Психологический протез: оценка скорости интерфейса мозг-компьютер на базе P300». IEEE Transactions по реабилитационной инженерии. 8 (2): 174–179. Дои:10.1109/86.847808. PMID 10896179.
- ^ Детрано, Роберт; и другие. (1989). «Международное применение нового вероятностного алгоритма диагностики ишемической болезни сердца». Американский журнал кардиологии. 64 (5): 304–310. Дои:10.1016/0002-9149(89)90524-9. PMID 2756873.
- ^ Брэдли, Эндрю П. (1997). «Использование площади под кривой ROC при оценке алгоритмов машинного обучения» (PDF). Распознавание образов. 30 (7): 1145–1159. Дои:10.1016 / с0031-3203 (96) 00142-2.
- ^ Улица, W. N .; Wolberg, W. H .; Мангасарян, О. Л. (1993). «Извлечение ядерных признаков для диагностики опухолей молочной железы». В Ачарье - Радж С. Гольдгоф, Дмитрий Б (ред.). Биомедицинская обработка изображений и биомедицинская визуализация. 1905. С. 861–870. Дои:10.1117/12.148698. S2CID 14922543.
- ^ Демир, Сигдем и Бюлент Йенер. "Автоматическая диагностика рака на основе гистопатологических изображений: систематическое обследование." Политехнический институт Ренсселера, Tech. Представитель (2005).
- ^ Злоупотребление, вещества. «Управление служб психического здоровья, результаты национального исследования употребления наркотиков и здоровья 2010 года: сводка национальных результатов, серия NSDUH H-41, публикация HHS № (SMA) 11-4658». Роквилл, Мэриленд: Управление служб охраны психического здоровья и наркозависимости 201 (2011).
- ^ Хун, Цзы-Цюань; Ян, Цзин-Ю (1991). «Оптимальная дискриминантная плоскость для небольшого количества выборок и метод построения классификатора на плоскости». Распознавание образов. 24 (4): 317–324. Дои:10.1016 / 0031-3203 (91) 90074-ф.
- ^ а б Ли, Цзиньянь и Лисун Вонг. «Использование правил для анализа биомедицинских данных: сравнение C4. 5 и PCL». Достижения в области управления информацией в эпоху Интернета. Springer Berlin Heidelberg, 2003. 254–265.
- ^ Гювенир, Х. Алтай и др. "Алгоритм машинного обучения с учителем для анализа аритмии."Компьютеры в кардиологии 1997. IEEE, 1997.
- ^ Лагус, Криста и др. "Независимый групповой анализ переменных при изучении компактных представлений данных." Труды Международной и междисциплинарной конференции по адаптивному представлению знаний и аргументации (AKRR'05), Т. Хонкела, В. Коненен, М. Пёлля и О. Симула, ред., Эспоо, Финляндия. 2005.
- ^ Страк, Беата и др. "Влияние измерения HbA1c на частоту повторной госпитализации: анализ 70000 историй болезни пациентов из базы данных." BioMed Research International 2014; 2014
- ^ Рубин, Дэниел Дж (2015). «Повторная госпитализация больных сахарным диабетом». Текущие отчеты о диабете. 15 (4): 1–9. Дои:10.1007 / s11892-015-0584-7. PMID 25712258. S2CID 3908599.
- ^ Антал, Балинт; Хайду, Андраш (2014). «Ансамблевая система автоматического скрининга диабетической ретинопатии». Системы, основанные на знаниях. 60 (2014): 20–27. arXiv:1410.8576. Bibcode:2014arXiv1410.8576A. Дои:10.1016 / j.knosys.2013.12.023. S2CID 13984326.
- ^ Haloi, Мринал (2015). «Улучшенное обнаружение микроаневризмы с использованием глубоких нейронных сетей». arXiv:1505.04424 [cs.CV ].
- ^ ЭЛИ, Гийом ПАТРИ, Жерве Готье, Бруно ЛЭЙ, Жюльен РОДЖЕР, Дэмиен. «Загрузка ADCIS от стороннего производителя: база данных Messidor». adcis.net. Получено 25 февраля 2018.
- ^ Decencière, Этьен; Чжан, Сивэй; Казугуэль, Гай; Лей, Бруно; Кошенер, Беатрис; Трон, Кэролайн; Усиление, Филипп; Ордонез, Ричард; Массин, Паскаль (26 августа 2014 г.). «Отзыв о публично распространяемой базе данных изображений: база данных Messidor». Анализ изображений и стереология. 33 (3): 231–234. Дои:10.5566 / ias.1155. ISSN 1854-5165.
- ^ Багиров, А. М .; и другие. (2003). «Неконтролируемая и контролируемая классификация данных с помощью негладкой и глобальной оптимизации». Вершина. 11 (1): 1–75. CiteSeerX 10.1.1.1.6429. Дои:10.1007 / bf02578945. S2CID 14165678.
- ^ Фанг, Гленн и др. "Быстрый итерационный алгоритм для дискриминанта Фишера с использованием неоднородных ядер."Материалы двадцать первой международной конференции по машинному обучению. ACM, 2004.
- ^ Куинлан, Джон Росс и др. «Индуктивное приобретение знаний: тематическое исследование». Труды Второй Австралийской конференции по приложениям экспертных систем. Addison-Wesley Longman Publishing Co., Inc., 1987.
- ^ а б Чжоу, Чжи-Хуа; Цзян, Юань (2004). «NeC4. 5: нейронный ансамбль на основе C4. 5». IEEE Transactions по разработке знаний и данных. 16 (6): 770–773. CiteSeerX 10.1.1.1.8430. Дои:10.1109 / tkde.2004.11. S2CID 1024861.
- ^ Эр, Орхан; и другие. (2012). «Подход, основанный на вероятностной нейронной сети для диагностики болезни мезотелиомы». Компьютеры и электротехника. 38 (1): 75–81. Дои:10.1016 / j.compeleceng.2011.09.001.
- ^ Эр, Орхан, А. Четин Танрикулу и Абдуррахман Абакай. "Использование методов искусственного интеллекта для диагностики злокачественной мезотелиомы плевры."Дикле Тип Дергиси 42.1 (2015).
- ^ Ли, Майкл Х .; Mestre, Tiago A .; Fox, Susan H .; Таати, Бабак (25 июля 2017 г.). «Оценка паркинсонизма и вызванной леводопой дискинезии на основе зрения с оценкой позы глубокого обучения». Журнал нейроинженерии и реабилитации. 15 (1): 97. arXiv:1707.09416. Bibcode:2017arXiv170709416L. Дои:10.1186 / s12984-018-0446-z. ЧВК 6219082. PMID 30400914.
- ^ Ли, Майкл Х .; Mestre, Tiago A .; Fox, Susan H .; Таати, Бабак (май 2018 г.). «Автоматическая оценка дискинезии, вызванной леводопой: оценка отзывчивости видео-функций». Паркинсонизм и связанные с ним расстройства. 53: 42–45. Дои:10.1016 / j.parkreldis.2018.04.036. ISSN 1353-8020. PMID 29748112.
- ^ "Набор данных оценки позы Паркинсона | Kaggle". kaggle.com. Получено 22 августа 2018.
- ^ Шеннон, Пол; и другие. (2003). «Cytoscape: программная среда для интегрированных моделей сетей биомолекулярного взаимодействия». Геномные исследования. 13 (11): 2498–2504. Дои:10.1101 / гр.1239303. ЧВК 403769. PMID 14597658.
- ^ Джавади, Соруш; Миррошандель, Сейед Аболгасем (2019). «Новый метод глубокого обучения для автоматической оценки изображений спермы человека». Компьютеры в биологии и медицине. 109: 182–194. Дои:10.1016 / j.compbiomed.2019.04.030. ISSN 0010-4825. PMID 31059902.
- ^ "soroushj / mhsma-dataset: MHSMA: Модифицированный набор данных анализа морфологии спермы человека". github.com. Получено 3 мая 2019.
- ^ Кларк, Дэвид, Золтан Шретер и Энтони Адамс. «Количественное сравнение дистального и обратного распространения». Труды Австралийской конференции по нейронным сетям 1996 г.. 1996.
- ^ Цзян, Юань и Чжи-Хуа Чжоу. "Редактирование обучающих данных для классификаторов kNN с помощью ансамбля нейронных сетей." Достижения в нейронных сетях - ISNN 2004. Springer Berlin Heidelberg, 2004. 356–361.
- ^ Онтаньон, Сантьяго и Энрик Плаза. «О мерах подобия на основе решетки уточнения». Исследование и развитие аргументации на основе прецедентов. Springer Berlin Heidelberg, 2009. 240–255.
- ^ Игера, Клара; Gardiner, Katheleen J .; Чиос, Кшиштоф Дж. (2015). «Самоорганизующиеся функциональные карты определяют белки, критически важные для обучения в мышиной модели синдрома Дауна». PLOS ONE. 10 (6): e0129126. Bibcode:2015PLoSO..1029126H. Дои:10.1371 / journal.pone.0129126. ЧВК 4482027. PMID 26111164.
- ^ Ахмед, М. Махиуддин; и другие. (2015). «Динамика белка, связанная с неудачным и спасенным обучением в мышиной модели синдрома Дауна Ts65Dn». PLOS ONE. 10 (3): e0119491. Bibcode:2015PLoSO..1019491A. Дои:10.1371 / journal.pone.0119491. ЧВК 4368539. PMID 25793384.
- ^ Кортес, Пауло и Анибаль де Хесус Раймундо Мораис. «Подход интеллектуального анализа данных для прогнозирования лесных пожаров с использованием метеорологических данных». (2007).
- ^ Farquad, M.A.H .; Рави, В .; Раджу, С. Бапи (2010). «Поддержка методов извлечения гибридных правил на основе векторной регрессии для прогнозирования». Экспертные системы с приложениями. 37 (8): 5577–5589. Дои:10.1016 / j.eswa.2010.02.055.
- ^ Фишер, Рональд А. (1936). «Использование множественных измерений в таксономических задачах». Анналы евгеники. 7 (2): 179–188. Дои:10.1111 / j.1469-1809.1936.tb02137.x. HDL:2440/15227.
- ^ Гахрамани, Зубин и Майкл И. Джордан. "Контролируемое обучение на неполных данных с помощью EM-подхода." Достижения в области нейронных систем обработки информации 6. 1994.
- ^ Маллах, Чарльз; Коп, Джеймс; Оруэлл, Джеймс (2013). «Классификация листьев растений с использованием вероятностной интеграции формы, текстуры и особенностей окраски». Обработка сигналов, распознавание образов и приложения. 5: 1.
- ^ Яхиауи, Итери, Ольфа Мзуги и Ножа Бужемаа. "Дескриптор формы листа для идентификации пород деревьев." Мультимедиа и выставка (ICME), Международная конференция IEEE 2012 г.. IEEE, 2012.
- ^ Лэнгли, PAT (2014). «Торговля простотой и охватом при постепенном изучении концепций» (PDF). Машинное обучение. 1988: 73.
- ^ Тан, Мин и Ларри Эшелман. "Использование взвешенных сетей для представления знаний о классификации в шумных областях." Материалы Пятой Международной конференции по машинному обучению. 2014.
- ^ Хаританович, Малгожата и др. "Полный алгоритм градиентной кластеризации для анализа характеристик рентгеновских изображений." Информационные технологии в биомедицине. Springer Berlin Heidelberg, 2010. 15–24.
- ^ Санчес, Маурисио А .; и другие. (2014). «Алгоритм нечеткой гранулярной гравитационной кластеризации для многомерных данных». Информационные науки. 279: 498–511. Дои:10.1016 / j.ins.2014.04.005.
- ^ Блэкард, Джок А .; Дин, Денис Дж. (1999). «Сравнительная точность искусственных нейронных сетей и дискриминантного анализа в прогнозировании типов лесного покрова по картографическим переменным». Компьютеры и электроника в сельском хозяйстве. 24 (3): 131–151. CiteSeerX 10.1.1.128.2475. Дои:10.1016 / s0168-1699 (99) 00046-0.
- ^ Фюрнкранц, Йоханнес. "Обучение правилам циклического перебора."Труды 18-й Международной конференции по машинному обучению (ICML-01): 146--153.. 2001.
- ^ Ли, Сонг; Ассманн, Сара М .; Альберт, Река (2006). «Прогнозирование основных компонентов сетей передачи сигналов: динамическая модель передачи сигналов абсцизовой кислоты замыкающих клеток». ПЛОС Биол. 4 (10): e312. arXiv:q-bio / 0610012. Bibcode:2006q.bio .... 10012L. Дои:10.1371 / journal.pbio.0040312. ЧВК 1564158. PMID 16968132.
- ^ Мунисами, Тришен; и другие. (2015). «Распознавание листьев растений с использованием характеристик формы и цветовой гистограммы с классификаторами K-ближайших соседей». Процедуры информатики. 58: 740–747. Дои:10.1016 / j.procs.2015.08.095.
- ^ Ли, Бай (2016). «Соответствие атомного потенциала: эволюционный подход к распознаванию цели, основанный на краевых характеристиках». Оптик-Международный журнал световой и электронной оптики. 127 (5): 3162–3168. Bibcode:2016Оптик.127.3162L. Дои:10.1016 / j.ijleo.2015.11.186.
- ^ Нильсбэк, Мария-Елена и Андрей Зиссерман. "Визуальный словарь для классификации цветов."Компьютерное зрение и распознавание образов, Конференция компьютерного общества IEEE 2006 г.. Vol. 2. IEEE, 2006.
- ^ Giselsson, Thomas M .; и другие. (2017). «База данных общедоступных изображений для эталонных алгоритмов классификации саженцев растений». arXiv:1711.05458 [cs.CV ].
- ^ Муресан, Хорея; Олтеан, Михай (2018). «Распознавание фруктов по изображениям с использованием глубокого обучения». Acta Univ. Sapientiae, Informatica. 10 (1): 26–42. Дои:10.2478 / ausi-2018-0002.
- ^ Олтеан, Михай; Муресан, Хорея (2017). «Набор данных с изображениями фруктов на Kaggle».
- ^ Накаи, Кента; Канехиса, Минору (1991). «Экспертная система для прогнозирования мест локализации белков у грамотрицательных бактерий». Белки: структура, функции и биоинформатика. 11 (2): 95–110. Дои:10.1002 / prot.340110203. PMID 1946347. S2CID 27606447.
- ^ Линг, Чарльз X. и др. "Деревья решений с минимальными затратами." Материалы двадцать первой международной конференции по машинному обучению. ACM, 2004.
- ^ Маэ, Пьер и др. "Автоматическая идентификация отпечатков пальцев смешанных видов бактерий в масс-спектре MALDI-TOF." Биоинформатика (2014): btu022.
- ^ Барбано, Дуэйн; и другие. (2015). «Быстрая характеристика микроводорослей и смесей микроводорослей с использованием матричной лазерной десорбционной ионизации времяпролетной масс-спектрометрии (MALDI-TOF MS)». PLOS ONE. 10 (8): e0135337. Bibcode:2015PLoSO..1035337B. Дои:10.1371 / journal.pone.0135337. ЧВК 4536233. PMID 26271045.
- ^ Хортон, Пол; Накай, Кента (1996). «Вероятностная классификационная система для прогнозирования участков клеточной локализации белков» (PDF). ISMB-96 Труды. 4: 109–15. PMID 8877510.
- ^ Allwein, Erin L .; Schapire, Роберт Э .; Певец, Йорам (2001). «Сведение мультикласса к бинарному: унифицирующий подход для классификаторов маржи» (PDF). Журнал исследований в области машинного обучения. 1: 113–141.
- ^ Майр, Андреас; Кламбауэр, Гюнтер; Унтертинер, Томас; Хохрайтер, Зепп (2016). «DeepTox: Прогнозирование токсичности с использованием глубокого обучения». Границы науки об окружающей среде. 3: 80. Дои:10.3389 / fenvs.2015.00080.
- ^ Лавин, Александр; Ахмад, Субутай (12 октября 2015 г.). Оценка алгоритмов обнаружения аномалий в реальном времени - тест Numenta Anomaly Benchmark. п. 38. arXiv:1510.03336. Дои:10.1109 / ICMLA.2015.141. ISBN 978-1-5090-0287-0. S2CID 6842305.
- ^ Campos, Guilherme O .; Зимек, Артур; Сандер, Йорг; Кампелло, Рикардо Дж. Г. Б .; Миченкова, Барбора; Шуберт, Эрих; Согласие, Ира; Хоул, Майкл Э. (2016). «Об оценке неконтролируемого обнаружения выбросов: меры, наборы данных и эмпирическое исследование». Интеллектуальный анализ данных и обнаружение знаний. 30 (4): 891. Дои:10.1007 / s10618-015-0444-8. ISSN 1384-5810. S2CID 1952214.
- ^ Анн-Катрин Хартманн, Томмазо Сору, Эдгард Маркс. Создание большого набора данных для ответа на нейронный вопрос в базе знаний DBpedia. 2018.
- ^ Томмазо Сору, Эдгард Маркс. Диего Муссаллем, Андре Вальдестильяс, Диего Эстевес, Чиро Барон. SPARQL как иностранный язык. 2018.
- ^ Киет Ван Нгуен, Дык-Ву Нгуен, Ань Гиа-Туан Нгуен, Нган Луу-Туи Нгуен. Вьетнамский набор данных для оценки понимания машинного чтения. 2020.
- ^ Киет Ван Нгуен, Кхим Винь Тран, Сон Т. Луу, Ань Гиа-Туан Нгуен, Нган Луу-Туи Нгуен. Улучшение лексического подхода с помощью внешних знаний для понимания прочитанного на вьетнамском машинном чтении с множественным выбором. 2020.
- ^ Браун, Майкл Скотт, Майкл Дж. Пелози и Генри Дирска. "Генетический алгоритм динамического радиуса сохранения видов для финансового прогнозирования акций индекса Доу-Джонса." Машинное обучение и интеллектуальный анализ данных в распознавании образов. Springer Berlin Heidelberg, 2013. 27–41.
- ^ Шен, Као-И; Ценг, Гво-Хшюн (2015). «Модель VC-DRSA с расширенным нечетким выводом для технического анализа: помощь в принятии инвестиционных решений». Международный журнал нечетких систем. 17 (3): 375–389. Дои:10.1007 / s40815-015-0058-8. S2CID 68241024.
- ^ Куинлан, Дж. Росс (1987). «Упрощение деревьев решений». Международный журнал человеко-машинных исследований. 27 (3): 221–234. CiteSeerX 10.1.1.18.4267. Дои:10.1016 / с0020-7373 (87) 80053-6.
- ^ Хамерс, Барт; Суйкенс, Йохан А.К .; Де Моор, Барт (2003). «Совместное трансдуктивное ансамблевое обучение моделей ядра» (PDF). Журнал исследований в области машинного обучения. 1: 1–48.
- ^ Шмуэли, Галит, Ральф П. Руссо и Вольфганг Янк. "BARISTA: модель поступления заявок на онлайн-аукционах." Летопись прикладной статистики(2007): 412–441.
- ^ Пэн, Цзе и Ханс-Георг Мюллер. "Дистанционная кластеризация редко наблюдаемых случайных процессов с приложениями к онлайн-аукционам." Летопись прикладной статистики (2008): 1056–1077.
- ^ Эггермонт, Йерун, Йост Н. Кок и Уолтер А. Костерс. "Генетическое программирование для классификации данных: разделение пространства поиска."Материалы симпозиума ACM 2004 г. по прикладным вычислениям. ACM, 2004.
- ^ Моро, Сержио; Кортез, Пауло; Рита, Пауло (2014). «Управляемый данными подход для прогнозирования успеха банковского телемаркетинга». Системы поддержки принятия решений. 62: 22–31. Дои:10.1016 / j.dss.2014.03.001. HDL:10071/9499.
- ^ Пейн, Ричард Д .; Маллик, Бани К. (2014). «Байесовская классификация больших данных: обзор с дополнениями». arXiv:1411.5653 [stat.ME ].
- ^ Акбилгич, Огуз; Боздоган, Хампарсум; Балабан, М. Эрдал (2014). «Новая модель нейронных сетей Hybrid RBF в качестве прогнозиста». Статистика и вычисления. 24 (3): 365–375. Дои:10.1007 / s11222-013-9375-7. S2CID 17764829.
- ^ Джабин, Сурайя. "Прогнозирование фондового рынка с использованием искусственной нейронной сети с прямой связью." Int. J. Comput. Appl. (IJCA) 99.9 (2014).
- ^ Ага, И-Ченг; Че-хуэй, Льен (2009). «Сравнение методов интеллектуального анализа данных для прогнозирования вероятности дефолта клиентов кредитных карт». Экспертные системы с приложениями. 36 (2): 2473–2480. Дои:10.1016 / j.eswa.2007.12.020.
- ^ Линь, Шу Линг (2009). «Новый двухэтапный гибридный подход к кредитному риску в банковской сфере». Экспертные системы с приложениями. 36 (4): 8333–8341. Дои:10.1016 / j.eswa.2008.10.015.
- ^ Пелькманс, Кристиан; и другие. (2005). «Дифферограмма: оценка дисперсии непараметрического шума и ее использование для выбора модели». Нейрокомпьютинг. 69 (1): 100–122. Дои:10.1016 / j.neucom.2005.02.015.
- ^ Бэй, Стивен Д .; и другие. (2000). «Архив больших наборов данных UCI KDD для исследований и экспериментов по интеллектуальному анализу данных». Информационный бюллетень ACM SIGKDD Explorations. 2 (2): 81–85. CiteSeerX 10.1.1.15.9776. Дои:10.1145/380995.381030. S2CID 534881.
- ^ Лукас, Д. Д .; и другие. (2015). «Проектирование оптимальных сетей наблюдения за парниковыми газами с учетом производительности и стоимости». Геонаучные приборы, методы и системы данных. 4 (1): 121. Bibcode:2015GI ...... 4..121L. Дои:10.5194 / gi-4-121-2015.
- ^ Полес, Джек К.; Килинг, Чарльз Д. (1965). «Концентрация углекислого газа в атмосфере на Гавайях». Журнал геофизических исследований. 70 (24): 6053–6076. Bibcode:1965JGR .... 70.6053P. Дои:10.1029 / jz070i024p06053.
- ^ Сигиллито, Винсент Г. и др. «Классификация радиолокационных отражений от ионосферы с помощью нейронных сетей». Технический дайджест Johns Hopkins APL10.3 (1989): 262–266.
- ^ Чжан, Кун и Вэй Фань. "Прогнозирование искаженных стохастических дней озона: анализ, решения и не только." Знания и информационные системы14.3 (2008): 299–326.
- ^ Райх, Брайан Дж., Монтсеррат Фуэнтес и Дэвид Б. Дансон. "Байесовская пространственная квантильная регрессия." Журнал Американской статистической ассоциации (2012).
- ^ Кохави, Рон (1996). «Повышение точности наивно-байесовских классификаторов: гибрид дерева решений». KDD. 96.
- ^ Оза, Никундж К. и Стюарт Рассел. «Экспериментальные сравнения онлайн-версий и пакетной версии упаковки и повышения». Материалы седьмой международной конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных. ACM, 2001.
- ^ Бэй, Стивен Д. (2001). «Многомерная дискретизация для множественного майнинга». Знания и информационные системы. 3 (4): 491–512. CiteSeerX 10.1.1.217.921. Дои:10.1007 / pl00011680. S2CID 10945544.
- ^ Рагглс, Стивен (1995). «Планы выборки и ошибки выборки». Исторические методы: журнал количественной и междисциплинарной истории. 28 (1): 40–46. Дои:10.1080/01615440.1995.9955312.
- ^ Мик, Кристофер, Бо Тиссон и Дэвид Хекерман. "Применение метода кривой обучения к кластеризации." АИСТАТЫ. 2001.
- ^ Фанаи-Т, Хади; Гама, Жоао (2013). «Маркировка событий, сочетающая детекторы ансамбля и базовые знания». Прогресс в искусственном интеллекте. 2 (2–3): 113–127. Дои:10.1007 / s13748-013-0040-3. S2CID 3345087.
- ^ Джот, Ромен и Рафаэль Шерье. "Прогнозирование использования системы Bikeshare на один день вперед." Вычислительный интеллект в транспортных средствах и транспортных системах (CIVTS), симпозиум IEEE 2014 г.. IEEE, 2014 г.
- ^ Чжань, Сяньюань; и другие. (2013). «Оценка времени в пути по городскому сообщению с использованием крупномасштабных данных о такси с частичной информацией». Транспортные исследования, часть C: Новые технологии. 33: 37–49. Дои:10.1016 / j.trc.2013.04.001.
- ^ Морейра-Матиас, Луис; и другие. (2013). «Прогнозирование спроса на такси и пассажиров с использованием потоковых данных». IEEE Transactions по интеллектуальным транспортным системам. 14 (3): 1393–1402. Дои:10.1109 / tits.2013.2262376. S2CID 14764358.
- ^ Хван, Рен-Хунг; Сюэ, Ю-Линг; Чен, Ю-Тин (2015). «Эффективная система рекомендаций такси, основанная на модели пространственно-временного факторного анализа». Информационные науки. 314: 28–40. Дои:10.1016 / j.ins.2015.03.068.
- ^ Мезель, Роберт и др. "Структура графа в сети - анализ на разных уровнях агрегирования."Журнал веб-науки 1.1 (2015).
- ^ Кушмерик, Николай. "Учимся удалять интернет-рекламу." Материалы третьей ежегодной конференции по автономным агентам. ACM, 1999.
- ^ Фрадкин, Дмитрий и Дэвид Мэдиган. "Эксперименты со случайными проекциями для машинного обучения."Материалы девятой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных. ACM, 2003.
- ^ Эти данные использовались Американской статистической ассоциацией в разделе «Статистическая графика и вычисления» 1999 года.
- ^ Ма, Джастин и др. "Выявление подозрительных URL-адресов: приложение масштабного онлайн-обучения."Материалы 26-й ежегодной международной конференции по машинному обучению. ACM, 2009.
- ^ Левченко, Кирилл и др. "Траектории кликов: сквозной анализ цепочки создания стоимости спама." Безопасность и конфиденциальность (SP), Симпозиум IEEE 2011 г.. IEEE, 2011.
- ^ Мохаммад, Рами М., Фади Табтах и Ли МакКласки. "Оценка функций, связанных с фишинговыми сайтами, с использованием автоматизированной техники."Интернет-технологии и защищенные транзакции, Международная конференция 2012 г.. IEEE, 2012.
- ^ Сингх, Ашишкумар и др. "Эксперименты по кластеризации больших транзакционных данных для сегментации рынка." Материалы Международной конференции по науке о больших данных и вычислениях 2014 г.. ACM, 2014.
- ^ Боллакер, Курт и др. "Freebase: совместно созданная база данных графов для структурирования человеческих знаний." Материалы международной конференции ACM SIGMOD 2008 г. по управлению данными. ACM, 2008.
- ^ Минц, Майк и др. "Удаленное наблюдение за извлечением отношений без помеченных данных." Труды совместной конференции 47-го ежегодного собрания ACL и 4-й международной совместной конференции AFNLP по обработке естественного языка: Том 2-Том 2. Ассоциация компьютерной лингвистики, 2009.
- ^ Местерхарм, Крис и Майкл Дж. Паццани. "Активное обучение с использованием on-line алгоритмов."Материалы 17-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных. ACM, 2011.
- ^ Ван, Шусен; Чжан, Чжихуа (2013). «Улучшение разложения матрицы CUR и приближения Нистрома с помощью адаптивной выборки» (PDF). Журнал исследований в области машинного обучения. 14 (1): 2729–2769. arXiv:1303.4207. Bibcode:2013arXiv1303.4207W.
- ^ Каттраль, Роберт; Оппахер, Франц; Деуго, Дуайт (2002). «Эволюционный интеллектуальный анализ данных с автоматическим обобщением правил» (PDF). Последние достижения в области компьютеров, вычислений и связи: 296–300. S2CID 18625415.
- ^ Бертон, Ариэль Н .; Келли, Пол HJ (2006). «Прогнозирование производительности рабочих нагрузок подкачки с помощью облегченной трассировки». Компьютерные системы будущего поколения. Elsevier BV. 22 (7): 784–793. Дои:10.1016 / j.future.2006.02.003. ISSN 0167-739X.
- ^ Бэйн, Майкл; Магглетон, Стивен (1994). «Изучение оптимальных шахматных стратегий». Машинный интеллект. Oxford University Press, Inc. 13.
- ^ Куилан, Дж. Р. (1983). «Изучение эффективных процедур классификации и их применение в шахматных играх». Машинное обучение: подход с использованием искусственного интеллекта. 1: 463–482. Дои:10.1007/978-3-662-12405-5_15. ISBN 978-3-662-12407-9.
- ^ Шапиро, Ален Д. (1987). Структурированная индукция в экспертных системах. Addison-Wesley Longman Publishing Co., Inc.
- ^ Матеус, Кристофер Дж .; Ренделл, Ларри А. (1989). «Конструктивная индукция на деревьях решений» (PDF). IJCAI. 89.
- ^ Белсли, Дэвид А., Эдвин Кух и Рой Э. Велш. Регрессионная диагностика: выявление важных данных и источников коллинеарности. Vol. 571. Джон Вили и сыновья, 2005.
- ^ Руотсало, Туукка; Аройо, Лора; Шрайбер, Гус (2009). «Лингвистическая аннотация цифровых коллекций культурного наследия на основе знаний» (PDF). Интеллектуальные системы IEEE. 24 (2): 64–75. Дои:10.1109 / MIS.2009.32. S2CID 6667472.
- ^ Ли, Лихонг и др. "Беспристрастная оценка алгоритмов рекомендаций новостных статей на основе контекстных бандитов." Материалы четвертой международной конференции ACM по веб-поиску и интеллектуальному анализу данных. ACM, 2011.
- ^ Юнг, Кам Фунг и Яньян Ян. "Проактивная персонализированная система рекомендаций мобильных новостей." Разработки в области инженерии электронных систем (DESE), 2010 г.. IEEE, 2010 г.
- ^ Gass, Susan E .; Робертс, Дж. Мюррей (2006). «Распространение холодноводного коралла Lophelia pertusa (Scleractinia) на нефтегазовых платформах в Северном море: рост колоний, пополнение и экологический контроль при распределении». Бюллетень загрязнения морской среды. 52 (5): 549–559. Дои:10.1016 / j.marpolbul.2005.10.002. PMID 16300800.
- ^ Гионис, Аристидес; Маннила, Хейкки; Цапарас, Панайотис (2007). «Агрегация кластеров». Транзакции ACM при обнаружении знаний из данных. 1 (1): 4. CiteSeerX 10.1.1.709.528. Дои:10.1145/1217299.1217303. S2CID 433708.
- ^ Обрадович, Зоран и Слободан Вучетич.Проблемы интеллектуального анализа научных данных: неоднородные, предвзятые и большие выборки. Технический отчет, Центр информационных наук и технологий Университета Темпл, 2004 г.
- ^ Ван дер Путтен, Питер; ван Сомерен, Маартен (2000). "CoIL Challenge 2000: Дело страховой компании". Опубликовано Sentient Machine Research, Амстердам. Также технический отчет Лейденского института передовых компьютерных наук.. 9: 1–43.
- ^ Мао, К. З. (2002). «Выбор центра нейронной сети RBF на основе меры разделимости классов по коэффициенту Фишера». IEEE-транзакции в нейронных сетях. 13 (5): 1211–1217. Дои:10.1109 / tnn.2002.1031953. PMID 18244518.
- ^ Олав, Мануэль; Райкович, Владислав; Боханец, Марко (1989). «Заявление о приеме в системы государственных школ» (PDF). Экспертные системы в государственном управлении. 1: 145–160.
- ^ Лизотт, Дэниел Дж., Омид Мадани и Рассел Грейнер. "Бюджетное обучение классификаторов найлве-байеса." Материалы девятнадцатой конференции по неопределенности в искусственном интеллекте. Издательство Morgan Kaufmann Publishers Inc., 2002 г.
- ^ Лебовиц, Майкл (1986). Изучение концепций в обширной области ввода: память на основе обобщений. Машинное обучение: подход с использованием искусственного интеллекта. 2. С. 193–214. ISBN 9780934613002.
- ^ Ага, И-Ченг; Ян, Кинг-Янг; Тинг, Тао-Мин (2009). «Обнаружение знаний о модели RFM с использованием последовательности Бернулли». Экспертные системы с приложениями. 36 (3): 5866–5871. Дои:10.1016 / j.eswa.2008.07.018.
- ^ Ли, Вен-Чен; Ченг, Бор-Вэнь (2011). «Интеллектуальная система повышения эффективности сдачи крови». Журнал качества Vol. 18 (2): 173.
- ^ Шмидтманн, Ирен и др. "Evaluation des Krebsregisters NRW Schwerpunkt Record Linkage." Abschlußbericht vom 11 (2009).
- ^ Сарияр, Мурат; Борг, Андреас; Поммеренинг, Клаус (2011). «Контроль ложных совпадений при связывании записей с помощью теории экстремальных ценностей». Журнал биомедицинской информатики. 44 (4): 648–654. Дои:10.1016 / j.jbi.2011.02.008. PMID 21352952.
- ^ Кандилье, Лоран и Винсент Лемер. "Разработка и анализ задачи Nomao Активное обучение в реальном мире." Труды ALRA: активное обучение в реальных приложениях, семинар ECML-PKDD. 2012.
- ^ Маркес, Иван Гарридо. "Метод адаптации предметной области для классификации текста на основе самонастраиваемого подхода к обучению." (2013).
- ^ Нагеш, Харша С., Санджай Гойл и Алок Н. Чоудхари. «Адаптивные гриды для кластеризации массивов данных». SDM. 2001 г.
- ^ Кузилек, Якуб и др. "OU Analyze: анализ студентов из группы риска в Открытом университете." Обзор Learning Analytics (2015): 1–16.
- ^ Сименс, Джордж и др. Open Learning Analytics: интегрированная и модульная платформа. Дисс. Издательство Открытого университета, 2011.
- ^ Барлакки, Джанни; Де Надаи, Марко; Ларчер, Роберто; Казелла, Антонио; Читич, Кристиана; Торриси, Джованни; Антонелли, Фабрицио; Веспиньяни, Алессандро; Пентланд, Алекс; Лепри, Бруно (2015). «Набор данных из нескольких источников о городской жизни Милана и провинции Трентино». Научные данные. 2: 150055. Bibcode:2015НатСД ... 250055Б. Дои:10.1038 / sdata.2015.55. ISSN 2052-4463. ЧВК 4622222. PMID 26528394.
- ^ Ваншорен Дж., Ван Рейн Дж. Н., Бишл Б., Торго Л. (2013). «OpenML: сетевая наука в машинном обучении». SIGKDD Исследования. 15 (2): 49–60. arXiv:1407.7722. Дои:10.1145/2641190.2641198. S2CID 4977460.
- ^ Олсон Р.С., Ла Кава В., Ожеховски П., Урбанович Р. Дж., Мур Дж. Х. (2017). «PMLB: большой набор тестов для оценки и сравнения машинного обучения». BioData Mining. 10: 36. arXiv:1703.00512. Bibcode:2017arXiv170300512O. Дои:10.1186 / s13040-017-0154-4. ЧВК 5725843. PMID 29238404.