Список наборов данных для исследований в области машинного обучения - List of datasets for machine-learning research

Эти наборы данных используются для машинное обучение исследования и цитировались в рецензируемый академические журналы. Наборы данных являются неотъемлемой частью машинного обучения. Значительный прогресс в этой области может быть достигнут благодаря прогрессу в обучении. алгоритмы (Такие как глубокое обучение ), компьютерное оборудование и, что менее интуитивно, доступность высококачественных наборов данных для обучения.[1] Высококачественные маркированные наборы обучающих данных для под наблюдением и полууправляемый Алгоритмы машинного обучения обычно сложно и дорого производить из-за большого количества времени, необходимого для маркировки данных. Хотя их не нужно маркировать, высококачественные наборы данных для без присмотра обучение также может быть трудным и дорогостоящим.[2][3][4][5]

Данные изображения

Наборы данных, состоящие в основном из изображений или видео, для таких задач, как обнаружение объекта, распознавание лиц, и классификация с несколькими этикетками.

Распознавание лиц

В компьютерное зрение, изображения лиц широко использовались для разработки системы распознавания лиц, обнаружение лица, и многие другие проекты, в которых используются изображения лиц.

Название набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Aff-Wild298 видео с 200 людьми, ~ 1 250 000 изображений с ручными аннотациями: аннотированные с точки зрения размерного аффекта (валентное возбуждение); в дикой природе; база цветов; различные разрешения (среднее = 640x360)обнаруженные лица, черты лица и аннотации валентного возбуждения~ 1,250,000 изображений с ручными аннотациямивидео (визуальные + аудио)аффект распознавания (оценка валентности-возбуждения)2017CVPR[6]

IJCV[7]

D.Kollias et al.
Aff-Wild2558 видеороликов 458 человек, ~ 2 800 000 изображений с ручными аннотациями: аннотированные с точки зрения i) категориального аффекта (7 основных выражений: нейтральный, счастье, печаль, удивление, страх, отвращение, гнев); б) размерный аффект (валентное возбуждение); iii) боевые единицы (1,2,4,6,12,15,20,25 ед.); в дикой природе; база цветов; различные разрешения (среднее = 1030x630)обнаруженные лица, обнаруженные и выровненные лица и аннотации~ 2 800 000 изображений с ручными аннотациямивидео (визуальные + аудио)распознавание аффекта (оценка валентного возбуждения, классификация основных выражений, обнаружение единиц действия)2019BMVC[8]

FG[9]

D.Kollias et al.
FERET (технология распознавания лиц)11338 изображений 1199 человек в разных положениях и в разное время.Никто.11,338ИзображенийКлассификация, распознавание лиц2003[10][11]Министерство обороны США
Аудиовизуальная база данных эмоциональной речи и песни Ryerson (RAVDESS)7356 видео- и аудиозаписей 24 профессиональных актеров. 8 эмоций двух уровней интенсивности каждая.Файлы, помеченные выражением. Оценки перцепционной валидации предоставлены 319 оценщиками.7,356Видео, звуковые файлыКлассификация, распознавание лиц, распознавание голоса2018[12][13]S.R. Ливингстон и Ф.А.Руссо
SCFaceЦветные изображения лиц под разными углами.Расположение извлеченных черт лица. Приведены координаты объектов.4,160Изображения, текстКлассификация, распознавание лица2011[14][15]M. Grgic et al.
Йельская база данных лицЛица 15 человек в 11 различных выражениях.Ярлыки выражений.165ИзображенийРаспознавание лица1997[16][17]J. Yang et al.
Cohn-Kanade База данных выражений, закодированных в AUБольшая база изображений с надписями для выражений.Отслеживание определенных черт лица.500+ последовательностейИзображения, текстАнализ выражения лица2000[18][19]T. Kanade et al.
База данных выражений лица JAFFE213 изображений 7 выражений лица (6 основных выражений лица + 1 нейтральное), представленных 10 японскими моделями.Изображения обрезаются до лицевой области. Включает данные семантических оценок для ярлыков эмоций.213Изображения, текстПознание выражения лица1998[20][21]Лион, Камачи, Гьоба
Скраб для лицаИзображения общественных деятелей удалены из результатов поиска.Название и м / ж аннотация.107,818Изображения, текстРаспознавание лица2014[22][23]H. Ng et al.
База данных лиц BioIDИзображения лиц с отмеченным положением глаз.Установите положение глаз вручную.1521Изображения, текстРаспознавание лица2001[24][25]BioID
Набор данных сегментации кожиСлучайно выбранные значения цвета из изображений лиц.B, G, R, значения извлечены.245,057ТекстСегментация, классификация2012[26][27]Р. Бхатт.
БосфорБаза данных трехмерных изображений лиц.Отмечены 34 единицы действий и 6 выражений; Обозначены 24 лицевых ориентира.4652

Изображения, текст

Распознавание лиц, классификация2008[28][29]А. Савран и др.
UOY 3D-лицонейтральное лицо, 5 выражений: гнев, счастье, печаль, глаза закрыты, брови подняты.маркировка.5250

Изображения, текст

Распознавание лиц, классификация2004[30][31]Йоркский университет
База данных лиц CASIA 3DВыражения: гнев, улыбка, смех, удивление, закрытые глаза.Никто.4624

Изображения, текст

Распознавание лиц, классификация2007[32][33]Институт автоматики Китайской академии наук
КАЗИЯ НИРВыражения: Гнев Отвращение Страх Счастье Печаль СюрпризНикто.480Запись видео в видимом спектре и ближнем инфракрасном диапазоне с аннотациями со скоростью 25 кадров в секундуРаспознавание лиц, классификация2011[34]Zhao, G. et al.
БУ-3ДФЭнейтральное лицо и 6 выражений: гнев, счастье, печаль, удивление, отвращение, страх (4 уровня). 3D изображения извлечены.Никто.2500Изображения, текстРаспознавание мимики, классификация2006[35]Бингемтонский университет
Распознавание лиц: грандиозный вызов Набор данныхДо 22 образцов по каждому предмету. Выражения: гнев, счастье, печаль, удивление, отвращение, отечность. 3D-данные.Никто.4007Изображения, текстРаспознавание лиц, классификация2004[36][37]Национальный институт стандартов и технологий
ГавабдбДо 61 образца по каждому предмету. Выражения лица нейтральное, улыбка, фронтальный подчеркнутый смех, фронтальный случайный жест. 3D изображения.Никто.549Изображения, текстРаспознавание лиц, классификация2008[38][39]Университет короля Хуана Карлоса
3D-RMAДо 100 субъектов, выражения в основном нейтральные. Также несколько поз.Никто.9971Изображения, текстРаспознавание лиц, классификация2004[40][41]Королевская военная академия (Бельгия)
SoF112 человек (66 мужчин и 46 женщин) носят очки при различных условиях освещения.Набор синтетических фильтров (размытие, окклюзия, шум и постеризация) с разным уровнем сложности.42,592 (2,662 исходных изображения × 16 синтетических изображений)Изображения, Мат файлКлассификация по полу, распознавание лиц, распознавание лиц, оценка возраста и обнаружение очков2017[42][43]Афифи М. и соавт.
IMDB-WIKIIMDB и Википедия сталкиваются с изображениями с отметками пола и возраста.Никто523,051ИзображенийПоловая классификация, распознавание лиц, распознавание лиц, оценка возраста2015[44]Р. Роте, Р. Тимофте, Л. В. Гул

Распознавание действий

Название набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных о взаимодействии с людьми на телевиденииВидео из 20 различных телешоу для предсказания социальных действий: рукопожатие, дай пять, объятия, поцелуй и т. Д.Никто.6766 видеоклиповвидеоклипыПрогноз действий2013[45]Патрон-Перес, А. и др.
База данных мультимодальных действий человека в Беркли (MHAD)Записи одного человека, выполняющего 12 действийПредварительная обработка MoCap660 образцов действий8 PhaseSpace Motion Capture, 2 стереокамеры, 4 камеры Quad, 6 акселерометров, 4 микрофонаКлассификация действий2013[46]Офли, Ф. и др.
Набор данных THUMOSБольшой набор видеоданных для классификации действий.Действия классифицированы и помечены.45 млн кадров видеоВидео, изображения, текстКлассификация, обнаружение действий2013[47][48]Y. Jiang et al.
MEXAction2Набор видеоданных для локализации и обнаружения действийДействия классифицированы и помечены.1000видеоОбнаружение действия2014[49]Stoian et al.

Обнаружение и распознавание объектов

Название набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Визуальный геномИзображения и их описание108,000изображения, текстПодписи к изображениям2016[50]Р. Кришна и др.
Набор данных трехмерных объектов Беркли849 изображений, снятых в 75 различных сценах. Отмечено около 50 различных классов объектов.Ограничительные рамки и маркировка объектов.849помеченные изображения, текстРаспознавание объекта2014[51][52]A. Janoch et al.
Набор данных сегментации Berkeley и контрольные показатели 500 (BSDS500)500 естественных изображений, явно разделенных на непересекающиеся подмножества обучающих, проверочных и тестовых + тестовый код. На основе BSDS300.Каждое изображение сегментировано в среднем по пяти различным объектам.500Сегментированные изображенияОбнаружение контуров и иерархическая сегментация изображений2011[53]Калифорнийский университет в Беркли
Общие объекты Microsoft в контексте (COCO)сложные повседневные сцены обычных предметов в их естественном контексте.Подсветка, маркировка и классификация объектов по 91 типу объектов.2,500,000Помеченные изображения, текстРаспознавание объекта2015[54][55]T. Lin et al.
База данных SUNОчень большая база данных по распознаванию сцен и объектов.Маркируются места и объекты. Объекты сегментированы.131,067Изображения, текстРаспознавание объектов, распознавание сцен2014[56][57]J. Xiao et al.
ImageNetБаза данных изображений помеченных объектов, используемых в ImageNet - крупномасштабная задача по визуальному распознаваниюПомеченные объекты, ограничивающие рамки, описательные слова, функции SIFT14,197,122Изображения, текстРаспознавание объектов, распознавание сцен2009 (2014)[58][59][60]J. Deng et al.
Открытые изображенияБольшой набор изображений, имеющих лицензию CC BY 2.0, с метками уровня изображения и ограничивающими рамками, охватывающими тысячи классов.Метки уровня изображения, ограничивающие рамки9,178,275Изображения, текстКлассификация, Распознавание объектов2017[61]
Набор данных обнаружения коммерческих новостных телеканаловТелевизионные рекламные ролики и выпуск новостей.Аудио и видео функции, извлеченные из неподвижных изображений.129,685ТекстКластеризация, классификация2015[62][63]P. Guha et al.
Набор данных Statlog (Image Segmentation)Экземпляры были отобраны случайным образом из базы данных из 7 наружных изображений и вручную сегментированы для создания классификации для каждого пикселя.Многие функции просчитаны.2310ТекстКлассификация1990[64]Массачусетский университет
Калифорнийский технологический институт 101Картинки предметов.Обозначены подробные очертания объекта.9146ИзображенийКлассификация, распознавание объектов.2003[65][66]F. Li et al.
Калтех-256Большой набор изображений для классификации объектов.Изображения категоризированы и отсортированы вручную.30,607Изображения, текстКлассификация, обнаружение объекта2007[67][68]G. Griffin et al.
Набор данных SIFT10MОсобенности SIFT набора данных Caltech-256.Расширенное извлечение функций SIFT.11,164,866ТекстКлассификация, обнаружение объекта2016[69]X. Fu et al.
LabelMeАннотированные изображения сцен.Обозначены объекты.187,240Изображения, текстКлассификация, обнаружение объекта2005[70]Лаборатория компьютерных наук и искусственного интеллекта Массачусетского технологического института
Набор данных "Городские пейзажи"Стерео видеопоследовательности, записанные в уличных сценах, с аннотациями на уровне пикселей. Также включены метаданные.Сегментация и маркировка на уровне пикселей25,000Изображения, текстКлассификация, обнаружение объекта2016[71]Daimler AG и другие.
Набор данных PASCAL VOCБольшое количество изображений для задач классификации.Маркировка, ограничительная рамка в комплекте500,000Изображения, текстКлассификация, обнаружение объекта2010[72][73]M. Everingham et al.
СИФАР-10 Набор данныхМножество небольших изображений с низким разрешением 10 классов объектов.Размечены классы, созданы разбиения обучающего набора.60,000ИзображенийКлассификация2009[59][74]А. Крижевский и др.
Набор данных CIFAR-100Подобно CIFAR-10, выше, но дано 100 классов объектов.Размечены классы, созданы разбиения обучающего набора.60,000ИзображенийКлассификация2009[59][74]А. Крижевский и др.
Набор данных CINIC-10Единый вклад CIFAR-10 и Imagenet с 10 классами и 3 разделениями. Больше, чем CIFAR-10.Размечены классы, обучение, проверка, разбиты наборы тестов.270,000ИзображенийКлассификация2018[75]Люк Н. Дарлоу, Эллиот Дж. Кроули, Антреас Антониу, Амос Дж. Сторки
Fashion-MNISTБаза данных модных товаров в стиле MNISTРазмечены классы, созданы разбиения обучающего набора.60,000ИзображенийКлассификация2017[76]Zalando SE
notMNISTНекоторые общедоступные шрифты и извлеченные из них глифы, чтобы сделать набор данных похожим на MNIST. Всего существует 10 классов, буквы A – J взяты из разных шрифтов.Размечены классы, созданы разбиения обучающего набора.500,000ИзображенийКлассификация2011[77]Ярослав Булатов
Набор данных по обнаружению дорожных знаков в ГерманииИзображения с автомобилей дорожных знаков на немецких дорогах. Эти знаки соответствуют стандартам ООН и поэтому такие же, как в других странах.Знаки с ручной маркировкой900ИзображенийКлассификация2013[78][79]S Houben et al.
Набор данных KITTI Vision BenchmarkАвтономные транспортные средства, проезжающие по среднему городу, снимали различные районы с помощью камер и лазерных сканеров.Многие тесты взяты из данных.> 100 ГБ данныхИзображения, текстКлассификация, обнаружение объекта2012[80][81]Гейгер и др.
Набор данных Linnaeus 5Изображения 5 классов предметов.Размечены классы, созданы разбиения обучающего набора.8000ИзображенийКлассификация2017[82]Чаладзе и Калатозишвили
FieldSAFEМультимодальный набор данных для обнаружения препятствий в сельском хозяйстве, включая стереокамеру, тепловизор, веб-камеру, камеру 360 градусов, лидар, радар и точную локализацию.Классы с географической маркировкой.> 400 ГБ данныхИзображения и трехмерные облака точекКлассификация, обнаружение объекта, локализация объекта2017[83]M. Kragh et al.
11K рук11076 изображений рук (1600 x 1200 пикселей) 190 субъектов разного возраста от 18 до 75 лет для распознавания пола и биометрической идентификации.Никто11076 изображений рукИзображения и файлы меток (.mat, .txt и .csv)Распознавание пола и биометрическая идентификация2017[84]М Афифи
CORe50Специально разработанный для непрерывного / непрерывного обучения и распознавания объектов, представляет собой сборник из более чем 500 видеороликов (30 кадров в секунду) с 50 домашними объектами, принадлежащими к 10 различным категориям.Классы помечены, обучающие наборы разбиты, созданы на основе трехстороннего многозадачного теста.164866 изображений RBG-Dизображения (.png или .pkl)

и файлы меток (.pkl, .txt, .tsv)

Классификация, Распознавание объектов2017[85]В. Ломонако и Д. Мальтони
OpenLORIS-ОбъектНабор данных пожизненного / непрерывного роботизированного зрения (OpenLORIS-Object), собранный настоящими роботами, установленными с несколькими датчиками высокого разрешения, включает коллекцию из 121 экземпляра объекта (1-я версия набора данных, 40 категорий предметов первой необходимости в пределах 20 сцен). В наборе данных тщательно учтены 4 фактора среды в разных сценах, включая освещение, загорание, размер пикселя объекта и беспорядок, и явно определены уровни сложности каждого фактора.Обозначенные классы, разбиения на наборы для обучения / проверки / тестирования, созданные с помощью сценариев тестирования.1 106 424 изображения RBG-Dизображения (.png и .pkl)

и файлы этикеток (.pkl)

Классификация, Распознавание объектов на протяжении всей жизни, Роботизированное зрение2019[86]Q. She et al.
Набор данных ТГц и тепловизионного видеосигналаЭтот набор мультиспектральных данных включает терагерцовое, тепловое, визуальное, ближнее инфракрасное и трехмерное видео объектов, скрытых под одеждой людей.Предоставляются таблицы поиска 3D, которые позволяют проецировать изображения на облака точек 3D.Более 20 видео. Продолжительность каждого видео составляет около 85 секунд (около 345 кадров).AP2JЭксперименты с обнаружением скрытых объектов2019[87][88]Алексей А. Морозов и Ольга С. Сушкова

Рукописный ввод и распознавание символов

Название набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных искусственных персонажейИскусственно сгенерированные данные, описывающие структуру 10 заглавных букв английского алфавита.Координаты нарисованных линий даны как целые числа. Различные другие функции.6000ТекстРаспознавание почерка, классификация1992[89]H. Guvenir et al.
Набор данных буквПечатные буквы верхнего регистра.17 функций извлечены из всех изображений.20,000ТекстOCR, классификация1991[90][91]D. Slate et al.
CASIA-HWDBОффлайн рукописный китайский символ база данных. 3755 классов в ГБ 2312 набор символов.Изображения в оттенках серого с пикселями фона, обозначенными как 255.1,172,907Изображения, текстРаспознавание почерка, классификация2009[92]КАЗИЯ
CASIA-OLHWDBОнлайн-база данных рукописных китайских иероглифов, собранных с помощью ручки Anoto на бумаге. 3755 классов в ГБ 2312 набор символов.Предоставляет последовательности координат штрихов.1,174,364Изображения, текстРаспознавание почерка, классификация2009[93][92]КАЗИЯ
Набор данных траекторий персонажейМаркированные образцы траекторий кончика пера для людей, пишущих простые символы.Трехмерная матрица траекторий скорости кончика пера для каждого образца2858ТекстРаспознавание почерка, классификация2008[94][95]Б. Уильямс
Набор данных Chars74KРаспознавание символов в естественных изображениях символов, используемых как в английском, так и в английском языках. Каннада74,107Распознавание символов, распознавание почерка, OCR, классификация2009[96]Т. де Кампос
Набор данных символов пера UJIИзолированные рукописные символыПриведены координаты положения пера по мере написания.11,640ТекстРаспознавание почерка, классификация2009[97][98]F. Prat et al.
Набор данных GisetteОбразцы почерка из часто путающих 4 и 9 знаков.Функции, извлеченные из изображений, разделенные на поезд / тест, изображения рукописного ввода с нормализацией размера.13,500Изображения, текстРаспознавание почерка, классификация2003[99]Ян ЛеКун и др.
Набор данных Omniglot1623 разных рукописных символа из 50 разных алфавитов.Маркированы вручную.38,300Изображения, текст, штрихиКлассификация, однократное обучение2015[100][101]Американская ассоциация развития науки
База данных MNISTБаза данных рукописных цифр.Маркированы вручную.60,000Изображения, текстКлассификация1998[102][103]Национальный институт стандартов и технологий
Оптическое распознавание набора данных рукописных цифрНормализованные растровые изображения рукописных данных.Размер нормализован и сопоставлен с растровыми изображениями.5620Изображения, текстРаспознавание почерка, классификация1998[104]Э. Алпайдин и др.
Распознавание набора рукописных цифр с помощью пераРукописные цифры на электронном планшете.Векторы признаков, извлеченные для равномерного распределения.10,992Изображения, текстРаспознавание почерка, классификация1998[105][106]Э. Алпайдин и др.
Набор рукописных цифр SemeionРукописные цифры от 80 человек.Все рукописные цифры нормализованы по размеру и сопоставлены с той же сеткой.1593Изображения, текстРаспознавание почерка, классификация2008[107]T. Srl
HASYv2Рукописные математические символыВсе символы расположены по центру и имеют размер 32 x 32 пикселя.168233Изображения, текстКлассификация2017[108]Мартин Тома
Шумный рукописный набор данных BanglaВключает набор данных рукописных цифр (10 классов) и базовый набор данных символов (50 классов), каждый набор данных имеет три типа шума: белый гауссовский, размытие при движении и пониженный контраст.Все изображения расположены по центру и имеют размер 32x32.Числовой набор данных:

23330,

Набор данных символов:

76000

Изображений,

текст

Распознавание почерка,

классификация

2017[109][110]M. Karki et al.

Аэрофотоснимки

Название набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных сегментации аэрофотоснимков80 аэрофотоснимков высокого разрешения с пространственным разрешением от 0,3 до 1,0.Изображения сегментированы вручную.80ИзображенийКлассификация по воздуху, обнаружение объектов2013[111][112]J. Yuan et al.
Комплект данных KIT AISМножественные помеченные наборы данных для обучения и оценки аэрофотоснимков толпы.Изображения помечены вручную, чтобы показать пути людей через толпу.~ 150Изображения с путямиОтслеживание людей, воздушное отслеживание2012[113][114]M. Butenuth et al.
Набор данных УилтаДанные дистанционного зондирования больных деревьев и другого растительного покрова.Извлечены различные функции.4899ИзображенийКлассификация, обнаружение воздушных объектов2014[115][116]Б. Джонсон
Набор данных MASATIМорские сцены из оптических аэрофотоснимков видимого спектра. Он содержит цветные изображения в динамической морской среде, каждое изображение может содержать одну или несколько целей в разных погодных условиях и условиях освещения.Ограничительные рамки и маркировка объектов.7389ИзображенийКлассификация, обнаружение воздушных объектов2018[117][118]А.-Дж. Gallego et al.
Набор данных сопоставления типов лесаСпутниковые снимки лесов Японии.Полосы длин волн изображения извлечены.326ТекстКлассификация2015[119][120]Б. Джонсон
Набор данных исследования накладных изображенийАннотированные изображения над головой. Изображения с несколькими объектами.Более 30 аннотаций и более 60 статистических данных, описывающих цель в контексте изображения.1000Изображения, текстКлассификация2009[121][122]F. Tanner et al.
SpaceNetSpaceNet - это совокупность коммерческих спутниковых изображений и маркированных тренировочных данных.Файлы GeoTiff и GeoJSON, содержащие контуры зданий.>17533ИзображенийКлассификация, идентификация объекта2017[123][124][125]DigitalGlobe, Inc.
UC Merced Land Use DatasetЭти изображения были вручную извлечены из больших изображений из коллекции изображений городских районов USGS National Map для различных городских районов США.Это набор данных изображений землепользования 21 класса, предназначенный для исследовательских целей. Для каждого класса есть 100 изображений.2,100Чипы изображения 256x256, 30 см (1 фут) GSDКлассификация земного покрова2010[126]Йи Ян и Шон Ньюсэм
Комплект бортовых данных SAT-4Изображения были извлечены из набора данных Национальной программы обработки изображений сельского хозяйства (NAIP).SAT-4 имеет четыре широких класса земного покрова, включая бесплодные земли, деревья, луга и класс, который состоит из всех классов земельного покрова, кроме трех вышеупомянутых.500,000ИзображенийКлассификация2015[127][128]S. Basu et al.
Комплект бортовых данных SAT-6Изображения были извлечены из набора данных Национальной программы обработки изображений сельского хозяйства (NAIP).SAT-6 имеет шесть широких классов земного покрова, включая бесплодные земли, деревья, луга, дороги, здания и водоемы.405,000ИзображенийКлассификация2015[127][128]S. Basu et al.

Другие изображения

Название набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Теория функционала плотности квантовое моделирование графенаПомеченные изображения сырых входных данных для моделирования графенаИсходные данные (в формате HDF5) и выходные метки из квантового моделирования теории функционала плотности60744 тестовых и 501473 и обучающих файловПомеченные изображенияРегресс2019[129]К. Миллс и И. Тэмблин
Квантовое моделирование электрона в двумерной потенциальной ямеПомеченные изображения исходных данных для моделирования 2-й квантовой механикиИсходные данные (в формате HDF5) и выходные метки из квантового моделирования1,3 миллиона изображенийПомеченные изображенияРегресс2017[130]К. Миллс, М.А. Шпаннер, И. Тэмблин
Набор данных о кулинарии MPIIВидео и изображения различных кулинарных мероприятий.Пути и направления действий, метки, мелкозернистая маркировка движения, класс активности, извлечение и маркировка неподвижных изображений.881755 кадровПомеченное видео, изображения, текстКлассификация2012[131][132]M. Rohrbach et al.
Набор данных FAMOS5000 уникальных микроструктур, все образцы были получены 3 раза с помощью двух разных камер.Исходные файлы PNG, отсортированные по камерам, а затем по получению. Файлы данных MATLAB с одной матрицей 16384 × 5000 на камеру за одно получение.30,000Изображения и файлы .matАутентификация2012[133]С. Волошиновский и др.
Набор данных PharmaPack1000 уникальных классов с 54 изображениями в классе.Маркировка классов, множество локальных дескрипторов, таких как SIFT и aKaZE, и локальные агенты функций, такие как Fisher Vector (FV).54,000Изображения и файлы .matКлассификация мелкого зерна2017[134]О. Таран, С. Резаифар и др.
Набор данных Stanford DogsИзображения 120 пород собак со всего мира.Предоставляются разделение на обучение / тестирование и аннотации ImageNet.20,580Изображения, текстКлассификация мелкого зерна2011[135][136]A. Khosla et al.
StanfordExtra Dataset2D ключевые точки и сегментации для набора данных Stanford Dogs.Предусмотрены 2D характерные точки и сегментация.12,035Помеченные изображения3D-реконструкция / оценка позы2020[137]Б. Биггс и др.
Набор данных домашних животных Oxford-IIIT37 категорий домашних животных, примерно по 200 изображений каждой.Породы помечены, жесткая ограничивающая рамка, сегментация переднего и заднего плана.~ 7,400Изображения, текстКлассификация, обнаружение объекта2012[136][138]О. Пархи и др.
Набор данных функций Corel ImageБаза данных изображений с извлеченными функциями.Множество функций, включая гистограмму цветов, текстуру совместного появления и цвета,68,040ТекстКлассификация, обнаружение объекта1999[139][140]M. Ortega-Bindenberger et al.
Характеристики онлайн-видео и набор временных данных для транскодирования.Время перекодирования для различных видео и свойств видео.Приведены особенности видео.168,286ТекстРегресс2015[141]T. Deneke et al.
Набор данных повествования последовательного изображения Microsoft (SIND)Набор данных для последовательного перевода видения на языкОписательная подпись и повествование даны для каждой фотографии, а фотографии расположены в последовательности.81,743Изображения, текстВизуальное повествование2016[142]Microsoft Research
Набор данных Caltech-UCSD Birds-200-2011Большой набор изображений птиц.Расположение деталей для птиц, ограничивающие рамки, задано 312 двоичных атрибутов11,788Изображения, текстКлассификация2011[143][144]C. Wah et al.
Ютуб-8МБольшой и разнообразный набор видеоданныхИдентификаторы видео YouTube и соответствующие ярлыки из разнообразного словаря из 4800 визуальных объектов.8 миллионовВидео, текстКлассификация видео2016[145][146]S. Abu-El-Haija et al.
YFCC100MБольшой и разнообразный маркированный набор изображений и видеоВидео и изображения Flickr и соответствующее описание, заголовки, теги и другие метаданные (например, EXIF ​​и геотеги)100 миллионовВидео, изображение, текстКлассификация видео и изображений2016[147][148]B. Thomee et al.
Дискретный ЛИРИС-АКСЕДЕКороткие видеоролики с комментариями о валентности и возбуждении.Ярлыки валентности и возбуждения.9800видеоОбнаружение видео эмоций2015[149]Y. Baveye et al.
Непрерывный LIRIS-ACCEDEДлинные видеоролики с аннотациями для валентности и возбуждения, а также для сбора данных о кожно-гальванической реакции.Ярлыки валентности и возбуждения.30видеоОбнаружение видео эмоций2015[150]Y. Baveye et al.
Средневековый LIRIS-ACCEDEРасширение Discrete LIRIS-ACCEDE, включая аннотации уровней насилия в фильмах.Ярлыки насилия, валентности и возбуждения.10900видеоОбнаружение видео эмоций2015[151]Y. Baveye et al.
Спортивная поза ЛидсаСочлененные аннотации позы человека в 2000 изображениях естественных видов спорта с Flickr.Необработанный урожай вокруг одного человека, представляющего интерес, с 14 этикетками2000Изображения плюс метки файлов .matОценка позы человека2010[152]С. Джонсон и М. Эверингем
Расширенная тренировка позы Leeds Sports PoseСочлененные аннотации позы человека в 10 000 изображений естественных видов спорта с Flickr.14 совместных лейблов через краудсорсинг10000Изображения плюс метки файлов .matОценка позы человека2011[153]С. Джонсон и М. Эверингем
Набор данных MCQ6 различных реальных экзаменов с множественным выбором (735 листов ответов и 33 540 блоков для ответов) для оценки методов и систем компьютерного зрения, разработанных для систем оценки тестов с множественным выбором.Никто735 листов для ответов и 33 540 ящиков для ответовЯрлыки изображений и файлов .matРазработка систем оценки тестов с множественным выбором2017[154][155]Афифи М. и соавт.
Видео наблюденияРеальные видео наблюдения охватывают длительное время наблюдения (7 дней по 24 часа каждый).Никто19 видео наблюдения (7 дней по 24 часа).РоликиСжатие данных2016[156]Тадж-Эддин, И.А.Т.Ф. и др.
ЛИЛА БКМаркированная информационная библиотека Александрии: биология и сохранение. Помеченные изображения, поддерживающие исследования машинного обучения в области экологии и науки об окружающей среде.Никто~ 10 млн изображенийИзображенийКлассификация2019[157]LILA рабочая группа
Можем ли мы увидеть фотосинтез?32 видео для восьми живых и восьми мертвых листьев, записанных при постоянном и переменном освещении.Никто32 видеоРоликиОбнаружение живучести растений2017[158]Тадж-Эддин, И.А.Т.Ф. и др.

Текстовые данные

Наборы данных, состоящие в основном из текста, для таких задач, как обработка естественного языка, анализ настроений, перевод и кластерный анализ.

Отзывы

Название набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Обзоры AmazonОбзоры продуктов в США от Amazon.com.Никто.~ 82 млнТекстКлассификация, анализ настроений2015[159]McAuley et al.
Набор данных обзора OpinRankОбзоры машин и отелей от Edmunds.com и TripAdvisor соответственно.Никто.42,230 / ~ 259,000 соответственноТекстАнализ настроений, кластеризация2011[160][161]K. Ganesan et al.
MovieLens22 000 000 оценок и 580 000 тегов, примененных к 33 000 фильмам 240 000 пользователей.Никто.~ 22 млнТекстРегрессия, кластеризация, классификация2016[162]GroupLens Research
Yahoo! Рейтинги музыкальных пользователей музыкальных исполнителейПользователи Yahoo оценили более 10 миллионов художников.Ничего не описано.~ 10 млнТекстКластеризация, регрессия2004[163][164]Yahoo!
Набор данных оценки автомобиляСвойства автомобилей и их приемлемость в целом.Дано шесть категориальных признаков.1728ТекстКлассификация1997[165][166]М. Боханец
Набор данных о предпочтениях в YouTube Comedy SlamДанные о голосовании пользователей для пар видео, показываемых на YouTube. Пользователи голосовали за более смешные видео.Указаны метаданные видео.1,138,562ТекстКлассификация2012[167][168]Google
Набор данных отзывов пользователей SkytraxОтзывы пользователей об авиакомпаниях, аэропортах, местах и ​​залах ожидания Skytrax.Рейтинги точны и включают многие аспекты опыта в аэропорту.41396ТекстКлассификация, регрессия2015[169]К. Нгуен
Набор данных оценки помощника учителяОтзывы о помощниках учителя.Даны характеристики каждого экземпляра, такие как класс, размер класса и преподаватель.151ТекстКлассификация1997[170][171]W. Loh et al.
Корпус отзывов вьетнамских студентов (UIT-VSFC)Отзывы студентов.Комментарии16,000ТекстКлассификация1997[172]Nguyen et al.
Корпус вьетнамских социальных сетей Emotion Corpus (UIT-VSMEC)Комментарии пользователей в Facebook.Комментарии6,927ТекстКлассификация1997[173]Nguyen et al.

Новостные статьи

Название набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных NYSKСтатьи на английском языке о деле, касающемся обвинений в сексуальном посягательстве на бывшего МВФ директор Доминик Стросс-Кан.Отфильтрован и представлен в формате XML.10,421XML, текстАнализ тональности, извлечение темы2013[174]Dermouche, M. et al.
Корпус Reuters, том 1Большой корпус Рейтер новости на английском языке.Детальная категоризация и коды тем.810,000ТекстКлассификация, кластеризация, обобщение2002[175]Рейтер
Корпус Reuters, том 2Большой корпус Рейтер новости на нескольких языках.Детальная категоризация и коды тем.487,000ТекстКлассификация, кластеризация, обобщение2005[176]Рейтер
Сборник текстовых исследований Thomson ReutersБольшой корпус новостей.Подробности не описаны.1,800,370ТекстКлассификация, кластеризация, обобщение2009[177]T. Rose et al.
Корпус саудовских газет31 030 газетных статей на арабском языке.Метаданные извлечены.31,030JSONОбобщение, кластеризация2015[178]М. Альхагри
RE3D (набор данных оценки извлечения взаимосвязей и сущностей)Entity and Relation отметили данные из различных новостных и государственных источников. При поддержке DstlОтфильтровано, категоризация с использованием типов BaleenНеизвестныйJSONКлассификация, признание сущности и отношения2017[179]Dstl
Экзаменатор Каталог спам-приманокClickbait, спам, краудсорсинговые заголовки с 2010 по 2015 годДата публикации и заголовки3,089,781CSVКластеризация, События, Настроения2016[180]Р. Кулкарни
ABC Корпус новостей АвстралииВесь новостной корпус ABC Australia с 2003 по 2019 годДата публикации и заголовки1,186,018CSVКластеризация, События, Настроения2020[181]Р. Кулкарни
Мировые новости - в совокупности 20K КормаСнимок всех заголовков на более чем 20 языках за неделюВремя публикации, URL и заголовки1,398,431CSVКластеризация, события, определение языка2018[182]Р. Кулкарни
Рейтер Заголовок новостной ленты11 лет событий с указанием времени, опубликованных в ленте новостейВремя публикации, текст заголовка16,121,310CSVНЛП, Компьютерная лингвистика, События2018[183]Р. Кулкарни
The Irish Times Корпус новостей Ирландии24 года новостей Ирландии с 1996 по 2019 годВремя публикации, категория заголовка и текст1,484,340CSVНЛП, Компьютерная лингвистика, События2020[184]Р. Кулкарни
Набор данных заголовков новостей для обнаружения сарказмаВысококачественный набор данных с саркастическими и несаркастическими заголовками новостей.Чистый, нормализованный текст26,709JSONНЛП, Классификация, Лингвистика2018[185]Ришаб Мишра

Сообщения

Название набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных электронной почты EnronЭлектронные письма от сотрудников в Enron организованы в папки.Вложения удалены, неверные адреса электронной почты преобразованы в [email protected] или [email protected].~ 500,000ТекстСетевой анализ, анализ настроений2004 (2015)[186][187]Климт, Б. и Ю. Ян
Набор данных Ling-SpamКорпус, содержащий как законные, так и спам электронные письма.Четыре версии корпуса с указанием того, лемматизатор или был включен стоп-лист.2,412 Ham 481 СпамТекстКлассификация2000[188][189]Androutsopoulos, J. et al.
Набор данных сбора SMS-спамаСобранные SMS-спам-сообщения.Никто.5,574ТекстКлассификация2011[190][191]T. Almeida et al.
Набор данных "Двадцать групп новостей"Сообщения из 20 разных групп новостей.Никто.20,000ТекстОбработка естественного языка1999[192]T. Mitchell et al.
Набор данных SpambaseСпам-письма.Извлечено много текстовых функций.4,601ТекстОбнаружение спама, классификация1999[193]M. Hopkins et al.

Твиттер и твиты

Название набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Фильм ТвитыНабор данных рейтинга фильмов на основе публичных и хорошо структурированных твитов~710,000ТекстКлассификация, регрессия2018[194]С. Дума
Twitter100kПары изображений и твитов100,000Текст и изображенияКросс-медиа поиск2017[195][196]Y. Hu, et al.
Настроение140Данные твита за 2009 год, включая исходный текст, отметку времени, пользователя и настроение.Классифицируется с помощью дистанционного наблюдения за наличием смайлика в твите.1,578,627Твиты, запятая, значения с разделителямиАнализ настроений2009[197][198]A. Go et al.
Набор данных Twitter ASUСетевые данные Twitter, а не настоящие твиты. Показывает связи между большим количеством пользователей.Никто.11316811 пользователей, 85 331 846 подключенийТекстКластеризация, анализ графиков2009[199][200]R. Zafarani et al.
Социальные круги SNAP: база данных TwitterБольшие сетевые данные Twitter.Особенности узлов, круги и сети эго.1,768,149ТекстКластеризация, анализ графиков2012[201][202]J. McAuley et al.
Набор данных Twitter для анализа настроений арабовАрабские твиты.Образцы помечаются вручную как положительные или отрицательные.2000ТекстКлассификация2014[203][204]Н. Абдулла
Жужжание в наборе данных социальных сетейДанные из Twitter и Tom's Hardware. Этот набор данных посвящен конкретным темам, обсуждаемым на этих сайтах.Данные отображаются в виде окон, чтобы пользователь мог попытаться предсказать события, приведшие к появлению шума в социальных сетях.140,000ТекстРегрессия, Классификация2013[205][206]F. Kawala et al.
Парафраз и семантическое сходство в Twitter (PIT)Этот набор данных фокусируется на том, имеют ли твиты (почти) одинаковое значение / информацию или нет. Отмечено вручную.токенизация, теги частей речи и именованных сущностей18,762ТекстРегрессия, Классификация2015[207][208]Xu et al.
Набор данных тестов Geoparse TwitterЭтот набор данных содержит твиты во время различных новостных событий в разных странах. Упоминания местоположения, помеченные вручную.аннотации местоположения добавлены в метаданные JSON6,386Твиты, JSONКлассификация, извлечение информации2014[209][210]S.E. Миддлтон и др.

Диалоги

Название набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Корпус чата NPSСообщения из онлайн-чатов для разных возрастных категорий.Конфиденциальность рук замаскирована, помечена для части речи и диалога.~ 500,000XMLНЛП, программирование, лингвистика2007[211]Форсайт, Э., Лин, Дж., И Мартелл, К.
Twitter Triple CorpusТройки A-B-A извлечены из Twitter.4,232ТекстНЛП2016[212]Сордини, А. и др.
UseNet CorpusСообщения на форуме UseNet.Анонимные электронные письма и URL-адреса. Пропущенные документы с длиной <500 слов или> 500 000 слов, или которые были <90% на английском языке.7 миллиардовТекст2011[213]Шауль К. и Уэстбери К.
NUS SMS CorpusSMS-сообщения, собранные между двумя пользователями, с временным анализом.~ 10,000XMLНЛП2011[214]КАН, М
Reddit Корпус всех комментариевВсе комментарии Reddit (по состоянию на 2015 год).~ 1,7 миллиардаJSONНЛП, исследования2015[215]Застрявший в матрице
Корпус диалогов UbuntuДиалоги, извлеченные из потока чата Ubuntu в IRC.CSVИсследование диалоговых систем2015[216]Lowe, R. et al.

Другой текст

Название набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных Web of ScienceИерархические наборы данных для классификации текстаНикто.46,985ТекстКлассификация,

Категоризация

2017[217][218]K. Kowsari et al.
Отчеты по судебным деламФедеральный суд Австралии дел с 2006 по 2009 гг.Никто.4,000ТекстОбобщение,

анализ цитирования

2012[219][220]F. Galgani et al.
Blogger Authorship CorpusЗаписи в блогах 19 320 человек с blogger.com.Блогер сам указал пол, возраст, отрасль и знак зодиака.681,288ТекстАнализ тональности, обобщение, классификация2006[221][222]J. Schler et al.
Социальная структура сетей FacebookБольшой набор данных социальной структуры Facebook.Никто.100 колледжей покрытыТекстСетевой анализ, кластеризация2012[223][224]A. Traud et al.
Набор данных для машинного понимания текстаРассказы и связанные вопросы для проверки понимания текста.Никто.660ТекстОбработка естественного языка, машинное понимание2013[225][226]M. Richardson et al.
Проект Penn TreebankЕстественный текст с аннотациями для лингвистической структуры.Текст разбирается на семантические деревья.~ 1 млн словТекстОбработка естественного языка, реферирование1995[227][228]M. Marcus et al.
Набор данных DEXTERДанная задача состоит в том, чтобы определить по приведенным характеристикам, какие статьи посвящены корпоративным поглощениям.Извлеченные элементы включают основы слов. Включены функции дистрактора.2600ТекстКлассификация2008[229]Рейтер
N-граммы Google КнигиN-граммы из очень большого корпуса книгНикто.2,2 ТБ текстаТекстClassification, clustering, regression2011[230][231]Google
Personae CorpusCollected for experiments in Authorship Attribution and Personality Prediction. Consists of 145 Dutch-language essays.In addition to normal texts, syntactically annotated texts are given.145ТекстClassification, regression2008[232][233]K. Luyckx et al.
CNAE-9 DatasetCategorization task for free text descriptions of Brazilian companies.Word frequency has been extracted.1080ТекстКлассификация2012[234][235]P. Ciarelli et al.
Sentiment Labeled Sentences Dataset3000 sentiment labeled sentences.Sentiment of each sentence has been hand labeled as positive or negative.3000ТекстClassification, sentiment analysis2015[236][237]D. Kotzias
BlogFeedback DatasetDataset to predict the number of comments a post will receive based on features of that post.Many features of each post extracted.60,021ТекстРегресс2014[238][239]K. Buza
Stanford Natural Language Inference (SNLI) CorpusImage captions matched with newly constructed sentences to form entailment, contradiction, or neutral pairs.Entailment class labels, syntactic parsing by the Stanford PCFG parser570,000ТекстNatural language inference/recognizing textual entailment2015[240]S. Bowman et al.
DSL Corpus Collection (DSLCC)A multilingual collection of short excerpts of journalistic texts in similar languages and dialects.Никто294,000 phrasesТекстDiscriminating between similar languages2017[241]Tan, Liling et al.
Urban Dictionary Набор данныхCorpus of words, votes and definitionsUser names anonymised2,580,925CSVNLP, Machine comprehension2016 May[242]Анонимный
T-RExВикипедия abstracts aligned with Викиданные сущностиAlignment of Wikidata triples with Wikipedia abstracts11M aligned triplesJSON and NIF [1]NLP, Relation Extraction2018[243]H. Elsahar et al.
General Language Understanding Evaluation (GLUE)Benchmark of nine tasksРазные~1M sentences and sentence pairsNLU2018[244][245]Wang et al.
Atticus Open Contract Dataset (AOK)Dataset of legal contracts with rich expert annotations~3,000 labelsCSV and PDFNatural language processing, QnA2020The Atticus Project
Vietnamese Image Captioning Dataset (UIT-ViIC)Vietnamese Image Captioning Dataset19,250 captions for 3,850 imagesCSV and PDFNatural language processing, Computer vision2020[246]Lam et al.
Vietnamese Names annotated with Genders (UIT-ViNames)Vietnamese Names annotated with Genders26,850 Vietnamese full names annotated with gendersCSVОбработка естественного языка2020[247]To et al.

Sound data

Datasets of sounds and sound features.

Речь

Dataset NameКраткое описаниеПредварительная обработкаЭкземплярыФорматDefault TaskCreated (updated)СсылкаСоздатель
Zero Resource Speech Challenge 2015Spontaneous speech (English), Read speech (Xitsonga).raw wavEnglish: 5h, 12 speakers; Xitsonga: 2h30; 24 speakersзвукUnsupervised discovery of speech features/subword units/word units2015[248][249]Versteegh et al.
Parkinson Speech DatasetMultiple recordings of people with and without Parkinson's Disease.Voice features extracted, disease scored by physician using unified Parkinson's disease rating scale1,040ТекстClassification, regression2013[250][251]B. E. Sakar et al.
Spoken Arabic DigitsSpoken Arabic digits from 44 male and 44 female.Time-series of mel-frequency cepstrum коэффициенты.8,800ТекстКлассификация2010[252][253]M. Bedda et al.
ISOLET DatasetSpoken letter names.Features extracted from sounds.7797ТекстКлассификация1994[254][255]R. Cole et al.
Japanese Vowels DatasetNine male speakers uttered two Japanese vowels successively.Applied 12-degree linear prediction analysis to it to obtain a discrete-time series with 12 cepstrum coefficients.640ТекстКлассификация1999[256][257]M. Kudo et al.
Parkinson's Telemonitoring DatasetMultiple recordings of people with and without Parkinson's Disease.Sound features extracted.5875ТекстКлассификация2009[258][259]A. Tsanas et al.
ТИМИТRecordings of 630 speakers of eight major dialects of American English, each reading ten phonetically rich sentences.Speech is lexically and phonemically transcribed.6300ТекстSpeech recognition, classification.1986[260][261]J. Garofolo et al.
Arabic Speech CorpusA single-speaker, Современный Стандартный арабский (MSA) speech corpus with phonetic and orthographic transcripts aligned to phoneme levelSpeech is orthographically and phonetically transcribed with stress marks.~1900Text, WAVSpeech Synthesis, Speech Recognition, Corpus Alignment, Speech Therapy, Education.2016[262]N. Halabi
Общий голосA public domain database of краудсорсинг data across a wide range of dialects.Validation by other usersEnglish: 1,118 hoursMP3 with corresponding text filesРаспознавание речиJune 2017 (December 2019)[263]Mozilla

Музыка

Dataset NameКраткое описаниеПредварительная обработкаЭкземплярыФорматDefault TaskCreated (updated)СсылкаСоздатель
Geographic Origin of Music Data SetAudio features of music samples from different locations.Audio features extracted using MARSYAS software.1,059ТекстGeographic classification, clustering2014[264][265]F. Zhou et al.
Million Song DatasetAudio features from one million different songs.Audio features extracted.1 млнТекстClassification, clustering2011[266][267]T. Bertin-Mahieux et al.
MUSDB18Multi-track popular music recordingsRaw audio150MP4, WAVSource Separation2017[268]Z. Rafii et al.
Бесплатный Музыкальный АрхивAudio under Creative Commons from 100k songs (343 days, 1TiB) with a hierarchy of 161 genres, metadata, user data, free-form text.Raw audio and audio features.106,574Text, MP3Classification, recommendation2017[269]M. Defferrard et al.
Bach Choral Harmony DatasetBach chorale chords.Audio features extracted.5665ТекстКлассификация2014[270][271]D. Radicioni et al.

Other sounds

Dataset NameКраткое описаниеПредварительная обработкаЭкземплярыФорматDefault TaskCreated (updated)СсылкаСоздатель
UrbanSoundLabeled sound recordings of sounds like air conditioners, car horns and children playing.Sorted into folders by class of events as well as metadata in a JSON file and annotations in a CSV file.1,059Звук

(WAV )

Классификация2014[272][273]J. Salamon et al.
AudioSet10-second sound snippets from YouTube videos, and an ontology of over 500 labels.128-d PCA'd VGG-ish features every 1 second.2,084,320Text (CSV) and TensorFlow Record filesКлассификация2017[274]J. Gemmeke et al., Google
Bird Audio Detection challengeAudio from environmental monitoring stations, plus crowdsourced recordings17,000+Классификация2016 (2018)[275][276]Университет Королевы Марии и Общество обработки сигналов IEEE
WSJ0 Hipster Ambient MixturesAudio from WSJ0 mixed with noise recorded in the Область залива Сан-ФранцискоNoise clips matched to WSJ0 clips28,000Sound (WAV )Audio source separation2019[277]Wichern, G., et al., Whisper and MERL
Clotho4,981 audio samples of 15 to 30 seconds long, each audio sample having five different captions of eight to 20 words long.24,905Sound (WAV ) and text (CSV )Automated audio captioning2020[278][279]K. Drossos, S. Lipping, and T. Virtanen

Signal data

Datasets containing electric signal information requiring some sort of Обработка сигналов for further analysis.

Электрические

Dataset NameКраткое описаниеПредварительная обработкаЭкземплярыФорматDefault TaskCreated (updated)СсылкаСоздатель
Witty Worm DatasetDataset detailing the spread of the Witty worm and the infected computers.Split into a publicly available set and a restricted set containing more sensitive information like IP and UDP headers.55,909 IP addressesТекстКлассификация2004[280][281]Центр прикладного анализа интернет-данных
Cuff-Less Blood Pressure Estimation DatasetCleaned vital signals from human patients which can be used to estimate blood pressure.125 Hz vital signs have been cleaned.12,000ТекстClassification, regression2015[282][283]M. Kachuee et al.
Gas Sensor Array Drift DatasetMeasurements from 16 chemical sensors utilized in simulations for drift compensation.Extensive number of features given.13,910ТекстКлассификация2012[284][285]A. Vergara
Servo DatasetData covering the nonlinear relationships observed in a servo-amplifier circuit.Levels of various components as a function of other components are given.167ТекстРегресс1993[286][287]K. Ullrich
UJIIndoorLoc-Mag DatasetIndoor localization database to test indoor positioning systems. Data is magnetic field based.Train and test splits given.40,000ТекстClassification, regression, clustering2015[288][289]D. Rambla et al.
Sensorless Drive Diagnosis DatasetElectrical signals from motors with defective components.Statistical features extracted.58,508ТекстКлассификация2015[290][291]M. Bator

Motion-tracking

Dataset NameКраткое описаниеПредварительная обработкаЭкземплярыФорматDefault TaskCreated (updated)СсылкаСоздатель
Wearable Computing: Classification of Body Postures and Movements (PUC-Rio)People performing five standard actions while wearing motion trackers.Никто.165,632ТекстКлассификация2013[292][293]Папский католический университет Рио-де-Жанейро
Gesture Phase Segmentation DatasetFeatures extracted from video of people doing various gestures.Features extracted aim at studying gesture phase segmentation.9900ТекстClassification, clustering2014[294][295]R. Madeo et a
Vicon Physical Action Data Set Dataset10 normal and 10 aggressive physical actions that measure the human activity tracked by a 3D tracker.Many parameters recorded by 3D tracker.3000ТекстКлассификация2011[296][297]T. Theodoridis
Daily and Sports Activities DatasetMotor sensor data for 19 daily and sports activities.Many sensors given, no preprocessing done on signals.9120ТекстКлассификация2013[298][299]B. Barshan et al.
Human Activity Recognition Using Smartphones DatasetGyroscope and accelerometer data from people wearing smartphones and performing normal actions.Actions performed are labeled, all signals preprocessed for noise.10,299ТекстКлассификация2012[300][301]J. Reyes-Ortiz et al.
Australian Sign Language SignsAustralian sign language signs captured by motion-tracking gloves.Никто.2565ТекстКлассификация2002[302][303]M. Kadous
Weight Lifting Exercises monitored with Inertial Measurement UnitsFive variations of the biceps curl exercise monitored with IMUs.Some statistics calculated from raw data.39,242ТекстКлассификация2013[304][305]W. Ugulino et al.
sEMG for Basic Hand movements DatasetTwo databases of surface electromyographic signals of 6 hand movements.Никто.3000ТекстКлассификация2014[306][307]C. Sapsanis et al.
REALDISP Activity Recognition DatasetEvaluate techniques dealing with the effects of sensor displacement in wearable activity recognition.Никто.1419ТекстКлассификация2014[307][308]O. Banos et al.
Heterogeneity Activity Recognition DatasetData from multiple different smart devices for humans performing various activities.Никто.43,930,257ТекстClassification, clustering2015[309][310]A. Stisen et al.
Indoor User Movement Prediction from RSS DataTemporal wireless network data that can be used to track the movement of people in an office.Никто.13,197ТекстКлассификация2016[311][312]D. Bacciu
PAMAP2 Physical Activity Monitoring Dataset18 different types of physical activities performed by 9 subjects wearing 3 IMUs.Никто.3,850,505ТекстКлассификация2012[313]A. Reiss
OPPORTUNITY Activity Recognition DatasetHuman Activity Recognition from wearable, object, and ambient sensors is a dataset devised to benchmark human activity recognition algorithms.Никто.2551ТекстКлассификация2012[314][315]D. Roggen et al.
Real World Activity Recognition DatasetHuman Activity Recognition from wearable devices. Distinguishes between seven on-body device positions and comprises six different kinds of sensors.Никто.3,150,000 (per sensor)ТекстКлассификация2016[316]T. Sztyler et al.
Toronto Rehab Stroke Pose Dataset3D human pose estimates (Kinect) of stroke patients and healthy participants performing a set of tasks using a stroke rehabilitation robot.Никто.10 healthy person and 9 stroke survivors (3500-6000 frames per person)CSVКлассификация2017[317][318][319]E. Dolatabadi et al.
Corpus of Social Touch (CoST)7805 gesture captures of 14 different social touch gestures performed by 31 subjects. The gestures were performed in three variations: gentle, normal and rough, on a pressure sensor grid wrapped around a mannequin arm.Touch gestures performed are segmented and labeled.7805 gesture capturesCSVКлассификация2016[320][321]M. Jung et al.

Other signals

Dataset NameКраткое описаниеПредварительная обработкаЭкземплярыФорматDefault TaskCreated (updated)СсылкаСоздатель
Wine DatasetChemical analysis of wines grown in the same region in Italy but derived from three different cultivars.13 properties of each wine are given178ТекстClassification, regression1991[322][323]M. Forina et al.
Combined Cycle Power Plant Data SetData from various sensors within a power plant running for 6 years.Никто9568ТекстРегресс2014[324][325]P. Tufekci et al.

Физические данные

Datasets from physical systems.

Физика высоких энергий

Dataset NameКраткое описаниеПредварительная обработкаЭкземплярыФорматDefault TaskCreated (updated)СсылкаСоздатель
HIGGS DatasetMonte Carlo simulations of particle accelerator collisions.28 features of each collision are given.11 млнТекстКлассификация2014[326][327][328]D. Whiteson
HEPMASS DatasetMonte Carlo simulations of particle accelerator collisions. Goal is to separate the signal from noise.28 features of each collision are given.10,500,000ТекстКлассификация2016[327][328][329]D. Whiteson

Системы

Dataset NameКраткое описаниеПредварительная обработкаЭкземплярыФорматDefault TaskCreated (updated)СсылкаСоздатель
Yacht Hydrodynamics DatasetYacht performance based on dimensions.Six features are given for each yacht.308ТекстРегресс2013[330][331]R. Lopez
Robot Execution Failures Dataset5 data sets that center around robotic failure to execute common tasks.Integer valued features such as torque and other sensor measurements.463ТекстКлассификация1999[332]L. Seabra et al.
Pittsburgh Bridges DatasetDesign description is given in terms of several properties of various bridges.Various bridge features are given.108ТекстКлассификация1990[333][334]Y. Reich et al.
Automobile DatasetData about automobiles, their insurance risk, and their normalized losses.Car features extracted.205ТекстРегресс1987[335][336]J. Schimmer et al.
Auto MPG DatasetMPG data for cars.Eight features of each car given.398ТекстРегресс1993[337]Университет Карнеги Меллон
Energy Efficiency DatasetHeating and cooling requirements given as a function of building parameters.Building parameters given.768ТекстClassification, regression2012[338][339]A. Xifara et al.
Airfoil Self-Noise DatasetA series of aerodynamic and acoustic tests of two and three-dimensional airfoil blade sections.Data about frequency, angle of attack, etc., are given.1503ТекстРегресс2014[340]R. Lopez
Challenger USA Space Shuttle O-Ring DatasetAttempt to predict O-ring problems given past Challenger data.Several features of each flight, such as launch temperature, are given.23ТекстРегресс1993[341][342]D. Draper et al.
Statlog (Shuttle) DatasetNASA space shuttle datasets.Nine features given.58,000ТекстКлассификация2002[343]НАСА

Астрономия

Dataset NameКраткое описаниеПредварительная обработкаЭкземплярыФорматDefault TaskCreated (updated)СсылкаСоздатель
Volcanoes on Venus – JARtool experiment DatasetVenus images returned by the Magellan spacecraft.Images are labeled by humans.не даноИзображенийКлассификация1991[344][345]M. Burl
MAGIC Gamma Telescope DatasetMonte Carlo generated high-energy gamma particle events.Numerous features extracted from the simulations.19,020ТекстКлассификация2007[345][346]R. Bock
Solar Flare DatasetMeasurements of the number of certain types of solar flare events occurring in a 24-hour period.Many solar flare-specific features are given.1389ТекстRegression, classification1989[347]Г. Брэдшоу

Науки о Земле

Dataset NameКраткое описаниеПредварительная обработкаЭкземплярыФорматDefault TaskCreated (updated)СсылкаСоздатель
Вулканы мираVolcanic eruption data for all known volcanic events on earth.Details such as region, subregion, tectonic setting, dominant rock type are given.1535ТекстRegression, classification2013[348]E. Venzke et al.
Seismic-bumps DatasetSeismic activities from a coal mine.Seismic activity was classified as hazardous or not.2584ТекстКлассификация2013[349][350]M. Sikora et al.

Other physical

Dataset NameКраткое описаниеПредварительная обработкаЭкземплярыФорматDefault TaskCreated (updated)СсылкаСоздатель
Concrete Compressive Strength DatasetDataset of concrete properties and compressive strength.Nine features are given for each sample.1030ТекстРегресс2007[351][352]I. Yeh
Concrete Slump Test DatasetConcrete slump flow given in terms of properties.Features of concrete given such as fly ash, water, etc.103ТекстРегресс2009[353][354]I. Yeh
Musk DatasetPredict if a molecule, given the features, will be a musk or a non-musk.168 features given for each molecule.6598ТекстКлассификация1994[355]Arris Pharmaceutical Corp.
Steel Plates Faults DatasetSteel plates of 7 different types.27 features given for each sample.1941ТекстКлассификация2010[356]Semeion Research Center

Biological data

Datasets from biological systems.

Человек

Dataset NameКраткое описаниеПредварительная обработкаЭкземплярыФорматDefault TaskCreated (updated)СсылкаСоздатель
EEG DatabaseStudy to examine EEG correlates of genetic predisposition to alcoholism.Measurements from 64 electrodes placed on the scalp sampled at 256 Hz (3.9 ms epoch) for 1 second.122ТекстКлассификация1999[357]H. Begleiter
P300 Interface DatasetData from nine subjects collected using P300-based brain-computer interface for disabled subjects.Split into four sessions for each subject. MATLAB code given.1,224ТекстКлассификация2008[358][359]U. Hoffman et al.
Heart Disease Data SetAttributed of patients with and without heart disease.75 attributes given for each patient with some missing values.303ТекстКлассификация1988[360][361]A. Janosi et al.
Breast Cancer Wisconsin (Diagnostic) DatasetDataset of features of breast masses. Diagnoses by physician is given.10 features for each sample are given.569ТекстКлассификация1995[362][363]W. Wolberg et al.
Национальное исследование употребления наркотиков и здоровьяLarge scale survey on health and drug use in the United States.Никто.55,268ТекстClassification, regression2012[364]Министерство здравоохранения и социальных служб США
Lung Cancer DatasetLung cancer dataset without attribute definitions56 features are given for each case32ТекстКлассификация1992[365][366]Z. Hong et al.
Arrhythmia DatasetData for a group of patients, of which some have cardiac arrhythmia.276 features for each instance.452ТекстКлассификация1998[367][368]H. Altay et al.
Diabetes 130-US hospitals for years 1999–2008 Dataset9 years of readmission data across 130 US hospitals for patients with diabetes.Many features of each readmission are given.100,000ТекстClassification, clustering2014[369][370]J. Clore et al.
Diabetic Retinopathy Debrecen DatasetFeatures extracted from images of eyes with and without diabetic retinopathy.Features extracted and conditions diagnosed.1151ТекстКлассификация2014[371][372]B. Antal et al.
Diabetic Retinopathy Messidor DatasetMethods to evaluate segmentation and indexing techniques in the field of retinal ophthalmology (MESSIDOR)Features retinopathy grade and risk of macular edema1200Images, TextClassification, Segmentation2008[373][374]Messidor Project
Liver Disorders DatasetData for people with liver disorders.Seven biological features given for each patient.345ТекстКлассификация1990[375][376]Bupa Medical Research Ltd.
Thyroid Disease Dataset10 databases of thyroid disease patient data.Никто.7200ТекстКлассификация1987[377][378]R. Quinlan
Mesothelioma DatasetMesothelioma patient data.Large number of features, including asbestos exposure, are given.324ТекстКлассификация2016[379][380]A. Tanrikulu et al.
Parkinson's Vision-Based Pose Estimation Dataset2D human pose estimates of Parkinson's patients performing a variety of tasks.Camera shake has been removed from trajectories.134ТекстClassification, regression2017[381][382][383]M. Li et al.
KEGG Metabolic Reaction Network (Undirected) DatasetNetwork of metabolic pathways. A reaction network and a relation network are given.Detailed features for each network node and pathway are given.65,554ТекстClassification, clustering, regression2011[384]M. Naeem et al.
Modified Human Sperm Morphology Analysis Dataset (MHSMA)Human sperm images from 235 patients with male factor infertility, labeled for normal or abnormal sperm acrosome, head, vacuole, and tail.Cropped around single sperm head. Magnification normalized. Training, validation, and test set splits created.1,540.npy filesКлассификация2019[385][386]S. Javadi and S.A. Mirroshandel

Животное

Dataset NameКраткое описаниеПредварительная обработкаЭкземплярыФорматDefault TaskCreated (updated)СсылкаСоздатель
Abalone DatasetPhysical measurements of Abalone. Weather patterns and location are also given.Никто.4177ТекстРегресс1995[387]Marine Research Laboratories – Taroona
Zoo DatasetArtificial dataset covering 7 classes of animals.Animals are classed into 7 categories and features are given for each.101ТекстКлассификация1990[388]R. Forsyth
Demospongiae DatasetData about marine sponges.503 sponges in the Демоспондж class are described by various features.503ТекстКлассификация2010[389]E. Armengol et al.
Splice-junction Gene Sequences DatasetPrimate splice-junction gene sequences (DNA) with associated imperfect domain theory.Никто.3190ТекстКлассификация1992[366]G. Towell et al.
Mice Protein Expression DatasetExpression levels of 77 proteins measured in the cerebral cortex of mice.Никто.1080ТекстClassification, Clustering2015[390][391]C. Higuera et al.

Растение

Dataset NameКраткое описаниеПредварительная обработкаЭкземплярыФорматDefault TaskCreated (updated)СсылкаСоздатель
Forest Fires DatasetForest fires and their properties.13 features of each fire are extracted.517ТекстРегресс2008[392][393]P. Cortez et al.
Iris DatasetThree types of iris plants are described by 4 different attributes.Никто.150ТекстКлассификация1936[394][395]R. Fisher
Plant Species Leaves DatasetSixteen samples of leaf each of one-hundred plant species.Shape descriptor, fine-scale margin, and texture histograms are given.1600ТекстКлассификация2012[396][397]J. Cope et al.
Mushroom DatasetMushroom attributes and classification.Many properties of each mushroom are given.8124ТекстКлассификация1987[398]J. Schlimmer
Soybean DatasetDatabase of diseased soybean plants.35 features for each plant are given. Plants are classified into 19 categories.307ТекстКлассификация1988[399]R. Michalski et al.
Seeds DatasetMeasurements of geometrical properties of kernels belonging to three different varieties of wheat.Никто.210ТекстClassification, clustering2012[400][401]Charytanowicz et al.
Covertype DatasetData for predicting forest cover type strictly from cartographic variables.Many geographical features given.581,012ТекстКлассификация1998[402][403]J. Blackard et al.
Abscisic Acid Signaling Network DatasetData for a plant signaling network. Goal is to determine set of rules that governs the network.Никто.300ТекстCausal-discovery2008[404]J. Jenkens et al.
Folio Dataset20 photos of leaves for each of 32 species.Никто.637Images, textClassification, clustering2015[405][406]T. Munisami et al.
Oxford Flower Dataset17 category dataset of flowers.Train/test splits, labeled images,1360Images, textКлассификация2006[138][407]M-E Nilsback et al.
Plant Seedlings Dataset12 category dataset of plant seedlings.Labelled images, segmented images,5544ИзображенийClassification, detection2017[408]Giselsson et al.
Fruits 360 datasetDatabase with images of 120 fruits and vegetables.100x100 pixels, White background.82213Images (jpg)Классификация2017-2019[409][410]Mihai Oltean, Horea Muresan

Микроб

Dataset NameКраткое описаниеПредварительная обработкаЭкземплярыФорматDefault TaskCreated (updated)СсылкаСоздатель
Ecoli DatasetProtein localization sites.Various features of the protein localizations sites are given.336ТекстКлассификация1996[411][412]K. Nakai et al.
MicroMass DatasetIdentification of microorganisms from mass-spectrometry data.Various mass spectrometer features.931ТекстКлассификация2013[413][414]P. Mahe et al.
Yeast DatasetPredictions of Cellular localization sites of proteins.Eight features given per instance.1484ТекстКлассификация1996[415][416]K. Nakai et al.

Открытие наркотиков

Dataset NameКраткое описаниеПредварительная обработкаЭкземплярыФорматDefault TaskCreated (updated)СсылкаСоздатель
Tox21 DatasetPrediction of outcome of biological assays.Chemical descriptors of molecules are given.12707ТекстКлассификация2016[417]A. Mayr et al.

Anomaly data

Dataset NameКраткое описаниеПредварительная обработкаЭкземплярыФорматDefault TaskCreated (updated)СсылкаСоздатель
Numenta Anomaly Benchmark (NAB)Data are ordered, timestamped, single-valued metrics. All data files contain anomalies, unless otherwise noted.Никто50+ filesComma separated valuesОбнаружение аномалий2016 (continually updated)[418]Numenta
On the Evaluation of Unsupervised Outlier Detection: Measures, Datasets, and an Empirical StudyMost data files are adapted from UCI Machine Learning Repository data, some are collected from the literature.treated for missing values, numerical attributes only, different percentages of anomalies, labels1000+ filesARFFОбнаружение аномалий2016 (possibly updated with new datasets and/or results)

[419]

Campos et al.

Question Answering data

This section includes datasets that deals with structured data.

Dataset NameКраткое описаниеПредварительная обработкаЭкземплярыФорматDefault TaskCreated (updated)СсылкаСоздатель
DBpedia Neural Question Answering (DBNQA) DatasetA large collection of Question to SPARQL specially design for Open Domain Neural Question Answering over DBpedia Knowledgebase.This dataset contains a large collection of Open Neural SPARQL Templates and instances for training Neural SPARQL Machines; it was pre-processed by semi-automatic annotation tools as well as by three SPARQL experts.894,499Question-query pairsОтвет на вопрос2018[420][421]Hartmann, Soru, and Marx et al.
Vietnamese Question Answering Dataset (UIT-ViQuAD)A large collection of Vietnamese questions for evaluating MRC models.This dataset comprises over 23,000 human-generated question-answer pairs based on 5,109 passages of 174 Vietnamese articles from Wikipedia.23,074Question-answer pairsОтвет на вопрос2020[422]Nguyen et al.
Vietnamese Multiple-Choice Machine Reading Comprehension Corpus(ViMMRC)A collection of Vietnamese multiple-choice questions for evaluating MRC models.This corpus includes 2,783 Vietnamese multiple-choice questions.2,783Question-answer pairsQuestion Answering/Machine Reading Comprehension2020[423]Nguyen et al.

Multivariate data

Datasets consisting of rows of observations and columns of attributes characterizing those observations. Typically used for регрессивный анализ or classification but other types of algorithms can also be used. This section includes datasets that do not fit in the above categories.

Финансовые

Dataset NameКраткое описаниеПредварительная обработкаЭкземплярыФорматDefault TaskCreated (updated)СсылкаСоздатель
Индекс Доу-ДжонсаWeekly data of stocks from the first and second quarters of 2011.Calculated values included such as percentage change and a lags.750Comma separated valuesClassification, regression, Временные ряды2014[424][425]M. Brown et al.
Statlog (Australian Credit Approval)Credit card applications either accepted or rejected and attributes about the application.Attribute names are removed as well as identifying information. Factors have been relabeled.690Comma separated valuesКлассификация1987[426][427]R. Quinlan
eBay auction dataAuction data from various eBay.com objects over various length auctionsContains all bids, bidderID, bid times, and opening prices.~ 550ТекстRegression, classification2012[428][429]G. Shmueli и другие.
Statlog (German Credit Data)Binary credit classification into "good" or "bad" with many featuresVarious financial features of each person are given.690ТекстКлассификация1994[430]H. Hofmann
Bank Marketing DatasetData from a large marketing campaign carried out by a large bank .Many attributes of the clients contacted are given. If the client subscribed to the bank is also given.45,211ТекстКлассификация2012[431][432]S. Moro et al.
Istanbul Stock Exchange DatasetSeveral stock indexes tracked for almost two years.Никто.536ТекстClassification, regression2013[433][434]O. Akbilgic
Default of Credit Card ClientsCredit default data for Taiwanese creditors.Various features about each account are given.30,000ТекстКлассификация2016[435][436]I. Yeh

Погода

Название набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Облачный набор данныхДанные о 1024 различных облаках.Особенности изображения извлечены.1024ТекстКлассификация, кластеризация1989[437]П. Коллард
Набор данных Эль-НиньоОкеанографические и приземные метеорологические данные взяты с ряда буев, расположенных по всей экваториальной части Тихого океана.У каждого буя измеряется 12 погодных атрибутов.178080ТекстРегресс1999[438]Тихоокеанская лаборатория морской среды
Набор данных сети наблюдения за парниковыми газамиВременные ряды концентраций парниковых газов в 2921 ячейке сетки в Калифорнии, созданные с использованием моделирования погоды.Никто.2921ТекстРегресс2015[439]Д. Лукас
Атмосферный CO2 из непрерывных проб воздуха в обсерватории Мауна-ЛоаНепрерывные пробы воздуха на Гавайях, США. 44 года рекордов.Никто.44 годаТекстРегресс2001[440]Обсерватория Мауна-Лоа
Набор данных ионосферыРадиолокационные данные из ионосферы. Задача состоит в том, чтобы разделить радары на хорошие и плохие.Приведено множество функций радара.351ТекстКлассификация1989[378][441]Университет Джона Хопкинса
Набор данных определения уровня озонаДва набора данных об уровне приземного озона.Приведено множество функций, включая погодные условия на момент измерения.2536ТекстКлассификация2008[442][443]K. Zhang et al.

Перепись

Название набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных для взрослыхДанные переписи 1994 года, содержащие демографические характеристики взрослых и их доходы.Очищено и анонимно.48,842Значения, разделенные запятымиКлассификация1996[444]Бюро переписи населения США
Доход от переписи (KDD)Взвешенные данные переписи 1994 и 1995 гг. Текущие обследования населения.Разделить на тренировочную и тестовую наборы.299,285Значения, разделенные запятымиКлассификация2000[445][446]Бюро переписи населения США
База данных переписи IPUMSДанные переписи населения в районах Лос-Анджелеса и Лонг-Бич.Никто256,932ТекстКлассификация, регрессия1999[447]IPUMS
Данные переписи населения США 1990 г.Частичные данные переписи населения США 1990 года.Результаты рандомизированы и полезные атрибуты выбраны.2,458,285ТекстКлассификация, регрессия1990[448]Бюро переписи населения США

Транзит

Название набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных для обмена велосипедамиПочасовой и посуточный счет проката велосипедов в большом городе.Приведены многие характеристики, включая погоду, продолжительность поездки и т. Д.17,389ТекстРегресс2013[449][450]Х. Фанаи-Т
Данные о поездках на такси Нью-ЙоркаДанные о поездках желтых и зеленых такси в Нью-Йорке.Предоставляет места получения и высадки, тарифы и другие детали поездок.6 летТекстКлассификация, кластеризация2015[451]Комиссия по такси и лимузину Нью-Йорка
Траектория службы такси ECML PKDDТраектории всех такси в большом городе.Приведено множество функций, включая точки начала и остановки.1,710,671ТекстКластеризация, причинно-следственные связи2015[452][453]M. Ferreira et al.

Интернет

Название набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Веб-страницы из Common Crawl 2012Большая коллекция веб-страниц и то, как они связаны гиперссылкамиНикто.3,5 млрдТексткластеризация, классификация2013[454]В. Гранвиль
Набор данных интернет-рекламыНабор данных для прогнозирования, является ли данное изображение рекламой.Функции кодируют геометрию объявлений и фраз, встречающихся в URL.3279ТекстКлассификация1998[455][456]Н. Кушмерик
Набор данных об использовании ИнтернетаОбщая демография интернет-пользователей.Никто.10,104ТекстКлассификация, кластеризация1999[457]Д. Кук
Набор данных URLДанные URL за 120 дней с большой конференции.Приведены многие характеристики каждого URL-адреса.2,396,130ТекстКлассификация2009[458][459]Дж. Ма
Набор данных фишинговых сайтовНабор данных фишинговых сайтов.Приведены многие особенности каждого сайта.2456ТекстКлассификация2015[460]R. Mustafa et al.
Набор данных для розничной торговли в ИнтернетеОнлайн-транзакции для британского интернет-магазина.Приведены детали каждой транзакции.541,909ТекстКлассификация, кластеризация2015[461]Д. Чен
Дамп простой темы FreebaseFreebase - это онлайн-попытка структурировать все человеческие знания.Темы из Freebase были извлечены.большойТекстКлассификация, кластеризация2011[462][463]Freebase
Набор данных Farm AdsТекст фермерских объявлений с сайтов. Дается двоичное одобрение или неодобрение со стороны владельцев контента.Рассчитаны разреженные векторы SVMlight текстовых слов в объявлениях.4143ТекстКлассификация2011[464][465]C. Masterharm et al.

Игры

Название набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных покерных рук5 карточных рук из стандартной колоды из 52 карт.Даны атрибуты каждой руки, в том числе руки в покере, образованные картами, которые она содержит.1,025,010ТекстРегрессия, классификация2007[466]Р. Каттраль
Набор данных Connect-4Содержит все допустимые 8-слойные позиции в игре Connect-4, в которых ни один из игроков еще не выиграл и в которых следующий ход не является принудительным.Никто.67,557ТекстКлассификация1995[467]Дж. Тромп
Шахматы (король-ладья против короля) Набор данныхБаза данных эндшпиля для белого короля и ладьи против черного короля.Никто.28,056ТекстКлассификация1994[468][469]M. Bain et al.
Набор данных шахмат (король-ладья против королевской пешки)Король + ладья против короля + пешка на a7.Никто.3196ТекстКлассификация1989[470]Р. Хольте
Набор данных эндшпиля в крестики-ноликиБинарная классификация условий победы в крестики-нолики.Никто.958ТекстКлассификация1991[471]Д. Ага

Другое многомерное

Название набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных о жильеСредняя стоимость дома в Бостоне с соответствующими атрибутами дома и района.Никто.506ТекстРегресс1993[472]D. Harrison et al.
Словари Геттиструктурированная терминология для искусства и другой материальной культуры, архивные материалы, визуальные суррогаты и библиографические материалы.Никто.большойТекстКлассификация2015[473]Центр Гетти
Yahoo! Первая страница модуля Сегодня пользователь нажимает журналЖурнал кликов пользователя для новостных статей, отображаемых на вкладке "Интересные" модуля "Сегодня" на Yahoo! Титульная страница.Сопряженный анализ с билинейной моделью.45 811 883 посещений пользователейТекстРегрессия, кластеризация2009[474][475]Чу и др.
Британский центр океанографических данныхБиологические, химические, физические и геофизические данные по океанам. Отслежено 22K переменных.Разные.22K переменных, много экземпляровТекстРегрессия, кластеризация2015[476]Британский центр океанографических данных
Набор данных для голосования в КонгрессеДанные о голосовании всех представителей США по 16 вопросам.Помимо необработанных данных голосования, предоставляются различные другие функции.435ТекстКлассификация1987[477]Дж. Шлиммер
Набор данных рекомендаций Entree ChicagoЗапись взаимодействия пользователей с системой рекомендаций Entree Chicago.Подробная информация об использовании приложения каждым пользователем записывается подробно.50,672ТекстРегресс, рекомендация2000[478]Р. Берк
Индекс страховых компаний (COIL 2000)Информация о клиентах страховой компании.Многие особенности каждого клиента и услуг, которые они используют.9,000ТекстРегрессия, классификация2000[479][480]П. ван дер Путтен
Детский набор данныхДанные поступающих в детские сады.Включены данные о семье заявителя и различных других факторах.12,960ТекстКлассификация1997[481][482]V. Rajkovic et al.
Набор данных университетаДанные, описывающие большое количество университетов.Никто.285ТекстКластеризация, классификация1988[483]S. Sounders et al.
Набор данных центра службы переливания кровиДанные сервисного центра переливания крови. Предоставляет данные о доходности доноров, частоте и т. Д.Никто.748ТекстКлассификация2008[484][485]И. Да
Запись набора данных шаблонов сравнения связейБольшой набор данных записей. Задача - связать соответствующие записи вместе.Процедура блокировки применяется для выбора только определенных пар записей.5,749,132ТекстКлассификация2011[486][487]Университет Майнца
Набор данных NomaoNomao собирает данные о местах из множества различных источников. Задача - обнаружить предметы, описывающие одно и то же место.Дубликаты помечены.34,465ТекстКлассификация2012[488][489]Nomao Labs
Набор данных фильмовДанные для 10 000 фильмов.Дано несколько характеристик для каждого фильма.10,000ТекстКластеризация, классификация1999[490]Г. Видерхольд
Набор данных аналитики обучения открытого университетаИнформация об учениках и их взаимодействии с виртуальной учебной средой.Никто.~ 30,000ТекстКлассификация, кластеризация, регрессия2015[491][492]J. Kuzilek et al.
Записи с мобильных телефоновТелекоммуникационная деятельность и взаимодействиеАгрегация по ячейкам географической сетки и каждые 15 минут.большойТекстКлассификация, кластеризация, регрессия2015[493]G. Barlacchi et al.

Курируемые репозитории наборов данных

Поскольку наборы данных имеют множество форматов и иногда могут быть трудными в использовании, была проделана значительная работа по изучению и стандартизации формата наборов данных, чтобы упростить их использование для исследований в области машинного обучения.

  • OpenML:[494] Веб-платформа с Python, R, Java и другими API для загрузки сотен наборов данных машинного обучения, оценки алгоритмов на наборах данных и сравнения производительности алгоритмов с десятками других алгоритмов.
  • PMLB:[495] Большой тщательно отобранный репозиторий наборов контрольных данных для оценки алгоритмов контролируемого машинного обучения. Предоставляет наборы данных классификации и регрессии в стандартизированном формате, которые доступны через Python API.
  • Метатекст НЛП: https://metatext.io/datasets веб-репозиторий, поддерживаемый сообществом, содержащий около 1000 наборов контрольных данных, и их количество постоянно растет. Предоставляет множество задач, от классификации до контроля качества, и различные языки от английского, португальского до арабского.

Смотрите также

Рекомендации

  1. ^ Висснер-Гросс, А. «Наборы данных по алгоритмам». Edge.com. Получено 8 января 2016.
  2. ^ Weiss, G.M .; Провост, Ф. (1 сентября 2003 г.). «Обучение, когда данные обучения стоят дорого: влияние распределения классов на индукцию дерева». Журнал исследований искусственного интеллекта. Фонд AI Access. 19: 315–354. Дои:10.1613 / jair.1199. ISSN  1076-9757. S2CID  2344521.
  3. ^ Терни, Питер (2000). «Типы затрат в индуктивном изучении концепций». arXiv:cs / 0212034.
  4. ^ Эбни, Стивен (17 сентября 2007 г.). Полуавтоматическое обучение для компьютерной лингвистики. CRC Press. ISBN  978-1-4200-1080-0.
  5. ^ Жлиобайте, Индре; Бифет, Альберт; Пфарингер, Бернхард; Холмс, Джефф (2011). «Активное обучение с развивающимися потоковыми данными». Машинное обучение и обнаружение знаний в базах данных. Берлин, Гейдельберг: Springer Berlin Heidelberg. С. 597–612. Дои:10.1007/978-3-642-23808-6_39. ISBN  978-3-642-23807-9. ISSN  0302-9743.
  6. ^ Zafeiriou, S .; Коллиас, Д .; Nicolaou, M.A .; Papaioannou, A .; Zhao, G .; Коця, И. (2017). "Aff-Wild: вызов валентности и возбуждения в дикой природе" (PDF). Мастерские по компьютерному зрению и распознаванию образов (CVPRW), 2017 г.: 1980–1987. Дои:10.1109 / CVPRW.2017.248. ISBN  978-1-5386-0733-6. S2CID  3107614.
  7. ^ Коллиас, Д .; Tzirakis, P .; Nicolaou, M.A .; Papaioannou, A .; Zhao, G .; Schuller, B .; Kotsia, I .; Зафейриу, С. (2019). "Deep Affect Prediction in the wild: Aff-Wild Database and Challenge, Deep Architectures, and Beyond". Международный журнал компьютерного зрения (IJCV), 2019. 127 (6–7): 907–929. Дои:10.1007 / s11263-019-01158-4. S2CID  13679040.
  8. ^ Коллиас, Д .; Зафейриу, С. (2019). «Выражение, аффект, распознавание единиц действия: Aff-wild2, многозадачное обучение и arcface» (PDF). Британская конференция по машинному зрению (BMVC), 2019. arXiv:1910.04855.
  9. ^ Коллиас, Д .; Schulc, A .; Гаджиев, Э .; Зафейриу, С. (2020). «Анализ аффективного поведения на первом конкурсе abaw 2020». Международная конференция IEEE по автоматическому распознаванию лиц и жестов (FG), 2020 г.. arXiv:2001.11409.
  10. ^ Филлипс, П. Джонатон; и другие. (1998). «База данных FERET и процедура оценки алгоритмов распознавания лиц». Вычисления изображений и зрения. 16 (5): 295–306. Дои:10.1016 / s0262-8856 (97) 00070-х.
  11. ^ Вискотт, Лоренц; и другие. (1997). «Распознавание лиц путем сопоставления упругого сгустка графа». IEEE Transactions по анализу шаблонов и машинному анализу. 19 (7): 775–779. CiteSeerX  10.1.1.44.2321. Дои:10.1109/34.598235.
  12. ^ Ливингстон, Стивен Р .; Руссо, Франк А. (2018). «Аудиовизуальная база данных эмоциональной речи и песни Ryerson (RAVDESS): динамический, мультимодальный набор мимики и вокала на североамериканском английском». PLOS ONE. 13 (5): e0196391. Bibcode:2018PLoSO..1396391L. Дои:10.1371 / journal.pone.0196391. ЧВК  5955500. PMID  29768426.
  13. ^ Ливингстон, Стивен Р .; Руссо, Франк А. (2018). «Эмоция». Аудиовизуальная база данных эмоциональной речи и песни Райерсона (RAVDESS). Дои:10.5281 / zenodo.1188976.
  14. ^ Гргич, Мислав; Делак, Кресимир; Grgic, Соня (2011). «SCface - база данных по лицам камер наблюдения». Мультимедийные инструменты и приложения. 51 (3): 863–879. Дои:10.1007 / s11042-009-0417-2. S2CID  207218990.
  15. ^ Уоллес, Рой и др. "Моделирование межсессионной изменчивости и совместный факторный анализ для аутентификации лиц." Биометрия (IJCB), Международная совместная конференция 2011 г.. IEEE, 2011.
  16. ^ Георгиадес, А. "Йельская база данных лиц". Центр вычислительного зрения и управления Йельского университета, http://CVC.yale.edu/Projects/Yalefaces/Yalefa. 2: 1997. Внешняя ссылка в | журнал = (помощь)
  17. ^ Нгуен, Дай; и другие. (2006). «Обнаружение лиц и выделение губ в реальном времени с использованием программируемых вентильных матриц». Транзакции IEEE по системам, человеку и кибернетике - Часть B: Кибернетика. 36 (4): 902–912. CiteSeerX  10.1.1.156.9848. Дои:10.1109 / tsmcb.2005.862728. PMID  16903373. S2CID  7334355.
  18. ^ Канаде, Такео, Джеффри Ф. Кон и Ингли Тиан. "Обширная база данных для анализа мимики." Автоматическое распознавание лиц и жестов, 2000. Труды. Четвертая международная конференция IEEE по. IEEE, 2000.
  19. ^ Цзэн, Чжихун; и другие. (2009). «Обзор методов распознавания аффектов: аудио, визуальные и спонтанные выражения». IEEE Transactions по анализу шаблонов и машинному анализу. 31 (1): 39–58. CiteSeerX  10.1.1.144.217. Дои:10.1109 / тпами.2008.52. PMID  19029545.
  20. ^ Лайонс, Майкл; Камачи, Миюки; Гёба, Дзиро (1998). «Образы выражения лица». База данных по выражению лица японских женщин (JAFFE). Дои:10.5281 / zenodo.3451524.
  21. ^ Лайонс, Майкл; Акамацу, Сигеру; Камачи, Миюки; Гёба, Дзиро "Кодирование мимики с помощью вейвлетов Габора." Автоматическое распознавание лиц и жестов, 1998. Труды. Третья международная конференция IEEE по. IEEE, 1998.
  22. ^ Нг, Хун-Вэй и Стефан Винклер. "Управляемый данными подход к очистке больших наборов данных лиц." Обработка изображений (ICIP), Международная конференция IEEE 2014 г.. IEEE, 2014 г.
  23. ^ Рой Чоудхури, Аруни; Линь Цун-Ю; Маджи, Субхрансу; Леннед-Миллер, Эрик (2015). «Распознавание лиц« один ко многим »с билинейными CNN». arXiv:1506.01342 [cs.CV ].
  24. ^ Йесорский, Оливер, Клаус Дж. Кирхберг и Роберт В. Фришгольц. «Надежное обнаружение лиц с использованием расстояния Хаусдорфа». Биометрическая аутентификация личности на основе аудио и видео. Springer Berlin Heidelberg, 2001.
  25. ^ Хуанг, Гэри Б. и др. Маркированные лица в дикой природе: база данных для изучения распознавания лиц в неограниченных условиях. Vol. 1. № 2. Технический отчет 07-49, Массачусетский университет, Амхерст, 2007 г.
  26. ^ Бхатт, Раджен Б. и др. "Эффективная сегментация областей кожи с использованием нечеткой модели дерева решений низкой сложности." Конференция в Индии (INDICON), Ежегодный IEEE 2009 г.. IEEE, 2009 г.
  27. ^ Лингала, Муника; и другие. (2014). «Распознавание цвета с помощью нечеткой логики: синие области на изображениях при меланоме, полученных при дерматоскопии». Компьютеризированная медицинская визуализация и графика. 38 (5): 403–410. Дои:10.1016 / j.compmedimag.2014.03.007. ЧВК  4287461. PMID  24786720.
  28. ^ Мэйс, Крис и др. "Обнаружение особенностей на трехмерных поверхностях лица для нормализации позы и распознавания." Биометрия: теоретические приложения и системы (BTAS), Четвертая Международная конференция IEEE 2010 г.. IEEE, 2010 г.
  29. ^ Савран, Арман и др. "База данных Bosphorus для 3D-анализа лица." Биометрия и управление идентификацией. Springer Berlin Heidelberg, 2008. 47–56.
  30. ^ Хезелтин, Томас, Ник Пирс и Джим Остин. "Трехмерное распознавание лиц: подход собственной поверхности." Обработка изображений, 2004. ICIP'04. 2004 Международная конференция по. Vol. 2. IEEE, 2004.
  31. ^ Ге, Юнь; и другие. (2011). «Моделирование образцов лица в 3D-новелле для распознавания лиц». Журнал мультимедиа. 6 (5): 467–475. CiteSeerX  10.1.1.461.9710. Дои:10.4304 / jmm.6.5.467-475.
  32. ^ Ван, Юэмин; Лю, Цзяньчжуан; Тан, Сяоу (2010). «Надежное 3D-распознавание лиц за счет локального увеличения разницы форм». IEEE Transactions по анализу шаблонов и машинному анализу. 32 (10): 1858–1870. CiteSeerX  10.1.1.471.2424. Дои:10.1109 / тпами.2009.200. PMID  20724762. S2CID  15263913.
  33. ^ Чжун, Чэн, Чжэнань Сунь и Тиэню Тан. "Надежное трехмерное распознавание лиц с использованием изученной визуальной кодовой книги." Компьютерное зрение и распознавание образов, 2007. CVPR'07. Конференция IEEE по. IEEE, 2007.
  34. ^ Zhao, G .; Хуанг, X .; Тайни, М .; Li, S. Z .; Пиетикяйнен, М. (2011). «Распознавание лиц по видео в ближнем инфракрасном диапазоне» (PDF). Вычисления изображений и зрения. 29 (9): 607–619. Дои:10.1016 / j.imavis.2011.07.002.
  35. ^ Сойель, Хамит и Хасан Демирель. "Распознавание выражения лица с использованием расстояния между чертами лица в 3D." Анализ и распознавание изображений. Springer Berlin Heidelberg, 2007. 831–838.
  36. ^ Бойер, Кевин В .; Чанг, Кьонг; Флинн, Патрик (2006). «Обзор подходов и проблем в 3D и мультимодальном распознавании лиц 3D + 2D». Компьютерное зрение и понимание изображений. 101 (1): 1–15. CiteSeerX  10.1.1.134.8784. Дои:10.1016 / j.cviu.2005.05.005.
  37. ^ Тан, Сяоянь; Триггс, Билл (2010). «Расширенные наборы функций локальной текстуры для распознавания лиц в сложных условиях освещения». IEEE Transactions по обработке изображений. 19 (6): 1635–1650. Bibcode:2010ITIP ... 19.1635T. CiteSeerX  10.1.1.105.3355. Дои:10.1109 / tip.2010.2042645. PMID  20172829. S2CID  4943234.
  38. ^ Мусави, Мир Хашем, Карим Фаез и Амин Асгари. "Трехмерное распознавание лиц с использованием классификатора SVM." Компьютерные и информационные науки, 2008. ICIS 08. Седьмая Международная конференция IEEE / ACIS по. IEEE, 2008 г.
  39. ^ Амберг, Брайан, Рейнхард Ноте и Томас Веттер. "Распознавание лиц с инвариантным выражением лица с помощью морфируемой модели." Автоматическое распознавание лиц и жестов, 2008. FG'08. 8-я Международная конференция IEEE по. IEEE, 2008 г.
  40. ^ Ирфаноглу М. О., Берк Гёкберк и Лале Акарун. "Распознавание лиц на основе 3D-форм с использованием автоматически регистрируемых поверхностей лица." Распознавание образов, 2004. ICPR 2004. Труды 17-й Международной конференции по. Vol. 4. IEEE, 2004.
  41. ^ Бомье, Шарль; Ахерой, Марк (2001). «Подтверждение лица по 3D и подсказкам уровня серого». Письма с распознаванием образов. 22 (12): 1321–1329. Дои:10.1016 / s0167-8655 (01) 00077-0.
  42. ^ Афифи, Махмуд; Абдельхамед, Абдельрахман (13 июня 2017 г.). «AFIF4: Глубокая гендерная классификация, основанная на слиянии изолированных черт лица и туманных лиц на основе AdaBoost». arXiv:1706.04277 [cs.CV ].
  43. ^ "Набор данных SoF". sites.google.com. Получено 18 ноября 2017.
  44. ^ «IMDB-WIKI». data.vision.ee.ethz.ch. Получено 13 марта 2018.
  45. ^ Патрон-Перес, А .; Маршалек, М .; Reid, I .; Зиссерман, А. (2012). «Структурированное обучение человеческому взаимодействию в телешоу». IEEE Transactions по анализу шаблонов и машинному анализу. 34 (12): 2441–2453. Дои:10.1109 / тпами.2012.24. PMID  23079467. S2CID  6060568.
  46. ^ Офли, Ф., Чаудри, Р., Курилло, Г., Видал, Р., и Байчи, Р. (январь 2013 г.). Berkeley MHAD: комплексная мультимодальная база данных о деятельности человека. In Applications of Computer Vision (WACV), семинар IEEE 2013 г. (стр. 53–60). IEEE.
  47. ^ Цзян, Ю. Г. и др. «Задача THUMOS: распознавание действий с большим количеством классов». Семинар ICCV по распознаванию действий с большим количеством классов, http://crcv.ucf.edu/ICCV13-Action-Workshop. 2013.
  48. ^ Симонян, Карен и Андрей Зиссерман. "Двухпотоковые сверточные сети для распознавания действий в видео." Достижения в системах обработки нейронной информации. 2014.
  49. ^ Стоян Андрей; Ферекату, Марин; Бенуа-Пино, Дженни; Круциану, Мишель (2016). «Быстрая локализация действий в крупномасштабных видеоархивах». Транзакции IEEE по схемам и системам для видеотехнологий. 26 (10): 1917–1930. Дои:10.1109 / TCSVT.2015.2475835. S2CID  31537462.
  50. ^ Кришна, Ранджай; Чжу, Юкэ; Грот, Оливер; Джонсон, Джастин; Хата, Кендзи; Кравиц, Джошуа; Чен, Стефани; Калантидис, Яннис; Ли, Ли-Цзя; Шамма, Дэвид А; Бернштейн, Майкл С; Фэй-Фэй, Ли (2017). "Визуальный геном: соединение языка и зрения с помощью краудсорсинговых аннотаций плотных изображений". Международный журнал компьютерного зрения. 123: 32–73. arXiv:1602.07332. Дои:10.1007 / s11263-016-0981-7. S2CID  4492210.
  51. ^ Караев С. и др. "Набор данных трехмерных объектов уровня категории: как заставить Kinect работать." Материалы Международной конференции IEEE по семинарам по компьютерному зрению. 2011.
  52. ^ Тиге, Иосиф и Светлана Лазебник. "Суперпарсинг: масштабируемый непараметрический анализ изображений с помощью суперпикселей." Компьютерное зрение – ECCV 2010. Springer Berlin Heidelberg, 2010. 352–365.
  53. ^ Arbelaez, P .; Maire, M; Фаулкс, К; Малик, Дж (май 2011 г.). «Обнаружение контуров и иерархическая сегментация изображений» (PDF). IEEE Transactions по анализу шаблонов и машинному анализу. 33 (5): 898–916. Дои:10.1109 / tpami.2010.161. PMID  20733228. S2CID  206764694. Получено 27 февраля 2016.
  54. ^ Линь, Цунг-Йи и др. "Microsoft coco: общие объекты в контексте." Компьютерное зрение – ECCV 2014. Springer International Publishing, 2014. 740–755.
  55. ^ Русаковский, Ольга; и другие. (2015). «Imagenet крупномасштабная задача визуального распознавания». Международный журнал компьютерного зрения. 115 (3): 211–252. arXiv:1409.0575. Дои:10.1007 / s11263-015-0816-у. HDL:1721.1/104944. S2CID  2930547.
  56. ^ Сяо, Цзяньсюн и др. «База данных Sun: Распознавание крупномасштабных сцен от аббатства до зоопарка». Компьютерное зрение и распознавание образов (CVPR), конференция IEEE 2010 г.. IEEE, 2010 г.
  57. ^ Донахью, Джефф; Цзя, Янцин; Виньялс, Ориол; Хоффман, Джуди; Чжан, Нин; Ценг, Эрик; Даррелл, Тревор (2013). «DeCAF: функция глубокой сверточной активации для общего визуального распознавания». arXiv:1310.1531 [cs.CV ].
  58. ^ Дэн, Цзя и др. "Imagenet: крупномасштабная база данных иерархических изображений."Компьютерное зрение и распознавание образов, 2009. CVPR 2009. Конференция IEEE по. IEEE, 2009 г.
  59. ^ а б c Крижевский, Алекс, Илья Суцкевер и Джеффри Э. Хинтон. "Классификация Imagenet с глубокими сверточными нейронными сетями." Достижения в области нейронных систем обработки информации. 2012.
  60. ^ Русаковский, Ольга; Дэн, Цзя; Су, Хао; Краузе, Джонатан; Сатиш, Санджив; и другие. (11 апреля 2015 г.). «Проблема визуального распознавания большого масштаба ImageNet». Международный журнал компьютерного зрения. 115 (3): 211–252. arXiv:1409.0575. Дои:10.1007 / s11263-015-0816-у. HDL:1721.1/104944. S2CID  2930547.
  61. ^ Иван Красин, Том Дуэриг, Нил Аллдрин, Андреас Вейт, Сами Абу-Эль-Хайджа, Серж Белонги, Дэвид Кай, Жеюн Фенг, Витторио Феррари, Виктор Гомеш, Абхинав Гупта, Дхьянеш Нараянан, Чен Сун, Гал Чечик, Кевин Мерфи. "OpenImages: общедоступный набор данных для крупномасштабной классификации изображений с несколькими метками и несколькими классами, 2017 г. Доступно с https://github.com/openimages."
  62. ^ Вяс, Апурв и др. "Обнаружение коммерческих блоков в новостных трансляциях." Труды Индийской конференции 2014 года по графике компьютерного зрения и обработке изображений. ACM, 2014.
  63. ^ Гауптманн, Александр Г. и Майкл Дж. Витброк. "Сегментация сюжета и обнаружение рекламы в трансляционном новостном видео." Исследования и технологические достижения в электронных библиотеках, 1998. ADL 98. Proceedings. Международный форум IEEE по. IEEE, 1998.
  64. ^ Тунг, Энтони К.Х., Синь Сюй и Бэн Чин Оои. "Curler: поиск и визуализация кластеров нелинейной корреляции." Материалы международной конференции ACM SIGMOD 2005 по управлению данными. ACM, 2005.
  65. ^ Джарретт, Кевин и др. "Какая многоступенчатая архитектура для распознавания объектов лучше всего?." Компьютерное зрение, 12-я Международная конференция IEEE 2009 г.. IEEE, 2009 г.
  66. ^ Лазебник, Светлана, Корделия Шмид и Жан Понсе. "Помимо множества функций: сопоставление пространственной пирамиды для распознавания категорий естественных сцен."Компьютерное зрение и распознавание образов, Конференция компьютерного общества IEEE 2006 г.. Vol. 2. IEEE, 2006.
  67. ^ Гриффин, Г., А. Голуб, и П. Перона. Набор данных категории объектов Caltech-256 California Inst. Technol., Tech. Rep. 7694, 2007 [Online]. Имеется в наличии: http://authors.library.caltech.edu/7694, 2007.
  68. ^ Баеза-Йетс, Рикардо и Бертье Рибейро-Нето. Современный информационный поиск. Vol. 463. Нью-Йорк: ACM press, 1999.
  69. ^ Фу, Сипин и др. "NOKMeans: неортогональное хеширование K-средних." Компьютерное зрение — ACCV 2014. Springer International Publishing, 2014. 162–177.
  70. ^ Хейтц, Гереми; и другие. (2009). «Локализация объекта на основе формы для описательной классификации». Международный журнал компьютерного зрения. 84 (1): 40–62. CiteSeerX  10.1.1.142.280. Дои:10.1007 / s11263-009-0228-y. S2CID  646320.
  71. ^ М. Кордтс, М. Омран, С. Рамос, Т. Шарвехтер, М. Энцвейлер, Р. Бененсон, У. Франке, С. Рот и Б. Шиле "Набор данных "Городские пейзажи". »В семинаре CVPR о будущем наборов данных в Vision, 2015 г.
  72. ^ Эверингем, Марк; и другие. (2010). "Задача классов визуальных объектов Паскаля (вокал)". Международный журнал компьютерного зрения. 88 (2): 303–338. Дои:10.1007 / s11263-009-0275-4. S2CID  4246903.
  73. ^ Felzenszwalb, Pedro F .; и другие. (2010). «Обнаружение объектов с помощью детективно обученных моделей на основе деталей». IEEE Transactions по анализу шаблонов и машинному анализу. 32 (9): 1627–1645. CiteSeerX  10.1.1.153.2745. Дои:10.1109 / tpami.2009.167. PMID  20634557. S2CID  3198903.
  74. ^ а б Гонг, Юньчао и Светлана Лазебник. «Итеративное квантование: прокрастов подход к изучению двоичных кодов». Компьютерное зрение и распознавание образов (CVPR), Конференция IEEE 2011 г.. IEEE, 2011.
  75. ^ «Набор данных CINIC-10». Люк Н. Дарлоу, Эллиот Дж. Кроули, Антреас Антониу, Амос Дж. Сторки (2018) CINIC-10 не является ImageNet или CIFAR-10. 9 октября 2018 г.. Получено 13 ноября 2018.
  76. ^ fashion-mnist: База данных модных товаров, подобная MNIST. Тест: point_right, Zalando Research, 7 октября 2017 г., получено 7 октября 2017
  77. ^ "набор данных notMNIST". Машинное обучение и т. Д.. 8 сентября 2011 г.. Получено 13 октября 2017.
  78. ^ Хубен, Себастьян и др. "Обнаружение дорожных знаков на реальных изображениях: немецкий тест на обнаружение дорожных знаков." Нейронные сети (IJCNN), Международная совместная конференция 2013 г.. IEEE, 2013.
  79. ^ Матиас, Майель и др. "Распознавание дорожных знаков - насколько мы далеки от решения?." Нейронные сети (IJCNN), Международная совместная конференция 2013 г.. IEEE, 2013.
  80. ^ Гейгер, Андреас, Филип Ленц и Ракель Уртасун. "Готовы ли мы к автономному вождению? набор тестов Kitti Vision." Компьютерное зрение и распознавание образов (CVPR), Конференция IEEE 2012 г.. IEEE, 2012.
  81. ^ Штурм, Юрген и др. "Тест для оценки систем RGB-D SLAM." Интеллектуальные роботы и системы (IROS), Международная конференция IEEE / RSJ 2012 г.. IEEE, 2012.
  82. ^ Чаладзе, Г., Калатозишвили, Л. (2017).Набор данных Linnaeus 5Chaladze.com. Проверено 13 ноября 2017 г. с http://chaladze.com/l5/
  83. ^ Kragh, Mikkel F .; и другие. (2017). «FieldSAFE - набор данных для обнаружения препятствий в сельском хозяйстве». Датчики. 17 (11): 2579. arXiv:1709.03526. Bibcode:2017arXiv170903526F. Дои:10.3390 / с17112579. ЧВК  5713196. PMID  29120383.
  84. ^ Афифи, Махмуд (12 ноября 2017 г.). «Распознавание пола и биометрическая идентификация с использованием большого набора данных изображений рук». arXiv:1711.04322 [cs.CV ].
  85. ^ Ломонако, Винченцо; Мальтони, Давиде (18 октября 2017 г.). «CORe50: новый набор данных и эталон для непрерывного распознавания объектов». arXiv:1705.03550 [cs.CV ].
  86. ^ Она, Ци; Фэн, Фан; Хао, Синьюэ; Ян, Цихан; Лан, Чуаньлинь; Ломонако, Винченцо; Ши, Сюэсон; Ван, Чжэнвэй; Го, Яо; Чжан, Иминь; Цяо, Фэй; Чан, Роза Х. (15 ноября 2019 г.). «OpenLORIS-Object: набор данных роботизированного зрения и эталон для глубокого обучения на протяжении всей жизни». arXiv:1911.06487v2 [cs.CV ].
  87. ^ Морозов Алексей; Сушкова, Ольга (13 июня 2019). «Набор данных ТГц и тепловизионного видеосигнала». Разработка подхода многоагентного логического программирования к анализу поведения человека в многоканальном видеонаблюдении.. Москва: ИРЭ РАН.. Получено 19 июля 2019.
  88. ^ Морозов, Алексей; Сушкова Ольга; Кершнер, Иван; Полупанов, Александр (9 июля 2019). «Разработка метода интеллектуального видеонаблюдения терагерцового диапазона на основе семантического объединения терагерцовых и 3D видеоизображений» (PDF). CEUR. 2391: paper19. Получено 19 июля 2019.
  89. ^ Ботта М., А. Джордана и Л. Саитта. "Изучение нечетких определений понятий." Нечеткие системы, 1993., Вторая международная конференция IEEE по. IEEE, 1993.
  90. ^ Фрей, Питер В .; Сланец, Дэвид Дж. (1991). «Распознавание букв с помощью адаптивных классификаторов голландского типа». Машинное обучение. 6 (2): 161–182. Дои:10.1007 / bf00114162.
  91. ^ Пелтонен, Яакко; Клами, Арто; Каски, Самуэль (2004). «Улучшенное изучение римановых метрик для исследовательского анализа». Нейронные сети. 17 (8): 1087–1100. CiteSeerX  10.1.1.59.4865. Дои:10.1016 / j.neunet.2004.06.008. PMID  15555853.
  92. ^ а б Лю, Чэн-Линь; Инь, Фэй; Ван, Да-Хан; Ван, Цю-Фэн (январь 2013 г.). «Онлайн и офлайн распознавание рукописных китайских символов: сравнительный анализ в новых базах данных». Распознавание образов. 46 (1): 155–162. Дои:10.1016 / j.patcog.2012.06.021.
  93. ^ Wang, D .; Liu, C .; Yu, J .; Чжоу, X. (2009). «CASIA-OLHWDB1: база данных онлайн-рукописных китайских иероглифов». 2009 10-я Международная конференция по анализу и распознаванию документов: 1206–1210. Дои:10.1109 / ICDAR.2009.163. ISBN  978-1-4244-4500-4. S2CID  5705532.
  94. ^ Уильямс, Бен Х., Марк Туссен и Амос Дж. Сторки. Извлечение примитивов движения из данных естественного почерка. Springer Berlin Heidelberg, 2006 г.
  95. ^ Мейер, Франциска и др. "Сегментация движения с использованием примитивной библиотеки."Интеллектуальные роботы и системы (IROS), Международная конференция IEEE / RSJ 2011 г.. IEEE, 2011.
  96. ^ Т. Э. де Кампос, Б. Р. Бабу и М. Варма. Распознавание символов в естественных изображениях. В Труды Международной конференции по теории и приложениям компьютерного зрения (VISAPP), Лиссабон, Португалия, Февраль 2009 г.
  97. ^ Льоренс, Дэвид и др. "База данных UJIpenchars: база данных изолированных рукописных символов на основе пера." LREC. 2008.
  98. ^ Кальдерара, Симона; Прати, Андреа; Куккьяра, Рита (2011). «Смеси распределений фон Мизеса для анализа формы траектории движения людей». Транзакции IEEE по схемам и системам для видеотехнологий. 21 (4): 457–471. Дои:10.1109 / tcsvt.2011.2125550. S2CID  1427766.
  99. ^ Гийон, Изабель и др. "Анализ результатов задачи выбора функции nips 2003." Достижения в области нейронных систем обработки информации. 2004.
  100. ^ Lake, B. M .; Салахутдинов, Р .; Тененбаум, Дж. Б. (11 декабря 2015 г.). «Изучение концепций на уровне человека посредством индукции вероятностной программы». Наука. 350 (6266): 1332–1338. Bibcode:2015Научный ... 350.1332L. Дои:10.1126 / science.aab3050. ISSN  0036-8075. PMID  26659050.
  101. ^ Озеро, Бренден (9 ноября 2019 г.), Набор данных Omniglot для однократного обучения, получено 10 ноября 2019
  102. ^ ЛеКун, Янн; и другие. (1998). «Градиентное обучение применительно к распознаванию документов». Труды IEEE. 86 (11): 2278–2324. CiteSeerX  10.1.1.32.9552. Дои:10.1109/5.726791.
  103. ^ Куссул, Эрнст; Байдык, Татьяна (2004). «Улучшенный метод распознавания рукописных цифр протестирован в базе данных MNIST». Вычисления изображений и зрения. 22 (12): 971–981. Дои:10.1016 / j.imavis.2004.03.008.
  104. ^ Сюй, Лэй; Krzyżak, Адам; Суен, Чинг Ю. (1992). «Методы объединения нескольких классификаторов и их приложения для распознавания почерка». IEEE Transactions по системам, человеку и кибернетике. 22 (3): 418–435. Дои:10.1109/21.155943. HDL:10338.dmlcz / 135217.
  105. ^ Алимоглу, Февзи и др. "Комбинирование нескольких классификаторов для распознавания рукописных цифр на основе пера." (1996).
  106. ^ Тан, Э. Кэ; и другие. (2005). «Уменьшение линейной размерности с использованием LDA, взвешенного по релевантности». Распознавание образов. 38 (4): 485–493. Дои:10.1016 / j.patcog.2004.09.005.
  107. ^ Хонг, Йи и др. "Изучение смеси разреженных метрик расстояния для классификации и уменьшения размерности." Компьютерное зрение (ICCV), Международная конференция IEEE 2011 г.. IEEE, 2011.
  108. ^ Тома, Мартин (2017). «Набор данных HASYv2». arXiv:1701.08380 [cs.CV ].
  109. ^ Карки, Манохар; Лю, Цюнь; ДиБиано, Роберт; Басу, Сайкат; Мухопадхьяй, Супратик (20 июня 2018 г.). «Реконструкция на уровне пикселей и классификация шумных рукописных символов Bangla». arXiv:1806.08037 [cs.CV ].
  110. ^ Лю, Цюнь; Кольер, Эдвард; Mukhopadhyay, Supratik (2019), «PCGAN-CHAR: Постепенно обучаемые сети, генерирующие состязательные сети классификатора для классификации зашумленных рукописных символов Bangla», Электронные библиотеки на перекрестке цифровой информации будущего, Springer International Publishing, стр. 3–15, arXiv:1908.08987, Дои:10.1007/978-3-030-34058-2_1, ISBN  978-3-030-34057-5, S2CID  201665955
  111. ^ Юань, Цзянге; Глисон, Шон С .; Чериядат, Анил М. (2013). «Систематический сравнительный анализ сегментации аэрофотоснимков». Письма IEEE по геонаукам и дистанционному зондированию. 10 (6): 1527–1531. Bibcode:2013IGRSL..10.1527Y. Дои:10.1109 / lgrs.2013.2261453. S2CID  629629.
  112. ^ Ватсавай, Ранга Раджу. "Классификация изображений на основе объектов: современное состояние и вычислительные задачи." Материалы 2-го международного семинара ACM SIGSPATIAL по аналитике больших геопространственных данных. ACM, 2013.
  113. ^ Бутенут, Маттиас и др. "Интеграция моделирования пешеходов, отслеживания и обнаружения событий для анализа толпы." Семинары по компьютерному зрению (ICCV Workshops), Международная конференция IEEE 2011 г.. IEEE, 2011.
  114. ^ Фради, Хаджер и Жан-Люк Дюжеле. "Низкоуровневый анализ толпы с использованием функции нормализации по кадрам для подсчета людей." Информационная криминалистика и безопасность (WIFS), Международный семинар IEEE 2012 г.. IEEE, 2012.
  115. ^ Джонсон, Брайан Алан, Рютаро Татейши и Нгуен Тхань Хоан. "Гибридный подход с усилением резкости и многомасштабный объектно-ориентированный анализ изображений для картирования больных сосен и дубов.." Международный журнал дистанционного зондирования34.20 (2013): 6969–6982.
  116. ^ Мохд Пози, Мухаммад Сяфик; Сулейман, штат Мэриленд Насир; Мустафа, Норвати; Перумал, Тинагаран (2015). «Новая модель классификации для несбалансированного набора данных по классам с использованием генетического программирования и вспомогательных векторных машин: тематическое исследование для классификации болезней увядания». Письма о дистанционном зондировании. 6 (7): 568–577. Дои:10.1080 / 2150704X.2015.1062159. S2CID  58788630.
  117. ^ Gallego, A.-J .; Pertusa, A .; Гил П. "Автоматическая классификация судов по оптическим аэрофотоснимкам с помощью сверточных нейронных сетей." Дистанционное зондирование. 2018; 10(4):511.
  118. ^ Gallego, A.-J .; Pertusa, A .; Гил, П. "Набор данных MAritime SATellite Imagery" [Интернет]. Имеется в наличии: https://www.iuii.ua.es/datasets/masati/, 2018.
  119. ^ Джонсон, Брайан; Татейши, Рютаро; Се, Чжисяо (2012). «Использование географически взвешенных переменных для классификации изображений». Письма о дистанционном зондировании. 3 (6): 491–499. Дои:10.1080/01431161.2011.629637. S2CID  122543681.
  120. ^ Чаттерджи, Санкхадип и др. "Классификация типов леса: гибридный подход на основе модели NN-GA." Дизайн информационных систем и интеллектуальные приложения. Springer India, 2016. 227–236.
  121. ^ Дигерт, Карл. "Комбинаторный метод трассировки объектов с использованием семантики их формы.." Практикум по распознаванию образов прикладных изображений (AIPR), 2010 г., IEEE 39. IEEE, 2010 г.
  122. ^ Разакаривони, Себастьян и Фредерик Жюри. "Обнаружение малых целей, сочетающее передний и задний планы." Международная конференция IAPR по приложениям машинного зрения. 2013.
  123. ^ «СпейсНет». explore.digitalglobe.com. Получено 13 марта 2018.
  124. ^ Эттен, Адам Ван (5 января 2017 г.). «Начало работы с данными SpaceNet». The DownLinQ. Получено 13 марта 2018.
  125. ^ Vakalopoulou, M .; Автобус, N .; Karantzalosa, K .; Парагиос, Н. (июль 2017 г.). Интеграция априорных значений границ / границ с оценками классификации для обнаружения зданий в данных с очень высоким разрешением. 2017 Международный симпозиум IEEE по геонаукам и дистанционному зондированию (IGARSS). С. 3309–3312. Дои:10.1109 / IGARSS.2017.8127705. ISBN  978-1-5090-4951-6. S2CID  8297433.
  126. ^ Ян, Йи; Ньюсэм, Шон (2010). Пакет визуальных слов и пространственные расширения для классификации землепользования. Материалы 18-й Международной конференции SIGSPATIAL по достижениям в географических информационных системах - ГИС '10. Нью-Йорк, Нью-Йорк, США: ACM Press. Дои:10.1145/1869790.1869829. ISBN  9781450304283. S2CID  993769.
  127. ^ а б Басу, Сайкат; Гангули, Санграм; Мухопадхьяй, Супратик; ДиБиано, Роберт; Карки, Манохар; Немани, Рамакришна (3 ноября 2015 г.). DeepSat: обучающая платформа для спутниковых снимков. ACM. п. 37. Дои:10.1145/2820783.2820816. ISBN  9781450339674. S2CID  4387134.
  128. ^ а б Лю, Цюнь; Басу, Сайкат; Гангули, Санграм; Мухопадхьяй, Супратик; ДиБиано, Роберт; Карки, Манохар; Немани, Рамакришна (21 ноября 2019 г.). «DeepSat V2: функция дополненных сверточных нейронных сетей для классификации спутниковых изображений». Письма о дистанционном зондировании. 11 (2): 156–165. arXiv:1911.07747. Дои:10.1080 / 2150704x.2019.1693071. ISSN  2150-704X. S2CID  208138097.
  129. ^ Миллс, Кайл; Тэмблин, Исаак (16 мая 2018 г.), Большой набор данных графена, Национальный исследовательский совет Канады, Дои:10.4224 / c8sc04578j.data
  130. ^ Миллс, Кайл; Шпаннер, Майкл; Тэмблин, Исаак (16 мая 2018 г.). «Квантовое моделирование». Квантовое моделирование электрона в двумерной потенциальной яме. Национальный исследовательский совет Канады. Дои:10.4224 / PhysRevA.96.042113.data.
  131. ^ Rohrbach, M .; Amin, S .; Андрилука, М .; Шиле, Б. (2012). База данных для детального определения активности кулинарии. IEEE. Дои:10.1109 / cvpr.2012.6247801. ISBN  978-1-4673-1228-8.
  132. ^ Кюне, Хильде, Али Арслан и Томас Серр. "Язык действий: восстановление синтаксиса и семантики целенаправленной человеческой деятельности.."Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2014.
  133. ^ Святослав, Волошиновский и др. "На пути к воспроизводимым результатам аутентификации на основе физических неклонируемых функций: оптический набор микроструктуры судебной аутентификации (FAMOS). "Proc. Материалы международного семинара IEEE по криминалистике и безопасности информации. 2012.
  134. ^ Ольга, Таран и Шидех, Резаифар и др. "PharmaPack: мобильное детальное распознавание фармацевтических пакетов."Proc. Европейская конференция по обработке сигналов (EUSIPCO). 2017.
  135. ^ Хосла, Адитья и др. "Новый набор данных для детальной категоризации изображений: собаки Стэнфордского университета."Proc. CVPR Семинар по детальной визуальной категоризации (FGVC). 2011.
  136. ^ а б Пархи, Омкар М. и др. "Кошки и собаки."Компьютерное зрение и распознавание образов (CVPR), Конференция IEEE 2012 г.. IEEE, 2012.
  137. ^ Биггс, Бенджамин и др. "Кто оставил собак? Трехмерная реконструкция животных с максимизацией ожидания в цикле.."Proc. ECCV. 2020.
  138. ^ а б Разавиан, Али и др. "Готовые возможности CNN: потрясающая база для признания." Материалы конференции IEEE по компьютерному зрению и семинарам по распознаванию образов. 2014.
  139. ^ Ортега, Майкл; и другие. (1998). «Поддержка ранжированных логических запросов подобия в MARS». IEEE Transactions по разработке знаний и данных. 10 (6): 905–925. CiteSeerX  10.1.1.36.6079. Дои:10.1109/69.738357.
  140. ^ Он, Сюмин, Ричард С. Земель и Мигель А. Каррейра-Перпиньян. "Мультимасштабные условные случайные поля для маркировки изображений." Компьютерное зрение и распознавание образов, 2004 г. CVPR 2004 г. Материалы конференции компьютерного сообщества IEEE 2004 г.. Vol. 2. IEEE, 2004.
  141. ^ Денеке, Теодрос и др. "Прогнозирование времени перекодирования видео для упреждающей балансировки нагрузки. »Мультимедиа и выставка (ICME), 2014 Международная конференция IEEE по. IEEE, 2014.
  142. ^ Тинг-Хао (Кеннет) Хуанг, Фрэнсис Ферраро, Насрин Мостафазаде, Ишан Мисра, Айшвария Агравал, Джейкоб Девлин, Росс Гиршик, Сяодун Хе, Пушмит Кохли, Дхрув Батра, К. Лоуренс Зитник, Деви Парикх, Люси Вандервенде, Мишель Галлей, Мишель Галлей Митчелл (13 апреля 2016 г.). «Визуальное повествование». arXiv:1604.03968 [cs.CL ].CS1 maint: несколько имен: список авторов (связь)
  143. ^ Вау, Кэтрин и др. "Набор данных caltech-ucsd birds-200-2011." (2011).
  144. ^ Дуан, Кун и др. "Обнаружение локализованных атрибутов для детального распознавания." Компьютерное зрение и распознавание образов (CVPR), Конференция IEEE 2012 г.. IEEE, 2012.
  145. ^ "Набор данных YouTube-8M". research.google.com. Получено 1 октября 2016.
  146. ^ Абу-эль-Хайджа, саамы; Котари, Нисарг; Ли, Джунсок; Нацев, Павел; Тодеричи, Джордж; Варадараджан, Балакришнан; Виджаянарасимхан, Судхендра (27 сентября 2016 г.). «YouTube-8M: эталон крупномасштабной классификации видео». arXiv:1609.08675 [cs.CV ].
  147. ^ "Набор данных YFCC100M". mmcommons.org. Yahoo-ICSI-LLNL. Получено 1 июня 2017.
  148. ^ Барт Томи; Дэвид А Шамма; Джеральд Фридланд; Бенджамин Элизальде; Карл Ни; Дуглас Польша; Дамиан Борт; Ли-Цзя Ли (25 апреля 2016 г.). «Yfcc100m: новые данные в мультимедийных исследованиях». Коммуникации ACM. 59 (2): 64–73. arXiv:1503.01817. Дои:10.1145/2812802. S2CID  207230134.
  149. ^ Ю. Бавей, Э. Делландреа, К. Шамарет и Л. Чен "LIRIS-ACCEDE: база данных видео для анализа аффективного контента, "в IEEE Transactions on Affective Computing, 2015 г.
  150. ^ Ю. Бавей, Э. Делландреа, К. Шамарет и Л. Чен "Глубокое обучение и методы ядра: производительность для прогнозирования эмоций в видео, "в 2015 г. Конференция ассоциации Humaine по эффективным вычислениям и интеллектуальному взаимодействию (ACII), 2015 г.
  151. ^ M. Sjöberg, Y. Baveye, H. Wang, V. L. Quang, B. Ionescu, E. Dellandréa, M. Schedl, C.-H. Демарти и Л. Чен "Средневековый 2015 аффективное влияние кинозадачи, "в MediaEval 2015 Workshop, 2015.
  152. ^ S. Johnson and M. Everingham, "Clustered Pose and Nonlinear Appearance Models for Human Pose Estimation ", in Proceedings of the 21st British Machine Vision Conference (BMVC2010)
  153. ^ S. Johnson and M. Everingham, "Learning Effective Human Pose Estimation from Inaccurate Annotation ", In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR2011)
  154. ^ Afifi, Mahmoud; Hussain, Khaled F. (2 November 2017). "The Achievement of Higher Flexibility in Multiple Choice-based Tests Using Image Classification Techniques". arXiv:1711.00972 [cs.CV ].
  155. ^ "MCQ Dataset". sites.google.com. Получено 18 ноября 2017.
  156. ^ Taj-Eddin, I. A. T. F.; Afifi, M.; Korashy, M.; Hamdy, D.; Nasser, M.; Derbaz, S. (July 2016). A new compression technique for surveillance videos: Evaluation using new dataset. 2016 Sixth International Conference on Digital Information and Communication Technology and Its Applications (DICTAP). С. 159–164. Дои:10.1109/DICTAP.2016.7544020. ISBN  978-1-4673-9609-7. S2CID  8698850.
  157. ^ Tabak, Michael A.; Norouzzadeh, Mohammad S.; Wolfson, David W.; Sweeney, Steven J.; Vercauteren, Kurt C.; Snow, Nathan P.; Halseth, Joseph M.; Di Salvo, Paul A.; Lewis, Jesse S.; White, Michael D.; Teton, Ben; Бизли, Джеймс С.; Schlichting, Peter E.; Boughton, Raoul K.; Wight, Bethany; Newkirk, Eric S.; Ivan, Jacob S.; Odell, Eric A.; Brook, Ryan K.; Lukacs, Paul M.; Moeller, Anna K.; Mandeville, Elizabeth G.; Clune, Jeff; Miller, Ryan S.; Photopoulou, Theoni (2018). "Machine learning to classify animal species in camera trap images: Applications in ecology". Methods in Ecology and Evolution. 10 (4): 585–590. Дои:10.1111/2041-210X.13120. ISSN  2041-210X.
  158. ^ Taj-Eddin, Islam A. T. F.; Afifi, Mahmoud; Korashy, Mostafa; Ahmed, Ali H.; Ng, Yoke Cheng; Hernandez, Evelyng; Abdel-Latif, Salma M. (November 2017). "Can we see photosynthesis? Magnifying the tiny color changes of plant green leaves using Eulerian video magnification". Журнал электронного изображения. 26 (6): 060501. arXiv:1706.03867. Bibcode:2017JEI....26f0501T. Дои:10.1117/1.jei.26.6.060501. ISSN  1017-9909. S2CID  12367169.
  159. ^ McAuley, Julian, et al. "Image-based recommendations on styles and substitutes." Proceedings of the 38th international ACM SIGIR conference on Research and development in information retrieval. ACM, 2015
  160. ^ Ganesan, Kavita; Zhai, Chengxiang (2012). "Opinion-based entity ranking". Поиск информации. 15 (2): 116–150. Дои:10.1007/s10791-011-9174-8. HDL:2142/15252. S2CID  16258727.
  161. ^ Lv, Yuanhua, Dimitrios Lymberopoulos, and Qiang Wu. "An exploration of ranking heuristics in mobile local search." Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval. ACM, 2012.
  162. ^ Harper, F. Maxwell; Konstan, Joseph A. (2015). "The MovieLens Datasets: History and Context". Транзакции ACM в интерактивных интеллектуальных системах. 5 (4): 19. Дои:10.1145/2827872. S2CID  16619709.
  163. ^ Koenigstein, Noam, Gideon Dror, and Yehuda Koren. "Yahoo! music recommendations: modeling music ratings with temporal dynamics and item taxonomy." Proceedings of the fifth ACM conference on Recommender systems. ACM, 2011.
  164. ^ McFee, Brian, et al. "The million song dataset challenge." Proceedings of the 21st international conference companion on World Wide Web. ACM, 2012.
  165. ^ Bohanec, Marko, and Vladislav Rajkovic. "Knowledge acquisition and explanation for multi-attribute decision making." 8th Intl Workshop on Expert Systems and their Applications. 1988.
  166. ^ Tan, Peter J., and David L. Dowe. "MML inference of decision graphs with multi-way joins." Australian Joint Conference on Artificial Intelligence. 2002.
  167. ^ "Quantifying comedy on YouTube: why the number of o's in your LOL matter". Metatext NLP Database. Получено 26 октября 2020.
  168. ^ Kim, Byung Joo (2012). "A Classifier for Big Data". Convergence and Hybrid Information Technology. Коммуникации в компьютерных и информационных науках. 310. pp. 505–512. Дои:10.1007/978-3-642-32692-9_63. ISBN  978-3-642-32691-2.
  169. ^ Pérezgonzález, Jose D.; Gilbey, Andrew (2011). "Predicting Skytrax airport rankings from customer reviews". Journal of Airport Management. 5 (4): 335–339.
  170. ^ Loh, Wei-Yin, and Yu-Shan Shih. "Split selection methods for classification trees." Statistica sinica(1997): 815–840.
  171. ^ Lim, Tjen-Sien; Loh, Wei-Yin; Shih, Yu-Shan (2000). "A comparison of prediction accuracy, complexity, and training time of thirty-three old and new classification algorithms". Машинное обучение. 40 (3): 203–228. Дои:10.1023/a:1007608224229. S2CID  17030953.
  172. ^ Kiet Van Nguyen, Vu Duc Nguyen, Phu X. V. Nguyen, Tham T. H. Truong, Ngan Luu-Thuy Nguyen. "UIT-VSFC: Vietnamese Students’ Feedback Corpus for Sentiment Analysis }}
  173. ^ Vong Anh Ho, Duong Huynh-Cong Nguyen, Danh Hoang Nguyen, Linh Thi-Van Pham, Duc-Vu Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen. "Emotion Recognition for Vietnamese Social Media Text }}
  174. ^ Dermouche, Mohamed; Velcin, Julien; Khouas, Leila; Loudcher, Sabine (2014). A Joint Model for Topic-Sentiment Evolution over Time. IEEE. Дои:10.1109/icdm.2014.82. ISBN  978-1-4799-4302-9.
  175. ^ Rose, Tony; Stevenson, Mark; Whitehead, Miles (2002). "The Reuters Corpus Volume 1-from Yesterday's News to Tomorrow's Language Resources" (PDF). LREC. 2. S2CID  9239414.
  176. ^ Amini, Massih R.; Usunier, Nicolas; Goutte, Cyril (2009). "Learning from Multiple Partially Observed Views - an Application to Multilingual Text Categorization". Достижения в системах обработки нейронной информации: 28–36.
  177. ^ Liu, Ming; и другие. (2015). "VRCA: a clustering algorithm for massive amount of texts". Материалы 24-й Международной конференции по искусственному интеллекту. AAAI Press.
  178. ^ Al-Harbi, S; Almuhareb, A; Al-Thubaity, A; Khorsheed, M. S.; Al-Rajeh, A (2008). "Automatic Arabic Text Classification". Proceedings of the 9th International Conference on the Statistical Analysis of Textual Data, Lyon, France.
  179. ^ "Relationship and Entity Extraction Evaluation Dataset: Dstl/re3d". 17 December 2018.
  180. ^ "The Examiner - SpamClickBait Catalogue".
  181. ^ "A Million News Headlines".
  182. ^ "One Week of Global News Feeds".
  183. ^ Kulkarni, Rohit (2018), Reuters News-Wire Archive, Harvard Dataverse, Дои:10.7910/DVN/XDB74W
  184. ^ "IrishTimes - the Waxy-Wany News".
  185. ^ "News Headlines Dataset For Sarcasm Detection". kaggle.com. Получено 27 апреля 2019.
  186. ^ Klimt, Bryan, and Yiming Yang. "Introducing the Enron Corpus." CEAS. 2004.
  187. ^ Kossinets, Gueorgi, Jon Kleinberg, and Duncan Watts. "The structure of information pathways in a social communication network." Материалы 14-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных. ACM, 2008.
  188. ^ Андроутсопулос, Ион; Koutsias, John; Chandrinos, Konstantinos V.; Paliouras, George; Spyropoulos, Constantine D. (2000). "An evaluation of Naive Bayesian anti-spam filtering". In Potamias, G.; Moustakis, V.; van Someren, M. (eds.). Proceedings of the Workshop on Machine Learning in the New Information Age. 11th European Conference on Machine Learning, Barcelona, Spain. 11. С. 9–17. arXiv:cs/0006013. Bibcode:2000cs........6013A.
  189. ^ Bratko, Andrej; и другие. (2006). "Spam filtering using statistical data compression models" (PDF). Журнал исследований в области машинного обучения. 7: 2673–2698.
  190. ^ Almeida, Tiago A., José María G. Hidalgo, and Akebo Yamakami. "Contributions to the study of SMS spam filtering: new collection and results."Proceedings of the 11th ACM symposium on Document engineering. ACM, 2011.
  191. ^ Delany; Jane, Sarah; Buckley, Mark; Greene, Derek (2012). "SMS spam filtering: methods and data". Экспертные системы с приложениями. 39 (10): 9899–9908. Дои:10.1016/j.eswa.2012.02.053.
  192. ^ Joachims, Thorsten. A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization. No. CMU-CS-96-118. Carnegie-mellon univ pittsburgh pa dept of computer science, 1996.
  193. ^ Dimitrakakis, Christos, and Samy Bengio. Online Policy Adaptation for Ensemble Algorithms. No. EPFL-REPORT-82788. IDIAP, 2002.
  194. ^ Dooms, S. et al. "Movietweetings: a movie rating dataset collected from twitter, 2013. Available from https://github.com/sidooms/MovieTweetings."
  195. ^ RoyChowdhury, Aruni; Lin, Tsung-Yu; Maji, Subhransu; Learned-Miller, Erik (2017). "Twitter100k: A Real-world Dataset for Weakly Supervised Cross-Media Retrieval". arXiv:1703.06618 [cs.CV ].
  196. ^ "huyt16/Twitter100k". GitHub. Получено 26 марта 2018.
  197. ^ Go, Alec; Bhayani, Richa; Huang, Lei (2009). "Twitter sentiment classification using distant supervision". CS224N Project Report, Stanford. 1: 12.
  198. ^ Chikersal, Prerna, Soujanya Poria, and Erik Cambria. "SeNTU: sentiment analysis of tweets by combining a rule-based classifier with supervised learning." Proceedings of the International Workshop on Semantic Evaluation, SemEval. 2015.
  199. ^ Zafarani, Reza, and Huan Liu. "Social computing data repository at ASU." School of Computing, Informatics and Decision Systems Engineering, Arizona State University (2009).
  200. ^ Bisgin, Halil, Nitin Agarwal, and Xiaowei Xu. "Investigating homophily in online social networks." Web Intelligence and Intelligent Agent Technology (WI-IAT), 2010 IEEE/WIC/ACM International Conference on. Vol. 1. IEEE, 2010.
  201. ^ McAuley, Julian J.; Leskovec, Jure. "Learning to Discover Social Circles in Ego Networks". NIPS. 2012: 2012.
  202. ^ Šubelj, Lovro; Fiala, Dalibor; Bajec, Marko (2014). "Network-based statistical comparison of citation topology of bibliographic databases". Научные отчеты. 4 (6496): 6496. arXiv:1502.05061. Bibcode:2014NatSR...4E6496S. Дои:10.1038/srep06496. ЧВК  4178292. PMID  25263231.
  203. ^ Abdulla, N., et al. "Arabic sentiment analysis: Corpus-based and lexicon-based." Proceedings of the IEEE conference on Applied Electrical Engineering and Computing Technologies (AEECT). 2013.
  204. ^ Abooraig, Raddad, et al. "On the automatic categorization of Arabic articles based on their political orientation." Third International Conference on Informatics Engineering and Information Science (ICIEIS2014). 2014.
  205. ^ Kawala, François, et al. "Prédictions d'activité dans les réseaux sociaux en ligne." 4ième conférence sur les modèles et l'analyse des réseaux: Approches mathématiques et informatiques. 2013.
  206. ^ Сабхарвал, Ашиш; Samulowitz, Horst; Tesauro, Gerald (2015). "Selecting Near-Optimal Learners via Incremental Data Allocation". arXiv:1601.00024 [cs.LG ].
  207. ^ Xu et al. "SemEval-2015 Task 1: Paraphrase and Semantic Similarity in Twitter (PIT) " Proceedings of the 9th International Workshop on Semantic Evaluation. 2015.
  208. ^ Xu et al. "Extracting Lexically Divergent Paraphrases from Twitter " Transactions of the Association for Computational (TACL). 2014.
  209. ^ Middleton, Stuart E; Middleton, Lee; Modafferi, Stefano (2014). "Real-Time Crisis Mapping of Natural Disasters Using Social Media" (PDF). Интеллектуальные системы IEEE. 29 (2): 9–17. Дои:10.1109/MIS.2013.126. S2CID  15139204.
  210. ^ "geoparsepy". 2016. Python PyPI library
  211. ^ Forsyth, E., Lin, J., & Martell, C. (2008, June 25). The NPS Chat Corpus. Извлекаются из http://faculty.nps.edu/cmartell/NPSChat.htm
  212. ^ Alessandro Sordoni, Michel Galley, Michael Auli, Chris Brockett, Yangfeng Ji, Meg Mitchell, Jian-Yun Nie, Jianfeng Gao, and Bill Dolan, A Neural Network Approach to Context-Sensitive Generation of Conversational Responses, Conference of the North American Chapter of the Association for Computational Linguistics – Human Language Technologies (NAACL-HLT 2015), June 2015.
  213. ^ Shaoul, C. & Westbury C. (2013) A reduced redundancy USENET corpus (2005-2011) Edmonton, AB: University of Alberta (downloaded from http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus.download.html )
  214. ^ KAN, M. (2011, January). NUS Short Message Service (SMS) Corpus. Извлекаются из http://www.comp.nus.edu.sg/entrepreneurship/innovation/osr/corpus/
  215. ^ Stuck_In_the_Matrix. (2015, July 3). I have every publicly available Reddit comment for research. ~ 1.7 billion comments @ 250 GB compressed. Any interest in this? [Original post]. Сообщение отправлено в https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/
  216. ^ Ryan Lowe, Nissan Pow, Iulian V. Serban and Joelle Pineau, "The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructure Multi-Turn Dialogue Systems ", SIGDial 2015.
  217. ^ K. Kowsari, D. E. Brown, M. Heidarysafa, K. Jafari Meimandi, M. S. Gerber and L. E. Barnes, "HDLTex: Hierarchical Deep Learning for Text Classification", 2017 16th IEEE International Conference on Machine Learning and Applications (ICMLA), pp. 364-371. doi: 10.1109/ICMLA.2017.0-134
  218. ^ K. Kowsari, D. E. Brown, M. Heidarysafa, K. Jafari Meimandi, M. S. Gerber and L. E. Barnes, "Web of Science Dataset", Дои:10.17632/9rw3vkcfy4.6
  219. ^ Galgani, Filippo, Paul Compton, and Achim Hoffmann. "Combining different summarization techniques for legal text." Proceedings of the Workshop on Innovative Hybrid Approaches to the Processing of Textual Data. Association for Computational Linguistics, 2012.
  220. ^ Nagwani, N. K. (2015). "Summarizing large text collection using topic modeling and clustering based on MapReduce framework". Журнал больших данных. 2 (1): 1–18. Дои:10.1186/s40537-015-0020-5.
  221. ^ Schler, Jonathan; и другие. (2006). "Effects of Age and Gender on Blogging" (PDF). AAAI Spring Symposium: Computational Approaches to Analyzing Weblogs. 6.
  222. ^ Anand, Pranav, et al. "Believe Me-We Can Do This! Annotating Persuasive Acts in Blog Text."Computational Models of Natural Argument. 2011.
  223. ^ Traud, Amanda L., Peter J. Mucha, and Mason A. Porter. "Social structure of Facebook networks." Physica A: Статистическая механика и ее приложения391.16 (2012): 4165–4180.
  224. ^ Richard, Emile; Savalle, Pierre-Andre; Vayatis, Nicolas (2012). "Estimation of Simultaneously Sparse and Low Rank Matrices". arXiv:1206.6474 [cs.DS ].
  225. ^ Ричардсон, Мэтью; Burges, Christopher JC; Renshaw, Erin (2013). "MCTest: A Challenge Dataset for the Open-Domain Machine Comprehension of Text". EMNLP. 1.
  226. ^ Уэстон, Джейсон; Бордес, Антуан; Чопра, Сумит; Rush, Alexander M.; Bart van Merriënboer; Joulin, Armand; Mikolov, Tomas (2015). "Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks". arXiv:1502.05698 [cs.AI ].
  227. ^ Marcus, Mitchell P.; Ann Marcinkiewicz, Mary; Santorini, Beatrice (1993). "Building a large annotated corpus of English: The Penn Treebank". Компьютерная лингвистика. 19 (2): 313–330.
  228. ^ Collins, Michael (2003). "Head-driven statistical models for natural language parsing". Компьютерная лингвистика. 29 (4): 589–637. Дои:10.1162/089120103322753356.
  229. ^ Guyon, Isabelle, et al., eds. Feature extraction: foundations and applications. Vol. 207. Springer, 2008.
  230. ^ Lin, Yuri, et al. "Syntactic annotations for the google books ngram corpus." Proceedings of the ACL 2012 system demonstrations. Association for Computational Linguistics, 2012.
  231. ^ Krishnamoorthy, Niveda; и другие. (2013). "Generating Natural-Language Video Descriptions Using Text-Mined Knowledge". AAAI. 1.
  232. ^ Luyckx, Kim, and Walter Daelemans. "Personae: a Corpus for Author and Personality Prediction from Text." LREC. 2008.
  233. ^ Solorio, Thamar, Ragib Hasan, and Mainul Mizan. "A case study of sockpuppet detection in wikipedia." Workshop on Language Analysis in Social Media (LASM) at NAACL HLT. 2013.
  234. ^ Ciarelli, Patrick Marques, and Elias Oliveira. "Agglomeration and elimination of terms for dimensionality reduction." Intelligent Systems Design and Applications, 2009. ISDA'09. Ninth International Conference on. IEEE, 2009 г.
  235. ^ Zhou, Mingyuan, Oscar Hernan Madrid Padilla, and James G. Scott. "Priors for random count matrices derived from a family of negative binomial processes." Журнал Американской статистической ассоциации just-accepted (2015): 00–00.
  236. ^ Kotzias, Dimitrios, et al. "From group to individual labels using deep features." Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2015.
  237. ^ Ning, Yue; Muthiah, Sathappan; Rangwala, Huzefa; Ramakrishnan, Naren (2016). "Modeling Precursors for Event Forecasting via Nested Multi-Instance Learning". arXiv:1602.08033 [cs.SI ].
  238. ^ Buza, Krisztian. "Feedback prediction for blogs."Data analysis, machine learning and knowledge discovery. Springer International Publishing, 2014. 145–152.
  239. ^ Soysal, Ömer M (2015). "Association rule mining with mostly associated sequential patterns". Экспертные системы с приложениями. 42 (5): 2582–2592. Дои:10.1016/j.eswa.2014.10.049.
  240. ^ Bowman, Samuel, et al. "A large annotated corpus for learning natural language inference." Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP). ACL, 2015.
  241. ^ "DSL Corpus Collection". ttg.uni-saarland.de. Получено 22 сентября 2017.
  242. ^ "Urban Dictionary Words and Definitions".
  243. ^ H. Elsahar, P. Vougiouklis, A. Remaci, C. Gravier, J. Hare, F. Laforest, E. Simperl, "T-REx: A Large Scale Alignment of Natural Language with Knowledge Base Triples ", Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC-2018).
  244. ^ Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., & Bowman, S. R. (2018). Glue: A multi-task benchmark and analysis platform for natural language understanding. arXiv preprint arXiv:1804.07461.
  245. ^ "Computers Are Learning to Read—But They're Still Not So Smart". Проводной. Получено 29 декабря 2019.
  246. ^ Quan, Hoang Lam; Quang, Duy Le; Van Kiet, Nguyen; Ngan, Luu-Thuy Nguyen. "UIT-ViIC: A Dataset for the First Evaluation on Vietnamese Image Captioning".
  247. ^ To, Quoc Huy; Nguyen, Van Kiet; Nguyen, Luu Thuy Ngan; Nguyen, Gia Tuan Anh. "Gender Prediction Based on Vietnamese Names with Machine Learning Techniques" (PDF).
  248. ^ M. Versteegh, R. Thiollière, T. Schatz, X.-N. Cao, X. Anguera, A. Jansen, and E. Dupoux (2015). "The Zero Resource Speech Challenge 2015," in INTERSPEECH-2015.
  249. ^ M. Versteegh, X. Anguera, A. Jansen, and E. Dupoux, (2016). "The Zero Resource Speech Challenge 2015: Proposed Approaches and Results," in SLTU-2016.
  250. ^ Sakar, Betul Erdogdu; и другие. (2013). "Collection and analysis of a Parkinson speech dataset with multiple types of sound recordings". Журнал IEEE по биомедицинской и медицинской информатике. 17 (4): 828–834. Дои:10.1109/jbhi.2013.2245674. PMID  25055311. S2CID  15491516.
  251. ^ Zhao, Shunan, et al. "Automatic detection of expressed emotion in Parkinson's disease." Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014.
  252. ^ Used in: Hammami, Nacereddine, and Mouldi Bedda. "Improved tree model for Arabic speech recognition." Computer Science and Information Technology (ICCSIT), 2010 3rd IEEE International Conference on. Vol. 5. IEEE, 2010.
  253. ^ Maaten, Laurens. "Learning discriminative fisher kernels." Proceedings of the 28th International Conference on Machine Learning (ICML-11). 2011.
  254. ^ Cole, Ronald, and Mark Fanty. "Spoken letter recognition." Proc. Third DARPA Speech and Natural Language Workshop. 1990.
  255. ^ Chapelle, Olivier; Sindhwani, Vikas; Keerthi, Sathiya S. (2008). "Optimization techniques for semi-supervised support vector machines" (PDF). Журнал исследований в области машинного обучения. 9: 203–233.
  256. ^ Kudo, Mineichi; Toyama, Jun; Shimbo, Masaru (1999). "Multidimensional curve classification using passing-through regions". Письма с распознаванием образов. 20 (11): 1103–1111. CiteSeerX  10.1.1.46.2515. Дои:10.1016/s0167-8655(99)00077-x.
  257. ^ Jaeger, Herbert; и другие. (2007). "Optimization and applications of echo state networks with leaky-integrator neurons". Нейронные сети. 20 (3): 335–352. Дои:10.1016/j.neunet.2007.04.016. PMID  17517495.
  258. ^ Tsanas, Athanasios; и другие. (2010). "Accurate telemonitoring of Parkinson's disease progression by noninvasive speech tests". IEEE Transactions по биомедицинской инженерии (Представлена ​​рукопись). 57 (4): 884–893. Дои:10.1109/tbme.2009.2036000. PMID  19932995. S2CID  7382779.
  259. ^ Clifford, Gari D.; Clifton, David (2012). "Wireless technology in disease management and medicine". Annual Review of Medicine. 63: 479–492. Дои:10.1146/annurev-med-051210-114650. PMID  22053737.
  260. ^ Zue, Victor; Seneff, Stephanie; Glass, James (1990). "Speech database development at MIT: TIMIT and beyond". Речевое общение. 9 (4): 351–356. Дои:10.1016/0167-6393(90)90010-7.
  261. ^ Kapadia, Sadik, Valtcho Valtchev, and S. J. Young. "MMI training for continuous phoneme recognition on the TIMIT database." Acoustics, Speech, and Signal Processing, 1993. ICASSP-93., 1993 IEEE International Conference on. Vol. 2. IEEE, 1993.
  262. ^ Halabi, Nawar (2016). Modern Standard Arabic Phonetics for Speech Synthesis (PDF) (Кандидатская диссертация). Саутгемптонский университет, School of Electronics and Computer Science.
  263. ^ Ardila, Rosana; Branson, Megan; Дэвис, Келли; Henretty, Michael; Kohler, Michael; Meyer, Josh; Morais, Reuben; Saunders, Lindsay; Tyers, Francis M.; Weber, Gregor (13 December 2019). "Common Voice: A Massively-Multilingual Speech Corpus". arXiv:1912.06670v2 [cs.CL ].
  264. ^ Zhou, Fang, Q. Claire, and Ross D. King. "Predicting the geographical origin of music." Data Mining (ICDM), 2014 IEEE International Conference on. IEEE, 2014.
  265. ^ Saccenti, Edoardo; Camacho, José (2015). "On the use of the observation‐wise k‐fold operation in PCA cross‐validation". Journal of Chemometrics. 29 (8): 467–478. Дои:10.1002/cem.2726. HDL:10481/55302. S2CID  62248957.
  266. ^ Bertin-Mahieux, Thierry, et al. "The million song dataset." ISMIR 2011: Proceedings of the 12th International Society for Music Information Retrieval Conference, 24–28 October 2011, Miami, Florida. University of Miami, 2011.
  267. ^ Henaff, Mikael; и другие. (2011). "Unsupervised learning of sparse features for scalable audio classification" (PDF). ISMIR. 11.
  268. ^ Rafii, Zafar (2017). "Музыка". MUSDB18 - a corpus for music separation. Дои:10.5281/zenodo.1117372.
  269. ^ Defferrard, Michaël; Benzi, Kirell; Vandergheynst, Pierre; Bresson, Xavier (6 December 2016). "FMA: A Dataset For Music Analysis". arXiv:1612.01840 [cs.SD ].
  270. ^ Esposito, Roberto; Radicioni, Daniele P. (2009). "Carpediem: Optimizing the viterbi algorithm and applications to supervised sequential learning" (PDF). Журнал исследований в области машинного обучения. 10: 1851–1880.
  271. ^ Sourati, Jamshid; и другие. (2016). "Classification Active Learning Based on Mutual Information". Энтропия. 18 (2): 51. Bibcode:2016Entrp..18...51S. Дои:10.3390/e18020051.
  272. ^ Salamon, Justin; Jacoby, Christopher; Bello, Juan Pablo. "A dataset and taxonomy for urban sound research." Proceedings of the ACM International Conference on Multimedia. ACM, 2014.
  273. ^ Lagrange, Mathieu; Lafay, Grégoire; Rossignol, Mathias; Benetos, Emmanouil; Roebel, Axel (2015). "An evaluation framework for event detection using a morphological model of acoustic scenes". arXiv:1502.00141 [stat.ML ].
  274. ^ Gemmeke, Jort F., et al. "Audio Set: An ontology and human-labeled dataset for audio events." IEEE Международная конференция по акустике, речи и обработке сигналов (ICASSP). 2017 г.
  275. ^ "Watch out, birders: Artificial intelligence has learned to spot birds from their songs". Наука | AAAS. 18 July 2018. Получено 22 июля 2018.
  276. ^ "Bird Audio Detection challenge". Machine Listening Lab at Университет Королевы Марии. 3 мая 2016. Получено 22 июля 2018.
  277. ^ Wichern, G., et al. "WHAM!: Extending Speech Separation to Noisy Environments", Interspeech, 2019, https://arxiv.org/abs/1907.01160
  278. ^ Drossos, K., Lipping, S., and Virtanen, T. "Clotho: An Audio Captioning Dataset" IEEE Международная конференция по акустике, речи и обработке сигналов (ICASSP). 2020.
  279. ^ Drossos, K., Lipping, S., and Virtanen, T. (2019). Clotho dataset (Version 1.0) [Data set]. Зенодо. http://doi.org/10.5281/zenodo.3490684
  280. ^ The CAIDA UCSD Dataset on the Witty Worm – 19–24 March 2004, http://www.caida.org/data/passive/witty_worm_dataset.xml
  281. ^ Chen, Zesheng, and Chuanyi Ji. "Optimal worm-scanning method using vulnerable-host distributions." International Journal of Security and Networks 2.1–2 (2007): 71–80.
  282. ^ Kachuee, Mohamad, et al. "Cuff-less high-accuracy calibration-free blood pressure estimation using pulse transit time." Circuits and Systems (ISCAS), 2015 IEEE International Symposium on. IEEE, 2015.
  283. ^ PhysioBank, PhysioToolkit. "PhysioNet: components of a new research resource for complex physiologic signals." Тираж. v101 i23. e215-e220.
  284. ^ Vergara, Alexander; и другие. (2012). "Chemical gas sensor drift compensation using classifier ensembles". Датчики и исполнительные механизмы B: химические. 166: 320–329. Дои:10.1016/j.snb.2012.01.074.
  285. ^ Korotcenkov, G.; Cho, B. K. (2014). "Engineering approaches to improvement of conductometric gas sensor parameters. Part 2: Decrease of dissipated (consumable) power and improvement stability and reliability". Датчики и исполнительные механизмы B: химические. 198: 316–341. Дои:10.1016/j.snb.2014.03.069.
  286. ^ Quinlan, John R (1992). "Learning with continuous classes" (PDF). 5th Australian Joint Conference on Artificial Intelligence. 92.
  287. ^ Merz, Christopher J.; Pazzani, Michael J. (1999). "A principal components approach to combining regression estimates". Машинное обучение. 36 (1–2): 9–32. Дои:10.1023/a:1007507221352.
  288. ^ Torres-Sospedra, Joaquin, et al. "UJIIndoorLoc-Mag: A new database for magnetic field-based localization problems." Indoor Positioning and Indoor Navigation (IPIN), 2015 International Conference on. IEEE, 2015.
  289. ^ Berkvens, Rafael, Maarten Weyn, and Herbert Peremans. "Mean Mutual Information of Probabilistic Wi-Fi Localization." Indoor Positioning and Indoor Navigation (IPIN), 2015 International Conference on. Banff, Canada: IPIN. 2015.
  290. ^ Paschke, Fabian, et al. "Sensorlose Zustandsüberwachung an Synchronmotoren."Ход работы. 23. Workshop Computational Intelligence, Dortmund, 5.-6. Dezember 2013. KIT Scientific Publishing, 2013.
  291. ^ Lessmeier, Christian, et al. "Data Acquisition and Signal Analysis from Measured Motor Currents for Defect Detection in Electromechanical Drive Systems."
  292. ^ Ugulino, Wallace, et al. "Wearable computing: Accelerometers’ data classification of body postures and movements." Advances in Artificial Intelligence-SBIA 2012. Springer Berlin Heidelberg, 2012. 52–61.
  293. ^ Schneider, Jan; и другие. (2015). "Augmenting the senses: a review on sensor-based learning support". Датчики. 15 (2): 4097–4133. Дои:10.3390/s150204097. ЧВК  4367401. PMID  25679313.
  294. ^ Madeo, Renata CB, Clodoaldo AM Lima, and Sarajane M. Peres. "Gesture unit segmentation using support vector machines: segmenting gestures from rest positions." Proceedings of the 28th Annual ACM Symposium on Applied Computing. ACM, 2013.
  295. ^ Lun, Roanna; Zhao, Wenbing (2015). "A survey of applications and human motion recognition with Microsoft Kinect". International Journal of Pattern Recognition and Artificial Intelligence. 29 (5): 1555008. Дои:10.1142/s0218001415550083.
  296. ^ Theodoridis, Theodoros, and Huosheng Hu. "Action classification of 3d human models using dynamic ANNs for mobile robot surveillance."Robotics and Biomimetics, 2007. ROBIO 2007. IEEE International Conference on. IEEE, 2007.
  297. ^ Etemad, Seyed Ali, and Ali Arya. "3D human action recognition and style transformation using resilient backpropagation neural networks." Intelligent Computing and Intelligent Systems, 2009. ICIS 2009. IEEE International Conference on. Vol. 4. IEEE, 2009.
  298. ^ Altun, Kerem; Barshan, Billur; Tunçel, Orkun (2010). "Comparative study on classifying human activities with miniature inertial and magnetic sensors". Распознавание образов. 43 (10): 3605–3620. Дои:10.1016/j.patcog.2010.04.019. HDL:11693/11947.
  299. ^ Nathan, Ran; и другие. (2012). "Using tri-axial acceleration data to identify behavioral modes of free-ranging animals: general concepts and tools illustrated for griffon vultures". Журнал экспериментальной биологии. 215 (6): 986–996. Дои:10.1242/jeb.058602. ЧВК  3284320. PMID  22357592.
  300. ^ Anguita, Davide, et al. "Human activity recognition on smartphones using a multiclass hardware-friendly support vector machine." Ambient assisted living and home care. Springer Berlin Heidelberg, 2012. 216–223.
  301. ^ Su, Xing; Tong, Hanghang; Ji, Ping (2014). "Activity recognition with smartphone sensors". Tsinghua Science and Technology. 19 (3): 235–249. Дои:10.1109/tst.2014.6838194.
  302. ^ Kadous, Mohammed Waleed. Temporal classification: Extending the classification paradigm to multivariate time series. Дисс. The University of New South Wales, 2002.
  303. ^ Graves, Alex, et al. "Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks." Материалы 23-й международной конференции по машинному обучению. ACM, 2006.
  304. ^ Веллозо, Эдуардо и др. "Качественное распознавание активности упражнений по поднятию тяжестей."Материалы 4-й Международной конференции по дополненному человечеству. ACM, 2013.
  305. ^ Мортазави, Бобак Джек и др. "Определение единственной наилучшей оси для распознавания повторения упражнений и подсчет на умных часах." Носимые и имплантируемые сенсорные сети тела (BSN), 11-я Международная конференция по. IEEE, 2014 г.
  306. ^ Сапсанис, Христос и др. "Улучшение классификации основных движений рук на основе ЭМГ с помощью EMD." Общество инженерии в медицине и биологии (EMBC), 35-я ежегодная международная конференция IEEE, 2013 г.. IEEE, 2013.
  307. ^ а б Андрианезис, Константинос; Цес, Энтони (2015). «Разработка и контроль многофункционального протеза руки с приводами из сплава с памятью формы». Журнал интеллектуальных и робототехнических систем. 78 (2): 257–289. Дои:10.1007 / s10846-014-0061-6. S2CID  207174078.
  308. ^ Банос, Орести; и другие. (2014). «Работа с эффектами смещения сенсора при распознавании активности носимых устройств». Датчики. 14 (6): 9995–10023. Дои:10,3390 / с140609995. ЧВК  4118358. PMID  24915181.
  309. ^ Стисен, Аллан и др. "Умные устройства разные: оценка и устранение неоднородностей мобильного зондирования для распознавания активности."Материалы 13-й конференции ACM по встроенным сетевым сенсорным системам. ACM, 2015.
  310. ^ Бхаттачарья, Сурав и Николас Д. Лейн. "От умного к глубокому: надежное распознавание активности на умных часах с использованием глубокого обучения."
  311. ^ Баччу, Давиде; и другие. (2014). «Экспериментальная характеристика резервуарных вычислений в приложениях, связанных с окружающей средой». Нейронные вычисления и приложения. 24 (6): 1451–1464. Дои:10.1007 / s00521-013-1364-4. HDL:11568/237959. S2CID  14124013.
  312. ^ Паламбо, Филиппо; Барсоччи, Паоло; Галликкио, Клаудио; Чесса, Стефано; Микели, Алессио (2013). «Объединение мультисенсорных данных для распознавания активности на основе пластовых вычислений». Оценка систем AAL с помощью конкурентного бенчмаркинга. Коммуникации в компьютерных и информационных науках. 386. С. 24–35. Дои:10.1007/978-3-642-41043-7_3. ISBN  978-3-642-41042-0.
  313. ^ Рейсс, Аттила и Дидье Стрикер. "Представляем новый набор данных для мониторинга активности."Носимые компьютеры (ISWC), 16-й Международный симпозиум 2012 г.. IEEE, 2012.
  314. ^ Roggen, Daniel, et al. "ВОЗМОЖНОСТЬ: На пути к оппортунистической деятельности и системам распознавания контекста." Мир беспроводных, мобильных и мультимедийных сетей и семинары, 2009 г. WoWMoM 2009. Международный симпозиум IEEE по. IEEE, 2009 г.
  315. ^ Курц, Марк и др. "Динамическая количественная оценка возможностей распознавания активности в оппортунистических системах." Конференция по автомобильным технологиям (VTC Spring), 2011 IEEE 73-я. IEEE, 2011.
  316. ^ Штайлер, Тимо и Хайнер Штукеншмидт. "Локализация носимых устройств на теле: исследование распознавания активности с учетом положения." Pervasive Computing and Communications (PerCom), Международная конференция IEEE 2016 г.. IEEE, 2016.
  317. ^ Чжи, Ин Сюань; Лукасик, Мишель; Ли, Майкл Х .; Долатабади, Эльхам; Ван, Розали Х .; Таати, Бабак (2018). «Автоматическое определение компенсации при роботизированной реабилитационной терапии после инсульта». Журнал IEEE по трансляционной инженерии в здравоохранении и медицине. 6: 2100107. Дои:10.1109 / JTEHM.2017.2780836. ISSN  2168-2372. ЧВК  5788403. PMID  29404226.
  318. ^ Долатабади, Эльхам; Чжи, Ин Сюань; Йе, Бинг; Коахран, Мардж; Лупиначчи, Джорджия; Михайлидис, Алекс; Ван, Розали; Таати, Бабак (23 мая 2017 г.). Набор данных позы инсульта в реабилитационном центре торонто для определения компенсации во время реабилитационной терапии после инсульта. ACM. С. 375–381. Дои:10.1145/3154862.3154925. ISBN  9781450363631. S2CID  24581930.
  319. ^ "Набор данных позы для инсульта в реабилитации Торонто".
  320. ^ Юнг, Мерел М .; Поэль, Маннес; Поппе, Рональд; Хейлен, Дирк К. Дж. (1 марта 2017 г.). «Автоматическое распознавание сенсорных жестов в корпусе социального прикосновения». Журнал по мультимодальным пользовательским интерфейсам. 11 (1): 81–96. Дои:10.1007 / s12193-016-0232-9. ISSN  1783-8738. S2CID  1802116.
  321. ^ Юнг, М. (Мерел) (1 июня 2016 г.). «Корпус социальных контактов (CoST)». Университет Твенте. Дои:10.4121 / uuid: 5ef62345-3b3e-479c-8e1d-c922748c9b29. Цитировать журнал требует | журнал = (помощь)
  322. ^ Эберхард С., Д. Куманс и О. Де Вел. «Сравнение классификаторов в параметрах большой размерности». Кафедра математики. Статист., Университет Джеймса Кука, Северный Квинсленд, Австралия, Tech. Представитель 92-02 (1992).
  323. ^ Басу, Сугато. "Полу-контролируемая кластеризация с ограниченными базовыми знаниями." AAAI. 2004.
  324. ^ Тюфекчи, Пынар (2014). «Прогнозирование выходной электрической мощности при полной нагрузке электростанции комбинированного цикла, работающей при базовой нагрузке, с использованием методов машинного обучения». Международный журнал электроэнергетических и энергетических систем. 60: 126–140. Дои:10.1016 / j.ijepes.2014.02.027.
  325. ^ Кая, Хейсем, Пынар Тюфекчи и Фикрет С. Гюрген. «Локальные и глобальные методы обучения для прогнозирования мощности комбинированной газовой и паровой турбины». Международная конференция по новым тенденциям в компьютерной и электронной инженерии (ICETCEE'2012), Дубай. 2012.
  326. ^ Бальди, Пьер; Садовский, Питер; Уайтсон, Дэниел (2014). «Поиск экзотических частиц в физике высоких энергий с глубоким обучением». Nature Communications. 5: 2014. arXiv:1402.4735. Bibcode:2014 НатКо ... 5.4308B. Дои:10.1038 / ncomms5308. PMID  24986233. S2CID  195953.
  327. ^ а б Бальди, Пьер; Садовский, Питер; Уайтсон, Дэниел (2015). «Улучшенный бозон Хиггса для поиска τ + τ– с глубоким обучением». Письма с физическими проверками. 114 (11): 111801. arXiv:1410.3469. Bibcode:2015ПхРвЛ.114к1801Б. Дои:10.1103 / Physrevlett.114.111801. PMID  25839260. S2CID  2339142.
  328. ^ а б Adam-Bourdarios, C .; Cowan, G .; Germain-Renaud, C .; Guyon, I .; Kégl, B .; Руссо, Д. (2015). «Проблема машинного обучения Хиггса». Журнал серии конференций по физике. 664 (7): 072015. Bibcode:2015JPhCS.664g2015A. Дои:10.1088/1742-6596/664/7/072015.
  329. ^ Пьер Бальди, Кайл Кранмер, Тейлор Фосетт, Питер Садовски и Дэниел Уайтсон. 'Параметризованное машинное обучение для физики высоких энергий. ' В подчинении.
  330. ^ Ортигоса, I .; Lopez, R .; Гарсиа, Дж. "Подход нейронных сетей к остаточному сопротивлению прогнозирования парусных яхт". Материалы Международной конференции по морской инженерии MARINE. 2007.
  331. ^ Дж. Герритсма, Р. Оннинк и А. Верслуис.Геометрия, прочность и устойчивость корпуса яхт серии delft systematic. Делфтский технологический университет, 1981.
  332. ^ Лю, Хуан и Хироши Мотода. Извлечение, построение и выбор признаков: перспектива интеллектуального анализа данных. Springer Science & Business Media, 1998.
  333. ^ Райх, Йорам. Приведение к идеальным знаниям в области дизайна путем обучения. [Университет Карнеги-Меллона], Исследовательский центр инженерного дизайна, 1989.
  334. ^ Тодоровски, Люпчо; Джероски, Сашо (1999). «Эксперименты по метауровневому обучению с помощью ILP». Принципы интеллектуального анализа данных и обнаружения знаний. Конспект лекций по информатике. 1704. С. 98–106. Дои:10.1007/978-3-540-48247-5_11. ISBN  978-3-540-66490-1.
  335. ^ Ван, Юн. Новый подход к подгонке линейных моделей в пространствах большой размерности. Дисс. Университет Вайкато, 2000 г.
  336. ^ Киблер, Деннис; Ага, Дэвид В .; Альберт, Марк К. (1989). «Прогнозирование действительных атрибутов на основе экземпляров». Вычислительный интеллект. 5 (2): 51–57. Дои:10.1111 / j.1467-8640.1989.tb00315.x. S2CID  40800413.
  337. ^ Палмер, Кристофер Р. и Христос Фалаутсос. "Электричество по внешнему сходству категориальных признаков." Достижения в области обнаружения знаний и интеллектуального анализа данных. Springer Berlin Heidelberg, 2003. 486–500.
  338. ^ Цанас, Афанасий; Ксифара, Ангелики (2012). «Точная количественная оценка энергоэффективности жилых домов с использованием инструментов статистического машинного обучения». Энергия и здания. 49: 560–567. Дои:10.1016 / j.enbuild.2012.03.003.
  339. ^ Де Уайлд, Питер (2014). «Разрыв между прогнозируемыми и измеренными энергоэффективностью зданий: основа для исследования». Автоматизация в строительстве. 41: 40–49. Дои:10.1016 / j.autcon.2014.02.009.
  340. ^ Брукс, Томас Ф., Д. Стюарт Поуп и Майкл А. Марколини. Самошум аэродинамического профиля и прогнозирование. Vol. 1218. Национальное управление по аэронавтике и исследованию космического пространства, Управление управления, Отдел научно-технической информации, 1989 г.
  341. ^ Дрейпер, Дэвид. "Оценка и распространение неопределенности модели." Журнал Королевского статистического общества, серия B (методологический) (1995): 45–97.
  342. ^ Лавин, Майкл (1991). «Проблемы экстраполяции, проиллюстрированные данными об уплотнительном кольце космического челнока». Журнал Американской статистической ассоциации. 86 (416): 919–921. Дои:10.1080/01621459.1991.10475132.
  343. ^ Ван, Цзюнь, Бей Ю и Лесс Гассер. "Визуализация кластеризации на основе дерева концепций с заштрихованными матрицами сходства." Data Mining, 2002. ICDM 2003. Труды. Международная конференция IEEE 2002 г.. IEEE, 2002.
  344. ^ Петтенгилл, Гордон Х. и др. "Magellan: характеристики радара и информационные продукты." Наука252.5003 (1991): 260–265.
  345. ^ а б Aharonian, F .; и другие. (2008). «Энергетический спектр электронов космических лучей при энергиях ТэВ». Письма с физическими проверками. 101 (26): 261104. arXiv:0811.3894. Bibcode:2008PhRvL.101z1104A. Дои:10.1103 / PhysRevLett.101.261104. HDL:2440/51450. PMID  19437632. S2CID  41850528.
  346. ^ Bock, R.K .; и другие. (2004). «Методы классификации многомерных событий: тематическое исследование с использованием изображений с черенковского гамма-телескопа». Ядерные инструменты и методы в физических исследованиях Секция A: ускорители, спектрометры, детекторы и связанное с ними оборудование. 516 (2): 511–528. Bibcode:2004НИМПА.516..511Б. Дои:10.1016 / j.nima.2003.08.157.
  347. ^ Ли, Цзиньянь; и другие. (2004). "Deeps: новая система отложенного обнаружения и классификации на основе экземпляров". Машинное обучение. 54 (2): 99–124. Дои:10.1023 / b: mach.0000011804.08528.7d.
  348. ^ Зиберт, Ли и Том Симкин. «Вулканы мира: иллюстрированный каталог вулканов голоцена и их извержений». (2014).
  349. ^ Сикора, Марек; Wróbel, Лукаш (2010). «Применение алгоритмов индукции правил для анализа данных, собранных системами мониторинга сейсмической опасности на угольных шахтах». Архив горных наук. 55 (1): 91–114.
  350. ^ Сикора, Марек и Беата Сикора. «Грубый мониторинг опасных природных явлений». Грубые наборы: избранные методы и приложения в менеджменте и инженерии. Springer London, 2012. 163–179.
  351. ^ Да, I – C (1998). «Моделирование прочности высокопрочного бетона с помощью искусственных нейронных сетей». Цемент и бетонные исследования. 28 (12): 1797–1808. Дои:10.1016 / с0008-8846 (98) 00165-3.
  352. ^ Заранди, М. Х. Фазель; и другие. (2008). «Нечеткие полиномиальные нейронные сети для аппроксимации прочности бетона на сжатие». Прикладные мягкие вычисления. 8 (1): 488–498. Bibcode:2008ApSoC ... 8 ... 79S. Дои:10.1016 / j.asoc.2007.02.010.
  353. ^ Yeh, I. "Моделирование просадки бетона с помощью летучей золы и суперпластификатора". Компьютеры и бетон5.6 (2008): 559–572.
  354. ^ Генсель, Осман; и другие. (2011). «Сравнение искусственных нейронных сетей и общих линейных модельных подходов для анализа абразивного износа бетона». Строительные и строительные материалы. 25 (8): 3486–3494. Дои:10.1016 / j.conbuildmat.2011.03.040.
  355. ^ Диттерих, Томас Г. и др. "Сравнение динамического отклика и тангенциального расстояния для прогнозирования активности препарата.." Достижения в системах обработки нейронной информации (1994): 216–216.
  356. ^ Бушема, Массимо, Уильям Дж. Тастл и Стефано Терци. "Мета-сеть: новое семейство мета-классификаторов."Приложения интеллектуального анализа данных с использованием искусственных адаптивных систем. Springer New York, 2013. 141–182.
  357. ^ Ингбер, Лестер (1997). «Статистическая механика неокортикальных взаимодействий: канонические импульсные индикаторы электроэнцефалографии». Физический обзор E. 55 (4): 4578–4593. arXiv:физика / 0001052. Bibcode:1997PhRvE..55.4578I. Дои:10.1103 / PhysRevE.55.4578. S2CID  6390999.
  358. ^ Хоффманн, Ульрих; Весин, Жан-Марк; Эбрахими, Турадж; Дисеренс, Карин (2008). «Эффективный интерфейс мозг-компьютер на базе P300 для лиц с ограниченными возможностями». Журнал методов неврологии. 167 (1): 115–125. CiteSeerX  10.1.1.352.4630. Дои:10.1016 / j.jneumeth.2007.03.005. PMID  17445904. S2CID  9648828.
  359. ^ Дончин, Эмануэль; Спенсер, Кевин М .; Wijesinghe, Ranjith (2000). «Психологический протез: оценка скорости интерфейса мозг-компьютер на базе P300». IEEE Transactions по реабилитационной инженерии. 8 (2): 174–179. Дои:10.1109/86.847808. PMID  10896179.
  360. ^ Детрано, Роберт; и другие. (1989). «Международное применение нового вероятностного алгоритма диагностики ишемической болезни сердца». Американский журнал кардиологии. 64 (5): 304–310. Дои:10.1016/0002-9149(89)90524-9. PMID  2756873.
  361. ^ Брэдли, Эндрю П. (1997). «Использование площади под кривой ROC при оценке алгоритмов машинного обучения» (PDF). Распознавание образов. 30 (7): 1145–1159. Дои:10.1016 / с0031-3203 (96) 00142-2.
  362. ^ Улица, W. N .; Wolberg, W. H .; Мангасарян, О. Л. (1993). «Извлечение ядерных признаков для диагностики опухолей молочной железы». В Ачарье - Радж С. Гольдгоф, Дмитрий Б (ред.). Биомедицинская обработка изображений и биомедицинская визуализация. 1905. С. 861–870. Дои:10.1117/12.148698. S2CID  14922543.
  363. ^ Демир, Сигдем и Бюлент Йенер. "Автоматическая диагностика рака на основе гистопатологических изображений: систематическое обследование." Политехнический институт Ренсселера, Tech. Представитель (2005).
  364. ^ Злоупотребление, вещества. «Управление служб психического здоровья, результаты национального исследования употребления наркотиков и здоровья 2010 года: сводка национальных результатов, серия NSDUH H-41, публикация HHS № (SMA) 11-4658». Роквилл, Мэриленд: Управление служб охраны психического здоровья и наркозависимости 201 (2011).
  365. ^ Хун, Цзы-Цюань; Ян, Цзин-Ю (1991). «Оптимальная дискриминантная плоскость для небольшого количества выборок и метод построения классификатора на плоскости». Распознавание образов. 24 (4): 317–324. Дои:10.1016 / 0031-3203 (91) 90074-ф.
  366. ^ а б Ли, Цзиньянь и Лисун Вонг. «Использование правил для анализа биомедицинских данных: сравнение C4. 5 и PCL». Достижения в области управления информацией в эпоху Интернета. Springer Berlin Heidelberg, 2003. 254–265.
  367. ^ Гювенир, Х. Алтай и др. "Алгоритм машинного обучения с учителем для анализа аритмии."Компьютеры в кардиологии 1997. IEEE, 1997.
  368. ^ Лагус, Криста и др. "Независимый групповой анализ переменных при изучении компактных представлений данных." Труды Международной и междисциплинарной конференции по адаптивному представлению знаний и аргументации (AKRR'05), Т. Хонкела, В. Коненен, М. Пёлля и О. Симула, ред., Эспоо, Финляндия. 2005.
  369. ^ Страк, Беата и др. "Влияние измерения HbA1c на частоту повторной госпитализации: анализ 70000 историй болезни пациентов из базы данных." BioMed Research International 2014; 2014
  370. ^ Рубин, Дэниел Дж (2015). «Повторная госпитализация больных сахарным диабетом». Текущие отчеты о диабете. 15 (4): 1–9. Дои:10.1007 / s11892-015-0584-7. PMID  25712258. S2CID  3908599.
  371. ^ Антал, Балинт; Хайду, Андраш (2014). «Ансамблевая система автоматического скрининга диабетической ретинопатии». Системы, основанные на знаниях. 60 (2014): 20–27. arXiv:1410.8576. Bibcode:2014arXiv1410.8576A. Дои:10.1016 / j.knosys.2013.12.023. S2CID  13984326.
  372. ^ Haloi, Мринал (2015). «Улучшенное обнаружение микроаневризмы с использованием глубоких нейронных сетей». arXiv:1505.04424 [cs.CV ].
  373. ^ ЭЛИ, Гийом ПАТРИ, Жерве Готье, Бруно ЛЭЙ, Жюльен РОДЖЕР, Дэмиен. «Загрузка ADCIS от стороннего производителя: база данных Messidor». adcis.net. Получено 25 февраля 2018.
  374. ^ Decencière, Этьен; Чжан, Сивэй; Казугуэль, Гай; Лей, Бруно; Кошенер, Беатрис; Трон, Кэролайн; Усиление, Филипп; Ордонез, Ричард; Массин, Паскаль (26 августа 2014 г.). «Отзыв о публично распространяемой базе данных изображений: база данных Messidor». Анализ изображений и стереология. 33 (3): 231–234. Дои:10.5566 / ias.1155. ISSN  1854-5165.
  375. ^ Багиров, А. М .; и другие. (2003). «Неконтролируемая и контролируемая классификация данных с помощью негладкой и глобальной оптимизации». Вершина. 11 (1): 1–75. CiteSeerX  10.1.1.1.6429. Дои:10.1007 / bf02578945. S2CID  14165678.
  376. ^ Фанг, Гленн и др. "Быстрый итерационный алгоритм для дискриминанта Фишера с использованием неоднородных ядер."Материалы двадцать первой международной конференции по машинному обучению. ACM, 2004.
  377. ^ Куинлан, Джон Росс и др. «Индуктивное приобретение знаний: тематическое исследование». Труды Второй Австралийской конференции по приложениям экспертных систем. Addison-Wesley Longman Publishing Co., Inc., 1987.
  378. ^ а б Чжоу, Чжи-Хуа; Цзян, Юань (2004). «NeC4. 5: нейронный ансамбль на основе C4. 5». IEEE Transactions по разработке знаний и данных. 16 (6): 770–773. CiteSeerX  10.1.1.1.8430. Дои:10.1109 / tkde.2004.11. S2CID  1024861.
  379. ^ Эр, Орхан; и другие. (2012). «Подход, основанный на вероятностной нейронной сети для диагностики болезни мезотелиомы». Компьютеры и электротехника. 38 (1): 75–81. Дои:10.1016 / j.compeleceng.2011.09.001.
  380. ^ Эр, Орхан, А. Четин Танрикулу и Абдуррахман Абакай. "Использование методов искусственного интеллекта для диагностики злокачественной мезотелиомы плевры."Дикле Тип Дергиси 42.1 (2015).
  381. ^ Ли, Майкл Х .; Mestre, Tiago A .; Fox, Susan H .; Таати, Бабак (25 июля 2017 г.). «Оценка паркинсонизма и вызванной леводопой дискинезии на основе зрения с оценкой позы глубокого обучения». Журнал нейроинженерии и реабилитации. 15 (1): 97. arXiv:1707.09416. Bibcode:2017arXiv170709416L. Дои:10.1186 / s12984-018-0446-z. ЧВК  6219082. PMID  30400914.
  382. ^ Ли, Майкл Х .; Mestre, Tiago A .; Fox, Susan H .; Таати, Бабак (май 2018 г.). «Автоматическая оценка дискинезии, вызванной леводопой: оценка отзывчивости видео-функций». Паркинсонизм и связанные с ним расстройства. 53: 42–45. Дои:10.1016 / j.parkreldis.2018.04.036. ISSN  1353-8020. PMID  29748112.
  383. ^ "Набор данных оценки позы Паркинсона | Kaggle". kaggle.com. Получено 22 августа 2018.
  384. ^ Шеннон, Пол; и другие. (2003). «Cytoscape: программная среда для интегрированных моделей сетей биомолекулярного взаимодействия». Геномные исследования. 13 (11): 2498–2504. Дои:10.1101 / гр.1239303. ЧВК  403769. PMID  14597658.
  385. ^ Джавади, Соруш; Миррошандель, Сейед Аболгасем (2019). «Новый метод глубокого обучения для автоматической оценки изображений спермы человека». Компьютеры в биологии и медицине. 109: 182–194. Дои:10.1016 / j.compbiomed.2019.04.030. ISSN  0010-4825. PMID  31059902.
  386. ^ "soroushj / mhsma-dataset: MHSMA: Модифицированный набор данных анализа морфологии спермы человека". github.com. Получено 3 мая 2019.
  387. ^ Кларк, Дэвид, Золтан Шретер и Энтони Адамс. «Количественное сравнение дистального и обратного распространения». Труды Австралийской конференции по нейронным сетям 1996 г.. 1996.
  388. ^ Цзян, Юань и Чжи-Хуа Чжоу. "Редактирование обучающих данных для классификаторов kNN с помощью ансамбля нейронных сетей." Достижения в нейронных сетях - ISNN 2004. Springer Berlin Heidelberg, 2004. 356–361.
  389. ^ Онтаньон, Сантьяго и Энрик Плаза. «О мерах подобия на основе решетки уточнения». Исследование и развитие аргументации на основе прецедентов. Springer Berlin Heidelberg, 2009. 240–255.
  390. ^ Игера, Клара; Gardiner, Katheleen J .; Чиос, Кшиштоф Дж. (2015). «Самоорганизующиеся функциональные карты определяют белки, критически важные для обучения в мышиной модели синдрома Дауна». PLOS ONE. 10 (6): e0129126. Bibcode:2015PLoSO..1029126H. Дои:10.1371 / journal.pone.0129126. ЧВК  4482027. PMID  26111164.
  391. ^ Ахмед, М. Махиуддин; и другие. (2015). «Динамика белка, связанная с неудачным и спасенным обучением в мышиной модели синдрома Дауна Ts65Dn». PLOS ONE. 10 (3): e0119491. Bibcode:2015PLoSO..1019491A. Дои:10.1371 / journal.pone.0119491. ЧВК  4368539. PMID  25793384.
  392. ^ Кортес, Пауло и Анибаль де Хесус Раймундо Мораис. «Подход интеллектуального анализа данных для прогнозирования лесных пожаров с использованием метеорологических данных». (2007).
  393. ^ Farquad, M.A.H .; Рави, В .; Раджу, С. Бапи (2010). «Поддержка методов извлечения гибридных правил на основе векторной регрессии для прогнозирования». Экспертные системы с приложениями. 37 (8): 5577–5589. Дои:10.1016 / j.eswa.2010.02.055.
  394. ^ Фишер, Рональд А. (1936). «Использование множественных измерений в таксономических задачах». Анналы евгеники. 7 (2): 179–188. Дои:10.1111 / j.1469-1809.1936.tb02137.x. HDL:2440/15227.
  395. ^ Гахрамани, Зубин и Майкл И. Джордан. "Контролируемое обучение на неполных данных с помощью EM-подхода." Достижения в области нейронных систем обработки информации 6. 1994.
  396. ^ Маллах, Чарльз; Коп, Джеймс; Оруэлл, Джеймс (2013). «Классификация листьев растений с использованием вероятностной интеграции формы, текстуры и особенностей окраски». Обработка сигналов, распознавание образов и приложения. 5: 1.
  397. ^ Яхиауи, Итери, Ольфа Мзуги и Ножа Бужемаа. "Дескриптор формы листа для идентификации пород деревьев." Мультимедиа и выставка (ICME), Международная конференция IEEE 2012 г.. IEEE, 2012.
  398. ^ Лэнгли, PAT (2014). «Торговля простотой и охватом при постепенном изучении концепций» (PDF). Машинное обучение. 1988: 73.
  399. ^ Тан, Мин и Ларри Эшелман. "Использование взвешенных сетей для представления знаний о классификации в шумных областях." Материалы Пятой Международной конференции по машинному обучению. 2014.
  400. ^ Хаританович, Малгожата и др. "Полный алгоритм градиентной кластеризации для анализа характеристик рентгеновских изображений." Информационные технологии в биомедицине. Springer Berlin Heidelberg, 2010. 15–24.
  401. ^ Санчес, Маурисио А .; и другие. (2014). «Алгоритм нечеткой гранулярной гравитационной кластеризации для многомерных данных». Информационные науки. 279: 498–511. Дои:10.1016 / j.ins.2014.04.005.
  402. ^ Блэкард, Джок А .; Дин, Денис Дж. (1999). «Сравнительная точность искусственных нейронных сетей и дискриминантного анализа в прогнозировании типов лесного покрова по картографическим переменным». Компьютеры и электроника в сельском хозяйстве. 24 (3): 131–151. CiteSeerX  10.1.1.128.2475. Дои:10.1016 / s0168-1699 (99) 00046-0.
  403. ^ Фюрнкранц, Йоханнес. "Обучение правилам циклического перебора."Труды 18-й Международной конференции по машинному обучению (ICML-01): 146--153.. 2001.
  404. ^ Ли, Сонг; Ассманн, Сара М .; Альберт, Река (2006). «Прогнозирование основных компонентов сетей передачи сигналов: динамическая модель передачи сигналов абсцизовой кислоты замыкающих клеток». ПЛОС Биол. 4 (10): e312. arXiv:q-bio / 0610012. Bibcode:2006q.bio .... 10012L. Дои:10.1371 / journal.pbio.0040312. ЧВК  1564158. PMID  16968132.
  405. ^ Мунисами, Тришен; и другие. (2015). «Распознавание листьев растений с использованием характеристик формы и цветовой гистограммы с классификаторами K-ближайших соседей». Процедуры информатики. 58: 740–747. Дои:10.1016 / j.procs.2015.08.095.
  406. ^ Ли, Бай (2016). «Соответствие атомного потенциала: эволюционный подход к распознаванию цели, основанный на краевых характеристиках». Оптик-Международный журнал световой и электронной оптики. 127 (5): 3162–3168. Bibcode:2016Оптик.127.3162L. Дои:10.1016 / j.ijleo.2015.11.186.
  407. ^ Нильсбэк, Мария-Елена и Андрей Зиссерман. "Визуальный словарь для классификации цветов."Компьютерное зрение и распознавание образов, Конференция компьютерного общества IEEE 2006 г.. Vol. 2. IEEE, 2006.
  408. ^ Giselsson, Thomas M .; и другие. (2017). «База данных общедоступных изображений для эталонных алгоритмов классификации саженцев растений». arXiv:1711.05458 [cs.CV ].
  409. ^ Муресан, Хорея; Олтеан, Михай (2018). «Распознавание фруктов по изображениям с использованием глубокого обучения». Acta Univ. Sapientiae, Informatica. 10 (1): 26–42. Дои:10.2478 / ausi-2018-0002.
  410. ^ Олтеан, Михай; Муресан, Хорея (2017). «Набор данных с изображениями фруктов на Kaggle».
  411. ^ Накаи, Кента; Канехиса, Минору (1991). «Экспертная система для прогнозирования мест локализации белков у грамотрицательных бактерий». Белки: структура, функции и биоинформатика. 11 (2): 95–110. Дои:10.1002 / prot.340110203. PMID  1946347. S2CID  27606447.
  412. ^ Линг, Чарльз X. и др. "Деревья решений с минимальными затратами." Материалы двадцать первой международной конференции по машинному обучению. ACM, 2004.
  413. ^ Маэ, Пьер и др. "Автоматическая идентификация отпечатков пальцев смешанных видов бактерий в масс-спектре MALDI-TOF." Биоинформатика (2014): btu022.
  414. ^ Барбано, Дуэйн; и другие. (2015). «Быстрая характеристика микроводорослей и смесей микроводорослей с использованием матричной лазерной десорбционной ионизации времяпролетной масс-спектрометрии (MALDI-TOF MS)». PLOS ONE. 10 (8): e0135337. Bibcode:2015PLoSO..1035337B. Дои:10.1371 / journal.pone.0135337. ЧВК  4536233. PMID  26271045.
  415. ^ Хортон, Пол; Накай, Кента (1996). «Вероятностная классификационная система для прогнозирования участков клеточной локализации белков» (PDF). ISMB-96 Труды. 4: 109–15. PMID  8877510.
  416. ^ Allwein, Erin L .; Schapire, Роберт Э .; Певец, Йорам (2001). «Сведение мультикласса к бинарному: унифицирующий подход для классификаторов маржи» (PDF). Журнал исследований в области машинного обучения. 1: 113–141.
  417. ^ Майр, Андреас; Кламбауэр, Гюнтер; Унтертинер, Томас; Хохрайтер, Зепп (2016). «DeepTox: Прогнозирование токсичности с использованием глубокого обучения». Границы науки об окружающей среде. 3: 80. Дои:10.3389 / fenvs.2015.00080.
  418. ^ Лавин, Александр; Ахмад, Субутай (12 октября 2015 г.). Оценка алгоритмов обнаружения аномалий в реальном времени - тест Numenta Anomaly Benchmark. п. 38. arXiv:1510.03336. Дои:10.1109 / ICMLA.2015.141. ISBN  978-1-5090-0287-0. S2CID  6842305.
  419. ^ Campos, Guilherme O .; Зимек, Артур; Сандер, Йорг; Кампелло, Рикардо Дж. Г. Б .; Миченкова, Барбора; Шуберт, Эрих; Согласие, Ира; Хоул, Майкл Э. (2016). «Об оценке неконтролируемого обнаружения выбросов: меры, наборы данных и эмпирическое исследование». Интеллектуальный анализ данных и обнаружение знаний. 30 (4): 891. Дои:10.1007 / s10618-015-0444-8. ISSN  1384-5810. S2CID  1952214.
  420. ^ Анн-Катрин Хартманн, Томмазо Сору, Эдгард Маркс. Создание большого набора данных для ответа на нейронный вопрос в базе знаний DBpedia. 2018.
  421. ^ Томмазо Сору, Эдгард Маркс. Диего Муссаллем, Андре Вальдестильяс, Диего Эстевес, Чиро Барон. SPARQL как иностранный язык. 2018.
  422. ^ Киет Ван Нгуен, Дык-Ву Нгуен, Ань Гиа-Туан Нгуен, Нган Луу-Туи Нгуен. Вьетнамский набор данных для оценки понимания машинного чтения. 2020.
  423. ^ Киет Ван Нгуен, Кхим Винь Тран, Сон Т. Луу, Ань Гиа-Туан Нгуен, Нган Луу-Туи Нгуен. Улучшение лексического подхода с помощью внешних знаний для понимания прочитанного на вьетнамском машинном чтении с множественным выбором. 2020.
  424. ^ Браун, Майкл Скотт, Майкл Дж. Пелози и Генри Дирска. "Генетический алгоритм динамического радиуса сохранения видов для финансового прогнозирования акций индекса Доу-Джонса." Машинное обучение и интеллектуальный анализ данных в распознавании образов. Springer Berlin Heidelberg, 2013. 27–41.
  425. ^ Шен, Као-И; Ценг, Гво-Хшюн (2015). «Модель VC-DRSA с расширенным нечетким выводом для технического анализа: помощь в принятии инвестиционных решений». Международный журнал нечетких систем. 17 (3): 375–389. Дои:10.1007 / s40815-015-0058-8. S2CID  68241024.
  426. ^ Куинлан, Дж. Росс (1987). «Упрощение деревьев решений». Международный журнал человеко-машинных исследований. 27 (3): 221–234. CiteSeerX  10.1.1.18.4267. Дои:10.1016 / с0020-7373 (87) 80053-6.
  427. ^ Хамерс, Барт; Суйкенс, Йохан А.К .; Де Моор, Барт (2003). «Совместное трансдуктивное ансамблевое обучение моделей ядра» (PDF). Журнал исследований в области машинного обучения. 1: 1–48.
  428. ^ Шмуэли, Галит, Ральф П. Руссо и Вольфганг Янк. "BARISTA: модель поступления заявок на онлайн-аукционах." Летопись прикладной статистики(2007): 412–441.
  429. ^ Пэн, Цзе и Ханс-Георг Мюллер. "Дистанционная кластеризация редко наблюдаемых случайных процессов с приложениями к онлайн-аукционам." Летопись прикладной статистики (2008): 1056–1077.
  430. ^ Эггермонт, Йерун, Йост Н. Кок и Уолтер А. Костерс. "Генетическое программирование для классификации данных: разделение пространства поиска."Материалы симпозиума ACM 2004 г. по прикладным вычислениям. ACM, 2004.
  431. ^ Моро, Сержио; Кортез, Пауло; Рита, Пауло (2014). «Управляемый данными подход для прогнозирования успеха банковского телемаркетинга». Системы поддержки принятия решений. 62: 22–31. Дои:10.1016 / j.dss.2014.03.001. HDL:10071/9499.
  432. ^ Пейн, Ричард Д .; Маллик, Бани К. (2014). «Байесовская классификация больших данных: обзор с дополнениями». arXiv:1411.5653 [stat.ME ].
  433. ^ Акбилгич, Огуз; Боздоган, Хампарсум; Балабан, М. Эрдал (2014). «Новая модель нейронных сетей Hybrid RBF в качестве прогнозиста». Статистика и вычисления. 24 (3): 365–375. Дои:10.1007 / s11222-013-9375-7. S2CID  17764829.
  434. ^ Джабин, Сурайя. "Прогнозирование фондового рынка с использованием искусственной нейронной сети с прямой связью." Int. J. Comput. Appl. (IJCA) 99.9 (2014).
  435. ^ Ага, И-Ченг; Че-хуэй, Льен (2009). «Сравнение методов интеллектуального анализа данных для прогнозирования вероятности дефолта клиентов кредитных карт». Экспертные системы с приложениями. 36 (2): 2473–2480. Дои:10.1016 / j.eswa.2007.12.020.
  436. ^ Линь, Шу Линг (2009). «Новый двухэтапный гибридный подход к кредитному риску в банковской сфере». Экспертные системы с приложениями. 36 (4): 8333–8341. Дои:10.1016 / j.eswa.2008.10.015.
  437. ^ Пелькманс, Кристиан; и другие. (2005). «Дифферограмма: оценка дисперсии непараметрического шума и ее использование для выбора модели». Нейрокомпьютинг. 69 (1): 100–122. Дои:10.1016 / j.neucom.2005.02.015.
  438. ^ Бэй, Стивен Д .; и другие. (2000). «Архив больших наборов данных UCI KDD для исследований и экспериментов по интеллектуальному анализу данных». Информационный бюллетень ACM SIGKDD Explorations. 2 (2): 81–85. CiteSeerX  10.1.1.15.9776. Дои:10.1145/380995.381030. S2CID  534881.
  439. ^ Лукас, Д. Д .; и другие. (2015). «Проектирование оптимальных сетей наблюдения за парниковыми газами с учетом производительности и стоимости». Геонаучные приборы, методы и системы данных. 4 (1): 121. Bibcode:2015GI ...... 4..121L. Дои:10.5194 / gi-4-121-2015.
  440. ^ Полес, Джек К.; Килинг, Чарльз Д. (1965). «Концентрация углекислого газа в атмосфере на Гавайях». Журнал геофизических исследований. 70 (24): 6053–6076. Bibcode:1965JGR .... 70.6053P. Дои:10.1029 / jz070i024p06053.
  441. ^ Сигиллито, Винсент Г. и др. «Классификация радиолокационных отражений от ионосферы с помощью нейронных сетей». Технический дайджест Johns Hopkins APL10.3 (1989): 262–266.
  442. ^ Чжан, Кун и Вэй Фань. "Прогнозирование искаженных стохастических дней озона: анализ, решения и не только." Знания и информационные системы14.3 (2008): 299–326.
  443. ^ Райх, Брайан Дж., Монтсеррат Фуэнтес и Дэвид Б. Дансон. "Байесовская пространственная квантильная регрессия." Журнал Американской статистической ассоциации (2012).
  444. ^ Кохави, Рон (1996). «Повышение точности наивно-байесовских классификаторов: гибрид дерева решений». KDD. 96.
  445. ^ Оза, Никундж К. и Стюарт Рассел. «Экспериментальные сравнения онлайн-версий и пакетной версии упаковки и повышения». Материалы седьмой международной конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных. ACM, 2001.
  446. ^ Бэй, Стивен Д. (2001). «Многомерная дискретизация для множественного майнинга». Знания и информационные системы. 3 (4): 491–512. CiteSeerX  10.1.1.217.921. Дои:10.1007 / pl00011680. S2CID  10945544.
  447. ^ Рагглс, Стивен (1995). «Планы выборки и ошибки выборки». Исторические методы: журнал количественной и междисциплинарной истории. 28 (1): 40–46. Дои:10.1080/01615440.1995.9955312.
  448. ^ Мик, Кристофер, Бо Тиссон и Дэвид Хекерман. "Применение метода кривой обучения к кластеризации." АИСТАТЫ. 2001.
  449. ^ Фанаи-Т, Хади; Гама, Жоао (2013). «Маркировка событий, сочетающая детекторы ансамбля и базовые знания». Прогресс в искусственном интеллекте. 2 (2–3): 113–127. Дои:10.1007 / s13748-013-0040-3. S2CID  3345087.
  450. ^ Джот, Ромен и Рафаэль Шерье. "Прогнозирование использования системы Bikeshare на один день вперед." Вычислительный интеллект в транспортных средствах и транспортных системах (CIVTS), симпозиум IEEE 2014 г.. IEEE, 2014 г.
  451. ^ Чжань, Сяньюань; и другие. (2013). «Оценка времени в пути по городскому сообщению с использованием крупномасштабных данных о такси с частичной информацией». Транспортные исследования, часть C: Новые технологии. 33: 37–49. Дои:10.1016 / j.trc.2013.04.001.
  452. ^ Морейра-Матиас, Луис; и другие. (2013). «Прогнозирование спроса на такси и пассажиров с использованием потоковых данных». IEEE Transactions по интеллектуальным транспортным системам. 14 (3): 1393–1402. Дои:10.1109 / tits.2013.2262376. S2CID  14764358.
  453. ^ Хван, Рен-Хунг; Сюэ, Ю-Линг; Чен, Ю-Тин (2015). «Эффективная система рекомендаций такси, основанная на модели пространственно-временного факторного анализа». Информационные науки. 314: 28–40. Дои:10.1016 / j.ins.2015.03.068.
  454. ^ Мезель, Роберт и др. "Структура графа в сети - анализ на разных уровнях агрегирования."Журнал веб-науки 1.1 (2015).
  455. ^ Кушмерик, Николай. "Учимся удалять интернет-рекламу." Материалы третьей ежегодной конференции по автономным агентам. ACM, 1999.
  456. ^ Фрадкин, Дмитрий и Дэвид Мэдиган. "Эксперименты со случайными проекциями для машинного обучения."Материалы девятой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных. ACM, 2003.
  457. ^ Эти данные использовались Американской статистической ассоциацией в разделе «Статистическая графика и вычисления» 1999 года.
  458. ^ Ма, Джастин и др. "Выявление подозрительных URL-адресов: приложение масштабного онлайн-обучения."Материалы 26-й ежегодной международной конференции по машинному обучению. ACM, 2009.
  459. ^ Левченко, Кирилл и др. "Траектории кликов: сквозной анализ цепочки создания стоимости спама." Безопасность и конфиденциальность (SP), Симпозиум IEEE 2011 г.. IEEE, 2011.
  460. ^ Мохаммад, Рами М., Фади Табтах и ​​Ли МакКласки. "Оценка функций, связанных с фишинговыми сайтами, с использованием автоматизированной техники."Интернет-технологии и защищенные транзакции, Международная конференция 2012 г.. IEEE, 2012.
  461. ^ Сингх, Ашишкумар и др. "Эксперименты по кластеризации больших транзакционных данных для сегментации рынка." Материалы Международной конференции по науке о больших данных и вычислениях 2014 г.. ACM, 2014.
  462. ^ Боллакер, Курт и др. "Freebase: совместно созданная база данных графов для структурирования человеческих знаний." Материалы международной конференции ACM SIGMOD 2008 г. по управлению данными. ACM, 2008.
  463. ^ Минц, Майк и др. "Удаленное наблюдение за извлечением отношений без помеченных данных." Труды совместной конференции 47-го ежегодного собрания ACL и 4-й международной совместной конференции AFNLP по обработке естественного языка: Том 2-Том 2. Ассоциация компьютерной лингвистики, 2009.
  464. ^ Местерхарм, Крис и Майкл Дж. Паццани. "Активное обучение с использованием on-line алгоритмов."Материалы 17-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных. ACM, 2011.
  465. ^ Ван, Шусен; Чжан, Чжихуа (2013). «Улучшение разложения матрицы CUR и приближения Нистрома с помощью адаптивной выборки» (PDF). Журнал исследований в области машинного обучения. 14 (1): 2729–2769. arXiv:1303.4207. Bibcode:2013arXiv1303.4207W.
  466. ^ Каттраль, Роберт; Оппахер, Франц; Деуго, Дуайт (2002). «Эволюционный интеллектуальный анализ данных с автоматическим обобщением правил» (PDF). Последние достижения в области компьютеров, вычислений и связи: 296–300. S2CID  18625415.
  467. ^ Бертон, Ариэль Н .; Келли, Пол HJ (2006). «Прогнозирование производительности рабочих нагрузок подкачки с помощью облегченной трассировки». Компьютерные системы будущего поколения. Elsevier BV. 22 (7): 784–793. Дои:10.1016 / j.future.2006.02.003. ISSN  0167-739X.
  468. ^ Бэйн, Майкл; Магглетон, Стивен (1994). «Изучение оптимальных шахматных стратегий». Машинный интеллект. Oxford University Press, Inc. 13.
  469. ^ Куилан, Дж. Р. (1983). «Изучение эффективных процедур классификации и их применение в шахматных играх». Машинное обучение: подход с использованием искусственного интеллекта. 1: 463–482. Дои:10.1007/978-3-662-12405-5_15. ISBN  978-3-662-12407-9.
  470. ^ Шапиро, Ален Д. (1987). Структурированная индукция в экспертных системах. Addison-Wesley Longman Publishing Co., Inc.
  471. ^ Матеус, Кристофер Дж .; Ренделл, Ларри А. (1989). «Конструктивная индукция на деревьях решений» (PDF). IJCAI. 89.
  472. ^ Белсли, Дэвид А., Эдвин Кух и Рой Э. Велш. Регрессионная диагностика: выявление важных данных и источников коллинеарности. Vol. 571. Джон Вили и сыновья, 2005.
  473. ^ Руотсало, Туукка; Аройо, Лора; Шрайбер, Гус (2009). «Лингвистическая аннотация цифровых коллекций культурного наследия на основе знаний» (PDF). Интеллектуальные системы IEEE. 24 (2): 64–75. Дои:10.1109 / MIS.2009.32. S2CID  6667472.
  474. ^ Ли, Лихонг и др. "Беспристрастная оценка алгоритмов рекомендаций новостных статей на основе контекстных бандитов." Материалы четвертой международной конференции ACM по веб-поиску и интеллектуальному анализу данных. ACM, 2011.
  475. ^ Юнг, Кам Фунг и Яньян Ян. "Проактивная персонализированная система рекомендаций мобильных новостей." Разработки в области инженерии электронных систем (DESE), 2010 г.. IEEE, 2010 г.
  476. ^ Gass, Susan E .; Робертс, Дж. Мюррей (2006). «Распространение холодноводного коралла Lophelia pertusa (Scleractinia) на нефтегазовых платформах в Северном море: рост колоний, пополнение и экологический контроль при распределении». Бюллетень загрязнения морской среды. 52 (5): 549–559. Дои:10.1016 / j.marpolbul.2005.10.002. PMID  16300800.
  477. ^ Гионис, Аристидес; Маннила, Хейкки; Цапарас, Панайотис (2007). «Агрегация кластеров». Транзакции ACM при обнаружении знаний из данных. 1 (1): 4. CiteSeerX  10.1.1.709.528. Дои:10.1145/1217299.1217303. S2CID  433708.
  478. ^ Обрадович, Зоран и Слободан Вучетич.Проблемы интеллектуального анализа научных данных: неоднородные, предвзятые и большие выборки. Технический отчет, Центр информационных наук и технологий Университета Темпл, 2004 г.
  479. ^ Ван дер Путтен, Питер; ван Сомерен, Маартен (2000). "CoIL Challenge 2000: Дело страховой компании". Опубликовано Sentient Machine Research, Амстердам. Также технический отчет Лейденского института передовых компьютерных наук.. 9: 1–43.
  480. ^ Мао, К. З. (2002). «Выбор центра нейронной сети RBF на основе меры разделимости классов по коэффициенту Фишера». IEEE-транзакции в нейронных сетях. 13 (5): 1211–1217. Дои:10.1109 / tnn.2002.1031953. PMID  18244518.
  481. ^ Олав, Мануэль; Райкович, Владислав; Боханец, Марко (1989). «Заявление о приеме в системы государственных школ» (PDF). Экспертные системы в государственном управлении. 1: 145–160.
  482. ^ Лизотт, Дэниел Дж., Омид Мадани и Рассел Грейнер. "Бюджетное обучение классификаторов найлве-байеса." Материалы девятнадцатой конференции по неопределенности в искусственном интеллекте. Издательство Morgan Kaufmann Publishers Inc., 2002 г.
  483. ^ Лебовиц, Майкл (1986). Изучение концепций в обширной области ввода: память на основе обобщений. Машинное обучение: подход с использованием искусственного интеллекта. 2. С. 193–214. ISBN  9780934613002.
  484. ^ Ага, И-Ченг; Ян, Кинг-Янг; Тинг, Тао-Мин (2009). «Обнаружение знаний о модели RFM с использованием последовательности Бернулли». Экспертные системы с приложениями. 36 (3): 5866–5871. Дои:10.1016 / j.eswa.2008.07.018.
  485. ^ Ли, Вен-Чен; Ченг, Бор-Вэнь (2011). «Интеллектуальная система повышения эффективности сдачи крови». Журнал качества Vol. 18 (2): 173.
  486. ^ Шмидтманн, Ирен и др. "Evaluation des Krebsregisters NRW Schwerpunkt Record Linkage." Abschlußbericht vom 11 (2009).
  487. ^ Сарияр, Мурат; Борг, Андреас; Поммеренинг, Клаус (2011). «Контроль ложных совпадений при связывании записей с помощью теории экстремальных ценностей». Журнал биомедицинской информатики. 44 (4): 648–654. Дои:10.1016 / j.jbi.2011.02.008. PMID  21352952.
  488. ^ Кандилье, Лоран и Винсент Лемер. "Разработка и анализ задачи Nomao Активное обучение в реальном мире." Труды ALRA: активное обучение в реальных приложениях, семинар ECML-PKDD. 2012.
  489. ^ Маркес, Иван Гарридо. "Метод адаптации предметной области для классификации текста на основе самонастраиваемого подхода к обучению." (2013).
  490. ^ Нагеш, Харша С., Санджай Гойл и Алок Н. Чоудхари. «Адаптивные гриды для кластеризации массивов данных». SDM. 2001 г.
  491. ^ Кузилек, Якуб и др. "OU Analyze: анализ студентов из группы риска в Открытом университете." Обзор Learning Analytics (2015): 1–16.
  492. ^ Сименс, Джордж и др. Open Learning Analytics: интегрированная и модульная платформа. Дисс. Издательство Открытого университета, 2011.
  493. ^ Барлакки, Джанни; Де Надаи, Марко; Ларчер, Роберто; Казелла, Антонио; Читич, Кристиана; Торриси, Джованни; Антонелли, Фабрицио; Веспиньяни, Алессандро; Пентланд, Алекс; Лепри, Бруно (2015). «Набор данных из нескольких источников о городской жизни Милана и провинции Трентино». Научные данные. 2: 150055. Bibcode:2015НатСД ... 250055Б. Дои:10.1038 / sdata.2015.55. ISSN  2052-4463. ЧВК  4622222. PMID  26528394.
  494. ^ Ваншорен Дж., Ван Рейн Дж. Н., Бишл Б., Торго Л. (2013). «OpenML: сетевая наука в машинном обучении». SIGKDD Исследования. 15 (2): 49–60. arXiv:1407.7722. Дои:10.1145/2641190.2641198. S2CID  4977460.
  495. ^ Олсон Р.С., Ла Кава В., Ожеховски П., Урбанович Р. Дж., Мур Дж. Х. (2017). «PMLB: большой набор тестов для оценки и сравнения машинного обучения». BioData Mining. 10: 36. arXiv:1703.00512. Bibcode:2017arXiv170300512O. Дои:10.1186 / s13040-017-0154-4. ЧВК  5725843. PMID  29238404.