Снижение размерности - Dimensionality reduction
Часть серии по |
Машинное обучение и сбор данных |
---|
Площадки для машинного обучения |
Снижение размерности, или же уменьшение размеров, представляет собой преобразование данных из многомерного пространства в низкоразмерное пространство, так что низкоразмерное представление сохраняет некоторые значимые свойства исходных данных, в идеале близкие к их внутреннее измерение. Работа в объемных пространствах может быть нежелательной по многим причинам; сырые данные часто редкий как следствие проклятие размерности, и анализ данных обычно вычислительно трудноразрешимый. Снижение размерности часто встречается в областях, которые имеют дело с большим количеством наблюдений и / или большим количеством переменных, таких как обработка сигналов, распознавание речи, нейроинформатика, и биоинформатика.[1]
Методы обычно делятся на линейные и нелинейные.[1] Подходы также можно разделить на выбор функции и извлечение признаков.[2] Уменьшение размерности можно использовать для подавление шума, визуализация данных, кластерный анализ, или в качестве промежуточного шага для облегчения других анализов.
Выбор функции
Выбор функции подходы пытаются найти подмножество входных переменных (также называемых функциями или атрибутами). Три стратегии: фильтр стратегия (например, получение информации ), обертка стратегии (например, поиск, основанный на точности), а встроенный стратегия (выбранные функции добавляются или удаляются при построении модели на основе ошибок прогноза).
Анализ данных Такие как регресс или же классификация может быть выполнено в уменьшенном пространстве более точно, чем в исходном пространстве.[3]
Проекция функций
Проекция признаков (также называемая извлечением признаков) преобразует данные из многомерное пространство в пространство меньших размеров. Преобразование данных может быть линейным, как в Анализ главных компонентов (PCA), но многие уменьшение нелинейной размерности методы тоже существуют.[4][5] Для многомерных данных тензор представление может быть использовано для уменьшения размерности через полилинейное подпространственное обучение.[6]
Анализ главных компонентов (PCA)
Основной линейный метод уменьшения размерности, анализ главных компонентов, выполняет линейное отображение данных в пространство меньшей размерности таким образом, чтобы дисперсия данных в представлении низкой размерности была максимальной. На практике ковариация (а иногда корреляция ) матрица данных построены и собственные векторы по этой матрице. Собственные векторы, которые соответствуют наибольшим собственным значениям (главные компоненты), теперь могут использоваться для восстановления значительной части дисперсии исходных данных. Более того, первые несколько собственных векторов часто можно интерпретировать с точки зрения крупномасштабного физического поведения системы, потому что они часто вносят подавляющую часть энергии системы, особенно в низкоразмерных системах. Тем не менее, это необходимо доказывать в каждом конкретном случае, поскольку не все системы демонстрируют такое поведение. Исходное пространство (с размерностью числа точек) было уменьшено (с потерей данных, но, надеюсь, с сохранением наиболее важной дисперсии) до пространства, охватываемого несколькими собственными векторами.[нужна цитата ]
Неотрицательная матричная факторизация (NMF)
NMF разлагает неотрицательную матрицу на произведение двух неотрицательных, что было многообещающим инструментом в областях, где существуют только неотрицательные сигналы,[7][8] например астрономия.[9][10] NMF хорошо известен со времен правила мультипликативного обновления Ли и Сына,[7] который постоянно развивается: включение неопределенностей,[9] учет недостающих данных и параллельные вычисления,[11] последовательное построение[11] что приводит к стабильности и линейности NMF,[10] а также другие обновления включая обработку недостающих данных в цифровая обработка изображений.[12]
Благодаря стабильной компонентной базе во время строительства и процессу линейного моделирования, последовательный NMF[11] способен сохранять поток при прямой визуализации околозвездных структур в астромонии,[10] как один из методы обнаружения экзопланет, особенно для прямой визуализации околозвездные диски. По сравнению с PCA, NMF не удаляет среднее значение матриц, что приводит к нефизическим неотрицательным потокам, поэтому NMF может сохранять больше информации, чем PCA, как было продемонстрировано Ren et al.[10]
Ядро PCA
Анализ главных компонент может применяться нелинейным образом с помощью трюк с ядром. Полученный метод позволяет создавать нелинейные отображения, которые максимизируют дисперсию данных. Полученная в результате техника называется ядро PCA.
Графическое ядро PCA
Другие известные нелинейные методы включают: многообразное обучение методы, такие как Isomap, локально линейное вложение (LLE),[13] Гессен LLE, собственные карты лапласа и методы, основанные на анализе касательного пространства.[14][15] Эти методы создают низкоразмерное представление данных с использованием функции стоимости, которая сохраняет локальные свойства данных и может рассматриваться как определение ядра на основе графов для ядра PCA.
Совсем недавно были предложены методы, которые вместо определения фиксированного ядра пытаются изучить ядро, используя полуопределенное программирование. Наиболее ярким примером такой техники является раскрытие максимальной дисперсии (МВУ). Основная идея MVU состоит в том, чтобы точно сохранить все попарные расстояния между ближайшими соседями (во внутреннем пространстве продукта), при этом максимизируя расстояния между точками, которые не являются ближайшими соседями.
Альтернативный подход к сохранению соседства заключается в минимизации функции стоимости, которая измеряет различия между расстояниями во входном и выходном пространствах. Важные примеры таких техник: классические многомерное масштабирование, что идентично PCA; Isomap, который использует геодезические расстояния в пространстве данных; карты диффузии, которые используют расстояния распространения в пространстве данных; t-распределенное стохастическое вложение соседей (t-SNE), который минимизирует расхождение между распределениями по парам точек; и криволинейный компонентный анализ.
Другой подход к уменьшению нелинейной размерности заключается в использовании автокодеры, особый вид прямой связи нейронные сети со скрытым слоем горлышка бутылки.[16] Обучение глубоких кодировщиков обычно выполняется с использованием жадного послойного предварительного обучения (например, с использованием стека ограниченные машины Больцмана ), за которым следует этап тонкой настройки на основе обратное распространение.
Линейный дискриминантный анализ (LDA)
Линейный дискриминантный анализ (LDA) - это обобщение линейного дискриминанта Фишера, метода, используемого в статистике, распознавании образов и машинном обучении для поиска линейной комбинации функций, которая характеризует или разделяет два или более классов объектов или событий.
Обобщенный дискриминантный анализ (GDA)
GDA занимается нелинейным дискриминантным анализом с использованием оператора функции ядра. Основная теория близка к опорные векторные машины (SVM), поскольку метод GDA обеспечивает отображение входных векторов в многомерное пространство признаков.[17][18] Подобно LDA, цель GDA состоит в том, чтобы найти проекцию для функций в более низкоразмерное пространство путем максимизации отношения разброса между классами к разбросу внутри класса.
Автоэнкодер
Автоэнкодеры можно использовать для изучения нелинейных функций уменьшения размерности и кодирования вместе с функцией, обратной от кодирования до исходного представления.
t-SNE
T-распределенное стохастическое соседнее вложение (t-SNE) - это метод нелинейного уменьшения размерности, полезный для визуализации наборов данных большой размерности. Его не рекомендуется использовать в анализе, таком как кластеризация или обнаружение выбросов, поскольку он не обязательно хорошо сохраняет плотности или расстояния.[19]
UMAP
Приближение и проекция равномерного многообразия (UMAP) - это метод нелинейного уменьшения размерности. Визуально он похож на t-SNE, но предполагает, что данные равномерно распределены на локально связанный Риманово многообразие и что Риманова метрика является локально постоянным или приблизительно локально постоянным.
Уменьшение размеров
Для наборов данных большой размерности (т. Е. С числом измерений более 10) уменьшение размеров обычно выполняется до применения Алгоритм K-ближайших соседей (k-NN), чтобы избежать воздействия проклятие размерности.[20]
Извлечение признаков и уменьшение размеров можно объединить за один шаг, используя Анализ главных компонентов (PCA), линейный дискриминантный анализ (LDA), канонический корреляционный анализ (CCA), или неотрицательная матричная факторизация (NMF) в качестве этапа предварительной обработки, за которым следует кластеризация по K-NN на векторы признаков в пространстве уменьшенной размерности. В машинное обучение этот процесс также называют низкоразмерным встраивание.[21]
Для очень многомерных наборов данных (например, при выполнении поиска по сходству в видеопотоках в реальном времени, данных ДНК или многомерных Временные ряды ) быстрый бег приблизительный K-NN поиск с использованием хеширование с учетом местоположения, случайная проекция,[22] "зарисовки" [23] или другие методы поиска многомерного сходства из VLDB набор инструментов может быть единственным возможным вариантом.
Приложения
Метод уменьшения размерности, который иногда используется в нейробиология является максимально информативные габариты,[нужна цитата ] который находит низкоразмерное представление набора данных, такое что Информация по возможности данные об исходных сохранены.
Смотрите также
Рекомендательные системы |
---|
Концепции |
Методы и проблемы |
Реализации |
Исследование |
- Поиск ближайшего соседа
- MinHash
- Сбор информации в деревьях решений
- Полуопределенное вложение
- Многофакторное снижение размерности
- Мультилинейное подпространственное обучение
- Мультилинейный PCA
- Случайная проекция
- Разложение по сингулярным числам
- Скрытый семантический анализ
- Семантическое отображение
- Тензорский эскиз
- Топологический анализ данных
- Хеширование с учетом местоположения
- Достаточное уменьшение размеров
- Преобразование данных (статистика)
- Взвешенный корреляционный сетевой анализ
- Оптимизация гиперпараметров
- Аппроксимация матрицы CUR
- Модель конверта
- Нелинейное уменьшение размерности
- Картирование Саммона
- Лемма Джонсона – Линденштрауса
- Выравнивание местного касательного пространства
Примечания
- ^ а б ван дер Маатен, Лоренс; Постма, Эрик; ван ден Херик, Яап (26 октября 2009 г.). «Снижение размерности: сравнительный обзор» (PDF). J Mach Learn Res. 10: 66–71.
- ^ Pudil, P .; Нововичова, J. (1998). «Новые методы выбора подмножества признаков с учетом знаний о проблеме». В Лю, Хуань; Мотода, Хироши (ред.). Извлечение, построение и выбор функций. п. 101. Дои:10.1007/978-1-4615-5725-8_7. ISBN 978-1-4613-7622-4.
- ^ Рико-Сулайес, Антонио (2017). «Снижение размерности векторного пространства при автоматической классификации авторства». Revista Ingeniería Electrónica, Automática y Comunicaciones. 38 (3): 26–35.
- ^ Самет, Х. (2006) Основы многомерных и метрических структур данных. Морган Кауфманн. ISBN 0-12-369446-9
- ^ Ч. Дин, Х. Хе, Х. Чжа, Х.Д. Саймон, Адаптивное уменьшение размерности для кластеризации данных большой размерности, Труды Международной конференции по интеллектуальному анализу данных, 2002 г.
- ^ Лу, Хайпин; Plataniotis, K.N .; Венецанопулос, А. (2011). "Обзор мультилинейного обучения подпространству тензорных данных" (PDF). Распознавание образов. 44 (7): 1540–1551. Дои:10.1016 / j.patcog.2011.01.004.
- ^ а б Дэниел Д. Ли и Х. Себастьян Сунг (1999). «Изучение частей предметов по неотрицательной матричной факторизации». Природа. 401 (6755): 788–791. Bibcode:1999Натура.401..788L. Дои:10.1038/44565. PMID 10548103.
- ^ Дэниел Д. Ли и Х. Себастьян Сын (2001). Алгоритмы неотрицательной матричной факторизации (PDF). Достижения в системах обработки нейронной информации 13: Материалы конференции 2000 года. MIT Press. С. 556–562.
- ^ а б Blanton, Michael R .; Роуис, Сэм (2007). «К-поправки и фильтры преобразования в ультрафиолетовом, оптическом и ближнем инфракрасном диапазонах». Астрономический журнал. 133 (2): 734–754. arXiv:Astro-ph / 0606170. Bibcode:2007AJ .... 133..734B. Дои:10.1086/510127.
- ^ а б c d Рен, Бин; Пуэйо, Лоран; Zhu, Guangtun B .; Дюшен, Гаспар (2018). «Неотрицательная матричная факторизация: надежное извлечение расширенных структур». Астрофизический журнал. 852 (2): 104. arXiv:1712.10317. Bibcode:2018ApJ ... 852..104R. Дои:10.3847 / 1538-4357 / aaa1f2.
- ^ а б c Чжу, Гуантун Б. (19 декабря 2016 г.). «Неотрицательная матричная факторизация (NMF) с гетероскедастическими неопределенностями и отсутствующими данными». arXiv:1612.06037 [Astro-ph.IM ].
- ^ Рен, Бин; Пуэйо, Лоран; Чен, Кристина; Шоке, Элоди; Дебес, Джон Х .; Дюшен, Гаспар; Менар, Франсуа; Перрин, Маршалл Д. (2020). «Использование данных для разделения сигналов в высококонтрастной визуализации». Астрофизический журнал. 892 (2): 74. arXiv:2001.00563. Bibcode:2020ApJ ... 892 ... 74R. Дои:10.3847 / 1538-4357 / ab7024.
- ^ Roweis, S.T .; Саул, Л. К. (2000). «Снижение нелинейной размерности локально линейным вложением». Наука. 290 (5500): 2323–2326. Bibcode:2000Sci ... 290.2323R. CiteSeerX 10.1.1.111.3313. Дои:10.1126 / science.290.5500.2323. PMID 11125150.
- ^ Чжан, Чжэньюэ; Чжа, Хунюань (2004). «Главные многообразия и уменьшение нелинейной размерности за счет совмещения касательного пространства». Журнал SIAM по научным вычислениям. 26 (1): 313–338. Дои:10,1137 / с1064827502419154.
- ^ Бенхио, Йошуа; Монперрус, Мартин; Ларошель, Хьюго (2006). «Нелокальная оценка структуры многообразия». Нейронные вычисления. 18 (10): 2509–2528. CiteSeerX 10.1.1.116.4230. Дои:10.1162 / neco.2006.18.10.2509. PMID 16907635.
- ^ Хунбин Ху, Стивен А. Захориан, (2010) «Методы уменьшения размерности для фонетического распознавания HMM», ICASSP 2010, Даллас, Техас
- ^ Baudat, G .; Ануар, Ф. (2000). «Обобщенный дискриминантный анализ с использованием подхода ядра». Нейронные вычисления. 12 (10): 2385–2404. CiteSeerX 10.1.1.412.760. Дои:10.1162/089976600300014980. PMID 11032039.
- ^ Хагигхат, Мохаммад; Зоноуз, Саман; Абдель-Мотталеб, Мохамед (2015). «CloudID: надежная облачная и межкорпоративная биометрическая идентификация». Экспертные системы с приложениями. 42 (21): 7905–7916. Дои:10.1016 / j.eswa.2015.06.025.
- ^ Шуберт, Эрих; Герц, Майкл (2017). Бикс, Кристиан; Борутта, Феликс; Крегер, Пер; Зайдл, Томас (ред.). «Внутреннее t-стохастическое соседнее вложение для визуализации и обнаружения выбросов». Поиск сходства и приложения. Конспект лекций по информатике. Cham: Springer International Publishing: 188–203. Дои:10.1007/978-3-319-68474-1_13. ISBN 978-3-319-68474-1.
- ^ Кевин Бейер, Джонатан Голдштейн, Рагу Рамакришнан, Ури Шафт (1999) «Когда имеет смысл слово« ближайший сосед »?». Теория баз данных - ICDT99, 217–235
- ^ Шоу, Б .; Джебара, Т. (2009). «Встраивание с сохранением структуры» (PDF). Материалы 26-й ежегодной международной конференции по машинному обучению - ICML '09. п. 1. CiteSeerX 10.1.1.161.451. Дои:10.1145/1553374.1553494. ISBN 9781605585161.
- ^ Bingham, E .; Маннила, Х. (2001). «Случайная проекция при уменьшении размерности». Материалы седьмой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных - KDD '01. п. 245. Дои:10.1145/502512.502546. ISBN 978-1581133912.
- ^ Shasha, D High (2004) Открытие производительности во временных рядах Берлин: Springer. ISBN 0-387-00857-8
Рекомендации
- Бёмке, Брэд; Гринвелл, Брэндон М. (2019). «Уменьшение размера». Практическое машинное обучение с R. Чепмен и Холл. С. 343–396. ISBN 978-1-138-49568-5.
- Фодор И. (2002). Обзор методов уменьшения размерности (Технический отчет). Центр прикладных научных вычислений, Лоуренс Ливерморский национальный. UCRL-ID-148494.
- Каннингем, П. (2007). Уменьшение размеров (Технический отчет). Университетский колледж Дублина. UCD-CSI-2007-7.
- Лакшми Падмаджа, Дхьярам; Вишнувардхан, Б. (2016). «Сравнительное исследование методов выбора подмножества признаков для уменьшения размерности научных данных». 6-я Международная конференция IEEE по передовым вычислениям (IACC), 2016 г.. С. 31–34. Дои:10.1109 / IACC.2016.16. ISBN 978-1-4673-8286-1.