Машина для экстремального обучения - Extreme learning machine
Часть серии по |
Машинное обучение и сбор данных |
---|
Площадки для машинного обучения |
Тема этой статьи может не соответствовать Википедии общее руководство по известности.Август 2020 г.) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
Машины для экстремального обучения находятся нейронные сети с прямой связью за классификация, регресс, кластеризация, разреженное приближение, сжатие и особенности обучения с одним или несколькими уровнями скрытых узлов, где параметры скрытых узлов (а не только веса, соединяющие входы со скрытыми узлами) не нужно настраивать. Эти скрытые узлы могут назначаться случайным образом и никогда не обновляться (т.е. они случайная проекция но с нелинейными преобразованиями) или могут быть унаследованы от своих предков без изменения. В большинстве случаев выходные веса скрытых узлов обычно изучаются за один шаг, что по сути сводится к изучению линейной модели. Название «машина экстремального обучения» (ELM) таким моделям дал их главный изобретатель Гуан-Бинь Хуанг.
По словам их создателей, эти модели способны обеспечить хорошую производительность обобщения и обучаться в тысячи раз быстрее, чем сети, обученные с использованием обратное распространение.[1] В литературе также показано, что эти модели могут превзойти опорные векторные машины как в классификационных, так и в регрессионных приложениях.[2][3][4]
История
С 2001-2010 гг. Исследования ELM в основном были сосредоточены на единой обучающей структуре для «обобщенных» нейронных сетей прямого распространения с одним скрытым уровнем (SLFN), включая, помимо прочего, сигмовидные сети, сети RBF, пороговые сети,[5] тригонометрические сети, системы нечеткого вывода, ряды Фурье,[6][7] Преобразование Лапласа, вейвлет-сети,[8] и т. д. Одним из значительных достижений тех лет является успешное теоретическое доказательство универсальных возможностей приближения и классификации ELM.[6][9][10]
С 2010 по 2015 годы исследования ELM распространились на унифицированную среду обучения для обучения ядра, SVM и несколько типичных методов обучения функциям, таких как Анализ главных компонентов (PCA) и Неотрицательная матричная факторизация (NMF). Показано, что SVM на самом деле предоставляет неоптимальные решения по сравнению с ELM, а ELM может предоставлять отображение ядра белого ящика, которое реализуется посредством отображения случайных функций ELM, вместо ядра черного ящика, используемого в SVM. PCA и NMF можно рассматривать как частные случаи, когда в ELM используются линейные скрытые узлы.[11][12]
С 2015 по 2017 год повышенное внимание уделялось иерархическим реализациям.[13][14] ELM. Кроме того, с 2011 года были проведены значительные биологические исследования, подтверждающие определенные теории ELM.[15][16][17]
С 2017 года для решения проблемы низкой конвергенции во время обучения LU разложение, Разложение Хессенберга и QR-разложение основанные подходы с регуляризация начали привлекать внимание[18][19][20]
В объявлении от 2017 г. Google ученый: "Классические статьи: статьи, выдержавшие испытание временем ", два документа ELM внесены в список"Топ-10 в области искусственного интеллекта за 2006 год, "занимая позиции 2 и 7.
Алгоритмы
Учитывая единственный скрытый слой ELM, предположим, что функция вывода -й скрытый узел , куда и параметры -й скрытый узел. Функция вывода ELM для SLFN с скрытые узлы:
, куда выходной вес -й скрытый узел.
является отображением вывода скрытого слоя ELM. Данный обучающие образцы, выходная матрица скрытого слоя ELM задается как:
и это целевая матрица обучающих данных:
Вообще говоря, ELM - это разновидность нейронных сетей регуляризации, но с ненастроенными отображениями скрытых слоев (образованными случайными скрытыми узлами, ядрами или другими реализациями) его целевая функция:
куда .
Различные комбинации , , и могут использоваться и приводить к различным алгоритмам обучения для регрессии, классификации, разреженного кодирования, сжатия, изучения функций и кластеризации.
В качестве особого случая простейший алгоритм обучения ELM изучает модель формы (для нейронных сетей сигмовидной формы с одним скрытым слоем):
куда W1 - матрица весов входных и скрытых слоев, - функция активации, а W2 - это матрица весов, скрытых для выходного слоя. Алгоритм работает следующим образом:
- Наполнять W1 со случайными значениями (например, Гауссов случайный шум );
- оценивать W2 к метод наименьших квадратов к матрице переменных ответа Y, вычисленный с использованием псевдообратный ⋅+, учитывая матрица дизайна Икс:
Архитектура
В большинстве случаев ELM используется как сеть прямого распространения со скрытым уровнем (SLFN), включая, помимо прочего, сигмоидные сети, сети RBF, пороговые сети, сети нечеткого вывода, сложные нейронные сети, вейвлет-сети, преобразование Фурье, преобразование Лапласа и т. Д. Из-за различных реализаций алгоритмов обучения для регрессии, классификации, разреженного кодирования, сжатия, изучения функций и кластеризации, мульти-ELM использовались для формирования многослойных сетей со скрытым уровнем, глубокое обучение или иерархические сети.[13][14][21]
Скрытый узел в ELM - это вычислительный элемент, который не обязательно рассматривать как классический нейрон. Скрытый узел в ELM может быть классическими искусственными нейронами, базовыми функциями или подсетью, образованной некоторыми скрытыми узлами.[9]
Теории
Возможности универсального приближения и классификации[2][3] доказаны для ELM в литературе. Особенно, Гуан-Бинь Хуан и его команда потратили почти семь лет (2001–2008) на строгие доказательства универсальной аппроксимационной способности ELM.[6][9][10]
Возможность универсального приближения
Теоретически любая непостоянная кусочно-непрерывная функция может использоваться в качестве функции активации в скрытых узлах ELM, такая функция активации не обязательно должна быть дифференциальной. Если настройка параметров скрытых узлов может заставить SLFN приближаться к любой целевой функции , тогда параметры скрытого узла могут быть сгенерированы случайным образом в соответствии с любой вероятностью непрерывного распределения, и выполняется с вероятностью единица с соответствующими выходными весами .
Возможность классификации
Учитывая любую непостоянную кусочно-непрерывную функцию в качестве функции активации в SLFN, если настройка параметров скрытых узлов может заставить SLFN аппроксимировать любую целевую функцию , то SLFN со случайным отображением скрытого слоя может разделять произвольные непересекающиеся области любой формы.
Нейроны
Широкий тип нелинейных кусочно-непрерывных функций может использоваться в скрытых нейронах ELM, например:
Реальный домен
Сигмовидная функция:
Функция Фурье:
Функция жесткого ограничения:
Функция Гаусса:
Функция мультиквадриков:
Вейвлет: куда - вейвлет-функция матери-одиночки.
Комплексный домен
Круговые функции:
Обратные круговые функции:
Гиперболические функции:
Обратные гиперболические функции:
Надежность
В черный ящик Характер нейронных сетей в целом и машин с экстремальным обучением (ELM) в частности является одной из основных проблем, которая отталкивает инженеров от применения в небезопасных задачах автоматизации. К этой конкретной проблеме подошли с помощью нескольких различных методов. Один из подходов - уменьшить зависимость от случайного входа.[22][23] Другой подход направлен на включение постоянных ограничений в процесс обучения ELM.[24][25] которые основаны на предварительных знаниях о конкретной задаче. Это разумно, потому что решения машинного обучения должны гарантировать безопасную работу во многих областях приложений. Упомянутые исследования показали, что особая форма ELM с его функциональным разделением и линейными весами считывания особенно хорошо подходит для эффективного включения непрерывных ограничений в заранее определенных областях входного пространства.
Полемика
Со стороны академического сообщества есть две основные жалобы на эту работу: первая касается «переосмысления и игнорирования предыдущих идей», вторая - «неправильного наименования и популяризации», как показали некоторые дискуссии в 2008 и 2015 годах.[26] В частности, в письме было указано[27] редактору IEEE-транзакции в нейронных сетях что идея использования скрытого слоя, связанного со входами случайными необученными весами, уже была предложена в оригинальных статьях по Сети RBF в конце 1980-х; Гуан-Бинь Хуан ответил, указав на тонкие различия.[28] В статье 2015 г.[3] Хуанг ответил на жалобы об изобретении им названия ELM для уже существующих методов, жалуясь на «очень негативные и бесполезные комментарии к ELM ни в академической, ни в профессиональной манере из-за различных причин и намерений», а также на «безответственную анонимную атаку, направленную на уничтожение. среда исследования гармонии », утверждая, что его работа« обеспечивает объединяющую платформу обучения »для различных типов нейронных сетей,[3] включая ELM с иерархической структурой.[21] В 2015 году Хуан также дал формальное опровержение тому, что он считал «злым умыслом и нападением».[29] Недавние исследования заменяют случайные веса на случайные веса с ограничениями.[2][30]
Открытые источники
- Библиотека Matlab
- Библиотека Python[31]
Смотрите также
Рекомендации
- ^ Хуанг, Гуан-Бинь; Чжу, Цинь-Ю; Сью, Чи-Кхеонг (2006). «Экстремальная обучающая машина: теория и приложения». Нейрокомпьютинг. 70 (1): 489–501. CiteSeerX 10.1.1.217.3692. Дои:10.1016 / j.neucom.2005.12.126.
- ^ а б c Хуанг, Гуан-Бинь; Хунмин Чжоу; Сяоцзянь Дин; и Руи Чжан (2012). «Экстремальная обучающая машина для регрессии и многоклассовой классификации» (PDF). Транзакции IEEE по системам, человеку и кибернетике - Часть B: Кибернетика. 42 (2): 513–529. CiteSeerX 10.1.1.298.1213. Дои:10.1109 / tsmcb.2011.2168604. PMID 21984515. S2CID 15037168.
- ^ а б c d Хуан, Гуан-Бинь (2015). «Что такое машины экстремального обучения? Заполнение пробела между мечтой Фрэнка Розенблатта и головоломкой Джона фон Неймана» (PDF). Когнитивные вычисления. 7 (3): 263–278. Дои:10.1007 / s12559-015-9333-0. S2CID 13936498.
- ^ Хуан, Гуан-Бинь (2014). «Взгляд на машины с экстремальным обучением: случайные нейроны, случайные особенности и ядра» (PDF). Когнитивные вычисления. 6 (3): 376–390. Дои:10.1007 / s12559-014-9255-2. S2CID 7419259.
- ^ Хуанг, Гуан-Бинь, Цинь-Ю Чжу, К.З. Мао, Чи-Кхеонг Сью, П. Саратчандран и Н. Сундарараджан (2006). "Можно ли обучать пороговые сети напрямую?" (PDF). IEEE Transactions on Circuits and Systems-II: Express Briefs. 53 (3): 187–191. Дои:10.1109 / tcsii.2005.857540. S2CID 18076010.
- ^ а б c Хуанг, Гуан-Бин, Лей Чен и Чи-Кхеонг Сью (2006). «Универсальное приближение с использованием инкрементных конструктивных сетей с прямой связью со случайными скрытыми узлами» (PDF). IEEE-транзакции в нейронных сетях. 17 (4): 879–892. Дои:10.1109 / tnn.2006.875977. PMID 16856652.
- ^ Рахими, Али и Бенджамин Рехт (2008). «Взвешенные суммы случайных кухонных раковин: замена минимизации рандомизацией в обучении» (PDF). Достижения в системах обработки нейронной информации 21.
- ^ Цао, Цзювэнь, Чжипин Линь, Гуан-Бинь Хуан (2010). "Составные функции вейвлет-нейронных сетей с экстремальной обучающей машиной". Нейрокомпьютинг. 73 (7–9): 1405–1416. Дои:10.1016 / j.neucom.2009.12.007.
- ^ а б c Хуан, Гуан-Бинь, Лэй Чен (2007). "Выпуклая инкрементальная машина экстремального обучения" (PDF). Нейрокомпьютинг. 70 (16–18): 3056–3062. Дои:10.1016 / j.neucom.2007.02.009.
- ^ а б Хуан, Гуан-Бинь и Лэй Чен (2008). «Улучшенная машина для инкрементного экстремального обучения на основе случайного поиска» (PDF). Нейрокомпьютинг. 71 (16–18): 3460–3468. CiteSeerX 10.1.1.217.3009. Дои:10.1016 / j.neucom.2007.10.008.
- ^ Хэ, Цин, Синь Цзинь, Чанъин Ду, Фучжэнь Чжуан, Чжунчжи Ши (2014). «Кластеризация в пространстве возможностей машин экстремального обучения» (PDF). Нейрокомпьютинг. 128: 88–95. Дои:10.1016 / j.neucom.2012.12.063.
- ^ Kasun, Liyanaarachchi Lekamalage Chamara, Yan Yang, Guang-Bin Huang и Zhengyou Zhang (2016). «Уменьшение размеров с помощью экстремальной обучающей машины» (PDF). IEEE Transactions по обработке изображений. 25 (8): 3906–3918. Bibcode:2016ITIP ... 25,3906 тыс.. Дои:10.1109 / tip.2016.2570569. PMID 27214902. S2CID 1803922.
- ^ а б Хуанг, Гуан-Бинь, Цзо Бай и Лиянаараччи Лекамалаге Чамара Касун и Чи Ман Вонг (2015). «Машина экстремального обучения на основе локальных восприимчивых полей» (PDF). Журнал IEEE Computational Intelligence Magazine. 10 (2): 18–29. Дои:10.1109 / mci.2015.2405316. S2CID 1417306.
- ^ а б Тан, Цзесюн, Чэньвэй Дэн и Гуан-Бинь Хуан (2016). "Экстремальная обучающая машина для многослойного персептрона" (PDF). Транзакции IEEE в нейронных сетях и обучающих системах. 27 (4): 809–821. Дои:10.1109 / tnnls.2015.2424995. PMID 25966483. S2CID 206757279.
- ^ Барак, Омри; Риготти, Маттиа; и Фуси, Стефано (2013). «Редкость нейронов со смешанной селективностью контролирует компромисс между обобщением и дискриминацией». Журнал неврологии. 33 (9): 3844–3856. Дои:10.1523 / jneurosci.2753-12.2013. ЧВК 6119179. PMID 23447596.
- ^ Риготти, Маттиа; Барак, Омри; Уорден, Мелисса Р .; Ван, Сяо-Цзин; Доу, Натаниэль Д.; Миллер, Эрл К .; и Фуси, Стефано (2013). «Важность смешанной избирательности в сложных когнитивных задачах». Природа. 497 (7451): 585–590. Bibcode:2013Натура.497..585р. Дои:10.1038 / природа12160. ЧВК 4412347. PMID 23685452.
- ^ Фузи, Стефано, Эрл К. Миллер и Маттиа Риготти (2015). «Почему смешиваются нейроны: высокая размерность для более высокого познания» (PDF). Текущее мнение в нейробиологии. 37: 66–74. Дои:10.1016 / j.conb.2016.01.010. PMID 26851755. S2CID 13897721.
- ^ Кутлу, Якуп Кутлу, Апдуллах Яйик, Эсен Йылдырым и Сердар Йылдырым (2017). "Машина экстремального обучения триангуляризации LU в классификации когнитивных задач ЭЭГ". Нейронные вычисления и приложения. 31 (4): 1117–1126. Дои:10.1007 / s00521-017-3142-1. S2CID 6572895.
- ^ Яйик, Апдулла Яйик, Якуп Кутлу и Гекхан Алтан (2019). «Регуляризованное измерение HessELM и наклонной энтропии для прогнозирования застойной сердечной недостаточности». arXiv:1907.05888. Bibcode:2019arXiv190705888Y. Цитировать журнал требует
| журнал =
(помощь) - ^ Алтан, Гекхан Алтан, Якуп Кутлу, Аднан Озхан Пекмезчи и Апдулла Яйик (2018). «Диагностика хронической обструктивной болезни легких с использованием машин глубокого экстремального обучения с ядром автоэнкодера LU». Международная конференция по передовым технологиям.
- ^ а б Zhu, W .; Miao, J .; Qing, L .; Хуанг, Г. Б. (01.07.2015). Иерархическая машина экстремального обучения для обучения представлению без учителя. 2015 Международная совместная конференция по нейронным сетям (IJCNN). С. 1–8. Дои:10.1109 / IJCNN.2015.7280669. ISBN 978-1-4799-1960-4. S2CID 14222151.
- ^ Нойман, Клаус; Стейл, Йохен Дж. (2011). «Пакетная пластичность для машин с экстремальным обучением». Proc. Международной конференции по искусственным нейронным сетям: 339–346.
- ^ Нойман, Клаус; Стейл, Йохен Дж. (2013). «Оптимизация экстремальных обучающихся машин с помощью регрессии гребня и собственной пластичности партии». Нейрокомпьютинг. 102: 23–30. Дои:10.1016 / j.neucom.2012.01.041.
- ^ Нойман, Клаус; Рольф, Матиас; Стейл, Йохен Дж. (2013). «Надежная интеграция непрерывных ограничений в экстремальные обучающие машины». Международный журнал неопределенности, нечеткости и систем, основанных на знаниях. 21 (supp02): 35–50. Дои:10.1142 / S021848851340014X. ISSN 0218-4885.
- ^ Нойман, Клаус (2014). Надежность. Библиотека университета Билефельда. С. 49–74.
- ^ "Официальная домашняя страница происхождения машин экстремального обучения (ELM)". Получено 15 декабря 2018.
- ^ Wang, Lipo P .; Ван, Чунру Р. (2008). "Комментарии к" Машина экстремального обучения"". IEEE Trans. Нейронные сети. 19 (8): 1494–5, ответ автора 1495–6. CiteSeerX 10.1.1.217.2330. Дои:10.1109 / TNN.2008.2002273. PMID 18701376.
- ^ Хуан, Гуан-Бинь (2008). Комментарий "Ответить" на "экстремальную обучающуюся машину" "". IEEE-транзакции в нейронных сетях. 19 (8): 1495–1496. Дои:10.1109 / tnn.2008.2002275. S2CID 14720232.
- ^ Гуан-Бинь, Хуан (2015). «КТО стоит за злым умыслом и нападением на ВЯЗ, ЦЕЛЬ атаки и СУТЬ ВЯЗА» (PDF). www.extreme-learning-machines.org.
- ^ Zhu, W .; Miao, J .; Цин, Л. (2014-07-01). Машина с ограниченным экстремальным обучением: новая высокодискриминационная нейронная сеть со случайной прямой связью. 2014 Международная совместная конференция по нейронным сетям (IJCNN). С. 800–807. Дои:10.1109 / IJCNN.2014.6889761. ISBN 978-1-4799-1484-5. S2CID 5769519.
- ^ Акусок, Антон; Бьорк, Кай-Микаэль; Миш, Йоан; Лендасс, Амори (2015). «Высокопроизводительные машины для экстремального обучения: полный набор инструментов для приложений с большими данными». IEEE доступ. 3: 1011–1025. Дои:10.1109 / access.2015.2450498.