Машина для экстремального обучения - Extreme learning machine

Машины для экстремального обучения находятся нейронные сети с прямой связью за классификация, регресс, кластеризация, разреженное приближение, сжатие и особенности обучения с одним или несколькими уровнями скрытых узлов, где параметры скрытых узлов (а не только веса, соединяющие входы со скрытыми узлами) не нужно настраивать. Эти скрытые узлы могут назначаться случайным образом и никогда не обновляться (т.е. они случайная проекция но с нелинейными преобразованиями) или могут быть унаследованы от своих предков без изменения. В большинстве случаев выходные веса скрытых узлов обычно изучаются за один шаг, что по сути сводится к изучению линейной модели. Название «машина экстремального обучения» (ELM) таким моделям дал их главный изобретатель Гуан-Бинь Хуанг.

По словам их создателей, эти модели способны обеспечить хорошую производительность обобщения и обучаться в тысячи раз быстрее, чем сети, обученные с использованием обратное распространение.[1] В литературе также показано, что эти модели могут превзойти опорные векторные машины как в классификационных, так и в регрессионных приложениях.[2][3][4]

История

С 2001-2010 гг. Исследования ELM в основном были сосредоточены на единой обучающей структуре для «обобщенных» нейронных сетей прямого распространения с одним скрытым уровнем (SLFN), включая, помимо прочего, сигмовидные сети, сети RBF, пороговые сети,[5] тригонометрические сети, системы нечеткого вывода, ряды Фурье,[6][7] Преобразование Лапласа, вейвлет-сети,[8] и т. д. Одним из значительных достижений тех лет является успешное теоретическое доказательство универсальных возможностей приближения и классификации ELM.[6][9][10]

С 2010 по 2015 годы исследования ELM распространились на унифицированную среду обучения для обучения ядра, SVM и несколько типичных методов обучения функциям, таких как Анализ главных компонентов (PCA) и Неотрицательная матричная факторизация (NMF). Показано, что SVM на самом деле предоставляет неоптимальные решения по сравнению с ELM, а ELM может предоставлять отображение ядра белого ящика, которое реализуется посредством отображения случайных функций ELM, вместо ядра черного ящика, используемого в SVM. PCA и NMF можно рассматривать как частные случаи, когда в ELM используются линейные скрытые узлы.[11][12]

С 2015 по 2017 год повышенное внимание уделялось иерархическим реализациям.[13][14] ELM. Кроме того, с 2011 года были проведены значительные биологические исследования, подтверждающие определенные теории ELM.[15][16][17]

С 2017 года для решения проблемы низкой конвергенции во время обучения LU разложение, Разложение Хессенберга и QR-разложение основанные подходы с регуляризация начали привлекать внимание[18][19][20]

В объявлении от 2017 г. Google ученый: "Классические статьи: статьи, выдержавшие испытание временем ", два документа ELM внесены в список"Топ-10 в области искусственного интеллекта за 2006 год, "занимая позиции 2 и 7.

Алгоритмы

Учитывая единственный скрытый слой ELM, предположим, что функция вывода -й скрытый узел , куда и параметры -й скрытый узел. Функция вывода ELM для SLFN с скрытые узлы:

, куда выходной вес -й скрытый узел.

является отображением вывода скрытого слоя ELM. Данный обучающие образцы, выходная матрица скрытого слоя ELM задается как:

и это целевая матрица обучающих данных:

Вообще говоря, ELM - это разновидность нейронных сетей регуляризации, но с ненастроенными отображениями скрытых слоев (образованными случайными скрытыми узлами, ядрами или другими реализациями) его целевая функция:

куда .

Различные комбинации , , и могут использоваться и приводить к различным алгоритмам обучения для регрессии, классификации, разреженного кодирования, сжатия, изучения функций и кластеризации.

В качестве особого случая простейший алгоритм обучения ELM изучает модель формы (для нейронных сетей сигмовидной формы с одним скрытым слоем):

куда W1 - матрица весов входных и скрытых слоев, - функция активации, а W2 - это матрица весов, скрытых для выходного слоя. Алгоритм работает следующим образом:

  1. Наполнять W1 со случайными значениями (например, Гауссов случайный шум );
  2. оценивать W2 к метод наименьших квадратов к матрице переменных ответа Y, вычисленный с использованием псевдообратный +, учитывая матрица дизайна Икс:

Архитектура

В большинстве случаев ELM используется как сеть прямого распространения со скрытым уровнем (SLFN), включая, помимо прочего, сигмоидные сети, сети RBF, пороговые сети, сети нечеткого вывода, сложные нейронные сети, вейвлет-сети, преобразование Фурье, преобразование Лапласа и т. Д. Из-за различных реализаций алгоритмов обучения для регрессии, классификации, разреженного кодирования, сжатия, изучения функций и кластеризации, мульти-ELM использовались для формирования многослойных сетей со скрытым уровнем, глубокое обучение или иерархические сети.[13][14][21]

Скрытый узел в ELM - это вычислительный элемент, который не обязательно рассматривать как классический нейрон. Скрытый узел в ELM может быть классическими искусственными нейронами, базовыми функциями или подсетью, образованной некоторыми скрытыми узлами.[9]

Теории

Возможности универсального приближения и классификации[2][3] доказаны для ELM в литературе. Особенно, Гуан-Бинь Хуан и его команда потратили почти семь лет (2001–2008) на строгие доказательства универсальной аппроксимационной способности ELM.[6][9][10]

Возможность универсального приближения

Теоретически любая непостоянная кусочно-непрерывная функция может использоваться в качестве функции активации в скрытых узлах ELM, такая функция активации не обязательно должна быть дифференциальной. Если настройка параметров скрытых узлов может заставить SLFN приближаться к любой целевой функции , тогда параметры скрытого узла могут быть сгенерированы случайным образом в соответствии с любой вероятностью непрерывного распределения, и выполняется с вероятностью единица с соответствующими выходными весами .

Возможность классификации

Учитывая любую непостоянную кусочно-непрерывную функцию в качестве функции активации в SLFN, если настройка параметров скрытых узлов может заставить SLFN аппроксимировать любую целевую функцию , то SLFN со случайным отображением скрытого слоя может разделять произвольные непересекающиеся области любой формы.

Нейроны

Широкий тип нелинейных кусочно-непрерывных функций может использоваться в скрытых нейронах ELM, например:

Реальный домен

Сигмовидная функция:

Функция Фурье:

Функция жесткого ограничения:

Функция Гаусса:

Функция мультиквадриков:

Вейвлет: куда - вейвлет-функция матери-одиночки.

Комплексный домен

Круговые функции:

Обратные круговые функции:

Гиперболические функции:

Обратные гиперболические функции:

Надежность

В черный ящик Характер нейронных сетей в целом и машин с экстремальным обучением (ELM) в частности является одной из основных проблем, которая отталкивает инженеров от применения в небезопасных задачах автоматизации. К этой конкретной проблеме подошли с помощью нескольких различных методов. Один из подходов - уменьшить зависимость от случайного входа.[22][23] Другой подход направлен на включение постоянных ограничений в процесс обучения ELM.[24][25] которые основаны на предварительных знаниях о конкретной задаче. Это разумно, потому что решения машинного обучения должны гарантировать безопасную работу во многих областях приложений. Упомянутые исследования показали, что особая форма ELM с его функциональным разделением и линейными весами считывания особенно хорошо подходит для эффективного включения непрерывных ограничений в заранее определенных областях входного пространства.

Полемика

Со стороны академического сообщества есть две основные жалобы на эту работу: первая касается «переосмысления и игнорирования предыдущих идей», вторая - «неправильного наименования и популяризации», как показали некоторые дискуссии в 2008 и 2015 годах.[26] В частности, в письме было указано[27] редактору IEEE-транзакции в нейронных сетях что идея использования скрытого слоя, связанного со входами случайными необученными весами, уже была предложена в оригинальных статьях по Сети RBF в конце 1980-х; Гуан-Бинь Хуан ответил, указав на тонкие различия.[28] В статье 2015 г.[3] Хуанг ответил на жалобы об изобретении им названия ELM для уже существующих методов, жалуясь на «очень негативные и бесполезные комментарии к ELM ни в академической, ни в профессиональной манере из-за различных причин и намерений», а также на «безответственную анонимную атаку, направленную на уничтожение. среда исследования гармонии », утверждая, что его работа« обеспечивает объединяющую платформу обучения »для различных типов нейронных сетей,[3] включая ELM с иерархической структурой.[21] В 2015 году Хуан также дал формальное опровержение тому, что он считал «злым умыслом и нападением».[29] Недавние исследования заменяют случайные веса на случайные веса с ограничениями.[2][30]

Открытые источники

Смотрите также

Рекомендации

  1. ^ Хуанг, Гуан-Бинь; Чжу, Цинь-Ю; Сью, Чи-Кхеонг (2006). «Экстремальная обучающая машина: теория и приложения». Нейрокомпьютинг. 70 (1): 489–501. CiteSeerX  10.1.1.217.3692. Дои:10.1016 / j.neucom.2005.12.126.
  2. ^ а б c Хуанг, Гуан-Бинь; Хунмин Чжоу; Сяоцзянь Дин; и Руи Чжан (2012). «Экстремальная обучающая машина для регрессии и многоклассовой классификации» (PDF). Транзакции IEEE по системам, человеку и кибернетике - Часть B: Кибернетика. 42 (2): 513–529. CiteSeerX  10.1.1.298.1213. Дои:10.1109 / tsmcb.2011.2168604. PMID  21984515. S2CID  15037168.
  3. ^ а б c d Хуан, Гуан-Бинь (2015). «Что такое машины экстремального обучения? Заполнение пробела между мечтой Фрэнка Розенблатта и головоломкой Джона фон Неймана» (PDF). Когнитивные вычисления. 7 (3): 263–278. Дои:10.1007 / s12559-015-9333-0. S2CID  13936498.
  4. ^ Хуан, Гуан-Бинь (2014). «Взгляд на машины с экстремальным обучением: случайные нейроны, случайные особенности и ядра» (PDF). Когнитивные вычисления. 6 (3): 376–390. Дои:10.1007 / s12559-014-9255-2. S2CID  7419259.
  5. ^ Хуанг, Гуан-Бинь, Цинь-Ю Чжу, К.З. Мао, Чи-Кхеонг Сью, П. Саратчандран и Н. Сундарараджан (2006). "Можно ли обучать пороговые сети напрямую?" (PDF). IEEE Transactions on Circuits and Systems-II: Express Briefs. 53 (3): 187–191. Дои:10.1109 / tcsii.2005.857540. S2CID  18076010.
  6. ^ а б c Хуанг, Гуан-Бин, Лей Чен и Чи-Кхеонг Сью (2006). «Универсальное приближение с использованием инкрементных конструктивных сетей с прямой связью со случайными скрытыми узлами» (PDF). IEEE-транзакции в нейронных сетях. 17 (4): 879–892. Дои:10.1109 / tnn.2006.875977. PMID  16856652.
  7. ^ Рахими, Али и Бенджамин Рехт (2008). «Взвешенные суммы случайных кухонных раковин: замена минимизации рандомизацией в обучении» (PDF). Достижения в системах обработки нейронной информации 21.
  8. ^ Цао, Цзювэнь, Чжипин Линь, Гуан-Бинь Хуан (2010). "Составные функции вейвлет-нейронных сетей с экстремальной обучающей машиной". Нейрокомпьютинг. 73 (7–9): 1405–1416. Дои:10.1016 / j.neucom.2009.12.007.
  9. ^ а б c Хуан, Гуан-Бинь, Лэй Чен (2007). "Выпуклая инкрементальная машина экстремального обучения" (PDF). Нейрокомпьютинг. 70 (16–18): 3056–3062. Дои:10.1016 / j.neucom.2007.02.009.
  10. ^ а б Хуан, Гуан-Бинь и Лэй Чен (2008). «Улучшенная машина для инкрементного экстремального обучения на основе случайного поиска» (PDF). Нейрокомпьютинг. 71 (16–18): 3460–3468. CiteSeerX  10.1.1.217.3009. Дои:10.1016 / j.neucom.2007.10.008.
  11. ^ Хэ, Цин, Синь Цзинь, Чанъин Ду, Фучжэнь Чжуан, Чжунчжи Ши (2014). «Кластеризация в пространстве возможностей машин экстремального обучения» (PDF). Нейрокомпьютинг. 128: 88–95. Дои:10.1016 / j.neucom.2012.12.063.
  12. ^ Kasun, Liyanaarachchi Lekamalage Chamara, Yan Yang, Guang-Bin Huang и Zhengyou Zhang (2016). «Уменьшение размеров с помощью экстремальной обучающей машины» (PDF). IEEE Transactions по обработке изображений. 25 (8): 3906–3918. Bibcode:2016ITIP ... 25,3906 тыс.. Дои:10.1109 / tip.2016.2570569. PMID  27214902. S2CID  1803922.
  13. ^ а б Хуанг, Гуан-Бинь, Цзо Бай и Лиянаараччи Лекамалаге Чамара Касун и Чи Ман Вонг (2015). «Машина экстремального обучения на основе локальных восприимчивых полей» (PDF). Журнал IEEE Computational Intelligence Magazine. 10 (2): 18–29. Дои:10.1109 / mci.2015.2405316. S2CID  1417306.
  14. ^ а б Тан, Цзесюн, Чэньвэй Дэн и Гуан-Бинь Хуан (2016). "Экстремальная обучающая машина для многослойного персептрона" (PDF). Транзакции IEEE в нейронных сетях и обучающих системах. 27 (4): 809–821. Дои:10.1109 / tnnls.2015.2424995. PMID  25966483. S2CID  206757279.
  15. ^ Барак, Омри; Риготти, Маттиа; и Фуси, Стефано (2013). «Редкость нейронов со смешанной селективностью контролирует компромисс между обобщением и дискриминацией». Журнал неврологии. 33 (9): 3844–3856. Дои:10.1523 / jneurosci.2753-12.2013. ЧВК  6119179. PMID  23447596.
  16. ^ Риготти, Маттиа; Барак, Омри; Уорден, Мелисса Р .; Ван, Сяо-Цзин; Доу, Натаниэль Д.; Миллер, Эрл К .; и Фуси, Стефано (2013). «Важность смешанной избирательности в сложных когнитивных задачах». Природа. 497 (7451): 585–590. Bibcode:2013Натура.497..585р. Дои:10.1038 / природа12160. ЧВК  4412347. PMID  23685452.
  17. ^ Фузи, Стефано, Эрл К. Миллер и Маттиа Риготти (2015). «Почему смешиваются нейроны: высокая размерность для более высокого познания» (PDF). Текущее мнение в нейробиологии. 37: 66–74. Дои:10.1016 / j.conb.2016.01.010. PMID  26851755. S2CID  13897721.
  18. ^ Кутлу, Якуп Кутлу, Апдуллах Яйик, Эсен Йылдырым и Сердар Йылдырым (2017). "Машина экстремального обучения триангуляризации LU в классификации когнитивных задач ЭЭГ". Нейронные вычисления и приложения. 31 (4): 1117–1126. Дои:10.1007 / s00521-017-3142-1. S2CID  6572895.
  19. ^ Яйик, Апдулла Яйик, Якуп Кутлу и Гекхан Алтан (2019). «Регуляризованное измерение HessELM и наклонной энтропии для прогнозирования застойной сердечной недостаточности». arXiv:1907.05888. Bibcode:2019arXiv190705888Y. Цитировать журнал требует | журнал = (помощь)
  20. ^ Алтан, Гекхан Алтан, Якуп Кутлу, Аднан Озхан Пекмезчи и Апдулла Яйик (2018). «Диагностика хронической обструктивной болезни легких с использованием машин глубокого экстремального обучения с ядром автоэнкодера LU». Международная конференция по передовым технологиям.
  21. ^ а б Zhu, W .; Miao, J .; Qing, L .; Хуанг, Г. Б. (01.07.2015). Иерархическая машина экстремального обучения для обучения представлению без учителя. 2015 Международная совместная конференция по нейронным сетям (IJCNN). С. 1–8. Дои:10.1109 / IJCNN.2015.7280669. ISBN  978-1-4799-1960-4. S2CID  14222151.
  22. ^ Нойман, Клаус; Стейл, Йохен Дж. (2011). «Пакетная пластичность для машин с экстремальным обучением». Proc. Международной конференции по искусственным нейронным сетям: 339–346.
  23. ^ Нойман, Клаус; Стейл, Йохен Дж. (2013). «Оптимизация экстремальных обучающихся машин с помощью регрессии гребня и собственной пластичности партии». Нейрокомпьютинг. 102: 23–30. Дои:10.1016 / j.neucom.2012.01.041.
  24. ^ Нойман, Клаус; Рольф, Матиас; Стейл, Йохен Дж. (2013). «Надежная интеграция непрерывных ограничений в экстремальные обучающие машины». Международный журнал неопределенности, нечеткости и систем, основанных на знаниях. 21 (supp02): 35–50. Дои:10.1142 / S021848851340014X. ISSN  0218-4885.
  25. ^ Нойман, Клаус (2014). Надежность. Библиотека университета Билефельда. С. 49–74.
  26. ^ "Официальная домашняя страница происхождения машин экстремального обучения (ELM)". Получено 15 декабря 2018.
  27. ^ Wang, Lipo P .; Ван, Чунру Р. (2008). "Комментарии к" Машина экстремального обучения"". IEEE Trans. Нейронные сети. 19 (8): 1494–5, ответ автора 1495–6. CiteSeerX  10.1.1.217.2330. Дои:10.1109 / TNN.2008.2002273. PMID  18701376.
  28. ^ Хуан, Гуан-Бинь (2008). Комментарий "Ответить" на "экстремальную обучающуюся машину" "". IEEE-транзакции в нейронных сетях. 19 (8): 1495–1496. Дои:10.1109 / tnn.2008.2002275. S2CID  14720232.
  29. ^ Гуан-Бинь, Хуан (2015). «КТО стоит за злым умыслом и нападением на ВЯЗ, ЦЕЛЬ атаки и СУТЬ ВЯЗА» (PDF). www.extreme-learning-machines.org.
  30. ^ Zhu, W .; Miao, J .; Цин, Л. (2014-07-01). Машина с ограниченным экстремальным обучением: новая высокодискриминационная нейронная сеть со случайной прямой связью. 2014 Международная совместная конференция по нейронным сетям (IJCNN). С. 800–807. Дои:10.1109 / IJCNN.2014.6889761. ISBN  978-1-4799-1484-5. S2CID  5769519.
  31. ^ Акусок, Антон; Бьорк, Кай-Микаэль; Миш, Йоан; Лендасс, Амори (2015). «Высокопроизводительные машины для экстремального обучения: полный набор инструментов для приложений с большими данными». IEEE доступ. 3: 1011–1025. Дои:10.1109 / access.2015.2450498.