Внутренняя мотивация (искусственный интеллект) - Intrinsic motivation (artificial intelligence)

Внутренняя мотивация в изучении искусственный интеллект и робототехника это механизм для включения искусственные агенты (включая роботы ) проявлять по своей природе полезное поведение, такое как исследование и любопытство, сгруппированные под тот же срок в изучении психология. Психологи считают, что внутренняя мотивация человека - это стремление выполнять деятельность для внутреннего удовлетворения - просто для развлечения или для вызова.[1]

Определение

An интеллектуальный агент имеет внутреннюю мотивацию к действию, если только информационное содержание опыта, полученного в результате действия, является мотивирующим фактором.

Информационное содержание в этом контексте измеряется в теоретико-информационный чувство количественной оценки неопределенности. Типичная внутренняя мотивация - это поиск необычных, неожиданных ситуаций (исследование), в отличие от типичной внешней мотивации, такой как поиск пищи (гомеостаз).[2] Внешние мотивации в искусственном интеллекте обычно описываются как зависимый от задачи или же целенаправленный.

Истоки в психологии

Изучение внутренней мотивации в психологии и нейробиологии началось в 1950-х годах, когда некоторые психологи объяснили исследование стремлением манипулировать и исследовать, однако этот гомеостатический взгляд был подвергнут критике со стороны Уайта.[3] Альтернативное объяснение от Берлин в 1960 году было стремление к оптимальному балансу между новизной и привычностью.[4] Фестингер описал разницу между внутренним и внешним взглядом на мир как диссонанс, который организмы стремятся уменьшить.[5] Похожая точка зрения была выражена в 70-х годах Каганом как стремление уменьшить несовместимость между когнитивной структурой и опытом.[6] В отличие от идеи оптимального несоответствия, Деци и Райан выявил в середине 80-х годов внутреннюю мотивацию, основанную на компетентности и самоопределении.[7]

Вычислительные модели

Влиятельный ранний вычислительный подход к реализации искусственного любопытства в начале 1990-х гг. Шмидхубер, с тех пор превратилась в «Формальную теорию творчества, веселья и внутренней мотивации».[8]

Внутренняя мотивация часто изучается в рамках вычислительной обучение с подкреплением[9][10] (представлен Sutton и Барто ), где вознаграждения, которые стимулируют поведение агента, являются производными по своей природе, а не извне, и должны извлекаться из окружающей среды.[11] Обучение с подкреплением не зависит от того, как генерируется вознаграждение - агент узнает политику (стратегию действий) на основе распределения вознаграждений, предоставляемых действиями и окружающей средой. Каждый подход к внутренней мотивации в этой схеме - это, по сути, разные способы создания функции вознаграждения для агента.

Любопытство против исследования

Внутренне мотивированные искусственные агенты демонстрируют поведение, напоминающее любопытство или же исследование. Исследование в области искусственного интеллекта и робототехники широко изучается в моделях обучения с подкреплением,[12] обычно побуждая агента исследовать как можно большую часть среды, чтобы уменьшить неопределенность в отношении динамики среды (изучение функции перехода) и того, как лучше всего достичь своих целей (изучение функции вознаграждения). Внутренняя мотивация, напротив, побуждает агента сначала исследовать те аспекты окружающей среды, которые предоставляют больше информации, искать новизну. Недавняя работа, объединяющая исследование количества посещений штата и внутренней мотивации, показала более быстрое обучение в условиях видеоигры.[13]

Типы моделей

Ouedeyer и Каплан внесли существенный вклад в изучение внутренней мотивации.[14][2][15] Они определяют внутреннюю мотивацию на основе теории Берлина,[4] и разделить подходы к реализации внутренней мотивации на три категории, которые широко следуют истокам психологии: «модели, основанные на знаниях», «модели, основанные на компетенциях» и «морфологические модели».[2] Модели, основанные на знаниях, подразделяются на «теоретико-информационные» и «предсказательные».[15] Бальдассаре и Миролли представляют похожую типологию, разделяя модели, основанные на знаниях, на модели, основанные на прогнозировании и на основе новизны.[16]

Теоретико-информационная внутренняя мотивация

Количественная оценка прогноза и новизны для управления поведением обычно обеспечивается посредством применения теоретико-информационных моделей, в которых состояние агента и стратегия (политика) во времени представлены распределениями вероятностей, описывающими Марковский процесс принятия решений и цикл восприятия и действия рассматривается как информационный канал.[17][18] Эти подходы претендуют на биологическую осуществимость как часть семейства байесовские подходы к функции мозга. Основная критика и сложность этих моделей заключается в невозможности вычисления распределений вероятностей в больших дискретных или непрерывных пространствах состояний.[2] Тем не менее, значительный объем работы был построен на моделировании потока информации вокруг сенсомоторного цикла, что привело к фактическим функциям вознаграждения, полученным за счет уменьшения неопределенности, в том числе, прежде всего, активный вывод,[19] но также инфотаксис,[20] прогнозная информация,[21][22] расширение прав и возможностей.[23]

Модели, основанные на компетенциях

Стали ' автотелический принцип [24] это попытка формализовать поток (психология).[25]

Внутренне мотивированное обучение

Внутренне мотивированное (или движимое любопытством) обучение - новая тема исследований в области искусственного интеллекта и развивающая робототехника[26] который направлен на разработку агентов, которые могут изучать общие навыки или поведение, которые можно использовать для повышения производительности при выполнении внешних задач, таких как получение ресурсов.[27] Внутренне мотивированное обучение изучалось как подход к автономному обучению на протяжении всей жизни на машинах.[28][29] Несмотря на впечатляющий успех глубокое обучение в определенных областях (например, AlphaGo ), многие из них (например, Гэри Маркус ) указали, что способность к обобщениям остается фундаментальной проблемой для искусственного интеллекта. Внутренне мотивированное обучение, хотя и многообещающее с точки зрения способности генерировать цели из структуры среды без навязанных извне задач, сталкивается с той же проблемой обобщения - как повторно использовать политики или последовательности действий, как сжимать и представлять непрерывные или сложные пространства состояний а также сохранить и повторно использовать основные особенности, которые были изучены.[27]

Смотрите также

Рекомендации

  1. ^ Райан, Ричард М; Деци, Эдвард Л. (2000). «Внутренняя и внешняя мотивация: классические определения и новые направления». Современная педагогическая психология. 25 (1): 54–67. Дои:10.1006 / ceps.1999.1020. PMID  10620381.
  2. ^ а б c d Аудейер, Пьер-Ив; Каплан, Фредерик (2008). «Как мы можем определить внутреннюю мотивацию?». Proc. 8-й конф. по эпигенетической робототехнике. 5. С. 29–31.
  3. ^ Уайт, Р. (1959). «Мотивация по-новому: понятие компетентности». Психологический обзор. 66 (5): 297–333. Дои:10,1037 / ч0040934. PMID  13844397.
  4. ^ а б Берлин, Д .: Конфликт, возбуждение и любопытство. Макгроу-Хилл, Нью-Йорк (1960)
  5. ^ Фестингер, Л .: Теория когнитивного диссонанса. Эванстон, Роу, Петерсон (1957)
  6. ^ Каган, Дж .: Мотивы и развитие. Журнал личности и социальной психологии 22, 51–66
  7. ^ Деси, Э.Л., Райан, Р.М .: Внутренняя мотивация и самоопределение в человеческом поведении. Пленум, Нью-Йорк (1985)
  8. ^ Шмидхубер, Дж (2010). «Формальная теория творчества, веселья и внутренней мотивации (1990-2010)». IEEE Trans. Auton. Ментальный разработчик. 2 (3): 230–247. Дои:10.1109 / TAMD.2010.2056368.
  9. ^ Барто, А., Сингх, С., Чентанез, Н .: Внутренне мотивированное изучение иерархических наборов навыков. В: ICDL 2004. Труды 3-й Международной конференции по развитию и обучению, Институт Солка, Сан-Диего (2004).
  10. ^ Сингх С., Барто А. Г. и Чентанез Н. (2005). Внутренне мотивированное обучение с подкреплением. В материалах 18-й ежегодной конференции по системам обработки нейронной информации (NIPS), Ванкувер, Британская Колумбия, Канада.
  11. ^ Барто, А.Г .: Внутренняя мотивация и обучение с подкреплением. В: Baldassarre, G., Mirolli, M. (eds.) Внутренне мотивированное обучение в естественных и искусственных системах. Спрингер, Берлин (2012)
  12. ^ Трун, С. Б. (1992). Эффективное исследование в обучении с подкреплением. https://doi.org/10.1007/978-1-4899-7687-1_244
  13. ^ Беллемар, М. Г., Сринивасан, С., Островски, Г., Шауль, Т., Сакстон, Д., и Мунос, Р. (2016). Объединение основанного на подсчете исследования и внутренней мотивации. Достижения в системах обработки нейронной информации, 1479–1487.
  14. ^ Каплан Ф. и Аудейер П. (2004). Максимальный прогресс в обучении: внутренняя система поощрений за развитие. Воплощенный искусственный интеллект, страницы 629–629.
  15. ^ а б Аудейер, П. Ю., и Каплан, Ф. (2009). Что такое внутренняя мотивация? Типология вычислительных подходов. Границы в нейроробототехнике, 3 (ноябрь). https://doi.org/10.3389/neuro.12.006.2007
  16. ^ Бальдассар, Джанлука; Миролли, Марко (2013). «Внутренне мотивированные системы обучения: обзор». Внутренне мотивированное обучение в естественных и искусственных системах. Рим, Италия: Springer. С. 1–14.
  17. ^ Клюбин, А., Полани, Д., Неханив, К. (2008). Держите ваши возможности открытыми: принцип управления сенсомоторными системами, основанный на информации. PLOS ONE, 3 (12): e4018. https://dx.doi.org/10.1371%2Fjournal.pone.0004018
  18. ^ Биль, Мартин; Гукельсбергер, Кристиан; Салге, Кристоф; Smith, Simón C .; Полани, Даниэль (2018). «Расширение ландшафта активного вывода: больше внутренних мотиваций в цикле восприятие-действие». Границы нейроробототехники. 12: 45. arXiv:1806.08083. Дои:10.3389 / fnbot.2018.00045. ISSN  1662-5218. ЧВК  6125413. PMID  30214404.
  19. ^ Фристон, Карл; Килнер, Джеймс; Харрисон, Ли (2006). «Принцип свободной энергии для мозга» (PDF). Журнал физиологии-Париж. Elsevier BV. 100 (1–3): 70–87. Дои:10.1016 / j.jphysparis.2006.10.001. ISSN  0928-4257. PMID  17097864.
  20. ^ Вергассола, М., Виллермо, Э., и Шрайман, Б. И. (2007). «Инфотаксис» как стратегия поиска без градиентов. Природа, 445 (7126), 406–409. https://doi.org/10.1038/nature05464
  21. ^ Эй, Н., Берчингер, Н., Дер, Р., Гюттлер, Ф. и Ольбрих, Э. (2008), «Прогностическая информация и исследовательское поведение автономных роботов», The European Physical Journal B 63 (3), 329 –339.
  22. ^ Мартиус, Г., Дер, Р., и Ай, Н. (2013). Информационная самоорганизация сложных моделей поведения роботов. PLOS ONE 8: e63400. DOI: 10.1371 / journal.pone.0063400
  23. ^ Salge, C; Глакин, С; Полани, Д. (2014). «Расширение возможностей - Введение». В Прокопенко, М (ред.). Управляемая самоорганизация: начало. Возникновение, сложность и вычисление. 9. Springer. С. 67–114. arXiv:1310.1863. Дои:10.1007/978-3-642-53734-9_4. ISBN  978-3-642-53733-2.
  24. ^ Стали, Люк: Автотелический принцип. В: Iida, F., Pfeifer, R., Steels, L., Kuniyoshi, Y. (ред.) Воплощенный искусственный интеллект. LNCS (LNAI), т. 3139, стр. 231–242. Спрингер, Гейдельберг (2004)
  25. ^ Csikszentmihalyi, M. (2000). За пределами скуки и беспокойства. Джосси-Басс.
  26. ^ Лунгарелла М., Метта Г., Пфейфер Р. и Сандини Г. (2003). Развивающая робототехника: обзор. Соединять. Sci. 15, 151–190. DOI: 10.1080 / 09540090310001655110
  27. ^ а б Сантуччи, В. Г., Аудейер, П. Ю., Барто, А., и Бальдассар, Г. (2020). От редакции: Внутренне мотивированное открытое обучение в автономных роботах. Frontiers in Neurorobotics, 13 (январь) 2019–2021 гг. https://doi.org/10.3389/fnbot.2019.00115
  28. ^ Барто, А. Г. (2013). «Внутренняя мотивация и обучение с подкреплением», in Inrinically Moved Learning in Natural and Artificial Systems (Берлин; Гейдельберг: Springer), 17–47.
  29. ^ Миролли М., Бальдассарр Г. (2013). «Функции и механизмы внутренней мотивации», в «Внутренне мотивированное обучение в естественных и искусственных системах», ред. Г. Бальдассарр и М. Миролли (Берлин; Гейдельберг: Springer), 49–72.