Уравнение Гамильтона – Якоби – Беллмана. - Hamilton–Jacobi–Bellman equation
В теория оптимального управления, то Гамильтон – Якоби – Беллман (HJB) уравнение дает необходимое и достаточное условие за оптимальность из контроль по отношению к функция потерь.[1] В общем случае это нелинейный уравнение в частных производных в функция значения, что означает его решение является сама функция ценности. Как только это решение известно, его можно использовать для получения оптимального управления, взяв максимизатор (или минимизатор) Гамильтониан участвует в уравнении HJB.[2][3]
Уравнение является результатом теории динамическое программирование который был впервые разработан в 1950-х годах Ричард Беллман и коллеги.[4][5][6] Подключение к Уравнение Гамильтона – Якоби из классическая физика был впервые нарисован Рудольф Кальман.[7] В дискретное время проблемы, соответствующие разностное уравнение обычно называют Уравнение беллмана.
В то время как классический вариационные задачи, такой как проблема брахистохрона, может быть решена с помощью уравнения Гамильтона – Якоби – Беллмана,[8] метод применим к более широкому кругу задач. Далее его можно обобщить на стохастический систем, и в этом случае уравнение HJB является уравнением второго порядка эллиптическое уравнение в частных производных.[9] Однако серьезным недостатком является то, что уравнение HJB допускает классические решения только для достаточно гладкий значение, которое не гарантируется в большинстве ситуаций. Вместо этого понятие вязкость раствора требуется, в котором обычные производные заменяются на (многозначные) субпроизводные.[10]
Задачи оптимального управления
Рассмотрим следующую задачу детерминированного оптимального управления за период времени :
куда - скалярная функция нормы затрат и это функция, которая дает завещанная стоимость в конечном состоянии, - вектор состояния системы, считается заданным, и за это вектор управления, который мы пытаемся найти.
Система также должна быть подчинена
куда дает вектор, определяющий физическую эволюцию вектора состояния во времени.
Уравнение в частных производных
Для этой простой системы (позволяя ) уравнение в частных производных Гамильтона – Якоби – Беллмана имеет вид
в соответствии с конечным условием
куда обозначает частную производную от по временной переменной . Здесь обозначает скалярное произведение векторов и и в градиент из по переменным .
Неизвестный скаляр в приведенном выше уравнении с частными производными - это уравнение Беллмана функция значения, который представляет собой затраты, понесенные при запуске в состоянии вовремя и оптимально управлять системой с тех пор и до времени .
Вывод уравнения
Интуитивно уравнение HJB можно вывести следующим образом. Если оптимальная функция затрат (также называемая «функцией ценности»), то по Ричарду Беллману принцип оптимальности, идущий от времени т к т + dt, у нас есть
Обратите внимание, что Расширение Тейлора первого члена в правой части есть
куда обозначает члены разложения Тейлора более высокого порядка, чем один в маленький-о обозначение. Тогда, если мы вычтем с обеих сторон разделить на dt, и возьмем предел как dt стремится к нулю, мы получаем уравнение HJB, определенное выше.
Решение уравнения
Уравнение HJB обычно решено в обратном направлении, начиная с и заканчивая .[нужна цитата ]
При решении по всему пространству состояний и непрерывно дифференцируемо, уравнение HJB является необходимое и достаточное условие для оптимума, когда конечное состояние не ограничено.[11] Если мы сможем решить тогда мы можем найти из него контроль при этом достигается минимальная стоимость.
В общем случае уравнение HJB не имеет классического (гладкого) решения. Для таких ситуаций было разработано несколько понятий обобщенных решений, в том числе: вязкость раствора (Пьер-Луи Лайонс и Майкл Крэндалл ),[12] минимаксное решение (Андрей Измайлович Субботин ), и другие.
Приближенное динамическое программирование было введено Д. П. Бертсекас и Я. Н. Цициклис с использованием искусственные нейронные сети (многослойные персептроны ) для аппроксимации функции Беллмана в целом.[13] Это эффективная стратегия смягчения последствий для уменьшения влияния размерности за счет замены запоминания полного отображения функций для всего пространственного домена запоминанием отдельных параметров нейронной сети. В частности, для систем с непрерывным временем был представлен приближенный подход динамического программирования, сочетающий обе итерации политики с нейронными сетями.[14] В дискретном времени был представлен подход к решению уравнения HJB, объединяющий итерации значений и нейронные сети.[15]
Расширение на стохастические задачи
Идея решения проблемы управления путем применения принципа оптимальности Беллмана и последующей разработки в обратном направлении стратегии оптимизации может быть обобщена на задачи стохастического управления. Считайте то же самое, что и выше
теперь с стохастический процесс для оптимизации и рулевое управление. Сначала используя Bellman, а затем расширяя с Правило Ито, можно найти стохастическое уравнение HJB
куда представляет оператор стохастического дифференцирования, и с учетом терминального условия
Обратите внимание, что случайность исчезла. В этом случае решение последнего не обязательно решает основную проблему, это только кандидат, и требуется дополнительный подтверждающий аргумент. Этот метод широко используется в финансовой математике для определения оптимальных инвестиционных стратегий на рынке (см., Например, Проблема портфеля Мертона ).
Приложение к LQG Control
В качестве примера мы можем рассмотреть систему с линейной стохастической динамикой и квадратичной стоимостью. Если динамика системы задана
и стоимость накапливается по ставке , уравнение HJB имеет вид
с оптимальным действием, данным
Предполагая квадратичную форму функции цены, мы получаем обычный Уравнение Риккати для гессиана функции цены, как обычно для Линейно-квадратично-гауссовское управление.
Смотрите также
- Уравнение беллмана, дискретный аналог уравнения Гамильтона – Якоби – Беллмана.
- Принцип максимума Понтрягина, необходимое, но не достаточное условие для оптимума, путем максимизации Гамильтониан, но это имеет преимущество перед HJB в том, что его нужно удовлетворять только по одной рассматриваемой траектории.
Рекомендации
- ^ Кирк, Дональд Э. (1970). Теория оптимального управления: введение. Энглвуд Клиффс, Нью-Джерси: Прентис-Холл. С. 86–90. ISBN 0-13-638098-0.
- ^ Юн, Цзюнминь; Чжоу, Сюнь Юй (1999). «Динамическое программирование и уравнения HJB». Стохастические управления: гамильтоновы системы и уравнения HJB. Springer. С. 157–215 [стр. 163]. ISBN 0-387-98723-1.
- ^ Найду, Десинени С. (2003). «Уравнение Гамильтона – Якоби – Беллмана». Оптимальные системы управления. Бока-Ратон: CRC Press. стр. 277–283 [стр. 280]. ISBN 0-8493-0892-5.
- ^ Беллман, Р. Э. (1954). «Динамическое программирование и новый формализм в вариационном исчислении». Proc. Natl. Акад. Sci. 40 (4): 231–235. Bibcode:1954ПНАС ... 40..231Б. Дои:10.1073 / пнас.40.4.231. ЧВК 527981. PMID 16589462.
- ^ Беллман, Р. Э. (1957). Динамическое программирование. Принстон, штат Нью-Джерси.
- ^ Bellman, R .; Дрейфус, С. (1959). «Применение динамического программирования для определения оптимальных спутниковых траекторий». J. Br. Межпланета. Soc. 17: 78–83.
- ^ Кальман, Рудольф Э. (1963). «Теория оптимального управления и вариационное исчисление». В Bellman, Ричард (ред.). Математические методы оптимизации. Беркли: Калифорнийский университет Press. С. 309–331. OCLC 1033974.
- ^ Кемаджо-Браун, Изабель (2016). «Краткая история теории оптимального управления и некоторых последних разработок». В Будзбане, Григорий; Хьюз, Гарри Рэндольф; Шурц, Анри (ред.). Вероятность на алгебраических и геометрических структурах. Современная математика. 668. С. 119–130. Дои:10,1090 / conm / 668/13400. ISBN 9781470419455.
- ^ Чанг, Фву-Ранк (2004). Стохастическая оптимизация в непрерывном времени. Кембридж, Великобритания: Издательство Кембриджского университета. С. 113–168. ISBN 0-521-83406-6.
- ^ Барди, Мартино; Капуццо-Дольчетта, Итало (1997). Оптимальное управление и вязкостные решения уравнений Гамильтона – Якоби – Беллмана.. Бостон: Биркхойзер. ISBN 0-8176-3640-4.
- ^ Бертсекас, Дмитрий П. (2005). Динамическое программирование и оптимальное управление. Athena Scientific.
- ^ Барди, Мартино; Капуццо-Дольчетта, Итало (1997). Оптимальное управление и вязкостные решения уравнений Гамильтона-Якоби-Беллмана. Бостон: Биркхойзер. ISBN 0-8176-3640-4.
- ^ Bertsekas, Dimitri P .; Цициклис, Джон Н. (1996). Нейродинамическое программирование. Athena Scientific. ISBN 978-1-886529-10-6.
- ^ Абу-Халаф, Мурад; Льюис, Фрэнк Л. (2005). «Почти оптимальные законы управления для нелинейных систем с насыщающими исполнительными механизмами с использованием подхода нейронной сети HJB». Automatica. 41 (5): 779–791. Дои:10.1016 / j.automatica.2004.11.034.
- ^ Аль-Тамими, Асма; Льюис, Фрэнк Л .; Абу-Халаф, Мурад (2008). «Решение нелинейного HJB с дискретным временем с использованием приближенного динамического программирования: доказательство сходимости». IEEE Transactions по системам, человеку и кибернетике, часть B (кибернетика). 38 (4): 943–949. Дои:10.1109 / TSMCB.2008.926614.
дальнейшее чтение
- Бертсекас, Дмитрий П. (2005). Динамическое программирование и оптимальное управление. Athena Scientific.
- Фам, Хуйен (2009). "Классический подход к динамическому программированию в PDE". Непрерывное стохастическое управление и оптимизация с финансовыми приложениями. Springer. С. 37–60. ISBN 978-3-540-89499-5.
- Стенгель, Роберт Ф. (1994). «Условия оптимальности». Оптимальное управление и оценка. Нью-Йорк: Дувр. С. 201–222. ISBN 0-486-68200-5.