Функция значения - Value function

В функция значения из проблема оптимизации дает ценить достигнутый целевая функция в решении, пока только в зависимости от параметры проблемы.[1][2] В контролируемый динамическая система, функция цены представляет собой оптимальный выигрыш системы на интервале [т, т1] когда началось в то время-т переменная состояния х (т) = х.[3] Если целевая функция представляет собой некоторую стоимость, которая должна быть минимизирована, функция ценности может интерпретироваться как стоимость завершения оптимальной программы и, таким образом, упоминается как «функция текущих затрат».[4][5] В экономическом контексте, где целевая функция обычно представляет полезность, функция цены концептуально эквивалентна косвенная функция полезности.[6][7]

В проблеме оптимальный контроль, функция ценности определяется как супремум целевой функции, взятой по множеству допустимых управлений. Данный , типичная задача оптимального управления состоит в том, чтобы

при условии

с переменной начального состояния .[8] Целевая функция должно быть максимизировано по всем допустимым управлениям , куда это Измеримая функция Лебега из некоторому заданному произвольному множеству в . Тогда функция ценности определяется как

с , куда это лом ценить. Если оптимальная пара траекторий управления и состояния , тогда . Функция что дает оптимальный контроль исходя из текущего состояния называется политикой контроля обратной связи,[4] или просто политическая функция.[9]

Принцип оптимальности Беллмана примерно утверждает, что любая оптимальная политика во времени , принимая текущее состояние поскольку «новое» начальное условие должно быть оптимальным для оставшейся задачи. Если функция значения оказывается непрерывно дифференцируемый,[10] это приводит к важному уравнение в частных производных известный как Уравнение Гамильтона – Якоби – Беллмана.,

где максиманд в правой части также можно переписать как Гамильтониан, , так как

с играя роль стоимостные переменные.[11] Учитывая это определение, мы далее имеем , и после дифференцирования обеих частей уравнения HJB по ,

который после замены соответствующих терминов восстанавливает уравнение стоимости

куда является Обозначение Ньютона для производной по времени.

Функция ценности - это вязкость раствора к уравнению Гамильтона – Якоби – Беллмана.[12] В онлайн приближенное оптимальное управление с обратной связью, функция цены также является Функция Ляпунова что устанавливает глобальную асимптотическую устойчивость замкнутой системы.[13]

Рекомендации

  1. ^ Флеминг, Венделл Х.; Ришель, Раймонд В. (1975). Детерминированное и стохастическое оптимальное управление. Нью-Йорк: Спрингер. С. 81–83. ISBN  0-387-90155-8.
  2. ^ Капуто, Майкл Р. (2005). Основы динамического экономического анализа: теория оптимального управления и приложения. Нью-Йорк: Издательство Кембриджского университета. п. 185. ISBN  0-521-60368-4.
  3. ^ Вебер, Томас А. (2011). Теория оптимального управления: с приложениями в экономике. Кембридж: MIT Press. п. 82. ISBN  978-0-262-01573-8.
  4. ^ а б Bertsekas, Dimitri P .; Цициклис, Джон Н. (1996). Нейродинамическое программирование. Бельмонт: Athena Scientific. п. 2. ISBN  1-886529-10-8.
  5. ^ «EE365: динамическое программирование» (PDF).
  6. ^ Мас-Колелл, Андреу; Уинстон, Майкл Д.; Грин, Джерри Р. (1995). Микроэкономическая теория. Нью-Йорк: Издательство Оксфордского университета. п. 964. ISBN  0-19-507340-1.
  7. ^ Корба, Дин; Stinchcombe, Maxwell B .; Земан, Юрай (2009). Введение в математический анализ для экономической теории и эконометрики. Издательство Принстонского университета. п. 145. ISBN  978-0-691-11867-3.
  8. ^ Камиен, Мортон И.; Шварц, Нэнси Л. (1991). Динамическая оптимизация: вариационный расчет и оптимальное управление в экономике и менеджменте (2-е изд.). Амстердам: Северная Голландия. п. 259. ISBN  0-444-01609-0.
  9. ^ Юнгквист, Ларс; Сарджент, Томас Дж. (2018). Рекурсивная макроэкономическая теория (Четвертое изд.). Кембридж: MIT Press. п. 106. ISBN  978-0-262-03866-9.
  10. ^ Бенвенист и Шейнкман установили достаточные условия дифференцируемости функции цены, что, в свою очередь, позволяет применять теорема о конверте, видеть Benveniste, L.M .; Шейнкман, Дж. А. (1979). «О дифференцируемости функции стоимости в динамических моделях экономики». Econometrica. 47 (3): 727–732. Дои:10.2307/1910417. JSTOR  1910417. Также см Зейерстад, Атле (1982). «Свойства дифференцируемости функции оптимального значения в теории управления». Журнал экономической динамики и управления. 4: 303–310. Дои:10.1016/0165-1889(82)90019-7.
  11. ^ Кирк, Дональд Э. (1970). Теория оптимального управления. Энглвуд Клиффс, Нью-Джерси: Прентис-Холл. п. 88. ISBN  0-13-638098-0.
  12. ^ Чжоу, X. Y. (1990). «Принцип максимума, динамическое программирование и их связь в детерминированном управлении». Журнал теории оптимизации и приложений. 65 (2): 363–373. Дои:10.1007 / BF01102352. S2CID  122333807.
  13. ^ Камалапуркар, Рушикеш; Уолтерс, Патрик; Розенфельд, Джоэл; Диксон, Уоррен (2018). «Оптимальное управление и устойчивость по Ляпунову». Обучение с подкреплением для оптимального управления обратной связью: подход на основе Ляпунова. Берлин: Springer. С. 26–27. ISBN  978-3-319-78383-3.

дальнейшее чтение