Функция значения - Value function

В функция значения из проблема оптимизации дает ценить достигнутый целевая функция в решении, пока только в зависимости от параметры проблемы.^[1]^[2] В контролируемый динамическая система, функция цены представляет собой оптимальный выигрыш системы на интервале [т, т₁] когда началось в то время-т переменная состояния х (т) = х.^[3] Если целевая функция представляет собой некоторую стоимость, которая должна быть минимизирована, функция ценности может интерпретироваться как стоимость завершения оптимальной программы и, таким образом, упоминается как «функция текущих затрат».^[4]^[5] В экономическом контексте, где целевая функция обычно представляет полезность, функция цены концептуально эквивалентна косвенная функция полезности.^[6]^[7]

В проблеме оптимальный контроль, функция ценности определяется как супремум целевой функции, взятой по множеству допустимых управлений. Данный ${ displaystyle (t_ {0}, x_ {0}) in [0, t_ {1}] times mathbb {R} ^ {d}}$ , типичная задача оптимального управления состоит в том, чтобы

{ displaystyle { text {maximize}} quad J (t_ {0}, x_ {0}; u) = int _ {t_ {0}} ^ {t_ {1}} I (t, x (t ), u (t)) , mathrm {d} t + phi (x (t_ {1}))}

при условии

{ Displaystyle { гидроразрыва { mathrm {d} x (t)} { mathrm {d} t}} = f (t, x (t), u (t))}

с переменной начального состояния ${ Displaystyle х (т_ {0}) = х_ {0}}$ .^[8] Целевая функция ${ Displaystyle J (t_ {0}, x_ {0}; u)}$ должно быть максимизировано по всем допустимым управлениям ${ Displaystyle и в Ю [т_ {0}, т_ {1}]}$ , куда ${ displaystyle u}$ это Измеримая функция Лебега из ${ Displaystyle [т_ {0}, т_ {1}]}$ некоторому заданному произвольному множеству в ${ Displaystyle mathbb {R} ^ {m}}$ . Тогда функция ценности определяется как

${ Displaystyle В (т, Икс (т)) = макс _ {и в U} int _ {т} ^ {т_ {1}} я ( тау, х ( тау), и ( тау )) , mathrm {d} tau + phi (x (t_ {1}))}$

с ${ Displaystyle В (т_ {1}, х (т_ {1})) = фи (х (т_ {1}))}$ , куда ${ Displaystyle фи (х (т_ {1}))}$ это лом ценить. Если оптимальная пара траекторий управления и состояния ${ Displaystyle (х ^ { ast}, и ^ { ast})}$ , тогда ${ Displaystyle V (t_ {0}, x_ {0}) = J (t_ {0}, x_ {0}; u ^ { ast})}$ . Функция ${ displaystyle h}$ что дает оптимальный контроль ${ displaystyle u ^ { ast}}$ исходя из текущего состояния ${ displaystyle x}$ называется политикой контроля обратной связи,^[4] или просто политическая функция.^[9]

Принцип оптимальности Беллмана примерно утверждает, что любая оптимальная политика во времени ${ displaystyle t}$ , ${ Displaystyle т_ {0} leq t leq t_ {1}}$ принимая текущее состояние ${ Displaystyle х (т)}$ поскольку «новое» начальное условие должно быть оптимальным для оставшейся задачи. Если функция значения оказывается непрерывно дифференцируемый,^[10] это приводит к важному уравнение в частных производных известный как Уравнение Гамильтона – Якоби – Беллмана.,

{ displaystyle - { frac { partial V (t, x)} { partial t}} = max _ {u} left {I (t, x, u) + { frac { partial V (t, x)} { partial x}} f (t, x, u) right }}

где максиманд в правой части также можно переписать как Гамильтониан, ${ displaystyle H left (t, x, u, lambda right) = I (t, x, u) + lambda f (t, x, u)}$ , так как

{ displaystyle - { frac { partial V (t, x)} { partial t}} = max _ {u} H (t, x, u, lambda)}

с ${ displaystyle partial V (t, x) / partial x = lambda (t)}$ играя роль стоимостные переменные.^[11] Учитывая это определение, мы далее имеем ${ displaystyle mathrm {d} lambda (t) / mathrm {d} t = partial ^ {2} V (t, x) / partial x partial t + partial ^ {2} V (t, х) / частичный х ^ {2} cdot f (x)}$ , и после дифференцирования обеих частей уравнения HJB по ${ displaystyle x}$ ,

{ displaystyle - { frac { partial ^ {2} V (t, x)} { partial t partial x}} = { frac { partial I} { partial x}} + { frac { partial ^ {2} V (t, x)} { partial x ^ {2}}} f (x) + { frac { partial V (t, x)} { partial x}} { frac { partial f (x)} { partial x}}}

который после замены соответствующих терминов восстанавливает уравнение стоимости

{ displaystyle - { dot { lambda}} (t) = { frac { partial I} { partial x}} + lambda (t) { frac { partial f (x)} { partial x}} = { frac { partial H} { partial x}}}

куда ${ Displaystyle { точка { lambda}} (т)}$ является Обозначение Ньютона для производной по времени.

Функция ценности - это вязкость раствора к уравнению Гамильтона – Якоби – Беллмана.^[12] В онлайн приближенное оптимальное управление с обратной связью, функция цены также является Функция Ляпунова что устанавливает глобальную асимптотическую устойчивость замкнутой системы.^[13]

дальнейшее чтение

Капуто, Майкл Р. (2005). «Необходимые и достаточные условия для изопериметрических задач». Основы динамического экономического анализа: теория оптимального управления и приложения. Нью-Йорк: Издательство Кембриджского университета. С. 174–210. ISBN 0-521-60368-4.
Кларк, Фрэнк Х .; Лёвен, Филип Д. (1986). «Функция ценности в оптимальном управлении: чувствительность, управляемость и оптимальность по времени». SIAM Journal по управлению и оптимизации. 24 (2): 243–263. Дои:10.1137/0324014.
ЛаФранс, Джеффри Т .; Барни, Л. Дуэйн (1991). «Теорема о конверте в динамической оптимизации» (PDF). Журнал экономической динамики и управления. 15 (2): 355–385. Дои:10.1016 / 0165-1889 (91) 90018-В.
Стенгель, Роберт Ф. (1994). «Условия оптимальности». Оптимальное управление и оценка. Нью-Йорк: Дувр. С. 201–222. ISBN 0-486-68200-5.

[1] Флеминг, Венделл Х.; Ришель, Раймонд В. (1975). Детерминированное и стохастическое оптимальное управление. Нью-Йорк: Спрингер. С. 81–83. ISBN 0-387-90155-8.

[2] Капуто, Майкл Р. (2005). Основы динамического экономического анализа: теория оптимального управления и приложения. Нью-Йорк: Издательство Кембриджского университета. п. 185. ISBN 0-521-60368-4.

[3] Вебер, Томас А. (2011). Теория оптимального управления: с приложениями в экономике. Кембридж: MIT Press. п. 82. ISBN 978-0-262-01573-8.

[Bertsekas_Tsitsiklis-4] а ^б Bertsekas, Dimitri P .; Цициклис, Джон Н. (1996). Нейродинамическое программирование. Бельмонт: Athena Scientific. п. 2. ISBN 1-886529-10-8.

[5] «EE365: динамическое программирование» (PDF).

[6] Мас-Колелл, Андреу; Уинстон, Майкл Д.; Грин, Джерри Р. (1995). Микроэкономическая теория. Нью-Йорк: Издательство Оксфордского университета. п. 964. ISBN 0-19-507340-1.

[7] Корба, Дин; Stinchcombe, Maxwell B .; Земан, Юрай (2009). Введение в математический анализ для экономической теории и эконометрики. Издательство Принстонского университета. п. 145. ISBN 978-0-691-11867-3.

[8] Камиен, Мортон И.; Шварц, Нэнси Л. (1991). Динамическая оптимизация: вариационный расчет и оптимальное управление в экономике и менеджменте (2-е изд.). Амстердам: Северная Голландия. п. 259. ISBN 0-444-01609-0.

[9] Юнгквист, Ларс; Сарджент, Томас Дж. (2018). Рекурсивная макроэкономическая теория (Четвертое изд.). Кембридж: MIT Press. п. 106. ISBN 978-0-262-03866-9.

[10] Бенвенист и Шейнкман установили достаточные условия дифференцируемости функции цены, что, в свою очередь, позволяет применять теорема о конверте, видеть Benveniste, L.M .; Шейнкман, Дж. А. (1979). «О дифференцируемости функции стоимости в динамических моделях экономики». Econometrica. 47 (3): 727–732. Дои:10.2307/1910417. JSTOR 1910417. Также см Зейерстад, Атле (1982). «Свойства дифференцируемости функции оптимального значения в теории управления». Журнал экономической динамики и управления. 4: 303–310. Дои:10.1016/0165-1889(82)90019-7.

[11] Кирк, Дональд Э. (1970). Теория оптимального управления. Энглвуд Клиффс, Нью-Джерси: Прентис-Холл. п. 88. ISBN 0-13-638098-0.

[12] Чжоу, X. Y. (1990). «Принцип максимума, динамическое программирование и их связь в детерминированном управлении». Журнал теории оптимизации и приложений. 65 (2): 363–373. Дои:10.1007 / BF01102352. S2CID 122333807.

[13] Камалапуркар, Рушикеш; Уолтерс, Патрик; Розенфельд, Джоэл; Диксон, Уоррен (2018). «Оптимальное управление и устойчивость по Ляпунову». Обучение с подкреплением для оптимального управления обратной связью: подход на основе Ляпунова. Берлин: Springer. С. 26–27. ISBN 978-3-319-78383-3.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

Функция значения - Value function

Рекомендации

дальнейшее чтение