Ecuación de Hamilton-Jacobi-Bellman

La ecuación de Hamilton-Jacobi-Bellman (HJB) es una ecuación diferencial parcial que es fundamental para la teoría de control óptimo. La solución de la ecuación HJB es la "función de valor" (o "función de costo óptimo"), la cual da el costo mínimo para un sistema dinámico dado, con una función de costo asociada.

Cuando se resuelve localmente, la HJB es una condición necesaria, pero cuando se resuelve sobre la totalidad del espacio de estados, la ecuación HJB es una condición necesaria y suficiente para un óptimo. La solución es de lazo abierto, pero también permite que la solución del problema sea de lazo cerrado. El método HJB puede ser generalizado a sistemas estocásticos.

Hay varios problemas variacionales clásicos, por ejemplo, el problema braquistocrona, se pueden resolver con este método.

La ecuación es un resultado de la teoría de programación dinámica, en la que Richard Bellman fue pionero en la década de 1950.[1]​ La ecuación a tiempo discreto correspondiente se refiere generalmente como la ecuación de Bellman. En tiempo continuo, el resultado puede ser visto como una extensión del trabajo a principios de la física clásica en la ecuación de Hamilton-Jacobi por William Rowan Hamilton y Carl Gustav Jacob Jacobi.

Problemas de control óptimo

editar

Considere el siguiente problema de control óptimo determinista sobre el período de tiempo  :

 

donde C[ ] es la función de tasa de coste escalar y D[ ] es una función que da el valor económico o utilidad en el estado final, x(t) es el vector de estado del sistema, se supone que x(0) está dado, y que u(t) para cada 0 ≤ t ≤ T es el vector de control que estamos tratando de encontrar.

El sistema también está sujeto a la dinámica

 

donde F[ ] da el vector de la determinación de la evolución física del vector de estado con el tiempo.

La ecuación diferencial parcial

editar

Para este sistema simple, la ecuación diferencial parcial de Hamilton-Jacobi-Bellman es:

 

sujeto a la condición terminal

 

donde   es el operador gradiente y   representa el producto punto (o escalar) de los vectores   y  . El escalar desconocido   en la EDP anterior es la "función de valor" de Bellman, que representa el costo en el que se incurre cuando se inicia en el estado x y al tiempo t y, de ahí en adelante, se controla óptimamente el sistema hasta el tiempo final  .

Derivación de la ecuación

editar

Intuitivamente HJB se "deriva" de la siguiente manera. Si   es la función de costo óptimo (también llamada "función de valor"), entonces por el principio de optimalidad de Bellman, al pasar de   a  , se tiene que:

 

Ahora, teniendo en cuenta que el desarrollo de Taylor del último término es:

 

donde   denota los términos en la expansión de Taylor de orden superior a uno. Entonces si cancelamos   en ambos lados, se divide por  , y tomamos límite cuando   tiende a cero, se obtiene la ecuación HJB definida anteriormente.

Resolución de la ecuación

editar

La ecuación HJB suele resolverse usando Inducción hacia atrás, empezando en   y terminando en  .

Cuando se resuelve sobre la totalidad del espacio de estados, la ecuación HJB es una condición necesaria y suficiente para un óptimo.[2]​ Si podemos resolver para   entonces podemos encontrar un control de   donde se consiga el mínimo costo.

En el caso general, la ecuación HJB no tiene una solución clásica (suave). Varios conceptos de soluciones generalizadas se han desarrollado para cubrir este tipo de situaciones, por ejemplo, soluciones viscosas (Pierre-Louis Lions y Michael Crandall), soluciones minimax ( Andrei Izmailovich Subbotin ), entre otros.

Extensión a problemas estocásticos

editar

La idea de la solución de un problema de control mediante la aplicación del principio de optimalidad de Bellman y luego trabajando hacia atrás en el tiempo de una estrategia de optimización puede ser generalizado a los problemas de control estocásticos. Considere como antes

 

ahora con   el proceso estocástico para optimizar y   la dirección. Usando primero Bellman y luego expandiendo   con la regla de Itô, se encuentra la ecuación HJB estocástica.

 

donde   representa el operador de diferenciación estocástica, y sujeto a la condición terminal

 

Tenga en cuenta que la aleatoriedad ha desaparecido. En este caso una solución   de este último no resuelve necesariamente el problema principal, sólo es un candidato el cual debe verificar otros argumentos que permitan establecer si es o no solución. Esta técnica es ampliamente utilizado en las matemáticas financieras para determinar las estrategias óptimas de inversión en el mercado (véase, por ejemplo problema cartera de Merton).

Aplicación al control LQG

editar

Como ejemplo, podemos mirar un sistema LQ que consiste en una dinámica estocástica lineal y un costo cuadrático. Si la dinámica del sistema está dada por:

 

y el costo se acumula en tasa  , La ecuación HJB está dada por

 

Suponiendo una forma cuadrática de la función de valor, se obtiene la habitual ecuación de Riccati para la Arpillera de la función de valor como es habitual para el control lineal-cuadrática de Gauss

Referencias

editar
  1. R. E. Bellman. Dynamic Programming. Princeton, NJ, 1957.
  2. Dimitri P Bertsekas. Dynamic programming and optimal control. Athena Scientific, 2005.