93
оптимальное управление х
k
* в предположении об оптимальности всех последующих шагов. Формально
указанный принцип реализуется путем отыскания на каждом шаге k условных оптимальных управлений
x
k
(?), ???, обеспечивающих наибольшую суммарную эффективность начиная с этого шага, в
предположении, что текущим является состояние
?.
Обозначим
?
k
(?) максимальное значение суммы функций f
k
на протяжении шагов от k до п
(получаемое при оптимальном управлении на данном отрезке процесса), при условии, что объект в
начале шага k находится в состоянии ? . Тогда функции
?
k
(?)
должны удовлетворять рекуррентном
у
соотношению:
где ?
k+1
= ?
k
(x
k
, ?)
Соотношение (5.14) называют основным рекуррентным соотношением динамического
программирования. Оно реализует базовый принцип динамического программирования, известный
также как принцип оптимальности Беллмана:
Оптимальная стратегия управления должна удовлетворять следующему условию: каково бы ни было
начальное состояние ?
k
на k-м шаге и выбранное на этом шаге управление х
k
,, последующие
управления (управленческие решения) должны быть оптимальными по отношению к состоянию ?
k+1
= ?
k
(x
k
, ?
k
), получающемуся в результате решения, принятого на шаге k.
Основное соотношение (5.14) позволяет найти функции
?
k
(?)
только в сочетании с
начальным
условием, каковым в нашем случае является равенство
Сравнение рекуррентной формулы (5.14) с аналогичными соотношениями в рассмотренных выше
примерах указывает на их внешнее различие. Это различие обусловлено тем, что в задаче
распределения ресурсов фиксированным является конечное состояние управляемого процесса. Поэтому
принцип Беллмана применяется не к последующим, а к начальным этапам управления, и начальное
соотношение имеет вид
Важно еще раз подчеркнуть, что сформулированный выше принцип оптимальности применим только
для управления объектами, у которых выбор оптимального управления не зависит от предыстории
управляемого процесса, т. е. от того, каким путем система пришла в текущее состояние. Именно это
|