周洪敏 羅賢兵 葉昌倫
(貴州大學數學與統計學院,貴陽550025)
本文考慮如下隨機最優控制問題:
其中,容許控制集Λ 是L2[0,T]的一個閉凸子集;f,h,φ,g分別是關于(y,u),y,y和(y,u)的連續可微函數,且它們的導數一致有界. 在上述條件下,隨機最優控制問題(1.1)-(1.2)有唯一解[1,2].
文獻[3-8]給出了許多求解確定性最優控制問題的數值方法. 近年來,隨機最優控制問題的數值方法得到了廣泛關注.較為常用的是基于動態規劃原理的方法[9,10],該方法通常需要求解對應的Hamilton-Jacobi-Bellman 方程[1,11]. 除此之外,基于隨機最大值原理(SMP)的數值方法[12,13,14]也是求解隨機最優控制問題的一種經典方法. 本文結合文獻[15]中的基于SMP 的梯度投影優化方法進行研究.
蒙特卡洛(MC) 方法[16]是處理隨機問題的一種非常重要的方法, 但收斂速度慢. 其改進的方法有很多, 如多水平蒙特卡洛方法[17,18]和擬蒙特卡洛(QMC)方法[19,20,21]. 相對于MC 方法,QMC 方法有更快的收斂速度. 為能有效地利用QMC 方法, 將(1.2) 中的Brown 運動W(t) 按Karhunen-Lo`eve(K-L)方法展開為

其中ξj~N(0,1),λj和φj(t)分別是Brown 運動對應的協方差算子的特征值和特征函數. 為使隨機抽樣維數和時間離散點獨立,將無限維轉化為有限維,對(1.3)式截斷到第s項,即

本文針對隨機最優控制問題(1.1)-(1.2),首先對Brown 運動按K-L 方法展開并進行截斷[26],然后使用QMC 方法中的Sobol 點序列抽樣,最后結合梯度投影優化算法數值求解最優控制問題,分析數值近似誤差,并通過數值實驗驗證方法的有效性.
本節首先根據SMP 給出最優控制問題(1.1)-(1.2)的最優化系統,其次對該系統按K-L 方法展開并進行截斷,然后對截斷后的系統作Euler 離散,最后用QMC 方法近似梯度泛函J′(u)中的期望.
最優控制問題(1.1)-(1.2)的Hamilton 函數為:

其中,耦合過程(p,q)是伴隨過程對,且滿足隨機微分方程:

在合適的假設下,方程(2.1)有很好的適定性[15],且伴隨狀態p(t)滿足:

設{W(t)}0≤t≤T是 定 義 在 概 率 空 間(Ω,F,{Ft}t∈[0,T],P) 上 的 一 維Brown 運 動, 其 中{Ft}t∈[0,T]是由{W(t)}0≤t≤T生成的信息流.
利用(1.4),將系統(2.2)截斷近似為:


對于系統(2.4),結合梯度投影優化方法[15],本文給出如下不動點迭代算法:

所以誤差?N主要包括K-L 截斷誤差,Euler 離散誤差和QMC 積分誤差.
為了給出后續的誤差估計的證明,我們需要如下幾個假設.

引理1 若假設1 和假設2 成立,且?p(t)有界,則有



對于任意的QMC 點集P={ζ1,ζ2,··· ,ζn}和平移Δ∈[0,1]s,令P+Δ={{ζi+Δ}:i=1,2,··· ,n}是平移的QMC 點集. 定義一個權重未錨定的Sobolev 空間?γ,s: 對于?F ∈?γ,s,其范數定義為[21]


?ym(·,ξ)也滿足(3.10)式,其中a?b表示a ≤Cb,C為正常數.
證明 當ν=0 時,(3.10)顯然成立. 現考慮ν/=0 的情況.
首先對方程(1.2)兩邊同時用Leibniz 求積公式,得到



本節將對一個隨機最優控制問題進行數值模擬,通過數值實驗驗證其K-L 截斷誤差和QMC近似誤差與理論結果的一致性.
考慮如下隨機最優控制問題[15]:

將問題(4.1)轉化為如下最優化系統:

取n=210個Sobol 點,固定單個的隨機平移Δ,用QMC 積分近似期望. 狀態y和對偶狀態p的K-L 截斷誤差分別如圖1,圖2 所示.

圖1 狀態y 的K-L 截斷誤差

圖2 狀態p 的K-L 截斷誤差



圖3 MC 誤差

圖4 QMC 誤差


從圖5 可見數值解和精確解基本吻合,表明基于梯度投影優化算法的QMC 方法有效.

圖5 最優控制的精確解和數值解