程 力
(鶴壁職業技術學院,河南 鶴壁 458030)
近年來,我國農業生產還是采用傳統的經驗實現田間作業,需要大量的勞動力,而無人駕駛農機一直是科研人員研究的熱門領域之一。隨著硬件技術發展的突飛猛進,深度學習和強化學習都有較大的進展。為此,結合深度Q-learning和強化兩種學習算法的基礎理論,對無人播種機在未知環境下的自動路徑規劃進行了分析,旨在實現無人化的播種作業。
強化學習是一種將環境狀態變化反映到實際行為上的學習,可以通過持續的反饋讓后續的動作朝著獎勵最大化靠近,在智能控制系統中應用非常廣泛。強化學習與監督學習存在一定的差異,其不是采用正、反比例控制系統確定采取何種控制策略,而是將智能體Agent與環境(environment)聯系起來,通過迭代的嘗試獲取獎勵最大的工作。正常來說,執行的動作對當前獎勵值、下一次獎勵值以及整個過程的獎勵值都會有影響。
1)Markov決策。按照一定順序執行的強化學習策略,在處理過程中采用Markov決策建立強化學習模型。Markov決策包括環境狀態集合(S)、動作集合(A)、狀態轉移函數(T)和回報函數(R)等4個方面。
在Markov決策中,智能體Agent與環境二者在進行交互中,先對環境進行實時判斷st∈S;然后,根據策略執行當前動作at∈A;最后,根據此次動作的狀態轉移函數T:S×A→S及環境狀態st+1,獲得的當前動作獎勵值r。Markov決策的原理是將當前環境狀態和執行動作后獲得的獎勵值和此次環境狀態和執行動作聯系到一起比較,不去關心歷史狀態及動作引入的獎勵值參數。
狀態轉移函數值V(s)是指利用特定的控制系統,對某一中間狀態向目標狀態轉移過程中強化信號累積加權和的數學期望,其表達式為
(1)
其中,t為時間常量;γ∈[0,1]為折扣比例值域。Markov決策是指在眾多策略中選擇一個最優的策略,可讓強化信號累積值最大化。在時間節點t環境狀態s的函數表達式為
(2)
Markov決策算法中,其目的是找到最優解π*,得到過程中智能體Agent學習目標是找到最優策略解π*及最優的狀態轉移函數,即
(3)
2)強化學習模型。強化學習模型由Agent和環境兩部分組成,結構如圖1所示。

圖1 強化學習模型的結構示意圖Fig.1 The structure diagram of reinforcement learning model
為了對強化學習系統進行分析,采用三元組描述,其表達式為
(4)
其中,S和A分別為環境狀態和動作集合;P為環境狀態轉移集合;t為時間。
在t和t+1兩個時間節點,Agent通過與S的交互,分別獲得狀態函數變量st∈S和st+1∈S,執行動作為at∈A,獲得的反饋獎勵值為rt+1。強化系統的最優目標是找到略π*:S×A→S,從而獲得最大的獎勵值之和。獎勵值之和的表達式為
(5)
其中,γ∈[0,1],表示在未來時間節點中獎勵值較小的權值。
強化學習系統的決策能力有限,故在強化學習系統基礎上引入深度Q-learning算法,將二者結合起來,提供無人播種機的感知能力和特征提取能力,從而提高路徑規劃精度。
深度Q-learning算法是一種在強化學習系統的基礎上,引入基于Value-Based的深度學習方法,其通過學習研究對象狀態s經過執行動作a后的價值,再根據不同動作的價值使得價值之和最大化,從而得到最優策略。
在無人播種機自動路徑規劃問題中,可將其周邊環境變化看成Markov決策過程,采用五元組(S,A,P,γ,C)對其進行表示。其中,γ和C分別為折扣因子和獎賞值。為了求解最優策略,用值函數V代表策略動作帶來的獎賞期望值,即
(6)
其中,E和ct分別為期望值和獎賞值。
采用遞歸方法對上式進行簡化可得
(7)
其中,C(s,a)=E[C(s,a)]為c的平均值;Pss′(a)是狀態s到s′之間轉移的概率,則
(8)
基于最優策略π,可以得到Q-learning算法的表達式,即
(9)
其中,Qπ(s,a)為基于策略π情形下s到a的期望獎賞值。假設
Q*(s,a)=Qπ*(s)=C(s,a)+
(10)
若設定Q初始值為0,則可以得到Q-learning算法的準則為
(11)
其中,γ∈[0,1)為折扣因子;α為算法的學習效率,即
(12)
將Q-learning算法和無人播種機最優路徑求解結合起來,設每組(s,a)值都可以隨意變化得到多組獎賞值;若將α慢慢降成0,則Q也會逐漸向1收斂。那么,在無人播種機最優路徑求解過程中,只需要不斷跟新Q表,便能求得無人播種機路徑規劃最優解。
以無人播種機為研究對象,為了方便建立運動學模型,假設其由兩個后輪和一個具有轉向能力的前輪組成,屬于具有兩輪差分的運動模型。無人播種機實物如圖2所示,運動學模型如圖3所示。

圖2 無人播種機實物圖Fig.2 The physical drawing of unmanned planter

圖3 無人播種機運動學模型Fig.3 The kinematic model of unmanned planter
(13)
(14)
將式(13)和式(14)聯立起來求解,可得無人播種機的轉動半徑為
(15)
根據幾何關系,可以得到無人播種機的運動學模型為
(16)
為了實現無人播種機的自主路徑規劃,選擇了強化學習中的快速遍歷隨機樹算法(RRT),對自主路徑規劃進行改進。RRT算法是一種采用樹形數據存儲結構,可以在狀態空間中建立模型,具有高效的搜索能力,適用于復雜情況下的路徑規劃。
因此,主要從以下幾個變量討論無人播種機的自主路徑規劃問題:
1)無人播種機的起始點xinit;
2)無人播種機的目標地點xgoal;
3)狀態空間隨機采樣點的節點xrand;
4)搜索過程中離隨機采樣點最近的點xnearest;
5)選擇隨機樹新節點xnew;
6)選擇新節點的搜索步長ρ;
7)選擇隨機采樣點的判定概率ρsearch。
RRT算法是從起始點開始,按照一定概率在作業周邊環境中隨機選擇采樣子節點,從而不斷擴大搜索樹的規模;當隨機樹中有子節點已經接近或到達目標點時,停止擴展隨機樹,此時依次從起始點連接父節點,便能夠達到目標地點或者附近,從而獲得一條可能的路徑。
RRT算法從路徑規劃任務的起始點開始,以固定概率在環境空間中隨機采樣子節點,以此來不斷擴大隨機搜索樹的規模;當隨機樹中的子節點到達了目標點或目標點附近時停止拓展隨機樹,此時從起始點開始依次連接父節點便可直接到達目標點或其附近,得到一條可行的規劃路徑。RRT算法結構示意如圖4所示。

圖4 RRT算法結構示意圖Fig.4 The structure diagram of RRT algorithm
RRT算法的偽代碼如下:
輸入:子節點數M,路徑規劃任務的起點xinit和xgoal
輸出:從xinit到xgoal的路徑
初始化xinit、xgoal和環境障礙物
for I = 1 to n do
xrand<—Sample(M);
xnear<—Near(xrand,T);
xnear<—steer(xrand,xnear,StepSize);
Ei<—Edge(xnear,xnear);
If CollisionFree(M,Ei) then
T.addNode(xnew);
T.addEdge(Ei);
If xnew=xgoalthen
Success();
無人播種機的作業環境是固定的,在分析過程中為了便于建立模型和數據處理,將主要環境和無人播種機進行識別建模,對無人播種機作業環境建立柵格進行平面分析與研究。RRT算法的路徑規劃流程如圖5所示。
圖6和圖7為10×10柵格環境下采用RRT算法對無人播種機的路徑規劃。在仿真過程中,黑色區域為障礙區域,RRT算法的迭代次數設置為100次。

圖6 無人播種機的路徑規劃圖Fig.6 The path planning diagram of unmanned planter

圖7 無人播種機路徑規劃算法收斂圖Fig.7 The convergence diagram of path planning algorithm for unmanned planter
由圖6可以看出:無人播種機可以順利避開障礙物從起點行駛到終點,且路徑規劃合理;由圖7可以看出:RRT算法經過50次的測試后,逐漸趨于收斂,穩定性較好。綜上所述,提出的RRT深度強化學習算法具有較快的路徑規劃速度,路徑規劃效果較優。
結合無人播種機路徑規劃問題,介紹了強化學習和深度Q-Learning算法,并采用RRT深度強化學習算法,對無人播種機自動路徑規劃進行了研究。RRT深度強化學習算法的仿真試驗結果表明:在復雜作業環境中,無人播種機能夠在較小的迭代次數下完成最優作業路徑的規劃,表明算法具有可行性和可靠性。