999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習的無人播種機自動路徑規劃研究

2023-10-17 07:03:42
農機化研究 2023年12期
關鍵詞:規劃動作環境

程 力

(鶴壁職業技術學院,河南 鶴壁 458030)

0 引言

近年來,我國農業生產還是采用傳統的經驗實現田間作業,需要大量的勞動力,而無人駕駛農機一直是科研人員研究的熱門領域之一。隨著硬件技術發展的突飛猛進,深度學習和強化學習都有較大的進展。為此,結合深度Q-learning和強化兩種學習算法的基礎理論,對無人播種機在未知環境下的自動路徑規劃進行了分析,旨在實現無人化的播種作業。

1 深度強化學習算法原理

1.1 強化學習算法

強化學習是一種將環境狀態變化反映到實際行為上的學習,可以通過持續的反饋讓后續的動作朝著獎勵最大化靠近,在智能控制系統中應用非常廣泛。強化學習與監督學習存在一定的差異,其不是采用正、反比例控制系統確定采取何種控制策略,而是將智能體Agent與環境(environment)聯系起來,通過迭代的嘗試獲取獎勵最大的工作。正常來說,執行的動作對當前獎勵值、下一次獎勵值以及整個過程的獎勵值都會有影響。

1)Markov決策。按照一定順序執行的強化學習策略,在處理過程中采用Markov決策建立強化學習模型。Markov決策包括環境狀態集合(S)、動作集合(A)、狀態轉移函數(T)和回報函數(R)等4個方面。

在Markov決策中,智能體Agent與環境二者在進行交互中,先對環境進行實時判斷st∈S;然后,根據策略執行當前動作at∈A;最后,根據此次動作的狀態轉移函數T:S×A→S及環境狀態st+1,獲得的當前動作獎勵值r。Markov決策的原理是將當前環境狀態和執行動作后獲得的獎勵值和此次環境狀態和執行動作聯系到一起比較,不去關心歷史狀態及動作引入的獎勵值參數。

狀態轉移函數值V(s)是指利用特定的控制系統,對某一中間狀態向目標狀態轉移過程中強化信號累積加權和的數學期望,其表達式為

(1)

其中,t為時間常量;γ∈[0,1]為折扣比例值域。Markov決策是指在眾多策略中選擇一個最優的策略,可讓強化信號累積值最大化。在時間節點t環境狀態s的函數表達式為

(2)

Markov決策算法中,其目的是找到最優解π*,得到過程中智能體Agent學習目標是找到最優策略解π*及最優的狀態轉移函數,即

(3)

2)強化學習模型。強化學習模型由Agent和環境兩部分組成,結構如圖1所示。

圖1 強化學習模型的結構示意圖Fig.1 The structure diagram of reinforcement learning model

為了對強化學習系統進行分析,采用三元組描述,其表達式為

(4)

其中,S和A分別為環境狀態和動作集合;P為環境狀態轉移集合;t為時間。

在t和t+1兩個時間節點,Agent通過與S的交互,分別獲得狀態函數變量st∈S和st+1∈S,執行動作為at∈A,獲得的反饋獎勵值為rt+1。強化系統的最優目標是找到略π*:S×A→S,從而獲得最大的獎勵值之和。獎勵值之和的表達式為

(5)

其中,γ∈[0,1],表示在未來時間節點中獎勵值較小的權值。

1.2 深度Q-learning算法

強化學習系統的決策能力有限,故在強化學習系統基礎上引入深度Q-learning算法,將二者結合起來,提供無人播種機的感知能力和特征提取能力,從而提高路徑規劃精度。

深度Q-learning算法是一種在強化學習系統的基礎上,引入基于Value-Based的深度學習方法,其通過學習研究對象狀態s經過執行動作a后的價值,再根據不同動作的價值使得價值之和最大化,從而得到最優策略。

在無人播種機自動路徑規劃問題中,可將其周邊環境變化看成Markov決策過程,采用五元組(S,A,P,γ,C)對其進行表示。其中,γ和C分別為折扣因子和獎賞值。為了求解最優策略,用值函數V代表策略動作帶來的獎賞期望值,即

(6)

其中,E和ct分別為期望值和獎賞值。

采用遞歸方法對上式進行簡化可得

(7)

其中,C(s,a)=E[C(s,a)]為c的平均值;Pss′(a)是狀態s到s′之間轉移的概率,則

(8)

基于最優策略π,可以得到Q-learning算法的表達式,即

(9)

其中,Qπ(s,a)為基于策略π情形下s到a的期望獎賞值。假設

Q*(s,a)=Qπ*(s)=C(s,a)+

(10)

若設定Q初始值為0,則可以得到Q-learning算法的準則為

(11)

其中,γ∈[0,1)為折扣因子;α為算法的學習效率,即

(12)

將Q-learning算法和無人播種機最優路徑求解結合起來,設每組(s,a)值都可以隨意變化得到多組獎賞值;若將α慢慢降成0,則Q也會逐漸向1收斂。那么,在無人播種機最優路徑求解過程中,只需要不斷跟新Q表,便能求得無人播種機路徑規劃最優解。

2 無人播種機自主路徑規劃設計

2.1 無人播種機運動模型

以無人播種機為研究對象,為了方便建立運動學模型,假設其由兩個后輪和一個具有轉向能力的前輪組成,屬于具有兩輪差分的運動模型。無人播種機實物如圖2所示,運動學模型如圖3所示。

圖2 無人播種機實物圖Fig.2 The physical drawing of unmanned planter

圖3 無人播種機運動學模型Fig.3 The kinematic model of unmanned planter

(13)

(14)

將式(13)和式(14)聯立起來求解,可得無人播種機的轉動半徑為

(15)

根據幾何關系,可以得到無人播種機的運動學模型為

(16)

2.2 基于RRT算法的自主路徑規劃

為了實現無人播種機的自主路徑規劃,選擇了強化學習中的快速遍歷隨機樹算法(RRT),對自主路徑規劃進行改進。RRT算法是一種采用樹形數據存儲結構,可以在狀態空間中建立模型,具有高效的搜索能力,適用于復雜情況下的路徑規劃。

因此,主要從以下幾個變量討論無人播種機的自主路徑規劃問題:

1)無人播種機的起始點xinit;

2)無人播種機的目標地點xgoal;

3)狀態空間隨機采樣點的節點xrand;

4)搜索過程中離隨機采樣點最近的點xnearest;

5)選擇隨機樹新節點xnew;

6)選擇新節點的搜索步長ρ;

7)選擇隨機采樣點的判定概率ρsearch。

RRT算法是從起始點開始,按照一定概率在作業周邊環境中隨機選擇采樣子節點,從而不斷擴大搜索樹的規模;當隨機樹中有子節點已經接近或到達目標點時,停止擴展隨機樹,此時依次從起始點連接父節點,便能夠達到目標地點或者附近,從而獲得一條可能的路徑。

RRT算法從路徑規劃任務的起始點開始,以固定概率在環境空間中隨機采樣子節點,以此來不斷擴大隨機搜索樹的規模;當隨機樹中的子節點到達了目標點或目標點附近時停止拓展隨機樹,此時從起始點開始依次連接父節點便可直接到達目標點或其附近,得到一條可行的規劃路徑。RRT算法結構示意如圖4所示。

圖4 RRT算法結構示意圖Fig.4 The structure diagram of RRT algorithm

RRT算法的偽代碼如下:

輸入:子節點數M,路徑規劃任務的起點xinit和xgoal

輸出:從xinit到xgoal的路徑

初始化xinit、xgoal和環境障礙物

for I = 1 to n do

xrand<—Sample(M);

xnear<—Near(xrand,T);

xnear<—steer(xrand,xnear,StepSize);

Ei<—Edge(xnear,xnear);

If CollisionFree(M,Ei) then

T.addNode(xnew);

T.addEdge(Ei);

If xnew=xgoalthen

Success();

3 仿真研究分析

無人播種機的作業環境是固定的,在分析過程中為了便于建立模型和數據處理,將主要環境和無人播種機進行識別建模,對無人播種機作業環境建立柵格進行平面分析與研究。RRT算法的路徑規劃流程如圖5所示。

圖6和圖7為10×10柵格環境下采用RRT算法對無人播種機的路徑規劃。在仿真過程中,黑色區域為障礙區域,RRT算法的迭代次數設置為100次。

圖6 無人播種機的路徑規劃圖Fig.6 The path planning diagram of unmanned planter

圖7 無人播種機路徑規劃算法收斂圖Fig.7 The convergence diagram of path planning algorithm for unmanned planter

由圖6可以看出:無人播種機可以順利避開障礙物從起點行駛到終點,且路徑規劃合理;由圖7可以看出:RRT算法經過50次的測試后,逐漸趨于收斂,穩定性較好。綜上所述,提出的RRT深度強化學習算法具有較快的路徑規劃速度,路徑規劃效果較優。

4 結論

結合無人播種機路徑規劃問題,介紹了強化學習和深度Q-Learning算法,并采用RRT深度強化學習算法,對無人播種機自動路徑規劃進行了研究。RRT深度強化學習算法的仿真試驗結果表明:在復雜作業環境中,無人播種機能夠在較小的迭代次數下完成最優作業路徑的規劃,表明算法具有可行性和可靠性。

猜你喜歡
規劃動作環境
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
孕期遠離容易致畸的環境
環境
動作描寫要具體
規劃引領把握未來
快遞業十三五規劃發布
商周刊(2017年5期)2017-08-22 03:35:26
畫動作
動作描寫不可少
多管齊下落實規劃
中國衛生(2016年2期)2016-11-12 13:22:16
主站蜘蛛池模板: 亚洲国内精品自在自线官| 精品精品国产高清A毛片| 在线精品视频成人网| 日本精品一在线观看视频| 精品黑人一区二区三区| 中文字幕无码av专区久久| 中文字幕无码中文字幕有码在线| 伊人丁香五月天久久综合| 国产一级精品毛片基地| 中文字幕av无码不卡免费| 国产成人精品亚洲77美色| 亚洲黄色高清| 丰满的少妇人妻无码区| 99这里只有精品在线| 综合网天天| 亚洲中文字幕手机在线第一页| 草逼视频国产| 四虎精品国产永久在线观看| 思思99思思久久最新精品| 欧美一级在线| 五月婷婷中文字幕| 午夜精品福利影院| 欧美人人干| 亚洲中文字幕久久无码精品A| 免费视频在线2021入口| 91系列在线观看| 无码免费视频| 久久婷婷人人澡人人爱91| 亚洲大尺度在线| 欧美亚洲国产精品久久蜜芽| 97视频在线精品国自产拍| 久久久久青草线综合超碰| 亚洲一区二区黄色| 九色视频在线免费观看| 免费无码一区二区| 国产91精品调教在线播放| 国产人人干| 成年人午夜免费视频| 亚洲天堂2014| 4虎影视国产在线观看精品| 亚洲AⅤ无码国产精品| 一区二区偷拍美女撒尿视频| 精品久久人人爽人人玩人人妻| 国产在线拍偷自揄拍精品| 国产在线一区视频| 国产精品19p| 国产99视频精品免费观看9e| 国产欧美视频在线观看| 亚洲国产看片基地久久1024| 日韩精品久久久久久久电影蜜臀| 一本二本三本不卡无码| 99青青青精品视频在线| 久久精品国产电影| 国产va在线观看免费| 欧美在线一二区| 欧美亚洲香蕉| 国产精品视频免费网站| 国产精品林美惠子在线观看| 久久精品嫩草研究院| 精品国产91爱| 亚洲日韩精品无码专区| 国产精品999在线| 国产成人1024精品| 亚洲视频欧美不卡| 国产精品亚洲综合久久小说| 国产精品香蕉在线| 国产成人调教在线视频| 中文字幕在线观看日本| 精品无码一区二区三区电影| 风韵丰满熟妇啪啪区老熟熟女| 久久永久精品免费视频| 亚洲欧洲日产无码AV| 久久久久人妻精品一区三寸蜜桃| 欧美在线导航| 欧美成人手机在线观看网址| www.91在线播放| 午夜福利在线观看成人| 中文精品久久久久国产网址| 精品三级在线| 亚洲va在线观看| 囯产av无码片毛片一级| 播五月综合|