999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習的無人播種機自動路徑規劃研究

2023-10-17 07:03:42
農機化研究 2023年12期
關鍵詞:規劃動作環境

程 力

(鶴壁職業技術學院,河南 鶴壁 458030)

0 引言

近年來,我國農業生產還是采用傳統的經驗實現田間作業,需要大量的勞動力,而無人駕駛農機一直是科研人員研究的熱門領域之一。隨著硬件技術發展的突飛猛進,深度學習和強化學習都有較大的進展。為此,結合深度Q-learning和強化兩種學習算法的基礎理論,對無人播種機在未知環境下的自動路徑規劃進行了分析,旨在實現無人化的播種作業。

1 深度強化學習算法原理

1.1 強化學習算法

強化學習是一種將環境狀態變化反映到實際行為上的學習,可以通過持續的反饋讓后續的動作朝著獎勵最大化靠近,在智能控制系統中應用非常廣泛。強化學習與監督學習存在一定的差異,其不是采用正、反比例控制系統確定采取何種控制策略,而是將智能體Agent與環境(environment)聯系起來,通過迭代的嘗試獲取獎勵最大的工作。正常來說,執行的動作對當前獎勵值、下一次獎勵值以及整個過程的獎勵值都會有影響。

1)Markov決策。按照一定順序執行的強化學習策略,在處理過程中采用Markov決策建立強化學習模型。Markov決策包括環境狀態集合(S)、動作集合(A)、狀態轉移函數(T)和回報函數(R)等4個方面。

在Markov決策中,智能體Agent與環境二者在進行交互中,先對環境進行實時判斷st∈S;然后,根據策略執行當前動作at∈A;最后,根據此次動作的狀態轉移函數T:S×A→S及環境狀態st+1,獲得的當前動作獎勵值r。Markov決策的原理是將當前環境狀態和執行動作后獲得的獎勵值和此次環境狀態和執行動作聯系到一起比較,不去關心歷史狀態及動作引入的獎勵值參數。

狀態轉移函數值V(s)是指利用特定的控制系統,對某一中間狀態向目標狀態轉移過程中強化信號累積加權和的數學期望,其表達式為

(1)

其中,t為時間常量;γ∈[0,1]為折扣比例值域。Markov決策是指在眾多策略中選擇一個最優的策略,可讓強化信號累積值最大化。在時間節點t環境狀態s的函數表達式為

(2)

Markov決策算法中,其目的是找到最優解π*,得到過程中智能體Agent學習目標是找到最優策略解π*及最優的狀態轉移函數,即

(3)

2)強化學習模型。強化學習模型由Agent和環境兩部分組成,結構如圖1所示。

圖1 強化學習模型的結構示意圖Fig.1 The structure diagram of reinforcement learning model

為了對強化學習系統進行分析,采用三元組描述,其表達式為

(4)

其中,S和A分別為環境狀態和動作集合;P為環境狀態轉移集合;t為時間。

在t和t+1兩個時間節點,Agent通過與S的交互,分別獲得狀態函數變量st∈S和st+1∈S,執行動作為at∈A,獲得的反饋獎勵值為rt+1。強化系統的最優目標是找到略π*:S×A→S,從而獲得最大的獎勵值之和。獎勵值之和的表達式為

(5)

其中,γ∈[0,1],表示在未來時間節點中獎勵值較小的權值。

1.2 深度Q-learning算法

強化學習系統的決策能力有限,故在強化學習系統基礎上引入深度Q-learning算法,將二者結合起來,提供無人播種機的感知能力和特征提取能力,從而提高路徑規劃精度。

深度Q-learning算法是一種在強化學習系統的基礎上,引入基于Value-Based的深度學習方法,其通過學習研究對象狀態s經過執行動作a后的價值,再根據不同動作的價值使得價值之和最大化,從而得到最優策略。

在無人播種機自動路徑規劃問題中,可將其周邊環境變化看成Markov決策過程,采用五元組(S,A,P,γ,C)對其進行表示。其中,γ和C分別為折扣因子和獎賞值。為了求解最優策略,用值函數V代表策略動作帶來的獎賞期望值,即

(6)

其中,E和ct分別為期望值和獎賞值。

采用遞歸方法對上式進行簡化可得

(7)

其中,C(s,a)=E[C(s,a)]為c的平均值;Pss′(a)是狀態s到s′之間轉移的概率,則

(8)

基于最優策略π,可以得到Q-learning算法的表達式,即

(9)

其中,Qπ(s,a)為基于策略π情形下s到a的期望獎賞值。假設

Q*(s,a)=Qπ*(s)=C(s,a)+

(10)

若設定Q初始值為0,則可以得到Q-learning算法的準則為

(11)

其中,γ∈[0,1)為折扣因子;α為算法的學習效率,即

(12)

將Q-learning算法和無人播種機最優路徑求解結合起來,設每組(s,a)值都可以隨意變化得到多組獎賞值;若將α慢慢降成0,則Q也會逐漸向1收斂。那么,在無人播種機最優路徑求解過程中,只需要不斷跟新Q表,便能求得無人播種機路徑規劃最優解。

2 無人播種機自主路徑規劃設計

2.1 無人播種機運動模型

以無人播種機為研究對象,為了方便建立運動學模型,假設其由兩個后輪和一個具有轉向能力的前輪組成,屬于具有兩輪差分的運動模型。無人播種機實物如圖2所示,運動學模型如圖3所示。

圖2 無人播種機實物圖Fig.2 The physical drawing of unmanned planter

圖3 無人播種機運動學模型Fig.3 The kinematic model of unmanned planter

(13)

(14)

將式(13)和式(14)聯立起來求解,可得無人播種機的轉動半徑為

(15)

根據幾何關系,可以得到無人播種機的運動學模型為

(16)

2.2 基于RRT算法的自主路徑規劃

為了實現無人播種機的自主路徑規劃,選擇了強化學習中的快速遍歷隨機樹算法(RRT),對自主路徑規劃進行改進。RRT算法是一種采用樹形數據存儲結構,可以在狀態空間中建立模型,具有高效的搜索能力,適用于復雜情況下的路徑規劃。

因此,主要從以下幾個變量討論無人播種機的自主路徑規劃問題:

1)無人播種機的起始點xinit;

2)無人播種機的目標地點xgoal;

3)狀態空間隨機采樣點的節點xrand;

4)搜索過程中離隨機采樣點最近的點xnearest;

5)選擇隨機樹新節點xnew;

6)選擇新節點的搜索步長ρ;

7)選擇隨機采樣點的判定概率ρsearch。

RRT算法是從起始點開始,按照一定概率在作業周邊環境中隨機選擇采樣子節點,從而不斷擴大搜索樹的規模;當隨機樹中有子節點已經接近或到達目標點時,停止擴展隨機樹,此時依次從起始點連接父節點,便能夠達到目標地點或者附近,從而獲得一條可能的路徑。

RRT算法從路徑規劃任務的起始點開始,以固定概率在環境空間中隨機采樣子節點,以此來不斷擴大隨機搜索樹的規模;當隨機樹中的子節點到達了目標點或目標點附近時停止拓展隨機樹,此時從起始點開始依次連接父節點便可直接到達目標點或其附近,得到一條可行的規劃路徑。RRT算法結構示意如圖4所示。

圖4 RRT算法結構示意圖Fig.4 The structure diagram of RRT algorithm

RRT算法的偽代碼如下:

輸入:子節點數M,路徑規劃任務的起點xinit和xgoal

輸出:從xinit到xgoal的路徑

初始化xinit、xgoal和環境障礙物

for I = 1 to n do

xrand<—Sample(M);

xnear<—Near(xrand,T);

xnear<—steer(xrand,xnear,StepSize);

Ei<—Edge(xnear,xnear);

If CollisionFree(M,Ei) then

T.addNode(xnew);

T.addEdge(Ei);

If xnew=xgoalthen

Success();

3 仿真研究分析

無人播種機的作業環境是固定的,在分析過程中為了便于建立模型和數據處理,將主要環境和無人播種機進行識別建模,對無人播種機作業環境建立柵格進行平面分析與研究。RRT算法的路徑規劃流程如圖5所示。

圖6和圖7為10×10柵格環境下采用RRT算法對無人播種機的路徑規劃。在仿真過程中,黑色區域為障礙區域,RRT算法的迭代次數設置為100次。

圖6 無人播種機的路徑規劃圖Fig.6 The path planning diagram of unmanned planter

圖7 無人播種機路徑規劃算法收斂圖Fig.7 The convergence diagram of path planning algorithm for unmanned planter

由圖6可以看出:無人播種機可以順利避開障礙物從起點行駛到終點,且路徑規劃合理;由圖7可以看出:RRT算法經過50次的測試后,逐漸趨于收斂,穩定性較好。綜上所述,提出的RRT深度強化學習算法具有較快的路徑規劃速度,路徑規劃效果較優。

4 結論

結合無人播種機路徑規劃問題,介紹了強化學習和深度Q-Learning算法,并采用RRT深度強化學習算法,對無人播種機自動路徑規劃進行了研究。RRT深度強化學習算法的仿真試驗結果表明:在復雜作業環境中,無人播種機能夠在較小的迭代次數下完成最優作業路徑的規劃,表明算法具有可行性和可靠性。

猜你喜歡
規劃動作環境
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
孕期遠離容易致畸的環境
環境
動作描寫要具體
規劃引領把握未來
快遞業十三五規劃發布
商周刊(2017年5期)2017-08-22 03:35:26
畫動作
動作描寫不可少
多管齊下落實規劃
中國衛生(2016年2期)2016-11-12 13:22:16
主站蜘蛛池模板: 狠狠色狠狠色综合久久第一次| 一级毛片基地| 成人午夜网址| 人妻丰满熟妇啪啪| 国产精品亚欧美一区二区| 亚洲黄色高清| 色视频久久| 熟女成人国产精品视频| 午夜精品一区二区蜜桃| 日本国产一区在线观看| 久久精品亚洲专区| 国产一级做美女做受视频| 日本午夜三级| 亚洲AⅤ永久无码精品毛片| 欧美成人区| 亚洲精选无码久久久| 丁香婷婷综合激情| …亚洲 欧洲 另类 春色| 亚洲国产欧美国产综合久久 | P尤物久久99国产综合精品| 777国产精品永久免费观看| 亚洲人成网线在线播放va| 国产91精品久久| 成人噜噜噜视频在线观看| 永久毛片在线播| av一区二区无码在线| 国产精品久线在线观看| 91精品国产91久久久久久三级| 幺女国产一级毛片| 99中文字幕亚洲一区二区| 91po国产在线精品免费观看| 欧美另类图片视频无弹跳第一页| 最新国产你懂的在线网址| 91成人在线观看| 999福利激情视频| 成人免费一区二区三区| 亚洲天堂成人在线观看| 免费jizz在线播放| 精品综合久久久久久97超人该| 国产成人精品一区二区不卡| 最新日韩AV网址在线观看| 精品国产www| 亚洲精品中文字幕无乱码| 天堂网国产| 亚洲成人免费在线| 国产精品香蕉| 色老头综合网| 欧美伊人色综合久久天天| 久久激情影院| 国产网友愉拍精品| 国产精品原创不卡在线| 精品视频一区二区观看| 9999在线视频| 71pao成人国产永久免费视频| 无码aaa视频| 亚洲成a人片在线观看88| 亚洲第一黄色网址| 成人av专区精品无码国产 | 精品国产成人av免费| 91欧美亚洲国产五月天| 欧美黄网站免费观看| 亚洲第一网站男人都懂| 国产成人精品第一区二区| av一区二区无码在线| 日韩毛片免费| 国产亚洲精品va在线| 精品少妇人妻一区二区| 99久久性生片| 日韩精品久久无码中文字幕色欲| 九九热在线视频| 少妇极品熟妇人妻专区视频| 国产色偷丝袜婷婷无码麻豆制服| 自慰高潮喷白浆在线观看| 国产永久无码观看在线| 97久久精品人人做人人爽| 国产视频自拍一区| 视频国产精品丝袜第一页 | 波多野结衣久久高清免费| 色婷婷成人网| 欧美日韩综合网| 一级爱做片免费观看久久| 日韩无码视频网站|