999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

探究磁導航AGV深度強化學習路徑跟蹤控制方法

2020-12-07 08:46:44楊雯
魅力中國 2020年3期
關鍵詞:動作策略

楊雯

(山東愛普電氣設備有限公司,山東 濟南 250101)

引言

自動引導小車AGV(automatedguidedvehicle),是現代物流系統中的重要成員,它具有自動化集成度高、柔性好、可靠性高、自動導航運行、安裝便利及使用方便等特點。AGV的導航方式眾多,包括視覺導航、GPS導航、激光導航、磁帶導引。其中磁帶導引由于實現簡單,造價便宜,抗干擾能力強在工程領域應用最廣。

一、AGV總體結構和控制系統組成

本文設計的磁導航AGV由本體結構、電氣控制單元和傳感器檢測單元三部分組成。AGV本體結構為六輪式結構,由位于車體中部驅動單元的兩驅動輪和前后四個萬向輪組成。兩驅動輪由兩個步進電機通過差速驅動實現AGV直行、轉向、避障等運動。

電控單元中采用西門子S7-200系列PLCCPU224XP作為主控制器,用PTO脈沖輸出方式完成AGV加速啟動和減速停止時的步進電機控制,PWM脈沖輸出方式完成軌跡跟蹤時的電機控制。傳感器檢測單元由用于磁條路徑檢測的磁傳感器和用于避障的超聲波傳感器和接觸式防撞傳感器組成,其中磁傳感器為AGV的“眼睛”,通過讀取磁條獲取小車位置和偏移狀態信息,主控制單元通過對其所得到的信息進行分析,得到不同偏移狀態時的電機控制量,從而達到對AGV準確控制的目的。

二、路徑跟蹤深度強化學習控制策略

路徑跟蹤問題馬爾科夫建模強化學習是一類用于解決馬爾可夫決策過程MDP)問題的算法集合,需將目標任務轉化為MDP問題才能應用強化學習算法。包括4個部分的設計,分別為智能體、狀態空間、動作空間與獎勵函數,智能體在本文中即為第一章所描述的AGV模型。

(一)智能體狀態空間設計

考慮到磁導航AGV通常只能得到磁感應器中心點與磁條中心點的偏差距離這一外界信息。所以在感應信息缺乏的情況下,若只利用傳感器當前的觀測信號作為狀態表示,其狀態表示只能反映AGV車身一點與磁條的距離,并不能體現AGV車身方向與磁條路徑方向之間的夾角。上述問題也被稱為混淆狀態問題,該狀態表示不滿足馬爾科夫特性。于是考慮加入最近N步的歷史狀態共同構建狀態表示。

(二)智能體動作空間設計

由于AGV由轉向驅動輪驅動,因此對AGV的控制輸出為驅動輪轉動力矩與驅動輪轉向力矩,兩個力矩分別控制主動輪的轉速與方向。伺服電機可輸出的力矩范圍是比較大的,若直接使用輸出力矩大小作為智能體的動作輸出空間可能導致兩個問題,其一是由于連續的動作行為是被獨立隨機選擇的所以在訓練的過程中智能體可能會連續輸出兩個差距較大的力矩值,這種情況可能會對電機的使用壽命造成影響,其二是智能體的動作空間越大其訓練的時間也會越長,原因是導致探索的狀態空間變大了。

(三)策略函數參數更新方法

策略函數的更新使用了確定性策略梯度算法。確定性策略的梯度的存在,確定性策略梯度的提出避免了算法在動作空間上的積分計算,使得策略梯度的估計效率大大的超過了隨機策略梯度算法。與隨機策略不同的是確定性策略的動作輸出不存在隨機性,無法對狀態空間進行探索,所以在使用確定性策略算法時需要在輸出動作時加入隨機的探索噪音以實現對狀態空間的探索。

三、算法執行流程

算法在應用前需要進行一段時間的訓練,并在算法收斂后結束該階段。最終得到的策略函數即為將當前AGV的狀態輸入映射為動作輸出的路徑跟蹤控制器。訓練階段結束后只保留策略函數部分作為AGV的路徑跟蹤控制器。基本步驟如下:(1)獲取AGV狀態信號st輸入到策略函數網絡中;(2)策略函數接收輸入狀態信號st后生成動作at作為輸出,在加入探索噪音后返回給AGV執行;(3)AGV執行動作at后得到獎勵rt與下一個狀態st+1,組合前一時刻狀態信號st并加入歷史信號后組成經驗樣本e(St,at,rt,St+1)存儲到大小為1×10 4的經驗緩存池中;(4)從經驗緩存池中隨機采樣一個batch的經驗樣本用于訓練;(5)使用采樣的經驗樣本,用式(12)計算損失函數;(6)通過隨機梯度下降的優化方法最小化損失函數來更新值函數逼近網絡QSt,at|()ω的參數ω;(7)通過確定性策略梯度算法式來更新策略函數網絡μst|()θ的參數θ。

結語

仿真結果及分析路徑跟蹤仿真中使用了兩個半徑分別為6m與4m的圓弧連接3段直線作為跟蹤路徑。首先在訓練階段中,考慮到磁條傳感器的寬度通常為20cm,其最大測量誤差為±10cm。所以將誤差允許范圍限定為±10cm,當AGV的跟蹤誤差大于±10cm時則判定出軌并結束本次跟蹤任務,將AGV重置為誤差在±10cm范圍內的隨機初始狀態,進入下次迭代。AGV每次出軌或是行駛完跟蹤路徑的全程則為一次完整的。在模型性能驗證中,AGV的起點坐標為(9.9.0),初始誤差設置為0.1m,去除探索噪音只保留策略函數部分作為控制輸出。

猜你喜歡
動作策略
基于“選—練—評”一體化的二輪復習策略
下一個動作
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
動作描寫要具體
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
畫動作
讓動作“活”起來
動作描寫不可少
主站蜘蛛池模板: 国语少妇高潮| 国产激情无码一区二区免费| 国产青榴视频在线观看网站| 美女被狂躁www在线观看| 日韩精品一区二区三区免费| 久久精品中文无码资源站| 香蕉久久国产超碰青草| 国产欧美日韩综合一区在线播放| 欧美一级片在线| 福利在线不卡一区| 黄色a一级视频| 日韩福利在线观看| 精品福利国产| 国产黄色视频综合| 中文毛片无遮挡播放免费| 免费人欧美成又黄又爽的视频 | 爽爽影院十八禁在线观看| 国产精品思思热在线| 免费午夜无码18禁无码影院| 九九香蕉视频| 亚洲国产综合精品一区| 老司机久久99久久精品播放| 日本不卡在线播放| JIZZ亚洲国产| 国模私拍一区二区| AV在线麻免费观看网站| 中文字幕丝袜一区二区| 亚洲日韩欧美在线观看| 国产97色在线| 人妻丰满熟妇啪啪| 久久99国产综合精品女同| 视频一区视频二区中文精品| 韩国v欧美v亚洲v日本v| 国产一区成人| 国产成人永久免费视频| 亚洲综合色婷婷中文字幕| 国产内射在线观看| 另类专区亚洲| 色网站免费在线观看| 国产成人免费观看在线视频| 欧美特黄一级大黄录像| 中文字幕在线视频免费| 国产精品视频观看裸模| 99re视频在线| 国产区在线观看视频| 人妻精品全国免费视频| 国产成人精品免费av| 中文字幕一区二区人妻电影| 九九热这里只有国产精品| 国产一区二区三区在线精品专区| 精品欧美日韩国产日漫一区不卡| 91探花国产综合在线精品| 国产高清在线观看| 欧美另类一区| 四虎永久免费地址| 最新亚洲人成无码网站欣赏网| 波多野结衣无码AV在线| 亚洲三级成人| 2020国产精品视频| 精品国产自| 麻豆国产原创视频在线播放| 久久动漫精品| 中国精品久久| 多人乱p欧美在线观看| 国产精品视频导航| 亚洲人成网18禁| a毛片在线| 婷婷99视频精品全部在线观看| 欧洲极品无码一区二区三区| 无码一区18禁| 九色视频最新网址| 91日本在线观看亚洲精品| 国产精品成人一区二区| 婷婷亚洲天堂| 久久国产亚洲欧美日韩精品| 免费一级毛片| 亚洲日本中文字幕天堂网| 日本人妻丰满熟妇区| 欧美中文字幕在线二区| 激情六月丁香婷婷四房播| 亚洲一区黄色| 一区二区在线视频免费观看|