999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于模糊強化學習的雙輪機器人姿態平衡控制

2021-04-07 07:21:44董朝陽何康輝
系統工程與電子技術 2021年4期
關鍵詞:動作

閆 安, 陳 章, 董朝陽, 何康輝

(1.北京航空航天大學航空科學與工程學院, 北京 100191;2.清華大學自動化系, 北京 100084)

0 引 言

單軌雙輪機器人因其高度的平穩性、較強的越障能力等性能在生活服務型機器人中表現出其強大的優勢,可以廣泛應用于軍事、交通、安保、工業生產等領域。同時,與倒立擺系統類似,雙輪機器人有多變量、非線性、強耦合、高階次、參數不確定性等動力學特性,是自動控制領域研究的重要對象[1-3]。目前,雙輪機器人的控制方法仍以傳統控制理論居多,最常見的方法是將建模得到的非線性系統做線性化處理,通過比例-積分-微分(簡稱為PID)控制器或者狀態反饋控制器來實現控制[4-5]。由于機器人存在著固有的靜態不穩定問題,Keo等[6]提出了利用控制陀螺力矩來實現機器人的傾角穩定;Lam等[7]在此基礎上通過比例微分控制器實現了傾角穩定,具有較好的魯棒性和效率。He等[8]采用極點配置法設計狀態反饋控制器實現控制系統的穩定,但極點位置和數目的設計對經驗的依賴較大。Hsieh等[9]采用模糊滑模控制器和陀螺平衡器,具有系統響應快、抗干擾能力強等優點。Jian等[10]提出了一種基于粒子群算法的自平衡控制方法,根據線性二次型調節器(linear quadratic regulator, LQR)控制方法對LQR控制器的參數矩陣進行優化,速度快,超調量小。然而,上述傳統算法均受到系統模型的制約,對于非線性、時變的、多變量復雜系統往往難以滿足控制要求,且多依賴于經驗。

強化學習[11-12]是一種不需要先驗知識,與環境直接進行交互試錯,通過反復迭代得到的反饋信息來獲取最優策略的人工智能算法,因而被廣泛應用于控制領域中[13-14]。強化學習根據求解方法不同可以分為策略迭代法和值函數迭代法。其中,策略迭代法[15]從一個初始化策略出發,通過策略評估,迭代改進直至收斂來得到最優策略。但在離散空間問題上不能很好地評估單個策略,容易陷于局部最小值,且該方法得到的隨機性策略在實際應用中的可靠性難以保證。而值函數迭代法則是根據狀態選擇動作,得到相應策略。其中,Q-learning算法[16-17]是一種典型的與模型無關的強化學習算法,其狀態收斂與初值無關,無需知道模型就可以保證收斂。在狀態空間不大的情況下能夠很好地構建Q值表,得到最優控制策略。

傳統的Q-learning算法主要針對離散狀態和離散動作,但實際問題中存在很多連續變量,因此處理連續的動作和狀態成為了此類強化學習研究的關鍵。文獻[18]提出了一種線性擬合方法,結合插值函數實現了連續動作輸出。本文在以上研究的基礎上,針對傳統Q-learning在機器人控制方面的不足,引入模糊算法,提出了一種基于模糊強化學習(簡稱為Fuzzy-Q)算法的雙輪機器人側傾控制方法,實現較大傾角下(0.15°)機器人的姿態控制,使機器人能夠抑制跌倒且快速恢復平衡狀態。本文的主要研究內容如下:①建立單軌雙輪機器人的非線性動力學模型,確定系統的狀態轉移方程;②針對傳統Q-learning算法的不足,引入模糊推理方法泛化系統動作空間,建立輸出連續的Fuzzy-Q算法;③基于雙輪機器人特性,設計算法的狀態空間和動作空間,并結合機器人傾角動態變化設計回報函數,提高訓練效率;④通過仿真實驗,對比分析傳統Q-learning和Fuzzy-Q的學習能力和控制精度,驗證所設計算法的有效性和魯棒性。

1 基于控制力矩陀螺的雙輪機器人動力學模型

1.1 控制力矩陀螺

控制力矩陀螺(control moment gyro, CMG)廣泛應用于航天器、船舶、自動潛航器等裝置的姿態調整[19-20],也在機器人、單軌列車等領域有相關的學術性研究[21]。本文的CMG安裝右側視圖如圖1所示。其中,O-XYZ是慣性坐標系,車體圍繞Y軸旋轉,是一個近似的倒立擺,車身傾角為θ。Ob-xbybzb是固連在車體上的坐標系。陀螺框架在CMG進動軸力矩τp的作用下圍繞xb軸進動,進動角為γ。Og-xgygzg是固連在陀螺框架上的坐標系。陀螺飛輪圍繞zg軸自轉,角速度為Ω。其核心是一個高速旋轉的飛輪,飛輪安裝在陀螺框架上,框架繞與自轉軸垂直方向進動時,飛輪的角動量方向會隨之發生改變,由于系統滿足角動量守恒定律,系統會產生一個與自轉軸和框架轉軸方向正交的反作用力矩。

圖1 CMG右側視圖

1.2 系統組成及平衡原理

如圖2所示,本文設計的CMG機器人系統主要由兩個對稱安裝的CMG和平衡車架組成。

圖2 基于CMG的機器人模型

兩個CMG自轉速度大小相等、方向相反,靜止穩定控制時,進動角速度大小相等,方向相反。分析可知,當機器人產生一定的傾斜角時,進動電機施加扭矩使飛輪轉子在自轉的同時相對車體進動。根據陀螺力矩效應,陀螺進動過程中受到沿進動軸方向外力矩的同時會對車體產生一個反作用力矩τp來抵消重力矩分量以及外界干擾力矩。反作用力矩可表示為

(1)

1.3 系統動力學模型

雙輪機器人處于運動狀態時,其運動速度與車身傾角和車把轉向角之間存在著非線性的耦合關系[22-24]。而在靜止狀態,雙輪機器人存在固有的靜態不穩定問題,需借助配重或車把來保持平衡。因此,本文通過CMG的方式來實現機器人的姿態平衡控制。

在使用拉格朗日法建立系統的動力學模型和控制模型前,先對系統作如下假設[25-26]:

假設1雙輪機器人處于靜止狀態,即Y向速度為0;

假設2陀螺框架、飛輪都是剛體,車身不考慮車把轉向,也是剛體;

假設3輪胎與地面為點接觸,不考慮輪胎形變;

假設4不考慮進動方向的摩擦。

同時,選取車身傾角θ,陀螺進動角γ為廣義坐標,系統動能為

(2)

式中,mg、mb、mf分別表示陀螺框架質量、車身質量和飛輪質量;Igx、Igy、Igz分別表示陀螺框架主軸慣量;Ifx、Ify、Ifz分別表示飛輪主軸慣量;hb、hf、hg分別表示車身質心高度、飛輪質心高度和陀螺框架質心高度;Iby表示車身主軸慣量。

系統勢能可表示為

V=(2mghg+2mfhf+mbhb)gcosθ

(3)

根據拉格朗日方程:

(4)

得到系統的動力學模型:

(2mfhf+2mghg+mbhb)gsinθ-

(5)

(6)

式中,τp作為系統的控制輸入,用來保持系統平衡。對于本文的單軌雙輪機器人,強化學習的目標是通過大量的學習訓練使機器人能在具有初始傾角的情況下根據經驗策略實現自主的靜止穩定控制。

2 強化學習與Fuzzy-Q算法

2.1 Q-learning算法原理

Q-learning算法是Watkings在1989年提出的一種與模型無關的離線學習算法[27]。Q-learning算法在建立Q值表的基礎上,通過機器和環境的交互,得到對應的回報值,再通過不斷改進Q值表,使得回報值越來越高[28-29],隨之機器人的動作也趨于最優。Q-learning算法的基本形式為

Q(st,at)=α[rt+βmaxQ(st+1,at+1)]+

(1-α)Q(st,at)

(7)

式中,α和β分別表示學習率和折扣因子;α越大則學習速率越快,但受到干擾后的影響越大,可能導致算法不收斂;β表示未來獎勵對決策的影響程度,β越大系統更關注長時間內的決策,β越小則更關注最近的決策的影響;st為t時刻機器人的狀態,控制器在機器人st狀態下輸出at,使其狀態更新為st+1,并得到獎賞回報rt,表示機器人從st狀態到st+1狀態獲得的回報值;動作at∈A,A為動作空間;狀態st∈S,S為狀態空間。maxQ(st+1,at+1)表示控制器從動作空間中選擇一個動作at+1使得Q(st+1,at+1)的取值最大[30]。Q-learning通過式(7)進行更新,經過N次訓練迭代,可得

Q(st,at)=[1-(1-αn)](rt+βQ(st+1,at+1))+

(1-α)Q(st,at)

(8)

由于0<α<1,故當n→∞時,Q(st,at)將收斂于最優值rt+βQ(st+1,at+1)。Q-learning算法本質上屬于一種時間差分(temporal difference, TD)算法。與一般TD算法不同,Q-learning的策略核心是狀態-動作值函數Q(s,a),即Q-learning將每個狀態與動作視為一個整體考慮其性能,并對狀態-動作值函數Q(s,a)進行增量式更新,針對Q值表中的值函數Q(s,a),動作選擇通常采用ε貪心算法,策略表示為

(9)

即Q值表中最大的Q值對應的動作被選擇的概率最大,其他動作被選擇的概率相同,以便盡可能地利用已知信息,并保證所有的狀態空間都有被探索的機會[31-32]。

Q-learning的算法流程的最終目標就是通過迭代、更新,使得Q值函數收斂[33]。使用Q-learning算法實現機器人的控制,可以直接分析每個狀態-動作對,在每個狀態下對所能采取的動作進行評價,且Q-learning算法通過離散化的Q值表形式進行了簡化,適合作為實現機器人控制的強化學習方法探索。

2.2 Fuzzy-Q算法設計及優化

在初步仿真中發現傳統的Q-learning算法由于動作空間離散化,控制器的輸出存在高頻振蕩。實際執行機構難以輸出如此劇烈變化的量,且容易對CMG造成損害,同時機器人恢復平衡后的控制精度也有待提高。因此,本文考慮將模糊控制算法與Q-learning算法相結合,即當控制器接收到當前機器人的狀態向量之后,通過模糊推理選擇一種更合適的動作執行,使執行機構的輸出量更加平滑。考慮到模糊控制器的特點,選擇以機器人傾角和傾角角速度作為模糊優化的輸入量,模糊推理的輸出量為控制力矩。

(10)

式中,x為狀態空間變量;a、b為待定系數,根據論域范圍和模糊空間劃分來確定。綜合考慮控制性能和模型特點,模糊空間分割采取不等間距劃分。在橫向比較多種隸屬度函數后,本文選用效果最佳的三角形隸屬度函數進行模糊化,如圖3所示。

圖3 傾角隸屬度函數

對于系統輸出的連續狀態,在劃分狀態區間時,通過隸屬度函數將區間模糊化并計算其隸屬度,此時每個狀態都以相應的隸屬度劃分到兩個子狀態中。如T時刻機器人傾角為0.25 rad,則對應以70%隸屬于第一狀態,以30%隸屬于第二狀態,傾角角速度的狀態區間劃分同理,則此時共有4種機器人狀態。這4種狀態均為強化學習的狀態,且每個狀態的隸屬度為對應兩項的隸屬度乘積。在每次迭代時,選擇4種狀態中對應最大的Q值進行學習更新,并通過面積重心法對各個狀態的輸出進行反模糊化,即

(11)

式中,μk為狀態xk對應的隸屬度函數;v0為各狀態的反模糊化輸出值。在更新Q值時,選擇對隸屬度大于30%的狀態進行更新,系統通過反模糊化后得到最終的控制器輸出。由于結合模糊理論后算法涉及的狀態空間更廣,運算量更大,因此需要較長的訓練時間才能達到收斂,但學習效果和控制性能比傳統的強化學習更優,且抗干擾能力更好。

3 基于強化學習的控制器設計

3.1 狀態空間設計

表1 傾角離散區間劃分

表2 傾角角速度離散區間劃分

這樣狀態空間中的每個元素都對應以上10×10個狀態,因此也就生成了100個強化學習狀態。

3.2 動作空間設計

在整個控制過程中,機器人的傾角變化由控制器輸出的陀螺力矩決定,為避免動作搜索空間過大,對控制器的輸出動作進行離散化。根據控制經驗,具體的劃分如表3所示。

表3 動作離散區間劃分

3.3 回報函數設計

強化學習通過狀態轉移產生的回報函數來對選擇的動作進行評估,從而調整Q值表。即回報函數直接決定了Q-learning算法的控制效果和收斂效果,雙輪機器人控制的最終目的是使車身傾角θ趨于0,由此設計Q-learning算法回報函數為

(12)

式中,α1和α2表示回報系數,其大小主要由回報評價項的重要性和相對值來決定。為優化回報函數,本文同時將機器人傾角和傾角角速度作為評價量,車身傾角越大,回報懲罰越大,平方項用來加快收斂速度。使得機器人傾角較大時,以角度為回報函數的主要評價項;當傾角較小時(|φ|<5 rad),以傾角角速度為主要評價項,保證機器人在傾角接近0 rad的時候減速,盡量保持在平衡點附近擺動。

3.4 算法流程設計

Q-learning算法采用離散化的Q值表進行值函數的迭代,通過將系統狀態和動作人為分割為若干離散序列,從而把連續問題轉化為離散的表格化問題。算法的最終目標是使得Q值表中的Q(si,ai)收斂于Q*(si,ai),智能體可根據Q值表做出正確的動作。系統的結構框圖如圖4所示。

圖4 系統結構框圖

基于強化學習的單軌雙輪機器人控制算法流程圖如圖5所示。

圖5 算法流程圖

4 仿真結果

本文的算法基于Matlab R2018a環境,訓練在英偉達 GeForce GTX 1080 GPU上完成,在訓練開始時,任意狀態-動作對的Q值初始化為0,且機器人的初始傾角10 rad,CMG的進動軸力矩大小由強化學習算法得到的動作輸出獲得,當機器人傾角大于30 rad,則整個環境進行復位,重新學習,直到傾角能夠保持在0 rad左右并維持一段時間。整個訓練過程中,系統模型參數基于機器人實物如圖6所示,涉及的具體參數和數值如表4所示。

圖6 機器人實物圖

表4 機器人模型參數

4.1 Q-learning算法下的姿態穩定控制

采用Q-learning算法實現機器人控制,在經過約5分鐘的反復訓練后,仿真結果如圖7所示。

圖7 Q-learning算法下機器人控制仿真結果

可以看到訓練成功后,機器人的傾角在3 s左右就可以趨于收斂,控制精度為0.025 rad,同時傾角角速度的變化范圍為±0.2 rad/s,這主要是通過動作空間中的大幅度動作(±10N)配合小幅度調整動作(±1 N)以及靜止動作(0 N)來實現的。說明在模型未知且無任何先驗知識的條件下,控制器通過強化學習可以很快的控制平衡,且控制精度較高。

圖8為訓練過程中的回報函數值。可以看出,在訓練初期,由于動作的選擇處于探索階段,具有一定的隨機性,因此獲得的回報值較小。但在經歷了1 000次左右的學習之后,Q值表逐漸得到完善,智能體獲得的獎勵也越來越高,算法最終達到收斂。

圖8 Q-learning算法的回報函數

4.2 Fuzzy-Q算法下的姿態穩定控制

從仿真結果可以看到,由于Q-learning算法的離散化,控制器輸出振蕩幅度較大。為改善控制器輸出并提高控制精度,本文在強化學習的基礎上改進并設計了Fuzzy-Q算法,其仿真結果如圖9所示。

圖9 Fuzzy-Q算法下機器人控制仿真結果

圖9(c)是采用了Fuzzy-Q算法的控制器輸出,可以看到,在訓練成功后的控制周期內,陀螺力矩的輸出值較為平滑,未發生劇烈的突變,整個控制過程較為平順。

同時,在采用了Fuzzy-Q算法之后,機器人的控制精度為±0.01 rad,且傾角角速度收斂于±0.2 rad/s。由此可以證明整個訓練過程是成功的,機器人在此時已經學習到了一個最優策略,達到了較高的控制精度。同時,控制器的輸出為連續信號,比傳統強化學習的控制效果更好。證明了在傳統強化學習的基礎上引入模糊算法,可以將離散控制器轉化為連續控制器,控制效果上可以得到明顯改善。

圖10為訓練過程中的回報函數值變化曲線。可以看到,累積回報值在訓練開始時并不穩定,隨著訓練周期及次數增加,總體變化趨勢逐漸增大,即隨著訓練次數的增加最終趨于穩定值。證明算法實現收斂,且訓練次數比Q-learning算法更短,學習能力更強。

圖10 Fuzzy-Q算法的回報函數

4.3 外加力矩干擾下的姿態穩定控制

為分析系統的抗干擾能力,在訓練成功后,人為地加入擾動,具體做法為在21 s時對處于平衡狀態的機器人施加脈沖干擾力矩(9 N·m),傾角受到擾動后恢復情形的仿真結果如圖11所示。

圖11 受干擾時機器人控制仿真結果

可以很明顯地看到,在加入干擾之后,車身傾角出現了輕微增加,偏離角度約為0.116 rad,同時控制器迅速做出反應調整輸出,最終使機器人傾角平穩地恢復到了平衡位置,整個過程花費時間約為1 s,證明了Fuzzy-Q算法具有較強的魯棒性,在受到干擾后傾角偏離角度較小且恢復時間短。

5 結 論

本文設計了一種基于CMG和Q-learning算法的機器人側傾姿態穩定控制方法,實現了[-0.01,0.01]rad控制精度內的機器人靜止平衡控制。在傳統強化學習的基礎上,結合模糊理論建立了Fuzzy-Q算法,以模糊輸出代替Q值函數輸出,解決了Q-learning算法存在的控制器輸出高頻振蕩的問題,避免了在實際應用中對執行機構造成損傷。同時基于機器人特性優化回報函數,提高了學習效率。結果表明,經過訓練后,本文所設計的Fuzzy-Q算法能夠快速平穩地實現機器人的側傾穩定控制。相較于傳統的強化學習方法,Fuzzy-Q算法學習時間更短,控制精度更高且具有較強的抗干擾能力,能夠實現單軌雙輪機器人側傾穩定的控制目標。

猜你喜歡
動作
動作不可少(下)
巧借動作寫友愛
下一個動作
動作描寫要具體
畫動作
讓動作“活”起來
動作描寫不可少
非同一般的吃飯動作
動作喜劇電影周
電影故事(2015年30期)2015-02-27 09:03:12
神奇的手
主站蜘蛛池模板: 免费全部高H视频无码无遮掩| 永久免费AⅤ无码网站在线观看| 欧美一级高清片久久99| 国产成人啪视频一区二区三区| 色九九视频| 视频在线观看一区二区| 成人毛片免费在线观看| 爆乳熟妇一区二区三区| 伊人网址在线| 欧美激情福利| 国产精品一区二区国产主播| 激情综合网址| 国产成人凹凸视频在线| 精品三级网站| 92午夜福利影院一区二区三区| 国产激情无码一区二区免费| 成色7777精品在线| 伊人91在线| 污污网站在线观看| 欧美在线天堂| 亚洲精品无码久久毛片波多野吉| 在线欧美国产| 91久久大香线蕉| 日韩资源站| 一本一道波多野结衣一区二区 | 四虎影视国产精品| 欧美日韩国产成人高清视频| av午夜福利一片免费看| 久久国产精品77777| 韩日午夜在线资源一区二区| 在线中文字幕日韩| 在线五月婷婷| 黄片一区二区三区| 久久免费精品琪琪| 国产精品黄色片| 白浆免费视频国产精品视频| 日韩视频福利| 欧美a√在线| 亚洲香蕉伊综合在人在线| 免费在线观看av| 亚洲日韩国产精品无码专区| 国产精品分类视频分类一区| 日韩欧美国产三级| 精品福利网| 国产网站免费观看| 国产色伊人| 无码久看视频| 少妇高潮惨叫久久久久久| 在线观看国产黄色| 欧美天堂在线| 国产成人精品一区二区免费看京| 日韩精品一区二区三区swag| 亚洲成网站| 国产精品9| 成人另类稀缺在线观看| 国产欧美在线观看精品一区污| 毛片久久网站小视频| 国产美女叼嘿视频免费看| 欧洲极品无码一区二区三区| 国产一区二区影院| 日本午夜影院| 久久综合亚洲鲁鲁九月天| 欧洲一区二区三区无码| 亚洲一级毛片免费观看| 狼友av永久网站免费观看| 一本久道久久综合多人| 黄色污网站在线观看| 在线色国产| 婷婷在线网站| 色综合婷婷| 精品伊人久久久大香线蕉欧美 | 婷婷色一二三区波多野衣 | 国产精品一区二区久久精品无码| 国产精品视频3p| 伊人久久青草青青综合| 毛片在线区| 欧美日本在线一区二区三区| 久久伊人操| 国产亚洲精品无码专| 婷婷六月综合网| 亚洲综合狠狠| 亚洲中久无码永久在线观看软件|