◆李依霖
基于對機器人的狀態行為預測和行動糾正的方法研究
◆李依霖
(吉林建筑科技學院計算機科學與工程學院 吉林 130111 )
本研究為了實現對動態機器人預測的必要性提出了對狀態行動的預測。根據現已提出的在線支持向量回歸機實時性逐次預測的方法為基礎,由于預測的定義中沒有提到狀態及行動的概念,因此,本論文提出根據機器人的現狀態和行動預測出新環境下的未來狀態,然后通過現狀態和行動預測值,實現狀態再定義的觀點。本文為了實現對狀態行動預測的必要性,解釋說明了關于在線的支持向量回歸機的改良方法,并說明狀態反饋控制的方法對狀態行動的預測。首先將預測每1單元時間下的狀態定義為逐一狀態預測,在此基礎上進行擴展,在n單元時間下,預測狀態定義為長期狀態預測。因此,預測值優先度的行動補正方法是預測機器人對狀態行動中采用最適合行動的補正方法。
在線的支持向量回歸機;狀態行動預測;預測值的優先度
在線支持向量回歸機的基本思想是避免批處理支持向量回歸機重復學習的缺點,導入逐一學習的方法[1]。通過這種方法,不對最初的訓練數據重復學習,添加和刪除學習機中的要點。訓練時逐次添加學習數據,通過預測回歸系數將得到的學習數據范圍作為對象,當學習結束時開始進行預測未來狀態。因為在線支持向量回歸機能實現逐一學習,但不能實現逐一預測[2]。針對這一問題,我們考慮到利用在線支持向量回歸機進行實時性的逐一預測的方法。通過已有的支持向量和新輸入的訓練數據,并利用逐次更新的參數,構成在下一時刻的輸入預測式,提出在線支持向量回歸機的逐次預測方法。
本研究是為預測長期狀態,在n樣本時間的狀態下進行預測。本研究的目的是通過機器人現在的狀態和行動預測到機器人下一個階段將要移動的狀態。在每1單位時間內,根據現在的狀態采取的行動進行預測,定義為逐次狀態預測。并在這種方法的基礎上擴展預測狀態在第n樣本時間上進行預測時,應該采用怎樣的方法來決定狀態和行動的控制原則[3]。
通過離散時間的非線性狀態空間模型表示預測對象的模型的動態的行動。利用這個模型的組合行動和狀態預測方法實現控制移動到目標狀態,來預測出未來的狀態[3]。非線性狀態空間模型是通過機器人的現狀態和此時采取的行動,預測未來狀態的行為。在樣本時間上對每個在線的支持向量回歸機模塊給予時間的系數和行動,預測出每1樣本時間的狀態,將其表示為得到的預測值。通過預測出的樣本狀態值,輸入公式產生為了決定行動的狀態返回增值,并計算出預測出未來的行動系數。如下式:

在任意樣本時間內,可以相互導出行動和狀態,并能預測出長期的狀態[4-5]。根據定義逐次狀態預測的結構,實現狀態行動對預測的擴展。實現這個狀態下行動對預測的擴展,采用在線的支持向量回歸機作為預測器,預測狀態和行動[6]。從現在的狀態和行動預測出下一刻的狀態和行動,構成預測系統。將在線支持向量回歸機的現狀態和行動,組合訓練數據,實現對未來的內部狀態進行預測[7]。將在線支持向量回歸機作為線性二次調節器對下一時刻的狀態進行預測時,先定義狀態變量和,將非線性離散狀態空間模型作為預測對象的模型,用來描述通過現在的狀態和行動預測出來的系數返回得到線性二次調節器的狀態返回增量。接下來實現對預測行動進行補正。利用狀態和行動的組合實現機器人控制的方法,利用學習機通過機器人現在采取的行動預測出未來將會產生的行動反應,從而實現行動補正的方法。如果未來將要采取的行動是包含預測誤差的預測值,就將會生成重復行動動作,為了減少這類影響,考慮到使用最合適的控制方法和狀態組合預測,決定采用補正的行動方法。
著重預測結果的變化,設計可以調整的動態權重系數。
考慮利用這兩種方法,對過去的預測結果進行檢討。與現在行動的結果進行比對,設置存在下降程度時進行行動補正,導出預測值。
動態環境下對機器人實施監控控制,為了準確預測未來的行動和狀態,要通過預測出的行動結果進行實時修改,令機器人實現“理想行動”狀態[8]。本研究設定自動式兩輪倒立擺的倒立姿勢維持控制,利用對狀態行動的預測,得到預測出的可能性擾動,在補正擾動的基礎上產生必要的行動,通過狀態返回增量進行最合適的控制。倒立擺的機體傾斜角度的變化越小,獲得的行動越合適。通過狀態行動對預測未來應該采取的行動組合,得到補正倒立擺的控制輸入值,使用這個預測值來補正行動,形成狀態行動對預測“現時刻”到任意的+時刻的行動預測結果的集合。利用預測結果與預測對象“現時刻”相對比較,產生預測誤差比例。設定補正時使用的參數值重要性,為了降低誤差影響,要著重確認預測的開始時間[9-10]。


通過逐一學習方法預測逐次狀態是組合進一步學習的逐一狀態預測方法。但在逐次學習中數據的長度固定的情況下,達不到預定數據組合學習就終止了,存在著預測不到數據的情況。數據組合的長度設定為系數N,將N和前一時刻的N-1設為數據基點進行學習和預測。也就是說,通過在線支持向量回歸機上更新學習第N-1次的學習數據時用的參數,從每增加一個學習數據開始預測下一步的組合學習。如圖1所示:
在第-1次的學習數據時,重復的向量,偏差項,作為學習數據的特征抽象化參數。本研究中著重學習第-1次的學習數據和第次的學習數據,定義-1次參數的集合,權重向量為,偏差項為。利用這些系數在每1個單位時間下進行狀態預測,進行組合批處理向量回歸機的進一步學習。此時,把第次得到的數據最小化,作為第次學習數據的行為狀態特征。將這個結果集合學習第-1次行動狀態,測得學習數據時的參數來實現增量學習。
本文討論了通過定義機器人的現狀態和行動進行為來狀態行動的預測。首先,本文對提出的狀態和行動的預測方法進行說明;然后,通過擴展在線的支持向量回歸機的方法對狀態行動進行預測;最后,定義狀態和行動的預測式,利用現在的行動擾動系數修正未來狀態和行動的方法。
[1]陳志賢. 面向復雜環境的服務機器人自主規劃方法研究[D].中國科學院大學(中國科學院深圳先進技術研究院),2019.
[2]錢慶文. 兩輪自平衡車擺機器人建模與控制方法的研究[D].哈爾濱理工大學,2019.
[3]陳孟元. 移動機器人仿生SLAM算法研究[D].中國科學技術大學,2019.
[4]黃利偉. 智能協同算法研究及應用[D].電子科技大學,2019.
[5]朱疆成. 空中機器人的層次化決策與控制系統研究[D].浙江大學,2019.
[6]邱增帥. 面向室外環境的移動機器人自主場景理解[D].大連理工大學,2018.
[7]周振. 欠驅動多機器人系統一致性及編隊控制研究[D].燕山大學,2018.
[8]張啟彬. 基于不確定性分析的移動機器人室內定位與導航控制方法研究[D].中國科學技術大學,2018.
[9]黃辰. 基于智能優化算法的移動機器人路徑規劃與定位方法研究[D].大連交通大學,2018.
[10]別東洋. 模塊化自重構機器人分布式變形策略研究[D].哈爾濱工業大學,2017.
2019年吉林建筑科技學院科研項目(??谱帧?019】016號)