基于神經網絡的機器人環境地圖構建方法研究

2017-09-13 12:30:41曹京勛王金祥

山東工業技術 2017年17期

關鍵詞：動作環境

曹京勛+王金祥

摘要：本文主要研究移動機器人感知環境并構建地圖的方法，引入了基于規劃的神經網絡（價值迭代網絡）的地圖構建模型，并以此為模型為基礎設計了環境地圖構建算法，讓機器人可以智能地尋路并構建完整的環境地圖。

關鍵詞：移動機器人；神經網絡；地圖構建

DOI：10.16640/j.cnki.37-1222/t.2017.17.141

1 研究現狀

近20年來，地圖構建問題已經成為國際機器人與自動化領域的研究熱點。目的就是對環境定位，機器人在位置環境中進行移動并根據自身位置和構建出的地圖信息進行自身定位，在此基礎上進行環境定位。

現在的前沿領域研究多是基于視覺攝像頭傳感器的研究。常見的濾波器是將非線性系統線性化的擴展卡爾曼濾波，高效率且計算成本低。也有人將粒子濾波器與卡爾曼濾波器集成在一起研究，目前比較前沿的濾波算法是計算代小更小，精度更高的基于平方根容積等算法。

2 基于規劃的價值迭代網絡方法

本論文主要探討的是基于激光傳感器的地圖構建方法，它最主要的特點是可以在黑暗的空間內探索未知環境，構建2D黑白圖/點云圖，本文注重嘗試用俯瞰的點云圖結合價值迭代網絡解決機器人的環境感知問題。

現有的方法往往只注重于構建環境地圖本身，而不擅長于在構建環境地圖基礎上和環境交互。機器人與環境交互會使機器人更加智能，規劃更好路徑的行進路徑，本文應用了價值迭代網絡進行交互，引入這種算法的目的是為了解決其他強化學習泛化能力弱的問題。這種方法的優點是提高機器人對不同環境的適應性，價值迭代網絡每次的狀態轉移都僅跟當前狀態的鄰接狀態有關，也就是為什么它有規劃的能力。尤其是像地圖構建等變化多且要考慮現實性的問題上該方法的優勢明顯。

3 適應于規劃神經網絡模型的環境地圖構建算法

價值迭代網絡訓練算法的思想：準備樣本集和測試集，其中每個樣本由二元組（（地圖數據+獎勵層），最優動作）組成。其中的地圖數據并不是真實的觀測數據，而是通過軟件生成的虛擬網格數據，其中將墻等障礙物網格點對應的位置為1，其他為0。獎勵層中機器人走過的區域和障礙物（也可以說是墻，也就是我們最終要測出的環境地圖，暫且以障礙物命名）的獎勵值為負，其他為0，也可以添加一些可以和環境交互的物體并設置他們的獎勵。網絡輸入上述的信息以后，輸出一個預測動作，再根據預測動作和最優動作的損失殘差進行反向傳播。

機器人實際工作算法描述：

（1）初始化傳感器狀態，加載價值迭代網絡模塊，初始化網格坐標，初始化獎勵層，動作集，要構建的全局網格地圖，機器人當前探測出的環境圖（非網格圖，為激光傳感器測量出的實際圖），上一輪循環的環境圖，機器人坐標等變量，其中機器人坐標初值為全局地圖的網格中心點。

（2）對每一個離散時間T=0，1，2，3…… 執行下列（3）～（7）直到時間結束或者探索結束。

（3）調用價值迭代網絡模塊，該網絡輸入為機器人當前坐標，全局地圖和獎勵層，輸出結果為下一時刻的最優動作，如果動作是移動動作則跳轉到（4），如是非移動動作則跳轉到（6）。

（4）根據輸出動作a移動機器人，之后轉到步驟（5）。

（5）用激光傳感器掃描周圍環境構建當前環境圖，并用圖像匹配的SIFT算法基于特征點匹配上一輪循環的環境圖和本輪環境圖，獲取仿射矩陣，根據仿射矩陣中的旋轉角平移來輔助修正探測過程的各種不確定或誤差信息，將探測到的信息更新到全局網格地圖中。跳到（6）。

（6）根據全局網格地圖信息更新獎勵層（更新內容包括將障礙物和走過的路徑的網格點對應的獎勵設置為負等操作，以作為下一輪循環中價值迭代網絡的輸入），轉到（2）。

（7）處理非移動動作，轉到（2）。

4 仿真實驗結果與分析

（1）如圖4-1所示，首先，初始化移動機器人的傳感器等模塊，加載規劃的神經網絡，將地圖坐標網格化。（注：其中實線的墻是真實的墻，是為了演示和對比，也就是說機器人處在未知的環境中）。

（2）如圖4-1所示，機器人用激光傳感器沿順時針或逆時針掃描周圍環境，尋找探測到的距離d： d（閾值）

（3）如圖4-1所示，以左閉右合的原則，標記障礙物網格點并添加到障礙物集合，期間用SIFT算法進行輔助誤差修正。

（4）如圖4-2所示，將之前走過的頂點和障礙物的負獎勵加到獎勵層。（小方塊為之前探索過的區域，星號為障礙物）。

（5）如圖4-3所示，機器人的位置和當前地圖輸入進規劃的神經網絡，規劃的神經網絡會根據輸入自動規劃出理想的動作，比如上圖里當輸入狀態信息后，在機器人右方的路上的神經激活值會明顯高于上下障礙物和左方已經走過得路徑。

（6）重復步驟2直到搜索完（如果中間遇到可處理的物體，則可執行相應的功能，即指d

仿真實驗表明，應用本論文的算法能有效地實現機器人與環境交互情況下的機器人與環境定位問題，實現環境探測功能并最終形成環境地圖，算法具有一定的精確性與魯棒性。

作者簡介：曹京勛（1995-），男，吉林延吉人，本科。