智能冰壺機器人實踐教學平臺設計與建設

2022-08-09 11:26:00李丹丹

黑龍江教育·高校研究與評估 2022年8期

姜宇，金晶，李丹丹

（哈爾濱工業大學，黑龍江哈爾濱 150001）

我國通過實施《高等學校人工智能創新行動計劃》，積極推進“新工科”建設，重視人工智能與計算機、控制、數學、物理學等學科專業教育的交叉融合，形成“人工智能+X”復合專業人才培養模式[1]。對標國際一流大學自動化類專業的人才培養質量，建立人工智能與自動化復合專業實踐教學體系，搭建理論與實踐應用的橋梁，培養學生的創新意識、創新素質和創新實踐能力，以適應國家新工科戰略背景下形成符合工程教育規律和時代特征的新培養模式[2]。

面向新工科創新人才培養，人工智能與自動化復合專業的教學實驗平臺不僅需要涵蓋自動化專業“自動控制理論”“魯棒控制”“自適應控制”等課程的實驗教學內容，還需要兼顧人工智能專業的機器學習、深度學習、強化學習等新內容。

冰壺比賽被稱作“冰上的國際象棋”[3]，是對智力要求很高且需要團隊合作的冬奧會熱點賽事。冰壺比賽過程包含典型的人工智能與自動化專業相關技術內容，具體包括：基于賽前試投冰壺球的冰面摩擦參數辨識技術；基于對手歷史戰績的博弈策略規劃技術；基于高穩定性投擲的冰壺球初始速度控制技術；基于視覺信息的冰壺球滑行速度實時估計技術；基于擦冰動作的冰壺球落點位置控制技術；基于場上冰壺球布局變化的比賽策略動態博弈技術[4]。可見，特別適合以冰壺比賽作為背景自制人工智能與自動化專業的綜合性實驗平臺。

通過研究具有開放性、擴展性、兼容性和前瞻性的冰壺機器人教學實驗平臺，可以形成貫穿自動控制理論、運動控制、數字圖像處理、神經網絡、博弈論等人工智能與自動化專業的一體化實驗教學內容，滿足教學實驗平臺的高階性、創新性和挑戰度要求。學生依托該實驗平臺能夠更加直觀地理解復雜環境下多運動體動力學建模方法，研究相關深度學習視覺檢測算法，通過強化學習算法訓練投擲與擦冰控制策略來贏得比賽任務，為學生設計的仿真算法提供實物驗證平臺，助推新工科人才培養實踐創新平臺建設。

一、冰壺球運動的動力學建模

冰壺場地具有凹凸不平的冰粒，冰壺球在自由滑行時無法保持高精度的直線平移運動，通常采用旋轉冰壺球的方式來產生弧線型的平移運動，保證投擲后冰壺球運動軌跡和落點位置的準確度和穩定性，稱為“旋進”[5]。冰壺球在冰面上旋轉——平移運動很難建立高精度動力學模型，這是由于冰壺球旋轉所帶來的摩擦生熱融化冰面，在冰壺球和冰的接觸面之間存在液態水薄膜，引起冰壺球不同位置受到的摩擦力不同，產生側向偏移，因此冰壺球的平移運動不是直線，而是具有一定“曲度比”的弧線。冰壺球運動的曲度與初始速度、角速度和摩擦系數等參數相關，建立冰壺球在冰面上運動的高精度動力學模型，并對冰壺球所受到的摩擦力進行相關測量和分析，對于理解冰壺運動、比賽和訓練策略以及制冰都具有重要價值。

為了建立更加準確的動力學模型，將冰壺球運動過程分為三個階段。第一階段，當冰壺球以最大速度滑行時，前導外側半圓處于干摩擦狀態，引起冰面融化。前導半圓的內側主要處于濕摩擦狀態，如果冰壺球運動足夠快，薄層水膜在尾隨半圓的內側主要處于濕摩擦狀態。第二階段，尾隨半圓還未追上前導半圓融化的水膜便被凍結。前導半圓的外側仍然是干摩擦情況，引起冰面融化，前導半圓的內側處于濕摩擦狀態。尾隨半圓的內側處于干摩擦狀態，引起冰面融化，尾隨半圓的外側處于濕摩擦狀態。第三階段，當冰壺球的移動速度足夠慢，冰壺球和液體之間的黏附力能夠將一些液體加速到冰壺球的速度，然后在冰壺球旋轉時將液膜拖曳到冰壺球周圍時出現本階段。預計這種情況水膜黏附力會在冰壺球周圍發生，最明顯的影響將出現在冰壺球的右側，即旋轉和平移速度平行的位置。

冰壺場地的表面由許多被稱為“冰卵石坑”的圓形突起和伴隨空洞組成，這種不光滑冰面使得冰壺球在給定的初始旋轉下，運動軌跡會產生大小不一的曲度，曲度的大小并不與旋轉速度直接相關，且旋轉運動可能在平移運動之后結束，因此，冰壺球運動的動力學模型與通常光環平面上簡單直線/旋轉運動的動力學模型完全不同。冰壺球在滑行過程中，通過底部中空、半徑12.5cm、寬度3~6mm 的薄環與冰面接觸，與冰卵石坑有著更加復雜的摩擦關系，形成非常復雜的物理過程。

下面基于干濕摩擦混合的方式建立帶有旋轉的冰壺球運動模型。將干摩擦力描述為：

其中，M是冰壺質量，g 是重力加速度，μ 是動摩擦系數，θ 是冰壺球薄環旋轉的角度。

將濕摩擦力描述為：

其中，u（θ）是相對于冰的凈速度，k 和φ 是根據擦冰過程設置的系數。濕摩擦力隨著速度的增加而增加，類似于流體中運動物體的阻力增加。

當冰壺球經過冰層時，由快速擦冰運動產生的動摩擦和由冰壺壓力導致冰層融化的濕摩擦在不同運動狀態下互相切換，共同作用產生冰壺球的各種運動。該干濕摩擦力混合模型的可行性表現為：（1）當遇到固體冰時，動力摩擦導致冰融化，其結果是冰壺球既經歷了干摩擦，也經歷了濕摩擦，其接觸區域穿過冰上的液態水薄膜；（2）可以建立濕摩擦與運動速度之間的依賴關系，以及建立互相切換的狀態關系；（3）冰壺球在其運動的最后階段能夠將一些液體薄膜部分地拖曳到冰壺球底部周圍，從而可以準確描述冰壺球增強的旋度。

二、冰壺球運動信息估計

冰壺場地長44.5 米，寬4.32 米，冰場的空曠性和冰面反光性等復雜環境給冰壺機器人的精確運動檢測和跟蹤等帶來了挑戰性問題。基于冰壺場地的圖像識別技術進行冰壺球定位，可以為投擲與擦冰控制提供反饋信息[6]。針對冰壺球的形狀、色調特征和定位測量要求，采用工業級CCD 攝像機獲取圖像，經過基于色調的圖像分割進行目標識別和粗定位，并通過傳統的提取邊緣和橢圓模板擬合等方法獲得目標精確位置，正確識別物體相對于標線到達毫米級的位置變化[7-8]。

考慮冰壺機器人目標跟蹤過程中可能存在人或機器人對冰壺球產生遮擋的情況，被遮擋下的冰壺球外形會頻繁地發生變化，冰壺球的識別和定位難度都會大大增加；冰壺球與機器人攝像頭距離不同時在圖像中的大小也會發生變化，距離攝像頭越近在圖像中就越大，反之就越小，該問題可以被歸結為目標的多尺度問題；如果在拍攝過程中攝像頭的角度發生了變化，先前測量的結果相對當前角度下的正確結果會產生偏移，這也是冰壺球跟蹤過程中需要克服的關鍵問題[9]。

采用SiamRPN++網絡作為冰壺球目標跟蹤方法。首先該網絡在訓練時使用隨機偏移的數據增強策略，緩解網絡因為破壞了嚴格平移不變性帶來的影響，消除了位置偏見；其次使用多層融合的策略，選擇網絡最后三個卷積層的輸出進行融合；最后提出按深度的互相關計算方法，在減少網絡參數及計算量的基礎上實現更好的跟蹤效果。

SiamRPN++是一個統一框架的、可實現端到端訓練的視覺追蹤網絡，可以應對冰壺球被遮擋導致的外觀特征頻繁發生變化的問題，能夠根據被遮擋的情況動態調整目標邊界框的大小，還可以對深層網絡的特征圖進行多層融合，有效解決目標的多尺度問題，因此能很好地應對所采集的冰壺球大小的變化。

為了易于在嵌入式設備上部署，以MobileNet 作為SiamRPN++的骨干網絡，在GPU 上的運行速度能達到70FPS。經實測，在1080Ti 上的速度在45FPS 左右，該速度完全能夠實時處理攝像機拍攝到的視頻，并在跟蹤精度和穩定性方面滿足基本需求。

三、冰壺機器人投擲與擦冰控制策略

冰壺機器人投擲和擦冰控制系統模型具有參數不確定性、控制輸入約束的特點，很難通過古典或現代控制理論方法計算控制律，采用深度強化學習方法進行控制算法訓練，實現高精度的落點位置和速度控制是冰壺機器人投擲和擦冰控制系統設計的必然趨勢[10]。

冰壺球投擲與擦冰控制的強化學習需要多個智能體從連續空間中選擇出最優控制策略[11]。近年來，深度強化學習已成功地應用于具有離散動作空間的博弈[12]，但離散動作的強化學習模型不適合為冰壺機器人設計投擲與擦冰策略，在冰壺機器人比賽過程中，動作的微小變化會顯著影響結果。采用神經網絡與蒙特卡洛樹搜索相結合的強化學習框架，將場景感知與策略決策進行融合。神經網絡的訓練為離線過程，基于專家數據以及自我對弈生成數據訓練策略函數與價值函數；蒙特卡洛樹搜索為在線過程，基于當前比賽狀態選擇下一步動作，考慮到不確定性影響，在蒙特卡洛搜索中引入核回歸。

通過監督學習訓練動作策略輸出所有可能動作的概率分布。該策略使用隨機梯度上升法對隨機采樣的狀態動作對進行訓練，實現在狀態中選擇專家動作的可能性最大化。

使用自我對弈數據進一步訓練動作策略。在每個時間步驟，按照使預期得分最大化的方向，通過隨機梯度上升來更新動作策略。

其中，r（st）是獎勵值，從當前時間步驟t 直到本局比賽結束的得分總和。

得分函數輸出當前狀態s 的得分值。狀態s 的預期得分是由狀態s 使用策略p 到本局比賽結束累計獎勵的平均值。

該得分函數可以通過得分估計量來近似。該得分估計量由狀態報酬對使用隨機梯度下降法訓練，以最小化預測值與真實得分之間的均方誤差。

在算法實現過程中，將冰壺機器人所處的連續動作空間進行離散化。確定性離散化過程會在策略評價和策略改進中產生巨大的偏差，通過隨機連續行為搜索，取消確定性離散化的限制，在具有連續動作樣本的物理模擬器中進行局部搜索。采用KR-UCT 的Monte Carlo 樹搜索方法，通過核回歸和核密度來估計連續行為空間中的得分，并利用鄰域信息有效地選擇和擴展節點。給定一個動作，根據附近的值估計得分的置信上限：

代表期望值va與每個動作a 的訪問次數na的單邊置信區間，常數C 是折中系數。

通過上述設計的策略—得分網絡來得到給定輸入狀態下的動作概率分布和期望得分。在監督訓練中，神經網絡的訓練數據直接從冰壺機器人自我對弈的模擬比賽中獲得。利用策略網絡與價值網絡，以基于核回歸的蒙特卡洛樹搜索算法選擇動作，該過程考慮冰壺擊打具有不確定性情況下，探索和調整連續空間中的控制策略。

四、結論

將人工智能技術、機器人控制技術與冰壺運動技術相結合，通過研制智能冰壺機器人實踐教學平臺，以人機對弈、機機對弈的方式設計人工智能與自動化專業的相關實驗教學內容，適應新工科對人才培養的實踐創新能力的要求，為組織全國大學生冰壺人工智能挑戰賽奠定基礎。