戚驍亞,劉創,富宸,甘中學
(1. 北京深度奇點科技有限公司,北京100086;2. 復旦大學智能機器人研究院,上海 200433)
群體智能(CI)的概念源自1785年Condorcet的陪審團定理:如果投票組的每個成員有超過一半的機會做出正確的決定,則組中多數決定的準確性隨著組成員數目的增加而增加[1]。在20世紀下葉,CI被應用到機器學習領域[2],并對如何設計智能體的集合以滿足全系統的目標進行了更廣泛的考慮[3,4]。這與單智能體的獎勵成形有關[5],并在博弈論界和工程界得到了眾多研究者的關注[6]。然而,CI算法,如眾所周知的蟻群算法(ACO),關注如何使群體智能涌現并超越個體智能,缺乏進化個體智能的機制,因此在沒有重大擴展的情況下不能成為自我進化的人工通用智能(AGI)體。
AGI的一個長期目標是創建能夠從第一原理進行自我學習的程序[7]。最近,AlphaZero算法通過使用深度卷積神經網絡和自我對弈游戲中的強化學習,在圍棋、國際象棋和將棋游戲中達到超人的性能。然而,AlphaZero如此成功的原因還沒有被完全理解。通過分析和試驗AlphaZero可以感覺到群智智能的邏輯思維暗含在算法當中。
本文從CI的發展和邏輯思路出發,將AlphaZero算法應用到五子棋的博弈中,展現了深度神經網絡的進化能力;然后,又將蒙特卡洛樹搜索(MCTS)與ACO進行比較,識別出MCTS是一種CI算法。最后,在深入分析和系統綜合的基礎上,筆者提出了CI進化理論,將其作為走向AGI的通用框架,并將其應用于智能機器人的應用。
近年來,CI被廣泛應用于各種工作中,如項目中的人員協作、公司董事會的投資決策、總統選舉投票等。看起來一個群體做事比個體更聰明。然而,Bon在他的著名著作《烏合之眾》中指出,群體行為可能是極端的[8]。在這個意義上,CI不能通過個人的簡單組合來實現,而應該首先理解CI的特征,以更好地利用它來實現我們的目標。
在社會學領域,麻省理工學院群智中心的一組研究者將需要的工作分為四個組成部分,即執行者、動機、目標和實現方式,并在此基礎上提出“群智基因組”[9]。以谷歌和維基百科為例,分別對這些組織的基因進行分析,并提出“CI基因”有用的條件。此外,他們的同事在兩個不同的實驗中系統地研究了團隊的表現,并得出了衡量一個團隊的一般能力的“C因子”[10]。這個“C因子”與群體成員的平均社會敏感度、話語權力的平等性以及女性在群體中的比例相關。可以預見的是,通過重組“CI基因”,并根據任務的“C因子”,人們可以得到一個他需要的強大系統。
在這些CI社會學理論的基礎上,人們可以在群體力量的幫助下更好地解決問題,尤其是在計算機科學中。1991年,Colorni等人[11]研究螞蟻的食物搜索行為,并提出蟻群算法[12~14]。該算法的基本思想是基于信息素選擇下一個節點,直到達到適當的解決方案。在蟻群算法中,信息素信息分布的更新過程是基于當前迭代中的所有搜索行程,可以理解為螞蟻的CI的涌現。在這個意義上,ACO算法成功地應用于多個問題,如旅行商問題(TSP)[15,16]、數據挖掘和比例-積分-微分(PID)控制參數的優化。此外,科學家還提出了一些有效的CI算法,如粒子群優化算法(PSO)[17],它模擬了鳥類的覓食。
除了在這些優化問題中使用了CI,從群體中學習可能是解決現實世界中大數據背景下機器學習應用挑戰的一種方式。例如,用于監督學習的標簽對于許多應用來說可能太昂貴甚至不可能獲得[18]。因此,研究者們開發了CI學習技術[19~22]來克服這一困難。在下一節中,將看到CI處理大量棋類游戲標簽的能力。在本文中,筆者嘗試用CI進化理論解決工業中的問題,比如智能機器人的應用,并取得了初步的驗證效果。筆者的工作有可能促進計算機科學領域對CI的研究,也為CI與深度學習和強化學習的結合鋪平道路。
在這一節中,將回顧AlphaZero中的理論,也涉及它之前的版本AlphaGo Fan [23],AlphaGo Lee [24],AlphaGo Master [24]和 AlphaGo Zero [24]。然后將從CI的角度分析這些理論。這些理論分為兩部分:①用深度神經網絡代表個體;②通過強化學習使個體進化。注意筆者會將MCTS的細節留到下一節來做重點分析,因為CI是在MCTS中涌現的。最后將應用AlphaZero到一種新的游戲,即五子棋,來展現AlphaZero的群智算法的邏輯。
從實際對弈的角度來看,AlphaZero使用MCTS算法進行搜索尋找最佳落子。由于搜索時間有限,不可能窮盡所有的可能落子,所以使用了策略網絡來減小搜索寬度,使用了價值網絡來減小搜索深度。策略網絡作為采樣的先驗概率,以更大的概率去搜索那些可能贏棋的落子。價值網絡作為狀態的評價函數,不需要模擬到棋局結束便可給出勝負的預測。
從訓練的角度來看,策略網絡和價值網絡是用強化學習的策略迭代算法訓練出來的。MCTS相當于是策略提高算子,因為搜索概率比策略網絡的概率要好,用搜索概率作為標簽來訓練策略網絡。基于MCTS的自我對弈相當于是策略評價算子,這里的策略指的是MCTS的搜索概率,因為評價的是使用搜索概率下棋的勝負,這個勝負作為標簽訓練價值網絡。下面將換一個角度,從CI的角度來重新分析AlphaZero。
個體的表達能力限制了它們的智能程度。如果個體的表達能力較低,即使CI涌現出來,CI也不能被個體繼承。在AlphaZero中,個體是通過深度神經網絡來代表,就是為了提高個體的表達能力。
在AlphaGo中,給定當前棋盤狀態,策略網絡用來提供下一步落子的概率分布,價值網絡用來提供贏棋的概率。在AlphaGo Fan中策略和價值是兩個獨立的神經網絡,每個網絡有13個卷積層。然后在AlphaGo Lee中,每個卷積層的卷積核數量由192增加為256。從AlphaGo Master到AlphaZero,策略和價值網絡被結合到一個網絡當中,并且卷積層的數量增加到39或79。表1為AlphaGo所有版本神經網絡結構對比。AlphaZero的棋力比AlphaGo Lee明顯要好。而且值得一提的是監督學習得到的AlphaZero神經網絡也比得上AlphaGo Lee的棋力。這個事實體現了AlphaZero中神經網絡的作用。
AlphaZero神經網絡表現優異的原因有許多。最首要的是網絡的大小。可以看到AlphaZero中卷積層的數量是AlphaGo Lee的3倍,這意味著AlphaZero中可調參數也大致是AlphaGo Lee的3倍。這表明網絡的表達能力大幅提升。用這種方式,網絡能夠學習到MCTS生成的搜索概率,也就是說個體能夠繼承CI的知識。其他原因包括:①殘差塊降低了訓練難度;②雙重網絡結構使得策略和價值網絡被調整到一個共同的表達方式,并且提高了計算效率。
一旦個體具備了足夠的表達能力,下一個問題就是怎樣讓它們進化。為了能讓個體持續進化,就需要找到進化的方向。在AlphaZero中,是通過個體自己的經歷來找到進化方向,即通過強化學習。這樣的結果就使個體能夠持續進化,最后超越了之前版本以及人類專家的棋力。

表1 AlphaGo神經網絡結構對比
在最早的版本AlphaGo Fan中,策略網絡是先由專家知識訓練的。然后用Reinforce算法提高策略網絡。換言之,強化的網絡是通過策略網絡自我對弈結果訓練出來的。之后,價值網絡是通過強化的策略網絡自我對弈結果訓練出來的。在下一個版本AlphaGo Lee中,價值網絡是由AlphaGo自我對弈的結果訓練出來的,而不是用策略網絡自我對弈,并且這個過程反復了幾次。從AlphaGo Master到AlphaZero,不僅價值網絡是通過AlphaGo自我對弈的結果訓練出來的,策略網絡也是由AlphaGo生成的搜索概率訓練出來的。值得一提的是MCTS用來生成搜索概率并落子。
從AlphaGo的發展可以總結出強化學習是進化的關鍵,并且自己生成的標簽質量決定了進化的程度。對于價值網絡,對比AlphaGo Fan和之后的版本,主要區別是價值網絡的標簽。在之后的版本里,標簽更為準確,因為它們是由使用了MCTS落子的AlphaGo生成的,而不是僅用強化的策略網絡。對于策略網絡,從AlphaGo Master到AlphaZero,是由MCTS生成的搜索概率作為標簽,而不是由對弈結果指引的策略網絡自己的落子,具體的比較總結,如表2所示。
之所以MCTS生成的標簽比策略網絡好是因為:MCTS包含了多次模擬來落子,在每次模擬中,策略網絡用來給出先驗概率,價值網絡用來更新行動價值。可以把每次模擬中的策略和價值網絡當作一個個體,那么搜索概率會隨著個體數量的增加而變得準確。因此,MCTS可以提供CI,在這里指搜索概率以及使用搜索概率下棋得到的勝負結果。在文獻[24]中,基于MCTS的自我對弈被視為強化學習中的策略評價算子,但它的策略指的是MCTS的搜索概率,并不是原本的策略網絡,與原本的策略迭代算法不完全一致。所以,更合適的觀點是將MCTS視為CI算法,關于MCTS的更多信息將在下一節介紹。
為了展示AlphaZero的群智智能邏輯,筆者將這一技術應用于一個新的游戲,即五子棋,同時也應用于五子棋的一個變體,即有禁手五子棋。訓練結果將在下文展示。注意筆者對AlphaZero做了一些改進使得它能適應五子棋和有禁手五子棋的規則。
圖1表示的是改進的AlphaZero在五子棋中的訓練結果。圖1(a)展示了改進的AlphaZero的棋力。注意在五子棋上同樣實現了AlphaGo Fan,它的棋力也被作為對比對象。Elo評分是用不同選手在多樣的開局下比賽算出來的,每步使用1 s的思考時間。對于AlphaZero,使用一個圖形處理器(GPU)來計算神經網絡。圖1(b)展示了訓練時每一代神經網絡在測試集上的預測準確率。準確率測量了神經網絡給出的最高概率的落子的準確性。圖1(c)展示的是訓練時每一代神經網絡預測測試集對弈結果的均方差(MSE)。同樣的,改進的AlphaZero在有禁手五子棋上的訓練結果,如圖2所示。
可以看出,AlphaZero的棋力比傳統的通過專家知識構造的引擎要強。策略和價值網絡從它們自身的經歷中逐漸學到了自己的戰術。同時也展示了AlphaZero可被用于不同規則的游戲。AlphaZero的通用性是繼承于表達方式的通用性,即深度神經網絡,也繼承于進化方法的通用性,即強化學習。并且,由MCTS生成的標簽為強化學習提供了進化的方向。在下一節,CI將被用來解釋MCTS的原理。
MCTS是一種高效的啟發式決策搜索算法,廣泛應用于博弈游戲中。筆者就以群體算法中最具有代表性的ACO為例,和MCTS算法進行對比,并將它們應用到TSP問題中。然后通過應用的結果,來分析ACO和MCTS算法的共性特征。
TSP問題是一個經典的組合優化問題,有下列具體描述[25]:

表2 標簽來源對比
V= {a, …,z}為城市集合,A= {(r,s):r,s∈V}是城市中兩兩城市的連接的邊,每個邊是城市之間的距離:δ(r,s) =δ(s,r),(r,s)∈A。TSP 問題是找到能夠不重復訪問所有城市的最短路徑。在該問題中,每個城市由r∈V都有具體的坐標值(xr,yr),因此也被稱為歐拉形式的TSP問題。
TSP問題也是非確定多項式(NP)問題的代表問題,計算復雜度與城市數量呈指數關系。

圖1 改進的AlphaZero在五子棋中的訓練結果

圖2 改進的AlphaZero在有禁手五子棋中的訓練結果
ACO[25~27]算法采用了模擬真實自然環境中蟻群的行為,很好地解決了如TSP等組合優化問題。蟻群在搜索食物時,最開始的時候在它們的巢穴周邊進行隨機策略搜索,一旦有螞蟻發現了食物,它們就把食物從食物源搬回巢穴。在搬運食物的過程中,螞蟻會在返程的路徑上釋放化學信息素,信息素釋放的數量取決于找到的食物的數量和質量。當之后的螞蟻進行搜索時,能夠依據信息素的多少,判斷食物源的方向,更快地找到食物。蟻群通過信息素實現了多個個體的信息共享,這使得它們可以很快地找到從巢穴到食物源的最短路徑。
當解決TSP問題時,每個迭代步由以下兩個主要的步驟組成:
模擬:每只螞蟻依據狀態轉移概率矩陣,按照概率分布完成一次完整的搜索,選擇每一條路徑的概率正比于狀態轉移概率矩陣

式(1)中,τ為信息素;η= 1/δ(r,s)為路徑δ(r,s)的倒數;Jk(r)為第k只螞蟻從搜索過程中的城市r出發剩余需要訪問的城市;β為訪問狀態轉移先驗概率的一個超參數。
更新:一旦所有螞蟻完成了它們的搜索,需要進行一次全局的信息素更新

式(2)和式(3)中,α為信息素衰減因子;Lk為螞蟻k途經路徑的長度;m為螞蟻的總數量;Q為信息素的權重因子,它決定了探索和利用的比重。
整個搜索過程由以上步驟進行迭代,直到達到終止狀態,在本文中,超參數取Q= 1.0,α= 0.1,β= 1.0。
MCTS[28~30]是一種能夠在給定環境找到最優策略的啟發式的樹搜索方法。MCTS在計算機圍棋領域取得了巨大的成功,其中以AlphaGo [23]和AlphaGo Zero [24]為代表,結合了MCTS和深度神經網絡,并使用了自我對弈強化學習實現進化,最終實現了超越人類頂尖棋手的棋力水平。
MCTS在整個樹搜索空間中,采用隨機的策略進行大量模擬來評估狀態價值。隨著模擬的次數增加,搜索樹也增加得更大,對狀態價值的估計也更加準確。進行樹搜索的策略在搜索過程中也在不斷改進,漸漸地,樹搜索策略收斂于最優策略,狀態價值估計也收斂于真實的狀態價值。
圖3(a)表示了MCTS搜索中的一個迭代步中的四個步驟[28],具體步驟如下:
選擇(selection):從樹的根節點開始,依照選擇策略遞歸進行子節點選取,直到達到搜索樹的葉節點。在TSP問題中的樹搜索策略是在所有子節點中根據置信上界方法選取(UCT)。

式(4)中,s為當前節點狀態;L(s,a)為經過邊(s,a)的總路徑長度;N(s,a)為邊(s,a)被訪問過的總次數;L為被訪問過所有合法路徑的長度的平均值;CΓ為UCT方法中的一個超參數,用來平衡探索和利用。搜索的先驗概率為P(s,a),為了和ACO算法中的先驗概率保持一致,取邊長度δ(s,a)的倒數


圖3 MCTS每個迭代步的四個步驟(a)及ACO、MCTS和隨機搜索收斂曲線(b)
擴展(expansion):對樹葉節點進行擴展,選取當前節點之后所有的可行城市作為當前節點的子節點。
模擬(simulation):當到達葉節點后,按照默認策略行走直到達到終點,得到當前路徑長度lt。模擬的默認策略是按照正比于先驗概率P(s,a)選擇當前節點的可行城市。
回溯(backpropagation):完成一次模擬之后,按照當前的模擬結果對整個搜索樹進行更新。

當經過了指定次數的迭代,最終依照訪問次數最多的城市進行選擇。在本文中,超參數Cp= 3.0。
由于歐拉TSP問題中的城市間的連接距離是按照實際坐標點距離計算,因此是一個無向圖問題,并且搜索路徑是一個閉環,因此整個搜索圖也可以被視作一個樹搜索結構。為了和MCTS對比,ACO每次都從一個固定的城市出發進行搜索,固定的城市就是MCTS中的搜索起始根節點。兩種算法的詳細配置見表3。
本文將這兩種算法應用于30個城市的TSP問題,另外為了與這兩種方法做對照,加入了純隨機搜索作為對照。使用這三種方法分別進行了10次TSP問題優化,最終結果如圖3(b)和表4所示。
相比于隨機搜索,ACO和MCTS都體現了良好的收斂性,在前100迭代步中,MCTS略微優于ACO,但是在后半程出現了搜索停滯。一個主要原因是由于MCTS搜索為一個樹狀結構,而ACO搜索為一個網狀結構,ACO對于局部區域路徑優化的能力更強。
對比ACO和MCTS中的每一個迭代步中的具體算法可以發現,MCTS具有和ACO相似的機理,在每一個迭代步中,每個個體需要按照特定策略進行搜索,并依據全局群體共享信息實時更新策略。這兩種算法相似點有以下幾點:
模擬策略:在ACO中,進行模擬的策略是按照狀態轉移概率矩陣得到,在MCTS中,搜索樹中的部分是依照UCT策略得到,模擬的部分采用默認模擬策略。
群體信息共享:在ACO中,所有的輸出結果都更新到全局信息素中,全局信息素決定了狀態轉移概率矩陣。在MCTS中,模擬的結果更新到Q(r,s),這影響到了下一次在搜索樹中選擇的UCT策略。
平衡探索和利用:在ACO中,模擬的行動選擇正比于概率分布,同時保證了探索和利用,受超參數Q影響。在MCTS中,UCT算法保證了平衡探索和利用,受超參數Cp影響。

表3 ACO、MCTS的算法超參數設置

表4 ACO、MCTS和隨機搜索結果
這些特征同樣也是群智算法的關鍵特征。從實驗結果可以看到,雖然MCTS算法沒有顯式的群體搜索的概念,其搜索的機理體現了群智涌現的特征,因此可以被視作群智算法。群智涌現是保證ACO和MCTS具有良好搜索收斂性的關鍵機制。
在深入研究了AlphaZero程序和MCTS算法之后,其下隱藏的智能進化機制被完整地發現了。AlphaZero的成功主要取決于兩個因素,一個是使用深度卷積神經網絡來表示個體智能,另一個是使用MCTS使CI涌現并高于個體智能。深度卷積神經網絡能夠通過用合適的目標標簽訓練來進化其智能。MCTS算法能夠通過CI涌現來生成合適的目標標簽。在強化學習環境中結合這兩個因素,個體智能進化的正反饋就形成了。
因此,筆者提出了一個CI進化理論,并將其作為走向AGI的通用框架。第一,定義一個深度神經網絡來表示個體智能;第二,使用CI算法使CI涌現并高于個體智能;第三,利用這個更高的CI進化個體智能。最后,在強化學習環境中不斷重復涌現-進化的步驟,以形成個體智能進化的正反饋,直到智能收斂。通用AGI進化框架流程圖,如圖4所示。

圖4 通用AGI進化框架流程圖
用p(k)和vp(k)表示第k次迭代中的個體策略和個體狀態價值,其中p(k)由深度神經網絡來表達,vp(k)是衡量個體智能程度的標準,可以通過p(k)與環境交互得到(例如在圍棋中將與幾個對手引擎下足夠多盤棋作為環境,下贏的獎勵為1,下輸的獎勵為0,那么vp(k)就等于策略p(k)的勝率,AlphaZero中使用Elo評分衡量個體智能程度,本質也是先通過與環境交互的勝率計算得來,再通過個體Elo與環境平均的Elo之差便可反推勝率);用π(p(k))和vπ(vp(k))表示群體策略和群體狀態價值,其中π(p(k))由CI算法產生,vπ(vp(k))通過π(p(k))與環境交互得到;用v*表示最優狀態價值,通常有vp(k)≤vπ(vp(k))≤v*;用α(k)∈[0,1]表示個體智能學習CI的程度,即在vp(k)和vπ(vp(k))之間做線性插值;用β(k) =vπ(vp(k)) -vp(k)∈[0,v*-vp(k)]表示CI高于個體智能的程度。如果將vp(k)視為動力系統的狀態量,將vπ(vp(k))視為動力系統的控制量,這種正反饋可以表示成離散時間系統

其中,α(k) > 0由神經網絡的訓練來保證,例如使用損失函數l= -πT(p(k))logp(k)和梯度下降來訓練神經網絡。根據Gibbs不等式[31],當且僅當p(k) = π(p(k))時,l達到最小值。雖然有理論保證,但α(k)受神經網絡的結構和梯度下降算法中的超參數影響,不一定能達到p(k) = π(p(k)),即α(k) = 1。實際應用中需要合理調節這些超參數使得α(k) > 0即可。
另一方面,β(k) > 0由CI算法來保證。在最早的蟻群算法ant system(AS)[27]的基礎上改進后,很多蟻群算法的擴展都有了收斂性的保證,graph-based ant system(GBAS)算法能收斂到最優行動的概率為1 [32],而常用的ant colony system(ACS)[25]和 max-min ant system(MMAS)[12]算法能收斂到最優行動的概率大于一個下界值[33]。MCTS從最初的版本改進到UCT,也就是將置信上界(UCB)[34]加入到選擇中,能收斂到最優行動的概率為1[30]。AlphaZero是將predictor UCB(PUCB)算法加入到MCTS,而單獨的PUCB算法能收斂到最優行動的概率大于一個下界值[35]。雖然AlphaZero中的MCTS沒有理論證明,但從應用效果來看也可以使得β(k) > 0,實際應用中需要合理調節超參數來彌補理論和實際的間隙。
在完美智能v*有限的情況下,CI進化有兩種類型的智能收斂。一種是個體智能收斂到一個和CI相同的極限。這意味著或者是完美的智能已經到達,即或者是CI算法不足以使得更高的群體智能涌現,即另一種是個體智能收斂到一個低于CI的極限,這意味著或者是個人智能的容量不夠大,或者是訓練方法不再有效,即且
與現有的機器學習方法相比,CI進化理論具有一定的優勢。深度學習是強大的,但依賴于大量高質量的標簽數據過于昂貴。強化學習通過廉價的獎勵信號為個體智能提供了進化環境,但由于試錯性質,學習效率較低。CI算法能夠使CI從無到有,但缺乏一種進化個體智能的機制。CI進化理論結合深度學習、強化學習和CI算法的優勢,通過CI的涌現,使個體智能高效、低成本地進化。這種進化可以從零開始,因此CI進化理論是向AGI邁進的一步。
傳統的機器人可以利用一些計算機視覺或專家系統技術來實現某種智能行為,但它們缺乏學習或進化能力來自動適應環境變化。例如,焊接機器人能夠通過3D視覺系統和基于傳統特征的視覺算法來跟蹤焊縫。但是,為了使焊接機器人工作正常,必須在新的焊接環境中手動調整一些關鍵參數。因此,機器人工業迫切需要能夠像人類一樣自動適應環境的智能機器人。
CI進化理論在智能機器人中有著天然的應用,它通過傳感器、智能體和執行器的閉環提供了一個強化學習環境。該理論的應用稱為智能模型。為了促進智能模型的實現,一個云端平臺被開發出來幫助創建和進化智能機器人的智能模型。
面向工業應用的智能模型主要分為三類,視覺檢測、數據預測、參數優化,其中參數優化具有最廣泛的需求。作為這一概念的驗證,一個焊接機器人的焊接參數優化智能模型已經在云端平臺上實現。
隨著科技的發展,在鋼鐵材料的焊接領域,機器人焊接逐漸取代了以往的人工焊接。在焊接機器人實施焊接過程中,控制焊接的參數會直接影響焊接的質量。焊接的參數有焊槍移動速度、電流、電壓、焊槍角度等。焊接參數需要焊接工程師根據焊接板材材質、焊縫寬度以及焊接板材厚度等場景手工調節優化焊接參數,為滿足焊接機器人在工業應用中智能化的需求,提出用深度學習和強化學習的技術,結合焊接機器人3D視覺系統,實現焊接機器人根據焊接場景的不同實現焊接參數的自動調節,或者說實現由焊接場景到焊接參數最優的映射關系。
考慮最簡單的焊接場景,輸入特征只保留一個焊縫寬度,從零開始均勻增加,輸出參數僅控制焊槍移動速度。
焊接參數優化的目標是得到最好的焊接質量,具體來說,就是對于較小的焊縫寬度,希望焊接后的焊料寬度保持在5 mm;對于較大的焊縫寬度,希望焊料寬度比焊縫寬度大2 mm,并且不論焊縫多寬,理想的焊料高度都是1 mm。圖5為焊縫寬度和焊接板材長度的關系曲線,圖6為理想的焊料寬度和焊縫寬度的關系曲線。

圖5 焊縫寬度和焊接板材長度的關系曲線
在一條焊縫的焊接過程中從起始點開始把每隔等長的一小段間距作為一個焊接點,焊接點的個數用n表示,每一時刻未焊接點的焊縫寬度和已焊接點的焊料寬度和高度分別用gi,wi,hi表示,焊接到第i個焊接點的時刻用ti表示。筆者定義一個簡化的馬爾可夫決策過程(MDP)模型,假設t時刻的環境狀態st=gi,t時刻智能體的行動就是焊槍在第i個焊點的移動速度vti,即at=vti,并且假設折扣因子為0,即僅考慮即時獎勵,把每一焊接點的實際焊接效果和理想焊接效果之間的偏差作為這一時刻的獎勵。

圖6 理想的焊料寬度和焊縫寬度的關系曲線
圖7為焊接參數優化智能模型的訓練流程圖。為了訓練這個智能模型,首先到焊接現場采集實際焊接效果數據,然后離線訓練價值網絡,最后用這個訓練價值網絡訓練策略網絡,即焊接智能體。圖8為策略網絡焊槍移動速度與焊縫寬度的關系曲線。
在云端平臺上部署了這個智能模型,并到焊接現場進行了測試驗證(見圖9),實現了較好的焊接質量。可以看出,針對線性變寬的直焊縫,得到的訓練策略網絡基本符合要求。
對于簡單的焊接場景,單個智能體離線強化學習就可以達到較高的智能水平,即焊接質量。如果是復雜的焊接場景,就需要先實現在線焊接質量評估,然后根據群智進化理論進行在線智能進化,才能夠實現更高的智能水平。
CI涌現和深度神經網絡進化是AlphaZero程序在很多游戲中達到超人性能的關鍵因素。將CI與深度學習和強化學習相結合,就得出了CI進化理論。并對該理論在焊接機器人中的示范應用進行了討論。這一理論是走向AGI的通用框架,因此期待在未來有越來越多的應用和進一步的理論探討。

圖7 焊接參數優化智能模型的訓練流程圖

圖8 策略網絡焊槍移動速度與焊縫寬度的關系曲線

圖9 焊接現場測試驗證