基于圖嵌入編碼形態信息的非均勻多任務強化學習方法

2024-04-29 00:00:00賀曉王文學

計算機應用研究 2024年4期

摘要：傳統強化學習方法存在效率低下、泛化性能差、策略模型不可遷移的問題。針對此問題，提出了一種非均勻多任務強化學習方法，通過學習多個強化任務提升效率和泛化性能，將智能體形態構建為圖，利用圖神經網絡能處理任意連接和大小的圖來解決狀態和動作空間維度不同的非均勻任務，突破模型不可遷移的局限，充分發揮圖神經網絡天然地利用圖結構歸納偏差的優點，實現了模型高效訓練和泛化性能提升，并可快速遷移到新任務。多任務學習實驗結果表明，與以往方法相比，該方法在多任務學習和遷移學習實驗中均表現出更好的性能，在遷移學習實驗中展現出更準確的知識遷移。通過引入圖結構偏差，使該方法具備更高的效率和更好的遷移泛化性能。

關鍵詞：多任務強化學習；圖神經網絡；變分圖自編碼器；形態信息編碼；遷移學習

中圖分類號：TP391文獻標志碼： A文章編號：1001－3695（2024）04－009－1022－07

doi：10.19734/j.issn.1001－3695.2023.07.0373

Method for inhomogeneous multi－task reinforcement learning based on morphological information encoding by graph embedding

He Xiao1，2，3， Wang Wenxue1，2

Abstract：Traditional reinforcement learning methods have problems of low efficiency，poor generalization performance，and untransferable policy models.In response to this issue，this paper proposed an inhomogeneous multitask reinforcement learning method，which improved efficiency and generalization performance by learning multiple reinforcement tasks.It constructed the morphology of agent into a graph，and the graph neural network could handle graphs with any connection pattern and size graph，which was really suitable to solve inhomogeneous tasks with different dimensions of state and action space.This breaks through the limitations that model couldn’t be transferred and fully utilizes the advantages of graph neural network’s natural use of graph structure to induce bias.The model had achieved efficient training and improved generalization performance，and could be quickly migrated to new tasks.The results of multi task learning experiments show that compared with previous methods，this method exhibits better performance in both multi task learning and transfer learning experiments，and exhibits more accurate knowledge transfer in transfer learning experiments.By introducing bias in the structure of the agent graph，this method has achieved higher efficiency and better migration generalization performance.

Key words：multi－task reinforcement learning； graph neural network； variational graph autoencoder； morphology information encoding； transfer learning

0 引言

近年來，強化學習（RL）在眾多學習任務中取得了令人矚目的成績，例如在棋盤游戲中打敗世界冠軍［1，2］、在電子游戲［3］任務中達到人類最高水平，以及成功用于機器人感覺運動控制［4］等。由于RL是一種智能體不斷與環境交互，從而獲得環境信息進行學習的過程，所以目前的RL方法需要專門針對特定任務進行策略定制，從頭開始獲取數據并訓練策略網絡，需要大量的環境交互數據，這對于很多學習任務來說十分困難，例如機器人控制任務，不僅數據獲取成本高，并且耗費巨大的時間成本，效率低下。多任務學習可以從多個相關任務中聯合訓練模型，利用任務之間的共性和差異來提高任務特定模型的學習效率和預測準確性，將這種方法應用到RL中，形成一種新的多任務強化學習（MTRL）［5］方法，可以有效解決上述問題。然而用于多個任務的強化學習策略訓練并不簡單，比如為特定機器人設計的策略通常不能用于具有不同形態的其他機器人，這使得為機器人創建類似于圖像分類［6］或者自然語言［7，8］的通用、可預訓練的模型變得十分困難，因此，目前的大多數MTRL方法主要是面向均勻（homogeneous）任務，即假設狀態和動作空間的維度在任務之間是相同的［9～13］，并通過其自身獎勵函數定義每個任務，例如抓取杯子或者用機器人手臂移動杯子等。然而，在機器人領域，經常面臨非均勻（inhomogeneous）任務［14］環境，即任務之間具有不同的狀態和動作空間維度，這無法通過常見的MTRL方法解決。

圖神經網絡（GNN）［15～17］可以有效解決上述問題，機器人智能體通常具有離散的圖結構，因此可以將智能體構造為圖進行處理，其中肢體和關節表示為節點和邊。GNN是一種運行在圖上的神經網絡，其中一個重要特征是它可以處理任意連接和大小的圖。不僅如此，通過GNN可以獲取單個策略模型以控制具有不同狀態和動作空間維度的任務中的智能體，并且GNN可以使模型在狀態特征如何相關的結構信息下訓練，例如智能體肢體之間是如何相連的，因此，GNN天然地利用了圖結構產生的歸納偏差，原則上非常適用于不均勻的任務環境。

最近，GNN已被應用于連續控制環境中的非均勻RL任務中。Wang等人［14］提出一種利用GNN顯示建模智能體形態的非均勻MTRL結構化策略NerveNet，通過message passing（MP）在智能體圖中相鄰的節點之間傳遞信息，智能體每個肢體接收來自圖結構中相鄰節點的信息并作出決策，并向相鄰節點發出信息，在對多個形態不同的機器人的非均勻任務環境中取得了較好的強化學習控制效果。Huang等人［18］在此基礎上提出了一種共享模塊化策略（SMP），將此全局策略表示為一組相同的模塊化神經網絡。在這種模塊化策略設置中，首先利用SMP通過bottom－up方式從智能體圖最外層節點向上傳遞信息，然后利用SMP通過top－down方式從中心節點向相鄰節點傳遞信息并作出決策，依次逐層執行。Kurin等人［19］指出上述GNN方法中的MP方案會出現過平滑問題，會導致多跳通信過程中的關鍵信息被清洗掉，利用形態學信息的非均勻MTRL方法的優勢也被掩蓋，并且在自然語言處理中，Transformer被證明在沒有明顯結構偏差的情況下表現更好，甚至可以從數據中學習這種結構［20～23］，因此提出了一種基于Transformer模型的模塊化MTRL方法AMORPHEUS。AMORPHEUS忽略了智能體形態結構，而是使用注意力機制，可以視為是具有注意力聚集的完全連接的GNN［17］，允許節點之間直接通信，而不是使用形態信息定義MP方案的GNN，不需要學習多跳通信，在非均勻任務環境中取得了更好的強化學習控制效果。

雖然AMORPHEUS在忽略形態的條件下相比基于MP的GNN取得了更好的效果，但已有研究表明，在注意力機制中引入結構歸納偏差可以顯著提升性能［24］，在相同的上下文中，相鄰節點的狀態可能比非相鄰節點的狀態更加重要。因此，本文提出引入形態信息的方法——AMORPHEUS－VGAE，該方法在AMORPHEUS的基礎上，通過添加智能體形態信息來引入結構歸納偏差。在智能體圖中，形態信息全部包含在鄰接矩陣內，因此AMORPHEUS－VGAE利用圖變分自編碼器（VGAE）［25］進行圖嵌入來編碼智能體圖中的形態信息，然后將形態信息編碼添加到Transformer模型中，從而引入結構歸納偏差。這樣不僅允許節點之間直接通信，同時還考慮了機器人形態信息。通過仿真實驗，驗證了AMORPHEUS－VGAE在非均勻MTRL實驗中的性能優于AMORPHEUS。并對比了兩種方法在遷移學習中的性能，實驗結果表明，AMORPHEUS－VFAE的遷移泛化性能同樣優于AMORPHEUS。這表明在機器人MTRL中，形態信息至關重要。

1 方法

本文非均勻MTRL方法總體框架如圖1所示。首先，在非均勻MTRL環境中的每個機器人以形態結構為依據構建圖，得到多個不同大小和連接的圖，通過鄰接矩陣表達圖結構，以圖數據方式存儲和處理各肢體節點特征，在不同圖中共享策略。如圖1所示，共享策略首先利用線性神經網絡對智能體節點狀態進行特征提取，得到狀態嵌入，然后利用變分圖自編碼提取智能體形態特征，獲取形態嵌入，接下來將狀態嵌入與形態嵌入進行疊加送入Transformer模型，利用Transformer中的encoder實現節點之間的直接通信，注意力機制可實現不同節點信息傳遞強弱的動態調節，最后利用線性神經網絡實現智能體動作解碼，最終實現智能體狀態到動作的映射。

1.1 智能體圖構建

如圖2（a）所示，圖由頂點和連接頂點的邊構成，表示為頂點和邊的集合，記為G=（V，E）。其中，V是頂點集合，E是邊集合，一條連接頂點vi，vj∈V的邊記為eij。如果存在一條邊連接頂點vi和vj，則稱vj是vi的鄰居，記vi的所有鄰居為集合N（vi），即智能體圖的度矩陣 D 是一個對角陣，對角線上的元素是對應頂點的度。

1.2 變分圖自編碼器

自編碼器［25］是一種表示學習模型，它以輸入數據作為參考，而不是利用標簽信息進行監督，因此是一種無監督學習模型，可用于數據降維和特征提取。其原理為：將輸入映射到某個特征空間，再從特征空間映射回輸入空間進行重構。圖自編碼器（GAE）是一個簡單的兩層圖卷積神經網絡（GCN），包含編碼器和解碼器。GCN是一種運行在圖上的神經網絡，并且始終保持圖結構不變。

變分圖自編碼器（VGAE）中，節點嵌入向量 Z 從一個多維高斯分布中采樣得到。高斯分布的均值和方差由兩個GCN確定，均值 μ =GCN μ（X，A ），方差logσ =GCN σ（X，A ）。通過均值和方差可以唯一確定一個多維高斯分布，如圖3所示，然后從中進行采樣得到節點的嵌入表示，嵌入向量的后驗概率分布為

通過VGAE完成鄰接矩陣 A 重構后，利用編碼器將輸入的圖編碼到一個隱藏變量，隱藏變量編碼了智能體形態信息，將其作為結構歸納偏差添加到后續的策略模型中。

這種MP消息傳遞方式應用在SMP［18］和NerveNet［14］中，該方式會導致多跳通信過程中的關鍵信息被清洗掉，AMORPHEUS［19］利用Transformer模型將智能體圖當成全連接圖，利用自注意力機制允許節點之間進行直接通信，比SMP和NerveNet取得了更好的非均勻MTRL效果。AMORPHEUS－VGAE在利用自注意力機制實現節點間直接通信的基礎上，引入形態信息編碼，該策略模型總體如圖4所示。利用線性神經網絡進行節點狀態特征提取，同時利用VGAE提取形態信息，將形態信息和節點特征混合，然后添加到Transformer模型中實現節點間的直接信息傳遞，輸出動作編碼，最后利用線性神經網絡進行動作解碼。

肢體嵌入向量 ψ 編碼了智能體形態信息，將此嵌入向量添加到節點狀態 υ ，引入結構歸納偏差，從而得到包含形態信息編碼的節點特征：

1.5 雙延遲確定性策略梯度（TD3）算法

確定性策略梯度（DPG）算法［26］是一種actor－critic方法，該方法十分適用于連續控制任務［27］。TD3算法［28］結合了DDPG［29］和Double DQN［30］，都可通過Deep Q－Learning方法［3］估計Q值尋找最優策略。Q網絡目標值為

因為樣本存在噪聲，所以真實情況中，有誤差的動作價值估計的最大值通常比真實值大，訓練過程中Q－Learning方法的自舉機制會不斷造成真實最優價值函數Q的過高估計。DDPG算法通過對策略網絡和價值網絡都設置目標網絡（target network），可有效緩解過估問題。

TD3算法采用與DDPG算法同樣的目標網絡設置，并采用Double DQN方法學習兩個Q函數，選取兩個Q函數得到的最小目標Q值或者兩者平均值，作為最終目標Q值，可進一步緩解過估問題，增加訓練平穩性。例如，選擇最小Q值作為最終目標Q值：

通過策略梯度進行梯度上升更新actor參數，策略梯度為

TD3算法延遲策略函數優化的更新速度，解耦策略函數和Q網絡兩者的更新，對目標策略網絡進行了平滑化，在仿真機器人環境中取得了更好的連續控制效果。

2 實驗結果及分析

2.1 實驗設置

本文設置域內實驗和跨域實驗兩類。在域內實驗中，設置三類環境，即Walker+ +、Humanoid+ +以及Hopper+ +；在跨域實驗中，本文設置了兩類環境，即Walker－Humanoid+ +、Walker－Humanoid－Hopper+ +。每一類實驗環境中所包含的機器人類型如表1所示。

根據實驗設置，使用MuJoCo搭建實驗環境，包括機器人模型、機器人動作－獎勵的定義、控制器設計，通過OpenAI Gym提供的強化學習接口實現虛擬環境的操作，控制機器人運動，RL智能體通過控制器將相應的action轉換為機器人的關節扭矩，從而實現對機器人的控制。MuJoCo則通過物理引擎等功能包將智能體和環境交互產生的環境狀態變化反饋給智能體。

智能體的actor網絡和critic網絡包含3層注意力層2頭Transformer模型，隱藏層包含256個神經元，使用ReLU作為激活函數，采用層標準化（layer normalization， LN）的方法實現正則化，選擇Adam作為網絡優化器。每次訓練的batch size為100，獎勵折扣因子γ=0.99。訓練開始的10 000個時間步內，智能體先隨機選擇動作進行探索，10 000步之后，通過策略網絡選擇動作，設置每一類實驗中智能體訓練總時間步長為10E6。本研究使用CPU為i7－11700KF、GPU為3080Ti的Linux系統配置個人工作站運行實驗。在兩類實驗中，將本文提出的利用形態學信息的方法AMORPHEUS－VGAE與AMORPHEUSS進行比較。使用TD3算法來訓練這兩類方法中的策略網絡，并且訓練時策略網絡在以上每一類實驗環境包含的所有形態的機器人上進行聯合訓練，每一類實驗設置3個隨機種子后取平均結果進行比較。

2.2 非均勻MTRL實驗結果

在每一類實驗環境中，對于設置的3個隨機種子實驗，以最短數據長度為基準對所有實驗中的實驗數據進行數據截斷使實驗數據對齊，對3個隨機種子實驗中實驗步長和預期獎勵取平均結果，最終以6E6作為所有實驗最終步長，并對比本文方法與AMORPHEUS以及SMP的實驗結果，最終結果如圖5所示。SMP方法因為過平滑問題在所有方法中表現出最差的多任務強化學習性能，AMORPHEUS方法忽略了形態信息，但是AMORPHEUS允許節點間直接通信，使得其展現出多任務強化學習效果。AMORPHEUS－VGAE方法不僅考慮了形態信息，也允許節點間的直接通信，使其在域內實驗和跨域實驗，都展現出了比AMORPHEUS和SMP方法更好的非均勻MTRL性能，尤其是在域內實驗Humanoid+ +實驗中最為明顯，表現出最大的性能差距。這些結果表明在本文設置的實驗中，隨著越來越多的機器人一起聯合訓練，本文方法明顯優于目前較為先進的AMORPHEUS方法。推測本文方法有效的原因是，VGAE提取的形態結信息有利于本文模型在相似的部分形態之間轉移共性，同時區分不相關的形態。通過在所有環境中使用這些形態嵌入，本文模型可以比沒有形態結構嵌入的模型獲得更高的最終回報。

以Walker+ +實驗為例，分析所有方法在單一環境的性能，如圖6所示。SMP在單一環境中表現出最差的控制效果。比較AMORPHEUS－VGAE和AMORPHEUS在單一環境中的性能，結果表明AMORPHEUS方法對肢體較少的Walker型機器人控制效果較差，尤其是在只有兩個肢體的Walker－2型機器人環境中得到的預期回報非常低，而AMORPHEUS－VGAE則有更好的效果，推測其原因是形態結構信息的加入使得模型在智能體相似的部分形態之間更好地轉移共性，從而幫助形態相對不完整的智能體進行學習。隨著肢體數量的增加，機器人形態逐漸變得復雜，AMOPHEUS與AMORPHEUS－VGAE之間對單一環境機器人控制性能差距逐漸減小；而在Hopper+ +實驗環境中，隨著機器人肢體數量增加，AMORPHEUS－VGAE對單一環境機器人控制性能與AMORPHEUS之間的差距逐漸增大；在Humanoids+ +實驗環境中，AMORPHEUS－VGAE與AMORPHEUS性能保持較大的差距，并且這種差距保持在相對穩定的范圍；在WH+ +實驗環境中，AMORPHEUS－VGAE在大部分單一環境中有微弱優勢，在少數機器人中性能不如AMORPHEUS；在WHH+ +實驗環境中，AMORPHEUS－VGAE和AMORPHEUS在不同形態機器人中各有優劣，但是AMORPHEUS－VGAE方法在有優勢的機器人控制中體現出更大優勢。

以最終訓練步長6E6為基準，分析各算法在不同實驗環境中的計算效率，強化學習算法的計算效率體現在時間步長和樣本數量上，學習所需的時間步長或樣本越少，算法的效率越高。如表2所示，根據訓練樣本數量可以看出，SMP需要最多的訓練樣本，但是根據多任務強化學習訓練結果，SMP方法的最終回報最低，因此SMP的樣本效率最低，AMORPHEUS－VGAE在除了Humanoid+ +的其他所有實驗環境中使用的訓練樣本數量最少，并且根據多任務強化學習訓練結構，其可以在6E6個訓練時間步長內實現最高的最終回報，具有更高的樣本效率。另外根據非均勻多任務強化學習訓練結果可以看出，在取得相同回報的條件下，AMORPHEUS－VGAE所需的時間步長最少，以Walker+ +為例，若設定最終各算法的最終獎勵目標為4 000，AMORPHEUS－VGAE只需要2.5E6個時間步長就能達到目標，而AMORPHEUS和SMP分別需要3E6和6E6多個時間步長才能達到設定目標。綜上所述，AMORPHEUS－VGAE算法能夠在更少的時間步長以及更少的訓練樣本的情況下，實現更高的回報，表明AMORPHEUS－VGAE算法的效率要高于AMORPHEUS以及SMP。

2.3 注意力分析

本文提出的RL策略模型基于3層注意力的Transformer模型，對RL策略中的注意力進行分析。圖7（a）顯示了Walker+ +實驗中的策略模型在 Walker－7機器人單個控制軌跡中展示的不同注意力模式，表明了AMORPHEUS－VGAE可以根據輸入處理狀態空間的不同部分。同時分析了該模型在單條控制軌跡中的注意力周期性循環模式，這種周期性循環出現在第一層注意力層。圖7（b）展示了在單次實驗中Walker－7的下肢注意力權重的列和。列和直觀地顯示了其他節點對該列對應節點感興趣的程度。結果表明，本文模型能夠自動調整機器人肢體間的關聯性，使機器人能夠保持穩定的周期性節律運動。

另外還研究了注意力權重是如何隨著時間的推移而演變的，如圖8所示。在訓練早期，注意力權重均勻地分布在整個圖形中。隨著訓練的不斷進行，圖形的注意力權重分布變得不那么均勻。這表明隨著訓練不斷進行，本文模型有選擇性地在運動關聯性更高的肢體之間建立更強的直接通信，弱化運動關聯性不強的肢體之間的直接通信。

2.4 行為分析

分析聯合訓練的智能體如何在單個環境發揮作用，可視化在WHH+ +中訓練的智能體軌跡。圖9（a）比較了AMORPHEUS－VGAE和AMORPHEUS在具有最多肢體數量的9肢體Humanoid機器人單一環境中的平均性能，AMORPHEUS－VGAE的性能顯然比AMORPHEUS好。除此之外，AMORPHEUS模型的MTRL產生了令人意外的效果，如圖9（b）所示，9肢體Humanoid智能體并沒有學會像人一樣走路，而是學習到像Hopper一樣跳躍向前的運動模式，說明從Hopper型機器人環境中學習到的知識阻礙了AMORPHEUS學習Humanoid型機器人的行走。這表明，來自其他任務的知識并不總是有利于AMORPHEUS完成其他感興趣的學習任務，因此，對這些知識的不小心利用，將會阻礙而不是幫助學習。而AMORPHEUS－VGAE模型在所有實驗中都使Humanoid型機器人成功學會了行走。推測是因為形態嵌入使得智能體能夠很好地利用任務之間的共性，從不同智能體中學習到相似肢體的嵌入被緊密地映射在一起，并區分不同任務之間的差異性，從而能夠遷移來自其他任務中適當的知識幫助學習。

2.5 遷移學習實驗及結果

在遷移學習環境中，策略在各種訓練任務中進行訓練，然后轉移到另一個下游任務，這是CV和NLP中常見的學習策略。本文比較兩種方法在遷移學習環境中的非均勻MTRL控制效果。兩類方法都在訓練環境中進行了預訓練，并轉移到測試環境中，測試環境中的任務是在訓練過程中從未出現過的。本文在Humanoid+ +和WHH+ +兩個實驗上對兩類方法進行了評估，Humanoid+ +是域內環境中肢體數量最多的，形態也是最復雜的，而WHH+ +包含所有的域內環境。在遷移學習中，只訓練這兩種環境的智能體的100萬個時間步長。

遷移學習實驗結果如圖10所示。AMORPHEUS－VGAE預訓練模型在較短的訓練步長后就能在測試集中實現較高的平均回報，在設置的兩類遷移學習實驗中均表現出較好的遷移學習性能。如圖10（a）所示，SMP和AMORPHEUS－VGAE方法在域內實驗中都表現出比AMORPHEUS更好的遷移學習性能，其中SMP性能最好，但是SMP在前期的遷移學習速度沒有AMORPHEUS－VGAE方法快，并且隨著多任務環境的復雜性增加，SMP方法的性能逐漸不如AMORPHEUS－VGAE方法性能好，如圖10（b）所示。在最復雜的WHH+ +跨域環境中，AMOEPHEUS－VGAE表現出最好的遷移學習性能，并且學習速度比AMORPHEUS和SMP快得多，顯示出更高的樣本效率。該方法遷移學習性能較好的原因與多任務學習類似，通過VGAE提取智能體形態結構信息，可以將從訓練任務中獲得的有用知識有效地轉移到測試任務中，從而能夠用更少的樣本快速適應當前任務。

除此之外，本文也進行了零樣本學習實驗，表3和4分別為域內和跨域零樣本實驗結果。在域內實驗中，每個策略先在訓練集Walker+ +、Hopper+ +、Humanoid+ +上訓練，然后分別在測試集上進行評估。例如，在Walker+ +訓練集上訓練，然后在測試集Walker_3_main和Walker_6_main上進行測試評估。跨域實驗中，策略在WHH+ +訓練集上訓練，然后在測試集上進行評估。設置3個隨機種子進行實驗，每個隨機種子實驗中包含100個單次實驗，取平均結果。從表3中可以看出，域內實驗中，AMORPHEUS－VGAE方法在3個環境中得到的平均獎勵都比AMORPHEUS和SMP高；從表4可以看出，AMORPHEUS－VGAE方法在3個環境中得到的平均獎勵比AMORPHEUS高，然而只有2個環境中的平均獎勵比SMP高。以上結果表明，在零樣本學習中，AMORPHEUS－VGAE方法相比AMORPHEUS具有更好的遷移泛化性能，與SMP 相比在某些方面能夠展現出其遷移學習性能的優勢。

3 結束語

本文認為智能體的形態學知識在機器人非均勻MTRL中有重要作用，在忽略形態學知識的AMORPHEUS方法上，提出了利用形態信息引入結構歸納偏差的AMORPHEUS－VGAE方法。該方法通過變分自編碼器對形態信息進行編碼，將其結合到基于Transformer的策略中，允許節點間進行通信，并利用了智能體形態編碼信息引入結構偏差。通過實驗證明了該方法在機器人運動的非均勻任務環境中比AMORPHEUS和SMP具有更好的性能，并且該方法能夠更好地利用任務之間的共性，還能區分不同任務之間的差異，適當地在不同任務之間遷移知識來幫助學習，并且在設置的遷移學習實驗中也比AMORPHEUS的性能更好，具有更好的遷移泛化性能。

本文方法還有很大的提升空間，設置的MTRL多任務環境相對簡單，這對越來越復雜的多任務環境來說是一個較大的挑戰，未來需要向更復雜的多任務環境進行擴展，并向實際MTRL應用中擴展。

參考文獻：

［1］Silver D，Schrittwieser J，Simonyan K，et al.Mastering the game of Go without human knowledge［J］. Nature ，2017， 550 （7676）：354－359.

［2］Silver D，Huang A，Maddison C J，et al.Mastering the game of Go with deep neural networks and tree search［J］. Nature ，2016， 529 （7587）：484－489.

［3］Mnih V，Kavukcuoglu K，Silver D，et al.Human－level control through deep reinforcement learning［J］. Nature ，2015， 518 （7540）：529－533.

［4］Levine S，Finn C，Darrell T，et al.End－to－end training of deep visuomotor policies［J］. The Journal of Machine Learning Research ，2016， 17 （1）：1334－1373.

［5］Vithayathil V N，Mahmoud Q H.A survey of multi－task deep reinforcement learning［J］. Electronics ，2020， 9 （9）：article ID 1363.

［6］Krizhevsky A，Sutskever I，Hinton G E.ImageNet classification with deep convolutional neural networks［J］. Communications of the ACM ，2017， 60 （6）：84－90.

［7］Devlin J，Chang M W，Lee K，et al.BERT：pre－training of deep bidirectional transformers for language understanding［C］//Proc of NAACL－HLT.Stroudsburg，PA：ACL，2019：4171－4186.

［8］Radford A，Wu J，Child R，et al.Language models are unsupervised multitask learners［J］. OpenAI Blog ，2019， 1 （8）：9.

［9］Rusu A A，Colmenarejo S G，Gulcehre C，et al.Policy distillation［C］//Proc of International Conference on Learning Representations.2016.

［10］Parisotto E，Ba J L，Salakhutdinov R.Actor－Mimic：deep multitask and transfer reinforcement learning［C］//Proc of International Conference on Learning Representations.2016.

［11］Pinto L，Gupta A.Learning to push by grasping：using multiple tasks for effective learning［C］//Proc of IEEE International Conference on Robotics and Automation .Piscataway，NJ：IEEE Press，2017：2161－2168.

［12］Yang Ruihan，Xu Huazhe，Wu Yi，et al.Multi－task reinforcement learning with soft modularization［C］//Proc of the 34th Annual Conference on Neural Information Processing Systems.New York：ACM Press，2020：4767－4777.

［13］Kalashnikov D，Varley J，Chebotar Y，et al.MT－Opt：continuous multi－task robotic reinforcement learning at scale［EB/OL］.（2021－04－27）.https：//arxiv.org/abs/2104.08212.

［14］Wang Tingwu ，Liao Renjie ，Fidler S.NerveNet：learning structured policy with graph neural networks［C］//Proc of International Confe－rence on Learning Representations.2018.

［15］Gori M，Monfardini G，Scarselli F.A new model for learning in graph domains［C］//Proc of IEEE International Joint Conference on Neural Networks.Piscataway，NJ：IEEE Press，2005：729－734.

［16］Scarselli F，Yong S L，Gori M，et al.Graph neural networks for ranking Web pages［C］//Proc of IEEE/WIC/ACM International Conference on Web Intelligence.Piscataway，NJ：IEEE Press，2005：666－672.

［17］Battaglia P W，Hamrick J B，Bapst V，et al.Relational inductive biases，deep learning，and graph networks［EB/OL］.（2018－10－17）［2023－10－20］.http：//arxiv.org/abs/1806.01261.

［18］Huang W，Mordatch I，Pathak D.One policy to control them all：shared modular policies for agent－agnostic control［C］//Proc of the 37th International Conference on Machine Learning.New York：ACM Press，2020：4455－4464.

［19］Kurin V，Rocktaschel T，Whiteson S，et al.My body is a cage：the role of morphology in graph－based incompatible control［C］//Proc of International Conference on Learning Representations.2021.

［20］Vig J，Belinkov Y.Analyzing the structure of attention in a Transfor－mer language model［EB/OL］.（2019－06－07）.https：//arxiv.org/abs/1906.04284.

［21］Goldberg Y.Assessing BERT’s syntactic abilities［EB/OL］.（2019－01－16）［2023－10－20］.https：//doi.org/10.48550/arXiv.1901.05287.

［22］Peters M，Neumann M，Zettlemoyer L，et al.Dissecting contextual word embeddings：architecture and representation［C］//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg，PA：ACL，2018：1499－1509.

［23］Tenney I，Xia P，Chen B，et al.What do you learn from context？ Probing for sentence structure in contextualized word representations［C］//Proc of International Conference on Learning Representations.2019.

［24］Vaswani A，Shazeer N，Parmar N，et al.Attention is all you need［C］//Proc of the 31st Conference on Neural Information Processing System.Red Hook，NY：Curran Associates Inc.，2017：6000－6010.

［25］Kipf T N，Welling M.Variational graph auto－encoders［EB/OL］.（2016－11－21）［2023－10－20］.http：//arxiv.org/abs/1611.07308.

［26］Silver D，Lever G，Heess N，et al.Deterministic policy gradient algorithms［C］//Proc of the 31st International Conference on Machine Learning.［S.l.］：PMLR，2014：387－395.

［27］Peters J，Schaal S.Policy gradient methods for robotics［C］//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway，NJ：IEEE Press，2006：2219－2225.

［28］Fujimoto S.Addressing function approximation error in Actor－Critic methods［C］//Proc of the 35th International Conference on Machine Learning.［S.l.］：PMLR，2018：1587－1596.

［29］Lillicrap T P，Hunt J J，Pritzel A，et al.Continuous control with deep reinforcement learning［C］//Proc of International Conference on Learning Representations.2019.

［30］Van Hasselt H，Guez A，Silver D.Deep reinforcement learning with double Q－Learning［C］//Proc of the 30th AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2016：2094－2100.

收稿日期：2023－07－25；修回日期：2023－09－13 基金項目：國家自然科學基金資助項目（U1908215）；遼寧省“興遼英才計劃”資助項目（XLYC2002014）

作者簡介：賀曉（1995—），男，湖北孝感人，碩士，主要研究方向為機器學習、強化學習、機制人智能控制理論與技術；王文學（1973—），男（通信作者），遼寧沈陽人，研究員，博導，博士，主要研究方向為微納機器人、機器人人機交互理論與技術（wangwenxue@sia.cn）．

計算機應用研究2024年4期

計算機應用研究的其它文章: 基于節點動態評分機制的分組共識算法; TCSNGAN:基于Transformer和譜歸一化CNN的圖像生成模型; 車聯網安全標準綜述; 基于模態語義增強的跨模態食譜檢索方法; 卷積神經網絡的正則化方法綜述; 多級敏感區域室內定位中的隱私保護算法