999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多智能體協作場景下基于強化學習值分解的計算卸載策略

2021-07-16 13:04:40張鵬田輝趙鵬濤賀碩童一帆
通信學報 2021年6期
關鍵詞:智能策略設備

張鵬,田輝,趙鵬濤,賀碩,童一帆

(1.北京郵電大學網絡與交換技術國家重點實驗室,北京 100876;2.鄭州大學信息工程學院,河南 鄭州 450001)

1 引言

隨著大數據和人工智能技術的突破和融合,未來整個社會將向數字化和智能化轉型。數字孿生世界為人工智能的應用提供了廣闊的場景,同時也推動了移動通信技術向6G 演進和發展[1]。智能交互場景,尤其是智能制造核心裝備的工業機器人間的智能交互作為6G 網絡的全新應用場景,受到了學術界和工業界的廣泛重視。根據國際機器人聯合會(IFR,International Federation of Robotics)最新發布的《全球機器人2019?工業機器人》報告顯示,2018 年全球工業機器人出貨量為42.2 萬臺,2020 年至2022 年全球機器人年出貨量增長率將會達到12%[2]。文獻[3]指出,到2030年,中國預計投入使用的機器人數量將達到1 400 萬臺。

位于網絡邊緣側的機器人/智能體是融合計算、存儲、應用等核心能力的重要載體和平臺,可以就近提供邊緣智能服務。近年來,研究人員試圖使機器人執行一些更加復雜的工作,如實時交互、災區救援等。然而,目前的機器人大多是孤立的且自主智能能力較弱,同時受到尺寸和電池容量的限制,難以應對復雜多變且非結構化的自然環境、計算密集型的任務以及6G 時代對自然交互的需求。為了進一步提高機器人執行任務的能力,Kuffner[4]于2010 提出了“云機器人”的概念,通過借助互聯網技術和云計算技術,使機器人從云中的計算、存儲、通信等資源中受益,打破了機器人與人工智能之間的壁壘,成為目前機器人領域的研究熱點。如何有效地進行云機器人計算任務的卸載是需要解決的關鍵問題[5]。

對于邊緣云架構下的卸載研究,文獻[6]研究了上下行流量差異化系統中基于上下文感知的上下行帶寬動態配置與基于凸優化的計算卸載策略。文獻[7]將計算卸載問題分解為基于擬凸優化的計算與通信資源優化問題、基于啟發式的終端卸載決策問題。文獻[8]針對網絡信息的時效性,考慮了網絡隨機到達、無線信道與有限的空口資源,利用李雅普諾夫優化實現了吞吐量與公平性兼備的計算卸載調度。文獻[9]針對惡意競爭不規范行為帶來的不合理資源配置,構建了基于信譽值的博弈模型,通過改進粒子群算法和拉格朗日乘數法優化單MEC(mobile edge computing)服務器下的終端卸載方案。文獻[10]引入D2D(device to device)協作中繼,基于博弈論設計了針對多用戶場景中上行通信擁塞、D2D 復用干擾、邊緣計算資源受限和云計算回程時延等因素的卸載方案。文獻[11]研究了移動邊緣計算系統中設備周期性地產生計算任務時進行卸載決策的場景,在該場景下證明了納什均衡的存在并提出相應的分布式均衡算法。

對于多任務流程,文獻[12]基于任務圖分割方法優化物聯網場景下的任務卸載決策,在滿足設備 QoS(quality of sever)需求后盡量減少物聯網終端個體對邊緣服務器的資源消耗。文獻[13]同樣基于任務流程圖的架構,設計深度強化學習方案對單設備多任務流程場景下的移動設備的能耗和任務執行時間進行智能卸載決策。在移動場景中,文獻[14]考慮終端設備的移動性和計算節點的可遷移性,構建可遷移的移動計算框架,將問題轉化為馬爾可夫決策過程,并通過深度Q 網絡(DQN,deep Q network)對單設備的計算卸載和遷移決策進行優化。文獻[15]在車載邊緣計算網絡架構下考慮車載終端縱向協作和橫向協作,通過異步分布式強化學習算法優化用戶任務卸載決策及計算和緩存資源的調度。文獻[16]在車載邊緣網絡下設定不同車輛任務的優先級,利用深度Q 網絡實現車載終端用戶任務執行時延、處理速率與能耗的均衡卸載算法。涉及安全性時,文獻[17]在區塊鏈賦能的場景下提出了基于信任值的深度強化學習卸載方案,通過選擇中繼節點增強系統的可靠性。文獻[18]在區塊鏈賦能的邊緣異構計算系統下,通過拉格朗日對偶理論聯合優化通信及計算資源受限下的系統效用,解決區塊鏈計算任務和用戶卸載計算任務。

同時,部分文獻展開了對智能交互場景下的云機器人計算卸載的研究。文獻[5]假設所有機器人具有同構的處理能力,并基于遺傳算法提出了最小化機器人能耗的計算任務卸載方案。文獻[19]基于改進的遺傳算法提出了一種云機器人計算任務卸載、路徑規劃以及接入選擇的聯合優化方案以最小化機器人能耗。文獻[20]利用博弈論研究了多智能體場景下的計算卸載和路由轉發問題,并證明了納什均衡的存在。文獻[21]考慮了不同任務對時延的敏感程度,提出了一種用戶偏好感知的計算任務卸載及帶寬資源分配方案,有效縮短了任務的執行時間并節省了系統成本。文獻[22]將云機器人的深度學習計算任務構建為一個非協作博弈模型,并提出了相應的啟發式算法以平衡本地計算和云計算之間的負載。

文獻[4-22]對云機器人計算任務卸載的研究做出了很大的貢獻,然而上述研究尚有一些不足之處。1) 存在場景適應性問題。上述研究大多是針對確定性優化場景,應用范圍具有局限性。2) 未充分考慮本地計算和云計算之間的負載均衡問題。機器人對獲取執行操作的實時性要求很高,過多依賴于云計算將導致高時延響應,影響任務的實時執行。3) 大部分忽略了機器人/智能體之間的協作交互與數據共享。機器人/智能體在做決策時不能僅依賴于自身信息,還應考慮其他機器人/智能體的數據情況。

為了解決上述問題,本文針對未來6G 網絡應用中出現的智能設備交互場景,提出了一種基于多智能體深度強化學習的云?端聯合資源調度方案。所提方案能夠在聯合計算卸載任務中,結合任務的實時性需求和設備狀態的多樣性條件,利用邊緣計算資源,根據當前時刻智能設備的狀態和任務特點自適應地調整本地計算和云計算之間的負載。同時,通過多智能體間的數據共享,有效提升智能交互場景下多智能體之間的協作效率。本文主要的研究工作具體總結如下。

1) 針對未來網絡中智能交互場景,本文考慮智能設備實時操作的協作運算特性,構建基于值分解的多智能體DQN 計算卸載策略,解決該場景下多智能體聯合動作優化問題。

2)在所設計的基于值分解的DQN 模型中,針對多智能體聯合動作維度爆炸的問題,通過將系統整體成本函數分解為個體函數的加和近似,成功將分布式網絡結構擬合為系統成本函數。

3)所提策略可以在大量多智能體聯合動作策略優化場景下進行訓練,并滿足該場景下系統的實時性需求,同時對系統函數的趨勢擬合符合預期,成本函數在多場景下較對比策略減少16%。

2 系統模型

本文考慮多個接入點(AP,access point)服務多個智能體(agent)的網絡系統,其中所有接入點通過有線連接方式接入網關設備(GD,gateway device),接入點與智能體之間通過無線方式進行連接。如圖1 所示,系統中部署M個接入點,接入點集合表示為M={1,2,…,M}。接入點i∈M服務Ni個智能體,該接入點所服務的智能體索引集合表示為Ni={(i,1),(i,2),…,(i,Ni)},其中1≤Ni≤Nmax,Nmax表示一個接入點能夠服務的智能體數量的最大值。此外,本文中的智能體在每一時刻只能與一個接入點相連。系統中存在M個相互正交的無線子信道,每個子信道的傳輸帶寬為W,每個接入點占用一個子信道。每個接入點采用時分多址(TDMA,time devision multiple access)方式為多個智能體提供服務。邊緣服務器部署于接入點和網關設備,其整體構成邊緣云為系統提供豐富的計算、存儲等資源,邊緣云的總計算資源為F。單個智能體所具有的計算資源相對較少,接入點i所服務的第j個智能體的計算資源量表示為fi,j。系統符號說明如表1 所示。

圖1 研究場景示意

表1 系統符號說明

為了實現系統中智能設備的自動運行,需要系統充分利用網絡邊緣計算能力、信道傳輸帶寬和自身計算能力來實時計算出每個智能設備的合理操作,從而完成系統整體任務并保證系統的穩定性。在本文的交互場景中,計算一個智能設備的操作不僅需要基于智能設備自身的參數數據,而且需要其他部分或全部智能設備的參數數據(如智能工廠內各監測攝像頭的圖像監測數據和機械臂的操作姿態數據,智能農場內各農田的溫度、濕度監測數據和化學指標數據),從而為實時操作的計算提供充足且合理的信息。在一個采樣周期內系統需要完成包括同步、感知、通信、計算、通信、執行的閉環流程,其中同步、感知和執行等環節在系統中具有其獨立的時延設計和時延標準,與本文的優化研究內容相對獨立。本文主要研究感知之后到執行之前的通信和計算環節。一個智能設備的參數數據包括自身當前狀態信息以及片上傳感器感知的局部環境信息等。Di,j,t表示接入點i所服務的第j個智能設備在第t個采樣周期內的參數數據量的大小。Ωi,j,t={(i,j),Ωi,j,t(i,j)}表示智能設備(i,j)在第t個采樣周期內實時操作所需參數數據的智能設備集合。系統中存在2 類計算資源,即邊緣云的計算資源和智能體的計算資源。因此,智能設備(i,j) 計算第t個采樣周期內實時操作時有2 種策略,xi,j,t∈{0,1}。具體地,xi,j,t=0表示由智能設備自身計算其實時操作;xi,j,t=1表示由邊緣云計算智能設備(i,j)的實時操作。

2.1 邊緣服務器執行

當全部智能設備的實時操作由邊緣云來計算時,一個采樣周期內的系統流程包括同步、智能設備感知、智能設備到邊緣云的通信、邊緣云計算、邊緣云到智能設備的通信、智能設備的執行。

智能體(i,j) 與接入點i之間的吞吐率為

其中,表示智能體(i,j)的發射功率,hi,j,t表示智能體(i,j)與接入點i之間的信道增益,N0表示加性白高斯噪聲的單邊功率譜密度。智能體(i,j)上傳其參數數據的時間為

接入點i下所有智能體總的上傳時間為

系統中所有智能體總的上傳時間為

在智能體到邊緣云的通信過程中,所有智能體發送數據的能量消耗為

所有接入點接收數據的能量消耗為

其中,ηi表示接入點i接收數據時每秒消耗的能量。

全部接入點接收完數據等同于邊緣云接收完數據。由于接入點與網關設備全部通過有線方式連接,并且邊緣服務器與接入點和網關設備共址部署,參數數據由接入點傳到邊緣云計算單元的過程非常快,不會對優化問題產生影響。因此在建模當中省略該部分的時延和能量消耗。假設計算實時操作的計算量與其基于的參數數據量大小成正比,即智能體(i,j) 的實時操作的計算量為

其中,Ki,j為正實數。邊緣云計算全部智能體的實時操作的總計算時間為

在設備進行任務計算時,影響CPU 功耗的因素包括動態功耗、短路功耗和晶體管漏電流引起的功耗,其中動態功耗是主要因素。動態功耗來源于CPU 內部邏輯門的工作。當邏輯門切換時,能量隨著其中的電容器充電和放電而流動。邊緣云計算的能量消耗為[23]

其中,κ為正實數,表示CPU 的有效開關電容,其大小與CPU 結構相關。本文假設系統中所有CPU的κ值相同。

邊緣云計算出全部智能體的實操作之后,通過接入點向對應的智能體發送操作指令。智能體(i,j)的操作指令數據量表示為,j,t。接入點i向智能體(i,j)發送操作指令的下行吞吐率為

接入點i發送其下所有智能體的操作指令的總時間為

發送全部操作指令的總時間為

在邊緣云到智能體的通信過程當中,所有接入點發送操作指令的能量消耗為

所有智能體接收操作指令的能量消耗為

其中,ηi,j表示智能體(i,j) 接收操作指令(或參數數據)時每秒消耗的能量。

因此,系統在智能體開始上傳參數數據到所有智能體獲得實時操作指令的時間長度為

對應的系統總能量消耗為

2.2 本地執行

當全部智能設備的實時操作由智能設備自身計算時,一個采樣周期內的系統流程包括同步、智能設備感知、智能設備經過邊緣云到智能設備的通信、智能設備計算、智能設備的計算單元到執行單元的通信、智能設備的執行。

智能體將參數數據發送至邊緣云的過程如式(1)~式(6)所示,邊緣云接收到全部智能體的參數數據之后開始向智能體轉發參數數據。接入點i向智能體(i,j) 轉發相應實時操作所需的參數數據的時間為

所有接入點轉發參數數據的總能量消耗為

所有智能體接收參數數據的總能量消耗為

智能體在獲得計算實時操作的全部參數數據后立即開始進行計算,智能體(i,j) 計算得到實時操作距邊緣云獲得全部參數數據的時間為

因此,從邊緣云獲得全部參數數據至所有智能體全部計算得到實時操作的時間為

所有智能體計算實時操作的總能量消耗為

因此,系統在智能體開始上傳參數數據到所有智能體獲得實時操作指令的時間長度為

對應的系統總能量消耗為

2.3 本地與邊緣服務器協同計算

智能設備的計算分為2 種形式,一部分設備由邊緣云計算其實時操作,另一部分由其自身計算實時操作。一個采樣周期內的系統流程包括同步、智能設備感知、智能設備到邊緣云的通信(智能設備經過邊緣云到智能設備的通信)、邊緣云計算(智能設備計算)、邊緣云到智能設備的通信(智能設備的計算單元到執行單元的通信)、智能設備的執行。

邊緣云接收到全部智能體的參數數據之后開始向策略中計劃在本地計算的智能體集合={(i,j)|xi,j,t=0,?i∈M且(i,j)∈Ni}中的智能體轉發參數數據,同時開始計算集合?i∈M且(i,j)∈Ni}中的智能體的實時操作。因此,邊緣云計算中智能體實時操作的時間為

智能體(i,j) 計算得到實時操作距邊緣云接收到全部參數數據的時間為

在接入點i發送操作指令前,需要邊緣側對其智能體對應的實施操作指令進行計算。依據系統設計,接入點i發送本地計算參數數據之后,由接入點i發送智能設備操作指令。接入點i開始發送操作指令距邊緣云接收到全部參數數據的時間為

接入點i下的智能體全部獲得實時操作距邊緣云接收到全部參數數據的時間為

因此,從邊緣云獲得全部參數數據至全部智能體獲得實時操作的時間為

接入點i向智能體(i,j) 發送數據(參數數據或者操作指令)的能量消耗為

智能體(i,j) 接收數據的能量消耗為

因此,所有接入點發送數據的總能量消耗為

所有智能體接收數據的總能量消耗為

所有智能體計算實時操作的總能量消耗為

因此,系統在智能體開始上傳參數數據到所有智能體獲得實時操作指令的時延為

對應的系統總能量消耗為

系統的成本函數綜合考慮時延和能量消耗兩方面,并將全部由邊緣云計算所對應的時延和能量消耗作為基準時間和能量消耗進行無量綱化處理。系統的成本函數表示為

其中,β和1?β分別表示系統對于時延和能量消耗的偏好程度,通過調整β的取值可對系統時延或能耗的敏感程度進行調整。本文的優化問題通過對卸載決策xi,j,t的合理選擇,實現對每次系統智能交互的計算過程進行針對成本函數的優化求解。優化問題為

其中,L={1,2,…,L}表示采樣周期索引集合。對于每個策略生成的單次采樣周期,周期的總時長為系統完成多智能設備聯合策略指令分發的時間,與其計算卸載策略對應的能耗共同組成該次的系統成本函數。限制條件C1表示每個智能體獲得實時操作只有2 種策略,限制條件C2 表示每個接入點服務的智能體數量上限,限制條件C3 表示每個智能體實時操作的計算至少需要自身的參數數據。

3 算法設計

問題式(41)是復雜的非線性0-1 規劃問題,屬于NP 難問題[24],難以采用傳統數學優化方法快速得出優化解。考慮智能體自動智能運行場景存在實時演算和反饋執行的即時性需求,系統成本函數中包含時延。對問題式(41)求解使用較長的時間將嚴重影響整個系統的性能,過于冗長的計算時間會使計算指令失去有效性。除此之外,整個系統存在系統動力學的不確定性,傳統數學優化方法難以直接處理。

區別于一般的監督學習與無監督學習,強化學習通過智能體與環境不斷交互,獲得動作獎勵并構建自身的狀態、動作空間。通過智能體自身在經驗積累中學習的優化策略不斷更新智能體的動作選擇方案,這種學習方法能夠很好地處理本文提出的優化問題。由于信道狀態、任務請求的差異性等使環境因素動態變化、不服從某單一概率分布,無法提前獲取狀態轉移概率,因此采用無模型的增強學習方法進行處理。當邊緣云收集全部智能體信息集中式決策所有智能體獲取實時動作的策略時,系統的狀態空間和動作空間維度非常高,傳統的表格化增強學習方法難以處理。神經網絡作為一種能夠擬合任意函數形式的工具可以有效地對高維輸入狀態空間進行處理,面對海量狀態空間時通過值函數逼近的方法神經網絡可以獲取對應的有效狀態動作值,是一種典型的處理高維度狀態空間的方法。因此,本文采用DQN求解問題式(41)。

利用DQN 得到的價值函數網絡,系統可以實時依據系統狀態選擇多智能體操作的計算位置。至此,系統成本函數優化問題轉化為強化學習中的多智能體聯合動作優化問題。本文利用貝爾曼方程將系統的長期收益轉化為系統的目標函數,進而通過深度神經網絡估計并構建對應的策略價值函數,將不確定的網絡環境映射到神經網絡的狀態空間中,以適應不確定性場景。對于基于值的單智能體強化學習使用神經網絡來估計策略價值,通過訓練網絡參數θ使逼近策略的真實價值Qπ(s,a)。下面,介紹多智能體對單智能體算法的擴展方式。

3.1 多智能體聯合學習框架

1) 聯合集中式學習。假設所有主體的行動和觀察組成一個聯合模型。集中式策略利用神經網絡將所有智能體的聯合觀察映射到一個聯合策略價值函數。該框架下觀察空間和動作空間隨智能體數目呈幾何倍數增長,達到2MNmax(本模型單智能體動作空間為2),網絡需要2MNmax輸出分支對應系統的組合優化策略。對真實策略價值函數的估計依賴于網絡的擬合和泛化能力。隨智能體數目增加,探索和計算開銷指數增加,在大規模多智能體環境中算法的可擴展性較差。

3) 值函數分解。將系統成本函數拆解為各智能體成本函數的加和形式,通過邊緣集中處理來解決各智能體獨自策略產生的環境動態非平穩問題,并且由于智能體訓練自身模型,解耦了智能體之間復雜的相互關系。

討論簡單情況,假設多智能體系統中包含2 個智能體(智能體1 和智能體2),并且全局回報函數是每個智能體的局部回報函數的加和。

其中,r1(ο1,α1)和r2(ο2,α2)分別是智能體1 和智能體2 的(觀察,動作)。從式(42)可以得到

式(43)分解后的Q函數依舊基于全局環境信息,本文系統中邊緣節點將集中收集所有連接智能體的狀態信息進而得到全局環境信息。由此對于部分策略價值函數的累加可以得到整體策略價值函數[26]。基于式(43)對聯合集中式學習和獨立并行學習進行折中,將整體策略價值函數拆分為多個局部智能體策略價值函數之和。

對應可將式(40)拆分為

其中,τi,j,t(Xi,j,t)代表單一智能體由邊緣云或本地計算操作所需要的時間,Ei,j,t(Xi,j,t)代表單一智能體由邊緣云或本地計算操作所需要的能量。

在多智能體訓練中采用式(45)作為獎勵函數代替系統代價函數進行訓練,2 個代價函數中不完全相等的部分由在邊緣計算時式(4)、式(13)和在智能體本地計算時式(2)中的非線性函數產生。

同時,在多智能體學習系統中若某智能體較早學習到有一定效果的策略,其他智能體將趨向于防止自身較慢的策略學習阻礙已經學到一定策略的智能體,使全局價值回報降低。此現象令其他智能體的學習受阻。為了避免該問題,對多智能體學習采用參數共享方法進行訓練。在各智能體策略價值評估函數中采用同構的神經網絡,并允許所有智能體共享單個策略評估參數,使策略可以同時接受所有智能體的經驗提升。直接采用參數共享方法的模型將會產生智能體的不變性,智能體不變性將導致智能體策略失去差異性。但不同智能體在特定任務中觀察到同樣局部信息時其策略應具有多樣性[27]。為了使智能體策略函數產生差異性,在輸入中引入智能體當前狀態信息作為額外索引信息來增強智能體價值函數的差異性[28]。

3.2 多智能體聯合學習算法設計

智能體(i,j)在第t個采樣周期的狀態為si,j,t,系統全部智能體在第t個采樣周期的狀態為st∈S,其中S 為狀態空間。

其中,

表示智能體i,j在第t個采樣周期的自身狀態信息。

系統在第t個采樣周期的策略動作為at∈A,其中A 為策略動作空間。根據價值函數獲取策略動作有

系統的策略動作tat表示系統中全部智能體在第t個采樣周期獲取的實時動作的策略集合,ai,j,t表示表示智能體i,j在第t個采樣周期獲取的實時動作(ai,j,t∈at)。對于不存在的智能體索引,規定其策略為?1,表示不存在該智能體。

智能體在第t個采樣周期的狀態為si,j,t,采取策略動作ai,j,t,得到對應的系統回報值為ri,j,t,當系統進入第t+1 個采樣周期時狀態為si,j,t+1。其中,系統回報值為系統成本的負值,即

由于Xt與tat之間能夠等效轉換,因此式(55)等效為

因此,問題式(55)等效為尋找最優策略使系統的長期平均回報值最大化。接下來,介紹相應的求解算法DQN。

本文中的DQN 利用雙網絡結構和經驗回放方法。在當前的第t個采樣周期,智能體i,j狀態為si,j,t,利用ε-greedy 方法選取策略動作ai,j,t,相應地得到系統回報值ri,j,t,進入第t+1個采樣周期時系統狀態為si,j,t+1。因此系統得到經驗數據(si,j,t,ai,j,t,ri,j,t,si,j,t+1),并將其存儲至記憶庫DM。系統構建2 個結構相同的神經網絡:預測網絡Q(s,a;θ)和目標網絡Q~(s,a;θ?),其中θ和θ?分別表示2 個神經網絡的網絡參數。預測網絡Q(s,a;θ)的輸入為狀態s,輸出為所有可能動作對應的值,系統則根據這些值采用ε-greedy 方法選取策略動作。

為了學習預測網絡Q(s,a;θ),系統從記憶庫DM隨機選取U個經驗數據樣本進行批訓練。以目標網絡的Q值作為目標,第u個樣本(su,au,ru,su+1)(此處的1≤u≤U指的是隨機選取的U個經驗數據樣本的序號,與采樣周期的索引無關)訓練目標函數為

其中,γ為回報值的折扣。預測網絡參數θ更新的目標是最小化損失函數L()θ。

θ的更新方式為

其中,v為更新步長,?θ L(θ)為L(θ)關于θ的梯度。目標網絡的參數更新需要間隔固定的采樣周期,即每經過G個采樣周期,更新θ?如下

算法1基于值分解的多智能體DQN 卸載決策算法

輸入全部智能體在第t個采樣周期中的設備狀態信息st

輸出全部智能體在第t個采樣周期中的卸載策略動作at

初始化

初始化預測網絡Q(s,a;θ),隨機生成其參數θ;初始化目標網絡,其參數θ?=θ;初始化記憶庫DM,其存儲空間大小為|DM|;初始化εi,j=1,?i∈M,(i,j)∈Ni,εdecay,εmin;獲得初始狀態s1

循環

預測網絡和目標網絡為多層神經網絡。因為系統狀態每一部分的取值范圍大不相同,所以在輸入系統狀態之前需要對系統狀態進行歸一化預處理。歸一化方法如下

4 仿真分析

本文通過Pytorch 仿真評估所提出的基于值分解的多智能體DQN 卸載決策算法性能。無線網絡仿真參數如表2 所示,DQN 算法超參數如表3 所示。

表2 無線網絡仿真參數

表3 DQN 超參數

仿真環境如圖1 所示。邊緣云部署M個接入點,每個接入點下接入不超過Nmax個智能體,每個周期智能體隨機產生數據量為20~200 kbit 的數據包對接下來的智能體實時操作進行請求。假設計算實時操作的計算量與其基于的參數數據量大小成正比,接入點收集智能體相關請求信息。通過基于值分解的DQN 計算每個智能體獨立的計算資源部署動作。在DQN 內,每次產生一組全部智能狀態st,選擇智能體(i,j) 。在神經網絡在輸入端輸入的對應智能體狀態si,j,t由全部智能體狀態st和智能體(i,j)的索引狀態組成。經過值分解DQN 后得到該周期對應的智能體動作,更換智能體(i,j) 索引直至所有智能體輸出對應的計算策略動作。依據DQN 指導多智能體聯合計算請求的實時操作指令。將計算實時操作需要的參數數據Ωi,j,t收集下發至本地計算的智能體,同時在邊緣云計算智能體實時操作。邊緣云完成計算后將通過對應接入點將實時計算指令下發至對應智能體。所有計算完成后則可以獲取本周期的系統成本函數值。使用Adam 優化算法更新預測網絡和目標網絡參數。

考慮到云機器人場景下對多智能設備策略動作的實時性要求,本文設計了基于機器學習的多智能體資源分配方案。本文方案利用神經網絡來觀察系統狀態信息并快速給出合適的卸載策略。表4 給出了本文所提算法在不同場景下的決策時間。

從表4 中可以看出,隨著智能體數目的增加,計算決策的計算時間并沒有顯著上升,即本文所提出的資源分配方案對所涉及的智能體數目不敏感。上述實驗表明,本文的研究方案可以以亞毫秒級完成策略計算。本文方案產生決策結果的時間遠小于其智能設備承載業務場景的時延容忍度,足以滿足任務的實時性要求。

表4 基于值分解的DQN 算法決策時間

為了分析所設計的基于值分解的DQN 對于本文模型所涉及的多智能體聯合動作空間的學習能力,圖2 給出了當接入點數目M=3 時,每個接入點下5 個智能體場景的Q 網絡損失函數變化曲線。

圖2 基于值分解的DQN 損失函數曲線

如圖2 所示,基于值分解的DQN 可以在多智能體的訓練環境下完成損失函數的快速減少和收斂,快速找到相對應的多智能體聯合動作策略。

當智能體數目增加時,系統的整體復雜性將增加,其對應的組合優化空間將變大,神經網絡結構需要更多的數據來擬合聯合優化的值函數,使損失函數收斂相較簡單場景有所變緩,更新數據量相同情況下單個智能體的訓練數據集變小。通過本文采取的參數共享方式對DQN 的訓練進行加速,在智能體數目較多的場景下,所提算法的目標損失函數依舊在較短的訓練循環次數內快速收斂至穩定范圍。系統成本函數通過值分解分配到每個智能體自身成本函數,多智能體算法能夠以較好的性能完成目標任務。

聯合集中式學習是假設所有智能體的動作策略均采用一個聯合模型進行訓練,并將所有智能體的聯合動作狀態值映射到一個聯合函數中。這種集中式結構導致狀態和行動空間隨著智能體數目的增加而呈指數增長,并且對應訓練所需要的數據量和計算量難以通過現有技術進行支持。本文算法則可以在有限數據量的情況下獲取有效的優化策略。

為了對比驗證本文提出算法的有效性,選擇以下對比方案。1) 考慮系統成本函數中采用、作為歸一化參數,其對應多智能體策略為全部智能體實時動作計算置于邊緣云,選取全部實時計算位于邊緣云作為對比策略。2) 對應的多智能體動作計算策略可以選擇利用智能體自身資源,在邊緣云從其他智能體收集足夠計算數據并發送到所需智能體后由智能體自身計算實行,全部智能體本地執行實時計算動作作為對比方案。3) 在不同的系統環境中,最優卸載策略隨系統環境變化而變化。為了驗證基于值分解的DQN 算法能夠成功從系統環境信息和系統狀態信息中學習獲得計算資源的分配策略,本文選取了采用隨機動作卸載策略作為對比項。

為了研究多智能體收集數據量Di,j,t的變化與多智能體實時操作指令數據量的變化對整體系統性能的影響,圖3 與圖4 分別給出系統成本函數隨二者的變化曲線。

圖3 多智能體收集數據量與系統成本

圖4 多智能體操作指令數據量與系統成本

從上述結果可知,基于值分解的DQN 算法在復雜環境變化下可以準確找到最優動作策略。當多智能體收集數據量較小時,依據系統效用函數式(39),整體系統趨向于本地計算以獲取最小的系統成本。由于數據量輕量化使在本地計算時延開銷較小,此時系統中多數智能體數據的上傳時延和實時指令的回傳時延是系統的潛在主要開銷。隨著多智能體收集數據量的增加,由于智能體計算能力有限,智能體獨自計算的時間成本增加,整體系統趨向于向邊緣卸載操作計算以減小系統成本,利用邊緣的高算力帶來的系統增益抵消數據傳輸時產生的時延影響。

當多智能體實施操作指令數據量較小時,依據系統效用函數式(40),整體系統趨向于將實時計算交付于邊緣以獲取最小的系統成本。此時利用邊緣的高算力優勢抵消了智能體數據傳輸時延對系統增益的影響,實時計算指令可以即時反饋回各智能體。隨著系統中多數智能體操作數據量的上升,邊緣計算對于智能體的實時操作反饋時延的代價增加,抵消了邊緣的算力優勢,則整體系統趨向于將實時計算任務交付于各自獨立智能體。

對比圖3 與圖4,整體系統對于多智能體收集數據量的敏感性要低于多智能體實時操作指令數據量的敏感性。在收集數據量增長后系統很快將計算任務交于邊緣,操作指令數據量系統傾向性改變較緩。在所有場合中基于值分解的DQN 算法均優于對比策略。

以上實驗表明,本文所提基于值分解的DQN算法能夠有效獲取系統的策略偏好并對應訓練神經網絡價值函數。圖5 給出了DQN 輸出隨系統的智能體數據收集與智能體操作數據量的變化趨勢(DQN 輸出動作選擇概率)。當智能體收集的數據量增加時,DQN 獎勵函數對本地的計算時延成本增加,系統動作逐漸趨向于在邊緣計算。當智能體操作指令數據量增加時,在基于值分解的DQN 中,對于本地計算,依據式(11)和式(12),時延部分分子τi,j,t(χi,j,t)不變,分母變大,能量部分分子Ei,j,t(χi,j,t)不變,分母變大,導致系統卸載動作逐漸趨向于在智能體本身計算。

圖5 收集與操作指令數據量的多智能體策略變化

圖6 展示智能體數量對整個系統成本影響的仿真結果,以及基于值分解的DQN 設計的可擴展性的仿真驗證結果。在系統內多智能體的數目增長過程中,本文所提策略得到的聯合動作策略的系統成本持續低于對比策略,整體系統成本函數在多場景下相對對比策略減少16%。在智能體數目較少的場景下,本文策略系統成本顯著優于對比策略。在實驗參數設置下少量智能體對于輕量化的個體計算更具有偏好性。隨著智能體數目的不斷增多,系統的最優策略逐步偏向于讓智能體設備操作在邊緣側計算而非本地計算,在實驗結果中的表現為含有本地計算方式的系統成本相對上升。整體系統成本函數中上傳和卸載數據的時延代價被分攤到了更多的智能體中,特別是本文考慮的是多智能體協同計算,單智能體需要其他智能體數據輔助完成實時操作計算,對智能體的需求計算數據分發將在時延代價中產生巨大影響。隨智能體數目增加智能體將趨向于將實時操作計算交付于邊緣計算以減輕智能體的數據分發帶來的負面影響。

圖6 智能體數目與系統成本

圖7 和圖8 對不同智能體數目下的時延和能耗性能進行了單獨仿真分析。如圖7 所示,單獨考慮時間因素時,可以觀察到個體時延組成包括智能體數據的上傳時間、邊緣側對本地計算的數據分發時間、邊緣側和本地的操作指令計算時間和最終邊緣側智能設備操作指令傳輸時間。其中,智能體數據的上傳時間、分發時間和邊緣側智能設備操作指令傳輸時間參數取值為所有接入點間最大值,在各接入點范圍內計算方式為對應時延相加;邊緣側操作指令計算時間為所有邊緣側計算智能體計算時間相加。智能體個體時延與智能體間互相的卸載策略選擇相關性較強,與智能體數目增加的相關性較強,隨智能體數目的增加而增加。通過實驗對比可知,本文算法優于對比策略。

圖7 智能體數目與時延

如圖8 所示,在單獨考慮能耗因素時,個體能耗組成主要包含智能體數據上傳的能耗、邊緣側對本地計算的數據分發能耗、邊緣側或本地的操作指令計算能耗和最終邊緣側智能設備操作指令傳輸能耗。能耗函數表示為智能設備在各自環節相對獨立的能耗參數相加。智能體個體的能耗同智能體個體的卸載選擇相關,與智能體間的卸載策略選擇相關性較弱,對智能體數目的增加不敏感。通過實驗對比,本文算法可以在實驗環境中依據智能設備的情況和任務自適應地選取卸載決策,算法決策在能耗選擇中優于對比策略。

圖8 智能體數目與能耗

5 結束語

本文針對交互場景下的操作計算業務提出了基于多智能體的強化學習資源調度策略,設計了基于多智能體強化學習算法的狀態和獎勵函數。所提出的策略能夠克服海量動作空間的學習問題,能夠在接入點、智能體異構化的條件下根據任務的需求自適應地調整資源分配策略,提升時延和能量效益,不受限于智能體數量,正確反映通信系統效用函數的變化趨勢。仿真結果表明,所設計的多智能體資源調度策略能夠在用戶較多、業務量需求較大的情況下完成傳統集中式架構無法完成的調度指示,系統成本函數相對對比策略平均減少16%,并且對于用戶的數目變化具有良好的適應性。

猜你喜歡
智能策略設備
諧響應分析在設備減振中的應用
例談未知角三角函數值的求解策略
我說你做講策略
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
基于MPU6050簡單控制設備
電子制作(2018年11期)2018-08-04 03:26:08
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
500kV輸變電設備運行維護探討
工業設計(2016年12期)2016-04-16 02:52:00
主站蜘蛛池模板: 国产农村妇女精品一二区| 久久公开视频| 国内毛片视频| AⅤ色综合久久天堂AV色综合| 国产乱人乱偷精品视频a人人澡| 91青草视频| 一级片一区| 亚洲 欧美 偷自乱 图片| 国产一区二区免费播放| 国产黄色片在线看| 91精品啪在线观看国产91| 国产午夜无码专区喷水| 国产噜噜噜视频在线观看| 成人一级黄色毛片| 国产第一页亚洲| 国产精品网址在线观看你懂的| 欧美日韩第三页| 亚洲AV无码精品无码久久蜜桃| 无码中字出轨中文人妻中文中| 国产成人综合在线观看| 再看日本中文字幕在线观看| 91精品人妻一区二区| 日本成人精品视频| 久久久久国产精品嫩草影院| 免费啪啪网址| 成人国产三级在线播放| 九九精品在线观看| 97久久免费视频| 成人国产精品2021| 国产日韩精品一区在线不卡| 动漫精品中文字幕无码| 婷婷色婷婷| 亚洲人成网站观看在线观看| 精品人妻AV区| 亚洲成人网在线观看| 四虎影视无码永久免费观看| 国产黄在线观看| AⅤ色综合久久天堂AV色综合| 亚洲人成网址| 黄色网页在线观看| 夜夜操天天摸| 日韩精品毛片人妻AV不卡| 久久久久人妻一区精品| 五月婷婷综合色| 国产日本视频91| 久久人与动人物A级毛片| 在线观看免费国产| 国产视频只有无码精品| 熟妇丰满人妻av无码区| 一级毛片免费播放视频| 国产成人综合在线观看| 欧美亚洲一区二区三区导航| 精品少妇人妻av无码久久| 99精品视频九九精品| 精品无码视频在线观看| 国产电话自拍伊人| 国产视频a| 国产激爽大片高清在线观看| 免费国产好深啊好涨好硬视频| 日韩AV手机在线观看蜜芽| 99re在线观看视频| 日本午夜在线视频| 波多野结衣一区二区三区四区| 亚洲一级毛片在线观播放| 亚洲精品在线影院| 四虎成人免费毛片| 欧美在线综合视频| 高清大学生毛片一级| 色综合网址| 日韩成人高清无码| 国产99视频精品免费观看9e| 精品丝袜美腿国产一区| 99久久精品国产麻豆婷婷| 免费无码又爽又黄又刺激网站| 国产手机在线小视频免费观看 | 99久久精品国产综合婷婷| 成人韩免费网站| 久久国产亚洲偷自| 成年看免费观看视频拍拍| 精品亚洲国产成人AV| 黄色网在线| 日韩专区欧美|