徐思雅,邢逸斐,郭少勇,楊超,邱雪松,孟洛明
(1.北京郵電大學網絡技術與交換重點實驗室,北京 100876;2.國網遼寧省電力有限公司信息通信分公司,遼寧 沈陽 110004)
能源互聯網是綜合運用先進的電力電子技術、通信技術、信息技術和智能管理技術支撐能源節點互聯,實現能量雙向流動的能量對等交換與共享網絡。我國倡導構建全球能源互聯網,推動以清潔和綠色的方式滿足全球電力需求。但是,隨著能源互聯網規模的逐漸擴大,海量的物聯設備對電能輸送容量與傳輸距離的要求越來越高,這使我國架空輸電線路工程的規模也隨之提升。因此,輸電線路日常巡檢成為電力公司各級運檢部門的重要工作之一[1]。但是,部分輸電線路需要穿過地形復雜和自然環境惡劣的地區[2],這給運維人員的日常巡檢工作帶來了極大的挑戰。近年來,電力運檢部門借助無人機(UAV,unmanned aerial vehicle)技術來解決傳統人力巡檢效率低下的問題。UAV 技術是指以無線電遙控技術為基礎、以適配性極強的程序為控制手段的一種無人駕駛航空設備,可提供實時數據采集和無線數據傳輸等功能。這種新型巡檢方式安全高效,可以靈活地在人力難以到達的地理區域進行巡檢作業,降低操作成本并保障運維人員的人身安全[3]。
然而,隨著無人機巡檢方式的推廣,新的問題也隨之產生。由于無人機的計算能力有限,不能獨自處理巡檢過程中產生的海量圖像數據,需要將任務卸載到其他服務器上處理。在無人機數據卸載方面,移動邊緣計算(MEC,mobile edge computing)技術發揮著重要作用。MEC 按照我國輸電線路的實際地理位置部署邊緣服務器,可充分發揮邊緣計算在網絡中靈活分布的優勢,并可按照一定的卸載機制進行無人機數據卸載,以降低任務時延和系統能耗[4],延長整個巡檢系統續航時間并提高網絡資源利用率。因此,研究無人機巡檢任務的卸載機制具有重要的理論和應用價值。
近年來,針對無人機任務卸載的研究已有較多成果,主要解決無人機任務處理中的節能問題。例如,文獻[5]針對MEC 場景提出了一種面向能耗的任務調度算法,聯合優化無人機的路徑規劃和移動設備的信道資源,可降低所有移動設備的能耗,但未考慮任務生成的動態特性和任務傳輸的排隊時延。文獻[6]提出一種基于塊坐標下降和連續凸逼近(SCA,successive convex approximation)相結合的迭代算法,結合無人機軌跡、發射功率和時延要求對通信資源進行調度,提高用戶通信帶寬,但忽略了無人機正常飛行的能耗。文獻[7]在三級霧計算網絡中以任務所經歷的能量消耗和時延加權和為目標函數,并提出3 種決策算法求解該聯合優化問題,分析并論證了無人機位置、移動設備和霧節點的處理頻率、傳輸功率的分配方案,但其應用場景中霧節點數量較少,實用價值較低。文獻[8]在任務約束、信息因果關系約束、帶寬分配約束和無人機軌跡約束下,聯合優化無人機和用戶設備的能量消耗,但其應用場景中無人機數量較少,存在算法普適性較低的問題。文獻[9]在滿足傳感器節點傳輸速率需求的條件下,提出了一種基于塊坐標下降和SCA 相結合的迭代算法,解決了無人機調度方案、功率分配策略和飛行軌跡等的聯合優化問題,降低了無人機的功耗,但缺乏對傳感器節點能耗的分析。文獻[10]通過3 次計算優化了無人機輔助網絡資源分配方案,減少包括通信相關能量在內的總能耗,但忽略了終端設備和邊緣服務器的能耗問題。綜上分析可知,現有方法可以有效實現無人機能耗和時延的聯合優化,但大多數僅考慮了無人機的能耗,忽略了邊緣服務器的長期能量約束以及不同電力巡檢任務多樣化的服務要求,實用性較差,不能直接應用于電力巡檢場景。
為解決以上問題,本文對實際巡檢任務需求進行分析,提出了一種基于深度強化學習的能源互聯網智能巡檢任務分配機制,建立了基于雙層邊緣網絡的云邊端網絡架構,并結合Lyapunov 優化理論和強化學習技術設計巡檢任務智能分配算法,在滿足不同巡檢場景業務需求的條件下,減少了系統能耗和業務時延。
本文主要的貢獻如下。
1) 為了延長電力巡檢移動設備的生命周期,針對輸電線路巡檢任務的實際場景,建立了基于雙層邊緣網絡的云邊端網絡架構。雙層邊緣網絡由移動邊緣接入層和固定邊緣匯聚層組成。其中,固定邊緣匯聚層分別通過光纖和無線網絡與云中心和無人機相連;無人機通過無線網絡與移動邊緣接入層或固定邊緣匯聚層相連;移動邊緣接入層具有移動性,可以更加靈活地處理終端層的任務,更契合復雜多樣的地理環境,滿足電力巡檢實際場景要求。
2) 提出了一種雙時間尺度機制來解決雙層邊緣網絡模型之間的關聯問題,該機制在較長時間尺度內解決雙層邊緣網絡之間的關聯問題,在較短時間尺度內執行動態任務卸載策略,可以降低算法復雜度并減少系統處理時延。
3) 根據巡檢業務對通信和計算資源的需求,建立了任務卸載的能耗和時延模型?;贚yapunov優化理論,將長期能量限制下的聯合卸載優化問題轉化為每個時隙的Lyapunov 漂移加懲罰項在線優化問題。本文設計了固定邊緣匯聚層和移動邊緣接入層的能量虧損隊列來監測巡檢系統移動設備的能量消耗狀態,并提出了一種基于近端策略優化(PPO,proximal policy optimization)算法的巡檢任務分配機制來求解卸載策略。
針對無人機輸電線路巡檢任務的實際應用場景,本文建立了基于雙層邊緣網絡的云邊端網絡架構,它由終端層、移動邊緣接入層、固定邊緣匯聚層和云平臺層組成,如圖1 所示。

圖1 基于雙層邊緣網絡的云邊端網絡架構
1) 終端層。終端層由無人機構成。無人機按照既定航線接近電力終端設備后懸停飛行或在一定范圍內巡航[11]。本文假設無人機不在本地進行數據處理工作,只負責采集不同類型的數據(圖像、視頻數據等),并通過無線通信的方式將任務數據卸載到移動邊緣接入層、固定邊緣匯聚層或云平臺層進行處理。
2) 移動邊緣接入層。移動邊緣接入層由計算能力有限的移動通信車組成。移動通信車承載著底層MEC 服務器(Sub-MECS,subordinate MEC server),擔任無人機控制站的角色[12]。Sub-MECS 可以接收并處理終端層發送的任務,以實現負載均衡和資源共享。
3) 固定邊緣匯聚層。固定邊緣匯聚層由計算能力較強的 MEC 服務器(M-MECS,main MEC server)及其所屬的基站組成,可以接收并處理終端層UAV 的任務,也可以將部分對時延敏感度不高的任務卸載到云平臺層進行計算處理。所有的M-MECS 都通過光纖鏈路連接到云平臺層。
4) 云平臺層。云平臺層由具有強大計算能力的云服務器組成,通過固定邊緣匯聚層接收終端層的任務包頭數據,收集任務所需的計算資源和時延要求,并對任務卸載策略進行學習和決策,存儲不同個體的決策模型,也可以統一計算處理固定邊緣匯聚層發送的任務。
1) 巡檢任務性能指標
輸電線路巡檢是指對電力線路及附屬設備的運行狀態以及電力線路走廊周邊環境進行及時準確的巡視檢查,排查發現隱患點并進行有效的消除,確保電網安全平穩運行[13]。無人機電力巡檢的任務指標定義如下。
時延。任務生成到獲得處理結果花費的時間,包括傳輸時延、傳播時延、排隊時延和處理時延。
能耗。設備執行任務所需的能量消耗,包括無人機、Sub-MECS、M-MECS 和云平臺。
2) 巡檢任務服務需求
在輸電線路巡檢過程中,有不同的電力巡檢場景,具體介紹如下。
電塔巡檢。電塔巡檢過程中需要無人機對桿塔、周邊環境和絕緣子等金屬部件進行圖像采集,進而分析電塔的運行情況。由于電塔位置分散,尤其是惡劣自然環境下,電塔間的距離進一步擴大。這種情況下,為了減少單次巡檢任務中無人機對同一區域的通勤頻率,應延長無人機的生命周期。因此,需著重考慮電塔巡檢任務的能耗問題。
導線巡檢。導線巡檢過程中需要無人機對導線磨損、導線劃傷、導線斷股以及沿途樹木和建筑物等情況進行圖像采集并分析。導線故障可能會造成大面積區域斷電,但實際處理導線故障需要人工實地進行更換導線,無人機傳輸導線異常的時延與之相比可以忽略不計。因此,相比于時延,導線巡檢任務對能耗的要求更高。
變電站巡檢。實際巡檢過程中,巡檢人員會采用目測法、耳聽法、鼻嗅法和手觸法等方法對變電站設備是否處于異常進行判斷。在這種情況下,巡檢人員會實地完成變電站巡檢任務,并盡快處理變電站故障,防止發生斷電和爆炸事故。無人機則主要完成輔助巡檢任務,對部分變電站設備和周圍低空范圍的植被和違章建筑等進行隱患巡檢。因此,變電站巡檢任務具有較高的時延要求。
假設UAV 和Sub-MECS 在網絡中是隨機分布且具有移動性的,而固定邊緣匯聚層的M-MECS位置不變。由于UAV 和Sub-MECS 的地理位置不斷變化,本文采用就近原則解決UAV 和Sub-MECS與上級邊緣節點的連接問題。
根據UAV 和Sub-MECS 在電力場景中的位置變化頻率,本文提出了一種雙時間尺度機制來解決UAV 和Sub-MECS 的位置變換和任務卸載轉移問題,如圖2 所示。

圖2 雙時間尺度模型
系統在時域上分為若干時隙,短時隙的集合可表示為t={t1,t2,…,tn},每個短時隙的長度為l。為了解決UAV 和Sub-MECS 的位置變換問題,將連續的ξ個時隙認定為一個大時隙,用T={T1,T2,…,Tm}表示,其中大時隙與小時隙的轉換關系為為了簡化模型,假設第t個短時隙的數據在第t? 1個時隙的末尾生成。因此,本文認為第t個時隙的數據可以在當前時隙一開始就進行數據處理。需要注意的是,各種任務的執行速度是不同的,即有些任務可能在當前時隙內沒有完成,將在下一個時隙繼續處理。參數符號定義如表1 所示。

表1 系統參數符號
在每個短時間尺度時隙的開始,每個UAV 可以移動,并選擇與一個新的Sub-MECS 相關聯。每個長時間尺度時隙的開始,每個Sub-MECS 可以移動,并可以與一個新的M-MECS 關聯。然后,UAV的任務根據卸載策略卸載到Sub-MECS、M-MECS或云平臺層上進行任務處理。

1) 無人機能耗模型
在網絡中,無人機只承擔數據的采集和打包轉發功能,不進行數據的計算和處理。因此,無人機的能耗包含運行能耗和無線傳輸能耗2 個部分。為了簡化模型,在運行能耗方面,將每個時隙中無人機的運行功耗設置為定值;在無線傳輸能耗方面,本文主要關注無人機任務數據的上行鏈路流量,忽略下行鏈路流量和任務描述數據。
本文假設ui在正交信道上進行數據傳輸。


則ui在時隙t的無線傳輸的能量消耗為

此外,根據Friis 傳輸方程組,自由空間功率損耗與發射端和接收端之間距離的平方成正比[15-16],即

其中,K為不同環境下的影響因子,Pr和Ps分別為接收功率和發射功率,S為接收端和發射端之間的距離。因此,當傳輸距離變大時,UAV 的無線發射功率也隨之增大。
2) 無人機控制站(Sub-MECS)能耗模型
Sub-MECS 的能量消耗主要由任務計算處理能耗組成,計算處理能耗可由計算任務所需的CPU周期衡量。設fj(t)表示sj調度的CPU 周期頻率,允許的最大 CPU 周期頻率定義為fmax,即0<fj(t)<fmax。所以在時隙t中,sj的任務處理能耗為[17]

其中,κ為與芯片結構相關的有效開關電容[18]。
因此,如果sj的當前能量預算不足以滿足sj的任務處理需求,則需要將當前任務順延到下一個時隙進行計算,由此產生的排隊時延將在后續時延模型中詳細闡述。
3) M-MECS 能耗模型
M-MECS 的處理能耗是邊緣計算網絡的主要消耗。為了簡化模型,在M-MECS 穩定工作的條件下,本文僅考慮了M-MECS 的計算能耗,其中,M-MECS的功耗包括兩部分:服務器空閑功耗和與CPU 工作負載相關的動態功耗[19]。功率模型可以表示為

其中,Pmax表示M-MECS 被充分利用時的峰值功率消耗;α表示M-MECS 空閑時的功耗比例,平均值在50%~70%;θ(t)表示CPU 利用率,定義為處理的總計算任務與CPU 最大服務速率的比值,即

1) UAV 時延模型


2) Sub-MECS 時延模型
由于sj的能量預算可能不滿足當前時隙的能量消耗,因此將占用下一時隙的能量,并產生排隊時延。
3) M-MECS 時延模型

網絡中的無人機可能產生不同類型的數據,因此計算任務所需的CPU 周期數也有所不同。假設單個任務所需CPU 周期數服從指數分布,在處理速率不變的情況下,任務的服務時間服也從指數分布。進一步假設計算任務的生成速率服從泊松分布,則每個M-MECS 的計算時延可以建立為M/M/1排隊模型[20-22],mk的預期計算時延為

本文假設云服務器的計算時延和能量消耗可以忽略不計。將任務卸載到云的主要時延成本是回程時延,這同樣是一個M/M/1 系統[14]。那么,任務從mk向云平臺的傳輸時延為

本文針對所提出的基于雙層邊緣網絡的云邊端網絡架構,設計了一種基于深度強化學習的能源互聯網智能巡檢任務分配機制,以實現無人機在電力場景巡檢過程中通信和計算資源的聯合優化分配。該機制通過將計算任務卸載到不同的移動邊緣接入層和固定邊緣匯聚層的邊緣服務器來提高網絡資源的利用率,滿足用戶不同的QoS 要求。Sub-MECS 可以處理計算簡單且時延敏感型的任務,而在M-MECS 上可以處理計算密集型和時延敏感型的任務。此外,當時延要求不嚴格時,可以將任務卸載到云平臺。對于巡檢任務的工作強度和時間跨度來說,智能設備的能量儲備和生命周期有限。因此,為了延長設備的生命周期,本文假設每一個設備都有極限功率,設備有預先確定的長期能耗限制,以滿足巡檢任務的實際應用情況。
為了簡化模型,ui任務的處理結果在上層服務器處理完自身所有任務后統一回傳,不考慮單一任務完成后立即回傳。根據第2 節討論的系統模型,ui的任務時延為

無人機ui的能耗為

移動邊緣接入節點sj的能耗為

固定邊緣匯聚節點mk的能耗為

其中,wmax為mk最大服務率。
因此,所有任務的總時延為

該優化問題的目標為在給定單個 UAV、Sub-MECS 和M-MECS 的能量限制的情況下,最小化系統總時延成本。無人機的能耗分為固定運行能耗和無線傳輸能耗,其中,固定運行能耗不受卸載策略影響,而無線傳輸能耗受卸載策略影響較小。為了簡化模型,本文假設無人機的能耗滿足能耗約束。綜上分析,通信和計算資源的聯合優化問題可表述為


其中,約束(a)表示每個時隙中每個任務的時延要求;約束(b)表示無人機任務的生成速率服從泊松分布;約束(c)、約束(d)和約束(e)表示每個時隙的UAV、Sub-MECS 和M-MECS 的能量消耗不能超過上限;約束(f)和約束(g)表示長期能源消耗必須小于能源供應,用于限制Sub-MECS 和M-MECS長時間的總能耗;約束(h)表示任務卸載策略的可用性。
問題P1是一個長期優化問題,需要在所有時間段內擁有完整的離線信息,才能得到最優解。然而,準確預測未來的工作量是難以實現的。此外,不同時間段的計算卸載決策將與長期能耗交互。因此,本文提出了一種基于當前信息就能做出卸載決策的在線學習方法。
為了解決P1所述問題,本文利用Lyapunov 優化理論為每個Sub-MECS 和M-MECS 構建一個虛擬的能量虧損隊列,指導每個 Sub-MECS 和M-MECS 的任務卸載決策遵循長期能源約束[23]。
1) Sub-MECS 能量虧損隊列


2) M-MECS 能量虧損隊列
假設 M-MECS 的能量虧損隊列集合為Z(t)={Zk(t)},k∈M。每個mk的能量虧損隊列為

1) Lyapunov 優化
基于Lyapunov 優化理論,本文可以將隨機優化問題轉化為每個時隙內的已知問題,而不需要任何未來信息 。對Q(t)和Z(t)引 入Θ(t)=[Q(t),Z(t)],則其Lyapunov 函數為

Lyapunov 漂移函數為

根據Lyapunov 優化理論,使用漂移加懲罰函數來平衡能耗和時延對優化結果的影響,如式(26)所示。

其中,B1和B2為常數。因此,可以將原來長期最小化問題P1轉化為問題P2,使每個時隙中的漂移加懲罰函數的上界最小,即

本文重點關注卸載問題,因此,將P2 的目標函數分為2 個部分:與卸載策略相關的AP1和與卸載策略無關的AP2。則P2 可以進一步表示為

其中,AP1部分直接決定任務計算卸載策略。AP1計算式為

而AP2部分間接給卸載決策帶來長期影響。AP2計算式為


本文主要關注與卸載相關的AP1部分,因此,P2 的卸載問題可轉化為

由分析可知,P4 是一個時延和能耗聯合優化問題,與背包問題類似,其可行集和目標函數是非凸的,因此P4 是一個NP 問題,且當Sub-MECS 和M-MECS個數增加時,P4 問題規模會迅速增大。由于使用傳統算法求解背包問題存在時間復雜度分析困難的問題,因此本文針對上述系統模型,采用人工智能算法進行求解,提出了一種近端任務卸載策略優化(PTOPO,proximal task offload policy optimization)機制,可以規范高效地求解卸載策略。
2) PTOPO 機制
本文基于經典的PPO 強化學習算法[25-26],設計了PTOPO 機制,求解最優的卸載策略。如圖3 所示,整個電力巡檢應用場景包括3 個部分:環境、個體和動作。個體與環境進行交互,從一個狀態出發,根據自己的策略分布選擇動作,并獲得獎勵。環境由被巡檢的電力場景物理設備組成,為個體提供環境狀態信息。個體可以根據狀態做出不同的動作,施加在環境上,并計算出相應的獎賞,反饋給個體,然后進行卸載操作。
S表示有限的狀態空間,在本文中用來表示每個時隙無人機的任務數量大小和時延要求。
A表示有限的工作空間,在本文中被定義為無人機任務的卸載向量。假設之前的動作策略為{0,0,1},表示任務卸載到云端,但隨著個體與環境的交互,狀態發生了改變,則任務有可能卸載到Sub-MECS 或M-MECS 上,即動作策略變為{1,0,0}或{0,1,0}。

隨著迭代的累積,系統可以收斂到最佳狀態,在該狀態下,所有值都不會改變并保持在最小值。在通過應用不同的狀態?動作對來最大化累積獎勵的過程中,使PTOPO 的卸載策略接近最優。
PPO 算法是基于Actor-Critic 結構的強化學習算法,其基本思想是設定策略函數和行為價值函數近似化策略梯度,策略函數可以基于價值函數進行策略評估和優化,優化的策略函數也能使價值函數更加準確地反映狀態的價值,相互影響求得最優解[27]。
PPO 算法的目標函數為

PTOPO 機制流程如算法1 所示。
算法1近端任務卸載策略優化機制
輸入O(0)=0,Z(0)=0,權重系數V和M-MECS 功耗比例系數α
輸出卸載策略Xi
3) PTOPO 復雜度分析
在每個決策周期中,學習階段在每個步驟通過執行PTOPO 得到最優卸載策略。這個過程重復進行,并更新狀態和動作。在學習階段結束時,個體從環境中獲得最大回報,并由此確定了全局最優策略。由分析可知,算法的復雜性取決于PTOPO 的迭代次數,因此,PTOPO 的算法復雜度為O(n2)。
本文在Pytho3.7.6 和TensorFlow1.14.0 環境下對PTOPO 機制進行了仿真實驗。假設巡檢場景為100 km×100 km 的正方形區域,隨機分布具有數據采集和發送功能的UAV,數量為50 個。根據實際應用場景,每個Sub-MECS 可對應3~4 個UAV,且同一時間同一區域只有一個UAV 執行任務。UAV任務的生成速率服從泊松分布,到達率為每秒0~10 個單位任務不等,其中單位任務的數據大小為0.2 MB。任務的數據大小是單位任務的倍數。因此,對于典型的100 MB 以太局域網,單位任務的傳輸時延期望為τ=200 ms。信道帶寬為20 MHz。信道增益分布為平均值g0(1/100)4,其中g0=? 30 dB 是1 m 的路徑損耗常數。假設噪聲功率為σ2=10?10W/Hz 。
為了驗證本文提出的PTOPO卸載機制的性能,將其與基于隨機算法(RA,random algorithm)、模擬退火算法(SAA,simulated annealing algorithm)、Q-learning 算法和A3C 算法的卸載機制進行對比,下面簡要介紹各對比算法的運行機制。
1) RA:在滿足約束條件的情況下,隨機進行任務卸載。
2) SAA[29]:基于Monte-Carlo 迭代求解策略的一種隨機尋優算法。該算法基于固體退火原理,將內能模擬成優化目標函數值,設置初始溫度和初始解,經過多次迭代和降溫,直到滿足終止條件,算法結束。
3) Q-learning[30]:強化學習中一種基于價值的算法。通過將State 與Action 構建成一張Q-table 來存儲Q值,然后根據Q值來選取能夠獲得最大收益的動作。
4) A3C[31]:利用Actor 網絡計算動作策略,并利用Critic 網絡計算策略優劣,采用多線程計算方法,將Actor-Critic 網絡放置在多個線程里分別和環境進行交互;線程間數據共享,并在經過一段時間學習后,根據先前的學習經驗指導后續的學習和交互。
本文將提出的PTOPO 卸載機制與對比算法進行比較,考察的參數包括時延和能耗等性能指標。本文的仿真性能為50 次仿真實驗的平均結果。
圖4 和圖5 展示了實際應用中主要關注的2 個指標:系統時延和系統能耗。其中,RA 和SAA因其平均時延和平均能耗不滿足任務要求,不適用于無人機巡檢系統的實際應用場景。同時,與Q-learning 算法和A3C 算法相比,本文提出的PTOPO 機制具有較低的系統能耗和系統時延,這是由于它不僅優化了云邊端多個層級之間及同層節點間的計算卸載,而且遵循了每個節點的長期能量約束。

圖4 系統時延

圖5 系統能耗
對于不同的巡檢任務需求,Sub-MECS 和UAV的鏈接比例也會不同。圖6 展示了Sub-MECS 和UAV鏈接比例對任務平均時延的影響。從圖6 可以看出,隨著Sub-MECS 連接的UAV 數量增多,整個巡檢系統的業務平均時延將逐漸增加。這是由于當Sub-MECS、M-MECS 和云服務器的計算能力保持不變時,不斷增加的任務工作量會造成任務溢出,進而導致時延增加。本文提出的PTOPO 機制可在一定鏈接比例內保證任務在時延要求內處理完成。其中,變電站巡檢對任務時延要求較高,當Sub-MECS 和UAV的鏈接比例越接近1:1 時,系統時延越低,符合變電站巡檢要求。電塔和導線巡檢任務對時延要求較低,鏈接比例可適當調整至遠離1:1,不但可以滿足其時延要求,還可以擴大巡檢范圍,節約經濟成本。

圖6 Sub-MECS 和UAV 鏈接比例對任務平均時延的影響
如圖7 和圖8 所示,對于場景中不同數量的UAV,其能耗收斂率和時延收斂率會隨著UAV 數量的增多而提高并趨于穩定。這是因為UAV 數量的增多意味著場景中UAV 分布越加均勻,上級Sub-MECS 和M-MECS 所連接的UAV 個數趨于穩定,任務過載現象明顯減少。因此,合適的UAV數量和鏈接比例對提高巡檢任務的運行效率具有重要作用。

圖7 能耗收斂率與UAV 數量的影響關系

圖8 時延收斂率與UAV 數量的影響關系
圖9 展示了巡檢場景的能量和時延成本隨參數V變化的性能。算法通過調整引入的參數V實現了系統時延成本和長期能耗之間的平衡,結果與文獻[32]的理論分析一致。隨著V的增大,算法對時延的限制要求逐漸提高,對能耗的限制要求逐漸降低,更適用于對時延要求較高的變電站巡檢業務等巡檢場景。當V趨近1 時,算法實現了最小的時延成本,但是能耗較大。當減小V的取值時,算法對能耗的限制要求逐漸提高,對時延的限制要求逐漸降低,更適用于對能耗要求較高的電塔巡檢和導線巡檢等巡檢場景。所以,針對不同的電力巡檢場景,可通過找到合適的V值以獲得相對較低的綜合成本。

圖9 不同V 對時延和能耗的影響
在能源互聯網中,利用無人機能夠高效完成大范圍電路巡檢,并減少運維風險。需基于終端變化的行動軌跡和有限的邊緣資源,研究合理的任務卸載方法,在滿足多種巡檢任務需求的條件下,優化系統消耗和服務時延。因此,本文利用邊緣計算和人工智能技術建立了基于雙層邊緣網絡的云邊端網絡架構,并結合PPO 強化學習算法和Lyapunov 優化理論建立了可聯合優化通信和計算資源的任務卸載機制。仿真結果表明,與傳統的RA 和SAA 相比,本文提出的PTOPO 機制在保持相對較低時延的同時,更適用于對能耗要求高的輸電線路巡檢場景;與基于 Q-learning 算法的混合控制機制和基于A3C 算法的異步優勢卸載機制相比,本文提出的PTOPO 機制在節省能量消耗、減少處理時間和保證服務質量方面均具有優勢,其長期平均能耗分別提升了10%和6%。在未來的工作中,將引入流量預測模型和任務遷移機制,設計離線和在線相結合的計算任務卸載方法,進一步提高服務效率。