任 娜,張 楠,崔 妍,張融雪,2,龐新富
(1.沈陽工程學院信息學院,沈陽 110136;2.南京航空航天大學計算機科學與技術學院,南京 610100)
(*通信作者電子郵箱kwp1ys@163.com)
電力巡檢是保證電網安全穩定運行的有效方式,隨著無人機(Unmanned Aerial Vehicle,UAV)自主導航系統及智能技術的迅速發展[1],它在輸電線路災害分析、定位排查設施故障以及電力資源調配等方面發揮了顯著優勢,大幅提高了輸電維護和檢修的效率。航跡的合理控制是影響無人機智能巡檢的重要因素[2],現階段針對電力巡檢的主要研究方法是通過航跡的規劃對定點位置和故障進行監視,較少從信息處理角度考慮高空復雜環境下的巡檢問題,對無人機巡檢的航跡定量分析和優化設計還存在不足,而各類傳感器提供的態勢信息源由于外界不確定信息因素,直接影響無人機對電力巡檢的線路查排和設備缺陷診斷的精準性,容易遺漏小樣本的異常事件檢測,導致財力損失和系統安全隱患,因此如何針對不確定態勢信息進行融合并尋求合理的軌跡控制機制,以解決巡檢過程中迅速發現電力故障問題是目前亟待解決的問題。
對于高空復雜的電力巡檢任務,智能無人機航跡行為的控制很大程度上取決于系統對指令用意和周邊環境的語義理解[3],語義建模[4-5]通過基于自然語言方法構建領域概念結構及關系并進行定義推理,采用標準化規范化的語言格式實現對環境實體和不確定信息的模型構建,進而達到與環境的互通共識。文獻[6]中根據經驗模態分析方法從無人機歷史經驗態勢中提取與當前態勢相似的特征進行自組織聚類,從而解決航跡控制在時空屬性上的動態連續態勢檢測問題;但該方法對于態勢信息的度量缺乏背景知識,回避了對不確定抽象信息實體的語義建模。文獻[7]中采用多層認知框架的知識表示方法,描述無人機個體行為規劃和軌跡控制形成的過程,但無人機傳感器認知的行為不僅取決于系統自身,還依賴于對環境的語義信息感知[8]。文獻[9]中借助層級式空間表達方式將地圖信息和環境實體抽取為概念圖,并用邏輯本體語言存儲相關領域知識推理環境實體,實現機器對環境的語義交互理解;但是考慮到無人機的局部觀測線和輸電線路上的空間布局,巡檢目標區域覆蓋的范圍較難保證。
綜合考慮以上問題,以電力巡檢領域為知識背景,從信息處理角度提出了一種語義實體構建及航跡控制的方法:構建基于語義知識背景的空間實體拓撲網絡,生成關于位置節點的語義航跡序列網絡及其語義接口;根據空間拓撲結構相似性度量的結果集,提出安全許可機制和強化學習的航跡控制策略,實現電力巡檢無人機在統一的概念內涵和位置結構上的軌跡控制。
針對無人機在高空復雜巡檢環境下行為控制的背景約束和信息感知過程中數據的流向特征,將電力巡檢框架分為數據處理層、模型生成層和策略控制層。如圖1 所示,它是整個系統的底層架構。

圖1 無人機電力巡檢框架Fig.1 Framework of UAV electric power inspection
1)數據處理層:主要用于將開源地理信息系統(Geographic Information System,GIS)數據庫PostGIS[10]的數據信息及無人機傳感器獲取的態勢信息、電力實體分布信息等進行概念抽取和語義表征,形成具有圖結構的空間實體拓撲網絡,并賦予了相關語義概念、實例和關系,功能包括實體的時空分布、行為任務更新、實時維護等。
2)模型生成層:主要用于對當前軌跡信息進行語義建模,構建與空間實體拓撲網絡映射的語義接口,用語義表征航跡序列的位置特征,作為學習模型網絡提供當前初始化的語義環境。
無人機通過傳感器獲得的外部信息對當前環境態勢進行數據處理,并抽取為相應的概念層次進行語義表征,而歷史航跡數據和當前航跡數據被劃分為航跡序列網絡,同時通過語義表征和概念抽取得出一個空間實體拓撲網絡。在巡檢過程中,當前巡檢任務環境的語義航跡網絡與空間實體拓撲網絡共同作為知識模型,為無人機提供統一的規范化數據支持。空間拓撲相似性度量觸發無人機匹配歷史航跡和當前航跡結構,并用強化學習的方法指導當前軌跡在正確的控制策略中航行。
高空復雜環境下的任務場景受到無人機監視器的局部觀測范圍和外界環境不確定因素等影響,將巡檢流程定義為在未知空間區域內,從預設巡檢作業點起飛,對位置空間上的實體進行巡檢覆蓋所產生的航跡規劃,以尋求一個最優的航跡作為對電力系統的一次巡檢任務。如圖2 所示,共分為桿塔上的巡檢和線路的巡檢[11]:桿塔上巡檢主要為針對設備缺陷和故障進行的安全檢查,包括絕緣子、變壓器、閘閥、高壓螺栓、電流互感器等;線路上的巡檢主要為針對輸配電高壓線纜的故障巡檢。以上兩者的巡檢均需要觸發On_Entity 網絡中的概念進行判斷和推理,將發現的故障和缺陷通過圖形圖像遠程報告至地面控制服務器內,進而達到巡檢的效果。

圖2 電力巡檢流程Fig.2 Flowchart of electric power inspection
空間實體的拓撲網絡建模是軌跡規劃的基礎,能夠為軌跡控制提供策略指導,描述為無人機系統可理解的標準化統一數據。根據實體桿塔和線纜在空間上的布局,將每個實體進行語義建模,初始化為一個具有語義特征的空拓撲網絡:

其中:V為概念層次節點;E為關系線段;I為實例;At為生成策略的動作狀態輸出模型。如圖3 所示,On_Entity 的概念層次結構分為行為狀態網絡、環境態勢網絡和歷史航跡網絡,各層次概念與實例通過關系線段E連接為圖結構。其中,行為狀態拓撲網描述了當前無人機系統狀態,包括引擎狀態、位置狀態、姿態調整、速度調整等,通過實例關系獲取動力學模型中的平尾偏角、矢量舵偏角及俯仰角、中心角等參數;環境態勢拓撲網為由PostGIS 抽取的地理信息概念、實例和關系,用于為無人機巡檢作位置導航,包括實體數據(如Telepole(桿塔)、TSwitch(刀閘)、transmission(電流互感器)等具體信息)以及從點(實體位置)、線(路網)、面(區域)到復雜環境氣象數據;歷史航跡網絡存儲了由行為狀態網絡和環境態勢網絡形成的策略軌跡,通過語義實例標記的方法進行記錄。所有數據在Protégé[11-12]平臺上構建,由Apache Jena[11]封裝成支持SPARQL(Protocol and RDF Query Language)語言的OWL(Web Ontologoy Language)[12]模型,共600 個實體概念及5 500余個實例,由SWRL(Semantic Web Rule Language)[12]調試形成具有圖結構的語義實體模型。

圖3 空間實體拓撲網絡建模Fig.3 Modeling of spatial entity topology network
On_Entity 是作為軌跡控制的初始策略,各實體在空間中初始化為靜態布局,但在無人機巡檢過程中基于任務的持續性和外界環境的不確定性,需要利用當前的態勢數據進行調整,從而達到航跡控制的效果。
由于On_Entity 中的態勢數據包含了大量的歷史航跡網絡,按照無人機航跡劃分為多個時間和空間序列,形成一個歷史航跡序列的知識庫,而當前新的航跡序列歷史數據在時空結構和序列往往不一致,需要對數據進行歸一化處理。本文利用語義軌跡的方法,將新的軌跡位置和片段加載語義標簽,封裝成一個語義接口,即一條語義航跡[13-14]定義為:

其中:OID表示實體目標的標記,屬性包括位置信息記錄Listof(Pi(ti,xi,yi,zi))和敏感信息記錄Listof(SAttri);Segk為語義標注后的第k個軌跡片段;為第k個軌跡片段開始時間,為終止時間,且滿足;Annok為語義標簽信息。航跡序列使用前一時間點動作-狀態作為輸入,下一時間點的狀態作為輸出,從路徑優化的選擇上形成一個關于位置節點的航跡序列網絡GT。

借助ODIS-E工程師軟件可以無需在線連接大眾售后網絡,即可實現方向機離線參數寫入等操作。也就是說,通過ODIS-E軟件,維修人員不必在線連接即可完成方向機更換和參數設置等操作。
如圖4 所示,航跡序列網絡節點上均加載一個語義接口,當無人機巡檢過程中,航跡根據語義片段進行自適應的飛行,將一個垂直方向上的桿塔進行了空間拓撲劃分并描述了軌跡的位置節點,每個節點標注了一個語義接口,該接口將On_Entity 中的感知特征和初始概率進行編碼化,使無人機通過網絡節點進行航行。如:當檢測區域Polygon 概念類中的區域Area1 與Area2 相連,根據空間實體拓撲關系網,Area1 通過at 關系集連接實體對象Object1 和Object2,Area2 通過at 關系連接實體對象Object3、Object4、Object5 和Object6,這些對象的實例通過Nav_Object 函數擴充概念的屬性,包括特征集Features(f1,f2,…,fn)和關系集Relations(r1,r2,…,rn),這些集合標注了兩個實體之間連接的初始概率,提供了感應設備對環境的語義解釋。

圖4 航跡的語義接口設計Fig.4 Design of semantic interfaces of trajectory
由于語義航跡難以滿足大量輸電線路實體數據處理需求,且存在大量的軌跡轉向、停留、飛行等隱性特征知識,軌跡結構的相似性度量可以解決當前航跡位置節點與On_Entity中歷史數據的空間相關性,挖掘歷史軌跡的隱性知識,以更好地為無人機航跡規劃提供精準決策。無人機的航跡控制實質上根據On_Entity 中的有向無環圖對拓撲結構的頂點進行路徑選擇[15],并在每個位置節點上加載語義標簽,以圖匹配為切入點,度量當前航跡位置節點和On_Entity 概念、實例、關系的相似性。拓撲結構匹配是為了最大化尋求兩個航跡之間的所有最大公共結構,設有當前航跡序列網絡為GT,空間實體拓撲網絡On_Entity 為GO,節點數目為|GT|和|GO|。1)判斷兩個圖是否為圖同構、子圖同構、部分同構,計算GT和GO之間結構匹配的最大節點數目n1以及對應的匹配點對集合S1;2)由于GT和GO存在不對稱性,交換兩者的角色重復步驟1)計算得出匹配的最大節點數目n2以及匹配點對集合S2;3)當結果為圖同構時,GT和GO兩者完全相同;當結果為子圖同構時,GT為GO的部分結構,最大匹配節點數m為|GT|;4)當部分同構時,則最大匹配節點數為m=Max(n1,n2),匹配點對集合為M=Max(GT,GO)。GT和GO的相似度計算如式(4)所示:

其中:stri為第i個匹配的結構;m為匹配節點數;vi為第i個結構匹配的內節點數量;sum(stri)為第i個結構匹配的歐氏距離,計算如式(5)所示:

經空間拓撲結構相似度量后,獲取了與當前軌跡序列網絡相似的結果集R,而在巡檢安全性方面為生成最優控制策略須考慮安全約束條件,篩選R中導致智能體違背安全條件的巡檢軌跡序列,避免產生障礙碰撞和電磁干擾等問題,為此提出一種安全巡檢的許可機制。利用語義可達性描述安全巡檢機制,設RT的許可策略為安全許可,則應滿足語義安全可達性描述為,即對于所有RT中位置節點P∈π的一個策略π從初始位置P0出發到達不安全狀態集合FU∈GO的概率小于閾值PU,則認為該策略π為安全策略;而當大于閾值PU時,則表征在許可策略下從任意位置P到達不安全狀態集合FU的最大概率。
從初始位置P0節點出發,任何一個策略未被安全性約束的最大概率不會超過閾值PU,對于每個位置節點,許可策略至少會選擇一個行為策略輸出矩陣At,并設置不可達安全狀態的概率值為1。
為實現巡檢的目標動態實時監測,不斷調整航跡控制狀態和語義信息,提出了基于強化學習[16]的航跡控制方法,分別設定航跡網絡集合R為模型學習網絡GR,空間實體拓撲網絡On_Entity為策略指導網絡GO,GR為當前的航跡策略提供語義航跡特征,并從實際執行的數據中學習,提高模型的精準性;GO為GR的航跡預測控制提供經驗策略和歷史軌跡,從實際執行態勢數據中學習并優化策略知識。
為了最大化滿足GR巡檢策略,定義結果集GR上狀態的期望累積回報量值,計算公式如下所示:

其中:Ri=[Ri(P0),Ri(P1),…,Ri(Pn)]為每個位置上的語義向量;為策略π下的行為狀態轉移概率。而對于每個安全許可機制下可控狀態,得到折扣期望累積回報最大化策略集,從任意位置節點pi出發最大化滿足學習模型網絡R的策略。

如果不存在以概率1 滿足φU的策略,則從所有最優策略集合π*中選擇從給定初始狀態出發得到滿意概率最大的策略進行學習。對于模型學習網絡的每一個狀態,根據與之間的GO交叉嫡定義一個策略回歸目標函數:

由此,更新航跡最優策略和策略指導網絡算法步驟如下:

結合項目研究內容,采用真實的電力系統數據背景進行仿真。將全局環境區域限定為W×L=100 km×100 km,應用1臺四旋翼無人機飛行速度為5 m/s,最大的偏角度為60°,最小有效觀測距離為2 m,仿真實驗采用Gazebo 軟件平臺進行,采樣周期為1 s,將OWL 文件通過Jena 導入至平臺中。與真實場景相比其區別在于該實驗可以對場景進行隨機布置,實驗中由于網絡中傳感數據的不確定問題,應對超出預測范圍的特征干擾,即空間實體拓撲網絡中沒有出現的實例,直接采用隨機方式會嚴重影響控制效果。為此,采用拉普拉斯平滑方法對檢測到的當前事件數據進行預處理。另外,為提高仿真實驗的實用性和合理性,消除數據檢測隨機誤差的影響,對數據重復實驗10次后取平均值作為最終結果。
無人機在電力巡檢中由策略指導網絡GO生成多條歷史軌跡數據,并在各位置節點上標注了語義接口信息,由圖5(a)可知,形成了在垂直平面上的歷史網絡軌跡圖。由圖5(b)可知,運行本文方法后,無人機從初始狀態出發,根據生成的策略確定在當前狀態位置需要采取的行動。然后根據策略指導網絡GO執行下一個位置狀態的轉移,重復以上過程達到終止狀態,最終生成一個魯棒滿意[17]策略π*。

圖5 軌跡形成策略Fig.5 Trajectory generation strategy
為描述期望性能等級和魯棒性之間的權衡關系,設置不同期望性能等級rc對生成魯棒滿足策略π*的影響。定義策略π*的魯棒函數以確保給定策略能夠滿足期望性能等級rc,用于評價策略π*的影響。

其中:U(α,U′)為信息差不確定模型;R(π,u)為面向策略π*和不確定參數u的性能評價函數。由圖6 可知,對于rc從0~100,π*的魯棒性隨著rc的增加而降低,說明本文方法可以在不確定性信息中使無人機從偏離的軌跡控制中回歸,符合魯棒性滿意度原則。這是由于一方面,利用構建了語義實體的概念,建立On_Entity 網絡模型,為航跡控制提供了語義接口服務;另一方面,利用強化學習方法最大化滿足模型學習網絡的巡檢策略,并在每個位置狀態上生成一個期望累積回報向量,對策略指導網絡GO的結構進行學習;使用GO輸出策略為一個穩定的監督訓練信號,并調整偏離的航跡線路,將學習到的知識更新到策略指導網絡GO中。

圖6 策略魯棒性曲線Fig.6 Curve of strategy robustness
為進一步說明本文方法在航跡控制的有效性,與現有的其他方法:啟發式方法[18]、粒子群優化方法[19]和遺傳算法[20]進行性能比較。性能比較平臺利用Matlab對相關數據進行統計和編程,形成關于各方法的導入壓縮包,從目標網絡適應度和巡檢實體覆蓋率兩種指標衡量不同方法下的航跡控制效果[21]。其中,目標網絡適應函數描述了在軌跡控制過程中無人機對區域目標信息的不確定程度,表示為無人機對感知信息熵的代數平均值;巡檢實體覆蓋率描述了無人機在一定巡檢時間內對空間實體覆蓋數量與整個區域內實體數量的之比。如圖7 所示,不同方法下無人機軌跡控制的目標網絡適應度和巡檢實體覆蓋率隨迭代次數和時間變化的結果。

圖7 各航跡控制方法性能比較Fig.7 Performance comparison of different trajectory control methods
由圖7(a)可知:本文方法在每代最優值會出現微小的波動,有利于算法跳出局部最優解區域,并在第25 次迭代時收斂趨于穩定適應值1.2 附近,這種現象主要受益于強化學習的策略π*生成方法,使無人機根據當前航跡網絡在策略回歸目標函數的指導下向指導網絡學習優化,同時空間拓撲結構相似度度量提高了對目標實體感知的適應值,保證了算法收斂穩定;而啟發式方法在第30 代時逐步收斂穩定,但收斂較慢且適應值較高;粒子群優化方法的適應值與本文方法相近,可以實現全局的控制,但隨著迭代次數的增加陷入了不穩定狀態;遺傳算法同樣接近本文方法的適應值,但振幅較大,難以滿足期望控制狀態。
由圖7(b)可知,隨著時間的變化,各種方法的覆蓋率逐步升高,在最終結果中啟發式方法的覆蓋率為83.5%,粒子優化方法的覆蓋率為87.2%,遺傳算法的覆蓋率為88.4%,本文方法的覆蓋率為95.6%。本文方法在巡檢實體覆蓋效率高于其他方法且有上升的趨勢,這是由于本文方法在初始階段對巡檢區域內每個實體進行了語義建模,體現了空間拓撲網絡對航跡行為控制的優勢,從而提高了覆蓋效率。
無人機航跡控制很大程度上取決于感知設備對周邊環境概念的理解,而實現這一點的基礎是構建有效的實體網絡,生成統一的概念內涵并對位置結構進行合理的度量。本文在探索研究電力巡檢領域過程中,對電力系統的實體知識進行領域建模,構建關于時空屬性的內涵概念,生成關于位置節點的語義航跡序列網絡及其語義接口,根據空間拓撲結構相似性度量的結果集,分析安全許可機制,在強化學習基礎上學習策略指導網絡的航跡控制,生成統一的概念內涵和最優航跡控制策略,能夠滿足最大化魯棒性能。實驗結果從目標網絡適應度和巡檢實體覆蓋率兩方面驗證了本文方法的有效性。然而,對于數據規模較大的問題,本文方法不能保證每次迭代都可以達到最優策略解,容易陷入局部最優的情況,這是由于現有實驗涉及電力巡檢的訓練數據在同一個區域內完成,采集的數據量較少且情況單一,網絡的模型過于復雜容易過擬合。下一步將考慮用多無人機集群的方法解決對電力巡檢環境的感知問題,并在立體空間上進行探索應用,以提供更高效的語義巡檢服務。