趙彥陽,惠小東,金鑫
(南方電網數字電網研究院有限公司,廣東廣州 510670)
分析輸變電設備狀態對于確保電網正常運行有重要意義,研究內容包括電氣信息、絕緣信息、機械信息和化學信息。目前,相關學者對于輸變電設備現場狀態監測進行了大量研究,并且根據研究特性將監測分為絕緣在線監測、GIS 局放在線監測、變壓器油色譜在線監測[1]。上述監測方法主要是針對電網的局部特征進行監測,利用能量管理分析電網所運行的各種信息,在確定電網各項設備的技術參數后,得到檢修測試報告,從而為狀態監測提供支持[2]。
雖然目前研究了大量輸變電設備現場狀態監測數據搜索引擎,但是由于搜索的信息種類復雜,選擇的信息模型基準不同,所以在匹配時會存在很大差異,難以輕松地確定匹配對象,而且當前的搜索引擎都為在線引擎,必須要利用輸變電設備內部的系統來分析軟件才能實現開發接口互相關聯。由于得到的在線監測數據十分零散,難以共享到其他系統,所以很難實現整體管理。從輸電網數據配置劃分上可知,傳統的搜索引擎在數據標準性分析和開放性方面仍然存在很多問題[3]。
文中對現有的輸變電設備現場狀態監測數據搜索引擎進行優化研究,分析輸電網的整合變壓器、覆冰狀態、雷電狀態和電能質量信息,使用驅動開發方法對信息進行匯集、轉換和發布,建立擴展模型,從而實現現行標準化,增強搜索引擎的擴展性和開放性。
目前的輸變電狀態數據監測系統使用的架構網絡多為串行網絡,結構比較復雜,一旦通信鏈路的任何一個環節出現問題,就會導致整個監控網絡出現故障,降低數據傳輸的可靠性。由于傳輸難度不同,所以部分監測數據均需要多次轉發,通過多次轉發上傳到網絡主站,影響傳輸的實時性[4]。監測裝置與主站之間存在多個通信協議,各種私有協議不斷出現,使主站端的接口越來越復雜,廠家與廠家之間的監測數據形成孤島,無法快速搜索到相關數據[5]。
為了解決當前搜索引擎架構復雜、實時性差、可靠性低、通信規約不統一等問題,在傳統搜索引擎的基礎上進行優化,構建扁平化搜索引擎架構,如圖1所示。

圖1 輸變電設備現場狀態監測數據搜索引擎優化架構圖
文中設計的搜索引擎架構在層次上進行了優化,使用IEC 61850 標準接口對不同層次的數據進行通信。文中設計的搜索引擎使用的通信模式為“一發雙收”的模式,得到的通信信息能夠同時向省級主站和網級主站發送,每個網絡端的綜合處理單元都可以直接與主站通信,網絡主站數據的傳輸節點被大大縮小,節點與節點之間可以直接進行數據通訊,省略了節點之間的數據轉換,扁平化的搜索引擎實現了在線搜索[6]。
在該搜索引擎模型中,使用了IEC 61850 協議,變電站的各監測裝置數據通過該協議匯集到處理單元中,省級主站和網級主站可以同時發送監測信息,用戶通過該搜索引擎可以實現查詢、查看、下載等工作[7]。
搜索引擎在使用扁平架構后,搜索數據時傳輸等級就得到了有效降低,搜索實時性得到顯著提高,數據的所有上傳通道都互相成為對方的備用通道,數據傳輸過程中如果一個通道出現問題,其他通道也可以使用,保證了數據傳輸的可靠性。搜索引擎內部的綜合處理單元將所有的監測數據匯集到一起,網級主站和省級主站的描述具備一致性,數據融合效果好,分析能力高[8]。
在對輸變電設備現場狀態監測數據進行關聯數據搜索時,執行的查詢方式為MapReduce,通過分析數據與數據之間的相關性來執行Hadoop 布局方案。設定映射階段,將得到的數據在所有節點上重新分組、排序,利用遠程訪問的方式拉取數據[9]。為防止大量與操作無關的數據在網絡傳輸中被復制,甚至被上傳,將所有的數據根據數據屬性放在同一個節點上,利用映射實現連接,減少不必要的數據通訊,提高整體的執行效率[10-11]。
基于一致哈希方法的數據搜索引擎分布優化過程如圖2 所示。

圖2 基于一致哈希方法的數據搜索引擎分布優化過程
根據圖2 可知,數據在第一個副本中會確定采集裝置的ID,根據得到的采集裝置ID 實現哈希映射;在第二個副本中可以得到采集時間,根據確定的采集時間實現哈希映射;在第三個副本中可以得到數據之間的自定義關系,根據自定義關系實現哈希映射[12-13]。根據上述3 個副本的映射結構來進行綜合分析,從而滿足不同搜索要求和數據查詢要求[14]。監測數據使用的相關系數是研究的重要屬性,為更好地確保自定義相關性,要根據上層應用程序對需求進行賦值。
文中提出的優化算法為多副本一致性哈希數據存儲算法,該算法利用數據相關性將所有的數據集中存儲到一起。在對數據進行分析和查詢時,所有主要的搜索查詢工作都會被放在映射端,由映射端統一執行,從而降低由映射到通信過程的網絡負載量,確保引擎可以在短時間內實現查詢和分析[15]。
不同類型的輸變電設備現場監測數據所擁有的數據類型和數據格式不同,但是所有的監測數據都具備時空特性,每一個傳感器的采樣數據都會對應一個與之匹配的采樣時間和地點,利用上述的關鍵字實現采集。優化后的Hadoop 會將數據儲存成3 個副本,從輸變電設備現場使用的監測裝置放置位置、數據采集花費的時間和自定義的相關性來判斷優化效果。
使用優化算法時需要建立哈希環,所建立的哈希環如圖3 所示。

圖3 哈希環配置
具體流程描述如下:
1)確定監測數據之間的相關系數,使用冗余副本對監測數據進行預定義,設定冗余副本數量為3;
2)分析每個集群中的哈希值,得到的哈希點配置到哈希環不同的區間中;
3)對監測數據的時空屬性和相關系數進行計算,從而得到確切的哈希值,分析副本1 的數據來源,確定監測ID,計算得到哈希值1,以映射的方法復制在哈希環上;分析副本2 的時間屬性,計算得到哈希值2,將時間戳映射在哈希環上;分析副本3 的相關系數,得到對應的哈希值3[17],映射方式為依次映射;
4)通過所得到的數據哈希值和數據節點哈希值確定數據所存儲的位置,以順時針的方式實現映射;
5)如果數據存放的節點出現異常現象,要將這一節點跳過,存到下一節點。
數據的讀取內容主要為名字節點,分析數據節點和客戶端之間的距離,從而確保從最近的節點讀取到數據內容,提高讀取時間。在搜索引擎網絡節點中,Hadoop 以樹狀結構分布,每棵子樹的根節點都與計算機的交換節點連接到一起,設定節點之間的距離為一個節點到另一個節點所經歷的跳數[18]。Hadoop 集群示例如圖4 所示。

圖4 Hadoop集群示例
分析圖4 可知,Hadoop 所有的默認配置節點都會被統一到一個框架中,在分析出實際集群的配置效果后,以拓撲的方式將節點網絡傳遞給Hadoop,確保數據以合理的方式讀取和寫入。
為了驗證文中研究的輸變電設備現場狀態監測數據搜索引擎的工作效果,與傳統的搜索引擎進行實驗對比,通過多數據源連接并行查詢實驗驗證文中設定的搜索引擎的優越性。
使用的搜索方式為3 種:第一種為全連接搜索,在搜索時不設定查詢條件,分析設備ID,查詢所有輸變電設備的綜合信息,確定設備的查詢條件;第二種為半連接搜索方式,查詢設備ID 從而確定不同范圍的監測綜合信息;第三種為時間搜索。針對這3 種搜索方式進行實驗對比,分析搜索時間,得到的實驗結果如圖5、6 所示。

圖5 運行時間對比實驗圖
相比較于傳統的搜索引擎,文中研究的搜索引擎傳輸速率更快,傳統搜索引擎的數據傳輸平均速率為19.8 M/s,文中搜索引擎的數據傳輸平均速率為21.2 M/s。該搜索引擎采用的分布方式為優化分布,傳統的搜索引擎采用的分布方式為隨機分布。
根據圖6 可知,隨著規模數據的增長,運行時間也在增長,數據處理的速度都有所提升,文中研究的搜索引擎在處理過程中基本不會受到網絡通信帶寬的影響,算法性能基本穩定。

圖6 運行時間對比圖
文中研究的搜索引擎可以分析輸變電設備現場監測的主屬性、時間戳和相關系數,分析數據使數據能夠在集群中聚集,從而提高搜索引擎的實時性。文中搜索引擎對傳統算法進行改變,使用的編程方法為MapReduce 并行編程,同時使用多通道數據融合,提高數據搜索的執行速度。
文中以開放性標準研究了一種新的輸變電設備現場狀態監測引擎,在架構和存儲方式上進行了優化,利用扁平架構對設備進行優化。使用Hadoop 分布數據,數據分布標準為IEC 61850 標準,實現數據共享,降低監測裝置的監測難度,使引擎內部的所有數據都能夠轉發。
文中研究的引擎裝置驗證實驗由于受到實驗數據和實驗規模的限制,所以采集的數據集僅為GB 規模,雖然能夠反映出算法的運行時間變化趨勢,但是數據量還是相對較小,下一步應該向著TB 數據規模展開分析與研究。