秦浩 趙永生 江和順 梅戰旗 魏希文 吳少雄



關鍵詞:NLP技術;智能分析;用電網絡;高維度電力數據分析;電網停電數據
在互聯網技術蓬勃發展的環境下,電力設備能否正常運行給智能電網、電力用戶、工作等造成重要影響,給電力企業用戶造成無法衡量的損失。伴隨著電網信息技術的發展,產生了大量的電網信息數,尤其是造成停電原因的數據,如果電網用戶能夠恰當地尋找停電數據信息,將在一定程度上挽回企業損失。停電的因素有很多,諸如無法抗拒的自然界外力因素,電力設備故障因素,在電網技術中電力需求側的供需失衡遭到破壞、人為蓄意地破壞、管理不足等方面。在較大的電網系統中,提供配電網的可靠性和穩定性就需要一種分析智能電網停電的方法。
傳統技術中的分析方法通過檢測設備來衡量,這種方法檢測效果差,技能落后,已經很難滿足現有電力、電網技術發展的需要。這就急需一種快速分析方法來克服上述技術的不足。本文引用一種中文搜索的方法引擎,能夠快速、便捷地提高停電原因分析,優化提取配置配電網電力參數項目的智能化方式。針對停電原因信息的特點,采用基于神經網絡訓練(NLP)的智能電網信息提取模型,并在該模型的基礎上,采用關聯度匹配的檢測方法實現配電網項目關鍵指標的大數據的重新勾畫,然后采用大數據關聯算法規則挖掘的方法對電力配電網中的關鍵指標數據進行有用信息的提取,然后再結合NLP深度學習算法對配電網項目關鍵指標特征進行自適應學習和誤差補償。
1整體架構設計
基于互聯網技術集成NLP技術,融人大數據降維技術PCA和聚類分析技術,在系統中設定Python等高級語言,進而構設出整體構架框圖,其架構設計圖如圖1所示。在圖1中,架構圖包括電力設備層、數據存儲層、數據分析層和數據應用層。在電力設備層中,布局有多種電力設備傳感器,通過各種傳感器設備實現對電網與用電設備的電流、電壓、功率、頻率等相關數據的采集,采集到的數據通過路由器進行數據上傳。在數據存儲層中,根據數據的不同種類,按照用電數據信息、停電數據信息、故障數據信息等各種標準進行分類存儲。在數據分析層中,通過NLP技術對存儲信息進行分析,其中分析方法包括大數據降維處理分析法、聚類分析法,和數據的預處理。進過數據分析后,復雜而龐大的數據,將會變得非常直觀,呈現與數據應用層面再次存儲與各種數據庫。用戶使用時可直接從相應的數據庫進行數據調用。
在上述系統分析層中,考慮到用戶的多樣性,在設計軟件時,軟件通常以模塊化的方式設計,因此可以在界面以及功能上進行自由組合。同時,它可以通過用戶需求的變化在一定程度上快速修改,而不需要調整軟件的核心部分。通信網絡層的作用是為系統軟件層以及智能設備層之間的信息傳輸提供技術支持以及平臺。然而,在其開發過程中,通信網絡層也增加了許多功能。除了提供基本的有線數據傳輸之外,它現在可以實現無線連接,并已在許多方面得到廣泛應用。例如:物聯網技術、現場總線、無線傳輸、工業以太網、無線通訊、光纖技術等。用戶可以根據現場工作條件、數據處理容量情況等以各種可以組合的方式進行組合。停電分析系統經過不斷發展,不僅僅具有實時數據采集、遠程控制、故障分析、程序管理等先進功能。對于低壓電氣系統,由于可以直接連接到控制終端,所以需要應用的設備更多,而且配電以及布局復雜,因此操作將變得非常頻繁。在停電分析系統中,它具有面向對象的工作模式以及很強的抗干擾能力。它使用智能組件層的智能組件來完成控制工作。它是一個網絡集成控制系統,能夠實現快速、高可靠性的運行狀態。在停電分析系統中,低壓智能設備在功能上可分為幾種類型,包括:測量參數模塊、電能質量測量、開關保護以及控制等。由于總線技術的使用,智能設備可以獨立工作而不依賴于計算機網絡。該模式大大提高了系統工作效率,滿足了停電分析系統運行管理的要求。
2NLP技術分析方法
在對現代電力電網停電數據進行智能化分析時,存在著多種對電力電網干擾的外界環境因素,諸如多種不同的網絡數據參數、信息報警數據、電網干擾電波、空氣濕度或者溫度范圍比較大的數據,自然環境災害對電網環境的自然影響因素和人為影響因素、諧波電壓、電流等的不穩定性因素、電壓的不穩定性、電網信息異常跳動狀態頻率等。當在電網波形中出現嚴重變形的信號時,這些各種干擾因素都能夠會造成停電。這些因素的整理也不是一件容易的事情,往往會摻雜各種外界的干擾因素,因此,剛開始時,就需要對各種不同的停電影響要素進行分析、參考,對數據進行預處理,過濾掉沒用的數據信息,獲取較為純潔的數據信息。數據預處理包括的方法有數據清理、數據集成數據變換、數據歸約等。
在經過數據清洗之后,在清洗后的數據中,通過NLP技術引出“定義指令”。
在采用指令時,借助于Python語言,使用戶得出能夠與備注的數據庫相匹配的指令。在該指令庫中,能夠向檢索數據庫一樣被檢索到。進而使用戶能夠直接看到各條不同指令表達的含義,然后用戶能夠通過圖文的多種表達方式確保用戶指令下達的正確性,通過語言編寫的方式編制這種方式,能夠使它被已知的現有系統認可、接受。在工作之初,編寫完畢的對應“定義指令”與“指令詞庫”相對應。因此,僅僅需要將這種技術特征的指令編譯輸入“指令詞庫”即可。在應用中,可以根據數據錯誤的情況修改對應的參數。
通過構建上述NLP分析模型,然后采用大數據降維技術PCA( PrincipaIComponentAnalysis)即主成分對數據進行分析,該方法是用于探索高維數據結構的技術。PCA常用于現代大數據高維降維處理,使不可見的高維數據變成可視化的低維數據圖像。PCA在數據分析中最重要的一點就是將具有關聯特性的數據合成線性無關的低維數據,這在PCA降維技術中稱之為主成分。雖然高維數據經過了降維處理,但是通過PCA轉換的低維數據仍具備原有數據所需的變量特征。而特征性稀疏,特征維度高又是現在自然語言的本身特性。而高特征維數又會使在建立模型時出現高維特征性問題。使最后運算出來的數據失真,變得毫無價值。又極易出現連鎖高維特征運算崩潰,加大計算難度與準確度。稀疏的特征又會占用計算機大量資源,是計算機一直重復計算不必要的特征。由此可見,在進行大量數據分析并包含自然語言時,降維使我們應該首先考慮的事情。通過分析本次技術包含自然語言,本文設計中通過使用PVA技術使停電分析原因變得顯而易見。
在對大數據分析時,在經歷了大數據降維之后,可以再采用聚類方法對處理后的數據進行二次處理。常見的聚類算法有很多種,比如聚類分析算法、決策樹分類方法、與關聯聚類方法以及與網格有關的聚類方法等。在諸多的算法類型中,進行合適的聚類分類對于用戶處理數據具有重要的作用。由于分析樣本數量巨大,重復率高而且樣本特征混雜,采用劃分聚類法將會使計算分析變得十分簡單。在本文應用中,采用K-means算法對降維后的數據進行分析、聚類。在應用時,假設要將N個停電數據類型劃分為K類,則可以隨機地選擇K個不同的對象,在所選擇的K個不同的對象中定義表示個類的停電設備數據中心,然后將距離最小的停電故障數據分配到用戶規定的不同屬性的數據類型中。在首次的停電數據信息分配到用戶設定的屬性中后,然后求出剩余屬性的停電數據信息對象的個體屬性均值,再將該均值作為數據劃分屬性的新中心,然后再次重新分配,直到達到用戶的滿意值為止。這種方法能夠根據用戶設定的各種屬性類型來實現不同電網設備停電的數據的不同分類。
3仿真實驗與分析
在模擬仿真時,在國網安徽省電力有限公司內部提供的硬件資源和平臺進行仿真和模擬。仿真系統采用的語言為VisuaIC,采用的服務器操作系統為WindowsServer2015,數據庫管理系統軟件為SQLServer2015,Web服務器軟件為IIS6.O。采用的仿真試驗根據IEC61850標準建立電能質量監測模型,實驗時通過MMS協議將電能質量監測數據實時傳遞到主站,并對數據進行計算、存儲。通過客戶端內的Silverlight程序進行WCF服務,進而獲取實時監測的電力網路數據,在OneNet平臺中進行一體化處理、顯示。試驗結構原理圖如圖3所示。
實驗時在電力網絡中的不同位置分別設置5臺電力網絡質量檢測模塊。隨機從采集檢測數據,分別在50V、100V、120V、150V.200V和220V時電力網絡線路附近監測線路上的停電信息情況。在此,僅僅對電壓和電流的誤差數據作為評估,測試數據樣本如表2所示。
通過上述分析,當K=2時,能夠將停電信息劃分為2類(通過NIP語意的方式分別表示對應表中的1和2),因此可以看出屬于那種故障類型。當K=3時,停電原因可以表示為繼電器開關壞,轉向泵漏油等其他類別中的3種(分別對應表中=3時的2、5等),由此可見,同種類型的停電信息之間的語義較為接近。當K值增加時,對于停電類型的劃分將逐步地細化,當類別數增加時,聚類中心個數也在增加,在停電信息中,停電信息由于存在各種不同的情況,將剛開始聚類分析時被聚為一類的電網設備停電信息重新構成新的屬性,使得停電信息類型的屬性劃分更加細化。
通過圖4可以看出,在相同時間內,采用相同的常規設備儀器檢定停電原因分析與采用NIP技術進行比較。采用常規方法的數據正確率低于80%,采用NLP技術時,數據的完整性高于90%,近乎100%。因此,比起常規方法的數據正確率,采用NLP技術的數據正確率略高。
4結論
通過采用NLP技術對電力電網中設備的各種智能停電原因進行智能分析。區別于常規技術,采用人工編制停用詞表、機械分詞法進行數據預處理,這種方式能夠直接地描述智能電網停電原因信息。采用NLP技術設定的故障信息語句精短,語義容易理解。有利用用戶在處理復雜信息時建立合理的向量空間模型,在應用過程中,通過采用自然語言處理的智能搜索引擎,便于用戶更大程度地對電網智能數據進行分析。為后續實現智能電網分析技術提供重要技術支撐。