陳章國,周 波,喬治中,胡 超
(南京南瑞信息通信科技有限公司,江蘇 南京 210003)
城市基礎設施中的核心部分之一即為電力系統,電力生產與工作的過程主要分成發電、輸電、變電、配電以及用電,其中,配電環節直接影響用戶對配電服務的滿意度。配電是通過一次設備所建立的配電網,與二次設備聯合應用后建立為配電系統,配電系統根據固定的規則運行,可以為用戶提供其所需的電力服務。
為實現配電網自動化管理,需要引入配電網信息智能分析技術,如文獻[5]方法和文獻[6]方法做出的貢獻,但是因電力領域數據量近幾年出現爆發式增長,導致配電網信息智能分析效率較低,實時性受限。
為此,提出基于機器學習的配電網監控信息智能分析規則庫構建方法,主要使用此方法建立配電網監控信息智能分析規則庫,并引入故障檢測識別、故障信息關聯規則更新方法,保證配電網監控信息智能分析規則庫的使用效果,使其可滿足配電網監控的信息分析需求。
為了保證各類設備(變壓器、電抗器、電容器、組合電器、斷路器)操作、電網操作規則及相互間的關系的完整性,使規則庫中的信息具有整體性,基于機器學習的配電網監控信息智能分析規則庫結構圖如圖1所示。

圖1 基于機器學習的配電網監控信息智能分析規則庫結構圖
如圖1所示,配電網監控信息智能分析規則頭與規則選項2種邏輯部分統稱為規則,規則頭可描述規則行為信息,規則選項可描述警告信息、故障數據包所在方位。
首先,全部規則根據規則頭排序,并設成主鏈,按照配電網監控信息智能分析規則選項,將規則導進鏈表里,生成規則集,此操作下,各個監控信息數據包都存在一個分析規則。
其次,基于機器學習的配電網監控信息智能分析規則庫運行時,使用Libpcap接口在配電網網絡里提取一個監控信息數據包,建立數據包解析函數,按照數據包種類與所在位置,實現監控信息數據包的協議解析,解析后數據存儲于Packet結構里。
最后,在配電網監控信息數據包解析后,使用基于機器學習的配電網故障數據分類方法,識別Packet結構中配電網監控信息中的故障數據,并按照所識別的故障數據分析規則(下文稱為頻繁項集),使用基于 MapReduce 的并行關聯規則增量更新算法,更新配電網監控信息智能分析規則庫中的信息智能分析規則。
之后,可把配電網監控信息中的其他數據包和配電網監控信息智能分析規則庫里二維鏈表進行對比,若檢測到具有匹配性的規則條目,便可按照對應的模式實現警示,停止此數據包的處理,以此模式循環,實現配電網監控信息智能分析。
圖2是基于機器學習的配電網監控信息智能分析規則庫運行流程示意圖。
為了保證相關運行規程符合操作的規則,即《中華人民共和國電力法》《電力監管條例》和《電網調度管理條例》等,使用層次聚類方法分析配電網監控信息中的故障數據的極端隨機數,保證其符合實際情況,使用了配電網監控信息中故障數據的故障出現概率與聚類頻次分布,以此描述故障元素在配電網監控信息中出現差異頻次的概率,此概率設成sup(),那么配電網監控信息中故障數據故障層次聚類的模糊迭代不等式能夠變換為:

(1)
式中,配電網監控信息中故障數據的類間聚類分析元素在規則庫中出現的次數最大值是num();代表第個故障數據。
使用大數據分類全局檢索方法實現故障數據分類的動態規劃,以此運算sup()。則:


(2)


(-|()|)}}
(3)


圖2 基于機器學習的配電網監控信息智能分析規則庫運行流程示意圖
將配電網監控信息的所有數據樣本實施抽樣訓練,獲取故障數據的關聯特征量,通過一個四元素結構代表故障數據的關聯特征:
(,,(sup1(),…,sup()),
(1,…,))
(4)
式中,故障數據在1時間段抵達窗口的第次出現的第個數據元素是;輸出優化訓練的最佳概率是;數據聚類中心擾動概率分布值是(sup1(),…,sup());目前窗口元素存在故障數據的頻繁項是(1,,)。通過機器學習算法,對故障數據實施分類,則機器學習迭代方法是:

(5)

綜上所述,基于機器學習的配電網故障數據聚類方法的具體步驟是:
輸入:配電網監控信息數據流、故障數據關聯樣本閾值、統計分布概率閾值、采樣窗口長度。輸出:
(1)初始化機器學習參數與故障數據分類系數;
(2)任意選擇一個配電網監控信息數據點,建立故障數據分類的全部聚簇中心點;
(3)通過聚簇交叉運算它的概率;
(4)通過機器學習算法提取故障數據特征;
(5)更新目前窗口中故障數據樣本,運算故障種類的概率分布值;
(6)運算配電網監控信息中大于頻次閾值的故障數據樣本集,使用累積概率分布方法獲取統計特征量;
(7)將故障樣本集實施回歸分析,把故障數據導進窗口集合中;
(8)檢索過期樣本元素并去除;
(9)將所有配電網監控信息樣本實施抽樣訓練,刷新窗口概率分布值;
(10)提取配電網監控信息中故障數據識別的頻繁項集,實現故障數據分類。
1.3.1 原始規則庫中并行頻繁項集挖掘
保證針對可能發生的故障,為迅速、有序地開展應急行動而預先制定的行動方案,本文主要使用MapReduce模型以并行挖掘的模式獲取監控信息節點中數據分片的頻繁項集后保存,當配電網監控信息逐漸更新時,使用MapReduce模型再次更新頻繁項集(信息智能分析規則)。
MapReduce模型將 MapReduce分解為 Map (映射)任務和 Reduce (歸約)任務, MapReduce將任務傳遞到配電系統中各個監控信息節點,各個監控信息節點的處理過程會引入2個函數map、reduce。MapReduce模型先按照監控信息節點中數據分片的數目,建立多個Map任務并行處理,各個Map任務把輸入的數據分片為多個鍵值對,map函數會將數據分片都逐次處理成,將鍵值相同的數據分片放在一起設成中心結果變成Reduce的輸入;Reduce任務獲取存在一致性的鍵值,使用reduce函數對映射頻繁項集和原項集進行歸約處理后輸出。
將配電網監控信息智能分析規則庫里全部項的頻繁項集集合設成={,,…,},把配電網監控信息智能分析規則庫傳輸至Hadoop分布式文件系統中,配電網監控信息智能分析規則庫或新增故障信息數據庫(此數據庫中故障信息主要來自2.2小節所識別的故障信息)都會保存在個節點中,此時={,,…,},={,,…,}。、都存在于一個數據分片中。
輸入:原始配電網監控信息智能分析規則庫。
輸出:原始配電網監控信息智能分析規則庫的頻繁項集。
(1)使用MapReduce模型計算原始配電網監控信息智能分析規則庫全部頻繁項的支持計數,獲取的1-項集;
(2)建立分組,使用把各項與支持度進行對比,獲取1-頻繁項集。然后將里的項分成個組,各組設置一個編碼id,把全部項標記成相應的分組號;
(3)并行挖掘頻繁項集,此過程需要使用MapReduce模型實現,主要獲取每個數據分組的頻繁項集。
1.3.2 增量更新
輸入:新增故障信息數據庫、原始配電網監控信息智能分析規則庫、原始配電網監控信息智能分析規則庫的1-項集。
輸出:更新后規則庫的頻繁項集。
(1)使用MapReduce模型中的map函數計算各個監控信息頻繁項集在更新后規則庫中的支持計數,挖掘頻繁項集。頻繁項集各個項目在∪里的支持計數滿足以下條件:
support()≤()
(6)
其中,為小支持度閾值。

()=map(,)
(7)
由此建立挖掘監控信息頻繁項集的map函數
函數:map(),通過和編碼id尋找頻繁項集。
輸入:分組號,其中記錄著頻繁項目下次出現的組號。
:用戶設定的最小支持數;填寫了相應支持數的向量。




函數:Reduce(),通過和編碼id尋找分析規則庫的一致性鍵值。
輸入:候選項集。
遍歷原始配電網監控信息智能分析規則庫在此組的映射事務集;
計算一致性鍵值=Reduce();


輸出:更新后規則庫的頻繁項集。
由此完成基于 MapReduce 的并行關聯規則庫增量更新。
在MATLAB仿真軟件中,編寫本文方法的應用程序,對本文方法的操作性能進行仿真測試。
將本文方法使用在虛擬的配電網設備信息監控系統中,測試本文方法的使用效果。虛擬的配電網設備信息監控系統參數如表1所示。

表1 虛擬的配電網設備信息監控系統參數
配電網監控信息智能分析規則庫的構建效果,主要通過配電網監控中網絡故障信息識別效果凸顯,故障信息識別效果好,表示構建的規則庫中信息智能分析規則涵蓋范圍較為全面。故障信息主要以配電網信息監控中DOS入侵信息(下文簡稱A-1故障)、R2L入侵信息(下文簡稱A-2故障)、U2R入侵信息(下文簡稱A-3故障)為主,測試本文方法、文獻[5]方法、文獻[6]方法的配電網監控中故障信息識別效果,以準確度、檢出率、假陽性率三種指標體現。

(8)

(9)

(10)
其中,、、、依次表示配電網監控中故障信息被準確識別的次數、非故障信息被識別成非故障信息的次數、故障信息被誤識的次數、非故障信息被誤識的次數。
三種方法的配電網監控中故障信息識別效果如表2、表3、表4所示。

表2 A-1 故障識別效果

表3 A-2故障識別效果

表4 A-3故障識別效果
由表2、表3、表4可知,多次測試中,文獻[5]方法和文獻[6]方法識別配電網監控信息中的A-1故障、A-2故障、A-3故障時,識別結果的準確度、檢出率均值都低于0.90,假陽性率都大于0.04;而使用本文方法,配電網監控信息中,識別A-1故障、A-2故障、A-3故障時,識別結果的準確度、檢出率均值都大于0.97,假陽性率都是0.01,由此可知,本文方法可提升配電網故障監控效果。
配電網監控中,故障信息識別實時性可體現本文方法所構建規則庫的關聯規則更新具有實時性,在MATLAB仿真軟件中提前預設A-1故障、A-2故障、A-3故障的出現時間,測試使用本文方法、文獻[5]方法、文獻[6]方法的配電網監控中故障信息識別實時性。測試結果如表5所示。

表5 關聯規則更新實時性測試結果
由表5可知,在MATLAB仿真軟件中提前預設A-1故障、A-2故障、A-3故障的出現時間后,本文方法所構建的配電網監控信息智能分析規則庫,能夠協助配電網監控系統實時識別配電網監控中故障信息,由此證明本文方法所構建規則庫的關聯規則更新實時性,可滿足應用需求。
為了深入測試該方法構建的配電網監控信息智能分析規則庫是否能滿足海量數據包智能分析的應用要求,測試該方法構建的配電網監控信息智能分析規則庫的頻繁項集(信息智能分析規則)是否能隨數據包的增加而實時更新,測試了頻繁項集更新結果與更新速度,測試結果如圖3、表6所示。

圖3 規則庫頻繁項集更新結果

表6 頻繁項集更新速度
由圖3、表6可知,本文方法所構建的配電網監控信息智能分析規則庫的頻繁項集可以伴隨數據包增多而實時更新,頻繁項集更新數量和新增數據包數量一致,更新時間與數據包新增時間一致。由此驗證,新增數據量對本文方法應用性能不存在負面影響,本文方法所構建的配電網監控信息智能分析規則庫對配電網故障監控工作存在實用價值。
配電網監控信息智能分析規則庫對配電網監控信息分析速度與分析效果存在直接影響,而配電網監控信息分析效果對配電網故障監控存在直接影響。為此,提出了基于機器學習的配電網監控信息智能分析規則庫構建方法,利用所構建的配電網監控信息智能分析規則庫,實現配電網監控信息智能分析。實驗中,本文方法經過仿真測試后,被驗證存在以下幾點實用價值:
(1)多次測試中,本文方法使用前,配電網監控信息中,A-1故障、A-2故障、A-3故障識別時,識別結果的準確度、檢出率均值都低于0.90,假陽性率都大于0.04;使用本文方法后,配電網監控信息中,A-1故障、A-2故障、A-3故障識別時,識別結果的準確度、檢出率均值都大于0.97,假陽性率都是0.01。
(2)本文方法所構建的配電網監控信息智能分析規則庫,能夠協助配電網監控系統實時識別配電網監控中故障信息。
(3)本文方法所構建的配電網監控信息智能分析規則庫的頻繁項集可以伴隨數據包的增多而實時更新,頻繁項集更新數量和新增數據包數量一致,更新時間與數據包新增時間一致。