于君 范文彬 杜永軍
摘要:隨著電網智能化程度的逐步深入,智能電網高維數據成為了“電網2.0”的重要價值資源。本文論述了智能電網大數據源、大數據流體系,討論了傳統電力數據聚類方法與特征,分析了智能電網高維數據所具有的稀疏性、空空間現象、維度效應、Hubness現象和離群點檢測的特征,對智能電網高維數據從維數簡化、索引技術、結果表征與評價方面論述了高維數據聚類分析方法和應用實踐。
關鍵字:智能電網;電網高維數據;高維數據聚類
中圖分類號:TP391,TP274, TM769文獻標志碼:A文章編號:2095-2163(2016)01-
Abstract: With the intellectualized development of power grid, SG (Smart Grid) high-dimensional databecomes the valuable resources of “Power Grid 2.0”. The big data resource and big data flow architecture of SG has been discussed. And the methods and characteristics of traditional electric power data clustering have been analyzed. After that, the characteristics of sparsity, empty space phenomenon, Dimensionality, Hubnessphenomenon, outlier detection and similarity measurein SGhigh-dimensional data have also been analyzed. Based on the aboved, the analytical methods and applications have been discussed in detail from several aspects of dimension reduction, indexing technique, result demonstrability and evaluation.
Keywords: smart Grid; SG high-dimensional data;high-dimensional data clustering
0 引言
隨著電力網絡向著智能化、集約化、清潔化方向的發展,電力網絡數據的規模化、高維化和關聯化程度日益加深,對于高維數據的數據挖掘成為了電力數據“工程化”向電力運維“價值化”的關鍵環節[1-2]。通過電力網絡高維大數據挖掘技術可以實現電網規劃建設全景可視化、網絡運行實時動態監控決策、復雜大電網建模降維與解耦、電網能量傳遞與轉化效能分析、網絡暫態保護控制策略分析等方面的價值應用[3]。聚類挖掘分析方法是數據挖掘技術重要手段,其在電力運動異常檢測[4]、電力用戶行為分析[5]、電力負荷曲線聚類[6]、電網覆冰預警[7]等方面具有重要的理論研究意義和工程實踐價值。
1智能電網大數據
智能電網依托無線傳感器網絡(WSN,Wireless Sensor Network)和物聯網技術(IOT,Internet of Things)實現了信息資源的整合,具體而言,WSN實現了末端設備/傳感器完成數據采集和轉換功能;IOT通過無線/有線數據傳輸技術實現感知數據、控制命令等信息資源的傳播;最后基于感知數據資源實現了系統管理、信息挖掘、商業智能等電網智能全流程。
智能電網技術與大數據分析有著與生俱來的緊密聯系,智能電網的全生命周期各環節(需求分析、規劃建設、優化升級、技術標準、流程規范、生產運營、商業營銷等)均需要持久可靠的數據資源提供決策支撐。智能電網大數據重點方向及領域涉及社會化行業服務(能源政策分析與制定、新能源開發與推廣等)、個性化用戶服務(需求側相響應與管理、客戶服務能效評估、混合動力汽車設施建設與支撐等)、電力企業運營(電力系統監控與調度、電力設備維護與管理、發電儲電輸電動態匹配等)[8]。
以電力規劃設計為例,行業設計標準的合理性是通過反復的實驗數據和工程實踐共同形成的規律性參數總結,同時需要結合不同的應用環境(風力、土質、溫濕度等等)的周期性變化進行適用性的修正,甚至是階段性動態修正;在生產運營環節中,智能電網的電能轉換、電力輸送、變電配電、電力調度等各環節均需要基于數據的精細化、預判性的決策,而這種決策方式需要長期的數據積累才能完成合理正確的指揮調度。
傳輸電網的各個環節均為一個相對獨立的功能單位,因而從主干線輸電網、區域性配電網、企業送電網直至家庭用電網均需要全程監控,最終形成了由末端用戶“細胞數據”、接入電網“血管數據”、傳輸電網“動脈數據”、電力源頭“心臟數據”等一系列連續且微量的數據構成智能電網“大數據”。電網大數據不僅具有大數據共性 “3V” 特征,即:海量數據(Volume)、多源種類(Variety)、高速流動(Velocity),而且具有電力行業“3E”,即:數據即能量(Energy)、數據即交互(Exchange)、數據即共情(Empathy),以智能電表為例,如果電能計量單位由“千瓦時”等級細化為“瓦時”等級,則時間單位管理粒度就要縮小為約1秒,那么就要將現行的采集頻率由15分鐘調整至1秒,1萬臺智能電表所獲得計量信息數據則由32.61GB增長至114.6TB[9]。除此之外,基于電網資源分布與拓撲關系的故障管理、基于用戶的用電行為習慣及地理信息的個性化營銷方案、基于電網設備特性的智能自修復控制、基于運行數據的全網態勢評估等等都將為成為大數據的來源和研究方向。智能電網大數據依托電網特性可以實現低損失、低消耗、無污染的傳輸,并且在周期性循環過程中實現服務價值凝練和升華、商業價值的低成本和可持續。
智能電網的大數據來源涵蓋外部環境數據、企業運營運行實時數據以及數據管控分析數據等多個層面,通過科學合理歸納和經驗總結修正,最終將指導末端環節的生產實踐和運營管理,例如:電網運維(網絡規劃建設、設備運轉性能指標等)、商業營銷(電價評估、銷售方案、客戶維系等)、企業經營(公司運營規劃、內部辦公流程等);從生產消費角度而言,大數據來源涉及發電側、輸變電側和用電側。
2 智能電網大數據流
由圖1可知,體系結構模型中每一主體層級的功能實現闡析可作如下表述:
(1)信息感知層。該層作用是感知、識別特定目標信息并實現傳感器組網與信息獲取,包括智能傳感器、高清攝像頭、北斗衛星導航系統(BDS,Big Dipper Navigation System)、全球定位系統(GPS,Global Positioning System)等設備,其中的主要技術包括WSN自組織網絡技術、高速電路設計技術、微機電系統(MEMS,Micro-Electro-Mechanical Systems)、編碼/解碼技術、抗干擾技術、傳輸加密技術、短距離組網傳輸技術。從信息傳播方式而言,信息感知層位于整個信息體系的信源,需探測的電網參數豐富。
(2)數據交互層。該層作用主要是實現數據的交互與傳輸,承載數據信息的載體可以是寬帶互聯網、有線接入網、移動通信網絡等等,例如:2G/3G/4G/5G信息通信技術、異構網絡融合技術、信息編碼/鑒權技術、自適應傳輸技術、電力線通信等。
(3)信息應用層。該層主要是實現為電網服務客戶和電力企業自身決策提供解決方案,其中包括大數據存儲技術、云計算技術、物聯網技術、分布式存儲技術、分布式計算技術、信息聚合技術等,同時融入全球定位系統(GPS,Global Positioning System)、遙感遙測技術(RS,Remote Sensing)、地理信息系統(GIS,Geographic Information System)、電網管理/專家決策模型等相對豐富的應用平臺。
3 傳統聚類方法
對于單一的電力數據而言,可采用的聚類分析方法包括:層次方法、劃分方法、基于密度方法、基于網格方法和基于模型方法。在此,給出各類方法的關鍵實用概述。
(1)層次方法(Hierarchical Methods)
層次法是基于目標數據集合進行層次化的分解過程。根據目標數據集合的層次分解過程可以分為凝聚式層次法(自底而上)和分裂式層次法(自底而上)。其中,凝聚式層次法將目標數據集中所包含的每個對象作為一個類,再逐步迭代合并相近的對象或者類,直至合并成為一個包含所有對象的類或者達到所設置的其他終止條件;而分裂式層次法則是將全部目標數據集中具體包含的所有對象視為一個類,而后迭代分解為更小的類直至每個對象成為一個類或者達到所設置的其他終止條件[10]。
層次聚類法的典型算法有ROCK聚類算法、BIRCH聚類算法、CURE聚類算法。
(2)劃分法(Partition Clustering)
劃分法將包含n個對象的數據集合按照分類規則劃分為k個類(k不大于n)。每個類至少包含一個對象,每個對象只屬于一個類。該方法實現過程:首先初始化類的個數k,劃分方法將隨即創建一個初始劃分,再通過迭代優化形成更優的類劃分結果,劃分過程遵循下述準則,即:相同類分組距離越近越好,不同類分組距離越遠越好。
劃分聚類法的典型算法有:CLARANS聚類算法、k-Means聚類算法、k-Modes聚類算法、k-Prototypes聚類算法等[11]。
(3)密度法(Density-based Methods)
密度法是以目標數據的分布密度為基礎,規避了距離聚類方式的球狀聚類局限性,進而實現了任意形態的聚類形式。該方法實現過程:首先設定密度閾值m和聚類包含數據最小個數n,當某個區域的目標數據分布密度超出閾值則形成聚類,且每個類中目標數據個數不小于n。
密度聚類法的典型算法有:基于密度分布函數的DENCLUE聚類算法、基于高密度連接區域的DBSCAN聚類算法[12]。
(4)網格法(Grid-based Methods)
該方法首先將目標數據空間劃分為n個單元的網格結構,然后基于網格單元進行聚類劃分。
網格聚類法的典型算法有:基于統計信息的STING聚類算法、基于小波變換的WaveCluster聚類算法、基于網格和密度的OptiGrid聚類算法、基于聚類高維空間的CLIQUE聚類算法等。
(5)模型法(Model-based Methods)
模型法是通過自行設定聚類條件模型,尋找目標數據與設定聚類條件模型之間的最佳匹配模式,過程中則假設目標數據集合具有一系列的概率分布規律特征。
模型聚類算法有:COBWeb(統計學方法)聚類算法,COBWeb是增量式概念聚類方法,通過采用分類樹的形式表征層次聚類。
對上述傳統典型聚類算法進行性能評價比較,具體結果如表1所示[13-14]。
4 電力高維數據聚類方法
4.1 電力高維數據特征
隨著互聯網技術、物聯網技術和傳感器網絡技術的發展,電力運營中的發電、輸電、配電、用電等全流程電力環節均會產生海量且多維的指標數據,這些數據的資源化向價值化轉變成為了電力信息研究的重要課題。1961年由Bellman 提出“維度災難”,即:在多變量函數中數據對象屬性維數增加,其網格單元數量將會以指數級速度增長,因而在多維網格中優化該函數是不可能的事情。而高維數據聚類分析就是典型的“維度災難”問題分析。由于高維數據特征導致高維數據對傳統聚類分析帶來了一系列的困難與挑戰,分析闡釋如下:
(1)稀疏性(Sparsity)
隨著維度增長的目標數據在維度空間中會遵照其自身的分布特征,但是對于同步增長的維度空間而言仍然是稀疏的[15]。
(2)空空間現象(Empty Space Phenomenon)
以正態分布的目標數據密度函數為例,當維度值增加為10,分布在中心區域的數據點不到1%[16]。
(3)維度效應(Dimensionality)
隨著目標數據的維度數量過多將導致數據索引效率下降,當目標數據維度增大,數據樣本之間的距離變得等距且稀疏,這就使得傳統的平等使用每個特征的距離度量將因此而出現失效[17]。對于高維數據聚類分析而言,數據自身所蘊含大量無關屬性,導致此類數據噪聲和冗余特征將直接影響聚類分析效果。
(4)Hubness現象(Hubness Phenomenon)
高維數據空間Nk(x)分布呈現出明顯右偏態,隨著數據維度增大則該分布特征越加明顯,導致少量數據點頻繁出現在其他數據點的K最近鄰列表中[18]。
(5)離群點檢測(Outlier Detection)
高維數據由于自身的稀疏分布特點導致高維數據中的離群點檢測難度提高,特別是基于深度、偏差、距離或密度的傳統聚類分析在高維數據流存在明顯不足。
(6)相似性度量(Similarity Measure)
對于高維數據采用傳統聚類距離度量法用于判別衡量對象之間相似度,導致搜索近鄰點結果的有效性和穩定性呈現出下降態勢。
4.2電力高維數據聚類方法
(1)維數簡化(Dimension Reduction)
通過降維處理將高維屬性降至較低維空間,進而使用傳統聚類分析方法進行數據分析。維數簡化可以通過特征變換(FT,Feature Transformation)和特征選擇(FS,Feature Selection)來展開并實現,或者采用非線性維數簡化方法(流形學習),典型的流形學習方法有等距映射、局部線性嵌入以及拉普拉斯特征變換。對于需考慮數據子集屬性差異亦可采用全局維度簡化(GDR,Global Dimension Reduction)或者局部維度簡化(LDR,Local Dimension Reduction)不同的維數簡化分析手段。
(2)索引技術(Indexing Technique)
高維數據將導致聚類算法的復雜程度在時間維度和空間維度上均已表現出指數級代價增長方式,通過構建快速的高維數據索引結構和優化高維相似性查詢手段即可實現高維數據信息的快速檢索和交互。高維索引結構包括向量空間索引結構(SAM,Spatial Access Method),例如:R-tree、R*-tree;度量空間索引結構(MAM,Metric Access Method),例如:M-tree、M+-tree等[19]。
(3)結果表征與評價(Result Demonstrability and Evaluation)
通常聚類結果表征與評價內容包括:可伸縮性、多數據類型數據處理能力、發掘任意形狀簇的能力、輸入參數依賴性、噪聲數據分揀能力、數據順序敏感度、聚類結果可詮釋性等等[20]。但是由于高維數據具有多維屬性,因此對于聚類關系結果表征與評價復雜度也將有所提升,特別是聚類關系可視化和聚類邏輯解釋勢必存在較高的難度,進而對于聚類結果的有效性和準確性則將缺乏有效評估手段。
另外,朱付保等提出了一種基于粗糙集理論的模糊C-means高維數據聚類算法,該算法將模糊C-Means算法融入了粗糙集屬性約簡思想,提取出對分類影響較大的屬性集而摒棄與分類無關的屬性,在聚類過程中只計算屬性約簡結果集中的屬性,進而減少聚類過程的工作量、提高聚類效率[21];汪仁紅等提出了一種基于投影和密度的高維數據流聚類算法(HpDenStream算法),該算法結合滑動窗口技術,采用投影算法對高維數據流進行降維處理并運用密度聚類算法對降維后的數據進行異常數據檢測,經仿真測試:HpDenStream算法在存儲空間占用和運行效率均要優于基于主成分的聚類算法(PCA算法)[22];王倩等提出了云環境下聚類分解的高維數據混合索引方法。該方法采用聚類分解方法對分割數據建立樹狀索引;以葉節點為單位,通過掃描線算法來獲取節點內部所有對象的局部最近鄰結果;最后依據計算的結果得出啟發式的裁剪距離。在單節點最近鄰計算中,第二個階段獲取外部的最近鄰對象采用范圍查詢算法。實驗分析表明,在查詢效率上該索引方法高于單純的聚類方法,與M-tree、順序查找、iDisance相比,基于聚類分解的混合索引方法在高維查詢模式下則具有良好的查詢效率和負載均衡[23]。
5 結束語
電力網絡中海量多維數據為電網運營能力的拓展優化提供著豐富的數據資源,有效挖掘資源價值是電網運營的關鍵環節。傳統的數據聚類分析手段可以有效實現對于單一數據的挖掘分析,但是在多維度電網數據方面則需要針對其數據特征采用合理的計算方法。
電力網絡多維數據挖掘(例如:關聯分析、主成分分析、動態可視化分析)將有效推動規劃、發電、輸電、變電、配電、用電等各環節的智能化、信息化、科學化的互動管理和精細運維。
參考文獻:
[1]李智勇. 電力系統運行信息的數據挖掘研究[D]. 杭州: 浙江大學, 2009.
[2]張東霞,苗新,劉麗平,等. 智能電網大數據技術發展研究[J]. 中國電機工程學報, 2015, 35(1): 2-12.
[3]李澤文, 鄧拓夫, 曾祥君,等. 智能電網能量流的時空多尺度大數據探討[J]. 電力科學與技術學報, 2015, 30(1): 22-27.
[4]陳利躍, 杭鐘靈, 余亮,等. 基于馬氏距離的雙層聚類電力遠動異常檢測[J]. 控制工程, 2015,22(2): 360-364.
[5]彭顯剛, 賴家文, 陳奕. 基于聚類分析的客戶用電模式智能識別方法[J]. 電力系統保護與控制, 2014, 42(19): 68-73.
[6]張斌, 莊池杰, 胡軍,等. 結合降維技術的電力負荷曲線集成聚類算法[J]. 2015, 35(15): 3741-3749.
[7]羅永勤, 周景, 武國亮,等. 基于聚類算法的電網覆冰災害分級預警模型研究[J]. 內蒙古電力技術, 2015, 33(1): 13-16.
[8]王秋平, 陳志強, 魏浩. 基于數據挖掘的電站運行參數目標值優化[J]. 電力科學與工程, 2015, 31(7): 19-24.
[9]中國電機工程學會電力信息化專委會. 中國電力大數據發展白皮書[R]. 北京: 中國電機工程學會電力信息化專委會, 2013.
[10]王芳. 傳統聚類方法的分析及改進[D]. 長沙: 中南大學, 2007.
[11]盧志茂, 馮進玫, 范冬梅,等. 面向大數據處理的劃分聚類新方法[J]. 系統工程與電子技術, 2014, 36(5): 1010-1115.
[12]沈明明. 聚類算法的研究及應用——基于群智能技術的聚類算法研究[D]. 無錫: 江南大學, 2011.
[13]Y.P. YAO. 聚類分析中幾種算法的比較[EB/OL].(2011-03-27) [2015-08-08]. http://blog.csdn.net/yaoyepeng/article/details/6281991, 2015-08-08.
[14]Johnho. 聚類算法總結[EB/OL]. (2013-06-06) [2015-08-08]. http://blog.chinaunix.net/uid-10289334-id-3758310.html, 2015-08-08.
[15]D.L.Donoho. High-Dimensional Data Analysis: The Curses and Blessings of Dimensionality [Z]. Los Angeles: Aide-Memoire of the lecture in AMS conference of the 21st Century, 2000.
[16]M. Verleysen. Learning High-dimensional Data[Z]. Siena: Limitations and Future Trends in Neural Computation, S.Ablameyko et al.(Eds.), 2003: 141-62.
[17]劉建偉. 基于高維數據上集成聚類的個性化推薦算法研究[D]. 廣州: 華南理工大學, 2014.
[18]張巧達, 何振峰. 基于Hub 的高維數據初始聚類中心的選擇策略[J]. 計算機系統應用, 2015, 24(4): 171-175.
[19]張井. 高維數據子空間聚類算法研究[D]. 天津: 天津大學, 2012.
[20]任亞洲. 高維數據上的聚類方法研究[D]. 廣州: 華南理工大學, 2014.
[21]朱付保, 徐顯景, 白慶春等. 基于粗糙集理論的模糊C-means高維數據聚類算法[J]. 華中師范大學學報(自然科學版), 2015, 29(4): 511-514.
[22]汪仁紅, 王家偉, 梁宗保. 基于投影和密度的高維數據流聚類算法[J]. 重慶交通大學學報(自然科學版), 2013, 32(4): 725-728.
[23]王倩, 朱變. 云環境下聚類分解的高維數據混合索引方法[J]. 周口師范學院學報, 2015, 32(2): 116-119.