陳 競,杜 杰,丁勝利
(南方電網數字電網研究院有限公司,廣東廣州 510663)
新型能源產業能夠為用戶提供智慧用電方案,電費谷值時儲電,峰值時用電,將大幅度減少用戶電費[1-3],還可以利用互聯網對信息流進行跨界交換,為用戶提供實時的電表數據,但是隨之而來的問題是能源產業信息劇增[4-5],加大了信息挖掘難度。文獻[6]通過模糊C 均值算法聚類降維后的特征數據,獲取數據挖掘結果,該模型具備較優的數據聚類效果。文獻[7]依據模糊神經網絡建立數據挖掘模型結果。但這兩種方法均存在計算開銷較大的缺點,在挖掘較大規模的信息時實時性較差,在數據維度不同時的挖掘效果較差。
模糊聚類分析算法具備模糊集合理論的特點,在各大領域均取得了較優的應用效果,可全面呈現數據集的結構[8],聚類效果較佳。為此建立基于模糊聚類分析的能源產業信息自動挖掘模型,以此精準自動挖掘能源產業信息。
利用基于密度聚類算法確定初始聚類中心[9],步驟如下:
步驟1:通過基于密度聚類方法獲取o維Xφ內每維中的聚類中心,相應區間內能源產業信息樣本點數量為ri,i∈{1,2,…,n} ;
步驟3:計算dτ的確切度ρ,公式如下:
式中,構建dτ的o維子區間中相應標號子集的并、交分別為Rτ、。
步驟4:以ρ符合dτ為前提,確定能源產業信息樣本集的孤立點,公式如下:
在γ未超過設定百分比值的情況下,代表dτ內的能源產業信息樣本點屬于孤立樣本點,即虛聚類[11-12],通過步驟4 可獲取τ′個符合ρ與γ條件的有效聚類子集;
利用粒子群優化(Particle Swarm Optimization,PSO)算法優化縮短KFCM 算法的聚類時間[14],提升能源產業信息自動挖掘精度。
網絡信息的海量化和獲取的便利化,造成相當一部分學生做作業時對電腦產生依賴,主要表現為遇到問題時不是進行認真的思考和研究,而是動輒上網搜索,在網絡上尋找答案。因此,在新媒體環境下,如何提高學生的鉆研精神和創新意識,減少網絡依賴,杜絕網絡抄襲,成為學校和老師必須重視的問題。
步驟1:設置樣本數量c與允許誤差δ;
步驟2:設置群體規模n,慣性權重ω,學習因子η1、η2,指數權重w;
式中,t是迭代次數;vi(t)、Yi(t)是粒子前一時刻的速度與位置;任意數是?1,?2∈[0,1] ;P(t)、P′(t)分別是個體、全局極值。
步驟7:如果此時迭代次數T達到Tmax,那么結束迭代,在最后一代搜索出最佳解,獲取得到P′的粒子,即初始聚類中心的集合,反之,令t=t+1,返回至步驟5;
步驟8:將更新隸屬度函數ζjk作為一個粒子,對其進行更新處理[15];
步驟4:通過融合改進的Hubert Γ 統計量與分離度建立KFCM 的自動挖掘模型F′Γ(c,G,Xφ),其公式如下:
以某電網為實驗對象,該電網共包含42 個發電站,其中包含16 個水力發電站,在該電網內隨機選擇有關16 個水力發電站的10 個數據集,這10 個數據集的樣本規模逐漸增大,由100 GB 到1 000 GB,且數據集的樣本維度各不相同,這10 個數據集內的能源產業信息包含電網發電量信息、能源消耗信息、能源供應商信息與客戶用電信息等。
利用該文模型自動挖掘10個數據集內在2020年有關16 個水利發電站的能源消耗信息,自動挖掘結果如表1 所示。

表1 能源消耗信息自動挖掘結果
根據表1 可知,該文模型可有效挖掘出所選擇的10 個數據集內有關能源產業信息中的能源消耗信息,且自動挖掘結果非常詳細,實驗證明該文模型可有效自動挖掘能源產業信息。
以數據集1 為例,利用該文模型聚類處理該數據集內各類別能源產業信息的數據,該數據集內共包含三種類型的能源產業信息,分別是電網發電量信息、能源消耗信息與客戶用電信息,聚類結果如圖1所示。

圖1 聚類結果
根據圖1 可知,該數據集內共包含三個類別的數據,該文模型的聚類結果中共包含三個類別,與實際結果一致,說明該文模型具備較優的能源產業信息聚類效果。
利用調整蘭德系數(Adjusted Rand Index,ARI)衡量該文模型的聚類效果,其取值區間為[-1,1],其值越大,聚類效果越佳,測試結果如圖2 所示。

圖2 ARI測試結果
根據圖2 可知,在不同數據集規模時,該文模型的平均ARI 值與最大ARI 值均較高,具備較優的能源產業信息聚類效果。
測試該文模型在不同樣本維度時,初始聚類中心優化前后的能源產業信息自動挖掘的完整性,測試結果如圖3 所示。

圖3 完整性測試結果
根據圖3 可知,樣本維度越大,該文模型的初始聚類中心優化前后的完整性均有所降低,在不同樣本維度時,優化后的完整性均顯著高于優化前,且收斂速度快于優化前。實驗證明,在不同樣本維度時,初始聚類中心優化后的完整性值較高,即優化后的能源產業信息自動挖掘效果優于優化前。
電力企業的不斷改革,使得能源產業信息呈爆炸式增長,同時由于能源產業信息規模龐大、維度不同,加大了能源產業信息自動挖掘難度,無法精準找到所需信息,為此建立基于模糊聚類分析的能源產業信息自動挖掘模型,提升信息自動挖掘效果,在不同能源產業信息規模與維度時,均可精準自動挖掘所需信息,為電力企業和用戶提供更好的服務。