劉惠華,樊志偉,利雅琳,段春雨
(廣東電網有限責任公司中山供電局,中山528400)
在人工智能應用研究中,使用大數據分析方法解決機器學習問題,實際上是一個求解目標函數(模型)的優化問題。如使用θ∈Θ(Θ是參數空間)表示模型的參數,則機器學習問題便轉化為求θ的問題。
現代數理統計理論是大數據分析的理論基礎,目前存在頻率學派和貝葉斯學派兩大主流學派,它們的差異表現在對研究對象認知層面上的不同。頻率學派認為參數θ是固定的,模型數據是隨機的;貝葉斯學派認為參數θ是具有某種分布的隨機變量。對參數θ的認知不同,導致建立基于統計理論機器學習推理模型的方法也有差異。
頻率學派使用研究對象的總體信息和樣本信息進行建模;貝葉斯學派除了利用總體信息和樣本信息外,增加了一個模型參數θ的先驗分布概率信息進行建模。
頻率學派統計建模的理論依據是大數定律,它是概率論與數理統計中描述當對研究對象的觀察次數足夠大時所表現出來的概率性質定律:隨著樣本容量n的增加,樣本平均數將接近于總體平均數。大數定律為統計推斷中依據樣本平均數估計總體平均數提供了理論依據,大數定律有嚴格的數學證明。
本文是筆者在研究電力作業違章事故事件預控模型時,使用基于頻率學派觀點進行大數據分析建模的成果。選擇基于頻率分析的大數據分析建模方法,對電力作業違章事故事件這一研究對象是適合的,因為,到目前為止,我們還無法給出電力作業違章事故事件模型參數的先驗分布概率信息。
本文工作成果解決了電力作業違章事故事件預控模型的建模問題。基于頻率分析的大數據分析方法,揭示了人的不安全行為與電力事故事件的某種內在關系及規律,直接支持電力事故事件預控模型的開發。本文工作對其他行業研究開發基于大數據分析和數據挖掘的統計推理機器學習模型,同樣具有直接和間接的參考借鑒意義。
設刻畫研究對象的特征向量為:(T1,T2,…,TM),特征Ti(i=1,2,…,M)的取值向量為:(Xi,1,Xi,2,…,Xi,ik),大數據分析的目標為:(G1,G2,…,GN),則使用表1 定義基于頻率分析的大數據分析方法。
本文所述的大數據研究對象是廣東某地市的電力作業違章事故事件大數據,刻畫大數據使用了5 個維度77 個特征,5 個維度及特征分別是:作業維36 個特征、人員維18 個特征、環境維3 個特征、氣象維8 個特征以及分析維12 個特征。
應用表1 定義的基于頻率分析的大數據分析方法,對電力作業違章事故事件大數據進行分析,得到電力作業違章事故事件大數據分析表2。

表2 電力作業違章事故事件大數據分析
設電力作業違章事故事件大數據案例Wi有M 個特征Ti,1,Ti,2,…,Ti,M,各特征Ti,1,Ti,2,…,Ti,M彼此獨立取值且對應違章、事故事件及正常工單的概率分別為:P1i,1,P1i,2,…,P1i,M,P2i,1,P2i,2,…,P2i,M及P3i,1,P3i,2,…,P3i,M,使用表2 的頻率分析結果代替對應的概率,如下是定義案例Wi對應違章、事故事件及正常案例概率的計算公式。
(1)案例Wi第j 個特征對應違章概率P1i,j的計算公式

(2)案例Wi第j 個特征對應事故事件概率P2i,j計算公式

(3)案例Wi第j 個特征對應正常案例概率P3i,j計算公式

其中,k=1,2…,jk,jk 為案例Wi第j 個特征的取值個數,i=1,2,…,N,N 為案例數,j=1,2,…,M,M 為案例特征數。
信息熵是人們對客觀世界研究對象某種認識(信息量)的度量,信息理論的開創者香農把信息熵定義為離散隨機事件的出現概率。應用2.1 小節定義的概率計算公式,定義電力作業違章事故事件大數據案例Wi對應違章、事故事件以及正常案例的信息熵計算公式如表3 所示。

表3 電力作業違章事故事件大數據案例信息熵
表3 中Qj是案例Wi第j 個特征的權重,Qj=Kj/N,Kj 是第j 個特征的取值個數,N 是案例Wi所有特征取值個數之和,N 是一個常數。
可以選擇K 均值聚類算法和最近鄰算法設計基于頻率分析信息熵的推理機模型。
下面是選擇K 均值聚類算法設計基于頻率分析信息熵推理機模型的步驟:
(1)計算電力作業違章事故事件大數據案例信息熵均值表,如表4 所示。

表4 電力作業違章事故事件大數據案例信息熵均值
(2)分別選取K=2,3,4,5,…,P,對表4 的所示的大數據案例進行均值聚類,可以得到P 個聚類模型。
(3)對上述P 個聚類模型進行交叉驗證或使用實際電力作業案例進行驗證,從P 個聚類模型中選出最優分類的聚類模型作為推理機模型。
電力作業大數據案例數據資源由六類數據組成,第一類是正常作業工單數據,第二類是違章作業工單數據,第三類是事故事件作業工單數據,第四類是廣東電網某地市自2016 年1 月1 日至2018 年3 月31 日的氣象資料數據,第五類是廣東電網某地市電網設備地理環境數據,第六類是廣東電網某地市作業人員資料數據(含第三產業作業人員)。
第一類和第二類數據來自于廣東電網某地市2016年1 月1 日至2018 年3 月31 日的工作票作業工單數據,第三類數據來自于國內自2003 年到目前為止公開發表的電力行業事故事件數據。第一、二、三類數據資源的分布情況如圖1、圖2 及圖3 所示。

圖1 正常作業案例分布

圖2 違章作業案例分布

圖3 事故事件作業案例分布
本文使用電力作業大數據案例資源訓練的基于頻率分析信息熵推理機模型(以下簡稱模型),對廣東電網某地市電力作業數據進行驗證,如下是驗證結果小結。
(1)對人工監管發現的違章工單識別能力的驗證
將廣東電網某地市提供的2018.4.1 到2018.7.31人工監管發現的349 個違章工單作為作業工單輸入模型,得到模型輸出的結果如表5 所示。

表5 模型識別人工監管發現的違章工單能力驗證
(2)對同期作業工單發現違章工單能力的驗證
將廣東電網某地市提供的2018.4.1 到2018.7.31的7243 個作業工單輸入模型,與同期人工監管發現的198 個違章工單進行比對分析,比對結果如表6 所示。

表6 對同期作業工單發現違章工單能力比對
表5 同期人工監管發現的違章工單數量是349宗,而表6 同期人工監管發現的違章工單數量是198宗。注意,表5 與表6 中同期人工監管發現的違章工單數量是不一致,表6 剔除了其中的人工監管發現的151 宗違章工單,因為這151 宗違章工單不包含在模型輸入的7243 個作業工單里面。
本文討論了目前大數據分析兩大主流學派(頻率學派和貝葉斯學派)對客觀世界研究對象認識層面的差異,指出在人們對客觀世界研究對象的先驗知識不足并可以得到足夠多的樣本數據情況下,應用基于頻率分析的大數據分析方法,可以挖掘出隱含在大數據資源中有價值的信息,進而建立基于統計推理的機器學習模型。
本文為基于頻率分析的大數據分析方法及數據挖掘提供了一個可以直接借鑒的案例,同時也對進一步探討基于頻率分析的大數據分析方法的理論和應用提供了實際應用的支持。本文的研究工作對其他行業的大數據分析及數據挖掘也具有參考借鑒的意義。