陳蓉CHEN Rong
(成都興通電研電力科技有限公司,成都 610041)
電力企業(yè)是關系國計民生、國家經(jīng)濟和社會發(fā)展的支柱性行業(yè),隨著科學技術的不斷發(fā)展,電網(wǎng)規(guī)模逐漸擴大,海量非結(jié)構(gòu)數(shù)據(jù)日益增加,加大了傳統(tǒng)基于人工經(jīng)驗審計工作的監(jiān)督巡查難度,嚴重威脅了電力信息系統(tǒng)的安全性。若電力數(shù)據(jù)庫遭到破壞,將直接影響電力行業(yè)發(fā)展的健康穩(wěn)定性,甚至會給國家和社會造成不可估計的損失。因此,科學調(diào)整電力審計方式、促進電力審計信息化發(fā)展,從而提升審計工作效率和準確度的改革迫在眉睫。人工智能、互聯(lián)網(wǎng)大數(shù)據(jù)等新興技術的層出不窮,為計算機輔助電力審計巡查疑點數(shù)據(jù)、揭露審計風險的工作方式提供了新契機,也迎來了挑戰(zhàn),研究如何充分發(fā)揮審計這個“免疫系統(tǒng)”,實現(xiàn)審計全覆蓋電力大數(shù)據(jù),并高效精確的發(fā)現(xiàn)疑點數(shù)據(jù)具有重要意義。
目前,國內(nèi)外普遍關注電力審計智能化研究,運用數(shù)據(jù)挖掘[1-2]、模型構(gòu)建[3-5]等研究熱點進行內(nèi)部審計工作的轉(zhuǎn)型,但現(xiàn)階段仍處于初步階段,理論和實踐都尚未成熟。大數(shù)據(jù)環(huán)境下基于數(shù)據(jù)挖掘技術的審計工作疑點數(shù)據(jù)分析相似于“離群點”檢測,是從大量隨機數(shù)據(jù)中尋找數(shù)據(jù)間隱藏規(guī)律性特征的過程[6]。聚類分析算法作為一種無監(jiān)督數(shù)據(jù)挖掘技術,可以在不給定先驗知識的條件下尋找出數(shù)據(jù)間內(nèi)在關系并完成分類。聚類審計業(yè)務中,實例較少的“小簇”和較多實例的“大簇”由于存在較大的特征屬性差異,將被視為潛在疑點。大數(shù)據(jù)聚類分析能夠?qū)⒄急壤賲s有更大疑點的數(shù)據(jù)聚類為可疑數(shù)據(jù)“小簇”,配合審計經(jīng)驗既可以實現(xiàn)海量數(shù)據(jù)總體分析又可以配合審計人員發(fā)現(xiàn)審計疑點并迅速精確定位。王丙參等[6]根據(jù)不同的場合通過運用不同的測量方法對函數(shù)型數(shù)據(jù)聚類方法進行了比較和評價。王金會等[7]針對政府云計算下大數(shù)據(jù)泄露、濫用、侵襲等風險,構(gòu)建指標運用熵權法對安全風險進行了評估分析。王海洪[8]通過分析近7 年來大數(shù)據(jù)審計的相關文獻指出目前審計評估已由假設驗證模式轉(zhuǎn)化為運用網(wǎng)絡爬蟲、聚類分析和機器學習技術的數(shù)據(jù)挖掘模型。文獻[6-8]的研究均停留在理論層面,并未進行實例分析。
綜上所述,本文在已有研究的基礎上,構(gòu)建了一種無需基于訓練集構(gòu)建訓練模型的無監(jiān)督蜂群迭代K-means聚類模型進行審計電力數(shù)據(jù)。考慮K-means 聚類算法選擇初始聚類中敏感性、易陷入局部最優(yōu)解導致聚類結(jié)果不穩(wěn)定的不足,運用相異性度量法對初始聚類中心點的選取進行改進,然后利用改進的蜂群算法對聚類中心結(jié)果和聚類結(jié)果進行優(yōu)化,以保證電力大數(shù)據(jù)聚類結(jié)果的準確性。最后通過離散型電力數(shù)據(jù)進行識別潛在疑點試驗,驗證了所提算法的可行性和有效性。
傳統(tǒng)K-means 聚類算法存在初始聚類中心敏感性極易陷入局部最優(yōu)解,電力審計時潛在疑點簇依靠審計經(jīng)驗確定聚類中的問題[9]。本文運用相異性度量法,通過定義均值和總體相異性的度量方式,確定電力數(shù)據(jù)的初始聚類中心進行改進。只輸入聚類數(shù)便能獲取聚類中心,且多次運算結(jié)果一致,充分保證了聚類結(jié)果的穩(wěn)定性。基于IK-MD的聚類算法利用啟發(fā)式算法能夠使每次自動選取的聚類中心一致,具有處理大型數(shù)據(jù)、不同簇類的能力,且在進行離群點處理時能夠?qū)㈦x群點排除在候選聚類中心點之外,排除異常值對聚類結(jié)果的影響,具有很好的魯棒性和收斂性。
聚類算法是通過“物以類聚”的原則將相似度高的數(shù)據(jù)聚為一類,以最大化減少簇間數(shù)據(jù)的相似度。近年來,傳統(tǒng)聚類算法受離群點和隨機性因素的影響,存在初始聚類中心敏感、聚類結(jié)果穩(wěn)定性差等問題。相關研究者針對存在的問題進行了改進,典型的改進方法是運用最小化平方誤差和尋找局部最優(yōu)解,以簇中距離最小點為聚類中心,解決離群點對聚類結(jié)果的影響,但仍存在初始聚類中心影響聚類結(jié)果穩(wěn)定性的現(xiàn)象。之后,離群因子和最大最小算法優(yōu)化[10]、平均差異度[11]、Pearson 相關系數(shù)[12]等改進方法相繼出現(xiàn),改進的算法也不能同時解決隨機選取初始聚類中心和離群點等問題。相異性度量法是一種通過數(shù)據(jù)間不同處構(gòu)造相異性矩陣,從而準確確定初始聚類中心點的方法,其以中位數(shù)代替各簇中數(shù)據(jù)點的均值迭代后續(xù)聚類中心的方式可以消除離群點對聚類準確率的影響,能夠同時避免傳統(tǒng)聚類算法中離群點和初始聚類中心隨機性問題。相異性度量法的具體操作步驟為:
首先通過歐式距離計算數(shù)據(jù)點間的相異性dis;然后用兩兩數(shù)據(jù)間的臨近度構(gòu)造相異性對稱矩陣disM;其次計算數(shù)據(jù)點與簇中其他數(shù)據(jù)的距離平均值作為數(shù)據(jù)的均值相異性Adis(xi);最后以最大的Adis(xi)作為初始聚類中心,計算并比較數(shù)據(jù)集的總體相異性Tdis 和各數(shù)據(jù)與聚類中心的相異性Dydis(xi),若Dydis(xi)大于Tdis,則該數(shù)據(jù)樣本集作為第2 聚類中心,否則選取次大均值相異性數(shù)據(jù)集進行判斷,依次循環(huán)類推,直至選出所有聚類中心為止,相關計算公式如下。通過選取均值聚類中心大的數(shù)據(jù)點為初始聚類中心,不僅可以避免初始聚類中心過于集中化,還能減少迭代次數(shù)。

式中:xi表示實例,所有實例構(gòu)成數(shù)據(jù)集;n 表示數(shù)據(jù)樣本數(shù);m 表示數(shù)據(jù)維度。
聚類分析是通過某種標準將數(shù)據(jù)集內(nèi)具有相似性的數(shù)據(jù)劃分成同一簇的過程[13]。在聚類分析中,含有數(shù)據(jù)較少的簇稱為小簇,將小簇中的數(shù)據(jù)與其他多數(shù)數(shù)據(jù)進行比較,若存在較大的差異性,則被視為審計疑點。單次聚類分析中,可疑度高的疑點會掩蓋可疑度底的疑點,導致聚類精度低,疑點發(fā)現(xiàn)審計結(jié)果差[14-15]。因此,本文采用多次迭代的IK-MD 聚類算法對電力數(shù)據(jù)進行疑點審計,先確定數(shù)據(jù)集,劃分聚類簇數(shù),相異性度量法確定初始聚類中心,并將數(shù)據(jù)集中的數(shù)據(jù)按照就近原則進行歸簇,在用中位數(shù)代替均值重新計算選擇聚類中心,具體步驟如下:
①輸入數(shù)據(jù)集X 和聚類簇數(shù)K;
②根據(jù)公式(1)分別計算數(shù)據(jù)點的相異性、均值相異性和總體相異性,取K=1;
③按照1.1 的介紹選取初始聚類中心;
④判斷聚類中心的個數(shù)與簇數(shù)是否相等,若相等,確定聚類中心點集{u1,u2,…,uK},否則轉(zhuǎn)到步驟③;
⑤根據(jù)就近原則劃分數(shù)據(jù)集到各簇,并標記Ci;
⑥用中位數(shù)代替均值相異性重新計算聚類中心,公式為:

⑧在聚類結(jié)果中將簇中數(shù)據(jù)占總數(shù)據(jù)比≤5%、簇數(shù)據(jù)與最多數(shù)據(jù)的簇相比<0.1 的簇定為小簇,視為電力數(shù)據(jù)審計疑點;
⑨重復步驟②-⑧,直到?jīng)]有發(fā)現(xiàn)小簇條件是終止迭代;
⑩輸出審計疑點數(shù)據(jù)。
蜂群算法是用蜜源表示數(shù)據(jù)潛在聚類中心的一種群體智能搜索方法[16]。相異性度量法確定初始聚類中心解決了傳統(tǒng)K-means 算法初始聚類中心敏感性高的問題,但其結(jié)果的準確性仍有待提高。因此,本文運用蜂群算法結(jié)合K-means 聚類算法對上述聚類結(jié)果進行優(yōu)化,以進一步提高聚類結(jié)果的精確度。蜂群優(yōu)化IK-MD 聚類算法通過蜜源的適應度值來獲得聚類簇的質(zhì)量如何,適應度值越大、目標函數(shù)值越小代表具有良好的聚類結(jié)果,其適應度函數(shù)表達式為:

式中:T 表示聚類質(zhì)量的目標函數(shù)。
蜂群優(yōu)化IK-MD 聚類算法將相異性度量法的初始聚類中心作為初始值,通過蜜源位置優(yōu)化各個聚類中心,計算式如公式(4),運用K-means 算法對優(yōu)化結(jié)果再聚類,以聚類結(jié)果為中心更新蜂群,多次迭代直到滿足條件是終止,其具體流程如圖1 所示。

圖1 蜂群優(yōu)化IK-MD 聚類算法流程圖

為驗證本文所提聚類算法的合理性和有效性,采用仿真和真實數(shù)據(jù)進行測試本文所提方法的有效性。本文選取某地市幾家縣電力公司財報數(shù)據(jù)進行驗證,設置算法最大迭代次數(shù)為100 次,最小改進因子為1e-05。
本文從樣本公司營業(yè)收入增長率、營業(yè)利潤增長率、利潤總額增長率以及凈利潤增長率四個方面進行聚類分析驗證。如圖2 所示,將樣本數(shù)據(jù)分為四簇,每一簇都設置一個簇心,通過分析數(shù)據(jù)關于簇心的隸屬度確定審計可疑點,由圖可以看出,本文所提的迭代IK-MD-SA 聚類電力大數(shù)據(jù)審計疑點算法具有較好的效果。

圖2 迭代IK-MD-SA 聚類電力數(shù)據(jù)審計疑點算法聚類圖
根據(jù)圖2 聚類分析實驗結(jié)果,統(tǒng)計得出樣本電力公司中有27 處的審計數(shù)據(jù)存在于疑點數(shù)據(jù)聚類中,表現(xiàn)異常,對可以審計數(shù)據(jù)逐個分析核實情況,確定了相關可疑審計數(shù)據(jù)有23 處存在錯誤,驗證本文所提算法的有效性。
本文在已有研究的基礎上,構(gòu)建了一種無需基于訓練集構(gòu)建訓練模型的無監(jiān)督蜂群迭代K-means 聚類模型進行審計電力數(shù)據(jù)。利用改進的蜂群算法對聚類結(jié)果進行優(yōu)化,使其保證高運行效率的前提下聚類結(jié)果仍具有較高準確性。最后,通過離散性電力數(shù)據(jù)進行識別潛在疑點試驗,驗證了所提算法的可行性和有效性。