王巖, 陳孝文, 許家偉
(海南電網(wǎng)有限責(zé)任公司信息通信分公司, 海南, 海口 570203)
社會(huì)信用體系[1]已在各行各業(yè)全面展開,尤其是在金融、通信、電子商務(wù)等領(lǐng)域已有廣泛的應(yīng)用基礎(chǔ)[2-4]。為此,可將信用評(píng)估體系引入電力系統(tǒng),采用不同的信用評(píng)估模型,以在一定程度上遏制用戶竊電、欠費(fèi)等行為。目前,大量研究提出了許多不同的信用評(píng)估模型。根據(jù)模型類型不同,常用信用評(píng)估模型[5-6]主要分為兩類:統(tǒng)計(jì)方法和人工智能方法。統(tǒng)計(jì)方法實(shí)現(xiàn)簡(jiǎn)單,可移植性強(qiáng),然而計(jì)算精度有限。
為此,本文提出了一種基于混合模型的電力用戶信用評(píng)估方案。首先,在低計(jì)算和操作成本下,使用改進(jìn)的自適應(yīng)彈性網(wǎng)絡(luò)模型,可從諸多的電力信用數(shù)據(jù)中取得了一些關(guān)鍵特征,讓分類結(jié)果變得更加準(zhǔn)確。其次,基于自適應(yīng)孤立森林方法構(gòu)建噪聲增強(qiáng)數(shù)據(jù)集,從而增強(qiáng)模型對(duì)噪聲數(shù)據(jù)的魯棒性,同時(shí),該方法也可緩解模型過度擬合的問題。最終,我們決定使用雙層集成模型來對(duì)ELM模型分類器進(jìn)行改進(jìn),通過增加分類器之間的差異性讓訓(xùn)練效果和性能等得以提升。
令電力用戶歷史信用評(píng)分?jǐn)?shù)據(jù)表示為(xi,yi),i=1,2,…,N,xi是一個(gè)由xi1,xi2,…,xip組成的列表,用于描述電力客戶的信息。yi為類別標(biāo)簽。因此,回歸模型可構(gòu)建如下:
(1)

(2)
由式(2)可以看出,較大的λ使βj中的一些系數(shù)縮減至零,即Lasso模型[7]將系數(shù)逐漸減小到零,而λ逐漸增大。此外,考慮到Lasso模型能夠容納任意數(shù)量的變量,因此可以同時(shí)進(jìn)行系數(shù)的縮減和特征(變量)的選取。

(3)

(4)
(5)

依照以上的計(jì)算結(jié)果,可挑選出更關(guān)鍵的特征。接下來,本文將這些重要特征組合出了一些特征向量,并輸入到且電力用戶信用評(píng)分模型中,以確保在成本不高的前提下,讓分類結(jié)果變得更加準(zhǔn)確。
解決數(shù)據(jù)集中的噪聲問題是對(duì)分類或回歸準(zhǔn)確度造成重要影響的一個(gè)巨大挑戰(zhàn)[8]。一般而言,電力用戶的信用數(shù)據(jù)可能會(huì)受到兩種干擾的影響:類別噪聲和屬性噪聲。前者指代數(shù)據(jù)被錯(cuò)誤分類的情況,而屬性噪聲指代數(shù)據(jù)中有錯(cuò)誤的屬性數(shù)值。
考慮到在實(shí)際情況下,對(duì)比數(shù)據(jù)空間中密集區(qū)域的數(shù)據(jù),在數(shù)據(jù)稀疏分布區(qū)域的數(shù)據(jù)點(diǎn)出現(xiàn)的可能性不是很高,所以可把其作為是異常值。為了對(duì)這些噪聲數(shù)據(jù)進(jìn)行檢測(cè),文章提出了一種自適應(yīng)孤立森林噪聲方法(AIFNM)。首先,此方法使用異常程度對(duì)離群值的分?jǐn)?shù)進(jìn)行計(jì)算,以便于對(duì)數(shù)據(jù)中的噪聲進(jìn)行檢測(cè)。然后,把這些噪聲數(shù)據(jù)逐步加入到訓(xùn)練集中,然后建立了一個(gè)適應(yīng)噪聲的自適應(yīng)訓(xùn)練集。對(duì)比原始數(shù)據(jù)集,噪聲自適應(yīng)訓(xùn)練集中涵蓋了相對(duì)較多的噪聲數(shù)據(jù)。這樣做不只是可以讓模型對(duì)噪聲數(shù)據(jù)的適應(yīng)性變得更強(qiáng),也在一定程度上減少過擬合現(xiàn)象。
AIFNM執(zhí)行過程如圖1所示。令訓(xùn)練集大小為算法應(yīng)用于大小為N。首先,通過計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的離群值得分來確定分離數(shù)據(jù)點(diǎn)。其次,找到有著較高異常值得分的數(shù)據(jù)點(diǎn),然后創(chuàng)建出能適應(yīng)噪聲的訓(xùn)練樣本,以便于讓訓(xùn)練集的效果得以強(qiáng)化。

圖1 AIFNM執(zhí)行過程
極限學(xué)習(xí)機(jī)(ELM)模型,本質(zhì)上就是一種單隱層前饋神經(jīng)網(wǎng)絡(luò)(SLFN)。對(duì)比其他模型,ELM模型的獨(dú)特之處在于它使用隨機(jī)選擇的輸入權(quán)重和隱含偏差,且避免了要進(jìn)行調(diào)整的步驟[9]。同時(shí),隱含層輸出矩陣的穆爾-彭羅斯廣義逆矩陣可用于分析和確定輸出權(quán)重。ELM模型具有良好的泛化性能,可有效減少訓(xùn)練過程的迭代時(shí)間。
對(duì)于任意電力用戶歷史信用數(shù)據(jù)(xi,yi),輸入向量xi=(xi1,xi2,…,xip)T∈Rp為具有p維特征的第i個(gè)樣本,輸出Y=[y1,y2,…,yN]。其中,輸入神經(jīng)元p個(gè),用來對(duì)輸入特征的數(shù)量進(jìn)行描述。同時(shí)還有隱藏神經(jīng)元L個(gè)、輸出神經(jīng)元C個(gè),用來對(duì)輸出類別的數(shù)量進(jìn)行描述。同樣地,存在一個(gè)稱為權(quán)重矩陣K的輸入矩陣。其中每個(gè)kj向量由p個(gè)輸入神經(jīng)元與第j個(gè)隱藏神經(jīng)元的連接組成。以b=[b1,b2,…,bj,…,kL]來描述隱藏神經(jīng)元的偏差,其中bj為第j個(gè)隱藏神經(jīng)元的偏差,ELM的輸出可在下式中來計(jì)算:
h(xi)=G(Kxi+b)
(6)
式中,G()為激活函數(shù)。令H為所有樣本的輸出,則H可計(jì)算如下:
(7)
ELM的輸出可以通過以下計(jì)算獲得,其中隱藏節(jié)點(diǎn)i的輸出向量表示為第i列,輸入xj的隱藏層輸出向量表示為第j行:
(8)
式中,αi=[αi1,αi2,…,αiC]T為連接第i個(gè)隱藏節(jié)點(diǎn)與輸出節(jié)點(diǎn)的權(quán)重向量。

(9)
將式(9)轉(zhuǎn)化為線性方程,則可得式(10):
Hα=Y
(10)
根據(jù)式(10),可以使用最小二乘法估計(jì)輸出權(quán)重值,具體計(jì)算如下:
(11)
式中,H+為矩陣H的穆爾-彭羅斯廣義逆矩陣。對(duì)于電力用戶信用評(píng)分分類,ELM的輸出計(jì)算如下:
(12)
當(dāng)對(duì)ELM模型輸出的多組分類器進(jìn)行組合優(yōu)化時(shí),當(dāng)一個(gè)分類器明顯表現(xiàn)和其他分類器有所不同的時(shí)候,傳統(tǒng)的投票或堆疊方法有可能會(huì)對(duì)整個(gè)模型產(chǎn)生一些負(fù)面效應(yīng)[10]。所以,在本節(jié)中,筆者提出了一種改進(jìn)的雙層集成模型,旨在對(duì)ELM模型分類器組合的效果作出改進(jìn),以便于對(duì)“壞值”分類器帶來的不良影響作出改善。
根據(jù)圖2,雙層集成模型由2個(gè)組件而構(gòu)成。第一層組件采用ELM模型作為分類器,其輸出包括(Cf1、Cf2、…、CfM)作為分類結(jié)果。首先,訓(xùn)練3個(gè)分類器的時(shí)候,我們可以選擇按照以下順序使用投票或堆疊分類器的方法。這些訓(xùn)練過程是:

圖2 雙層集成模型結(jié)構(gòu)圖
(16)

在第二層中,使用投票或堆疊分類器的方法進(jìn)行訓(xùn)練。本文依次把4個(gè)第一層的集成分類器的輸出結(jié)果輸入到第二層,然后把其進(jìn)行合并。具體而言,可以把合并后的結(jié)果當(dāng)作其中的輸入,用于完成一個(gè)新的集成分類器的訓(xùn)練如下:
(17)

最后,本文對(duì)多個(gè)評(píng)估指標(biāo)做出計(jì)算,得出每個(gè)分類器的平均排名,且在測(cè)試集上評(píng)估排名最高的集成模型,以保證分類效果最好。
研究所用數(shù)據(jù)集為中國(guó)某電力公司提供的電網(wǎng)內(nèi)部基礎(chǔ)數(shù)據(jù),包括不同公司的用電基本屬性信息、用電業(yè)務(wù)行為信息、繳費(fèi)方式信息、用電消費(fèi)信息、用電可靠性信息、負(fù)荷特征信息、欠費(fèi)信息、違章用電信息等共計(jì)13 472個(gè)樣本數(shù)據(jù)。數(shù)據(jù)集中的公司包含外貿(mào)、制造業(yè)、電信、信息技術(shù)、能源、農(nóng)業(yè)、房地產(chǎn)、制藥等8類共計(jì)59個(gè)公司,每個(gè)公司包含15個(gè)特征屬性。
首先,通過針對(duì)這些數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗和預(yù)處理,我們成功排除了樣本中有錯(cuò)誤數(shù)據(jù)(缺失值超過80%)的樣本。因此,最終的數(shù)據(jù)集包括了9843個(gè)正常用電樣本和623個(gè)異常用電樣本。其次,通過使用自適應(yīng)彈性網(wǎng)絡(luò)回歸模型,我們可確定出在眾多特征中有著很重要的特征。同時(shí),將這些重要特征組成特征向量并帶入電力用戶信用評(píng)分模型,從而保證低計(jì)算和操作成本前提下,獲取更為精確的分類結(jié)果。經(jīng)過特征提取后,數(shù)據(jù)集維度空間為8,其中包含4個(gè)連續(xù)屬性(用電消費(fèi)信息、負(fù)荷特征信息、欠費(fèi)信息、違章用電信息),4個(gè)離散屬性(電基本屬性信息、用電業(yè)務(wù)行為信息、繳費(fèi)方式信息、用電可靠性信息)。可以看出,該數(shù)據(jù)集具有多維度、樣本不均衡(異常用電與正常用電比例約為1∶15.8)等特點(diǎn)。
此外,為保護(hù)用電客戶的隱私信息,將數(shù)據(jù)集中所有包含公司屬性相關(guān)的名稱去除。進(jìn)一步,將數(shù)據(jù)集按8∶1∶1劃分為訓(xùn)練集、測(cè)試集和驗(yàn)證集。
首先,借助基于孤立森林的噪聲自適應(yīng)模型,可以創(chuàng)建一個(gè)訓(xùn)練集,其中包含了被用來處理噪聲數(shù)據(jù)的樣本,可以提高模型對(duì)這些數(shù)據(jù)的適應(yīng)能力,從而在一定程度上把過擬合能力有所減少。其次,為了應(yīng)對(duì)數(shù)據(jù)不均衡問題,本文提出了一種解決方案。首先,本文運(yùn)用了ELM分類器針對(duì)這些數(shù)據(jù)開展分類,且確定了其中最佳的分類器數(shù)量。接著,本文通過一些訓(xùn)練集針對(duì)上述分類器來完成相關(guān)的訓(xùn)練。為了提升實(shí)驗(yàn)結(jié)果的穩(wěn)定性,并減少偶然性的影響,本文重復(fù)了每組實(shí)驗(yàn)30次,且計(jì)算了這些實(shí)驗(yàn)結(jié)果的平均值,以便于對(duì)模型的性能進(jìn)行評(píng)估。
實(shí)驗(yàn)時(shí)選取準(zhǔn)確率、Brier分?jǐn)?shù)和曲線下面積(AUC)作為指標(biāo)驗(yàn)證不同算法性能。同時(shí),我們?cè)谶@里選擇了決策樹(DT)、動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(DBN)和極限學(xué)習(xí)機(jī)(ELM)等模型,以及對(duì)比了混合模型。
2.3.1 特征提取對(duì)比分析
依照表1的數(shù)據(jù),應(yīng)用自適應(yīng)彈性網(wǎng)絡(luò)(AEN)特征提取方法,各個(gè)模型中的諸多性能得以改善。提取特征以后,DT模型的準(zhǔn)確率直接提高了0.004,SVM模型提高了0.006,RF模型提高了0.013,DBN模型提高了0.006,ELM模型提高了0.003。因此,應(yīng)用AEN對(duì)分類器的分類結(jié)果有很大的幫助。根據(jù)相關(guān)的分析結(jié)果來看,AEN能有效消除冗余和不相關(guān)的變量,讓模型訓(xùn)練的效率有所提升,而且對(duì)訓(xùn)練結(jié)果作出改善。

表1 特征提取前后不同模型性能
2.3.2 噪聲數(shù)據(jù)對(duì)比分析
在使用自適應(yīng)孤立森林噪聲方法(AIFNM)之前和之后,不同模型性能的統(tǒng)計(jì)結(jié)果如表2所示。由表2可知,經(jīng)自適應(yīng)噪聲增強(qiáng)后,除RF模型準(zhǔn)確率降低0.013之外,其余DT、SVM、DBN和ELM模型準(zhǔn)確率分別提升0.003、0.002、0.002和0.007。因?yàn)閿?shù)據(jù)集嚴(yán)重不平衡,導(dǎo)致隨機(jī)森林在提取有效信息和識(shí)別正樣本方面的表現(xiàn)相對(duì)較弱,模型性能沒有明顯的改善。所以,可以得出結(jié)論AIFNM方法有助于提高分類模型的性能并減少其隨機(jī)性。

表2 噪聲數(shù)據(jù)處理前后不同模型性能
2.3.3 最終性能
表3是所提方法應(yīng)用特征提取、噪聲增強(qiáng)數(shù)據(jù)集后,在集成模型中最終的訓(xùn)練結(jié)果。其中平均排名為第二層輸出的所有分類器進(jìn)行平均排名統(tǒng)計(jì)后的結(jié)果(30次實(shí)驗(yàn)中將第二層輸出分類器平均排名按從小至大統(tǒng)計(jì))。可以看出,對(duì)比表1和表2中的基礎(chǔ)分類器,雙層集成分類器表現(xiàn)出明顯的優(yōu)勢(shì),其性能指標(biāo)相對(duì)而言較為突出。最佳分類器的準(zhǔn)確率大約可以達(dá)到88.1%。此外,模型的平均排名越高,性能越優(yōu),集成分類器的泛化性和魯棒性越好。

表3 所提模型最終性能
本文基于電網(wǎng)內(nèi)部基礎(chǔ)數(shù)據(jù)提出了基于混合模型的電力用戶信用評(píng)估模型。首先,基于改進(jìn)的自適應(yīng)彈性網(wǎng)絡(luò)模型從大量電力信用數(shù)據(jù)中提取重要特征。其次,基于自適應(yīng)孤立森林方法構(gòu)建噪聲增強(qiáng)數(shù)據(jù)集,從而增強(qiáng)模型對(duì)噪聲數(shù)據(jù)的魯棒性。為了解決“不良”分類器對(duì)ELM模型分類器而帶來的不利影響,本文最終采用了雙層集成模型。通過該研究,提出了一種新的方法來對(duì)電網(wǎng)電力營(yíng)銷風(fēng)險(xiǎn)進(jìn)行分析,以改善電力風(fēng)險(xiǎn)管理和對(duì)營(yíng)銷服務(wù)情況作出改善。
今后的研究,將會(huì)主要關(guān)注保護(hù)電力用戶隱私和增強(qiáng)配電網(wǎng)網(wǎng)絡(luò)安全,以進(jìn)一步提升配電網(wǎng)數(shù)據(jù)的安全性和服務(wù)管理能力。