薛峪峰, 羅紅郊, 馬曉琴
(國網青海省電力公司信息通信公司,青海,西寧 810008)
電能是不可儲存的特殊商品,生產與銷售需同時進行,因此一般采用“先使用、后付費”的信用銷售模式[1-2]。由于社會信用建設相對滯后,給電費回收的風險管控帶來較大壓力。為規避電費回收風險,及早發現欠費風險用戶,建立電力用戶信用管理制度,迫切需要在歷史數據集上應用信用評價模型識別欠費風險用戶。因此,構建高效、準確的電力用戶信用評價模型是開展電力用戶信用管理工作的基礎。
信用評價模型通常基于機器學習算法構建[3]。研究顯示,綜合特征選擇、分類等算法步驟的混合算法是保證用戶信用評分模型性能的有效方法,這是因為用戶信用評價數據集中包含大量和冗余的特征,需要通過特征約簡降低計算復雜度和提升分類準確度[4-5]。
由于“自我優化”“靈活性”和“簡單的基本規則集”等特性,元啟發式算法可有效解決特征選擇問題[6]。文獻[7]將GA應用于ANN的圖像特征選擇,加快了網絡收斂速度。文獻[8]提出了一種基于PSO的特征選擇與基于SVM的分類相結合的信用風險識別及預警模型,提升了分類精度。文獻[9]使用蝙蝠算法優化了基于SVM的故障分類算法,有效防止了局部收斂,取得了較好的預測精度。
本文基于結合數據預處理、特征選擇和分類器的混合算法,設計了一種電力用戶信用評價模型,以識別存在欠費風險的電力用戶。在模型構建方面,使用改進蝙蝠算法提高特征選擇質量,使用優化的適應度函數提升分類精度和降低計算成本,使用徑向基函數網絡(RBFN)基于所選特征子集進行電力用戶的分類。在模型應用方面,基于模型計算結果制定個性化電費催繳措施,從而主動應對電費回收風險,確保電費回收風險可控、能控、在控,保障電費回收管理規范高效。應用結果證明,該模型能夠有效支撐電費回收管理工作的高效開展。
電力用戶信用評價模型的主要目標是確定電力用戶屬于信用良好或信用較差(可能在不久的將來做出欠費行為)用戶群體。該模型主要由數據預處理、特征選擇和分類器三個主要流程組成,如圖1所示。

圖1 所提電力用戶信用評價模型架構
電力用戶可分為居民生活用戶、工業用戶、商業用戶以及農業生產用戶。依據用戶分類,信用指標(即特征)又可分為商業信用指標(企業形象、資產負債率、繳納電費占比等)、安全信用指標(安全檢查記錄、安全事故記錄等)、合作信用指標(綜合能源服務記錄、配合檢查記錄、調度合作記錄等)以及法律信用(違章用電、電費繳納情況等)[10]。如果不根據對屬性不同、數值差異較大以及包含缺失值的龐雜數據集進行適當處理,將難以直接進行分類計算。
數據預處理的第一步是剔除具有缺失值的數據樣本。其次,對非實數類型的特征屬性進行處理,將其屬性值轉換成唯一的實數,因為神經網絡分類器只支持實數的輸入向量。最后,由于在信用評分數據集中特征取值差異過大,為防止具有大數值范圍的特征支配具有小數值范圍的特征,使用式(1)進行數據標準化,
(1)
其中,x表示具有N個特征值的數據樣本,Nvalue表示新分配的特征值。
為從原始特征集中確定一個最小規模的特征子集,且該特征子集足以描述給定數據集中電力用戶的信用特征,設計基于改進蝙蝠算法的特征選擇算法。
1.2.1 改進蝙蝠算法
蝙蝠發出一個短脈沖的聲音并等待,在接收到回聲返回后估計物體的距離。借鑒蝙蝠這種特殊的回聲定位能力,文獻[11]設計了一種新的元啟發式優化算法,即蝙蝠算法(BA)。在BA中,一群蝙蝠利用回聲定位能力追蹤食物。基于蝙蝠回聲定位行為和捕食行為,BA給出了蝙蝠的短脈沖頻率、位置和速度的計算規則[11]如式(2)、式(3)和式(4):
Freqi=Freqmin+(Freqmax-Freqmin)×β
(2)
Vli(t+1)=Vli(t)+(Posi(t)-Gbest)×Freqi
(3)
Posi(t+1)=Posi(t)+Vli(t+1)
(4)
式中,Freqi表示每次迭代更新的第i個蝙蝠的短脈沖頻率,β∈[0,1]是0到1之間的隨機生成數,Gbest是得到的最佳解,Vli(t)和Posi(t)表示第t次迭代時第i個蝙蝠的速度和位置。
式(2)、式(3)和式(4)已可以保證BA正常迭代運行,但為增強BA的收斂性能,在正常迭代過程中添加了一個隨機游走過程,如式(5)~式(7):
Posnew=Posold+ε×Lt
(5)
Li(t+1)=α×Li(t)
(6)
Ri(t+1)=Ri(0)[1-e-γt]
(7)
式中,ε∈[0,1]是0到1之間的隨機生成數,Li和Ri表示第i個蝙蝠在第t次迭代時的脈沖幅值和脈沖發射率。在算法迭代過程中,Li和Ri分別按照式(6)和式(7)進行更新。
在BA中,蝙蝠位置在連續搜索空間中變化,但是在本文的二分類問題中,需要在離散空間或二進制空間中對蝙蝠位置進行搜索,蝙蝠位置需要用1或0表示。因此,使用二進制蝙蝠算法(BBA)在離散空間中更新蝙蝠位置[12]。BBA將連續搜索空間映射到離散搜索空間,如式(8):
(8)

在完成搜索空間的映射后,使用式(9)更新蝙蝠位置,
(9)

式(8)和式(9)通過閾值限制將蝙蝠位置值轉換為1或0。這導致當蝙蝠速度增加時,蝙蝠位置不會改變。為解決該問題,修改空間映射函數和位置更新方法如式(10)、式(11):
(10)

(11)

1.2.2 特征選擇
在特征選擇算法中,將數據集分為訓練數據集和測試數據集兩部分,分別表示Tr和Ts。前75%的數據樣本指定為Tr,其余25%的數據樣本指定為Ts。在特征選擇算法中,首先初始化蝙蝠的種群、位置、脈沖響度和脈沖發射率。蝙蝠初始位置是隨機選擇的,其值為0或1。蝙蝠種群大小與該數據集中的特征總數相同。如果位置值為1,則表示該位置對應特征存在,否則不存在。此外,根據蝙蝠位置從Tr和Ts中生成新的訓練和測試數據集,即D1和D2。分類器在D1上進行訓練并在D2上進行測試,以計算每個蝙蝠的適應度值。此外,如果已經接受了新的位置,則分別根據式(6)和式(7)更新幅值Li和脈沖發射率Ri。一般來說,蝙蝠捕捉到獵物后,脈沖發射率會增加,幅值會降低。特征選擇算法步驟如下。
(1) 初始化蝙蝠的種群和位置。蝙蝠種群大小與數據集特征數量相同,蝙蝠位置隨機取值1或0。其中,1表示對應位置特征存在,0表示不存在。
(2) 初始化蝙蝠的速度、幅值和頻率。
(3) 從原始數據集創建訓練集和測試數據集。
(4) 為每個蝙蝠生成具有選定特征的訓練和測試數據集(D1和D2)。
(5) 計算每只蝙蝠的適應度值,并根據適應度值找到局部最佳值。
(6) 更新蝙蝠的速度、響度和頻率。
(7) 重復步驟(2)直到迭代次數和適應度值分別小于最大迭代次數和或閾值。
(8) 找到全局最優Gbest,并將Gbest對應的位置作為選擇特征。
1.2.3 適應度函數
提升分類精度和降低所選特征集的計算成本是設計適應度函數的主要目標。在電力用戶信用評價數據集中,可能有一些特征比其他特征更有價值,例如對于居民生活用戶而言,電費繳納情況比繳納電費占比更有價值。因此,針對每個特征的準確性、特征數量和權重,設計如式(12)所示的適應度函數,
(12)
式中,Wa表示分類精度的權重系數,Acc表示分類精度,Wf表示所選特征成本的權重系數,Fi表示第i個特征,Wi表示第i個特征的權重系數,N表示數據集中特征的總數。
在式(12)中,準確度與預定義的權重系數Wa相關,如果準確度是信用評價中最重要的問題,則可以調整其為1。此外,每個特征都與權重系數Wa相關聯,這表明該特征對信用評價的價值,即最有價值特征被分配最大的權重系數。

為了在迭代過程中使得具有更高適應度值的蝙蝠被保留概率更高,可根據不同的電力用戶類型優化調整準確度權重系數和特征集的計算成本權重系數值。
分類是指輸入向量到某個輸出類的映射。主流的分類器有“多層前饋神經網絡(MLFN)”“多層感知器網絡(MLPN)”等。這些分類方法采用迭代的方法訓練,需要較長時間來進行網絡收斂。與MLFN和MLPN不同,徑向基函數網絡(RBFN)是非迭代模型,需要單次迭代進行訓練,因此訓練時間較短。研究表明,RBFN的分類性能也優于MLFN和MLPN模型[13]。因此,本文基于RBFN設計的分類器如圖2所示。

圖2 所設計的RBFN結構
所設計的RBFN具有四層前饋架構,第一層是輸入層,第二層是隱藏層,第三層是求和層,第四層是輸出層。RBFN使用徑向基函數作為激活函數。在輸入層,神經元的數量與輸入特征向集上的特征數量相同。該層完全連接至隱藏層。隱藏層包含M個神經元,M等于訓練數據集中的數據樣本數。該層完全連接到求和層。求和層中神經元的激活函數為徑向基函數,如式(13)所示。求和層有少量神經元,相當于訓練數據集中類標簽的數量。最后,輸出層只有一個輸出神經元,代表分類的類別標簽。
(13)
式中,φ(x)是隱藏層的輸出向量,x是隱藏層的輸入向量,σi是第i個隱藏神經元的輸出,μi是中心向量。
(14)
式中,R是徑向基矩陣,T是訓練數據集的目標向量。
α=[R′×R]
(15)
W=α-1×R′×T
(16)
式中,R′是矩陣R的轉置,α是方差矩陣。
Yi=Wi×φ(x),i=1,2,…,M
(17)
式中,Yi是第i個求和層神經元的輸出,Wi是式(16)所計算得出的第i個求和層神經元的權重系數。
根據某市級供電公司從2020年1月至7月于試點區域收集的歷史數據,使用本文所提出的模型計算信用較差的電力用戶,并將該計算結果與8月欠費用戶進行比對,以驗證模型的性能。按此方法,依次計算9~12月的存在欠費風險的電力用戶。
收集的歷史數據包含120個居民生活用戶、40個大工業用戶、100個一般商業用戶以及60個農業生產用戶,一共3840個數據樣本。數據集中的信用指標分為商業信用、安全信用、合作信用以及法律信用4大類,共16個特征指標。模型應用結果如下。
對信用評價模型輸出的信用較差用戶與實際發生欠費用戶進行對比,用準確率、完整率、有效率三個評價指標來評估電力用戶信用評價模型實施效果。準確率即在模型輸出的信用較差用戶中,真實發生欠費的用戶占比,該指標用以衡量模型的準確性;完整率則是在模型輸出的信用較差用戶中,真實發生欠費的用戶占全體信用較差用戶的比例,該指標用以衡量模型的全面性;有效率指模型輸出結果的準確率與隨機篩選的準確率的比值,該指標用以衡量模型的有效性。
將所輸出信用較差用戶與實際欠費用戶對比,發現工業用戶的識別準確率最高,表1顯示8~11月準確率平均為75.9%,完整率為63.5%。在12月,為了提升模型完整率,準確率有所降低。

表1 工業用戶識別結果
商業用戶識別較為準確,表2顯示8~11月準確率平均為70.8%,完整率為 43.2%。在12月,為了提升模型完整率,準確率有所降低。

表2 商業用戶識別結果
居民生活用戶識別準確率類似一般商業用戶,表3顯示8~11月準確率平均為70.0%,完整率為43.0%。在12月,為了提升模型完整率,準確率有所降低。

表3 居民生活用戶識別結果
農業用戶預測準確率稍低,表4顯示8~11月準確率平均為66.9%,完整率為44.1%。在12月,為了提升模型完整率,準確率有所降低。

表4 農業用戶識別結果
根據電力用戶信用評價模型的輸出結果,結合具體業務應對策略,按照電費風險防控管理流程,將相應業務策略推送至相應崗位,主動開展電費催繳。
對于工業客戶,模型計算結果的準確率最高,因此可依據模型結果制定完備的電費回收風險管控措施,包括風險用戶信息發布、風險用戶信息收集、用戶信用評估報告生成、電費催繳措施確認、電費催繳措施執行與催繳措施執行效果評估等環節,對已實施催繳措施的用戶進行催繳成效追蹤,催繳結果可納入案例庫,完善催繳策略。
對于一般商業用戶、居民生活用戶以及農業用戶,模型計算結果不夠準確,且這部分用戶數量極大,因此需要將模型計算結果整理分發給相關電費催繳責任人,由責任人依據具體情況定期開展針對風險用戶的催繳、專項核抄等,確定具體的真實的欠費風險用戶,為提高欠費催繳的效率提供必要的數據支撐。
根據模型計算結果,于2021年1月份對信用較差電力用戶采取針對性的應對策略,試點區域電費回收率得到提升。
試點區域中工業用戶欠費數減少2%,欠費率降低0.81%;商業用戶欠費數減少8.2%,欠費率降低6.64%;居民生活用戶欠費數減少8.6%,欠費率降低4.06%;農業用戶欠費數減少4.6%,欠費率降低0.09%。
將試點區域應用結果與其他區域對比,試點區域欠費率總體下降2.9個百分點,其他區縣下降0.05個百分點。其中,工業用戶欠費率試點區域下降 0.81 個百分點,其他區域上升0.02 個百分點。具體見表5和表6。

表5 試點區域應用結果

表6 其他區域對比結果
研究表明,基于電力用戶信用評價模型電費風險管控策略能夠快速響應業務需求,幫助業務人員從海量電費數據中預測潛在的風險用戶,提高欠費催繳效率。本文以信用評估與電費風險防控主題為例,證明了電力用戶信用評價模型能有效預警電力繳費信用較差人群,推動催繳工作的主動開展,提升試點區域電力用戶總體電費回收率。該模型在青海等地試點應用,取得了較好的效果,為精準實施電費回收風險管控,提高客戶服務的個性化、精準度提供了有力支撐。