999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于營銷大數據的電力客戶多維度信用評價模型研究

2022-06-22 02:54:46劉翠玲胡聰王鵬洪德華張庭曾
西南大學學報(自然科學版) 2022年6期
關鍵詞:特征評價方法

劉翠玲, 胡聰, 王鵬, 洪德華, 張庭曾

國網安徽省電力有限公司 信息通信分公司,合肥 236000

隨著電力體制改革的深入,電力系統由于其復雜的結構受到了多方面的影響.對于電力營銷部門而言,電力市場交易類型更加多元化,隨著電力客戶的不斷增長,如何對電力客戶信用進行評價成為電力營銷部門的一個關鍵問題.因此,電力市場監管機構迫切需要一個準確的方法對各級市場客戶進行信用評價,為有效防范市場風險提供決策依據,為保障市場規范運行和健康有序發展提供技術支持.

如何建立一個可靠的電力用戶信用評價指標是許多研究者關注的重點.文獻[1]提出了客戶信用評價指標體系,包括企業財務狀況、支付狀況等;文獻[2]計算了不同信用類別之間的相關系數;文獻[3]基于運籌學中的層次分析法對電力客戶的信用風險進行了評價;文獻[4]采用熵權方法構建了電力客戶風險評價模型.

根據方法和類型不同,信用評價方法大致可以分為以下3種:專家系統、統計模型和人工智能方法[5].傳統方法依賴于大量結構化的歷史數據,基于大數據的信用評價方法則通過分析和挖掘海量、多樣化的動態數據,然后利用機器學習算法設計信用評價模型,多維度刻畫信用主體的“畫像”,向信息使用者呈現信用主體信用狀況[6].因此,由于其高效率、高性能和基于大數據樣本的優秀處理能力,許多研究者將各種機器學習算法應用于信用風險預測領域.

基于大數據的信用評價最常用的算法是邏輯回歸(Logistic Regression,LR),因為它結構簡單、可解釋性、準確性高.盡管深度學習模型顯示出顯著的信用評估準確性,但它缺乏可解釋性,在處理相對較小的數據集時性能較差,這使得它無法廣泛應用于信用評價系統.除此之外,模糊數學在決策類型的算法中也常常能表現出較好的效果,如文獻[7]中采用基于模糊的層次分析對風險進行評估,文獻[8]采用模糊數學進行了節點選舉的決策.同時,以決策樹(Decision Tree,DT)、隨機森林(Random Forest,RF)、梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)和極限梯度提升(eXtreme Gradient Boosting,XGB)為代表的機器學習算法在小數據集上具有優越的預測評價效果,在電力客戶信用評價方面有廣泛應用[9].機器學習算法在分類和回歸問題上具有良好的性能,并且可以在相對較短的訓練時間內獲得更好的預測效果.其中DT是預測個人信用的代表性算法,因為它在效率、準確性和可解釋性方面表現出顯著的優勢[10].然而,單一的機器學習方法往往會導致過擬合,并且難以處理實際問題中出現的數據集不平衡問題,為了彌補單一機器學習方法的不足,集成學習技術應運而生,并逐漸成為機器學習研究領域的主流方法.

集成學習理論起源于Kearns等[11]提出的強學習和弱學習的等價原則,這種原則規定為得到一個優秀的強學習模型,可以將幾個簡單的弱學習模型結合起來進行綜合考慮.考慮到DT算法在各種機器學習算法中性能較好,訓練時間相對較短,提出了基于DT的集成學習方法,RF、GBDT和XGB就是集成學習和DT相結合的典型集成算法.文獻[12]首次結合集成方法、DT算法和隨機子空間方法提出了RF算法;文獻[13]提出了解決回歸和分類問題的GBDT算法;文獻[14]采用了一種改進的GBDT算法和XGB算法并與RF模型進行了實驗對比,結果表明,XGB算法能夠取得更優越的效果.XGB起源于高效Boosting集成學習模型,它利用樹分類器獲得了更好的預測結果和更高的運行效率,在數據競賽平臺Kaggle的競賽中取得了優異的成績.近年來,文獻[15]將LR,DT,神經網絡與XGB進行了比較,并通過混淆矩陣和蒙特卡羅模擬基準作為評價指標,驗證了XGB算法在信用評價中的優越性能;文獻[16]提出了一種新的集成模型,利用疊加法框架對XGB、支持向量機(Support Vector Machine,SVM)和RF進行建模,實驗表明,所提出的集成模型對信用評價方面具有更好的預測能力.

基于以上分析,集成學習理論適用于電力營銷部門的多維數據中,采用XGB模型能夠對客戶數據進行建模并對客戶信用情況進行預測.因此,本文首先針對分類問題對XGB模型進行了重組,并給出了使用XGB模型進行特征選擇的理論依據.隨后,本文利用電網營銷平臺提供的電網客戶評估數據進行建模,并采用基于XGB算法的非線性方法代替傳統的線性方法對特征選擇方法進行改進,結果表明,基于XGB模型的特征選擇方法對5種模型都有顯著的改進效果.隨后,對XGB,LR,DT,GBDT,RF 5個模型的信用評價效果進行了對比分析,其中XGB模型在電力營銷數據中對于信用評價效果具有最優表現.

1 信用評價模型基本概念及關鍵技術

1.1 信用評價模型基本概念

客戶信用是客戶與電力營銷機構之間的交易關系,是按照約定合同履行相應義務的情況[17].而信用是一個無法衡量的概念,為了對信用進行精細的等級劃分,就需要一個具有可量化的指標便于管理.對于電力營銷機構而言,為對客戶進行信用等級分類,建立一個能夠準確分析用戶信息,從而構建有效的區分客戶信用等級的評估方法,同時對于新加入的客戶根據歷史客戶信息進行劃分也是十分重要的.

信用評估模型就是對客戶信用水平、客戶質量等級進行準確地評級和科學的評估[18],并以此對不同信用等級客戶進行管理的依據,這對于提高電力營銷策略制定效果、優化營銷效率、規避由于客戶的不守約行為而導致的虧損等具有實踐性的意義.通過對相關文獻的研究和電力客戶歷史數據信息,同時根據電力行業客戶信用等級劃分準則,采用集成學習的思想對電力客戶信用級別進行了劃分.

1.2 極限梯度提升模型介紹

符號及其含義如表1所示.

表1 符號參考表

(1)

因此,構建XGB模型需要解決3個關鍵問題.

1) 每輪迭代如何建立決策樹,也就是葉節點如何進行拆分;

2) 如何確定每個DT上葉節點的預測值;

3) 每個DT與前一個DT有什么關系.

以上這3個問題由目標函數決定如式(2),該算法的目標函數可以表示為

(2)

(3)

其中Tk是第k棵樹的葉子節點數,γ是葉結點T的收縮系數,ωkj是第k棵樹在j個葉子節點上的分數,λ是葉節點得分ω的懲罰系數,Ω(fk)的值需要通過交叉驗證進行優化.

(4)

定義Ij={i|q(xi)=j}作為DT中第一個葉節點j上的樣本點集合,其中構造函數q(x)將樣本點x映射到葉節點j的位置,v表示每個葉節點的分數,因此DT的結果可以用ωq(x)表示.考慮每個DT中f(x)包含一個獨立的樹結構q(x)和這棵樹結果為ωq(x),因此每個DT可以表示為

f(x)=ωq(x),ω∈RT,q:Rd→{1,2,…,T}

(5)

將公式(5)代入公式(4),可推導出以下方程:

(6)

其中Gj=∑i∈Ijgi,Hj=∑i∈Ijhi.

在本文中將信用評價問題看為多分類問題,樣本實際標簽yi的值是一個概率,因此本文選擇對數損失函數作為損失函數:

(7)

對數損失函數的推導如下,在樣本空間(x1,y1),…,(xn,yn)中,對于多分類問題,標號列yi的值是0或1.n個樣本的概率Yi=yi(i=1,2,…,n),可以根據多項式分布的概率公式得到:

(8)

在這種情況下,需要滿足最大似然函數lnP最大值.如果將損失函數設置為-lnP,它可以等效于損失函數的最小值.然后,損失函數可以表示為公式(7),gi和hi的值可以推導為

gi=pi-yi

(9)

hi=pi(1-pi)

(10)

同樣,對于多分類問題,也可以選擇Softmax函數作為損失函數:

(11)

其中M代表標簽的類別.

1.3 XGB模型需要解決的問題

(12)

在這種情況下,目標函數的最小值為

(13)

(14)

(15)

XGB通常將公式(15)中的增益值作為評價特征重要性的指標,可以用來衡量某個特征對于預測結果的影響能力,因此可以根據增益值對特征進行過濾.

(16)

1.4 XGB模型算法預測過程

1.4.1 初始化

1.4.2 根節點設定

為確定當前根節點,需要首先遍歷并計算所有特征的增益值,以找到增益得分最大的特征節點作為當前根節點.迭代過程的具體流程如圖1所示.

圖1 迭代尋找最大增益流程

1.4.3 建立葉節點集

根據第二步找到增益值最大的特征,將樣本集分為兩部分,得到兩個葉節點樣本集,對兩個葉節點的集合分別重復上述第二步與樣本集劃分的過程,不斷構建分支節點,直到增益分數為負或滿足其停止條件,以此建立整棵樹.

1.4.4 計算所有節點的預測值

重復執行步驟1.4.1到1.4.4,直到建立足夠數量的樹來保證預測結果能夠使評估函數獲得最好的效果.

1.4.5 輸出分類的結果

據公式(7)獲取不同結果的概率,對于多分類問題采用一對多拆分的思想,對每個類別都將其他類別設置為反例,那么就有N個分類器.每個分類器都能夠識別一個固定類別,如果有一個分類器為正類,則就為該類別,若有多個分類器為正類,則選擇置信度最高的分類器用于分類.為使每輪預測值更接近真實值,每棵樹都是基于前一棵樹的預測結果構建的,從而提高模型的預測效果.

2 實驗結果與分析

本節將XGB算法應用于一個營銷客戶數據集中,并與其他4種機器學習算法進行比較,驗證了XGB算法在特征選擇和分類方面的能力.首先對數據集進行預處理,因為數據集中存在各種質量問題可能會干擾分類結果,例如數據不平衡、空值、數據異構等問題;然后,將根據特征選擇算法提取數據中特征;最后對模型進行訓練、測試和評估.

2.1 數據描述

本文采用的數據是基于電力營銷部門提供的數據集,每季度更新一次.原始數據集包括2018年1月1日至2018年12月31日期間的樣本1 272個,于2019年8月5日下載,包含143個特征變量和1個標簽列,標簽是根據歷史行為信息人工標注的信用等級評價.考慮到標簽欄中包含的7種狀態以及電力營銷部門的實際狀況,將“全額支付” “支付中” “寬限期” “違約” “違約(16~30 d)” “違約(31~120 d)” “指控中”通過編碼的形式進行轉換.數據集中不同標簽的分布如表2所示.

表2 數據集標簽分布

2.2 數據預處理

由于樣本之間的比例不均衡,出現了長尾現象,本文采用了分層隨機采樣的方式,將大樣本量與小樣本量的分布控制在4∶1.根據實際經驗,手動刪除了29個不符合進入模型標準的特征,選擇了114個特征,考慮到某個特征在有大量空值時不再具有代表性,因此刪除了缺失比例超過50%的35個特征,還剩余79個特征.對于字符數據通過獨熱編碼的方式進行轉換,即將字符類別變量轉化為易于模型學習的數字形式,并采用所有非空值的平均值填充數據列中空值,針對離散數據列中的空值采用0進行填充.

2.3 特征選擇

為了驗證XGB特征選擇的有效性,首先使用傳統基于線性的皮爾遜相關圖選擇特征方法進行特征提取,傳統線性方式的流程如下:首先輸入數據預處理后的79個特征,對于每個自變量計算其預測能力,用皮爾遜相關圖找出任意兩個特征之間的相關系數.為了提高模型效率和減少數據冗余,對于兩個相關系數大于0.6的特征,只能保留預測能力較高的特征.經過基于線性的皮爾遜相關圖選擇特征方法,一共選擇了17個特征,這意味著處理后的最終數據集將只包含這17個特征.

基于XGB的特征選擇模型采用經過數據預處理后的79個特征作為特征提取模型的數據集,將所有的特征放入XGB特征提取模型中,計算每個特征的增益值與重要性指數,獲取不同特征對于預測值的重要度的排名,可以采用XGB庫中提供的Get_Fscore函數返回由高到低排序的特征重要性索引表,然后選取重要度指標最高的17個特征,與之前方法選擇的特征相比,有9個不同的特征.

2.4 結果分析

在本節中,將XGB的預測結果與LR,DT,RF和GBDT進行比較,從而評估模型的性能.

原始數據集在每個部分的樣本比例保持不變的前提下,隨機分為5個部分,模型的預測效果將通過五重交叉驗證來驗證,這意味著將隨機選擇4個部分作為訓練集,剩余一個部分作為測試集.對于原始數據將被隨機分成5個集合s1,s2,…,s5,使5個集合的大小和分布相等.然后將5個集合中的一個用作測試集合,其余4個集合被用作訓練集合.最后,將這5個測試集的平均值作為模型的最終預測結果.

在模型訓練過程中,采用Python提供的相關函數進行處理,通過GridSearch(網格搜索)函數返回每個模型的最優參數.為便于處理,對沒有違約的客戶作為正例,而違約的客戶作為反例.根據抽樣后分組的數據即每組254個樣本數據,在對比兩種特征選擇方法后構建混淆矩陣如表3、表4,可以看出采用XGB作為特征選擇的方式有一定優勢,對于區分客戶的信用能力更強.

表3 傳統特征選擇方法的混淆矩陣

表4 XGB特征選擇方法的混淆矩陣

分類問題中最常見的評價指標是準確率,如Kappa,AUC等,它們通常是一起考慮的.其中Kappa通常用于衡量不平衡數據集中的分類準確率,Kappa越高,分類準確率越高.通過計算分類問題標準評價指標ROC和AUC,繪制ROC曲線.ROC曲線通常用于衡量模型的預測性能,AUC(ROC曲線下的面積)用于評估分類系統的性能.AUC的取值范圍為[0,1],AUC越大,模型的分類效果越好.

基于傳統特征選擇和XGB特征選擇方法的5種模型的性能分別如表5和表6所示.可以看出本文采用的基于XGB特征選擇方法比傳統特征選擇方法在各個模型上都能取得明顯的優勢,同時XGB在分類效果上能取得最好的效果.兩種特征選擇方法的ROC曲線與準確率如圖2所示,也能明顯看出XGB特征選擇方法由于采用了特征重要度指標與增益值兩個指標,對于特征選擇的效果優于傳統基于皮爾遜系數的方法.兩種特征選擇方法的5個對比模型的ROC曲線如圖3所示,可以看出基于樹的模型如XGB,RF,GBDT等采用集成學習的思想能夠對客戶信用做出一個較為準確的預測,而傳統的方法只是采用單一模型去擬合電力客戶數據,可能會欠缺某些關鍵特征的獲取.而XGB模型由于能夠計算不同葉節點上的增益值,匯聚不同節點的預測結果從而達到了最好的預測效果.

圖2 不同特征選擇方法對比

圖3 兩種特征選擇方法的5個對比模型的ROC曲線

表5 基于傳統特征選擇的5種模型表現

表6 基于XGB特征選擇的5種模型表現

從圖表分析看,XGB特征選擇方法可以有效提取電力營銷大數據中的關鍵特征,這種特征選擇方法的優勢在不同模型中都可以體現出來.此外,在表5和表6中,XGB的準確率、Kappa值、AUC值和KS值最高,其中準確率說明了XGB模型在預測效果上遠超其他模型,這可能是由于多維客戶數據基于集成思想的XGB模型能夠更好地處理樣本數據之間的關系.而對于Kappa值,它代表處理數據不平衡的能力,而本文采用的數據是呈現明顯的長尾分布,而XGB模型通過修改部分參數能夠處理樣本不平衡的情況.KS值能夠反映處理好壞樣本的能力,而KS值通常與AUC一起來判斷模型預測的效果,KS值越大,體現模型對好壞樣本的區分能力越強.而XGB模型通過集成學習的思想對數據中存在的差異性能夠更好地捕捉,實驗結果也表明了XGB模型的優越性,效果明顯優于其他4個模型,在客戶信用評價中能起到更好的表現.

通過本文提出的XGB模型,分析歷史的客戶信息以及交易信息,從而建立一套可以用于區分客戶信用級別的多維度信用評價模型.該模型采用集成學習的思想,通過樹模型的結構對特征計算信息增益,同時采用多個弱學習模型的結果組成一套強學習模型,建立了客戶畫像,能夠有效地對新客戶根據其信息進行信用等級預測,能夠幫助電力營銷部門進行精準營銷、規避風險.

3 結論

我國作為一個用電大國,對于電力客戶信用的研究相對起步較晚,而客戶信用問題一直都是困擾電網部門實現精準營銷的關鍵問題.本文首先研究了近年來客戶信用評價模型的研究現狀,對電力營銷客戶信用數據進行了分析,提出了基于XGB算法的信用等級分類問題的理論建模,然后基于電力營銷數據集與客戶信息數據,將XGB應用于電力營銷系統中的信用等級預測,取得了較好的成果,結果表明:

1) 采用XGB模型進行客戶信用等級預測,改變了之前采用層次分析法與熵值法無法處理大量數據的情況.

2) 通過采用增益值計算方法與特征重要度指標作為特征選擇方法,比傳統的特征選擇方法其實驗表現效果更好.

3) 通過與LR,DT,RF和GBDT的性能對比,驗證了XGB在特征選擇和分類性能上具有明顯優勢.

猜你喜歡
特征評價方法
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
基于Moodle的學習評價
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
保加利亞轉軌20年評價
主站蜘蛛池模板: 国产成熟女人性满足视频| 久久综合婷婷| 亚洲男人的天堂视频| 亚洲无码高清视频在线观看 | 在线观看国产精品一区| 91黄色在线观看| 亚洲国产91人成在线| 免费高清a毛片| 色哟哟国产精品| 中文字幕伦视频| 91久久夜色精品国产网站| 亚洲第一视频区| 欧美成人精品在线| 色综合天天操| 77777亚洲午夜久久多人| 精品无码国产一区二区三区AV| 2020精品极品国产色在线观看| 91成人免费观看在线观看| 四虎影视8848永久精品| 欧美午夜理伦三级在线观看| 夜夜高潮夜夜爽国产伦精品| 狠狠色成人综合首页| 日本久久网站| 国外欧美一区另类中文字幕| 久久精品aⅴ无码中文字幕| 99视频有精品视频免费观看| 国产自在自线午夜精品视频| 欧美日韩高清在线| 免费黄色国产视频| 无码专区国产精品一区| 欧日韩在线不卡视频| 日韩欧美网址| 91在线日韩在线播放| 亚洲第一区欧美国产综合| 亚洲日韩精品无码专区97| 在线另类稀缺国产呦| 婷婷伊人久久| 欧美v在线| 久久香蕉国产线| 99久久精彩视频| 精品国产毛片| 国产内射在线观看| 91欧美在线| 午夜日b视频| 国产真实乱子伦精品视手机观看 | 亚欧成人无码AV在线播放| 暴力调教一区二区三区| 欧美成人在线免费| 久久综合九色综合97网| 性欧美在线| 国产成人盗摄精品| 91丝袜乱伦| 亚洲国产AV无码综合原创| 久久综合丝袜长腿丝袜| 国产AV无码专区亚洲A∨毛片| 欧美精品高清| 亚洲大学生视频在线播放| 欧洲高清无码在线| 亚洲国产清纯| 在线观看国产精品日本不卡网| 91原创视频在线| 在线亚洲天堂| 国产又黄又硬又粗| 久久亚洲天堂| 91香蕉国产亚洲一二三区| 无码综合天天久久综合网| 国产乱子伦一区二区=| 国产99视频精品免费观看9e| 国产微拍一区| 青草视频网站在线观看| 91精品国产丝袜| 亚洲三级视频在线观看| 国产亚洲欧美在线视频| 国产拍在线| 国产成人禁片在线观看| 青青网在线国产| 亚瑟天堂久久一区二区影院| 亚洲成人福利网站| 三上悠亚精品二区在线观看| 久久国语对白| 91精品久久久久久无码人妻| 久久精品嫩草研究院|