999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進隨機森林算法的停電敏感用戶分類①

2019-03-11 06:02:20謝國榮林偉圻陳基杰
計算機系統應用 2019年3期
關鍵詞:分類特征用戶

謝國榮,鄭 宏,林偉圻,徐 鳴,郭 昆,陳基杰

1(國網信通億力科技有限責任公司,福州 350001)

2(國網福建省電力有限公司 電力科學研究院客戶服務中心,福州 350003)

3(福州大學 數學與計算機科學學院,福州 350116)

4(福建省網絡計算與智能信息處理重點實驗室,福州 350116)

1 引言

隨著社會經濟的不斷發展,各部門對電力的穩定性要求越來越高,而電網公司通過各種供電可靠性措施,不斷加快搶修速度,已使得停電次數和時間大大減少[1].盡管電網公司的服務水平越來越高,用戶對于用電的需求也在不斷的提升,一些停電敏感的用戶對于供電更是具有嚴格的要求.由于停電給用戶帶來的負面影響大小不同,造成用戶存在不同程度的停電敏感度[2].停電敏感用戶是指對停電事件關注度較高的用戶.通過分析用戶的行為特征,借助數據挖掘、機器學習等技術對用電客戶進行停電敏感度分類預測,不僅可以有效的提高供電服務,還有助于減少95 598的客戶投訴量[3,4].

目前,很多電網企業已經開啟了客戶關系管理(CRM),結合數據挖掘技術對用戶的停電敏感度進行標識,并根據不同用戶提供差異化的增值服務,提高用戶的滿意度[5].Kaminski等人[6]開發了一套基于決策樹的停電用戶敏感分類框架,利用該框架可以計算出每個用戶的停電敏感概率,從而達到敏感用戶分類的目的.劉平等人[7]根據電力用戶的滿意度調研數據以及專家分析,結合停電時段信息,建立用戶在不同時間段的停電敏感等級指數,這種方法只針對不同類型的用戶進行劃分,沒有深入到個體用戶層面.嚴宇平等人[8]通過分析停電用戶的屬性特征,利用邏輯回歸和SVM算法等機器學習算法,建立停電敏感程度預測模型,模型可以準確的預測用戶停電敏感度,但模型訓練時間較慢.鄭芒英等人[9]通過建立隨機森林模型對用電用戶停電敏感度進行分析,可以區分出用戶的敏感程度,但是未能有針對性對目標用戶清單進行篩選且未對用戶停電特征進行評估,模型的穩定性不高.耿俊成等人[10]提出了基于K-support稀疏邏輯回歸的停電敏感度預測模型,通過優勢分析法對特征屬性的顯著性進行分析,提升了模型的準確性,但該模型未考慮數據分布不均勻的問題.

本文針對傳統的機器學習方法在不平衡數據集的處理性能較差,及易存在過擬合等問題,提出一種基于改進隨機森林算法的停電敏感用戶分類算法POSCC(Power Outage Sensitive Customer Classification).論文的主要創新點有:(1)引入 SMOTE (Synthetic Minority Oversampling TEchnique)算法提高少數類停電敏感用戶的數據比例,解決數據分布不均勻問題;(2)改進隨機森林算法特征選擇階段,將Fisher比作為特征重要性的衡量指標,依據比例和順序選擇重要的特征構成子樹的特征集,降低高維數據冗余特征的影響;(3)通過與標準隨機森林算法和經典SVM算法對比實驗表明,本文提出的算法在節省運行時間的同時具有較高的精度.

2 停電敏感用戶分類算法

2.1 基本設計思想

本文提出的基于改進隨機森林算法[11,12]的停電敏感用戶分類算法POSCC主要包括數據預處理、數據分布不均勻處理、特征選取、分類模型訓練構建四步.預處理部分主要包括數據填充、異常值處理、數據標準化等操作.分類算法是通過Bootstrap重采樣的方式來構造每棵樹的訓練集,以此保證基分類器的多樣性.整個訓練集數據包括多數類樣本和少數類樣本數據,使用SMOTE算法生成與少數類樣本相似的子集,再與少數類樣本合并形成新的訓練集,通過這種方式可以有效的處理數據分布不均勻問題.為了降低高維數據冗余屬性的影響,本文在特征選取部分做了改進,首先對每個特征的重要程度進行計算[13],然后根據權值的順序對子特征進行分區劃分,接著對每個區按比例隨機抽取特征,最后構造出特征子空間.根據生成好的訓練集和特征子空間,生成多棵決策樹,完成停電敏感用戶分類算法的訓練.對于待測樣本,根據每棵樹的分類結果,采用投票的機制決定每個樣本的分類結果.圖1給出POSCC算法的訓練和預測流程.

2.2 數據預處理

停電用戶數據是直接從各個停電業務系統中獲取,存在數據缺失和數據不一致的情況.并且,通過整合而來的數據經常會出現某些字段值缺失或異常等問題.如果不對這些臟數據進行處理而直接在其上進行敏感用戶劃分,則會嚴重影響預測的精度.因此,需要在建模前對數據進行預處理,預處理的過程主要包括數據填充、異常值處理、數據規范化等.

2.2.1 數據填充

針對停電用戶數據的實際背景,本文采用的數據填充方案為:對于類別型字段,如行業分類、用電類別、電壓等級、客戶類別、行政區域、繳費類型等字段采用默認值填充,分別填充預指定的缺失類別;對于數值型字段,采用平均值的方式處理.針對某個時刻缺失的記錄,根據相鄰多個時刻正常的記錄進行求和取平均,將平均值作為該缺失值記錄的填充[14].計算方式如式(1)所示:

其中,xt表示第t時刻對應的值,m為前相鄰時刻正常數據的記錄數.這種方式綜合考慮了最近多個時刻的信息,弱化了其他因素的影響,可以更合理地對缺失值進行填充,進而保留了停電數據的連續性.

圖1 停電敏感用戶分類算法訓練和預測過程

2.2.2 異常值處理

在對數據進行處理的過程中會發現,某些記錄一個或多個字段的值與其他記錄的值相差很大,或者根本沒有意義,那就認為這些記錄是異常數據.比如,用電量、停電次數、訴求次數等這些字段的值過大或者過小,甚至出現為負的情況,則說明這些字段存在異常值.處理異常值的方法與處理缺失值的方法類似,當發現異常數據時,采用相鄰多個時刻正常數據的平均值來替換該異常值,從而降低噪聲對停電敏感用戶劃分的影響.平均值的計算參見式(1).

2.2.3 數據標準化

停電用戶數據中不同數值字段的取值范圍可能會存在較大差異.例如:合同容量、本月電量等普遍是以百位數,千位數的數值居多,而停電次數、投訴次數等字段卻以個位數或者十位數的數值居多.因此需要進行標準化處理,使不同值域的特征字段數據處在同一個量級范圍內,以便更好的進行建模分析.

鑒于停電用戶數據的值域差異較大,且各個特征字段的最大值和最小值都可求,所以采用Min-Max標準化[15]來對數值字段數據進行數據標準化處理.在標準化過程中,若遇到某些特征字段值的最大值和最小值一樣時,則直接讓該字段的值都為0.5,不進行線性變換.Min-Max標準化如式(2)所示:

其中,n為數據的記錄數,max(xj)特征字段的最大值,min(xj)為特征字段的最小值,xi為特征字段的值,yi表示為標準化之后的值.

2.3 不平衡數據處理

在停電敏感用戶劃分的研究中,由于真正屬于停電敏感用戶的數據相對較少,因此就會存在數據分布不均勻的現象.如果直接用這些少數類的數據進行分類建模,則很容易讓模型學習到的信息過于特別而不夠泛化,從而讓模型產生過擬合的現象.因此,采用SMOTE算法[16]來解決數據分布不均勻問題,通過對少數停電敏感用戶類樣本數據進行抽樣,并將抽樣的數據合成新樣本添加到數據集中,以此來提高少數類樣本的比例.使用SMOTE算法解決數據分布不均勻的流程如下:

(1)對于停電敏感用戶類中的每一個樣本xi,利用k近鄰算法[17]得到樣本xi的k個近鄰.

(2)然后從這k個近鄰中隨機選擇一個樣本xi(nn),再生成一個0到1之間的隨機數R0,1,根據式(3)合成一個新的樣本.

(3)將步驟2重復進行N次,從而形成N個新的樣本,N即是根據采樣比例確定的采樣倍率.

SMOTE算法是通過隨機采樣來生成新樣本,并非直接從實例復制而來,這樣可以緩解過擬合的問題,同時不會損失有價值的信息.所以,采用SMOTE算法能夠有效的處理停電敏感用戶少數類數據分布不均勻問題.

2.4 基于Fisher特征比的特征選擇

在對停電敏感用戶分類模型的訓練過程中,每一步都要求提升數據的純度,以便達到更好的分類效果.由于停電用戶數據中的特征較多,有些特征對于算法的貢獻度不高,甚至會對算法的訓練過程會產生負面影響.而且在高維特征空間中,往往存在部分冗余特征,因此需要對數據進行特征選擇,使得每次選出的特征更具有代表性.特征選擇是指從高維特征集合中,根據某種評估標準選擇那些輸出性能最優的特征構成特征子集.然后,直接對這些特征子集進行建模,從而降低模型的計算代價,提高模型算法的預測精度.

本文改進隨機森林算法的特征選擇階段首先用Fisher比計算每個特征的重要性權值,根據權值進行從大到小排序;然后以權值的均值為界,將特征空間劃分為兩個特征子空間;最后在劃分好的特征子空間中,按比例隨機選擇特征,構造新的特征子空間.具體步驟如下:

(1)設停電數據集共有n個樣本,分屬于C個類別:對于第w類的集合,樣本個數為nw,第w類中第k維特征的均值為μwk,第w類中第k維特征的方差為σwk2,全部樣本的第k維特征的均值為μk,則類內方差如式(4)所示:

類間方差如式(5)所示:

則Fisher比計算方式如式(6)所示:

(2)通過對每個特征計算Fisher比Fd之后,按Fd從大到小對特征進行排列.然后計算所有特征Fd的均值,作為分界線,將特征劃分為重要特征區和次要特征區,劃分方式如式(7)和式(8)所示.

(3)在每一次的特征選擇中,根據劃分好的重要特征區和次要特征區,按比例從每個區中隨機抽樣m1st和m2nd個特征構造成特征子空間.比例的計算公式如式(9)和式(10)所示.

其中,|F1st|和|F2nd|分別代表重要特征區總數和次要特征區總數.

對特征進行分區,在一定程度上對特征選擇的隨機性做了約束,保證選取出來的特征更具有代表性.通過這一改進,可以有效的降低維度的增加和冗余屬性帶來的影響,并且能夠提高模型的性能.

2.5 基于隨機森林的停電敏感用戶分類

應用隨機森林算法構建停電敏感用戶分類模型,并基于該模型預測測試數據中哪些用戶是停電敏感用戶.停電用戶最終分為停電敏感用戶和停電非敏感用戶,因此本文研究的是二分類問題.分類的具體步驟如下:

(1)采用Bootstrap策略,有放回地隨機抽取n1(n1

(2)分別對n1個用戶構建決策分類樹,從原始的d個特征中隨機選取dtry個特征,再根據2.4節中介紹的Fisher比計算方法,按比例選取具有代表性的用戶特征構造特征子空間;

(3)基于構造的特征子空間,最大限度的讓每棵樹進行分裂生長,直到n1棵樹組成的隨機森林模型全部訓練完成;

(4)針對輸入的測試用戶數據,由nl棵樹生成用戶是否屬于敏感用戶的nl個判斷,采用投票機制,取票數最高的類別作為用戶的最終類別.若該類別為敏感用戶類別,則判斷該用戶為敏感用戶.

3 實驗結果與分析

3.1 數據集

本文所采用的數據是由南方某省各個地區在SG186、95 598業務支持系統、用電信息采集系統等采集匯總而來.具體為該省份從2016年1月至12月的停電客戶信息表,包含客戶檔案信息、客戶用電信息、臺區停電信息、臺區負荷信息、客戶停送電訴求信息等共56個特征字段,以及一個表示用戶是否為敏感用戶的類別字段.數據大小共 9563715 條,由于數據集過大,故采用Spark做并行化處理,提高算法處理效率.本文算法所涉及的字段信息如表1所示.

3.2 評估指標

在對停電敏感用戶進行劃分時,連續型的數據已經被映射為離散型數據.因此,可用混淆矩陣[18]來展示預測的結果.混淆矩陣可以直觀的展示各個類別的預測情況,是分類算法中一種常見的評價指標.矩陣的列表示預測類的實例,行表示實際類的實例.通過混淆矩陣的準確率和召回率可以很好的衡量分類算法的精度.圖2為混淆矩陣兩類的分類結構.

表1 具體字段信息

圖2 混淆矩陣

圖2 中,TP (True Positives)為被正確地劃分為正類的數量;FP (False Positives)為被錯誤地劃分為正類的數量;FN (False Negatives)為被錯誤地劃分為負類的數量;TN (True Negatives)為被正確地劃分為負類的數量.

通過混淆矩陣可以計算出每個類別的準確率、召回率和F1測度,這些都是評估分類模型常用的重要指標.

(1)準確率(Precision):

準確率表示在預測結果中,預測為正類且確實為正類的數據量占預測為正類數據量的比例:

(2)召回率(Recall):

召回率是覆蓋面的度量,表示為預測為正類且確實為正類的數據量占所有正類數據量的比例:

(3)F1 測度 (F1-measure):

F1測度是Precision和Recall加權調和平均,計算公式如式(13)所示:

3.3 實驗方案

基于改進隨機森林算法的停電敏感用戶分類模型的代碼是基于Spark1.6.0實現,所使用的實驗環境為8臺硬件配置為 Core Duo 2.0 GHz CPU、16 GB 內存,軟件配置為Ubuntu 12.04的虛擬機組成的集群.

3.3.1 算法精度實驗

為了比較基于改進隨機森林算法的性能,在實驗中采用基于Spark的標準隨機森林算法(RF)和SVM算法作為對比,檢驗不同算法構建出來的停電敏感用戶分類模型在測試數據上的精度.選擇SVM算法的原因是,SVM算法泛化能力高,通過選取合適的核函數可以處理高維特征的數據.每次實驗均通過10-折交叉驗證,模型訓練20次,取均值作為模型運行一次的性能.改進隨機森林算法的參數k表示森林的規模,本文實驗設置為300.參數fmax表示數據的最大特征數,由于總特征數不多,取值為none,代表考慮所有特征數.參數dmax表示樹的最大深度,根據實驗數據集的特征數取值為20.標準隨機森林算法的參數設置與本模型相同.SVM算法中的參數Gamma為核函數設置,一般設置為 1/m,m為屬性數.參數 cost為懲罰性因子,一般取值為1.0.

3.3.2 數據分布不均勻實驗

由于停電敏感用戶屬于少數類,約占數據集的0.16%.為了克服不平衡數據對算法精度的影響,采用基于Spark的并行SMOTE算法對數據做相應的處理.SMOTE算法是通過過采樣方法重復選取少數類樣本,以提高少數類樣本的數據比例.在此基礎上采用不同過采樣比例進行多組分類實驗,尋找最佳的過采樣比例,克服不均衡數據的局限性,以提高算法精度.

3.4 實驗結果與分析

3.4.1 算法精度實驗

圖3、圖4、圖5為3種不同算法構建出模型的準確率、召回率和F1測度對比.從圖中可以看出,POSCC算法在三個指標值上均高于其他的算法.這主要是因為本文算法通過對特征選擇步驟的改進,在一定程度上降低了特征選擇的隨機性,可以有效的處理多維向量相關的問題,降低模型泛化誤差,并且可以避免過擬合問題,提高了算法的分類精度.由于SVM算法的核函數是將高維數據映射到低維空間,存在部分數據精度的缺失,所以精度較低,但又因為其泛化能力高,Recall值較高于標準 RF 算法.綜上,POSCC 算法可以有效的對停電敏感用戶進行分類.

圖3 不同算法的準確率對比

圖4 不同算法的召回率對比

圖5 不同算法的F1 測度對比

圖6為三種算法構建出的模型運行時間對比.從圖中可以看出,POSCC算法比標準隨機森林算法和SVM算法就有較好的時間性能.SVM算法需要對核矩陣進行分析,需要大量的計算時間.標準RF算法直接將用戶的所有特征作為特征的輸入,因此也需要一定的運行時間.POSCC算法通過將Fisher比的特征選擇與隨機森林算法相結合,使得特征子空間更具有代表性,降低了高維特征的數據中存在部分冗余特征的影響,從而減少了模型在決策樹節點分裂時對于冗余特征的重復計算,有效的降低了算法分類判斷的計算量.因此POSCC算法運行時間較低.

3.4.2 數據分布不均勻實驗

(1)采用SMOTE算法與未采用SMOTE算法的實驗結果

圖7為采用SMOTE算法與未采用SMOTE算法的實驗結果.從圖中可以看出,采用SMOTE算法處理后模型的三種指標結果值比未采用SMOTE算法處理的結果高,這是因為采用SMOTE算法后,增加了停電敏感用戶類別的樣本數,通過提升算法分類器的學習強度,并降低隨機森林中樹之間的相關性,最終讓模型在停電敏感用戶分類具有更好的分類效果.

圖6 不同算法的運行時間對比

圖7 采用SMOTE算法與未采用SMOTE算法的實驗結果

(2)不同過采樣比例實驗結果

使用SMOTE算法進行過采樣,通過調整算法參數,得到5組不同數據比例的實驗結果,如表2所示.從表中看出,隨著采樣比例的提高,準確率和F1測度均有所下降,當比例為4:5時就已經接近為0.實驗表明,為了達到較高的準確率,應該保持較低的過采樣比例,而不能為了增加少數類樣本數理一味的提高過采樣比例.所以,本文采用1:5的比例作為SMOTE算法過采樣比例的標準.

表2 不同過采樣比例結果

4 結束語

本文提出了一種基于改進隨機森林算法的停電敏感用戶分類算法POSCC.通過引入SMOTE算法對少數類樣本進行處理,提高停電敏感用戶類數據比例,降低模型算法的泛化誤差.再對停電用戶數據特征的深入分析,改進隨機森林的特征選擇方法,根據Fisher比對特征進行分區,按比例選取有代表性的特征,在一定程度上降低算法的隨機性,提高了算法的性能.實驗表明,相比較于其他算法,本文提出的算法可以很好的對停電用戶的敏感度進行分析,具有較高的準確率和時間性能.由于停電數據是實時更新的,下一步的工作,將考慮設計基于增量分類算法的停電敏感用戶預測,以進一步提升算法的準確性與實用性.

猜你喜歡
分類特征用戶
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 蜜芽一区二区国产精品| 国产乱人伦偷精品视频AAA| 欧美一级黄色影院| 久草国产在线观看| 国产精品亚洲专区一区| 欧日韩在线不卡视频| 在线精品视频成人网| 国产高清精品在线91| 成人国产精品2021| 久久久久无码精品| 精品国产黑色丝袜高跟鞋| 亚洲综合精品香蕉久久网| 99999久久久久久亚洲| 成人看片欧美一区二区| 一级毛片在线播放| 成人免费网站在线观看| 欧美午夜一区| 在线观看欧美精品二区| 中文字幕首页系列人妻| 99九九成人免费视频精品| 首页亚洲国产丝袜长腿综合| 黄色网在线| 欧美视频在线第一页| 9丨情侣偷在线精品国产| 嫩草国产在线| 91国语视频| 亚洲国产精品成人久久综合影院| 欧美国产日韩在线观看| 97av视频在线观看| 婷婷中文在线| www.国产福利| 欧美yw精品日本国产精品| 亚洲一区二区三区麻豆| 国产一在线观看| 国产手机在线观看| 无码人中文字幕| 国产一级毛片yw| 18禁高潮出水呻吟娇喘蜜芽| 一级毛片a女人刺激视频免费| 成人亚洲视频| 欧美午夜小视频| 91无码人妻精品一区| 538精品在线观看| 国产精品自拍合集| 亚洲日韩高清在线亚洲专区| 午夜视频在线观看免费网站| 久久久91人妻无码精品蜜桃HD| 波多野结衣第一页| 91区国产福利在线观看午夜| 一本色道久久88| 欧美69视频在线| 美女高潮全身流白浆福利区| 国产欧美日韩综合在线第一| 国产精品第一区| 欧美不卡视频在线| 伊人无码视屏| www中文字幕在线观看| 无遮挡国产高潮视频免费观看| 一本无码在线观看| 日韩第八页| 有专无码视频| 少妇高潮惨叫久久久久久| 久久免费视频6| 成人免费网站久久久| 亚洲第一极品精品无码| 成人午夜视频在线| 国产AV无码专区亚洲精品网站| 国产精品成人免费综合| 国产日韩丝袜一二三区| 一区二区偷拍美女撒尿视频| 国产18在线播放| 成人国产精品一级毛片天堂| 深夜福利视频一区二区| 四虎永久在线精品影院| 99在线视频网站| 四虎国产精品永久一区| 亚洲一区二区三区国产精华液| 国产精品无码在线看| 欧美午夜一区| 国产成在线观看免费视频| 成年片色大黄全免费网站久久| 国产麻豆91网在线看|