999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost與LR算法的95598重復來電行為研究

2022-04-07 05:35:59李艷艷嚴佳梅虞云飛
企業科技與發展 2022年11期
關鍵詞:特征用戶模型

李艷艷,嚴佳梅,虞云飛,盛 平

(國家電網有限公司 客戶服務中心南方分中心,江蘇 南京 211100)

城市經濟的高速發展,對電力的需求在達到峰值之前會越來越多,由此產生的數據也會呈現幾何級數爆發式增長。在數據作為重要生產資料的當下,如何利用好數據,用數據分析結果驅動業務,對于行業發展尤為重要。

在社會經濟發展水平不斷提升背景下,人們生活質量獲得進一步提升,客戶對電力服務的要求也越來越高。95598熱線作為客戶和供電企業展開交流溝通的主要方式。但近年來,居民使用電量急速上升,服務問題被放大,使得供電話務成本顯著提升,問題處理效率不高,使得客戶不滿意度升高,投訴量激增。95598服務風險管控是日常業務運營管控中的難點問題,由于客戶軌跡分析相對比較復雜,將會增加風險篩查難度,使得此項工作難以正常進行,急需依賴大數據平臺形成自動化工具。

基于95598海量來電工單數據構建用戶行為分析模型[1],分析用戶的來電行為特征,抽象用戶畫像,基于具體業務場景,輔助業務人員創建業務策略,并根據行為反饋調整行為分析模型,形成用戶行為數據的生態閉環。根據成效結果,可逐步推廣至數字化轉型各個階段。我們對客戶來電行為數據進行深度數據分析和挖掘,從行為表象中挖掘隱含的客戶行為軌跡。建模構建客戶再次來電預測平臺,提前預估3天以內來電的可能性,提升業務處置效率和質量,提升客戶滿意度。將XGBoost與LR的融合模型應用于客戶再次來電行為預測分類。

1 研究模型理論基礎

1.1 邏輯回歸模型

邏輯回歸模型在進行線性回歸的時候利用線開展擬合處理工作,在處理分類任務的時候,不需要對每一個樣本進行擬合,只需將各類樣品區別開即可,主要運用了分類學習方式[2]。通常定義的一導函數回歸公式如下:

就邏輯回歸而言,其主題意思也是基于一導函數回歸,其公式如下:

hθ屬于sigmoid函數,hθ的輸出值需要處在是(0,1)區間范圍內,這意味著可以將sigmoid函數看成是樣本數據的概率密度函數,那么由此可以估計參數。我們定義輸入數據點x為類別1時的概率、類別為0時的概率值分別如下:

構造一個損失函數,應當充分考慮所有模擬用戶行為數據產生的損失,將損失函數的求和值或是平均值,記為J(θ)函數,此時用戶行為預測值和實際分類之存在一定的偏差表示所有模擬用戶行為預測值與實際類別分類值的偏差。J(θ)函數數據值若是比較小,則順明預測曲線的準確性越高,最終方向調整為J(θ)在處于最小值θ狀態的時候是最佳參數。和函數回歸基本一致,也是使用梯度下降法用于更新 θ[3]。

1.2 XGBoost模型

XGBoost模型實際上是基于GBDT開展的優化改造的拓展,早在2015年,知名學者陳天奇即已經提出該模型屬于Boosting算法。Boosting算法將很對小行分類器經過整理、統計形成代表性比較強的大分類器,使用Boosting算法開展多次訓練,從初始模擬數據中使用隨機抽取方式生成多個訓練樣本,并將其作為模擬用戶行為的數據集,在完成模擬處理以后即可以獲得代表性比較強的預測函數序列,可使用投票形式開展問題分類,通過運用簡單平均法的方式可以預測回歸問題的新樣本,算法步驟主要包括5步:①從完成統計的用戶行為中使用自助法采樣選出n個數據單元;②對這n個數據單元建立一個小分類器單元;③重復進行步驟一和步驟二,創建m個小型分類器單元;④使用自助法經過采樣篩選出m個新型數據單元集,并展開開分類模擬管理工作;⑤運用投票法對m個小型分類器單元分類方式開展隨即投票,投票數量最多的被確定為最終類別。XGBoost支持并行訓練。XGBoost算法在進行交叉驗證的時候,能夠在每輪Boosting算法中實施迭代運用,可以為獲取最優Boosting迭代次數提供更多的便利性。

1.3 XGBoost與LR融合的模型

通過模型特征可以發現算法效果的上限值,差別在于不同算法的上限差值存在差值,提取目標特征屬于模擬訓練中的重點內容,若是將數據變大轉化為函數可分數據,僅需運用簡單的線性模型即可獲得比較好的應用效果。XGBoost創建新特征能夠更為高效地表達數據特征。邏輯回歸算法具有比較簡單、有效性較強的特點,已經成為工業界最常使用的算法,但是回歸算法屬于線性模型,很難順利捕捉到非線性信息,此時需要借助很多特征尋找特征組合。為了發現有效的特征組合,Facebook在2014年的論文中提出了通過GBDT+LR的方案,在這篇論文中他們提出了一種將Xgboost作為Feature Transform 的方法[4]。

2 基于XGBoost與LR模型重復來電行為預測研究

2.1 數據樣本選擇及預處理

使用的數據集來自95598業務工單來電數據集,包含用戶來電工單信息、用戶來電行為步驟明細表數據、用戶工單派單明細數據3個部分,筆者從2021年6月1日至2021年6月15日來電工單隨機篩選一定比例用戶數據共計32 595條。處于數據質量保證目的,使目標模型更精準、科學。對選擇好的來電工單數據信息展開缺失處理、異常值處理、歸一化處理[5]。

由于95598來電渠道繁雜,來電工單業務類型分類較多,區間數據內缺失數據情況也較為普通,存在很多缺失數據,通過合理運用模型填補好缺失的信息,若是數據缺失值過多,運用填補方式可能會造成模型偏差出現變大狀況,因此提前設計了數據缺失閾值,一旦缺失值超出30%,需要及時將這些數據指標刪除掉。

在重復來電行為預測中,不同渠道來電工單行為和特征各不相同。存在特例特征下有異常值,異常值在模型預測中會給結果帶來干擾,因此異常數據需要額外進行處理。通過合理使用Boxplo方式篩選出目標設定存在的異常值,設Q1和Q3分別為1/4和3/4分位數,記IQR=Q1-Q2,則(-∞,Q1-3*IQR) ∪(Q3+3*IQR,+∞) 區間數據會直接被標記為異常點,對于異常值做了平均值修補的工作。

用戶數據在性質和統計方式存在的差異比較大,使用特征模型的時候,在量綱方面、數值方面存在顯著差別。利用已知的同度量化處理,能夠有效提升各種指標和權重的可參考價值,有助于進一步提升特征模型具有的可解釋性。與此同時,通過及時優化改良梯度下降求解時的網絡收斂速率,對于提高模型參數求解效率、求解速率具有促進作用,為了降低量綱差異對于財務困境模型特征產生的高濤效果,需要對數值類數據展開歸一化處理。

通常在客戶行為數據樣本采集過程中,存在數據段中數據分布的不平衡性現象發生,通常數據分類模型很難及時處理好訓練數據缺乏平衡性的問題,若是直接運用客戶的行為采集數據建模,可能會造成模型預測精準性下降的問題,在處理不平衡數據的時候,可以從數據層面、算法層面以及混合方法展開,所述數據層面主要是使用特殊模型對相關數據開展過采樣處理、欠采樣處理,算法層面主要會運用代價敏感方式以及集成學習方式,混合方法就是數據層面和算法的有效結合。

過采樣方式中應用頻率比較高的技術是SMOTE技術[6],它基于部分原始數據的一導函數插值,和復制少量樣本時使用的重抽樣方法存在一定差異,過采方法能夠預防過擬合情況,會出現噪聲樣本以及邊界樣本。SMOTE-Tomek融合采樣方式兼具SMOTE特點、Tomek links特點,能夠及時解決單獨運用SMOTE產生的噪聲樣本狀況、邊界樣本狀況,通過提高技術融合效果,可以使數據層面順利達到理想狀態。采用多層次隨機抽樣方法,將目標數據樣本預測數據以7∶3的比例,將數據劃分為基礎集以及測試集,由于兩個數據集之間具有不平衡特點,因此需要對基礎集使用SMOTETomek實施過欠融合重抽樣處理。

2.2 實證分析

XGBoost和Logistic回歸融合模型建模步驟如下。步驟1:設置XGBoot模型參數,其中n_estimators為模型對訓練數據的迭代次數;當對訓練集數據的迭代的次數過少時,在訓練集和測試集的誤差都會很大即產生欠擬合現象。當對訓練集數據的迭代的次數過多時,這樣模型具有的數據預測能力比較差,容易產生過擬合現象。綜上所述,我們需要盡可能設置更大的lestimators,更小的learning_rate。。將參數n_estimators設定為100,將learning_rate設定為0.05。步驟2:對數據隨機拆分75%用于訓練樣本,25%的數據用于模型結果測試,將訓練樣本直接輸入以步驟1設置好的XGBoost模型之中,將每個葉子節點輸出組成為組合特征的向量值,然后對其進行one-hot編碼。步驟3:將步驟2中輸出的組合特征向量,與最開始的訓練數據中的特征一并輸入到Logistic Regression分類器中進行最終分類器的訓練,獲得的輸出值的輸出結果即是樣本預測結果。步驟4:為了驗證融合模型的有效性,設置對照組,運用XGBoost模型獲得的特征,使用Logistic回歸模型進行數據預測,訓練樣本數據并預測測試數據結果;對照組2直接使用XGBoost模型,設置好參數,對變量正則化、連續特征離散化,訓練樣本數據并預測測試數據結果。

通常模型驗證法一般會用在衡量數據模型分類預測水平的高低,通過合理運用基礎數據以及測試樣本及時對模型展開驗證管理、比較,屬于建模時常使用的方式,能夠在提升模型建設有效性的基礎上,進一步提高模型的適應能力。通常對于模中的風險預警研究來說,有效衡量指標的召回率Recall、精準性,能夠區分開再次來電用戶,F1-score用于確定模型的精準度,ROC曲線用于確定模型區分重復來電用戶的效果。

XGBoost+LR模型的整體的Precision(精準度) 和Recall(召回率)明顯高于其他的模型,單一的XGBoost模型,尤其是融合模型對目標客戶(投訴客戶)預測召回率遠高于單一的XGBoost回歸模型[7]。從兩個模型ROC曲線可以清楚觀察到XGBoost組合特征+LR融合模型ROC曲線效果優于兩個對照組模型獲得的結果。

綜上所述,在95598工單客戶再次來電行為預測中,XGBoost組合特征+LR融合模型具有比較好的預測能力,精準性以及安全穩定性明顯優于單一的XGBoost模型及XGBoost訓練新特征+LR模型。

3 研究創新

將XGBoost與Logistic回歸模型融合應用于用戶再次來電行為預測研究,以95598來電工單行為日志數據進行實證分析。結果表明,用XGBoost訓練后的新特征與原有特征交叉產生的組合特征,再進入回歸模型研究行為預測情況,相比其他模型有著更高的行為預測精準度和穩定性。

XGBoost的樹狀特性比較好、對于數據的敏感度比較高,在部分數據進行優化調整的時候可能會產生類別變動,可處理的數據量處于有限狀態,需要使用鈍化模型,Logistic回歸模型的并行能力很強,可以處理好大數據集,具有一維處理特點,需要運用很多特征工程。XGBoost的精度高、靈活性更強,可以通過正則化來避免數據過擬合,所以使用XGBoost模型將原始特征訓練的新特征,再與原始特征組成新的組合特征。這兩個模型的優缺點整合后發現,兩者剛好可以互補,它們的融合是Stacking思想的成功應用。同時,通過對照組實驗也發現,如果單獨使用XGBoost模型訓練出來的新特征,直接進入到Logistic模型中做分類預測,其模型效果要弱于單獨使用XGBoost模型訓練后的預測結果。說明XGBoost訓練得到的新特征是一種有效的特征,XGBoost訓練后得到的組合特征與Logistic回歸模型結合使用是一種有效的特征工程手段。

4 結語

95598海量的用戶傳輸的用工單是電網企業發展的雙刃劍,通過分析用戶來電行為軌跡,提高響應速度。將重復來電預警模型實施后,減輕了多次來電管控壓力,及時進行風險控制,降低服務壓力;根據預警結果,及時干預,降低服務升級風險及一線人員處理壓力;根據預警結果,協同優化處置方法或升級溝通,降低業務處理難度。促使客戶業務辦理數量和效率快速增長,客戶滿意度持續的提高。

后續數據工作的研究方向:①結合95598客服行業的特點,合適合理運用數據挖掘技術可以直接從數據庫中進行信息搜集,按照規約整理有關數據信息,創建價值客戶細分管理模型,依照用戶劃分結構創建用戶畫像,便于精準分析各種用戶的需求量、偏好情況、行為動機。②可以根據前期數據以及模型分析,在模型確保預測數據精準性的同時不斷提高建模處理速度,屬于未來重點研究內容。③可以采用恰當的關聯規則算法挖掘發現客戶行為傾向,識別客戶的真正需求,當客戶產生相應行為軌跡從而快速響應提供相應的服務。

猜你喜歡
特征用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 在线精品亚洲一区二区古装| 一级全免费视频播放| 福利在线不卡一区| 色综合中文字幕| 思思热在线视频精品| 日本午夜精品一本在线观看| 精品视频一区二区观看| 中文字幕亚洲专区第19页| 亚洲综合亚洲国产尤物| 亚洲无码视频图片| 无码人妻热线精品视频| 被公侵犯人妻少妇一区二区三区| www中文字幕在线观看| 国产免费网址| 国产成人免费| 国产成人一区| 激情网址在线观看| 亚洲无码在线午夜电影| 青青操国产| 国产区人妖精品人妖精品视频| 日韩av手机在线| 国产99在线| 久久精品女人天堂aaa| 亚洲热线99精品视频| 精品自窥自偷在线看| 日本国产精品一区久久久| 亚洲伊人久久精品影院| 欧美专区在线观看| 亚洲综合第一页| 狠狠综合久久| 国产伦片中文免费观看| 成人一区在线| 香蕉eeww99国产在线观看| 成人午夜久久| 少妇精品在线| P尤物久久99国产综合精品| 久久semm亚洲国产| 国产成人精品2021欧美日韩| 亚洲综合一区国产精品| 亚洲精品自拍区在线观看| 精品国产成人高清在线| 伊人成色综合网| 午夜精品影院| 夜夜拍夜夜爽| 亚洲中文制服丝袜欧美精品| 亚洲福利一区二区三区| 国禁国产you女视频网站| a毛片在线播放| 国产91熟女高潮一区二区| 影音先锋亚洲无码| 制服丝袜亚洲| 亚洲成人免费看| 日韩午夜福利在线观看| 国产黄色片在线看| 丝袜无码一区二区三区| 国产免费黄| 亚洲最黄视频| 国产精品美乳| 无码视频国产精品一区二区| 久久国语对白| 9999在线视频| 国产美女在线观看| 亚洲男人在线| 美女毛片在线| 天天综合天天综合| 精品国产香蕉伊思人在线| 青草午夜精品视频在线观看| 久久99精品久久久久纯品| 国产精品jizz在线观看软件| 免费无码一区二区| 免费大黄网站在线观看| 国产精品综合色区在线观看| 91视频日本| 久久夜色撩人精品国产| 亚洲有码在线播放| 激情成人综合网| 国产永久在线观看| 色综合日本| 欧美亚洲国产视频| 91啦中文字幕| 老司机午夜精品视频你懂的| 久久人人97超碰人人澡爱香蕉|