999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost的跨境電商企業征信等級預測研究

2018-07-21 02:20:18王珊珊查林濤
韶關學院學報 2018年6期
關鍵詞:分類模型

王珊珊,查林濤

(安徽國際商務職業學院 商貿流通學院,安徽 合肥230011)

在國內,對于跨境電子商務平臺研究有很多,主要集中在模式選擇、發展路徑研究方面.付蔚蔚[1]提出了利用AHP評價法用于中小企業跨境電商平臺選擇.宛建偉[2]分析了目前已經成型的進口跨境電商發展模式的利弊以及跨境電商網站運營建設等問題.劉晉飛[3]利用因子分析法構建了電商采納及企業發展指標體系,探討電子商務采納及對跨境電商制造型企業成長的影響和作用機理.但對供應商建立完善的信用評價體系的研究則較少.

本文根據數據分析基本流程構建大數據環境下的指標體系.流程如下:(1)數據采集.面對互聯網海量的數據,在確定基本評價指標的基礎上,利用爬蟲工具對數據進行獲取,使得數據充足并具有時效性.(2)數據清洗.雖然在互聯網上獲取的數據是海量的,但也存在著大量的噪音.為了去除這些噪音,需要對數據進行了清洗[4].(3)數據標準化.最后在構建指標之前,采用Z標準化來對數據進行處理[5].通過以上步驟,本文構建供應商信用指標:企業基本指標(銷售額、從業人員數)、產品質量(產品與描述相符程度、信息完整性、好評率)、服務質量(服務細節評分、客服首次響應時間)、顧客滿意度(新客增長率、老客回頭率).

1 信用評估模型

Boosting算法是一種機器學習方法[6],其主要作用是將弱分類轉化為強分類,達到有效分類的目的,其中GBDT就是一種有代表性的Boosting算法[7].算法計算流程如下:

(1)根據最大熵理論,初始化為各訓練樣本賦予相同的權重,如:;

(2)迭代訓練模型,每次迭代都使用一種弱分類器對訓練樣本進行分類,并計算分類錯誤率:

其中ωi:第i個訓練樣本在本次迭代中的權重,Gm:第m個弱分類器;

(3)計算分類器權重:am=log((1-errm)/errm);

(4) 在第 m+1 次迭代時,修改樣本權重,將 ωi重置為可以看出,在第 m+1 次迭代中,對于第m次迭代分類錯誤的樣本會得到更多的權重;

(5)全部迭代完成后,把所有弱分類器集成在一起,構成完整的分類模型,其最終效果采用投票方式計算.

XGBoost[8]算法在GBDT基礎上對性能的一種改進,可以穩定高效的在大數據環境下執行,其中最基本的組成結構為回歸樹(CART).XGBoost模型可以表示為:

其中,i=1,2,…,n為特征數據,F為所有弱分類器的集合,可以為各種回歸樹,弱分類器由fk表示.二分類中,定義≥0.5 的為正類,<0.5 為反類.

建立模型需要尋找使目標函數最小化的前提下,所能找到的最優參數,目標函數fobj(θ)由誤差項L(θ)和正則化項Ω(θ)組合構成,其中L(θ)表示函數的損失,即預測結果與真值之間的差距,Ω(θ)用于降低模型復雜度,避免出現過擬合.定義目標函數fobj(θ)表達式:

定義:

建模時,除了對現有模型進行訓練以外,XGBoost增加了一個函數f(x),新函數的加入有助于最小化目標函數,將該新加入的函數引入模型中,主要計算過程如下:

式中,C表示與f(x)無關的常數項.

利用泰勒公式對目標函數進行展開,目標函數可以近似為:

可見,特征點在誤差函數上的一階和二階導數可以決定目標函數的值.

2 模型復雜度及評價標準

為了計算模型復雜度,將f(x)細化:劃分回歸樹為兩部分,一部分表示樹結構本身,用q表示,另一部分表示葉子節點的權重,用w表示,因此f(x)表示為:

輸入變量特征被樹結構映射到葉子節點索引id上,同時為每個葉子節點賦予了一個權重w作為葉子節點的得分.因此,定義XGBoost模型復雜度為每棵弱分類器樹中節點的個數與其對應葉子節點得分的平方和:

式中,γ,T是超參數,用于防止模型過擬合.目標函數可以改寫成:

式中,Ij={i|q(xi)=j}表示第j棵樹中所有葉子節點集合.

令:

目標函數變化為:

假設,樹結構q已知,通過優化目標函數尋找最好的參數w,以及對應的目標函數最大值,問題便轉換為求解二次函數最小值問題,可以得到:

其中,fobj作為模型評價函數,fobj值與模型效果成反比.

以本文構建的大數據環境下的征信體系作為特征,使用XGBoost模型為每個樣本用戶預測一個征信等級,建立信用評估等級,由差、中、良和優表示,為了便于計算,分別為各等級設定取值1~4.本文使用相應類別的準確率(precision)和召回率(recall)作為評價指標,定義為.其中,Tp為正確預測真實目標類別的樣本數量,Np為錯誤預測真實目標類別的樣本數量,FN為錯誤預測非真實目標類別的樣本數量.

3 實驗效果

本文選取的跨境平臺供應商樣本數2 752條,取90%的樣本作為訓練集,剩下10%作為測試集,訓練集用于模型訓練,測試集用來衡量模型效果.

首先將樣本都進行隨機處理,充分的隨機處理可以保證效果的客觀.XGBoost模型本身就有相應的正則化項用于防止模型過擬合,設置學習率0.3,最大深度3,經過138次迭代后,訓練集損失持續下降,但測試集損失開始上升,模型效果達到最佳,如圖1所示.

圖1 loss曲線

最終模型準確度均值如表2所示,召回率如表3所示.表2的數據表示了多分類任務下,對各真實類別預測的準確度,矩陣中每一元素對應著模型預測類別為該實際類別的概率.對角線上元素代表了該類被正確預測的概率,且每一行加總為1.可以看出,本文建立的對企業信用預測的模型效果較好,可以精確預測目標所屬類別.

表2 信用等級查準率均值

表3 信用等級召回率均值

4 結語

本文從數據分析的基本流程出發.在建立XGBoost模型前,對跨境電商平臺供應商的信用特征進行分析,有效地獲取多維數據,并對數據進行清洗和處理.據此建立了針對跨境電商平臺供應商信用指標體系,相信對跨境電商平臺信用評價起到指導作用.

從XGBoost模型搭建分類預測模式看來,該模型雖在人工智能領域應用較多,但是在跨境電商供應商信用評價過程中也表現出良好的穩定性和泛化性,可以推廣到實際問題中.下一步可以擴大樣本數據,構建更為精確的分類模型,對改模型進行更進一步的優化.

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 欧美成人影院亚洲综合图| 国产精品亚洲天堂| 在线精品视频成人网| 97人人模人人爽人人喊小说| 青草娱乐极品免费视频| 99re在线观看视频| 超碰精品无码一区二区| 狠狠色丁香婷婷| 欧美一级在线看| 亚洲精品无码抽插日韩| 青青国产在线| 小13箩利洗澡无码视频免费网站| 国产精品私拍在线爆乳| 日韩在线视频网| 国产成人91精品| 精品国产成人a在线观看| 亚洲高清中文字幕在线看不卡| 国产精品亚洲а∨天堂免下载| 看你懂的巨臀中文字幕一区二区| 国产69囗曝护士吞精在线视频 | 狠狠色丁婷婷综合久久| 欧美亚洲香蕉| 日韩精品一区二区三区免费在线观看| 亚洲精品视频免费看| 欧美精品v欧洲精品| 亚洲开心婷婷中文字幕| 亚洲av成人无码网站在线观看| 亚洲大尺度在线| 欧美国产日韩在线| 亚洲AV一二三区无码AV蜜桃| 97在线国产视频| 理论片一区| аⅴ资源中文在线天堂| 亚洲首页在线观看| 久久人人爽人人爽人人片aV东京热 | 色噜噜狠狠狠综合曰曰曰| 手机成人午夜在线视频| 久久亚洲AⅤ无码精品午夜麻豆| 麻豆精品在线播放| 乱色熟女综合一区二区| 国产一级二级在线观看| 91精品小视频| 中文字幕在线观| 亚洲男人的天堂视频| 97人人做人人爽香蕉精品| 久久综合结合久久狠狠狠97色| 九九九久久国产精品| 国产精品一区二区无码免费看片| 在线观看视频一区二区| 极品国产在线| 视频一本大道香蕉久在线播放| 国产免费怡红院视频| 国产一区二区在线视频观看| 久久久91人妻无码精品蜜桃HD| 黄色网在线| 中文字幕乱妇无码AV在线| 欧美在线伊人| 欧美日韩国产精品va| 亚洲毛片网站| 夜夜操狠狠操| 国产精品亚洲五月天高清| 欧美a√在线| 91亚洲精品国产自在现线| 欧美自慰一级看片免费| 91国内在线观看| 在线观看欧美国产| 找国产毛片看| 国产精品网曝门免费视频| 老色鬼久久亚洲AV综合| 久久久久国色AV免费观看性色| 亚洲日韩精品伊甸| 色婷婷亚洲综合五月| 国产激情在线视频| 久久综合九色综合97婷婷| 乱色熟女综合一区二区| 先锋资源久久| 午夜国产精品视频黄| 五月激情综合网| 亚洲福利片无码最新在线播放| 色综合网址| 国产亚洲视频免费播放| 欧美成人国产|