基于XGBoost的跨境電商企業征信等級預測研究

2018-07-21 02:20:18王珊珊查林濤

韶關學院學報 2018年6期

王珊珊，查林濤

（安徽國際商務職業學院商貿流通學院，安徽合肥230011）

在國內，對于跨境電子商務平臺研究有很多，主要集中在模式選擇、發展路徑研究方面.付蔚蔚［1］提出了利用AHP評價法用于中小企業跨境電商平臺選擇.宛建偉［2］分析了目前已經成型的進口跨境電商發展模式的利弊以及跨境電商網站運營建設等問題.劉晉飛［3］利用因子分析法構建了電商采納及企業發展指標體系，探討電子商務采納及對跨境電商制造型企業成長的影響和作用機理.但對供應商建立完善的信用評價體系的研究則較少.

本文根據數據分析基本流程構建大數據環境下的指標體系.流程如下：（1）數據采集.面對互聯網海量的數據，在確定基本評價指標的基礎上，利用爬蟲工具對數據進行獲取，使得數據充足并具有時效性.（2）數據清洗.雖然在互聯網上獲取的數據是海量的，但也存在著大量的噪音.為了去除這些噪音，需要對數據進行了清洗［4］.（3）數據標準化.最后在構建指標之前，采用Z標準化來對數據進行處理［5］.通過以上步驟，本文構建供應商信用指標：企業基本指標（銷售額、從業人員數）、產品質量（產品與描述相符程度、信息完整性、好評率）、服務質量（服務細節評分、客服首次響應時間）、顧客滿意度（新客增長率、老客回頭率）.

1 信用評估模型

Boosting算法是一種機器學習方法［6］，其主要作用是將弱分類轉化為強分類，達到有效分類的目的，其中GBDT就是一種有代表性的Boosting算法［7］.算法計算流程如下：

(1)根據最大熵理論，初始化為各訓練樣本賦予相同的權重，如：；

(2)迭代訓練模型，每次迭代都使用一種弱分類器對訓練樣本進行分類，并計算分類錯誤率：

其中ωi：第i個訓練樣本在本次迭代中的權重，Gm：第m個弱分類器;

(3)計算分類器權重：am=log((1-errm)/errm);

(4) 在第 m+1 次迭代時,修改樣本權重，將 ωi重置為可以看出，在第 m+1 次迭代中，對于第m次迭代分類錯誤的樣本會得到更多的權重;

(5)全部迭代完成后，把所有弱分類器集成在一起，構成完整的分類模型，其最終效果采用投票方式計算.

XGBoost［8］算法在GBDT基礎上對性能的一種改進，可以穩定高效的在大數據環境下執行，其中最基本的組成結構為回歸樹（CART）.XGBoost模型可以表示為：

其中，i=1,2，…,n為特征數據，F為所有弱分類器的集合，可以為各種回歸樹，弱分類器由fk表示.二分類中，定義≥0.5 的為正類，<0.5 為反類.

建立模型需要尋找使目標函數最小化的前提下，所能找到的最優參數，目標函數fobj(θ)由誤差項L(θ)和正則化項Ω(θ)組合構成，其中L(θ)表示函數的損失，即預測結果與真值之間的差距，Ω(θ)用于降低模型復雜度，避免出現過擬合.定義目標函數fobj(θ)表達式：

定義：

建模時，除了對現有模型進行訓練以外，XGBoost增加了一個函數f(x)，新函數的加入有助于最小化目標函數，將該新加入的函數引入模型中，主要計算過程如下：

式中，C表示與f(x)無關的常數項.

利用泰勒公式對目標函數進行展開，目標函數可以近似為：

可見，特征點在誤差函數上的一階和二階導數可以決定目標函數的值.

2 模型復雜度及評價標準

為了計算模型復雜度，將f(x)細化：劃分回歸樹為兩部分，一部分表示樹結構本身，用q表示，另一部分表示葉子節點的權重，用w表示，因此f(x)表示為：

輸入變量特征被樹結構映射到葉子節點索引id上，同時為每個葉子節點賦予了一個權重w作為葉子節點的得分.因此，定義XGBoost模型復雜度為每棵弱分類器樹中節點的個數與其對應葉子節點得分的平方和：

式中，γ,T是超參數，用于防止模型過擬合.目標函數可以改寫成：

式中，Ij={i|q(xi)=j}表示第j棵樹中所有葉子節點集合.

令：

目標函數變化為：

假設，樹結構q已知，通過優化目標函數尋找最好的參數w，以及對應的目標函數最大值，問題便轉換為求解二次函數最小值問題，可以得到：

其中，fobj作為模型評價函數，fobj值與模型效果成反比.

以本文構建的大數據環境下的征信體系作為特征，使用XGBoost模型為每個樣本用戶預測一個征信等級，建立信用評估等級，由差、中、良和優表示，為了便于計算，分別為各等級設定取值1～4.本文使用相應類別的準確率(precision)和召回率(recall)作為評價指標，定義為.其中，Tp為正確預測真實目標類別的樣本數量，Np為錯誤預測真實目標類別的樣本數量，FN為錯誤預測非真實目標類別的樣本數量.

3 實驗效果

本文選取的跨境平臺供應商樣本數2 752條，取90%的樣本作為訓練集，剩下10%作為測試集，訓練集用于模型訓練，測試集用來衡量模型效果.

首先將樣本都進行隨機處理，充分的隨機處理可以保證效果的客觀.XGBoost模型本身就有相應的正則化項用于防止模型過擬合，設置學習率0.3，最大深度3，經過138次迭代后，訓練集損失持續下降，但測試集損失開始上升，模型效果達到最佳，如圖1所示.

圖1 loss曲線

最終模型準確度均值如表2所示，召回率如表3所示.表2的數據表示了多分類任務下，對各真實類別預測的準確度，矩陣中每一元素對應著模型預測類別為該實際類別的概率.對角線上元素代表了該類被正確預測的概率，且每一行加總為1.可以看出，本文建立的對企業信用預測的模型效果較好，可以精確預測目標所屬類別.

表2 信用等級查準率均值

表3 信用等級召回率均值

4 結語

本文從數據分析的基本流程出發.在建立XGBoost模型前，對跨境電商平臺供應商的信用特征進行分析，有效地獲取多維數據，并對數據進行清洗和處理.據此建立了針對跨境電商平臺供應商信用指標體系，相信對跨境電商平臺信用評價起到指導作用.

從XGBoost模型搭建分類預測模式看來，該模型雖在人工智能領域應用較多，但是在跨境電商供應商信用評價過程中也表現出良好的穩定性和泛化性，可以推廣到實際問題中.下一步可以擴大樣本數據，構建更為精確的分類模型，對改模型進行更進一步的優化.