沈思怡 倪杰 夏曉倩 楊曉蓉
(1.浙江工商大學統計與數學學院,浙江 杭州 310018)
(2.統計數據工程技術與應用協同創新中心,浙江 杭州 310018)
隨著網絡的普及、物流體系的不斷完善,網絡購物以其商品類型多樣、商品價格低廉以及消費方式便捷深受廣大消費者的喜愛,成為當下最盛行的購物模式[1]。然而,由于買賣雙方無法協調退貨運費而產生大量退貨糾紛阻礙了電子商務市場的健康穩定發展。退貨運費險在解決這方面問題上發揮了積極作用,成為我國電子商務市場中不可或缺的環節。因此,為了維護買賣雙方的利益和保證保險公司的盈利,進一步研究有關退貨運費險定價方面的問題,制定符合電商平臺發展需求的退貨運費險定價方案十分必要。
本文從網購消費者視角切入,首先,尋找不同商品類別下網購消費者退貨情況的重要影響因素。其次,采用預期損失定價法和貝葉斯網絡方法建立定價模型,對退貨運費險進行合理定價。最后,在模型的基礎上,給出相應的結論與建議。
貝葉斯網絡結合了概率論與圖論的知識,是一種基于概率推理的圖形化網絡,適用于表達和分析不確定性和概率性的事件。貝葉斯網絡在給定某些先驗信息后,能夠利用條件概率表定量地描述事件之間的關系。設貝葉斯網絡表示成BN=(G,P),其中BN代表貝葉斯網絡,G代表有向無環圖,P代表節點條件概率表。令?表示網絡中所有節點的集合,pa(Xi)表示節點Xi所有父節點的集合,當pa(Xi)為空集時,P(Xi|pa(Xi))為先驗概率P(xi),則P(Xi|pa(Xi))表示節點Xi的條件概率表,由此可計算得到聯合概率分布[2],即

貝葉斯網絡學習包括結構學習和參數學習。結構學習方法常用的有基于評分搜索的方法,其將貝葉斯網絡結構學習問題視為優化問題,根據某種評分函數,利用搜索算法尋找評分最優的網絡結構。該方法主要包括兩個部分,一個是評分函數,用于評價網絡結構與樣本數據的擬合程度;另一個是搜索算法,用于搜索評分最高的網絡結構。目前,評分函數主要包括貝葉斯評分(MAP)、貝葉斯信息準則評分(BIC)等,搜索算法主要包括爬山算法等,具體原理可參考文獻[3-4]。參數學習方法常用的有貝葉斯估計法[5],該方法基于貝葉斯理論,充分考慮了先驗信息和樣本信息對待估參數的影響,基本原理是:首先將待估參數θf視作一個隨機變量,然后確定參數θ的先驗分布P(θ),最后通過貝葉斯公式計算出參數θ的后驗概率P(θ|D)。
根據退貨運費險市場的實際情況,本文將影響消費者退貨概率的主要因素歸納為消費者個人因素、商家因素和商品因素三個方面,采用調查問卷的方式獲取所需數據。
1.消費者個人因素側重于消費者個人情況對其退貨情況的影響,共有14個,包括性別、年齡、網購年齡、平均每月網購交易額、平均每月網購頻率、挑選商品的時間長度、常用的物流公司、平均每月退貨頻率、歷史退貨率、退貨運費險補償金額、是否購買過保險、購買商品總數、消費者忠誠度、退貨運費價格。
2.商家因素側重于商家情況對消費者退貨情況的影響,共有2個,包括商品降價補償措施、商家的綜合信譽度。
3.商品因素側重于商品情況對消費者退貨情況的影響,共有5個,包括商品類別、商品最高價位、商品包裝精美程度、商品質量情況、商品電子口碑好評度。
考慮到數據的實際搜集情況以及消費者之間的差異性,本文選取“退貨”的樣本數較多的商品類別作為本文研究的對象,最終選取衣帽鞋飾品類、數碼電子類和美容護膚類這三組分別進行建模。
在建模之前,對所獲取的數據進行預處理,以保證數據的可用性。針對這三組樣本數據存在明顯類不平衡問題,使用欠采樣的方法處理,使每個數據集中的類別達到平衡。此外,本文使用基于互信息的變量選擇方法篩選消費者退貨情況的重要影響因素,即以退貨情況作為被解釋變量,以上述21個影響因素作為解釋變量,分別計算三種商品類別下各影響因素與退貨情況之間的互信息值,閾值設定為0.01,按照關聯程度篩選變量,留下關聯性較強的變量作為后續用于建模的變量。
經過變量選擇,篩選得到不同商品類別下影響消費者退貨概率的重要因素各10個,具體見表1。

表1 三種商品類別下的重要影響因素
由結果可知,消費者購買不同類別的商品,其退貨的主要影響因素會有所不同。經過變量選擇后,在上述三種類別中,共同的影響因素有平均每月退貨頻率、歷史退貨率、商品質量情況、商品包裝精美程度、商品降價補償措施、商品電子口碑好評度,但每個變量在不同的商品類別下,它們的重要程度是不同的。另外,不同商品類別的退貨情況還受到特定的因素影響。例如,衣帽鞋飾品類的退貨情況還受到平均每月網購交易額、是否購買過保險的影響,數碼電子類的退貨情況還受到購買商品總數、商家的綜合信譽度的影響,美容護膚類的退貨情況還受到年齡、退貨運費價格這些因素的影響。
1.構建退貨運費險定價模型
考慮到預期損失定價法具有一般性,且計算原則簡單,本文建立預期損失定價模型對退貨運費險進行合理定價。預期損失定價法的定價公式如下。
預期損失率=預期違約概率*風險敞口*預期違約損失率
上式中,預期違約概率一般根據消費者預期退貨概率確定;風險敞口在一般情況下等于1;預期違約損失率是指違約造成的損失占被保單運費總額的比例,通常情況下也等于1。如此就把退貨運費險定價模型轉換為求預期退貨概率這一關鍵參數的值。下面則重點對消費者退貨概率進行預測。
2.構建貝葉斯網絡預測模型
貝葉斯網絡是研究不確定性問題的優良方法,是描述隨機變量間關系的一種工具。消費者退貨情況受諸多因素影響,這些影響因素彼此關聯,其蘊含的信息又具有不確定性和相關性的特點,因此本文選用貝葉斯網絡方法建立消費者退貨概率的預測模型,這樣既能夠挖掘出影響因素與消費者退貨情況的關聯關系,也更加貼近現實情況。
根據前面篩選出的不同類別下影響消費者退貨情況的重要變量,在確定網絡節點時,將這些變量全部考慮在內,并把退貨情況這一被解釋變量也納入網絡結構,即衣帽鞋飾品類、數碼電子類和美容護膚類這三種商品類別的網絡節點均為11個。然后,本文采用基于評分搜索的方法進行貝葉斯網絡結構學習以及采用貝葉斯估計法進行貝葉斯網絡參數學習。使用基于評分搜索的方法需要考慮兩個方面,一方面是評分函數選擇,另一方面是搜索算法的選擇。目前,常用的評分函數有K2評分、BDeu評分、BIC評分,常用的搜索算法有:K2算法、爬山算法。可是,將哪個評分函數與哪個搜索算法結合使用可以得到最合適的網絡結構還未可知,所以本文嘗試多種組合方式,期望找到適用于不同商品類別下的消費者退貨概率的貝葉斯網絡結構。考慮到爬山算法原理簡單且可與任一評分函數一起使用,故將爬山算法作為固定的搜索算法,分別與K2評分、BDeu評分和BIC評分組合成三種貝葉斯網絡結構學習方法,分別稱為K2評分-爬山搜索法、BDeu評分-爬山搜索法、BIC評分-爬山搜索法,借此建立貝葉斯網絡結構。貝葉斯網絡結構學習完成后,使用貝葉斯估計法進行參數學習,充分利用樣本信息學習得到每個網絡節點的條件概率分布。
綜上,本文基于衣帽鞋飾品類、數碼電子類和美容護膚類這三組樣本數據和經過變量選擇保留的變量,選擇使用K2評分-爬山搜索法、BDeu評分-爬山搜索法、BIC評分-爬山搜索法這三種貝葉斯網絡結構學習方法分別建立消費者退貨概率的貝葉斯網絡結構。在同一種商品類別下,通過上述三種貝葉斯網絡結構學習方法可構建三種不同的網絡拓撲結構,繼而利用建立的網絡結構進行參數學習,預測消費者退貨概率,最后比較“退貨”和“未退貨”兩個類的F1值以及平均準確率,選擇效果最好的模型作為該類別下最終的貝葉斯網絡預測模型,那么該模型的網絡結構則為該類別下最優的網絡結構。
在同一商品類別下,通過對比采用K2評分-爬山搜索法、BIC評分-爬山搜索法、BDeu評分-爬山搜索法這三種結構學習方法建立的貝葉斯網絡預測模型的效果,能夠得到最優的模型,最終結果見表2。

表2 三種商品類別下的最優貝葉斯網絡模型預測結果
結果顯示,不同商品類別下的貝葉斯網絡預測模型的平均預測準確率均在74%以上。從F1值的角度來看,各類別的F1值均在72%以上,說明本文所建立的各類別下的貝葉斯網絡預測模型效果均較好。
除了貝葉斯網絡以外,機器學習還有隨機森林、XGBoost、支持向量機等非線性算法。本文采用隨機森林、XGBoost、支持向量機三種算法建立模型,對消費者退貨概率進行預測,然后與最優的貝葉斯網絡模型預測結果進行比較,分析這四種方法的預測精度,以此驗證貝葉斯網絡方法的有效性,結果如表3所示。

表3 各模型預測結果對比
結果表明,在三種商品類別下,貝葉斯網絡模型預測效果較優于其他三種方法建立的模型,這表明本文所構建的貝葉斯網絡模型具有良好的預測精度和泛化能力,并且該模型能從概率的角度較好地描述退貨情況與其對應影響因素之間的非線性關系,因此將該模型應用于消費者退貨概率預測是可行的。
研究發現,消費者購買不同類別的商品,其退貨的主要影響因素有所不同,且每個變量在不同的商品類別下,它們的重要程度也不同。如果按照消費者購買的商品類別劃分樣本可構建更加優良的貝葉斯網絡模型。此外,研究結果還證明了貝葉斯網絡模型可以作為預測消費者退貨概率的有效工具,按照以上思路能夠實現退貨運費險的差別化定價和動態定價。基于以上結論,為促進退貨運費險市場良好發展提出如下建議:其一,細分消費者群體有助于制定差別化的退貨運費險定價方案,使方案更具針對性;其二,保險公司在針對不同消費群體制定退貨運費險定價時,應該關注到消費者退貨概率與影響因素之間相關性以及影響因素與影響因素之間的相關性,并且在定價過程中應該有所側重,避免使用相同變量導致模型無法有效預測消費者退貨概率;其三,利用貝葉斯網絡模型得到消費者后驗退貨概率后,需“有的放矢”地采取定價措施,避免設置過高的價格“勸退”消費者。