牟 嬌,梅培楠
(1.貴州大學人民武裝學院,貴陽 550025;2.貴州中安云網科技有限公司,貴陽 550003)
隨著國民經濟的發展與人民物質生活的提高,摩托車從傳統的代步工具逐步向個性化、性能化、科技化發展,摩托車受眾越來越廣,二手摩托車演變成了個性化的二手摩托車交易,二手摩托車交易市場發展呈現大好前景[1]。
歐美日等國家的二手車已形成了一個體系成熟的市場,二手車價格評估由具有評估資格的相關部門根據二手車市場行情制定評估規則[2]。與國外成熟的二手車市場相比,國內二手車交易評估體系不健全,對車輛進行合理、準確的估值成為二手車交易亟待解決的問題。學者針對二手車的估值研究早已進行,二手車的估值影響因素維度多、且非線性,難以使用規律的方法進行評估,隨著大數據與人工智能技術的發展,學者逐漸將機器學習方法應用于二手車評估問題,以其計算快、智能化、數據處理量大等優勢成為研究的新熱點[3-5]。
周凌云[3]早在2012年使用決策樹進行汽車評測,具有良好的預測準確率;曹靜嫻[4]利用決策樹、logistic回歸和神經網絡建立了不同的二手車性能評估模型,實現了對二手車性能的多種復雜混合因素在一定程度上的定量分析;劉聰等[5]將自適應提升方法(AdaBoost)應用于二手車價值的評估,提出一種以決策樹樁作為弱分類器的集成方法,其準確率較傳統決策樹方法得到提高。
本文參考二手車估值模型的建立方法,收集二手摩托車交易數據,通過隨機森林算法進行統計建模,建立二手摩托車殘值率估值模型,以其對二手摩托車交易估值起到指導作用。
隨機森林(random forest,RF)方法是美國科學家Breiman[6]于2001年提出的一種統計學習方法,它是由并行式集成學習的Bagging方法與隨機子空間方法(random subspace)相結合而形成[7]。隨機森林是基于決策樹的隨機屬性選擇訓練算法,隨機森林算法具有抗噪性強、計算開銷小等優點,可用于分類和回歸任務[8]。二手車殘值率輸出為連續值,屬于回歸問題。近年來,國內外學者在眾多領域中都使用了隨機森林回歸模型。許允之等[9]將隨機森林算法應用于徐州霧霾預測研究,建立徐州空氣質量指數回歸預測模型,均方根誤差在6左右,為徐州霧霾的形成原因以及治理措施提供了參考;王仁超等[10]基于隨機森林回歸方法建立了爆破塊度預測模型,為堆石壩爆破施工管理與控制提供了科學指導;Osman等[11]使用隨機森林回歸模型進行機械鉆速預測,指導鉆井從業者以最小的時間和成本完成鉆井項目;Ramalingam等[12]采用混合Harris Hawk優化隨機森林算法(HHO-RF)建立了分散光伏電站的有效數據預測模型。
如圖1所示,基于隨機森林的二手摩托車殘值率預估模型的預測步驟如下:

圖1 基于隨機森林的二手摩托車殘值率預估模型的預測步驟
(1)構建訓練數據集:將二手摩托車的成交殘值率作為模型的輸出變量(標簽值),摩托車機身參數、使用參數及審核參數作為模型的輸入變量(屬性值),標簽值及屬性值組成訓練數據集D。
(2)構建隨機森林:對數據量為m的訓練集D進行m次隨機采樣,得到樣本量為m的采樣集D';在所有屬性中隨機選擇K個屬性特征,建立決策樹回歸模型;重復以上步驟T次,建立T棵回歸決策樹,構成隨機森林。
(3)預測二手摩托車殘值率:將預測集中的屬性值輸入到訓練完成的模型中,模型將會計算T棵決策樹的回歸結果平均值作為其輸出結果,得到摩托車殘值率。
影響二手摩托車殘值率的主要變量有:機身參數、使用參數及審核參數。
發動機參數選擇發動機型號、排量、環保標準、供油方式作為輸入特征;車體參數選擇座高、油箱、整備質量、abs、冷卻類型作為輸入特征。
摩托車使用參數包括:車齡、行駛里程、上牌城市。上牌城市對二手摩托車價格有顯著影響。
摩托車審核參數包括:車況等級、車主報價,車況等級由人工標注,分為優秀、良好、一般、較差、很差。
本文數據來源于某二手車交易網站數據庫,數據存在異常值、缺失值、重復值等問題,在數據進行模型訓練前針對不同特征進行數據預處理,如行駛里程單位統一為km;為車身顏色、座高、整備質量等缺省值補上該車型的默認配置;若某一數據缺省特征值超過1/3,刪除該數據。數據預處理后,剩余有效數據約6975條,隨機劃分測試集與訓練集,1/4數據作為測試集,3/4數據作為訓練集。數據預處理后的部分特征數據集見表1。

表1 部分特征數據集
數據預處理后,存在特征為屬性值、特征值需縮放等不同特征處理問題,使得進入模型訓練的特征更加精確,提高模型訓練的效率,選取特征不同的處理方式見表2。

表2 特征處理
此模型選取二手摩托車殘值率作為輸出值(標簽值),殘值率計算公式如下:

本文采用平均絕對誤差(mean absolute er?ror,MAE)和R方(R-squared,R2)作為模型評價指標,MAE用來描述模型預測值的準確率,R2用來描述預測值與實測值之間的相關程度,計算公式如下:

式中:m為訓練集個數;y為殘值率預測值,f(x)為殘值率真實值,T為殘值率真實值的平均值。
本文從200棵決策樹到2000棵決策樹,依次遞增200棵;內部節點再劃分所需最小樣本數選擇2至8,依次遞增2;葉子節點最少樣本數選擇1至4,依次遞增1。不同排列組合下進行回歸預測,部分預測結果見表3。

表3 部分預測結果
從實驗結果初步可看出,決策樹的數目越多,平均誤差越小,擬合程度越好,但決策樹達到一定數量后,增加決策樹的數量對模型準確度提升效果不佳。在數據量樣本不多時,內部節點再劃分所需最小樣本數及葉子節點最少樣本數越小,模型預測結果擬合程度較好。決策樹數目1200,內部節點再劃分所需最小樣本數2,葉子節點最少樣本數1的時候誤差最小,預測值與實際值的擬合度如圖2所示。通過實驗結果得知,基于隨機森林回歸的二手摩托車殘值率預測模型整體效果良好,MAE值大都在5%以內,預測準確度較高;R2值大都在90%以上,預測值與實際值相關性強。

圖2 預測值與實際值的擬合度
隨機森林算法提供特征重要性的計算,計算過程如下:
(1)針對隨機森林中建立的決策回歸樹,計算袋外數據(OOB)的誤差,記作errOOB1;
(2)對袋外數據OOB所有樣本的特征X隨機加入噪聲干擾,再次計算袋外數據誤差,記作errOOB2;
(3)對隨機森林中的所有決策樹計算上述兩個誤差值,特征X的重要性計算公式為

式中,n表示決策樹的個數。
通過給決策樹特征隨機加入噪聲,袋外準確度大幅度降低,表示該特征對決策樹影響很大,對所有決策樹取平均值,得到特征的最后重要性。特征重要性結果見圖3。可以看出,車齡、行駛里程及上牌城市三個特征重要程度較高,符合市場規律。

圖3 特征重要性
為進一步驗證隨機森林模型在二手摩托車估值模型上的優劣,采用交叉驗證法選取貝葉斯嶺回歸[13](BayesianRidge)、普通線性回歸[14](LinearRegression)、彈性網絡回歸[15](Elastic?Net)、支持向量機回歸[16](SVR)、神經網絡[17](BP-NN)預測模型構建預測模型,進行實驗對比分析。計算上述模型的MAE、R2、訓練時間三個評價指標,各模型的對比結果見表4和圖4。

表4 模型預測結果對比

圖4 預測值與實際值的擬合度
根據對比結果,可以看出在預測模型準確性上,RF、BP-NN模型預測準確性明顯優于其他回歸模型,RF、BP-NN的MAE均值均在0.035以下,R2能達到0.90以上。在運行效率上,RF、BP-NN的運行效率遠低于其他模型,但RF的運行效率與BP-NN相比仍具有一定優勢。綜合比較上述結果,RF在高維度的回歸預測問題上,準確性表現優秀,且具有良好的運行效率。
二手摩托車估值模型成功建立,能帶來以下應用價值:促進二手摩托車行業定價透明規范化——二手摩托車出售者能夠通過模型來預測自己的二手摩托車能夠賣多少錢,使價格定在一個合理區間,更容易售賣出去。購買者在市場里只需考慮自己想要的摩托車配置和能夠接受的折舊度,利用模型來確定二手摩托車價格,更容易買到性價比較高的商品。為相關研究者提供研究思路——本文從影響因素分析、數據預處理、模型參數選擇來逐步建立二手摩托車殘值率估值模型,希望能夠為相關研究者提供一些研究思路。