基于線性回歸和神經網絡模型的二手車交易價格預測分析

2023-09-21 15:49:02鄭愛萍李彬彬郭傳好

智能計算機與應用 2023年9期

鄭愛萍，李彬彬，郭傳好，2

（1 浙江理工大學經濟管理學院，杭州 310018； 2 浙江理工大學浙江省生態文明研究院，杭州 310018）

0 引言

中國汽車流通協會數據資料顯示，二手車市場的年交易量從2000 年的25 萬輛增加到2021 年的1 769萬輛，21 年間增長了約70 倍，市場發展和需求潛力巨大。 2022 年1 月21 日國家發展改革委等七個部門聯合發布了“促進綠色消費實施方案”，該方案指出要積極發展二手車經銷業務，進一步擴大二手車流通。二手車因其“一車一況”的特殊性，比一般的商品定價要復雜和困難，如品牌、車系、動力、行駛里程、受損情況、維修情況以及新車價格都會對二手車價格的制定帶來影響，國家目前亦沒有出臺評判二手車資產價值的統一標準。因此，研究二手車的不同定價模型及價格預測方法，對于二手車市場價格的合理制定和二手車市場的健康發展具有重要的意義。

二手車定價方法的研究成果不多，且主要集中于傳統的資產評估方法。馮秀榮等［1］利用分析法得出影響二手車價值的重要因素是使用時間和里程；童佳等［2］指出二手車評估和傳統資產評估的方法一樣，根據不同的評估目的、價值標準和業務條件可分為收益現值法、重置成本法和清算價格法；王傳杏等［3］基于特征價值理論，利用多元線性回歸建立了特征價格評估模型；程曉軍［4］重置成本法中對成新率的權重系數，對二手車價格進行了更為全面的評估。

隨著大數據和機器學習的快速發展，相關的數據分析和統計預測方法亦被越來越多的學者應用于經濟管理問題的研究之中。林建吾等［5］利用輕量化卷積神經網絡對番茄病害進行圖像識別；丁飛等［6］基于神經網絡模型對房價進行預測；Pudaruth［7］研究了品牌、車型、容積、公里數等多個因素與價格的關系，應用了包括k 近鄰、多元線性回歸和決策樹模型對毛里求斯的汽車價格進行預測；Gegic 等［8］建立了一個預測波斯尼亞和黑塞哥維那的二手車價格預測模型，分別使用了人工神經網絡、支持向量機和隨機森林3 種機器學習技術，該模型具有較好的預測效果，但模型的訓練僅基于1 105個樣本，模型的普適性有待提高；毛攀等［9］基于BP 神經網絡建立了二手車價格評估模型，模型的可靠性與樣本數量關系重大；鄭婕［10］提出了基于隨機森林和XGBoost（eXtreme Gradient Boosting）算法的二手車價格預測模型，但該模型是基于啟發式算法，得到的定價解為局部最優而非全局最優；Arefin［11］采用決策樹、支持向量機等機器學習方法對特斯拉二手車汽車進行研究，結果表明增強決策樹模型的預測效果最好；F Wang 等［12］使用Python中的自動特征處理工具與超參數優化方法對不同機器學習算法進行訓練，發現使用極端學習樹與隨機森林算法訓練的模型預測能力較好。

中國關于二手車交易價格預測的相關研究成果相對較少，存在模型特征量選擇少、數據樣本信息不足等問題。本文深入分析探討影響二手車交易價格的因素，建立二手車交易價格的多元線性回歸預測模型和神經網絡模型；為了改進模型的預測性能，同時利用自然對數對原數據進行數據處理，進而建立相應的預測模型。為了評估不同模型的預測性能，基于58 同城二手車交易平臺部分數據進行了相關的數值測試分析，結果表明經過自然對數處理數據集的神經網絡模型具有較好的預測結果，對于二手車交易市場中價格的制定和預測以及二手車交易市場的健康發展具有重要的指導意義。

1 數據來源與分析

1.1 數據來源

本文利用的樣本數據采集于2021 年58 同城二手車交易平臺的30 000*36 的數據量，數據主要包括車輛基礎信息、交易時間信息、價格信息等，共計36 個特征變量，有15 個變量AF1-AF15 匿名變量，相關變量字段的信息見表1。

表1 數據集特征信息Tab. 1 Feature information of dataset

1.2 數據分析

為了便于對數據的理解和方便建模，本文對數據集的每個特征變量及數值含義進行簡單的解釋和說明，發現汽車的“展銷時間”與交易價格之間沒有顯著的關系，但“注冊日期”和“上牌日期”與“二手車交易價格”之間有較明顯的正向關系；在對“展銷時間”和“注冊日期”兩列特征數據進行處理后，發現車輛的“使用時間”與“二手車交易價格”亦是直接相關的，與一般的交易情況亦是符合的，4 個特征變量與交易價格的關系圖如圖1 中所示。

圖1 汽車上牌，展銷，注冊及其使用時間與二手交易價格的關系圖Fig. 1 Diagram of relationship between licenseDate， tradeTime，registerdate， unsetime and price

本文使用的數據集中還包含15 列匿名特征，其中“匿名11”特征下的數據為字符型數據，無法準確判斷其性質特征，為了減少不正確變量選擇對模型效果的影響，故對“匿名11”特征及其數據進行刪除處理。 “匿名12”是一組表示為長*寬*高的數據，將其理解為車輛外觀尺寸的表達形式，車輛的大小與車長和軸距有關，且在未知軸距的情況下，可將車長作為區分車輛大小的重要指標。為了數據處理和建模的方便，基于數據集本文將車輛區分指標劃分見表2，同時將相關數據均轉換為數值型數據。

表2 車輛大小指標與數據賦值Tab. 2 Vehicle size indicat or and data assignment

對數據缺失值進行檢查分析，檢查結果如圖2所示，橫坐標為其在整個數據集中所占的比例，縱坐標為含有缺失值的特征名稱，黑色部分表示該特征中所含缺失值的計數，本文以缺失值占比20%為分界線，即缺失值在整體數據中占比超過20%，則將該特征刪除，否則使用該特征下數據的平均值對相關缺失值部分進行補充，即對缺失過多且會影響數據細節的缺失值進行剔除，對含缺失值較少的特征，在保證數據細節不受影響的前提下使用相關數據進行補充，如均值插補等，避免大量剔除缺失數據導致數據量不足。

圖2 含缺失值的特征及其缺失值占比Fig. 2 Features with missing values and the proportion of missing values

此外，本文使用箱形圖分析數據集的離散情況，并判斷數據集中是否存在離群點（異常值）。異常值的處理以“二手車交易價格”為重點特征，即在“二手車交易價格”這一特征中存在異常值。為了提高所建立模型的普適性，在對異常值處理時本文允許存在離群程度不大的異常值，但對極端異常值所在行進行剔除，相關結果如圖3 中所示。

圖3 二手車交易價格箱形圖Fig. 3 Box plot of transaction price

二手車交易價格分布直方圖和自然對數處理后分布直方圖如圖4 所示。由圖4（a）可知，此時二手車交易價格數據分布呈現一個近似正偏的正態分布；如圖4（b）所示，為了降低數據分布不規范對建立模型結果的影響，利用自然對數對二手車交易價格數據進行變換處理，進而可得到一個數據分布較規范的二手車交易價格數據集。

圖4 二手車交易價格分布直方圖和自然對數處理后分布直方圖Fig. 4 Histogram of transaction price and its nature longarithm

對初始數據集預處理，最終得到一個29319*28 的數據集，其中對該數據集的描述性統計分析結果見表3。

表3 二手車交易數據的描述性統計結果Tab. 3 Descriptive statistics of transaction dataset

首先，在數據集中一部分特征的數據屬于分類賦值的離散數據，但無法得知其確切的含義，如假設“品牌”與“二手車交易價格”是正相關的，可以得出：當“品牌”的數值越大時，“二手車交易價格”也就越大，但由于不知道特征“品牌”數值的具體含義，沒辦法對這組關系進行更深入的分析，故而在模型的建立與求解中雖仍將這部分特征引入模型，但不再分析其結果的具體意義；其次，本文視里程和使用時間為汽車的使用程度，其他幾個特征視為汽車自身的情況，在汽車使用程度中平均行駛里程為7.20 個單位，最大行駛里程為44.74 個單位，即大部分車輛的使用程度都較低，其平均使用時間為2 114.26 天，結合平均行駛里程可知，展銷的二手車具有里程短，使用時間長等特點，符合二手車的商品特征；再次，平均過戶次數為0.51 次，且至少50%的車輛都未經過過戶，說明在這些展銷的二手車中大部分都是新車購車車主將該車輛作為二手車轉售的，平均載客人數和平均車輛大小均說明展銷的二手車主體是更經濟適用的中等大小、可載客5 人的車輛；最后，平均新車價格為26.76萬元，但平均二手車成交價格為12.85 萬元，跌幅明顯，即汽車作為不保值商品，在二次售賣時價格會有較大幅度的下降，從新車價格分布中可以看出，大部分展銷出售的二手車在一開始購買時75%的汽車新車售價為35 萬以下，即二手車交易市場的流通主體是售價偏大眾的經濟型汽車。

2 建模與分析

為了建立二手車價格的預測模型，本文先對數據集中的28 個特征進行了相關性分析，并給出相關系數熱力圖，如表4 和圖5 中所示。表4 給出了與二手車交易價格呈現相關性最大的前8 個特征變量及其相關系數大小，可知新車價格對二手車交易價格的影響最為顯著，相關影響系數為0.810 1；其它對二手車交易價格影響較大的特征是排量、匿名12、匿名2、匿名8、年款、廠商類型及使用時間，其中使用時間對二手車交易價格的影響呈現負相關性。圖5 中各個特征變量標簽的釋義見表1，越靠近藍色代表正相關性越強，越靠近紅色則代表負相關性越強，即顏色越深的區域的相關系數的絕對值越接近1，此時兩個特征變量越相關。

圖5 特征相關系數熱力圖Fig. 5 Heat map of correlation coefficient

表4 二手車交易價格與部分特征的相關系數Tab. 4 Correlation coefficient between transaction price and some characteristic variables

2.1 多元線性回歸模型

基于特征變量的相關性分析結果，以“二手車交易價格”為因變量，建立多元線性回歸預測模型。在0.1 顯著性水平下，對模型檢驗分析發現：“里程”、“過戶次數”和“使用時間”3 個特征變量與“二手車交易價格”呈現負相關性，而且這些特征變量也可作為車輛使用程度的描述，即車輛使用的程度越高，該車輛作為二手車售賣時成交的價格就越低。同時，“二手車交易價格”同“載客人數”、“排量”、“新車價格”和“匿名12”呈現顯著正相關性。為了保證模型的顯著性效果，篩去與“二手車交易價格”相關性較低的特征變量，最終得到二手車交易價格預測回歸模型如式（1）：

其中，特征變量的含義見表1。

利用自然對數變換處理過的特征變量數據集具有較好的分布特征和度量性質，因此利用自然對數對所有特征變量數據進行處理，并對處理后的數據進行多元線性回歸建模，對數變換函數如式（2）：

其中，Xi為特征變量，即表1 中所示的變量；ε為回歸的誤差；βi是回歸方程系數；Y為二手車價格。

同理，在相同顯著性水平下，可得此時回歸預測模型如式（3）：

其中，特征變量的含義見表1。

2.2 模型結果分析

為了有效的評價和對比分析所建預測模型的有效性和準確性，本文采用平均相對誤差（MAPE， Mean Absolute Percentage Error）和準確率（Accuracy5）的線性組合作為模型的最終評價指標M，式（4）：

MAPE又稱相對誤差（APE，Absolute Percentage Error）的算術平均值。為了降低單次預測中噪聲數據對預測結果準確性的影響，通常用于評估預測模型預測結果的可靠性和精度，式（5）和式（6）：

其中，為二手車價格的預測值；y為相應二手車價格真實值；m是價格預測實驗的次數（本文m＝29 319）。

準確率（Accuracy5）通常表示模型預測正確的樣本在實驗總樣本中所占比例，式（7）：

其中，0.05 表示相對誤差比例，APE≤0.05 表示相對誤差小于5%，即預測值相對于真實值的誤差比例不超過0.05，故而Accuracy5又稱為5%誤差準確率。

基于數據預處理所得到的數據集，利用多元線性回歸預測模型和多元線性回歸（自然對數）預測模型分別對二手車交易價格進行預測分析，對比結果見表5。每一次價格預測實驗都會對應產生一個APE值，一共進行了29 319次價格預測實驗。由表5 中結果可知，基于自然對數處理過的數據集而建立的預測模型，其準確率和平均相對誤差都要優于基于原數據集而建立的預測模型，模型的整體性能提升了1 倍多。

表5 不同模型評估對比結果Tab. 5 Comparison results between different models

為了進一步對比分析本文所建回歸預測模型的性能，利用MATLAB 軟件工具箱中集成的神經網絡模型，設計并建立了一個基于監督學習的神經網絡模型，其中訓練集、測試集和檢驗集的比例分別是60%，20%和20%，隱藏層神經元取27 個，同時選擇庫函數trainlm 作為訓練函數，并使用MATLAB 自帶的Levenberg-Marquardt 算法求解生成的神經網絡模型。

基于數據預處理得到的數據集，利用MATLAB中集成的神經網絡建模工具，得到了一個基于神經網絡模型的二手車交易價格預測模型，模型的擬合誤差效果如圖6 所示。由圖6 可知，最佳擬合結果出現在第72 次迭代，此時驗證集誤差為3.507 4。神經網絡不同訓練集擬合結果如圖7 所示，圖7（a）中藍線代表神經網絡訓練出的擬合模型，黑色氣泡點代表訓練集輸入的數據，氣泡點越靠近藍線則代表訓練結果越好，可見大部分氣泡點都圍繞在擬合線附近，僅存在少部分孤立點，由此可知該模型訓練集的擬合程度較好；圖7（b）圖中數據占總數據集的20%，綠線表示其擬合模型，可見雖然黑色氣泡點存在部分孤立點，但數據整體基本都在擬合線附近；圖7（c）中有較多的氣泡點偏離紅色擬合線較多；圖7（d）中數據集綜合擬合程度較高，網絡訓練整體效果較好。

圖6 神經網絡擬合誤差Fig. 6 Fitting errors of neural network

圖7 神經網絡不同訓練集擬合結果Fig. 7 Fitting degree of different training sets for neural netwok

基于自然對數處理后的數據集而建立的回歸模型具有更好的預測效果，因此在神經網絡模型中利用自然對數對原數據集進行相關變換和處理，得到了基于神經網絡經自然對數處理后的二手車交易價格預測模型，該模型的相關擬合結果如圖8 和圖9中所示。由圖8 可知迭代僅需要55 次便達到最優，較數據優化前模型計算成本有一定程度的降低，驗證集誤差僅為0.014 701，較優化前模型誤差降低了300 多倍，模型的準確性有了極大的改進。

圖8 基于自然對數的神經網絡擬合誤差Fig. 8 Fitting error of neural network based on natural logarithm

圖9 基于自然對數的神經網絡不同訓練集擬合結果Fig. 9 Fitting degree of different training sets for neural network based on natual logarithm

神經網絡預測模型和神經網絡（自然對數）預測模型的性能結果也與多元線性回歸預測模型和多元線性回歸（自然對數）預測模型的相關結果進行了對比分析，相關對比結果見表5。由表5 可知，基于對數的多元線性回歸（自然對數）模型的效果要優于神經網絡模型，其MAPE是神經網絡的一半，且Accuracy5有20%的提升。數據的相關結果亦表明，基于自然對數處理過的數據而建立的模型具有較好的預測性能。

3 結束語

二手車交易價格的預測與制定對二手車交易市場的良序發展具有重要的指導作用。本文基于2021 年58 同城二手車交易平臺中的部分脫敏數據集，分別建立了多元線性回歸和神經網絡二手車交易價格預測模型，數值測試的結果表明基于神經網絡建立的預測模型相比于基于多元線性回歸建立的預測模型，準確性和精確性整體提高了近1 倍，同時在對數據進行自然對數歸一化處理后的預測模型，平均相對誤差降為原模型的1／5，精確度提升為原模型的2-3 倍，即利用經過自然對數歸一化處理的數據集，基于神經網絡建立的價格預測模型具有更好的擬合和預測效果。相關研究成果對于探討二手車市場中的不同定價模型及其優缺點，指導二手車交易價格的合理制定和預測以及二手車交易市場的健康發展具有重要的現實意義。