基于數(shù)據(jù)挖掘技術(shù)的二手車性能評估模型研究

2014-10-28 18:46:36曹靜嫻

商場現(xiàn)代化 2014年24期

摘要：近來年我國二手車市場發(fā)展迅速，但市場不夠規(guī)范，主要依靠人為判斷，評估不客觀，甚至在鑒定評估過程中，有故意隱瞞車輛質(zhì)量問題、以次充好等欺騙消費者現(xiàn)象，給二手車市場造成不良影響。本文利用數(shù)據(jù)挖掘技術(shù)中的決策樹、logistic回歸和神經(jīng)網(wǎng)絡(luò)對205個二手車數(shù)據(jù)進(jìn)行分析，利用相關(guān)數(shù)據(jù)資料分別建立不同的二手車性能評估模型，實現(xiàn)了對二手車性能的多種復(fù)雜混合因素一定程度上的定量分析。

關(guān)鍵詞：二手車性能評估；數(shù)據(jù)挖掘；決策樹；logisticl回歸；神經(jīng)網(wǎng)絡(luò)

一、二手車評估的現(xiàn)狀和發(fā)展

雖然2011年的二手車銷量為433萬輛，是2000年25萬的16.3倍。但是還不到新車銷量的1/4，這說明我國二手車市場還存在很大的發(fā)展空間。而鑒定評估缺乏科學(xué)統(tǒng)一的標(biāo)準(zhǔn)，對二手車市場的發(fā)展都有較大影響。與傳統(tǒng)主觀簡單的評估方法相比，評估模型優(yōu)勢明顯。在數(shù)據(jù)挖掘技術(shù)中主要的預(yù)測模型有決策樹、Logistic回歸和神經(jīng)網(wǎng)絡(luò)三種。決策樹模型是一個逐層分隔的形式，而Logistic回歸屬于廣義線性模型，神經(jīng)網(wǎng)絡(luò)模型提供了一個靈活的擬合形式。

二、二手車性能評估模型的構(gòu)建

1.數(shù)據(jù)預(yù)處理、數(shù)據(jù)探索與數(shù)據(jù)清理

數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)有一定要求，所以要先進(jìn)行不完整數(shù)據(jù)、噪音數(shù)據(jù)、不一致數(shù)據(jù)的預(yù)處理。主要有數(shù)據(jù)清洗、數(shù)據(jù)集成與轉(zhuǎn)換、數(shù)據(jù)約減等三個過程。本文所用205個實驗數(shù)據(jù)、包含11個變量，數(shù)據(jù)量較少。

表原始實驗數(shù)據(jù)屬性

下面對表中各變量進(jìn)行分析處理：

（1）數(shù)據(jù)特征探索：利用insight節(jié)點，對各變量及目標(biāo)變量進(jìn)行可視化分析，探索各變量的關(guān)系、含義和特點，為建模做準(zhǔn)備。發(fā)現(xiàn)各變量缺失比例在2%以下，因此缺失變量可以忽視；（2）設(shè)定目標(biāo)變量。建立target，當(dāng)Performance Cost等于1時表示這是一個性能高的二手車；Performance Cost等于0時表示該二手車的性能比較低。建模的目標(biāo)就是要從數(shù)據(jù)中挖掘出性能高與低的二手車的不同特征，在模型審批過程中能自動將二者區(qū)分開來；（3）變量price與Performance Cost高度線性相關(guān)，因此rejected。highway mpg與city mpg高度相關(guān)，重復(fù)了，因此拒絕其中一個，本模型是拒絕的highway mpg；（4）觀察目標(biāo)變量的分布，可以看到性能高的二手車與性能低的二手車的比例分別為62%與38%。因此在數(shù)據(jù)分區(qū)的時候選擇用分層抽樣；（5）分層抽樣。訓(xùn)練集與驗證集的比例分別為60%，40%；（6）數(shù)據(jù)的轉(zhuǎn)換。通過觀察數(shù)據(jù)的分布可以看到engine size，Compression ratio，horsepower，price變量不是類似于正態(tài)分布的，因此對其進(jìn)行正態(tài)化處理；（7）雖然缺失數(shù)據(jù)比例很小，但是為了建模的嚴(yán)謹(jǐn)，還是添加了replacement節(jié)點，用決策樹方法對缺失的數(shù)據(jù)進(jìn)行處理。

2.模型的建立

（1）決策樹

因為決策樹本身具有處理缺失值的能力，可直接將未經(jīng)過缺失數(shù)據(jù)替換的原始數(shù)據(jù)作為輸入數(shù)據(jù)。本文采用熵不純性的降低作為節(jié)點劃分標(biāo)準(zhǔn)，采用二叉樹進(jìn)行建模，設(shè)置樹：j最大深度為6，最小葉子觀測數(shù)為5。從模型輸出結(jié)果得，SAS自動設(shè)置的模型中當(dāng)生成有6個葉子節(jié)點的決策樹時，訓(xùn)練樣本集細(xì)分誤分率為9.09%，檢驗樣本集細(xì)分誤分率為7.14%。

決策樹模型的綜合評價：輸出結(jié)果得出在“性能高的二手車”歷史記錄中有87.5%的預(yù)測值為“性能高的二手車”。在“性能高的二手車”紀(jì)錄中有12.5%的預(yù)測值為“性能低的二手車”。模型將3.846%的“性能低的二手車”預(yù)測為“性能高的二手車”；將歷史紀(jì)錄中96.154%的“性能低的二手車”預(yù)測為“性能低的二手車”。由評價結(jié)果可知，該決策樹對性能低的二手車的正確判斷率達(dá)了96.154%的較高水平，而對性能高的二手車的正確判斷率也達(dá)到了87.5%，該決策樹對性能低的二手車的預(yù)測準(zhǔn)確率更理想。

（2）logistic回歸建模

借助回歸節(jié)點建立模型，采用logistic回歸方法，回歸方式設(shè)置為backward，input coding選擇GLM。從模型輸出結(jié)果圖得出，誤分率標(biāo)準(zhǔn)表明，訓(xùn)練樣本集誤分率為9.92%，檢驗樣本集誤分率為11.9%。

Logistic模型的預(yù)測準(zhǔn)確率：模型將84.375%的“性能好的二手車”預(yù)測為“性能好的二手車”，將15.625%的“性能好的二手車”預(yù)測為“性能差的二手車”。有90.385%的“性能差的二手車”被預(yù)測為“性能差的二手車”，剩下9.615%的“性能差的二手車”被預(yù)測為“性能好的二手車”。可見回歸模型對性能好的二手車預(yù)測的準(zhǔn)確率沒有決策樹模型高。

（3）神經(jīng)網(wǎng)絡(luò)建模

神經(jīng)網(wǎng)絡(luò)建模：借助神經(jīng)網(wǎng)絡(luò)節(jié)點建立模型，網(wǎng)絡(luò)采用輸入、隱層、輸出三層結(jié)構(gòu)，其中隱層節(jié)點設(shè)置3個變量，其他設(shè)置采用軟件默認(rèn)設(shè)置。從模型輸出結(jié)果圖可以看出各種模型評價標(biāo)準(zhǔn)，其中誤分率標(biāo)準(zhǔn)表明，訓(xùn)練樣本集細(xì)分誤分率為7.43%，檢驗樣本集細(xì)分誤分率為8.33%。從訓(xùn)練過程得知訓(xùn)練誤差隨訓(xùn)練次數(shù)單調(diào)減少。選擇最佳的訓(xùn)練次數(shù)為7，此時的驗證誤差最小。

神經(jīng)網(wǎng)絡(luò)模型的預(yù)側(cè)準(zhǔn)確率：模型將87.5%的“性能好的二手車”預(yù)測為“性能好的二手車”，將12.5%的“性能好的二手車”預(yù)測為“性能差的二手車”。有94.23%的“性能差的二手車”被預(yù)測為“性能差的二手車”，剩下5.77%的“性能差的二手車”被預(yù)測為“性能好的二手車”。回歸模型一樣，對性能差的二手車的預(yù)測的準(zhǔn)確率比對性能好的二手車的預(yù)測的準(zhǔn)確率高。

3.模型的比較評估

由于數(shù)據(jù)挖掘模型有時會造成過度擬合，所以要對模型的正確性進(jìn)行判斷，保證預(yù)測可靠。在選擇解釋變量的時候，注重的是它們解釋目標(biāo)變量的能力。但是當(dāng)有很多的解釋變量時，并不能斷定出總體的性質(zhì)。因此有必要對于模型的有效性進(jìn)行評估，以保證模型的可靠穩(wěn)健。本文所用數(shù)據(jù)只有205條，在分拆后建模難度增大，訓(xùn)練，驗證兩部分結(jié)果有一定差距。盡管如此，我們?nèi)钥梢詮膶嶒灥慕Y(jié)果中獲得一些有意義的結(jié)論。

決策樹，logistic回歸，神經(jīng)網(wǎng)絡(luò)模型的比較：不同模型在不同數(shù)據(jù)集上的誤差率比較和lift圖

綜合訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集的結(jié)果，對三個模型進(jìn)行比較評價。從誤差率基于數(shù)據(jù)挖掘技術(shù)的二手車性能評估研究的比較表中可以看出，決策樹模型和神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確率最高。神經(jīng)網(wǎng)絡(luò)在訓(xùn)練集上誤分率低，但在驗證集上誤分率增大比較多，有“過擬合”的現(xiàn)象。從lift圖上來看，幾個模型的效果都比較好。綜合來看，選擇決策樹模型。

最后得到的規(guī)則是：

性能好的二手車：

（1）horsepower>=94.5 &engine size>=158.5

（2）horsepower>=94.5 &enginesize<158.5 &fuelsystem=mpf

i&city mpg<22

（3）horsepower>=94.5 &engine size<158.5&fuel system=mp

fi &city mpg>=22 &Compression ratio>=9.45

然而以上都不是最好的評價標(biāo)準(zhǔn)，原因是沒有考慮到類型I錯誤和類型II錯誤的代價不同。如果兩者代價相同，則考慮誤分率是最佳的標(biāo)準(zhǔn)，但現(xiàn)實中往往不是如此。

三、總結(jié)

二手車模型評估應(yīng)建立在大量數(shù)據(jù)的統(tǒng)計結(jié)果之上，才具有準(zhǔn)確性和可靠性。它通過賣家填寫的有關(guān)二手車的資料，可以快速、有效地辨別和劃分二手策劃的優(yōu)劣，實現(xiàn)二手車較為公平的交易。另外，通過數(shù)據(jù)挖掘發(fā)現(xiàn)的一些新模式，可以進(jìn)一步調(diào)整客戶二手車模型評估體系，從而為將來完善二手車模型評估體系起著重要作用。隨著我國二手車各項制度的建立、相應(yīng)法律環(huán)境的完善、信息化建設(shè)的發(fā)展、信息資源共享的實現(xiàn)，數(shù)據(jù)挖掘技術(shù)將成為二手車交易管理的重要工具。

參考文獻(xiàn)：

[1]張輝，鄭安文.中國二手車市場現(xiàn)狀分析及發(fā)展對策[J].汽車工業(yè)研究，2012（7）：10-13.

[2]孟生旺.神經(jīng)網(wǎng)絡(luò)模型與車險索賠頻率預(yù)測[J].統(tǒng)計研究，2012（3）： 22-26.

作者簡介：曹靜嫻，女，于2010年9月至2014年7月就讀于西南財經(jīng)大學(xué)經(jīng)濟(jì)信息工程學(xué)院

關(guān)鍵詞：二手車性能評估；數(shù)據(jù)挖掘；決策樹；logisticl回歸；神經(jīng)網(wǎng)絡(luò)

一、二手車評估的現(xiàn)狀和發(fā)展

二、二手車性能評估模型的構(gòu)建

1.數(shù)據(jù)預(yù)處理、數(shù)據(jù)探索與數(shù)據(jù)清理

表原始實驗數(shù)據(jù)屬性

下面對表中各變量進(jìn)行分析處理：

2.模型的建立

（1）決策樹

（2）logistic回歸建模

（3）神經(jīng)網(wǎng)絡(luò)建模

3.模型的比較評估

決策樹，logistic回歸，神經(jīng)網(wǎng)絡(luò)模型的比較：不同模型在不同數(shù)據(jù)集上的誤差率比較和lift圖

最后得到的規(guī)則是：

性能好的二手車：

（1）horsepower>=94.5 &engine size>=158.5

（2）horsepower>=94.5 &enginesize<158.5 &fuelsystem=mpf

i&city mpg<22

（3）horsepower>=94.5 &engine size<158.5&fuel system=mp

fi &city mpg>=22 &Compression ratio>=9.45

三、總結(jié)

參考文獻(xiàn)：

[1]張輝，鄭安文.中國二手車市場現(xiàn)狀分析及發(fā)展對策[J].汽車工業(yè)研究，2012（7）：10-13.

[2]孟生旺.神經(jīng)網(wǎng)絡(luò)模型與車險索賠頻率預(yù)測[J].統(tǒng)計研究，2012（3）： 22-26.

作者簡介：曹靜嫻，女，于2010年9月至2014年7月就讀于西南財經(jīng)大學(xué)經(jīng)濟(jì)信息工程學(xué)院

關(guān)鍵詞：二手車性能評估；數(shù)據(jù)挖掘；決策樹；logisticl回歸；神經(jīng)網(wǎng)絡(luò)

一、二手車評估的現(xiàn)狀和發(fā)展

二、二手車性能評估模型的構(gòu)建

1.數(shù)據(jù)預(yù)處理、數(shù)據(jù)探索與數(shù)據(jù)清理

表原始實驗數(shù)據(jù)屬性

下面對表中各變量進(jìn)行分析處理：

2.模型的建立

（1）決策樹

（2）logistic回歸建模

（3）神經(jīng)網(wǎng)絡(luò)建模

3.模型的比較評估

決策樹，logistic回歸，神經(jīng)網(wǎng)絡(luò)模型的比較：不同模型在不同數(shù)據(jù)集上的誤差率比較和lift圖

最后得到的規(guī)則是：

性能好的二手車：

（1）horsepower>=94.5 &engine size>=158.5

（2）horsepower>=94.5 &enginesize<158.5 &fuelsystem=mpf

i&city mpg<22

（3）horsepower>=94.5 &engine size<158.5&fuel system=mp

fi &city mpg>=22 &Compression ratio>=9.45

三、總結(jié)

參考文獻(xiàn)：

[1]張輝，鄭安文.中國二手車市場現(xiàn)狀分析及發(fā)展對策[J].汽車工業(yè)研究，2012（7）：10-13.

[2]孟生旺.神經(jīng)網(wǎng)絡(luò)模型與車險索賠頻率預(yù)測[J].統(tǒng)計研究，2012（3）： 22-26.

作者簡介：曹靜嫻，女，于2010年9月至2014年7月就讀于西南財經(jīng)大學(xué)經(jīng)濟(jì)信息工程學(xué)院