摘 要:近來年我國二手車市場發(fā)展迅速,但市場不夠規(guī)范,主要依靠人為判斷,評估不客觀,甚至在鑒定評估過程中,有故意隱瞞車輛質(zhì)量問題、以次充好等欺騙消費者現(xiàn)象,給二手車市場造成不良影響。本文利用數(shù)據(jù)挖掘技術(shù)中的決策樹、logistic回歸和神經(jīng)網(wǎng)絡(luò)對205個二手車數(shù)據(jù)進(jìn)行分析,利用相關(guān)數(shù)據(jù)資料分別建立不同的二手車性能評估模型,實現(xiàn)了對二手車性能的多種復(fù)雜混合因素一定程度上的定量分析。
關(guān)鍵詞:二手車性能評估;數(shù)據(jù)挖掘;決策樹;logisticl回歸;神經(jīng)網(wǎng)絡(luò)
一、二手車評估的現(xiàn)狀和發(fā)展
雖然2011年的二手車銷量為433萬輛,是2000年25萬的16.3倍。但是還不到新車銷量的1/4,這說明我國二手車市場還存在很大的發(fā)展空間。而鑒定評估缺乏科學(xué)統(tǒng)一的標(biāo)準(zhǔn),對二手車市場的發(fā)展都有較大影響。與傳統(tǒng)主觀簡單的評估方法相比,評估模型優(yōu)勢明顯。在數(shù)據(jù)挖掘技術(shù)中主要的預(yù)測模型有決策樹、Logistic回歸和神經(jīng)網(wǎng)絡(luò)三種。決策樹模型是一個逐層分隔的形式,而Logistic回歸屬于廣義線性模型,神經(jīng)網(wǎng)絡(luò)模型提供了一個靈活的擬合形式。
二、二手車性能評估模型的構(gòu)建
1.數(shù)據(jù)預(yù)處理、數(shù)據(jù)探索與數(shù)據(jù)清理
數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)有一定要求,所以要先進(jìn)行不完整數(shù)據(jù)、噪音數(shù)據(jù)、不一致數(shù)據(jù)的預(yù)處理。主要有數(shù)據(jù)清洗、數(shù)據(jù)集成與轉(zhuǎn)換、數(shù)據(jù)約減等三個過程。本文所用205個實驗數(shù)據(jù)、包含11個變量,數(shù)據(jù)量較少。
表 原始實驗數(shù)據(jù)屬性
下面對表中各變量進(jìn)行分析處理:
(1)數(shù)據(jù)特征探索:利用insight節(jié)點,對各變量及目標(biāo)變量進(jìn)行可視化分析,探索各變量的關(guān)系、含義和特點,為建模做準(zhǔn)備。發(fā)現(xiàn)各變量缺失比例在2%以下,因此缺失變量可以忽視;(2)設(shè)定目標(biāo)變量。建立target,當(dāng)Performance Cost等于1時表示這是一個性能高的二手車;Performance Cost等于0時表示該二手車的性能比較低。建模的目標(biāo)就是要從數(shù)據(jù)中挖掘出性能高與低的二手車的不同特征,在模型審批過程中能自動將二者區(qū)分開來;(3)變量price與Performance Cost高度線性相關(guān),因此rejected。highway mpg與city mpg高度相關(guān),重復(fù)了,因此拒絕其中一個,本模型是拒絕的highway mpg;(4)觀察目標(biāo)變量的分布,可以看到性能高的二手車與性能低的二手車的比例分別為62%與38%。因此在數(shù)據(jù)分區(qū)的時候選擇用分層抽樣;(5)分層抽樣。訓(xùn)練集與驗證集的比例分別為60%,40%;(6)數(shù)據(jù)的轉(zhuǎn)換。通過觀察數(shù)據(jù)的分布可以看到engine size,Compression ratio,horsepower,price變量不是類似于正態(tài)分布的,因此對其進(jìn)行正態(tài)化處理;(7)雖然缺失數(shù)據(jù)比例很小,但是為了建模的嚴(yán)謹(jǐn),還是添加了replacement節(jié)點,用決策樹方法對缺失的數(shù)據(jù)進(jìn)行處理。
2.模型的建立
(1)決策樹
因為決策樹本身具有處理缺失值的能力,可直接將未經(jīng)過缺失數(shù)據(jù)替換的原始數(shù)據(jù)作為輸入數(shù)據(jù)。本文采用熵不純性的降低作為節(jié)點劃分標(biāo)準(zhǔn),采用二叉樹進(jìn)行建模,設(shè)置樹:j最大深度為6,最小葉子觀測數(shù)為5。從模型輸出結(jié)果得,SAS自動設(shè)置的模型中當(dāng)生成有6個葉子節(jié)點的決策樹時,訓(xùn)練樣本集細(xì)分誤分率為9.09%,檢驗樣本集細(xì)分誤分率為7.14%。
決策樹模型的綜合評價:輸出結(jié)果得出在“性能高的二手車”歷史記錄中有87.5%的預(yù)測值為“性能高的二手車”。在“性能高的二手車”紀(jì)錄中有12.5%的預(yù)測值為“性能低的二手車”。模型將3.846%的“性能低的二手車”預(yù)測為“性能高的二手車”;將歷史紀(jì)錄中96.154%的“性能低的二手車”預(yù)測為“性能低的二手車”。由評價結(jié)果可知,該決策樹對性能低的二手車的正確判斷率達(dá)了96.154%的較高水平,而對性能高的二手車的正確判斷率也達(dá)到了87.5%,該決策樹對性能低的二手車的預(yù)測準(zhǔn)確率更理想。
(2)logistic回歸建模
借助回歸節(jié)點建立模型,采用logistic回歸方法,回歸方式設(shè)置為backward,input coding選擇GLM。從模型輸出結(jié)果圖得出,誤分率標(biāo)準(zhǔn)表明,訓(xùn)練樣本集誤分率為9.92%,檢驗樣本集誤分率為11.9%。
Logistic模型的預(yù)測準(zhǔn)確率:模型將84.375%的“性能好的二手車”預(yù)測為“性能好的二手車”,將15.625%的“性能好的二手車”預(yù)測為“性能差的二手車”。有90.385%的“性能差的二手車”被預(yù)測為“性能差的二手車”,剩下9.615%的“性能差的二手車”被預(yù)測為“性能好的二手車”。可見回歸模型對性能好的二手車預(yù)測的準(zhǔn)確率沒有決策樹模型高。
(3)神經(jīng)網(wǎng)絡(luò)建模
神經(jīng)網(wǎng)絡(luò)建模:借助神經(jīng)網(wǎng)絡(luò)節(jié)點建立模型,網(wǎng)絡(luò)采用輸入、隱層、輸出三層結(jié)構(gòu),其中隱層節(jié)點設(shè)置3個變量,其他設(shè)置采用軟件默認(rèn)設(shè)置。從模型輸出結(jié)果圖可以看出各種模型評價標(biāo)準(zhǔn),其中誤分率標(biāo)準(zhǔn)表明,訓(xùn)練樣本集細(xì)分誤分率為7.43%,檢驗樣本集細(xì)分誤分率為8.33%。從訓(xùn)練過程得知訓(xùn)練誤差隨訓(xùn)練次數(shù)單調(diào)減少。選擇最佳的訓(xùn)練次數(shù)為7,此時的驗證誤差最小。
神經(jīng)網(wǎng)絡(luò)模型的預(yù)側(cè)準(zhǔn)確率:模型將87.5%的“性能好的二手車”預(yù)測為“性能好的二手車”,將12.5%的“性能好的二手車”預(yù)測為“性能差的二手車”。有94.23%的“性能差的二手車”被預(yù)測為“性能差的二手車”,剩下5.77%的“性能差的二手車”被預(yù)測為“性能好的二手車”。回歸模型一樣,對性能差的二手車的預(yù)測的準(zhǔn)確率比對性能好的二手車的預(yù)測的準(zhǔn)確率高。
3.模型的比較評估
由于數(shù)據(jù)挖掘模型有時會造成過度擬合,所以要對模型的正確性進(jìn)行判斷,保證預(yù)測可靠。在選擇解釋變量的時候,注重的是它們解釋目標(biāo)變量的能力。但是當(dāng)有很多的解釋變量時,并不能斷定出總體的性質(zhì)。因此有必要對于模型的有效性進(jìn)行評估,以保證模型的可靠穩(wěn)健。本文所用數(shù)據(jù)只有205條,在分拆后建模難度增大,訓(xùn)練,驗證兩部分結(jié)果有一定差距。盡管如此,我們?nèi)钥梢詮膶嶒灥慕Y(jié)果中獲得一些有意義的結(jié)論。
決策樹,logistic回歸,神經(jīng)網(wǎng)絡(luò)模型的比較:不同模型在不同數(shù)據(jù)集上的誤差率比較和lift圖
綜合訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集的結(jié)果,對三個模型進(jìn)行比較評價。從誤差率基于數(shù)據(jù)挖掘技術(shù)的二手車性能評估研究的比較表中可以看出,決策樹模型和神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確率最高。神經(jīng)網(wǎng)絡(luò)在訓(xùn)練集上誤分率低,但在驗證集上誤分率增大比較多,有“過擬合”的現(xiàn)象。從lift圖上來看,幾個模型的效果都比較好。綜合來看,選擇決策樹模型。
最后得到的規(guī)則是:
性能好的二手車:
(1)horsepower>=94.5 &engine size>=158.5
(2)horsepower>=94.5 &enginesize<158.5 &fuelsystem=mpf
i&city mpg<22
(3)horsepower>=94.5 &engine size<158.5&fuel system=mp
fi &city mpg>=22 &Compression ratio>=9.45
然而以上都不是最好的評價標(biāo)準(zhǔn),原因是沒有考慮到類型I錯誤和類型II錯誤的代價不同。如果兩者代價相同,則考慮誤分率是最佳的標(biāo)準(zhǔn),但現(xiàn)實中往往不是如此。
三、總結(jié)
二手車模型評估應(yīng)建立在大量數(shù)據(jù)的統(tǒng)計結(jié)果之上,才具有準(zhǔn)確性和可靠性。它通過賣家填寫的有關(guān)二手車的資料,可以快速、有效地辨別和劃分二手策劃的優(yōu)劣,實現(xiàn)二手車較為公平的交易。另外,通過數(shù)據(jù)挖掘發(fā)現(xiàn)的一些新模式,可以進(jìn)一步調(diào)整客戶二手車模型評估體系,從而為將來完善二手車模型評估體系起著重要作用。隨著我國二手車各項制度的建立、相應(yīng)法律環(huán)境的完善、信息化建設(shè)的發(fā)展、信息資源共享的實現(xiàn),數(shù)據(jù)挖掘技術(shù)將成為二手車交易管理的重要工具。
參考文獻(xiàn):
[1]張輝,鄭安文.中國二手車市場現(xiàn)狀分析及發(fā)展對策[J].汽車工業(yè)研究,2012(7):10-13.
[2]孟生旺.神經(jīng)網(wǎng)絡(luò)模型與車險索賠頻率預(yù)測[J].統(tǒng)計研究,2012(3): 22-26.
作者簡介:曹靜嫻,女,于2010年9月至2014年7月就讀于西南財經(jīng)大學(xué)經(jīng)濟(jì)信息工程學(xué)院
摘 要:近來年我國二手車市場發(fā)展迅速,但市場不夠規(guī)范,主要依靠人為判斷,評估不客觀,甚至在鑒定評估過程中,有故意隱瞞車輛質(zhì)量問題、以次充好等欺騙消費者現(xiàn)象,給二手車市場造成不良影響。本文利用數(shù)據(jù)挖掘技術(shù)中的決策樹、logistic回歸和神經(jīng)網(wǎng)絡(luò)對205個二手車數(shù)據(jù)進(jìn)行分析,利用相關(guān)數(shù)據(jù)資料分別建立不同的二手車性能評估模型,實現(xiàn)了對二手車性能的多種復(fù)雜混合因素一定程度上的定量分析。
關(guān)鍵詞:二手車性能評估;數(shù)據(jù)挖掘;決策樹;logisticl回歸;神經(jīng)網(wǎng)絡(luò)
一、二手車評估的現(xiàn)狀和發(fā)展
雖然2011年的二手車銷量為433萬輛,是2000年25萬的16.3倍。但是還不到新車銷量的1/4,這說明我國二手車市場還存在很大的發(fā)展空間。而鑒定評估缺乏科學(xué)統(tǒng)一的標(biāo)準(zhǔn),對二手車市場的發(fā)展都有較大影響。與傳統(tǒng)主觀簡單的評估方法相比,評估模型優(yōu)勢明顯。在數(shù)據(jù)挖掘技術(shù)中主要的預(yù)測模型有決策樹、Logistic回歸和神經(jīng)網(wǎng)絡(luò)三種。決策樹模型是一個逐層分隔的形式,而Logistic回歸屬于廣義線性模型,神經(jīng)網(wǎng)絡(luò)模型提供了一個靈活的擬合形式。
二、二手車性能評估模型的構(gòu)建
1.數(shù)據(jù)預(yù)處理、數(shù)據(jù)探索與數(shù)據(jù)清理
數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)有一定要求,所以要先進(jìn)行不完整數(shù)據(jù)、噪音數(shù)據(jù)、不一致數(shù)據(jù)的預(yù)處理。主要有數(shù)據(jù)清洗、數(shù)據(jù)集成與轉(zhuǎn)換、數(shù)據(jù)約減等三個過程。本文所用205個實驗數(shù)據(jù)、包含11個變量,數(shù)據(jù)量較少。
表 原始實驗數(shù)據(jù)屬性
下面對表中各變量進(jìn)行分析處理:
(1)數(shù)據(jù)特征探索:利用insight節(jié)點,對各變量及目標(biāo)變量進(jìn)行可視化分析,探索各變量的關(guān)系、含義和特點,為建模做準(zhǔn)備。發(fā)現(xiàn)各變量缺失比例在2%以下,因此缺失變量可以忽視;(2)設(shè)定目標(biāo)變量。建立target,當(dāng)Performance Cost等于1時表示這是一個性能高的二手車;Performance Cost等于0時表示該二手車的性能比較低。建模的目標(biāo)就是要從數(shù)據(jù)中挖掘出性能高與低的二手車的不同特征,在模型審批過程中能自動將二者區(qū)分開來;(3)變量price與Performance Cost高度線性相關(guān),因此rejected。highway mpg與city mpg高度相關(guān),重復(fù)了,因此拒絕其中一個,本模型是拒絕的highway mpg;(4)觀察目標(biāo)變量的分布,可以看到性能高的二手車與性能低的二手車的比例分別為62%與38%。因此在數(shù)據(jù)分區(qū)的時候選擇用分層抽樣;(5)分層抽樣。訓(xùn)練集與驗證集的比例分別為60%,40%;(6)數(shù)據(jù)的轉(zhuǎn)換。通過觀察數(shù)據(jù)的分布可以看到engine size,Compression ratio,horsepower,price變量不是類似于正態(tài)分布的,因此對其進(jìn)行正態(tài)化處理;(7)雖然缺失數(shù)據(jù)比例很小,但是為了建模的嚴(yán)謹(jǐn),還是添加了replacement節(jié)點,用決策樹方法對缺失的數(shù)據(jù)進(jìn)行處理。
2.模型的建立
(1)決策樹
因為決策樹本身具有處理缺失值的能力,可直接將未經(jīng)過缺失數(shù)據(jù)替換的原始數(shù)據(jù)作為輸入數(shù)據(jù)。本文采用熵不純性的降低作為節(jié)點劃分標(biāo)準(zhǔn),采用二叉樹進(jìn)行建模,設(shè)置樹:j最大深度為6,最小葉子觀測數(shù)為5。從模型輸出結(jié)果得,SAS自動設(shè)置的模型中當(dāng)生成有6個葉子節(jié)點的決策樹時,訓(xùn)練樣本集細(xì)分誤分率為9.09%,檢驗樣本集細(xì)分誤分率為7.14%。
決策樹模型的綜合評價:輸出結(jié)果得出在“性能高的二手車”歷史記錄中有87.5%的預(yù)測值為“性能高的二手車”。在“性能高的二手車”紀(jì)錄中有12.5%的預(yù)測值為“性能低的二手車”。模型將3.846%的“性能低的二手車”預(yù)測為“性能高的二手車”;將歷史紀(jì)錄中96.154%的“性能低的二手車”預(yù)測為“性能低的二手車”。由評價結(jié)果可知,該決策樹對性能低的二手車的正確判斷率達(dá)了96.154%的較高水平,而對性能高的二手車的正確判斷率也達(dá)到了87.5%,該決策樹對性能低的二手車的預(yù)測準(zhǔn)確率更理想。
(2)logistic回歸建模
借助回歸節(jié)點建立模型,采用logistic回歸方法,回歸方式設(shè)置為backward,input coding選擇GLM。從模型輸出結(jié)果圖得出,誤分率標(biāo)準(zhǔn)表明,訓(xùn)練樣本集誤分率為9.92%,檢驗樣本集誤分率為11.9%。
Logistic模型的預(yù)測準(zhǔn)確率:模型將84.375%的“性能好的二手車”預(yù)測為“性能好的二手車”,將15.625%的“性能好的二手車”預(yù)測為“性能差的二手車”。有90.385%的“性能差的二手車”被預(yù)測為“性能差的二手車”,剩下9.615%的“性能差的二手車”被預(yù)測為“性能好的二手車”。可見回歸模型對性能好的二手車預(yù)測的準(zhǔn)確率沒有決策樹模型高。
(3)神經(jīng)網(wǎng)絡(luò)建模
神經(jīng)網(wǎng)絡(luò)建模:借助神經(jīng)網(wǎng)絡(luò)節(jié)點建立模型,網(wǎng)絡(luò)采用輸入、隱層、輸出三層結(jié)構(gòu),其中隱層節(jié)點設(shè)置3個變量,其他設(shè)置采用軟件默認(rèn)設(shè)置。從模型輸出結(jié)果圖可以看出各種模型評價標(biāo)準(zhǔn),其中誤分率標(biāo)準(zhǔn)表明,訓(xùn)練樣本集細(xì)分誤分率為7.43%,檢驗樣本集細(xì)分誤分率為8.33%。從訓(xùn)練過程得知訓(xùn)練誤差隨訓(xùn)練次數(shù)單調(diào)減少。選擇最佳的訓(xùn)練次數(shù)為7,此時的驗證誤差最小。
神經(jīng)網(wǎng)絡(luò)模型的預(yù)側(cè)準(zhǔn)確率:模型將87.5%的“性能好的二手車”預(yù)測為“性能好的二手車”,將12.5%的“性能好的二手車”預(yù)測為“性能差的二手車”。有94.23%的“性能差的二手車”被預(yù)測為“性能差的二手車”,剩下5.77%的“性能差的二手車”被預(yù)測為“性能好的二手車”。回歸模型一樣,對性能差的二手車的預(yù)測的準(zhǔn)確率比對性能好的二手車的預(yù)測的準(zhǔn)確率高。
3.模型的比較評估
由于數(shù)據(jù)挖掘模型有時會造成過度擬合,所以要對模型的正確性進(jìn)行判斷,保證預(yù)測可靠。在選擇解釋變量的時候,注重的是它們解釋目標(biāo)變量的能力。但是當(dāng)有很多的解釋變量時,并不能斷定出總體的性質(zhì)。因此有必要對于模型的有效性進(jìn)行評估,以保證模型的可靠穩(wěn)健。本文所用數(shù)據(jù)只有205條,在分拆后建模難度增大,訓(xùn)練,驗證兩部分結(jié)果有一定差距。盡管如此,我們?nèi)钥梢詮膶嶒灥慕Y(jié)果中獲得一些有意義的結(jié)論。
決策樹,logistic回歸,神經(jīng)網(wǎng)絡(luò)模型的比較:不同模型在不同數(shù)據(jù)集上的誤差率比較和lift圖
綜合訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集的結(jié)果,對三個模型進(jìn)行比較評價。從誤差率基于數(shù)據(jù)挖掘技術(shù)的二手車性能評估研究的比較表中可以看出,決策樹模型和神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確率最高。神經(jīng)網(wǎng)絡(luò)在訓(xùn)練集上誤分率低,但在驗證集上誤分率增大比較多,有“過擬合”的現(xiàn)象。從lift圖上來看,幾個模型的效果都比較好。綜合來看,選擇決策樹模型。
最后得到的規(guī)則是:
性能好的二手車:
(1)horsepower>=94.5 &engine size>=158.5
(2)horsepower>=94.5 &enginesize<158.5 &fuelsystem=mpf
i&city mpg<22
(3)horsepower>=94.5 &engine size<158.5&fuel system=mp
fi &city mpg>=22 &Compression ratio>=9.45
然而以上都不是最好的評價標(biāo)準(zhǔn),原因是沒有考慮到類型I錯誤和類型II錯誤的代價不同。如果兩者代價相同,則考慮誤分率是最佳的標(biāo)準(zhǔn),但現(xiàn)實中往往不是如此。
三、總結(jié)
二手車模型評估應(yīng)建立在大量數(shù)據(jù)的統(tǒng)計結(jié)果之上,才具有準(zhǔn)確性和可靠性。它通過賣家填寫的有關(guān)二手車的資料,可以快速、有效地辨別和劃分二手策劃的優(yōu)劣,實現(xiàn)二手車較為公平的交易。另外,通過數(shù)據(jù)挖掘發(fā)現(xiàn)的一些新模式,可以進(jìn)一步調(diào)整客戶二手車模型評估體系,從而為將來完善二手車模型評估體系起著重要作用。隨著我國二手車各項制度的建立、相應(yīng)法律環(huán)境的完善、信息化建設(shè)的發(fā)展、信息資源共享的實現(xiàn),數(shù)據(jù)挖掘技術(shù)將成為二手車交易管理的重要工具。
參考文獻(xiàn):
[1]張輝,鄭安文.中國二手車市場現(xiàn)狀分析及發(fā)展對策[J].汽車工業(yè)研究,2012(7):10-13.
[2]孟生旺.神經(jīng)網(wǎng)絡(luò)模型與車險索賠頻率預(yù)測[J].統(tǒng)計研究,2012(3): 22-26.
作者簡介:曹靜嫻,女,于2010年9月至2014年7月就讀于西南財經(jīng)大學(xué)經(jīng)濟(jì)信息工程學(xué)院
摘 要:近來年我國二手車市場發(fā)展迅速,但市場不夠規(guī)范,主要依靠人為判斷,評估不客觀,甚至在鑒定評估過程中,有故意隱瞞車輛質(zhì)量問題、以次充好等欺騙消費者現(xiàn)象,給二手車市場造成不良影響。本文利用數(shù)據(jù)挖掘技術(shù)中的決策樹、logistic回歸和神經(jīng)網(wǎng)絡(luò)對205個二手車數(shù)據(jù)進(jìn)行分析,利用相關(guān)數(shù)據(jù)資料分別建立不同的二手車性能評估模型,實現(xiàn)了對二手車性能的多種復(fù)雜混合因素一定程度上的定量分析。
關(guān)鍵詞:二手車性能評估;數(shù)據(jù)挖掘;決策樹;logisticl回歸;神經(jīng)網(wǎng)絡(luò)
一、二手車評估的現(xiàn)狀和發(fā)展
雖然2011年的二手車銷量為433萬輛,是2000年25萬的16.3倍。但是還不到新車銷量的1/4,這說明我國二手車市場還存在很大的發(fā)展空間。而鑒定評估缺乏科學(xué)統(tǒng)一的標(biāo)準(zhǔn),對二手車市場的發(fā)展都有較大影響。與傳統(tǒng)主觀簡單的評估方法相比,評估模型優(yōu)勢明顯。在數(shù)據(jù)挖掘技術(shù)中主要的預(yù)測模型有決策樹、Logistic回歸和神經(jīng)網(wǎng)絡(luò)三種。決策樹模型是一個逐層分隔的形式,而Logistic回歸屬于廣義線性模型,神經(jīng)網(wǎng)絡(luò)模型提供了一個靈活的擬合形式。
二、二手車性能評估模型的構(gòu)建
1.數(shù)據(jù)預(yù)處理、數(shù)據(jù)探索與數(shù)據(jù)清理
數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)有一定要求,所以要先進(jìn)行不完整數(shù)據(jù)、噪音數(shù)據(jù)、不一致數(shù)據(jù)的預(yù)處理。主要有數(shù)據(jù)清洗、數(shù)據(jù)集成與轉(zhuǎn)換、數(shù)據(jù)約減等三個過程。本文所用205個實驗數(shù)據(jù)、包含11個變量,數(shù)據(jù)量較少。
表 原始實驗數(shù)據(jù)屬性
下面對表中各變量進(jìn)行分析處理:
(1)數(shù)據(jù)特征探索:利用insight節(jié)點,對各變量及目標(biāo)變量進(jìn)行可視化分析,探索各變量的關(guān)系、含義和特點,為建模做準(zhǔn)備。發(fā)現(xiàn)各變量缺失比例在2%以下,因此缺失變量可以忽視;(2)設(shè)定目標(biāo)變量。建立target,當(dāng)Performance Cost等于1時表示這是一個性能高的二手車;Performance Cost等于0時表示該二手車的性能比較低。建模的目標(biāo)就是要從數(shù)據(jù)中挖掘出性能高與低的二手車的不同特征,在模型審批過程中能自動將二者區(qū)分開來;(3)變量price與Performance Cost高度線性相關(guān),因此rejected。highway mpg與city mpg高度相關(guān),重復(fù)了,因此拒絕其中一個,本模型是拒絕的highway mpg;(4)觀察目標(biāo)變量的分布,可以看到性能高的二手車與性能低的二手車的比例分別為62%與38%。因此在數(shù)據(jù)分區(qū)的時候選擇用分層抽樣;(5)分層抽樣。訓(xùn)練集與驗證集的比例分別為60%,40%;(6)數(shù)據(jù)的轉(zhuǎn)換。通過觀察數(shù)據(jù)的分布可以看到engine size,Compression ratio,horsepower,price變量不是類似于正態(tài)分布的,因此對其進(jìn)行正態(tài)化處理;(7)雖然缺失數(shù)據(jù)比例很小,但是為了建模的嚴(yán)謹(jǐn),還是添加了replacement節(jié)點,用決策樹方法對缺失的數(shù)據(jù)進(jìn)行處理。
2.模型的建立
(1)決策樹
因為決策樹本身具有處理缺失值的能力,可直接將未經(jīng)過缺失數(shù)據(jù)替換的原始數(shù)據(jù)作為輸入數(shù)據(jù)。本文采用熵不純性的降低作為節(jié)點劃分標(biāo)準(zhǔn),采用二叉樹進(jìn)行建模,設(shè)置樹:j最大深度為6,最小葉子觀測數(shù)為5。從模型輸出結(jié)果得,SAS自動設(shè)置的模型中當(dāng)生成有6個葉子節(jié)點的決策樹時,訓(xùn)練樣本集細(xì)分誤分率為9.09%,檢驗樣本集細(xì)分誤分率為7.14%。
決策樹模型的綜合評價:輸出結(jié)果得出在“性能高的二手車”歷史記錄中有87.5%的預(yù)測值為“性能高的二手車”。在“性能高的二手車”紀(jì)錄中有12.5%的預(yù)測值為“性能低的二手車”。模型將3.846%的“性能低的二手車”預(yù)測為“性能高的二手車”;將歷史紀(jì)錄中96.154%的“性能低的二手車”預(yù)測為“性能低的二手車”。由評價結(jié)果可知,該決策樹對性能低的二手車的正確判斷率達(dá)了96.154%的較高水平,而對性能高的二手車的正確判斷率也達(dá)到了87.5%,該決策樹對性能低的二手車的預(yù)測準(zhǔn)確率更理想。
(2)logistic回歸建模
借助回歸節(jié)點建立模型,采用logistic回歸方法,回歸方式設(shè)置為backward,input coding選擇GLM。從模型輸出結(jié)果圖得出,誤分率標(biāo)準(zhǔn)表明,訓(xùn)練樣本集誤分率為9.92%,檢驗樣本集誤分率為11.9%。
Logistic模型的預(yù)測準(zhǔn)確率:模型將84.375%的“性能好的二手車”預(yù)測為“性能好的二手車”,將15.625%的“性能好的二手車”預(yù)測為“性能差的二手車”。有90.385%的“性能差的二手車”被預(yù)測為“性能差的二手車”,剩下9.615%的“性能差的二手車”被預(yù)測為“性能好的二手車”。可見回歸模型對性能好的二手車預(yù)測的準(zhǔn)確率沒有決策樹模型高。
(3)神經(jīng)網(wǎng)絡(luò)建模
神經(jīng)網(wǎng)絡(luò)建模:借助神經(jīng)網(wǎng)絡(luò)節(jié)點建立模型,網(wǎng)絡(luò)采用輸入、隱層、輸出三層結(jié)構(gòu),其中隱層節(jié)點設(shè)置3個變量,其他設(shè)置采用軟件默認(rèn)設(shè)置。從模型輸出結(jié)果圖可以看出各種模型評價標(biāo)準(zhǔn),其中誤分率標(biāo)準(zhǔn)表明,訓(xùn)練樣本集細(xì)分誤分率為7.43%,檢驗樣本集細(xì)分誤分率為8.33%。從訓(xùn)練過程得知訓(xùn)練誤差隨訓(xùn)練次數(shù)單調(diào)減少。選擇最佳的訓(xùn)練次數(shù)為7,此時的驗證誤差最小。
神經(jīng)網(wǎng)絡(luò)模型的預(yù)側(cè)準(zhǔn)確率:模型將87.5%的“性能好的二手車”預(yù)測為“性能好的二手車”,將12.5%的“性能好的二手車”預(yù)測為“性能差的二手車”。有94.23%的“性能差的二手車”被預(yù)測為“性能差的二手車”,剩下5.77%的“性能差的二手車”被預(yù)測為“性能好的二手車”。回歸模型一樣,對性能差的二手車的預(yù)測的準(zhǔn)確率比對性能好的二手車的預(yù)測的準(zhǔn)確率高。
3.模型的比較評估
由于數(shù)據(jù)挖掘模型有時會造成過度擬合,所以要對模型的正確性進(jìn)行判斷,保證預(yù)測可靠。在選擇解釋變量的時候,注重的是它們解釋目標(biāo)變量的能力。但是當(dāng)有很多的解釋變量時,并不能斷定出總體的性質(zhì)。因此有必要對于模型的有效性進(jìn)行評估,以保證模型的可靠穩(wěn)健。本文所用數(shù)據(jù)只有205條,在分拆后建模難度增大,訓(xùn)練,驗證兩部分結(jié)果有一定差距。盡管如此,我們?nèi)钥梢詮膶嶒灥慕Y(jié)果中獲得一些有意義的結(jié)論。
決策樹,logistic回歸,神經(jīng)網(wǎng)絡(luò)模型的比較:不同模型在不同數(shù)據(jù)集上的誤差率比較和lift圖
綜合訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集的結(jié)果,對三個模型進(jìn)行比較評價。從誤差率基于數(shù)據(jù)挖掘技術(shù)的二手車性能評估研究的比較表中可以看出,決策樹模型和神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確率最高。神經(jīng)網(wǎng)絡(luò)在訓(xùn)練集上誤分率低,但在驗證集上誤分率增大比較多,有“過擬合”的現(xiàn)象。從lift圖上來看,幾個模型的效果都比較好。綜合來看,選擇決策樹模型。
最后得到的規(guī)則是:
性能好的二手車:
(1)horsepower>=94.5 &engine size>=158.5
(2)horsepower>=94.5 &enginesize<158.5 &fuelsystem=mpf
i&city mpg<22
(3)horsepower>=94.5 &engine size<158.5&fuel system=mp
fi &city mpg>=22 &Compression ratio>=9.45
然而以上都不是最好的評價標(biāo)準(zhǔn),原因是沒有考慮到類型I錯誤和類型II錯誤的代價不同。如果兩者代價相同,則考慮誤分率是最佳的標(biāo)準(zhǔn),但現(xiàn)實中往往不是如此。
三、總結(jié)
二手車模型評估應(yīng)建立在大量數(shù)據(jù)的統(tǒng)計結(jié)果之上,才具有準(zhǔn)確性和可靠性。它通過賣家填寫的有關(guān)二手車的資料,可以快速、有效地辨別和劃分二手策劃的優(yōu)劣,實現(xiàn)二手車較為公平的交易。另外,通過數(shù)據(jù)挖掘發(fā)現(xiàn)的一些新模式,可以進(jìn)一步調(diào)整客戶二手車模型評估體系,從而為將來完善二手車模型評估體系起著重要作用。隨著我國二手車各項制度的建立、相應(yīng)法律環(huán)境的完善、信息化建設(shè)的發(fā)展、信息資源共享的實現(xiàn),數(shù)據(jù)挖掘技術(shù)將成為二手車交易管理的重要工具。
參考文獻(xiàn):
[1]張輝,鄭安文.中國二手車市場現(xiàn)狀分析及發(fā)展對策[J].汽車工業(yè)研究,2012(7):10-13.
[2]孟生旺.神經(jīng)網(wǎng)絡(luò)模型與車險索賠頻率預(yù)測[J].統(tǒng)計研究,2012(3): 22-26.
作者簡介:曹靜嫻,女,于2010年9月至2014年7月就讀于西南財經(jīng)大學(xué)經(jīng)濟(jì)信息工程學(xué)院