999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數(shù)據(jù)挖掘技術(shù)的二手車性能評估模型研究

2014-10-28 18:46:36曹靜嫻
商場現(xiàn)代化 2014年24期
關(guān)鍵詞:數(shù)據(jù)挖掘

摘 要:近來年我國二手車市場發(fā)展迅速,但市場不夠規(guī)范,主要依靠人為判斷,評估不客觀,甚至在鑒定評估過程中,有故意隱瞞車輛質(zhì)量問題、以次充好等欺騙消費者現(xiàn)象,給二手車市場造成不良影響。本文利用數(shù)據(jù)挖掘技術(shù)中的決策樹、logistic回歸和神經(jīng)網(wǎng)絡(luò)對205個二手車數(shù)據(jù)進(jìn)行分析,利用相關(guān)數(shù)據(jù)資料分別建立不同的二手車性能評估模型,實現(xiàn)了對二手車性能的多種復(fù)雜混合因素一定程度上的定量分析。

關(guān)鍵詞:二手車性能評估;數(shù)據(jù)挖掘;決策樹;logisticl回歸;神經(jīng)網(wǎng)絡(luò)

一、二手車評估的現(xiàn)狀和發(fā)展

雖然2011年的二手車銷量為433萬輛,是2000年25萬的16.3倍。但是還不到新車銷量的1/4,這說明我國二手車市場還存在很大的發(fā)展空間。而鑒定評估缺乏科學(xué)統(tǒng)一的標(biāo)準(zhǔn),對二手車市場的發(fā)展都有較大影響。與傳統(tǒng)主觀簡單的評估方法相比,評估模型優(yōu)勢明顯。在數(shù)據(jù)挖掘技術(shù)中主要的預(yù)測模型有決策樹、Logistic回歸和神經(jīng)網(wǎng)絡(luò)三種。決策樹模型是一個逐層分隔的形式,而Logistic回歸屬于廣義線性模型,神經(jīng)網(wǎng)絡(luò)模型提供了一個靈活的擬合形式。

二、二手車性能評估模型的構(gòu)建

1.數(shù)據(jù)預(yù)處理、數(shù)據(jù)探索與數(shù)據(jù)清理

數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)有一定要求,所以要先進(jìn)行不完整數(shù)據(jù)、噪音數(shù)據(jù)、不一致數(shù)據(jù)的預(yù)處理。主要有數(shù)據(jù)清洗、數(shù)據(jù)集成與轉(zhuǎn)換、數(shù)據(jù)約減等三個過程。本文所用205個實驗數(shù)據(jù)、包含11個變量,數(shù)據(jù)量較少。

表 原始實驗數(shù)據(jù)屬性

下面對表中各變量進(jìn)行分析處理:

(1)數(shù)據(jù)特征探索:利用insight節(jié)點,對各變量及目標(biāo)變量進(jìn)行可視化分析,探索各變量的關(guān)系、含義和特點,為建模做準(zhǔn)備。發(fā)現(xiàn)各變量缺失比例在2%以下,因此缺失變量可以忽視;(2)設(shè)定目標(biāo)變量。建立target,當(dāng)Performance Cost等于1時表示這是一個性能高的二手車;Performance Cost等于0時表示該二手車的性能比較低。建模的目標(biāo)就是要從數(shù)據(jù)中挖掘出性能高與低的二手車的不同特征,在模型審批過程中能自動將二者區(qū)分開來;(3)變量price與Performance Cost高度線性相關(guān),因此rejected。highway mpg與city mpg高度相關(guān),重復(fù)了,因此拒絕其中一個,本模型是拒絕的highway mpg;(4)觀察目標(biāo)變量的分布,可以看到性能高的二手車與性能低的二手車的比例分別為62%與38%。因此在數(shù)據(jù)分區(qū)的時候選擇用分層抽樣;(5)分層抽樣。訓(xùn)練集與驗證集的比例分別為60%,40%;(6)數(shù)據(jù)的轉(zhuǎn)換。通過觀察數(shù)據(jù)的分布可以看到engine size,Compression ratio,horsepower,price變量不是類似于正態(tài)分布的,因此對其進(jìn)行正態(tài)化處理;(7)雖然缺失數(shù)據(jù)比例很小,但是為了建模的嚴(yán)謹(jǐn),還是添加了replacement節(jié)點,用決策樹方法對缺失的數(shù)據(jù)進(jìn)行處理。

2.模型的建立

(1)決策樹

因為決策樹本身具有處理缺失值的能力,可直接將未經(jīng)過缺失數(shù)據(jù)替換的原始數(shù)據(jù)作為輸入數(shù)據(jù)。本文采用熵不純性的降低作為節(jié)點劃分標(biāo)準(zhǔn),采用二叉樹進(jìn)行建模,設(shè)置樹:j最大深度為6,最小葉子觀測數(shù)為5。從模型輸出結(jié)果得,SAS自動設(shè)置的模型中當(dāng)生成有6個葉子節(jié)點的決策樹時,訓(xùn)練樣本集細(xì)分誤分率為9.09%,檢驗樣本集細(xì)分誤分率為7.14%。

決策樹模型的綜合評價:輸出結(jié)果得出在“性能高的二手車”歷史記錄中有87.5%的預(yù)測值為“性能高的二手車”。在“性能高的二手車”紀(jì)錄中有12.5%的預(yù)測值為“性能低的二手車”。模型將3.846%的“性能低的二手車”預(yù)測為“性能高的二手車”;將歷史紀(jì)錄中96.154%的“性能低的二手車”預(yù)測為“性能低的二手車”。由評價結(jié)果可知,該決策樹對性能低的二手車的正確判斷率達(dá)了96.154%的較高水平,而對性能高的二手車的正確判斷率也達(dá)到了87.5%,該決策樹對性能低的二手車的預(yù)測準(zhǔn)確率更理想。

(2)logistic回歸建模

借助回歸節(jié)點建立模型,采用logistic回歸方法,回歸方式設(shè)置為backward,input coding選擇GLM。從模型輸出結(jié)果圖得出,誤分率標(biāo)準(zhǔn)表明,訓(xùn)練樣本集誤分率為9.92%,檢驗樣本集誤分率為11.9%。

Logistic模型的預(yù)測準(zhǔn)確率:模型將84.375%的“性能好的二手車”預(yù)測為“性能好的二手車”,將15.625%的“性能好的二手車”預(yù)測為“性能差的二手車”。有90.385%的“性能差的二手車”被預(yù)測為“性能差的二手車”,剩下9.615%的“性能差的二手車”被預(yù)測為“性能好的二手車”。可見回歸模型對性能好的二手車預(yù)測的準(zhǔn)確率沒有決策樹模型高。

(3)神經(jīng)網(wǎng)絡(luò)建模

神經(jīng)網(wǎng)絡(luò)建模:借助神經(jīng)網(wǎng)絡(luò)節(jié)點建立模型,網(wǎng)絡(luò)采用輸入、隱層、輸出三層結(jié)構(gòu),其中隱層節(jié)點設(shè)置3個變量,其他設(shè)置采用軟件默認(rèn)設(shè)置。從模型輸出結(jié)果圖可以看出各種模型評價標(biāo)準(zhǔn),其中誤分率標(biāo)準(zhǔn)表明,訓(xùn)練樣本集細(xì)分誤分率為7.43%,檢驗樣本集細(xì)分誤分率為8.33%。從訓(xùn)練過程得知訓(xùn)練誤差隨訓(xùn)練次數(shù)單調(diào)減少。選擇最佳的訓(xùn)練次數(shù)為7,此時的驗證誤差最小。

神經(jīng)網(wǎng)絡(luò)模型的預(yù)側(cè)準(zhǔn)確率:模型將87.5%的“性能好的二手車”預(yù)測為“性能好的二手車”,將12.5%的“性能好的二手車”預(yù)測為“性能差的二手車”。有94.23%的“性能差的二手車”被預(yù)測為“性能差的二手車”,剩下5.77%的“性能差的二手車”被預(yù)測為“性能好的二手車”。回歸模型一樣,對性能差的二手車的預(yù)測的準(zhǔn)確率比對性能好的二手車的預(yù)測的準(zhǔn)確率高。

3.模型的比較評估

由于數(shù)據(jù)挖掘模型有時會造成過度擬合,所以要對模型的正確性進(jìn)行判斷,保證預(yù)測可靠。在選擇解釋變量的時候,注重的是它們解釋目標(biāo)變量的能力。但是當(dāng)有很多的解釋變量時,并不能斷定出總體的性質(zhì)。因此有必要對于模型的有效性進(jìn)行評估,以保證模型的可靠穩(wěn)健。本文所用數(shù)據(jù)只有205條,在分拆后建模難度增大,訓(xùn)練,驗證兩部分結(jié)果有一定差距。盡管如此,我們?nèi)钥梢詮膶嶒灥慕Y(jié)果中獲得一些有意義的結(jié)論。

決策樹,logistic回歸,神經(jīng)網(wǎng)絡(luò)模型的比較:不同模型在不同數(shù)據(jù)集上的誤差率比較和lift圖

綜合訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集的結(jié)果,對三個模型進(jìn)行比較評價。從誤差率基于數(shù)據(jù)挖掘技術(shù)的二手車性能評估研究的比較表中可以看出,決策樹模型和神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確率最高。神經(jīng)網(wǎng)絡(luò)在訓(xùn)練集上誤分率低,但在驗證集上誤分率增大比較多,有“過擬合”的現(xiàn)象。從lift圖上來看,幾個模型的效果都比較好。綜合來看,選擇決策樹模型。

最后得到的規(guī)則是:

性能好的二手車:

(1)horsepower>=94.5 &engine size>=158.5

(2)horsepower>=94.5 &enginesize<158.5 &fuelsystem=mpf

i&city mpg<22

(3)horsepower>=94.5 &engine size<158.5&fuel system=mp

fi &city mpg>=22 &Compression ratio>=9.45

然而以上都不是最好的評價標(biāo)準(zhǔn),原因是沒有考慮到類型I錯誤和類型II錯誤的代價不同。如果兩者代價相同,則考慮誤分率是最佳的標(biāo)準(zhǔn),但現(xiàn)實中往往不是如此。

三、總結(jié)

二手車模型評估應(yīng)建立在大量數(shù)據(jù)的統(tǒng)計結(jié)果之上,才具有準(zhǔn)確性和可靠性。它通過賣家填寫的有關(guān)二手車的資料,可以快速、有效地辨別和劃分二手策劃的優(yōu)劣,實現(xiàn)二手車較為公平的交易。另外,通過數(shù)據(jù)挖掘發(fā)現(xiàn)的一些新模式,可以進(jìn)一步調(diào)整客戶二手車模型評估體系,從而為將來完善二手車模型評估體系起著重要作用。隨著我國二手車各項制度的建立、相應(yīng)法律環(huán)境的完善、信息化建設(shè)的發(fā)展、信息資源共享的實現(xiàn),數(shù)據(jù)挖掘技術(shù)將成為二手車交易管理的重要工具。

參考文獻(xiàn):

[1]張輝,鄭安文.中國二手車市場現(xiàn)狀分析及發(fā)展對策[J].汽車工業(yè)研究,2012(7):10-13.

[2]孟生旺.神經(jīng)網(wǎng)絡(luò)模型與車險索賠頻率預(yù)測[J].統(tǒng)計研究,2012(3): 22-26.

作者簡介:曹靜嫻,女,于2010年9月至2014年7月就讀于西南財經(jīng)大學(xué)經(jīng)濟(jì)信息工程學(xué)院

摘 要:近來年我國二手車市場發(fā)展迅速,但市場不夠規(guī)范,主要依靠人為判斷,評估不客觀,甚至在鑒定評估過程中,有故意隱瞞車輛質(zhì)量問題、以次充好等欺騙消費者現(xiàn)象,給二手車市場造成不良影響。本文利用數(shù)據(jù)挖掘技術(shù)中的決策樹、logistic回歸和神經(jīng)網(wǎng)絡(luò)對205個二手車數(shù)據(jù)進(jìn)行分析,利用相關(guān)數(shù)據(jù)資料分別建立不同的二手車性能評估模型,實現(xiàn)了對二手車性能的多種復(fù)雜混合因素一定程度上的定量分析。

關(guān)鍵詞:二手車性能評估;數(shù)據(jù)挖掘;決策樹;logisticl回歸;神經(jīng)網(wǎng)絡(luò)

一、二手車評估的現(xiàn)狀和發(fā)展

雖然2011年的二手車銷量為433萬輛,是2000年25萬的16.3倍。但是還不到新車銷量的1/4,這說明我國二手車市場還存在很大的發(fā)展空間。而鑒定評估缺乏科學(xué)統(tǒng)一的標(biāo)準(zhǔn),對二手車市場的發(fā)展都有較大影響。與傳統(tǒng)主觀簡單的評估方法相比,評估模型優(yōu)勢明顯。在數(shù)據(jù)挖掘技術(shù)中主要的預(yù)測模型有決策樹、Logistic回歸和神經(jīng)網(wǎng)絡(luò)三種。決策樹模型是一個逐層分隔的形式,而Logistic回歸屬于廣義線性模型,神經(jīng)網(wǎng)絡(luò)模型提供了一個靈活的擬合形式。

二、二手車性能評估模型的構(gòu)建

1.數(shù)據(jù)預(yù)處理、數(shù)據(jù)探索與數(shù)據(jù)清理

數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)有一定要求,所以要先進(jìn)行不完整數(shù)據(jù)、噪音數(shù)據(jù)、不一致數(shù)據(jù)的預(yù)處理。主要有數(shù)據(jù)清洗、數(shù)據(jù)集成與轉(zhuǎn)換、數(shù)據(jù)約減等三個過程。本文所用205個實驗數(shù)據(jù)、包含11個變量,數(shù)據(jù)量較少。

表 原始實驗數(shù)據(jù)屬性

下面對表中各變量進(jìn)行分析處理:

(1)數(shù)據(jù)特征探索:利用insight節(jié)點,對各變量及目標(biāo)變量進(jìn)行可視化分析,探索各變量的關(guān)系、含義和特點,為建模做準(zhǔn)備。發(fā)現(xiàn)各變量缺失比例在2%以下,因此缺失變量可以忽視;(2)設(shè)定目標(biāo)變量。建立target,當(dāng)Performance Cost等于1時表示這是一個性能高的二手車;Performance Cost等于0時表示該二手車的性能比較低。建模的目標(biāo)就是要從數(shù)據(jù)中挖掘出性能高與低的二手車的不同特征,在模型審批過程中能自動將二者區(qū)分開來;(3)變量price與Performance Cost高度線性相關(guān),因此rejected。highway mpg與city mpg高度相關(guān),重復(fù)了,因此拒絕其中一個,本模型是拒絕的highway mpg;(4)觀察目標(biāo)變量的分布,可以看到性能高的二手車與性能低的二手車的比例分別為62%與38%。因此在數(shù)據(jù)分區(qū)的時候選擇用分層抽樣;(5)分層抽樣。訓(xùn)練集與驗證集的比例分別為60%,40%;(6)數(shù)據(jù)的轉(zhuǎn)換。通過觀察數(shù)據(jù)的分布可以看到engine size,Compression ratio,horsepower,price變量不是類似于正態(tài)分布的,因此對其進(jìn)行正態(tài)化處理;(7)雖然缺失數(shù)據(jù)比例很小,但是為了建模的嚴(yán)謹(jǐn),還是添加了replacement節(jié)點,用決策樹方法對缺失的數(shù)據(jù)進(jìn)行處理。

2.模型的建立

(1)決策樹

因為決策樹本身具有處理缺失值的能力,可直接將未經(jīng)過缺失數(shù)據(jù)替換的原始數(shù)據(jù)作為輸入數(shù)據(jù)。本文采用熵不純性的降低作為節(jié)點劃分標(biāo)準(zhǔn),采用二叉樹進(jìn)行建模,設(shè)置樹:j最大深度為6,最小葉子觀測數(shù)為5。從模型輸出結(jié)果得,SAS自動設(shè)置的模型中當(dāng)生成有6個葉子節(jié)點的決策樹時,訓(xùn)練樣本集細(xì)分誤分率為9.09%,檢驗樣本集細(xì)分誤分率為7.14%。

決策樹模型的綜合評價:輸出結(jié)果得出在“性能高的二手車”歷史記錄中有87.5%的預(yù)測值為“性能高的二手車”。在“性能高的二手車”紀(jì)錄中有12.5%的預(yù)測值為“性能低的二手車”。模型將3.846%的“性能低的二手車”預(yù)測為“性能高的二手車”;將歷史紀(jì)錄中96.154%的“性能低的二手車”預(yù)測為“性能低的二手車”。由評價結(jié)果可知,該決策樹對性能低的二手車的正確判斷率達(dá)了96.154%的較高水平,而對性能高的二手車的正確判斷率也達(dá)到了87.5%,該決策樹對性能低的二手車的預(yù)測準(zhǔn)確率更理想。

(2)logistic回歸建模

借助回歸節(jié)點建立模型,采用logistic回歸方法,回歸方式設(shè)置為backward,input coding選擇GLM。從模型輸出結(jié)果圖得出,誤分率標(biāo)準(zhǔn)表明,訓(xùn)練樣本集誤分率為9.92%,檢驗樣本集誤分率為11.9%。

Logistic模型的預(yù)測準(zhǔn)確率:模型將84.375%的“性能好的二手車”預(yù)測為“性能好的二手車”,將15.625%的“性能好的二手車”預(yù)測為“性能差的二手車”。有90.385%的“性能差的二手車”被預(yù)測為“性能差的二手車”,剩下9.615%的“性能差的二手車”被預(yù)測為“性能好的二手車”。可見回歸模型對性能好的二手車預(yù)測的準(zhǔn)確率沒有決策樹模型高。

(3)神經(jīng)網(wǎng)絡(luò)建模

神經(jīng)網(wǎng)絡(luò)建模:借助神經(jīng)網(wǎng)絡(luò)節(jié)點建立模型,網(wǎng)絡(luò)采用輸入、隱層、輸出三層結(jié)構(gòu),其中隱層節(jié)點設(shè)置3個變量,其他設(shè)置采用軟件默認(rèn)設(shè)置。從模型輸出結(jié)果圖可以看出各種模型評價標(biāo)準(zhǔn),其中誤分率標(biāo)準(zhǔn)表明,訓(xùn)練樣本集細(xì)分誤分率為7.43%,檢驗樣本集細(xì)分誤分率為8.33%。從訓(xùn)練過程得知訓(xùn)練誤差隨訓(xùn)練次數(shù)單調(diào)減少。選擇最佳的訓(xùn)練次數(shù)為7,此時的驗證誤差最小。

神經(jīng)網(wǎng)絡(luò)模型的預(yù)側(cè)準(zhǔn)確率:模型將87.5%的“性能好的二手車”預(yù)測為“性能好的二手車”,將12.5%的“性能好的二手車”預(yù)測為“性能差的二手車”。有94.23%的“性能差的二手車”被預(yù)測為“性能差的二手車”,剩下5.77%的“性能差的二手車”被預(yù)測為“性能好的二手車”。回歸模型一樣,對性能差的二手車的預(yù)測的準(zhǔn)確率比對性能好的二手車的預(yù)測的準(zhǔn)確率高。

3.模型的比較評估

由于數(shù)據(jù)挖掘模型有時會造成過度擬合,所以要對模型的正確性進(jìn)行判斷,保證預(yù)測可靠。在選擇解釋變量的時候,注重的是它們解釋目標(biāo)變量的能力。但是當(dāng)有很多的解釋變量時,并不能斷定出總體的性質(zhì)。因此有必要對于模型的有效性進(jìn)行評估,以保證模型的可靠穩(wěn)健。本文所用數(shù)據(jù)只有205條,在分拆后建模難度增大,訓(xùn)練,驗證兩部分結(jié)果有一定差距。盡管如此,我們?nèi)钥梢詮膶嶒灥慕Y(jié)果中獲得一些有意義的結(jié)論。

決策樹,logistic回歸,神經(jīng)網(wǎng)絡(luò)模型的比較:不同模型在不同數(shù)據(jù)集上的誤差率比較和lift圖

綜合訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集的結(jié)果,對三個模型進(jìn)行比較評價。從誤差率基于數(shù)據(jù)挖掘技術(shù)的二手車性能評估研究的比較表中可以看出,決策樹模型和神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確率最高。神經(jīng)網(wǎng)絡(luò)在訓(xùn)練集上誤分率低,但在驗證集上誤分率增大比較多,有“過擬合”的現(xiàn)象。從lift圖上來看,幾個模型的效果都比較好。綜合來看,選擇決策樹模型。

最后得到的規(guī)則是:

性能好的二手車:

(1)horsepower>=94.5 &engine size>=158.5

(2)horsepower>=94.5 &enginesize<158.5 &fuelsystem=mpf

i&city mpg<22

(3)horsepower>=94.5 &engine size<158.5&fuel system=mp

fi &city mpg>=22 &Compression ratio>=9.45

然而以上都不是最好的評價標(biāo)準(zhǔn),原因是沒有考慮到類型I錯誤和類型II錯誤的代價不同。如果兩者代價相同,則考慮誤分率是最佳的標(biāo)準(zhǔn),但現(xiàn)實中往往不是如此。

三、總結(jié)

二手車模型評估應(yīng)建立在大量數(shù)據(jù)的統(tǒng)計結(jié)果之上,才具有準(zhǔn)確性和可靠性。它通過賣家填寫的有關(guān)二手車的資料,可以快速、有效地辨別和劃分二手策劃的優(yōu)劣,實現(xiàn)二手車較為公平的交易。另外,通過數(shù)據(jù)挖掘發(fā)現(xiàn)的一些新模式,可以進(jìn)一步調(diào)整客戶二手車模型評估體系,從而為將來完善二手車模型評估體系起著重要作用。隨著我國二手車各項制度的建立、相應(yīng)法律環(huán)境的完善、信息化建設(shè)的發(fā)展、信息資源共享的實現(xiàn),數(shù)據(jù)挖掘技術(shù)將成為二手車交易管理的重要工具。

參考文獻(xiàn):

[1]張輝,鄭安文.中國二手車市場現(xiàn)狀分析及發(fā)展對策[J].汽車工業(yè)研究,2012(7):10-13.

[2]孟生旺.神經(jīng)網(wǎng)絡(luò)模型與車險索賠頻率預(yù)測[J].統(tǒng)計研究,2012(3): 22-26.

作者簡介:曹靜嫻,女,于2010年9月至2014年7月就讀于西南財經(jīng)大學(xué)經(jīng)濟(jì)信息工程學(xué)院

摘 要:近來年我國二手車市場發(fā)展迅速,但市場不夠規(guī)范,主要依靠人為判斷,評估不客觀,甚至在鑒定評估過程中,有故意隱瞞車輛質(zhì)量問題、以次充好等欺騙消費者現(xiàn)象,給二手車市場造成不良影響。本文利用數(shù)據(jù)挖掘技術(shù)中的決策樹、logistic回歸和神經(jīng)網(wǎng)絡(luò)對205個二手車數(shù)據(jù)進(jìn)行分析,利用相關(guān)數(shù)據(jù)資料分別建立不同的二手車性能評估模型,實現(xiàn)了對二手車性能的多種復(fù)雜混合因素一定程度上的定量分析。

關(guān)鍵詞:二手車性能評估;數(shù)據(jù)挖掘;決策樹;logisticl回歸;神經(jīng)網(wǎng)絡(luò)

一、二手車評估的現(xiàn)狀和發(fā)展

雖然2011年的二手車銷量為433萬輛,是2000年25萬的16.3倍。但是還不到新車銷量的1/4,這說明我國二手車市場還存在很大的發(fā)展空間。而鑒定評估缺乏科學(xué)統(tǒng)一的標(biāo)準(zhǔn),對二手車市場的發(fā)展都有較大影響。與傳統(tǒng)主觀簡單的評估方法相比,評估模型優(yōu)勢明顯。在數(shù)據(jù)挖掘技術(shù)中主要的預(yù)測模型有決策樹、Logistic回歸和神經(jīng)網(wǎng)絡(luò)三種。決策樹模型是一個逐層分隔的形式,而Logistic回歸屬于廣義線性模型,神經(jīng)網(wǎng)絡(luò)模型提供了一個靈活的擬合形式。

二、二手車性能評估模型的構(gòu)建

1.數(shù)據(jù)預(yù)處理、數(shù)據(jù)探索與數(shù)據(jù)清理

數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)有一定要求,所以要先進(jìn)行不完整數(shù)據(jù)、噪音數(shù)據(jù)、不一致數(shù)據(jù)的預(yù)處理。主要有數(shù)據(jù)清洗、數(shù)據(jù)集成與轉(zhuǎn)換、數(shù)據(jù)約減等三個過程。本文所用205個實驗數(shù)據(jù)、包含11個變量,數(shù)據(jù)量較少。

表 原始實驗數(shù)據(jù)屬性

下面對表中各變量進(jìn)行分析處理:

(1)數(shù)據(jù)特征探索:利用insight節(jié)點,對各變量及目標(biāo)變量進(jìn)行可視化分析,探索各變量的關(guān)系、含義和特點,為建模做準(zhǔn)備。發(fā)現(xiàn)各變量缺失比例在2%以下,因此缺失變量可以忽視;(2)設(shè)定目標(biāo)變量。建立target,當(dāng)Performance Cost等于1時表示這是一個性能高的二手車;Performance Cost等于0時表示該二手車的性能比較低。建模的目標(biāo)就是要從數(shù)據(jù)中挖掘出性能高與低的二手車的不同特征,在模型審批過程中能自動將二者區(qū)分開來;(3)變量price與Performance Cost高度線性相關(guān),因此rejected。highway mpg與city mpg高度相關(guān),重復(fù)了,因此拒絕其中一個,本模型是拒絕的highway mpg;(4)觀察目標(biāo)變量的分布,可以看到性能高的二手車與性能低的二手車的比例分別為62%與38%。因此在數(shù)據(jù)分區(qū)的時候選擇用分層抽樣;(5)分層抽樣。訓(xùn)練集與驗證集的比例分別為60%,40%;(6)數(shù)據(jù)的轉(zhuǎn)換。通過觀察數(shù)據(jù)的分布可以看到engine size,Compression ratio,horsepower,price變量不是類似于正態(tài)分布的,因此對其進(jìn)行正態(tài)化處理;(7)雖然缺失數(shù)據(jù)比例很小,但是為了建模的嚴(yán)謹(jǐn),還是添加了replacement節(jié)點,用決策樹方法對缺失的數(shù)據(jù)進(jìn)行處理。

2.模型的建立

(1)決策樹

因為決策樹本身具有處理缺失值的能力,可直接將未經(jīng)過缺失數(shù)據(jù)替換的原始數(shù)據(jù)作為輸入數(shù)據(jù)。本文采用熵不純性的降低作為節(jié)點劃分標(biāo)準(zhǔn),采用二叉樹進(jìn)行建模,設(shè)置樹:j最大深度為6,最小葉子觀測數(shù)為5。從模型輸出結(jié)果得,SAS自動設(shè)置的模型中當(dāng)生成有6個葉子節(jié)點的決策樹時,訓(xùn)練樣本集細(xì)分誤分率為9.09%,檢驗樣本集細(xì)分誤分率為7.14%。

決策樹模型的綜合評價:輸出結(jié)果得出在“性能高的二手車”歷史記錄中有87.5%的預(yù)測值為“性能高的二手車”。在“性能高的二手車”紀(jì)錄中有12.5%的預(yù)測值為“性能低的二手車”。模型將3.846%的“性能低的二手車”預(yù)測為“性能高的二手車”;將歷史紀(jì)錄中96.154%的“性能低的二手車”預(yù)測為“性能低的二手車”。由評價結(jié)果可知,該決策樹對性能低的二手車的正確判斷率達(dá)了96.154%的較高水平,而對性能高的二手車的正確判斷率也達(dá)到了87.5%,該決策樹對性能低的二手車的預(yù)測準(zhǔn)確率更理想。

(2)logistic回歸建模

借助回歸節(jié)點建立模型,采用logistic回歸方法,回歸方式設(shè)置為backward,input coding選擇GLM。從模型輸出結(jié)果圖得出,誤分率標(biāo)準(zhǔn)表明,訓(xùn)練樣本集誤分率為9.92%,檢驗樣本集誤分率為11.9%。

Logistic模型的預(yù)測準(zhǔn)確率:模型將84.375%的“性能好的二手車”預(yù)測為“性能好的二手車”,將15.625%的“性能好的二手車”預(yù)測為“性能差的二手車”。有90.385%的“性能差的二手車”被預(yù)測為“性能差的二手車”,剩下9.615%的“性能差的二手車”被預(yù)測為“性能好的二手車”。可見回歸模型對性能好的二手車預(yù)測的準(zhǔn)確率沒有決策樹模型高。

(3)神經(jīng)網(wǎng)絡(luò)建模

神經(jīng)網(wǎng)絡(luò)建模:借助神經(jīng)網(wǎng)絡(luò)節(jié)點建立模型,網(wǎng)絡(luò)采用輸入、隱層、輸出三層結(jié)構(gòu),其中隱層節(jié)點設(shè)置3個變量,其他設(shè)置采用軟件默認(rèn)設(shè)置。從模型輸出結(jié)果圖可以看出各種模型評價標(biāo)準(zhǔn),其中誤分率標(biāo)準(zhǔn)表明,訓(xùn)練樣本集細(xì)分誤分率為7.43%,檢驗樣本集細(xì)分誤分率為8.33%。從訓(xùn)練過程得知訓(xùn)練誤差隨訓(xùn)練次數(shù)單調(diào)減少。選擇最佳的訓(xùn)練次數(shù)為7,此時的驗證誤差最小。

神經(jīng)網(wǎng)絡(luò)模型的預(yù)側(cè)準(zhǔn)確率:模型將87.5%的“性能好的二手車”預(yù)測為“性能好的二手車”,將12.5%的“性能好的二手車”預(yù)測為“性能差的二手車”。有94.23%的“性能差的二手車”被預(yù)測為“性能差的二手車”,剩下5.77%的“性能差的二手車”被預(yù)測為“性能好的二手車”。回歸模型一樣,對性能差的二手車的預(yù)測的準(zhǔn)確率比對性能好的二手車的預(yù)測的準(zhǔn)確率高。

3.模型的比較評估

由于數(shù)據(jù)挖掘模型有時會造成過度擬合,所以要對模型的正確性進(jìn)行判斷,保證預(yù)測可靠。在選擇解釋變量的時候,注重的是它們解釋目標(biāo)變量的能力。但是當(dāng)有很多的解釋變量時,并不能斷定出總體的性質(zhì)。因此有必要對于模型的有效性進(jìn)行評估,以保證模型的可靠穩(wěn)健。本文所用數(shù)據(jù)只有205條,在分拆后建模難度增大,訓(xùn)練,驗證兩部分結(jié)果有一定差距。盡管如此,我們?nèi)钥梢詮膶嶒灥慕Y(jié)果中獲得一些有意義的結(jié)論。

決策樹,logistic回歸,神經(jīng)網(wǎng)絡(luò)模型的比較:不同模型在不同數(shù)據(jù)集上的誤差率比較和lift圖

綜合訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集的結(jié)果,對三個模型進(jìn)行比較評價。從誤差率基于數(shù)據(jù)挖掘技術(shù)的二手車性能評估研究的比較表中可以看出,決策樹模型和神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確率最高。神經(jīng)網(wǎng)絡(luò)在訓(xùn)練集上誤分率低,但在驗證集上誤分率增大比較多,有“過擬合”的現(xiàn)象。從lift圖上來看,幾個模型的效果都比較好。綜合來看,選擇決策樹模型。

最后得到的規(guī)則是:

性能好的二手車:

(1)horsepower>=94.5 &engine size>=158.5

(2)horsepower>=94.5 &enginesize<158.5 &fuelsystem=mpf

i&city mpg<22

(3)horsepower>=94.5 &engine size<158.5&fuel system=mp

fi &city mpg>=22 &Compression ratio>=9.45

然而以上都不是最好的評價標(biāo)準(zhǔn),原因是沒有考慮到類型I錯誤和類型II錯誤的代價不同。如果兩者代價相同,則考慮誤分率是最佳的標(biāo)準(zhǔn),但現(xiàn)實中往往不是如此。

三、總結(jié)

二手車模型評估應(yīng)建立在大量數(shù)據(jù)的統(tǒng)計結(jié)果之上,才具有準(zhǔn)確性和可靠性。它通過賣家填寫的有關(guān)二手車的資料,可以快速、有效地辨別和劃分二手策劃的優(yōu)劣,實現(xiàn)二手車較為公平的交易。另外,通過數(shù)據(jù)挖掘發(fā)現(xiàn)的一些新模式,可以進(jìn)一步調(diào)整客戶二手車模型評估體系,從而為將來完善二手車模型評估體系起著重要作用。隨著我國二手車各項制度的建立、相應(yīng)法律環(huán)境的完善、信息化建設(shè)的發(fā)展、信息資源共享的實現(xiàn),數(shù)據(jù)挖掘技術(shù)將成為二手車交易管理的重要工具。

參考文獻(xiàn):

[1]張輝,鄭安文.中國二手車市場現(xiàn)狀分析及發(fā)展對策[J].汽車工業(yè)研究,2012(7):10-13.

[2]孟生旺.神經(jīng)網(wǎng)絡(luò)模型與車險索賠頻率預(yù)測[J].統(tǒng)計研究,2012(3): 22-26.

作者簡介:曹靜嫻,女,于2010年9月至2014年7月就讀于西南財經(jīng)大學(xué)經(jīng)濟(jì)信息工程學(xué)院

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
主站蜘蛛池模板: 伊人久久婷婷| 欧美中文字幕在线视频| 国产精品爆乳99久久| 欧美精品啪啪一区二区三区| 一级全免费视频播放| 全部免费特黄特色大片视频| 青青草综合网| 国产成人精品综合| 亚洲国产无码有码| 国产精品原创不卡在线| 亚洲国产无码有码| 77777亚洲午夜久久多人| 国产亚洲视频在线观看| 伊人欧美在线| 亚洲无码37.| 亚洲中文在线看视频一区| 伊人成人在线| 久久精品aⅴ无码中文字幕| 欧亚日韩Av| 91在线无码精品秘九色APP| 亚洲最大看欧美片网站地址| 在线观看精品国产入口| 97在线视频免费观看| 国产黑丝一区| 国产一二三区在线| 国产女人18水真多毛片18精品| 91娇喘视频| 狠狠躁天天躁夜夜躁婷婷| 婷五月综合| 伊人久久大香线蕉aⅴ色| 亚洲国产精品日韩专区AV| AV无码国产在线看岛国岛| 亚洲日韩精品无码专区97| 欧美区国产区| 韩国v欧美v亚洲v日本v| 又大又硬又爽免费视频| 中文字幕2区| 在线亚洲小视频| 免费一级毛片在线观看| 亚洲一区波多野结衣二区三区| 香蕉视频在线精品| 91精品国产丝袜| 91精品aⅴ无码中文字字幕蜜桃| 亚洲成人在线免费观看| 国产激情无码一区二区APP | 试看120秒男女啪啪免费| 四虎AV麻豆| 91精品久久久久久无码人妻| 91久久国产热精品免费| 夜夜高潮夜夜爽国产伦精品| 天天激情综合| 国产亚洲高清视频| 小说区 亚洲 自拍 另类| 欧美精品成人一区二区在线观看| 97视频在线精品国自产拍| 免费无码AV片在线观看国产| 精品色综合| 亚洲91精品视频| 性视频一区| 色婷婷电影网| 四虎综合网| 东京热高清无码精品| 99热这里只有精品国产99| 91精品视频网站| 自拍偷拍欧美日韩| 中国一级特黄大片在线观看| 深夜福利视频一区二区| 国产免费羞羞视频| 久久夜色撩人精品国产| 国产成人综合亚洲欧美在| 欧美精品伊人久久| 午夜视频免费一区二区在线看| 伊人查蕉在线观看国产精品| 在线亚洲小视频| 九色视频一区| 免费国产一级 片内射老| 114级毛片免费观看| 2021精品国产自在现线看| 久久国产亚洲偷自| 欧美午夜一区| 极品av一区二区| 综合色在线|