999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的二手車價格評估方法

2015-05-30 12:03:12謝楊溫華張潔
企業技術開發·中旬刊 2015年4期
關鍵詞:機器學習

謝楊 溫華 張潔

摘 要:目前,我國每年乘用車二手車市場交易規模已經高達300萬輛以上,二手車交易中如何對車輛進行合理的估值已經成為消費者和經銷商最為關注的問題。通過利用數據挖掘技術并結合評估師經驗,建立了一種新的二手車價格評估模型,該模型在高達百萬樣本數據的基礎上利用機器學習中的聚類、多元回歸等方法將車輛的上牌時間、表征里程、所屬地區等因子作為自變量,成新率(保值率)作為因變量而建立。通過實際的評估驗證,該模型具有較好的評估效果。

關鍵詞:二手車評估;二手車保值率;機器學習;多元回歸

中圖分類號:F406.4 文獻標識碼:A 文章編號:1006-8937(2015)11-0116-03

1 背景概述

我國汽車保有量近年來也實現了快速的增長,截止2014年底,我國乘用車保有量達到了8 307萬輛,并且以每年近10%的速度快速增長。2014年乘用車銷量達到了1 970.06萬輛,連續六年銷量全球第一。同年全國共交易二手乘用車351.43萬輛,同比增長15.25%。我國二手車增速接近于新車市場增速的兩倍。二手汽車取代新車市場地位、成為汽車消費市場的主體是汽車產業發展的必然趨勢。美國二手車是新車交易量的3.3倍,德國為2.3倍。保守預測,如果我國二手車與新車交易量達到1:1的水平,市場規模也在千萬輛以上。

目前二手車的評估還主要是由評估師根據自己的經驗進行,通過數據挖掘技術、經驗或其他方法來建立二手車評估模型的研究才興起不久,目前還沒有一種能夠具有高準確度,可操作性好的評估模型。不同的車型、配置、車主使用習慣與保養水平、使用年限、地區限購等因素,二手車的價格會有較大的不同。

本文基于高達百萬的樣本數據,并綜合了主流觀點和評估理論中所要考慮的因素,對二手車價格評估有主要影響的眾多變量進行了分析,最后得到對二手車價格影響最大的多個變量,建立起能夠較為合理清晰的反映和解釋二手車交易價格的多元回歸統計模型。在該模型的基礎上,利用傳統方法或經驗值對其進行參數修正,使其能夠較為準確的對大多數情況的二手車進行評估。

2 特征變量與關系模型

2.1 實驗數據

實驗采用的數據包含:車型,車系,車型配置,車身顏色,車輛用途,行駛里程,所屬地區,使用年限,新車價,交易價等,總量在100萬行左右。

2.1.1 數據分析

交易數據是對二手車市場交易最為直接的反映,通過數據分析可知:在二手車市場上交易比較活躍的車系有A6、寶馬5系、凱越、凱美瑞、雅閣、A4L、福克斯、寶馬3系、寶來、君威、銳志、邁騰、科魯茲、朗逸、天籟、速騰等。可以看出B級車在二手車市場上較受歡迎,其次是A級車。在交易量中約50%集中在30個車系上,在我們統計的1 000個車系占3%;交易量的75%集中在約115個車系上,約占車系總量的11.5%;交易量的90%集中在約225個車系上,約占車系總量的22.5%。除去準新車(指還未上牌或車齡極小的車輛),交易量的70%都集中在車齡5年內的車輛上,車齡活躍程度排名依次為3,2,4,5,1年。車輛交易最為活躍的地區為華東區(江蘇省和浙江省),其約占整個市場的30%。

2.1.2 建模思路

通過數據分析可知,市場交易的絕大部分車輛都集中在少部分的車系上,所以如果能夠評估好這一百多個車系,便能滿足市場評估的大部分需求。在交易集中的這部分車型或車系上,可以利用其豐富的樣本數據,挖掘出一個合理的評估模型。對于車型樣本數據足夠的車型,可以為每個車型建立一個評估模型;然后再為樣本數據足夠的車系建立評估模型;最后結合數據挖掘和評估師經驗為剩余約大部分車系建立評估模型。

2.2 特征變量分析

現行的二手車價格評估方法有多種,如現行市價法,重置成本法和清算價格等。這些方法大都是通過經驗來進行評估,不能很好的反映市場因素對車價的影響,而二手車價格受到市場因素影響最大。影響二手車價格的主要變量有:車型(配置、排放、油耗等)、使用年限、車況、有無事故、行駛里程、車身顏色、交易地區(地方政策法規、消費者對不同品牌喜好度等)、新車市場情況(新車銷量、后續車型折扣率)、車輛用途等。樣本數據并未含所有上訴特征變量,其主要包含:車型及其配置與新車價等、后續車型新車價、車身顏色、車輛用途、交易地區、上牌時間、交易時間、交易價格。

從經驗上講,這些變量對二手車價格都有影響,但是并沒有一個科學嚴謹的證明說明這一點。我們從統計意義上的“相關性”角度來分析。

統計學上的相關性是指兩個變量因素的相關密切程度,兩個變量的關系可以直觀地用散點圖表示,當其緊密地群聚于一條直線的周圍時,變量間存在強相關性。

2.2.1 使用年限

二手車價格的最大影響因子便是使用年限,為便于利用散點圖分析,令差價率=(新車價-二手車價)/新車價,得到的差價率與使用年限的散點圖如圖1所示,通過散點圖分析可得到結論:二手車保值率與使用年限強相關,可通過二次多項式曲線進行關系擬合。

2.2.2 行駛里程

基于經驗考慮,車齡和行駛里程一般存在很強的正相關性,而我們要建立的數學模型需要盡量避免這樣的相關性(即多重共線性),因此對行駛里程做如下變換:年均里程=里程數/使用時間,再對年均里程和車齡進行檢驗,可知年均里程對于使用時間來說,kendall系數較小,可以認為二者無顯著相關關系,可將年均里程加入模型中。

2.2.3 車身顏色

對其進行方差(ANOVA)分析,得到的Sig>0.05,認為不同顏色之間二手車交易價格沒有顯著差異。這個結論和我們的經驗相悖,說明可能樣本數據中不能提取出顏色對交易價格影響的因素。在二手車市場上大眾色系(銀、黑、灰、白)相對最為保值,這主要因為其受眾群體最高。同時在每個車系推出時都會有一種主打色,主打色系車型的保值率通常高于其他顏色款。因此將顏色分為3類,第一類為某車系主打色A,第二類為大眾色B,第三類為其他色C。在評估出了一輛車的保值率(0~1小數表示)后根據其顏色歸類將A、B、C類分別乘以102%,100%,98%,對其進行修正。

2.2.4 車輛用途

通過樣本數據的方差分析同樣不能得出車輛用途對價格有明顯的影響,因此同樣利用經驗值對保值率進行修正。車輛用途分為非營運(保值率不變)、營運(按1~10 a保值率乘以90%~80%遞減)、其他(按1~10 a保值率乘以95%值85%遞減)。

2.2.5 交易地區

通過對交易地區進行散點圖與方差分析,Sig<0.001,可知地區對交易價格有顯著的影響。交易地區的值屬于屬性變量,在模型中可轉換為虛擬變量,便于做回歸分析。

2.2.6 新車價格

對于建立在車系上的一個具體的評估模型,其可適用該車車系下所有車型。根據經驗,即使是同車系的車型,其保值率率也會存在細微的差異。如一兩年車齡的同車系的低配和高配車型,新車價差價部分為10萬,在二手車交易時這部分的差價往往低于5萬,所以建立車系模型時也需將其作為特征變量加入。

2.3 建立關系模型

通過以上的數據和特征變量分析,可以根據不同車型在市場交易的活躍度建立起3個層次化的評估模型。

2.3.1 基于車型的評估模型

對于樣本數據量達到200個以上單個車型,建立起以保值率r為因變量,使用年限cl1,使用年限的平方cl2,交易地區dq,年均使用里程lc作為自變量的多元線性回歸模型。其中因為車輛的保值率和使用年限是二次項關系,所以通過引入自變量cl2使模型更加準確。交易地區屬于定性數據,通過轉換為虛擬變量引入多元回歸模型:

Dj=1 地區取值為j0 其他 j=1,2...,9

其中,地區取值為9(即最后一個地區)時,用D1~D9都取值為0來表示。到保值率后,引入車輛用途修正系數a,車身顏色修正系數b對保值率進行修正,模型用數學公式表述為:

r=ab(b0+b1cl1+b2cl2+b3D1+b4D2+b5D3+b6D4+b7D5+b8D6+b9D7+

b10D8+b11D9+b12lC)

2.3.2 基于車系的評估模型

利用同樣的方法為樣本數據量達到500個以上的單個車系建立評估模型,與車型唯一不同的是,在車系模型中,新增車型的新車價xcj作為自變量。車型的新車價能夠反映一個車系里不同配置的車型二手車價格的不同。同樣也利用車輛用途和車身顏色修正系數a、b對模型進行修正。模型用數學公式表述為:

r=ab(b0+b1cl1+b2cl2+b3D1+b4D2+b5D3+b6D4+b7D5+b8D6+b9D7+

b10D8+b11D9+b12lC+b13xcj)

2.3.3 通用評估模型

通過將車型分為11類,從樣本數據中提取出一個能夠覆蓋大部分車型通用評估模型,具體的分類方法見表1,根據分類分別為每個類別建立一個評估模型,模型用數學公式與基于車型的評估模型相同。

3 多元線性回歸

在建立的模型中,存在不同量綱的變量,量綱不同,也會造成模型各變量的系數缺乏直接的含義,不能直觀反映每個變量的重要性,即對因變量的解釋能力。為了消除量綱影響和變量自身變異大小和數值大小的影響,故將數據標準化。對于評估模型中的使用年限采用離差標準化,將因變量中的觀察值減去該變量的最小值,然后除以該變量的極差,其數學公式表述為:

xik'=[xik-Min(xk)]/Rk,

使用年限:

cl1'=(cl-0.5)/9.5,

對于年均行駛里程,新車價采用標準差標準化,將某變量中的觀察值減去該變量的平均數,然后除以該變量的標準差,數學公式為:

xik'=[xik-uk)]/Sk,

年均行駛里程:

lC'=(lc-1.51)/0.79,

新車價:

xcj'=(xcj-29.41)/30.82。

3.1 基于車型的評估模型

單個車型樣本數據在200個以上的有1 200個左右,通過多元線性回歸,可得到每個模型的參數,選取其中一個車型“A4L2013款35TFSI無級變速舒適型三廂”,其回歸后的模型為:

r=ab(0.814-0.679cl1'+0.097cl2'-0.07lc'-0.011D華東區

-0.006D華南區-0.015D上海區-0.017D西北區-0.007D西南區

-0.019D華北區-0.015D東北區-0.006D華南區-0.007D華中區)

3.2 基于車系的評估模型

單個車系樣本數據在500個以上的有280個左右,通過多元線性回歸,可得到每個模型的參數,選取其中一個車系“別克凱越”,其回歸后的模型為:

r=ab(0.365-0.658cl1'+0.151cl2'-0.06lc'-0.0654xcj'

-0.009D華東區+0.012D華南區-0.019D上海區-0.005D西北區

-0.001D西南區-0.004D華北區+0.002D東北區-0.015D華南區

-0.008D華中區)

3.3 通用評估模型

對分類后的11個類別多元線性回歸運算,可得到每個分類模型的參數,選取第6個分類,進口品牌并且新車價介于15~35萬,其回歸后的模型為:

r=ab(0.796-0.739cl1'+0.136cl2'-0.02lc'-0.022xcj'

-0.015D華東區+0.003D華南區-0.019D上海區-0.009D西北區

-0.011D西南區-0.018D華北區+0.008D東北區-0.011D華南區

-0.016D華中區)

衡量回歸模型優劣的統計量見表2。R為復相關系數,它表示模型中的所有變量與因變量之間的線性回歸關系的密切程度大小。它的取值介于0~1之間,R越大說明線性回歸關系越密切。調整R2為重點關注的統計量,它的值越大,模型擬合效果越好,表中調整的R2分別為0.752,0.926,0.883。最后給出標準估計的誤差,它的大小反映了建立模型預測因變量的精度,值越小說明所建模型越好。模型方差分析結果中概率P值0.000<0.001,所以該模型是有統計意義的。

4 結 語

建立一個精確的二手車評估模型是一項非常困難的工作,因為每一二手車輛車的價格除了受其具體的車況、車主使用習慣等之外,還很大程度上受市場供求關系,品牌知名度以及國家政策等因素的影響。本文利用機器學習的方法,通過挖掘歷史交易數據建立了一個能夠覆蓋大部分車型的評估模型,能夠較準確的評估出一輛普通車況的二手車價格,具有較好的使用價值。

參考文獻:

[1] 國家統計局.2014年國民經濟和社會發展統計公報[EB/OL].http://soc-

iety.people.com.cn/n/2015/0226/c1008-26599463.html,2015-02-26.

[2] 中國報告大廳.2014年1-11月中國二手車銷量分析:增長率近新車三倍[EB/OL].http://www.chinabgao.com/stat/stats/39670.html,2014-12-23.

[3] 侯江麗,趙飛.基于AHP算法的二手車評估方法的研究[J].邢臺職業技術學院學報,2013,(3).

[4] 郭振江.舊機動車評價方法的建立與體系研究[D].西安:長安大學,2011.

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 久久久久国产精品熟女影院| 蜜芽一区二区国产精品| 中文字幕永久视频| 国产无人区一区二区三区| 免费一看一级毛片| 伊人久久婷婷| 在线视频97| 成色7777精品在线| 亚洲嫩模喷白浆| 欧美日韩一区二区在线播放| 午夜精品福利影院| 九九九久久国产精品| 久久毛片基地| 亚洲三级电影在线播放| 国产精品自拍合集| 国产av色站网站| 欧美国产综合视频| 亚洲一欧洲中文字幕在线| 草草线在成年免费视频2| www.youjizz.com久久| 91丝袜乱伦| 永久成人无码激情视频免费| 国产精品国产三级国产专业不| 国产免费一级精品视频| 久久不卡国产精品无码| 中文字幕无码av专区久久| 美女国产在线| 99视频国产精品| 99久久国产综合精品2023| 国产精品欧美在线观看| 亚洲午夜天堂| 五月天丁香婷婷综合久久| 福利视频一区| 久久综合色天堂av| 色综合狠狠操| 99久久国产综合精品女同| 国产精品亚洲一区二区三区z| 国产青榴视频| www.亚洲一区二区三区| 偷拍久久网| 99久久国产自偷自偷免费一区| 亚洲天堂视频网站| 毛片基地美国正在播放亚洲 | 日韩在线第三页| 成人亚洲天堂| 99热这里只有精品在线观看| 999精品在线视频| 国产成人在线无码免费视频| 国产乱人伦偷精品视频AAA| 激情无码字幕综合| 成人无码一区二区三区视频在线观看| 国产一区二区福利| 日本免费一区视频| 国产无吗一区二区三区在线欢| 一级毛片免费不卡在线| yjizz国产在线视频网| 国产日韩丝袜一二三区| 国产永久在线观看| 这里只有精品在线播放| 国产91无码福利在线| 一级毛片在线播放| 伊人色天堂| 亚洲国产精品不卡在线| av尤物免费在线观看| 欧美中文字幕一区二区三区| 国产高清在线精品一区二区三区| 国产经典免费播放视频| 精品久久久久成人码免费动漫| 国产日韩精品欧美一区喷| 五月婷婷导航| 精品人妻系列无码专区久久| 国产情精品嫩草影院88av| 91在线播放国产| 欧美自拍另类欧美综合图区| 91福利国产成人精品导航| 国产精品国产三级国产专业不| 91美女视频在线观看| 亚洲一道AV无码午夜福利| 国产精品真实对白精彩久久| 99视频在线免费看| 伊人色婷婷| AV天堂资源福利在线观看|