999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGboost和LightGBM線性加權(quán)模型對(duì)二手車價(jià)格預(yù)測(cè)的研究

2021-04-18 00:13:19楊康
科技研究·理論版 2021年22期
關(guān)鍵詞:二手車

楊康

摘要:為解決二手車交易價(jià)格的預(yù)測(cè)問題,本文建立了基于XGboost和LightGBM的線性融合模型對(duì)二手車交易價(jià)格進(jìn)行預(yù)測(cè)。首先對(duì)數(shù)據(jù)進(jìn)行清洗,包括異常值檢驗(yàn)和缺失值處理。由于交易價(jià)格頻率分布呈現(xiàn)右偏情況,因此對(duì)交易價(jià)格進(jìn)行對(duì)數(shù)調(diào)整使其呈現(xiàn)正態(tài)分布。模型對(duì)于時(shí)間變量學(xué)習(xí)效果較差,本文將時(shí)間變量轉(zhuǎn)換為數(shù)值變量進(jìn)行模型學(xué)習(xí)。根據(jù)不同離散數(shù)據(jù)的特點(diǎn)分別采用獨(dú)熱編碼和目標(biāo)編碼進(jìn)行編碼處理。模型調(diào)優(yōu)采用5折交叉驗(yàn)證和網(wǎng)格搜索對(duì)模型的參數(shù)進(jìn)行優(yōu)化,最后將XGboost與LightGBM以0.55:0.45的比例進(jìn)行模型融合,并在測(cè)試集上的評(píng)分為0.5915,為二手車平臺(tái)的定價(jià)提供了重要依據(jù)。

關(guān)鍵詞:XGboost模型; LightGBM模型;數(shù)據(jù)編碼;二手車;模型融合

0 引言

隨著我國(guó)經(jīng)濟(jì)的飛速發(fā)展以及人們生活水平的提高,機(jī)動(dòng)車的數(shù)量也不斷升高。對(duì)于一些資金不足的賣家來說,二手車是一個(gè)不錯(cuò)的選擇,同時(shí)二手車也能夠使得資源得到更大限度的利用。到2014年,中國(guó)成為世界上第二大二手車市場(chǎng),僅次于美國(guó);到2020年,中國(guó)二手車銷量達(dá)到2230萬輛[1]。隨著二手車需求的增加,二手車的定價(jià)問題成為了二手車交易平臺(tái)需要考慮的問題。如果定價(jià)過低會(huì)使得二手車銷售平臺(tái)的利益得到損失定價(jià)過高會(huì)導(dǎo)致二手車滯銷消耗更多的倉儲(chǔ)費(fèi)用,也同樣會(huì)影響二手車平臺(tái)的收益。

1數(shù)據(jù)預(yù)處理

1.1異常值處理

計(jì)算全部數(shù)據(jù)二手車交易價(jià)格上四分位數(shù)、中位數(shù)、下四分位數(shù)以及均值,分析數(shù)據(jù)分布發(fā)現(xiàn)一個(gè)明顯的離群值109000,查找該組數(shù)據(jù)的所對(duì)應(yīng)的新車價(jià)為15.28萬元,合理推測(cè)該離群值可能單位錯(cuò)誤將其轉(zhuǎn)換為萬元對(duì)應(yīng)10.90萬元,修改該數(shù)據(jù)為10.90萬元。

1.2缺失值處理

數(shù)據(jù)集為門店二手車交易數(shù)據(jù),存在缺失值。計(jì)算各特征的缺失率(缺失率=有缺失值得樣本數(shù)/總樣本數(shù)),其中匿名15得缺失率甚至達(dá)到了92%,缺失值的存在會(huì)影響后續(xù)模型的建立,對(duì)于缺失率較高的特征予以剔除,其他缺失數(shù)值特征采用均值填充,離散特征采用出現(xiàn)頻率最高的變量填充,對(duì)于離散特征需進(jìn)行編碼[2],本文采用目標(biāo)編碼和獨(dú)熱編碼處理。

1.4數(shù)值特征正太化處理

計(jì)算得知二手車的交易價(jià)格的平均值為14.04萬元,標(biāo)準(zhǔn)差為14.007,在1到10萬所占的比例較大,數(shù)據(jù)呈現(xiàn)有右偏情況,因此需要對(duì)數(shù)據(jù)進(jìn)行對(duì)數(shù)調(diào)整,與此同時(shí)對(duì)價(jià)格數(shù)據(jù)做對(duì)數(shù)變換后還會(huì)防止模型的預(yù)測(cè)數(shù)據(jù)出現(xiàn)小于0的情況,根據(jù)下式對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換。

經(jīng)過對(duì)數(shù)調(diào)整后的交易價(jià)格的頻率分布服從正太分布。

2模型的建立

2.1 模型的評(píng)價(jià)標(biāo)準(zhǔn)

以平均相對(duì)誤差以及誤差準(zhǔn)確率作為對(duì)模型評(píng)價(jià)的標(biāo)準(zhǔn),其中平均相對(duì)誤差為訓(xùn)練集中所有樣本的預(yù)測(cè)值與真實(shí)值相對(duì)誤差的平均值,公式為

2.2 XGboost模型建立及調(diào)優(yōu)

XGboost(Extreme Gradient Boosting)由華盛頓大學(xué)的陳天奇博士提出,最開始作為分布式機(jī)器學(xué)校研究社區(qū)小組的研究項(xiàng)目之一,后來在數(shù)據(jù)科學(xué)應(yīng)用種廣泛應(yīng)用[3]。XGboost對(duì)各類任務(wù)都具有良好的學(xué)習(xí)能力,因此本文選用XGboost模型進(jìn)行建模。

對(duì)應(yīng)XGboost模型參數(shù)的調(diào)優(yōu),本文采用留出法和5折交叉驗(yàn)證混合的方式對(duì)XGboost模型進(jìn)行調(diào)參和評(píng)估。

留出法的驗(yàn)證方式最為簡(jiǎn)單直接,在訓(xùn)練過程中僅分割一次數(shù)據(jù),模型調(diào)參過程過分依賴于數(shù)據(jù)劃分情況。5折交叉驗(yàn)證將訓(xùn)練集的數(shù)據(jù)劃分為5個(gè)數(shù)量相等數(shù)據(jù)塊,每次使用第i(i=1,2…5)個(gè)數(shù)據(jù)塊作為模型的驗(yàn)證數(shù)據(jù),而其余數(shù)據(jù)塊作為模型的訓(xùn)練數(shù)據(jù),反復(fù)5次,得到5個(gè)不同的評(píng)分,將其取平均值作為該參數(shù)的評(píng)分。

留出法和5折交叉驗(yàn)證混合進(jìn)行調(diào)參和評(píng)估的思路是:首先使用5折交叉驗(yàn)證對(duì)模型參數(shù)進(jìn)行逐個(gè)調(diào)參,確定最優(yōu)參數(shù)后,在最初始劃分的訓(xùn)練集中計(jì)算模型的最終評(píng)分并展示其預(yù)測(cè)效果。本方法的優(yōu)點(diǎn)是保證一部分?jǐn)?shù)據(jù)始終未參與模型的訓(xùn)練,使用這部分?jǐn)?shù)據(jù)對(duì)模型進(jìn)行評(píng)估,得到評(píng)估結(jié)果更加接近于真實(shí)預(yù)測(cè)情況。同時(shí),本方法也大大增加了模型的泛化能力。

經(jīng)過網(wǎng)格搜索和5折交叉驗(yàn)證,n_estimators在取值 [1000,1200,1500,2000]和learning_rate在取值 [0.05,0.06,0.1,0.15,0.2] 中確定最優(yōu)的 n_estimators為1500,learning_rate為0.15。此時(shí)模型在訓(xùn)練集的得分為0.5697。

使用XGboost模型,計(jì)算其在測(cè)試集的評(píng)分為0.5650與訓(xùn)練集的0.5697相差無幾,證明該模型泛化能力較強(qiáng),具有良好的預(yù)測(cè)效果。

2.3 LightGBM模型的建立和調(diào)優(yōu)

對(duì)于LightGBM模型的超參數(shù)調(diào)整同xgboost模型一樣采用5折交叉驗(yàn)證和網(wǎng)格搜索算法,最后使用訓(xùn)練集對(duì)模型預(yù)測(cè)效果進(jìn)行評(píng)估。經(jīng)過交叉驗(yàn)證和網(wǎng)格搜索確定最優(yōu)超參數(shù)為n_estimators:200,learning_rate:6,num_leaves:64,min_gain_to_split:5,使用測(cè)試集計(jì)算模型評(píng)分得 0.5674 略差于xgboost模型。

2.4 XGoost和LightGBM模型融合

XGboost在測(cè)試集的評(píng)分為0.5650,LightGBM在測(cè)試集的評(píng)分為0.5599。觀察xgboost和LightGBM的預(yù)測(cè)特點(diǎn),發(fā)現(xiàn)xgboost為對(duì)二手車價(jià)格較低的數(shù)據(jù)具有良好的預(yù)測(cè)效果,但對(duì)于離群的價(jià)格較高的數(shù)據(jù)預(yù)測(cè)能力較差,相反LightGBM對(duì)離群值具有較好的預(yù)測(cè)能力,但對(duì)價(jià)格較低的數(shù)據(jù)預(yù)測(cè)效果不如xgboost。因此本文采用線性融合的辦法來提高模型整體的預(yù)測(cè)能力。

經(jīng)過不斷迭代模型融合的線性參數(shù),最終得到以0.65:0.35融合模型,在測(cè)試集上具有較高的評(píng)分為0.5915,相較于融合前的兩個(gè)模型預(yù)測(cè)能力具有較高的提升。

3結(jié)語

本文創(chuàng)造性的運(yùn)用了機(jī)器學(xué)習(xí)領(lǐng)域的XGboost和Lightgbm模型并對(duì)其線性加權(quán)從而建立預(yù)測(cè)效果更叫良好的融合模型。本文對(duì)二手車價(jià)格的預(yù)測(cè)準(zhǔn)確率較高,對(duì)二手車平臺(tái)及其銷售門店提供了良好的理論支撐。

參考文獻(xiàn)

[1]. 寧利濤,分析預(yù)測(cè)我國(guó)二手車銷量 2020年將超新車,https://auto.163.com/11/0330/17/70DL9NAH00084IKG.html,20210105

[2]焦岑.基于隨機(jī)森林與神經(jīng)網(wǎng)絡(luò)的汽車價(jià)格影響因素的研究[D].蘇州大學(xué),2020.

[3]何龍,深入理解XGBoost[M].北京:機(jī)械工業(yè)出版社。2020

猜你喜歡
二手車
2017年9月數(shù)據(jù)二手車
汽車縱橫(2017年12期)2017-12-25 17:46:14
數(shù)據(jù)二手車
汽車縱橫(2017年6期)2017-06-17 21:50:43
數(shù)據(jù)二手車
汽車縱橫(2017年3期)2017-03-18 12:28:21
數(shù)據(jù)二手車
汽車縱橫(2017年1期)2017-02-17 19:01:20
數(shù)據(jù)—二手車
汽車縱橫(2016年9期)2016-10-27 12:49:13
數(shù)據(jù) 二手車
汽車縱橫(2016年8期)2016-09-24 15:39:49
數(shù)據(jù)—二手車
汽車縱橫(2014年9期)2014-11-10 23:42:08
數(shù)據(jù)—二手車
汽車縱橫(2014年7期)2014-09-09 23:54:35
數(shù)據(jù)-二手車
汽車縱橫(2014年5期)2014-08-27 23:54:12
數(shù)據(jù)- 二手車
汽車縱橫(2014年3期)2014-04-17 23:37:09
主站蜘蛛池模板: 久久精品这里只有精99品| 99久久精品久久久久久婷婷| 黄色一级视频欧美| 成年看免费观看视频拍拍| 99热这里只有精品在线观看| 国内精自视频品线一二区| 亚洲精品国产自在现线最新| 国产乱人免费视频| 露脸一二三区国语对白| 国产日韩欧美在线视频免费观看| 亚洲国产精品日韩欧美一区| 久草视频中文| 天堂va亚洲va欧美va国产| 97亚洲色综久久精品| 四虎在线观看视频高清无码| 国产丝袜一区二区三区视频免下载| 国产成人精品亚洲日本对白优播| 亚洲天堂日韩av电影| 麻豆AV网站免费进入| 亚洲第一色网站| 成人午夜天| 成人福利在线免费观看| 国产女人18水真多毛片18精品| 综合网天天| 日韩激情成人| 亚洲午夜国产精品无卡| 久久免费看片| 永久免费av网站可以直接看的| 久久久久免费精品国产| 91在线激情在线观看| 青青青草国产| 成人亚洲视频| 亚洲中文字幕日产无码2021| 国产啪在线| 亚洲人成网站在线播放2019| 老司国产精品视频91| 99re免费视频| 三上悠亚精品二区在线观看| 性喷潮久久久久久久久| 真实国产乱子伦高清| 亚洲无线一二三四区男男| 亚洲日韩Av中文字幕无码| 国产亚洲日韩av在线| 成人综合久久综合| 亚洲精品无码人妻无码| 国产精品 欧美激情 在线播放 | 国产一区二区三区精品久久呦| 理论片一区| 国模私拍一区二区| 高潮毛片免费观看| 久久黄色毛片| 久久亚洲国产一区二区| 亚洲高清资源| 中文字幕在线日本| 色妺妺在线视频喷水| 99国产精品免费观看视频| 91麻豆精品视频| 亚卅精品无码久久毛片乌克兰| 国产99视频精品免费视频7| 色婷婷电影网| 国产精品熟女亚洲AV麻豆| 永久天堂网Av| 婷婷中文在线| 九色免费视频| 精品综合久久久久久97超人| 熟女日韩精品2区| 国产欧美一区二区三区视频在线观看| 国产真实乱子伦精品视手机观看| 欧美精品啪啪一区二区三区| 狠狠做深爱婷婷综合一区| 波多野结衣中文字幕一区二区| 日韩东京热无码人妻| 在线精品亚洲一区二区古装| 亚洲日本韩在线观看| 丁香六月激情综合| av午夜福利一片免费看| 婷婷亚洲天堂| 国内精品视频| 日韩视频免费| 五月婷婷导航| 综合色区亚洲熟妇在线| 国产精品久久久久久久久kt|