999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習方法的電動汽車價格預測

2020-12-23 05:41:45孫一飛夏帆唐晨添趙陸亮
綠色科技 2020年14期
關鍵詞:精確度機器學習

孫一飛 夏帆 唐晨添 趙陸亮

摘要:運用多種機器學習方法對給定電動汽車數(shù)據(jù)建立了模型,對比發(fā)現(xiàn)了邏輯斯蒂回歸模型的性能最好,精確度達97.33%,最終選擇邏輯斯蒂回歸模型用于對電動汽車的價格進行預測。

關鍵詞:價格預測;機器學習;精確度

中圖分類號:F426

文獻標識碼:A?文章編號:1674-9944(2020)14-0266-03

1?引言

1.1?研究意義

伴隨著國家政策的實施和民眾消費偏好的轉變,電動汽車市場進入了蓬勃發(fā)展時期。但是在受到國家補貼促進作用的同時,電動汽車市場的發(fā)展對國家補貼政策的依賴性也逐漸加深。鐘財富[1]發(fā)現(xiàn)由于補貼大幅度下降,2019年,電動汽車銷售量10年來首次降低。以往較大力度的補貼政策,導致電動汽車的定價具有一定程度的不合理性,當補貼作用下降的時候,消費者會比以往更加關注電動汽車的價格。因此本文希望運用多種機器學習方法,通過對電動汽車數(shù)據(jù)建立模型,選取最有效的模型對電動汽車的價格進行預測,讓企業(yè)更合理地定價,以促進電動汽車行業(yè)的發(fā)展。

1.2?文獻綜述

目前各種機器學習方法研究成果頗豐,Erhan Bergil等[2]使用KNN方法研究分析了6種不同手部運動的雙通道肌電圖記錄,取得了不錯的效果;黃瑩,任偉[3]使用多分類邏輯斯蒂回歸對允讓構式進行分析,發(fā)現(xiàn)允讓構式具有統(tǒng)計性先占特征;Mohammad Reza Pahlavan-Rad等[4]使用簡單(多元線性回歸)和復雜(隨機森林)模型來聯(lián)系協(xié)變量和滲透測量,發(fā)現(xiàn)隨機森林預測根據(jù)視覺審查被判斷為更接近現(xiàn)實;

2?研究內容與研究方法

2.1?研究目的

使用多種機器學習方法在測試集上建立模型,比較各個方法在測試集上的精確度[1],選擇合適的模型,對電動汽車進行價格預測。

2.2?假設條件

特征的充分必要性:電動汽車的價格由且只由給定的電動汽車數(shù)據(jù)中的20 個屬性共同來決定。這個假設條件沒有現(xiàn)實意義上的必然性,但是由于獲取到的數(shù)據(jù)的限制,只能做出這種假設。

2.3?模型設立步驟

本文在假設條件成立的情況下,模型設立步驟如圖1所示。

(1)首先對數(shù)據(jù)進行描述性統(tǒng)計分析,檢查數(shù)據(jù)的平衡性、有無缺失值和異常值,然后進行數(shù)據(jù)清洗、填補等操作。

(2)選擇K近鄰(k-Nearest Neighbor,KNN)、邏輯斯蒂回歸(Logistic Regression,LR)、隨機森林(random forest,RF)、支持向量機(Support vector machine,SVM)、樸素貝葉斯(Naive Bayes Classifier ,NBC)、XGBoost、決策樹(decision tree,DT)以及人工神經網絡(artificial neural network ,ANN)8種方法建立模型,然后基于前8種模型構建GradientBoosting融合模型,進行比較。

(3)選取最優(yōu)模型對電動汽車進行價格預測。

3?原始數(shù)據(jù)的描述性分析及數(shù)據(jù)清洗

3.1?數(shù)據(jù)來源

本文數(shù)據(jù)來自上海財經大學數(shù)學學院舉辦的全國首屆研究生工業(yè)與金融大數(shù)據(jù)建模與計算邀請賽初賽C題:電動汽車價格預測相關數(shù)據(jù)。原始數(shù)據(jù)分為訓練集和測試集兩部分,其中訓練集1500條數(shù)據(jù),測試集500條數(shù)據(jù),由于給定的測試集數(shù)據(jù)沒有價格數(shù)據(jù),難以計算精確度,所以本文擬將測試集數(shù)據(jù)按7∶3的比例重新劃分出測試集和訓練集兩部分數(shù)據(jù)。

3.2?數(shù)據(jù)缺失情況分析

原始數(shù)據(jù)各標簽有效數(shù)據(jù)均為1500條,缺失數(shù)據(jù)0條,沒有數(shù)據(jù)缺失,是完整的數(shù)據(jù)集。

3.3?原始數(shù)據(jù)樣本均衡情況分析

預測變量價格的4個等級類別樣本量均在370個左右,原始數(shù)據(jù)樣本分布平衡(圖2)。

3.4?數(shù)據(jù)預處理

原始數(shù)據(jù)是完整的平衡樣本,所以不需要進行異常值、缺失值以及不平衡數(shù)據(jù)處理。由于本文使用的一些機器學習方法對數(shù)據(jù)量綱比較敏感,所以會對數(shù)據(jù)進行歸一化處理,消除數(shù)據(jù)量綱的影響,提高模型性能。

4?建模與分析

在對數(shù)據(jù)進行初步分析和預處理之后,開始構建模型,對模型進行優(yōu)化分析。

4.1?KNN

建立KNN初始模型,使用網格搜索方法調整參數(shù),通過交叉驗證方式獲得最終的KNN模型的精確度為93.33%。

4.2?Logistic回歸

分別使用擬牛頓法、牛頓法、隨機平均梯度下降法、改進的隨機平均下降法構建Logistic回歸模型,通過正則化方法消除過擬合現(xiàn)象,最終選擇牛頓法求解的模型作為Logistic模型的代表,其精確度為97.33%。

4.3?隨機森林

構造初始模型,對數(shù)據(jù)進行分類,獲得該模型的精確度。調整參數(shù)n_estimators,通過交叉驗證方式,確定隨機森林里基評估器的最佳數(shù)目,使用網格搜索方法調整參數(shù),將最后調整好的參數(shù)寫入隨機森林方法中構造最終的隨機森林模型,通過交叉驗證方式獲得代表性的隨機森林模型的精確度。最終構建基評估器為142、最大樹深度為11、獲得分枝時考慮的特征個數(shù)為10、使用信息增益方法選取特征的隨機森林模型,其精確度為90.13%。

4.4?支持向量機(SVM)

由于數(shù)據(jù)中各個特征數(shù)據(jù)具有不同的量綱,數(shù)據(jù)存在十分嚴重的量綱不一問題,而SVM模型嚴重受到數(shù)據(jù)量綱的影響。為了消除數(shù)據(jù)量綱不一問題對SVM模型的嚴重影響,首先將數(shù)據(jù)進行歸一化預處理,使用線性核函數(shù)(linear)、多項式核函數(shù)(poly)、高斯徑向基核函數(shù)(rbf)以及雙曲正切核函數(shù)(sigmoid),分別構建SVM模型并進行比較,選出對測試集數(shù)據(jù)預測擬合效果最好的模型作為SVM模型的代表。最終選擇使用線性核函數(shù)構建的SVM模型,其精確度為94.89%。

4.5?樸素貝葉斯模型

分別使用高斯分布樸素貝葉斯分類器和多項式樸素貝葉斯分類器構造模型,對測試數(shù)據(jù)集數(shù)據(jù)進行預測,模型精確度都為82.08%和80.89%,

4.6?XGBoost

構造初始模型,對數(shù)據(jù)進行分類,獲得該模型的精確度。調整參數(shù)n_estimators,通過交叉驗證方式,確定XGBoost里弱評估器的最佳數(shù)目,使用網格搜索方法調整參數(shù),將最后調整好的參數(shù)寫入XGBoost方法中構造最終的XGBoost模型,通過交叉驗證方式獲得代表性的XGBoost模型的測試集精確度。最終構建弱分類器選定為梯度提升樹(gbtree)、個數(shù)為153 個,subsample為0.75,reg_alpha為0.2,reg_lambda為0.65,gamma為0.2的XGBoost分類器,其精確度為92.60%。

4.7?決策樹模型

構建一般樹模型,進行控制隨機性和剪枝操作,每一步操作都用信息增益和基尼指數(shù)兩種方法進行特征選取,構建六種模型,對比各模型的精確度,選出最優(yōu)模型。最后選擇進行剪枝處理的最大樹深度為12的使用基尼系數(shù)方法進行特征選擇的決策樹模型,其訓練精確度為98.86%,精確度為81.33%。

4.8?人工神經網絡(ANN)

構建的多層感知機分類器神經網絡的精確度為66.64%,精確度很低,說明模型擬合效果不理想。考慮到原始數(shù)據(jù)中各個特征數(shù)據(jù)具有不同的量綱,數(shù)據(jù)存在十分嚴重的量綱不一問題,所以對原始數(shù)據(jù)進行歸一化處理,再建立模型擬合,模型的精確度為92.67%,歸一化處理數(shù)據(jù)后,模型的擬合效果有了很大的提升。

4.9?GradientBoosting融合模型

為了獲得性能更好的模型,嘗試使用Blending 方法通過集成學習方法GradientBoosting根據(jù)上述8個模型的結果構造融合模型,分析是否會得到性能更好的模型,最終構成的融合模型的精確度為90.22%,模型性能一般。

5?結論與展望

本文運用多種機器學習方法,通過對收集到的電動汽車數(shù)據(jù)建立模型,選取最有效的模型對電動汽車的價格進行預測。本文9種方法的精確度如表1所示。

邏輯斯蒂回歸模型的性能最好,決策樹和樸素貝葉斯模型的性能最差,最終選擇邏輯斯蒂回歸模型用于數(shù)據(jù)的預測。

參考文獻

[1]鐘財富.十字路口下的電動汽車行業(yè)[J].中國投資(中英文),2020(Z4):59~60.

[2]Erhan Bergil, Canan Oral, Engin Ufuk Ergul. Efficient Hand Movement Detection Using k-Means Clustering and k-Nearest Neighbor Algorithms [J]. Journal of Medical and Biological Engineering, 2020?(prepublish).

[3]黃?瑩,任?偉.英語分析型允讓構式的致使傾向研究——多分類邏輯斯蒂回歸和多重對應分析法[J].外語與外語教學,2020(3):11~21,146.

[4]Mohammad Reza Pahlavan-Rad,Khodadad Dahmardeh, Mojtaba Hadizadeh Gholamali Keykha, et al. Prediction of soil water infiltration using multiple linear regression and random forest in a dry flood plain, eastern Iran[J]. Catena, 2020(194).

猜你喜歡
精確度機器學習
研究核心素養(yǎng)呈現(xiàn)特征提高復習教學精確度
“硬核”定位系統(tǒng)入駐兗礦集團,精確度以厘米計算
放縮法在遞推數(shù)列中的再探究
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數(shù)據(jù)的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
基于支持向量機的金融數(shù)據(jù)分析研究
機器學習理論在高中自主學習中的應用
易錯題突破:提高語言精確度
主站蜘蛛池模板: 免费无遮挡AV| 一级在线毛片| 91九色视频网| 人妻出轨无码中文一区二区| 美女无遮挡免费网站| 超薄丝袜足j国产在线视频| 日本一区二区三区精品国产| 婷婷成人综合| 国产人免费人成免费视频| 欧美啪啪网| 无码精品国产dvd在线观看9久 | 久一在线视频| 免费欧美一级| 免费精品一区二区h| 亚洲AⅤ永久无码精品毛片| 欧美视频在线第一页| 福利小视频在线播放| 色精品视频| 岛国精品一区免费视频在线观看| 热99精品视频| 久久免费观看视频| 国产成人精品视频一区二区电影| 韩国福利一区| 亚欧美国产综合| 亚洲精品国产自在现线最新| 国产精品区网红主播在线观看| 欧美福利在线观看| 日韩av在线直播| 国产精品黑色丝袜的老师| a网站在线观看| 伊人中文网| 在线精品视频成人网| 亚洲成在线观看| 久久国产精品无码hdav| 成人午夜视频在线| 青青青视频蜜桃一区二区| 人妻无码一区二区视频| 国产日韩精品一区在线不卡| 国产69精品久久久久孕妇大杂乱| 美女无遮挡免费网站| 亚洲国产天堂久久综合226114| 1024国产在线| 亚洲一区二区三区在线视频| 五月天久久综合国产一区二区| 欧美yw精品日本国产精品| 成人国产精品一级毛片天堂| 国产福利一区在线| 日韩国产欧美精品在线| 午夜视频免费一区二区在线看| 久久久久青草大香线综合精品 | 亚洲欧美另类日本| 成人夜夜嗨| 国产精品成人啪精品视频| 91免费片| 99久久精品国产麻豆婷婷| 久久美女精品| 99久久亚洲综合精品TS| 欧美日本在线| 呦系列视频一区二区三区| 另类重口100页在线播放| 亚洲人成色77777在线观看| 国产人成乱码视频免费观看| 91久久夜色精品国产网站| 亚洲日本中文字幕乱码中文| 手机在线免费毛片| jijzzizz老师出水喷水喷出| 久久黄色免费电影| 国产乱视频网站| 欧美一区国产| 99精品在线视频观看| 亚洲a级毛片| 91精品综合| www中文字幕在线观看| 久久久波多野结衣av一区二区| 1级黄色毛片| 99精品福利视频| 国产熟睡乱子伦视频网站| 99视频免费观看| 麻豆AV网站免费进入| 国产日韩精品一区在线不卡| 国产精品久久久精品三级| 国产在线日本|