孫一飛 夏帆 唐晨添 趙陸亮



摘要:運用多種機器學習方法對給定電動汽車數(shù)據(jù)建立了模型,對比發(fā)現(xiàn)了邏輯斯蒂回歸模型的性能最好,精確度達97.33%,最終選擇邏輯斯蒂回歸模型用于對電動汽車的價格進行預測。
關鍵詞:價格預測;機器學習;精確度
中圖分類號:F426
文獻標識碼:A?文章編號:1674-9944(2020)14-0266-03
1?引言
1.1?研究意義
伴隨著國家政策的實施和民眾消費偏好的轉變,電動汽車市場進入了蓬勃發(fā)展時期。但是在受到國家補貼促進作用的同時,電動汽車市場的發(fā)展對國家補貼政策的依賴性也逐漸加深。鐘財富[1]發(fā)現(xiàn)由于補貼大幅度下降,2019年,電動汽車銷售量10年來首次降低。以往較大力度的補貼政策,導致電動汽車的定價具有一定程度的不合理性,當補貼作用下降的時候,消費者會比以往更加關注電動汽車的價格。因此本文希望運用多種機器學習方法,通過對電動汽車數(shù)據(jù)建立模型,選取最有效的模型對電動汽車的價格進行預測,讓企業(yè)更合理地定價,以促進電動汽車行業(yè)的發(fā)展。
1.2?文獻綜述
目前各種機器學習方法研究成果頗豐,Erhan Bergil等[2]使用KNN方法研究分析了6種不同手部運動的雙通道肌電圖記錄,取得了不錯的效果;黃瑩,任偉[3]使用多分類邏輯斯蒂回歸對允讓構式進行分析,發(fā)現(xiàn)允讓構式具有統(tǒng)計性先占特征;Mohammad Reza Pahlavan-Rad等[4]使用簡單(多元線性回歸)和復雜(隨機森林)模型來聯(lián)系協(xié)變量和滲透測量,發(fā)現(xiàn)隨機森林預測根據(jù)視覺審查被判斷為更接近現(xiàn)實;
2?研究內容與研究方法
2.1?研究目的
使用多種機器學習方法在測試集上建立模型,比較各個方法在測試集上的精確度[1],選擇合適的模型,對電動汽車進行價格預測。
2.2?假設條件
特征的充分必要性:電動汽車的價格由且只由給定的電動汽車數(shù)據(jù)中的20 個屬性共同來決定。這個假設條件沒有現(xiàn)實意義上的必然性,但是由于獲取到的數(shù)據(jù)的限制,只能做出這種假設。
2.3?模型設立步驟
本文在假設條件成立的情況下,模型設立步驟如圖1所示。
(1)首先對數(shù)據(jù)進行描述性統(tǒng)計分析,檢查數(shù)據(jù)的平衡性、有無缺失值和異常值,然后進行數(shù)據(jù)清洗、填補等操作。
(2)選擇K近鄰(k-Nearest Neighbor,KNN)、邏輯斯蒂回歸(Logistic Regression,LR)、隨機森林(random forest,RF)、支持向量機(Support vector machine,SVM)、樸素貝葉斯(Naive Bayes Classifier ,NBC)、XGBoost、決策樹(decision tree,DT)以及人工神經網絡(artificial neural network ,ANN)8種方法建立模型,然后基于前8種模型構建GradientBoosting融合模型,進行比較。
(3)選取最優(yōu)模型對電動汽車進行價格預測。
3?原始數(shù)據(jù)的描述性分析及數(shù)據(jù)清洗
3.1?數(shù)據(jù)來源
本文數(shù)據(jù)來自上海財經大學數(shù)學學院舉辦的全國首屆研究生工業(yè)與金融大數(shù)據(jù)建模與計算邀請賽初賽C題:電動汽車價格預測相關數(shù)據(jù)。原始數(shù)據(jù)分為訓練集和測試集兩部分,其中訓練集1500條數(shù)據(jù),測試集500條數(shù)據(jù),由于給定的測試集數(shù)據(jù)沒有價格數(shù)據(jù),難以計算精確度,所以本文擬將測試集數(shù)據(jù)按7∶3的比例重新劃分出測試集和訓練集兩部分數(shù)據(jù)。
3.2?數(shù)據(jù)缺失情況分析
原始數(shù)據(jù)各標簽有效數(shù)據(jù)均為1500條,缺失數(shù)據(jù)0條,沒有數(shù)據(jù)缺失,是完整的數(shù)據(jù)集。
3.3?原始數(shù)據(jù)樣本均衡情況分析
預測變量價格的4個等級類別樣本量均在370個左右,原始數(shù)據(jù)樣本分布平衡(圖2)。
3.4?數(shù)據(jù)預處理
原始數(shù)據(jù)是完整的平衡樣本,所以不需要進行異常值、缺失值以及不平衡數(shù)據(jù)處理。由于本文使用的一些機器學習方法對數(shù)據(jù)量綱比較敏感,所以會對數(shù)據(jù)進行歸一化處理,消除數(shù)據(jù)量綱的影響,提高模型性能。
4?建模與分析
在對數(shù)據(jù)進行初步分析和預處理之后,開始構建模型,對模型進行優(yōu)化分析。
4.1?KNN
建立KNN初始模型,使用網格搜索方法調整參數(shù),通過交叉驗證方式獲得最終的KNN模型的精確度為93.33%。
4.2?Logistic回歸
分別使用擬牛頓法、牛頓法、隨機平均梯度下降法、改進的隨機平均下降法構建Logistic回歸模型,通過正則化方法消除過擬合現(xiàn)象,最終選擇牛頓法求解的模型作為Logistic模型的代表,其精確度為97.33%。
4.3?隨機森林
構造初始模型,對數(shù)據(jù)進行分類,獲得該模型的精確度。調整參數(shù)n_estimators,通過交叉驗證方式,確定隨機森林里基評估器的最佳數(shù)目,使用網格搜索方法調整參數(shù),將最后調整好的參數(shù)寫入隨機森林方法中構造最終的隨機森林模型,通過交叉驗證方式獲得代表性的隨機森林模型的精確度。最終構建基評估器為142、最大樹深度為11、獲得分枝時考慮的特征個數(shù)為10、使用信息增益方法選取特征的隨機森林模型,其精確度為90.13%。
4.4?支持向量機(SVM)
由于數(shù)據(jù)中各個特征數(shù)據(jù)具有不同的量綱,數(shù)據(jù)存在十分嚴重的量綱不一問題,而SVM模型嚴重受到數(shù)據(jù)量綱的影響。為了消除數(shù)據(jù)量綱不一問題對SVM模型的嚴重影響,首先將數(shù)據(jù)進行歸一化預處理,使用線性核函數(shù)(linear)、多項式核函數(shù)(poly)、高斯徑向基核函數(shù)(rbf)以及雙曲正切核函數(shù)(sigmoid),分別構建SVM模型并進行比較,選出對測試集數(shù)據(jù)預測擬合效果最好的模型作為SVM模型的代表。最終選擇使用線性核函數(shù)構建的SVM模型,其精確度為94.89%。
4.5?樸素貝葉斯模型
分別使用高斯分布樸素貝葉斯分類器和多項式樸素貝葉斯分類器構造模型,對測試數(shù)據(jù)集數(shù)據(jù)進行預測,模型精確度都為82.08%和80.89%,
4.6?XGBoost
構造初始模型,對數(shù)據(jù)進行分類,獲得該模型的精確度。調整參數(shù)n_estimators,通過交叉驗證方式,確定XGBoost里弱評估器的最佳數(shù)目,使用網格搜索方法調整參數(shù),將最后調整好的參數(shù)寫入XGBoost方法中構造最終的XGBoost模型,通過交叉驗證方式獲得代表性的XGBoost模型的測試集精確度。最終構建弱分類器選定為梯度提升樹(gbtree)、個數(shù)為153 個,subsample為0.75,reg_alpha為0.2,reg_lambda為0.65,gamma為0.2的XGBoost分類器,其精確度為92.60%。
4.7?決策樹模型
構建一般樹模型,進行控制隨機性和剪枝操作,每一步操作都用信息增益和基尼指數(shù)兩種方法進行特征選取,構建六種模型,對比各模型的精確度,選出最優(yōu)模型。最后選擇進行剪枝處理的最大樹深度為12的使用基尼系數(shù)方法進行特征選擇的決策樹模型,其訓練精確度為98.86%,精確度為81.33%。
4.8?人工神經網絡(ANN)
構建的多層感知機分類器神經網絡的精確度為66.64%,精確度很低,說明模型擬合效果不理想。考慮到原始數(shù)據(jù)中各個特征數(shù)據(jù)具有不同的量綱,數(shù)據(jù)存在十分嚴重的量綱不一問題,所以對原始數(shù)據(jù)進行歸一化處理,再建立模型擬合,模型的精確度為92.67%,歸一化處理數(shù)據(jù)后,模型的擬合效果有了很大的提升。
4.9?GradientBoosting融合模型
為了獲得性能更好的模型,嘗試使用Blending 方法通過集成學習方法GradientBoosting根據(jù)上述8個模型的結果構造融合模型,分析是否會得到性能更好的模型,最終構成的融合模型的精確度為90.22%,模型性能一般。
5?結論與展望
本文運用多種機器學習方法,通過對收集到的電動汽車數(shù)據(jù)建立模型,選取最有效的模型對電動汽車的價格進行預測。本文9種方法的精確度如表1所示。
邏輯斯蒂回歸模型的性能最好,決策樹和樸素貝葉斯模型的性能最差,最終選擇邏輯斯蒂回歸模型用于數(shù)據(jù)的預測。
參考文獻
[1]鐘財富.十字路口下的電動汽車行業(yè)[J].中國投資(中英文),2020(Z4):59~60.
[2]Erhan Bergil, Canan Oral, Engin Ufuk Ergul. Efficient Hand Movement Detection Using k-Means Clustering and k-Nearest Neighbor Algorithms [J]. Journal of Medical and Biological Engineering, 2020?(prepublish).
[3]黃?瑩,任?偉.英語分析型允讓構式的致使傾向研究——多分類邏輯斯蒂回歸和多重對應分析法[J].外語與外語教學,2020(3):11~21,146.
[4]Mohammad Reza Pahlavan-Rad,Khodadad Dahmardeh, Mojtaba Hadizadeh Gholamali Keykha, et al. Prediction of soil water infiltration using multiple linear regression and random forest in a dry flood plain, eastern Iran[J]. Catena, 2020(194).