陸龍妹 趙明松 盧宏亮 張平



摘? 要:機器學習方法在回歸問題中的應用十分廣泛,人工神經網絡(Artificial Neural Network,ANN)和隨機森林(random forest,RF)均是經典的機器學習算法,在回歸問題中均有眾多的應用。神經網絡和RF算法均為決策樹算法的擴展,且均在解決回歸問題中有著良好的精度。ANN是一種可以廣泛應用于各個學科的經典機器學習算法;RF算法具有結構清晰、易于解釋、運行效率高且對于數據要求低等優勢,且RF模型具有穩定性較高,不易出現過擬合問題等特點。文章通過2個回歸問題的案例,比較神經網絡和RF算法在回歸問題中的區別,為研究2種算法在回歸問題中的應用提供參考。
關鍵詞:人工神經網絡;隨機森林;重要性評價;回歸問題;機器學習
中圖分類號:TP391.77? ? ? 文獻標志碼:A 文章編號:2095-2945(2019)10-0031-03
Abstract: The machine learning method is widely used in regression. Artificial neural network (ANN) and random forest (RF) are classical machine learning algorithms widely applied in regression problems. Both neural network and RF algorithm are extensions of decision tree algorithm, and both of them have good accuracy in solving regression problems. ANN is a classical machine learning algorithm which can be widely used in various disciplines, RF algorithm has the advantages of clear structure, easy interpretation, high running efficiency and low data requirements, and the RF model has high stability. It is not easy to have the characteristics of over-fitting problem and so on. In this paper, two cases of regression problems are used to compare the difference between neural network and RF algorithm in regression problems, which provides a reference for the study of the application of the two algorithms in regression problems.
Keywords: artificial neural network; stochastic forest; importance evaluation; regression problem; machine learning
1 概述
隨著計算機和信息技術不斷地發展,大數據的到來使機器學習算法成為解決實際問題的重要工具,對于機器學習算法的研究也成為了熱門的研究方向。人工神經網絡(Artificial Neural Network,ANN)是模擬人腦神經元進行預測的一種經典機器學習算法,其特點是預測精度高,應用廣泛,但是參數較難設置[1],隨機森林(random forest,RF)是Breiman和Cutler在2001年提出的一種極具分類樹的集成算法,其基本思想是通過大量分類樹的集合以提高模型預測精度[2]。
國內外學者在使用人工神經網絡(Artificial Neural Network,ANN)和RF模型進行回歸問題方面開展了較多的研究。比如在醫學[3-4]、生物[5-6]、工程[7-8]及遙感[9]等方面均有較多涉及。劉藝梁等[10]分析對比了邏輯回歸和人工神經網絡在滑坡災害空間預測中的應用,結果表明邏輯回歸預測精度相對較高,但兩者模型之間可以相互驗證;王宜懷等[11]證明了人工神經網絡可以很好地處理非線性回歸問題;張華偉等[12]使用隨機森林模型進行了文本分類處理,結果表明,隨機森林算法與C4.5、KNN、SMO和SVM等文本分類算法相似。
本研究以UCI機器學習數據倉庫(Machine Learning Data Repository)中提供的葡萄酒數據為研究數據,以樣本中的葡萄酒質量評分為目標變量,其他相關特征為自變量,分別使用ANN和RF算法建立葡萄酒評級模型,比較兩種的在葡萄酒評級模型上的表現,研究為進一步研究ANN和RF模型在回歸問題中的實際應用提供了思路。
2 研究方法
2.1 ANN算法
神經網絡是由多個非常簡單的處理單元彼此按某種方式相互連接而形成的計算機系統,該系統靠其狀態對外部輸入信息的動態響應來處理信息的。人工神經網絡是一種旨在模仿人腦結構及其功能的信息處理系統。反向傳播(Back propagation,BP)是使用多層前饋網絡進行監督學習的最廣泛使用的算法。反向傳播學習算法[11]的基本思想是重復應用鏈式規則來計算網絡中每個權重對任意誤差函數的影響。誤差函數計算公式為:
2.2 RF算法
RF是由Breinman提出的一種基于分類樹的集成算法,是機器學習中較為重要的一種方法。RF算法的基本原理與分類回歸樹(classification and regression tree, CART)算法類似,在基于CART算法的基礎上加入隨機化的特點,即在樣本數據中進行隨機采樣,生成大量的分類回歸樹,最后以投票的方式獲得最終的結果。RF模型具有提高預測精度、減少過擬合,對缺失數據和多元共線性不敏感,且具有簡單處理大量的定量和定性數據能力的優點。
2.3 模型評價指標
本研究隨機選取3674個樣本作為建模集,1224個樣點測試集。使用基于R語言環境下的Boruta和caret、randomForest和rpart軟件包進行建模預測。模型精度評定選用均方根誤差(RMSE)和決定系數(R2)三個標準。公式如下:
3 結果與分析
3.1 樣本數據統計分析
樣本數據包含4898個葡萄酒案例以及與其相關的化學特征信息。特征信息包括酸度、含糖量、氯化物含量、硫的含量、酒精度、pH值和密度等。以質量尺度0到10為評級指標,其中質量指數越高代表葡萄酒的品級越高。
由表1樣本中葡萄酒質量評分統計特征可知,總樣本、建模集和測試集目標變量的統計特征最大值、最小值和均值均分別為9、3和5.88,標準差和變異系數也基本相同,整體分布相近,可以用于建模和預測。
3.2 神經網絡算法結果分析
神經網絡模型精度分析:
ANN模型建模結果表明(表2),(1)由建模集可知,ANN模型最終可以解釋葡萄酒質量的48%(R2=0.53),測試集R2略低于建模集;(2)測試集中,RMSE為0.75,略高于建模集(RMSE=0.75),但仍有較高的精度,說明ANN模型可以有效地預測葡萄酒質量。
3.3 RF算法結果分析
3.3.1 RF模型精度分析
RF模型的精度通過計算RMSE、R2等參數來進行評估。結果(表3)表明,(1)RF模型最終結果可以解釋葡萄酒質量的53%(R2=0.53);建模集中的決定系數與測試集相近,R2均為0.53,該模型避免了過擬合問題且模型較為穩定;(2)測試集中,RMSE為0.62,略高于建模集(RMSE=0.61),有較高的精度,說明RF模型在葡萄酒預測中具有較高的精度,且具有較好的泛化能力。
表3 RF模型葡萄酒質量預測精度分析
3.3.2 RF特征重要性分析
預測因子重要性排序表明(圖1),對于葡萄酒質量,特征變量對其影響的重要性由高到底依次分別為酒精度(alcohol)、密度(density)、揮發性酸(volatile acidity)、游離二氧化硫(free sulfur dioxide)、氯化物(chlorides)、總二氧化硫(total sulfur dioxide)、甜度(residual sugar)、檸檬酸(citric acid)、pH值、游離酸度(fixed acidity)和硫酸鹽(sulphates)。其中酒精度對于葡萄酒的影響最為明顯,即為最重要的預測因子。
3.4 ANN和RF算法對比
由表2、表3可知,(1)建模集和測試集中,RF模型的R2均為0.53,分別高出ANN模型0.05和0.08,RMSE分別為0.61、0.62,均低于ANN模型(RMSE=0.75、0.78),整體而言,RF模型的模型解釋度和泛化能力均高于ANN模型;(2)對比建模集和測試集可知,RF模型建模集和測試集預測結果相似,相較于ANN模型更加穩定;(3)相較于ANN模型,RF模型具有可以對特征變量進行重要性評分的優勢。綜上所述,ANN和RF模型在回歸問題中均有較好的預測精度,在葡萄酒評分預測中,RF模型具有預測精度更高、不易過擬合且可以對自變量進行解釋的優勢。
4 結論
本文基于神經網絡和隨機森林模型建立葡萄酒質量評級模型,分析兩種機器學習算法在回歸問題中區別。結論如下:
(1)ANN和RF模型在葡萄酒評級問題中有良好的表現,無論是建模集還是預測集均有較高的預測精度,相較而言RF模型預測精度更好、泛化能力更強,且參數方面更為簡單。
(2)相較于ANN模型,RF模型可以對模型中所使用的特征變量進行評分,從而更好地分析自變量對于響應變量的重要性。綜合而言,兩種模型在回歸算法中均有較好的表現,研究如何使用兩種模型解決其他回歸問題有一定的意義。
參考文獻:
[1]朱大奇.人工神經網絡研究現狀及其展望[J].江南大學學報,2004,3(01):106-113.
[2]Breiman L. Random Forests[J]. Machine Learning, 2001,45(1):5-32.
[3]李雅潔,吳偉,周寶森.人工神經網絡在腦卒中早期快速分類診斷中的應用[J].實用醫學雜志,2008,24(10):1738-1740.
[4]Xiao-Yan W U, Zhen-Yu W U, Kang L I. Identification of differential gene expression for microarray data using recursive random forest[J].中華醫學雜志(英文版),2008,121(24):2492.
[5]Shatnawi M, Zaki N, Yoo P D. Protein inter-domain linker prediction using Random Forest and amino acid physiochemical properties[J]. Bmc Bioinformatics, 2014,15(S16):S8.
[6]熊行創,方向,歐陽證,等.基于人工神經網絡的生物組織質譜成像分類與識別方法[J].分析化學,2012,40(1):43-49.
[7]趙慧,汪云甲.融合多尺度分割與ANN算法的矸石山提取[J].計算機工程與應用,2012,48(22):222-225.
[8]Cabrera D, Sancho F, Sánchez R V, et al. Fault diagnosis of spur gearbox based on random forest and wavelet packet decomposition[J].機械工程前沿:英文版,2015,10(3):277-286.
[9]駱劍承,周成虎,楊艷.人工神經網絡遙感影像分類模型及其與知識集成方法研究[J].遙感學報,2001,5(2):122-129.
[10]劉藝梁,殷坤龍,劉斌.邏輯回歸和人工神經網絡模型在滑坡災害空間預測中的應用[J].水文地質工程地質,2010,37(5):92-96.
[11]王宜懷,王林.基于人工神經網絡的非線性回歸[J].計算機工程與應用,2004,40(12):79-82.
[12]張華偉,王明文,甘麗新.基于隨機森林的文本分類模型研究[J].山東大學學報(理學版),2006,41(3):145-149.