基于隨機森林算法的路面狀況指數預測

2021-11-11 01:33:24裴莉莉戶媛姣

公路交通科技 2021年10期

余婷，裴莉莉，李偉，戶媛姣，楊明

(長安大學信息工程學院，陜西西安 710064)

0 引言

公路從正式開始運營后會受到各種交通工具的荷載及自然環境因素的干擾，其路面的使用性能將不斷衰弱，倘若無法及時進行檢測與養護，愈發嚴重的道路破損將使路面使用性能極速減弱[1]。為及時對破損路面采取相應的養護措施，需要利用收集的路面使用性能數據，研究并掌握路面使用性能[2]的衰變特點，以便公路管理部門作出最佳養護決策。而傳統的道路路況調查以人工調查為主[3]，耗時長、效率低，在各種損壞情況和程度的判斷上很容易產生嚴重的主觀偏差，且各種損壞的判別界限具有模糊性，無法達到當前公路養護管理要求。

人工智能技術在近幾年強勢崛起，并且逐漸應用于交通、醫療、國防等生產生活中[4]。2019年全國交通運輸工作會議的主旨就是以智慧交通為主導，加大交通運輸與互聯網、大數據、人工智能等技術的深層次融合，使交通運輸決策更加科學化[5]。隨著對路面使用性能的深入研究，世界各國學者開始嘗試使用人工智能算法對路面使用性能進行預測[6]。李波等[7]和張亮等[8]分別采用主成分分析法和灰色馬爾可夫模型對路面破損狀況進行了預測。顏可珍等[9]建立了參數優化的最小二乘支持向量機模型，能夠可靠地對路面性能作出評價。樊旭英等[10]在發現稀漿封層技術可有效減緩瀝青路面低溫病害發生的基礎上，對熵權-層次分析法進行改進，建立了瀝青路面預養護評價模型。Sollazzo等[11]利用路面長期性能數據庫，采用人工神經網絡模型來建立瀝青路面平整度與結構性能之間的關系，發現人工神經網絡優于經典的線性回歸方法。Abdelaziz等[12]從一般路面研究和特定路面研究收集原始和重疊柔性路面的數據建立了國際平整度指數(International Roughness Index，IRI)預測模型，同樣得出ANNs模型比回歸模型預測準確度更好。Zhang等[13]基于權重分布理論討論了Pavement ME Design模型和改進的灰色預測模型預測多年凍土區瀝青路面橫向裂縫的互補優勢，并開發了考慮區域特征的組合預測模型。Li等[14]開發一種創新的基于模糊趨勢時間序列預測和粒子群優化(PSO)技術的IRI預測模型，且該方法優于多項式擬合、自回歸積分移動平均法。李海蓮等[15]通過研究傳統路面性能預測方法，利用改進的螢火蟲算法加快支持向量機模型的尋優過程，驗證表明該模型收斂速度更快，精度更高。

以上研究表明，支持向量機、神經網絡等機器學習方法已廣泛應用于路面性能預測建模，且預測模型具有較高精度。本研究通過對加拿大安大略省某公路的路面特征和路面綜合狀況指標等數據進行調查分析研究，構建隨機森林路面狀況指數(PCI)預測模型，再對所構建的模型的擬合效果和預測精度進行優化和評價分析，最終得到具有較高效率、較高精度和較低誤差的預測模型來解決PCI的預測問題。

1 數據獲取和數據預處理

首先利用ARAN9000多功能檢測車獲取加拿大安大略省某公路檢測數據，再在了解各項數據特征后對其進行數據預處理，使得最后建立模型的預測效果更好。整體技術路線如圖1所示。

1.1 基于ARAN9000的道路三維數據獲取

路面自動化快速檢測技術從對路面平整度、車轍等單一性能指標檢測逐漸發展到了模塊化的多功能路面綜合檢測。ARAN9000多功能道路檢測車是由加拿大Fugro-Roadware公司研發的用于在高速公路上即時收集公路信息資料并進行數據處理的多功能檢測車，它把精確的硬件勘察系統和功能強大的軟件系統集成在一起，可實現對任何公路的數據采集計劃。硬件系統包括道路平整度測量系統、路面病害測量系統、車轍測量系統等。軟件系統包括Vision(一體化數據處理和分析軟件套件)、Ivision(基于網絡的應用程序)、Surveyor(路產管理應用軟件)等。

圖1 路面破損狀況指數預測技術路線Fig.1 Technical route of PCI prediction

通過ARAN9000多功能道路檢測車對加拿大安大略省21號公路進行數據采集，獲取到該公路路面特征數據集，具體分類與示例見表1。

1.2 數據預處理

數據紛雜繁復且大部分會存在缺失值，甚至包含許多錯誤或虛假數據，在數據分析前對數據進行預處理，不僅可提升數據分析的質量，而且可節省實際分析所用的時間。

專業人員對原始數據進行了分析，并采用方差選擇法去除了IDSession和Status等無關輔助特征，之后采用皮爾遜相關系數對余下特征因子進行了相關性分析。變量X和變量Y的皮爾遜相關系數ρX,Y公式為：

表1 數據集分類與示例Tab.1 Data set classification and examples

(1)

式中，cov(X,Y)為X與Y之間的協方差；σX為X的標準差；σY為Y的標準差。

根據分析結果去除與預測目標PCI相關性低的特征，最終得到包含路面特征在內的3 000多組數據。

此時數據中有大量的裂縫數據缺失，但由于每段路面不一定包含所有裂縫特征，因此和專業技術人員溝通并對比均值填充、拉格朗日插值等數據修復效果后，采用填零的方法修復缺失數據。其次發現預測目標PCI有19行數據缺失，相對于整體數據量來說比例較小，所以選擇直接刪除。

經過特征篩選后，數據分布仍存在明顯的不平衡性，此現象可由圖2中原始特征變量數據的均值、方差看出，同時每個特征變量的極值之間差距較大。因此，為避免不同特征變量數據分布差異性導致的模型過擬合現象，必須對原始數據進行標準化操作。

圖2 部分特征變量的描述性統計Fig.2 Descriptive statistics of some feature variables

采用離差標準化方法把數據映射到0～1范圍之內，用式(2)轉換：

(2)

式中，x*為標準化后的值；x為數據原始值；min為最小值；max為最大值。

經歸一化處理后，無論是模型的收斂速度還是模型的預測速度都有了大幅度提升。

2 基于機器學習的PCI預測

2.1 隨機森林

隨機森林(Random Forest，RF)[16]是bagging集成學習算法演變而來的基于決策樹的機器學習算法。用隨機方式構建一個由多棵互相獨立決策樹組成的森林。通過對特征劃分結果的優劣進行不純性度量，并計算信息增益來選擇分裂特征。從根節點按照特征劃分條件和節點純度最小原則，向下分裂直到滿足規則時停止，最終的預測結果是對每棵決策樹結果的加權平均值。基本原理見圖3。

圖3 隨機森林算法基本原理Fig.3 Basic principle of random forest algorithm

通常用信息熵[17]作為衡量數據集純度的一種指標。設第k類數據占所有數據集X的比例為pk(k=1,2,…,n)，則定義數據集X的信息熵為:

(3)

若H(X)的值越小，那么數據集X的混亂程度越低，純度越高。

假設使用離散特征a來對數據集X進行劃分，就會產生V個分類結果，其中第V個分類結果包含的所有數據，記為XV。根據式(3)計算出XV的信息熵，再考慮到不同的分類結果所包含的數據量不同，因此給每個分類結果給予1個權重|XV|/|X|，表明數據量越多的分類結果作用越大，于是計算利用特征a對數據集X進行分裂所獲得的信息增益：

(4)

通常來說，Gain(D，a)值越大，就說明利用特征a來進行分裂后，數據集的復雜度減小得越多，分類的結果越明顯。

隨機森林在有放回地從原始的數據集上隨機抽取m個子樣本的基礎上，在訓練單個決策樹時，再隨機選取k個特征，并從這k個特征中選擇最優特征來分裂節點，這使得隨機森林模型不會輕易過度學習訓練集的特征，且降低了模型的方差。實現流程圖如圖4所示。

圖4 隨機森林算法實現流程Fig.4 Implementation process of random forest algorithm

2.2 其他模型

2.2.1 多元線性回歸

多元線性回歸算法是利用最小二乘法來擬合回歸方程，主要用于處理多變量間的關系，即建立因變量y與多個自變量x之間的統計關系。其數學模型為：

y=β0+β1x1+β2x2+…+βpxp+ε，

(5)

式中，y為因變量；x為自變量；β為自變量x的系數；p為自變量的個數；ε為預測值與真實值之間的殘差。

2.2.2 BP神經網絡

神經網絡模型是一種分布式并行運算的模型[18-19]。輸入信號首先經過加權到隱藏節點，再通過激活函數，從隱藏節點輸出并經過加權傳播到輸出層節點，最后輸出層處理得到輸出結果，結構見圖5。

圖5 多層前向神經網絡的結構Fig.5 Structure of multilayer forward neural network

(6)

網絡訓練要使J的值最小，其權值的訓練算法可描述為：

(7)

式中，w(t)為t時刻的權值;η為學習率[21]。

在進行模型構建時，首先需要確定BP神經網絡模型的結構，其次根據BP算法進行訓練，具體流程如圖6所示。

圖6 BP神經網絡模型的流程Fig.6 Flowchart of BP neural network model

3 模型預測結果與對比

3.1 模型評判標準

為了對模型的預測結果進行定量分析與比較，采用復相關系數R2、均方根誤差(Root Mean Square Error,RMSE)和平均絕對誤差(Mean Absolute Error,MAE)作為評價模型性能的指標。如果數據點大多分布在擬合回歸線附近，則表明模型預測精度較高，誤差相對較小。計算公式如下：

(8)

(9)

(10)

式中，x為變量的值(本研究指PCI)；xi(i=1,2,…,n)為真實值；x′0為xi的平均值；xp為xi的預測值；n為測量值的總個數。

3.2 模型預測結果

3.2.1 多元線性回歸預測結果

將路面檢測狀況和往年路面評價指標作為自變量，PCI為因變量，得到表2所示的多元線性回歸性能結果。可以看出，該模型的精度較低，而誤差較大。

表2 多元線性回歸性能結果Tab.2 Multiple linear regression performance result

3.2.2 BP神經網絡預測結果

構建神經網絡模型首先選擇1層隱藏層，再根據預測精度高低，增加隱藏層層數，從而提升預測精度，神經網絡性能結果如表3所示。

表3 BP神經網絡性能結果Tab.3 BP neural network performance result

從以上預測結果可以看出，當只有1層隱藏層時，隱藏神經元個數為14的R2為0.670，RMSE為4.542，MAE為3.035，此時預測結果最好。因此選擇在第1層隱藏層神經元為14，并在此基礎上增加網絡層數來提高模型預測精度。

第2層隱藏層設置神經元個數5和10進行對比分析。由表2可知，BP神經網絡模型預測PCI的R2從0.669增加到0.711，預測結果得到顯著提升。

3.2.3 隨機森林預測結果

同樣選取27個路面特征作為輸入樣本，默認參數設置如表4所示，采用隨機森林算法進行訓練，得到默認參數的情況下隨機森林模型的預測結果，如表5所示。

表4 隨機森林默認參數值Tab.4 Random forest default parameter values

表5 隨機森林模型的預測結果Tab.5 Evaluation result of random forest model

為了使隨機森林模型能夠更準確地預測PCI，采用5折交叉驗證結果調整隨機森林模型參數，使隨機森林模型預測精度提升。5折交叉驗證的具體過程如圖7所示。

圖7 五折交叉驗證Fig.7 Five-fold cross-validation

在默認參數情況下，采用網格搜索法固定其他參數，依次調節任一參數在不同范圍內的參數值，然后找到在該范圍內的最優值，以該值為中心逐步縮小調節范圍，直至逼近最終的最優參數值。

由表5可得，在默認參數的情況下，隨機森林模型的R2為0.895，RMSE為2.710，MAE為1.958，預測效果較好，但仍存在一定誤差。而改進后的模型擬合效果更好，并且R2也從0.895提升到0.898，誤差也相應地減小。因此，改進后的模型更適合本研究的數據預測，預測精度更高。

在調參試驗中發現，由于本研究數據集樣本量較小，調節節點分枝最小樣本數和葉子節點最少樣本數對模型性能影響較小。因此使用默認值，即節點分枝最小樣本數為2，葉子節點最少樣本數為1。各參數值與對應精度變化曲線如圖8所示，最優參數設置如表6所示。

圖8 各參數最優值與對應精度變化曲線Fig.8 Optimal parameter values and corresponding accuracy variation curves

同時，由于輸入變量較多，無法通過簡單的統計分析確定應修正或刪除的異常數據，因此選擇在完成模型構建并預測后，通過預測值與真實值的擬合效果確定異常值。由擬合效果知遠離擬合直線的異常點僅有13個，相對于整體數據來說比例較小，所以選擇直接刪除這些異常值。最后使用去除異常值后的數據重新作為訓練集對模型進行循環訓練，使之達到當前模型訓練最優。

3.3 結果對比與分析

通過調整輸入參數，選擇預測結果最優的模型進行結果輸出，4種模型對PCI預測的擬合效果如圖9所示，散點在直線周圍分布越緊湊，預測效果越好。相應地，表7展示了4種模型預測結果與實際值之間的復相關系數、均方根誤差和平均絕對值誤差。由式(8)～(10)可知，復相關系數越接近于1，誤差越接近于0，預測性能越好。從圖9中可以看到，與PCI的真實值相比，基于傳統的多元線性回歸的預測結果性能最差，而基于BP神經網絡模型的預測結果獲得了較大的提升。

表6 隨機森林模型最優參數值Tab.6 Optimal parameter values of random forest model

表7 四種模型的性能結果Tab.7 Performance results of 4 models

圖9 四種模型的擬合效果Fig.9 Fitting effects of 4 models

然而圖9(b)中仍有部分數據遠離線性回歸直線，而圖9(c)中遠離回歸線的異常點明顯減少。由于隨機森林模型對處理高維度數據(特征較多)和抗過擬合能力較優，使得該模型不僅獲得了較好的預測結果，而且訓練速度提升了33 s。最后改進后的隨機森林模型解決了圖9(c)中仍有部分數據距回歸直線較遠這一情況。

由表7得，改進的隨機森林模型的R2值為0.898，RMSE為2.483，MAE為1.805,訓練時間縮短了2 s。由圖10也可看出，改進后模型的隨機森林預測誤差整體較小，不僅優于多元線性回歸和神經網絡預測模型，而且更適于本研究的數據預測。

圖10 四種模型的預測誤差Fig.10 Prediction errors of 4 models

4 結論

本研究通過對從ARAN9000多功能道路檢測車采集到的相關數據進行數據處理與統計分析，選擇主要的路面特征和往年路面評價指標作為輸入變量，路面狀況指數PCI作為輸出變量，構建基于隨機森林、神經網絡和多元線性回歸的PCI預測模型。對比結果表明，隨機森林模型預測PCI的精度最高，誤差最低，且訓練速度提升了近33 s;其次采用去除離異項和交叉驗證對模型進行優化，得到R2為0.898，提高了0.003。改進后的隨機森林模型能夠有效地對PCI進行預測。

本研究提出的隨機森林預測模型能夠有效解決路面狀況的預測問題，為養護決策的制訂提供科學的數據支持和理論依據。精確的預測結果可幫助公路養護管理部門及時采取養護措施，從而保證路面良好的使用性能,降低養護成本。