




摘要:我國公路、隧道等規模的增加給公路施工帶來更高的危險系數,因此亟需進行安全管理系統的建設。利用決策樹約簡對隨機森林算法進行優化,然后采用聚類方法得到高精度的隨機森林,并將其應用于安全平臺的數據層進行數據挖掘。實驗結果表明:改進算法的平均準確率86.28%、精確率85.62%、召回率87.62%和F值86.58%。改進模型預測結果的相對誤差均小于傳統的算法,在數據集4中,改進模型的誤差值最小為2.2%。實驗結果表明,基于改進隨機森林算法的安全平臺模型具有較好的準確性,且該模型的分類性能高、規模低、資源消耗少,適用于公路安全智能管控云平臺中。
關鍵詞:大數據;工程安全;智能管控;云平臺;隨機森林;決策樹
0 " 引言
在公路工程中,由于施工流動性大、施工難度系數高,以及復雜的施工地形等因素,導致公路工程安全管理的難度增高[1-2]。
隨著信息技術的快速發展,基于大數據的安全管理得到了廣泛應用,人工智能技術等為安全管理的改革創新提供了新的思路[3]。借助數據挖掘等先進的信息技術,可以提高安全管理的水平,對可能存在的安全事故進行預警,從而降低安全事故的發生率[4]。此次研究中,利用隨機森林算法建立了以大數據為基礎的安全智能管控云平臺,希望可以借助該平臺保障公路工程的安全實施。
1 " 基于大數據挖掘的安全智能管控云平臺
1.1 " 基于決策樹約簡的隨機森林算法
數據挖掘技術中的隨機森林算法以決策樹作為基本分類模型,可以減少模型的偏差與方差[5-6]。構建過程中,將樣本數據集的抽取,作為訓練決策樹的樣本集。然后是特征的選擇,將決策樹分裂時產生的最優特征作為模型的根節點,采用遞歸法生成信息增益、信息增益比和基尼指數3種不同特征的決策樹。在樣本訓練時,不同的決策樹會生成不同的分類結果,選擇票數最高的類別作為最終的分類結果。隨機森林算法的整體結構見圖1。
隨機森林算法中,決策樹節點的增多可能會導致某些節點信息的記錄減少,同時可能存在模型過擬合問題,因此需要對決策樹進行剪枝操作[7]。在本次實驗中,采取一種改進的隨機森林算法對決策樹進行特征約簡,以降低模型預測的時間,并減小模型存儲。
利用分類精度和多樣性度量標準,選擇性能較優的決策樹,其中分類精確度的指標可以采用準確率、召回率和曲線下的面積(Area Under the Curve, AUC)等。AUC表示接收器工作特性曲線下的面積,在[0,1]取值范圍內,AUC的值與模型區分能力成正比。AUC可以用于二元分類問題。在本次實驗中,選擇將其作為分類性能的衡量指標。在對多元分類問題進行評估時,需要先將其拆分,求取平均值來評估模型的分類性能,如公式(1)所示。
(1)
式(1)中,K表示樣本的分類數量,i類和j類樣本的集合分別用Di和Dj來表示。假設有分類器hi和hj分類器,對于樣本xk,可以得到公式(2)中的輸出結果hi(xi)。
(2)
式(2)中,c表示維度向量,pi,c(xk)表示樣本xk在c維中屬于j類樣本的概率。定義分類器hi預測樣本xk為類標記s的程度為Ci,其計算見公式(3)。
(3)
式(3)中,pi,s(xk)=maxhi(xk)。將待測數據集X分為輸出類標記相同與不相同的數據集X1和X2,見公式(4)和(5)。
(4)
(5)
在公式(4)和(5)的基礎上,定義分類器hi和分類器hj的多樣性度量方法,見公式(6)。
(6)
式(6)中,Mi,j∈[0,1],其值越接近1,表明分類器hi和分類器hj間的差異越大。當Mi,j =0時,分類器hi和分類器hj預測類標記一致;當Mi,j=1時,分類器hi和分類器hj預測類標記不一致。
1.2 " 基于決策樹約簡和聚類分析算法的隨機森林算法
利用分類精度和多樣性度量標準進行決策樹數量的約簡,可以得到分類性能較優的決策樹,接下來利用聚類算法對子森林進行聚類,將其組合成新的隨機森林。改進隨機森林算法TRRF的流程如圖2所示。
利用驗證數據集對原始隨機森林中決策樹的AUC值進行計算,作為其分類精度。由于數據集的特征維度、噪聲數據等有差異,導致在利用分類精度篩選決策樹時,高精度決策樹的比例不一致。因此此次實驗采取決策樹數量不固定的辦法,利用公式(7)找到比原始隨機森林F分類精度更高的子森林SubF。
(7)
式(7)中,F={ti,i=1,2,...,K},A表示F中分類精度的均值,決策樹ti的AUC值為Auci。如果子森林SubF中的決策樹超過F中2/3的數量,則該子森林SubF可以作為需要進行聚類處理的子森林。如果子森林中的SubF決策樹未超過2/3的數量,則計算F中所有Auc的標準差值σ,選擇符合Auc≥A-σ條件的決策樹作為待聚類子森林。
將SubF進行聚類處理,把該子森林中所有決策樹的分類結果作為數據集,假設子森林SubF中包含的決策樹數量為P,那么可以得到P個需要進行聚類處理的樣本。聚類處理的初始聚類中心從數據集中隨機選取K個數據,然后計算樣本x與聚類中心的最短距離D(x),利用公式(8)計算樣本被選為聚類中心的概率。
(8)
利用公式(8)進行重復計算,直至聚類中心保持不變,最后可以得到K個聚類中心。利用公式(9)計算不同K值下每個類簇的輪廓系數。
(9)
式(9)中,類簇中所有樣本到樣本i的平均距離可以用ai來表示,最近類簇中所有樣本到樣本i的平均距離可以用bi來表示。假設數據集中存在n個樣本,則數據集整體的輪廓系數可以利用公式(10)得到。
(10)
數據集整體的輪廓系數值在[-1,1]之間,SC=1表示聚類結果最佳,SC=-1表示聚類結果最差。選取最佳類簇中具有代表性的決策樹,將這些決策樹進行組合,生成精度高、相似度低的隨機森林。
1.3 "基于改進隨機森林算法的公路工程安全智能管控云平臺構建
在信息時代,可以借助科學技術對安全管理進行改進。在本次研究中以安全管理數據為基礎,利用人工智能技術中的深度學習對大數據進行挖掘,以此來構建安全智能管控云平臺。
智能管控云平臺的建立主要包括4個邏輯步驟:首先,對安全風險進行識別并獲取數據信息;其次,對工作人員的行為、設備操作和設備運行等進行數據集成與分析;再次,對收集到的安全信息進行智能預警;最后,實現安全管理與應用。安全管理智能云平臺的架構如圖3所示。
在智能云平臺的設計中,將平臺分為了感知層、邏輯層、數據層、功能層和應用層。人工智能技術是識別安全隱患和實現預警的關鍵技術,主要應用于智能平臺的數據層。人工智能分析模塊,對數據層中的安全管理信息進行變量篩選,然后建立數據分析模型。通過模型性能的對比與優化,可以得到準確的分類結果,獲得最優的分類模型。
深度學習技術作為人工智能中的重要組成部分,可以實現對圖像進行自動識別和捕捉,并進行安全隱患的分析及預警,從而避免安全公路施工過程中安全事故的發生。在上述研究中,數據層主要是利用改進的隨機森林算法,對數據進行挖掘分析,所得到的分析結果用于保證功能層和應用層的正常運轉。
2 " 實驗結果和分析
實驗中選擇UCI公開數據集、Bank Marketing數據集、Sonar數據集和Income數據集,用于隨機森林改進算法性能的檢驗。選用準確率、精確率、召回率以及精確率和召回率的比值F值作為評價指標。
2.1 " 兩種隨機森林算法各測試指標對比
兩種隨機森林算法各測試指標對比如表1所示。表1顯示了改進的隨機森林算法和原始的隨機森林算法,在UCI公開數據集、Bank Marketing數據集、Sonar數據集和Income數據集中的各測試指標結果。
由表1可知,在UCI公開數據集中,經過改進的隨機森林算法準確率為88.07%,精確率為86.15%,召回率為88.27%,F值為87.16%,均高于原始的隨機森林算法。在Bank Marketing數據集中,經過改進的隨機森林算法準確率為83.02%、精確率為81.91%,召回率為85.14%,F值為83.53%,均高于原始的隨機森林算法。在Sonar數據集中,經過改進的隨機森林算法準確率為86.36%、精確率為86.25%,召回率為87.57%,F值為86.86%,均高于原始的隨機森林算法。在Income數據集中,經過改進的隨機森林算法準確率為87.67%、精確率為88.17%,召回率為89.49%,F值為88.78%,均高于原始的隨機森林算法。
2.2 "不同數據集中兩種隨機森林算法各測試指標對比
表2中展示了傳統的隨機森林算法和改進的隨機森林算法的決策樹數量、多樣性度量值,以及各算法的運行時間。傳統的隨機森林算法和改進的隨機森林算法的指標對比結果,其中多樣性度量值采用了熵度量作為對比的標準。
2.3 " 真實數據集中安全管理模型性能測試結果
由上述結果可以看出,改進算法的熵度量值較傳統算法均有所增長,且改進算法的規模比傳統算法的規模低。但是對比傳統算法與改進算法的運行時間,可以看到改進的隨機森林算法由于引入了聚類算法,導致改進隨機森林算法的運行時間高于傳統的隨機森林算法,時間開銷較高。利用7個的真實數據集,對安全管理模型進行整體的算法性能測試,結果見圖4。
由圖4可以看出,不同算法建立的安全管理模型預測結果的相對誤差值,傳統隨機森林模型中的相對誤差,均大于改進的隨機森林模型。在數據集4中,改進的隨機森林模型誤差值最小為2.2%,驗證了基于改進隨機森林算法的安全平臺模型具有較好的準確性。
3 " 結束語
在公路工程施工的安全管理研究中,利用改進的隨機森林算法構建安全智能管控云平臺。利用決策樹約簡和聚類分析對隨機森林模型進行優化,在不同的數據集中的測試結果表明,改進算法的平均準確率86.28%、精確率85.62%、召回率87.62%和F值86.58%均高于原始的隨機森林算法。傳統隨機森林模型中的相對誤差均大于改進的隨機森林模型。真實數據集中改進的隨機森林模型誤差值最小為2.2%。改進后的隨機森林算法的分類性能高,模型規模降低,資源消耗減少。但是改進的隨機森林算法運行時間較長,后續研究中可以考慮通過并行設計來減少運行時間的消耗。
參考文獻
[1] 魏麗彬.基于BIM技術的高速公路隧道安全運營管理應用研
究[J].公路交通科技:應用技術版,2019,15(11):234-236.
[2] 吳翚,李昊,姜蘭蘭,等.山區公路安全風險點研判與評價研
究[J].公路,2019,64(6):55-60.
[3] F Rodríguez,Florez-Tapia A M, L Fontán, et al. Very short-
term wind power density forecasting through artificial
neural networks for microgrid control[J]. Renewable
Energy, 2020, 145(C), 1517-1527.
[4] Peth Z, Trk R, Szalay Z. A survey of new orientations in
the field of vehicular cybersecurity, applying artificial
intelligence based methods[J]. Transactions on Emerging
Telecommunications Technologies, 2021, 32(10):1-19.
[5] Lan T, Hu H, Jiang C, et al. A comparative study of decision
tree, random forest, and convolutional neural network
for spread-F identification[J]. Advances in Space Research,
2020, 65( 8):2052-2061.
[6] Tang, Zhipeng, MEI, et al. Identification of the key factors
affecting Chinese carbon intensity and their historical
trends using random forest algorithm[J]. Journal of
Geographical Sciences, 2020, 30(5):56-69.
[7] Xiang B, Zeng C, Dong X, et al. The Application of a Decision
Tree and Stochastic Forest Model in Summer Precipitation
Prediction in Chongqing[J]. Atmosphere, 2020, 11(5):
508-522.