



摘要:為提高公路工程中大量試驗檢測數據異常點的識別效率和準確性,提出采用“人工干預+檢驗模型”的異常點處理方法。通過基于領域+基于概率+基于線性+基于集成等4種類型算法對比后篩選初始模型,利用LSCP集成思路對初選模型進行集成運算,對檢測數據集實現二次分類,提升模型檢測的準確性和魯棒性,對模型集成處理方法的有效性進行檢驗。結果表明,該模型能夠使異常點識別查準率和靈敏度分別達到99.65%和96.99%,檢測性能遠高于其他單一算法。將該模型算法應用到云南某高速公路隧道涌水事故的監測數據檢測,平均準確率為98.55%,表明該算法具有很好地異常檢測效果。
關鍵詞:公路工程;檢測數據;模型集成;異常點識別;準確率
中圖分類號:TP274文獻標識碼:A文章編號:1001-5922(2025)01-0157-04
A method for identifying outliers in massive engineering detection data based on model integration
DENG Aimin,NIE Liangpeng,LI Zhengyuan,XU Peng,FANG Shaobing
(Yunnan Tongqu Engineering Testing Co.,Ltd.,Kunming 650011,China)
Abstract:In order to improve the efficiency and accuracy of identifying outliers in a large amount of experimental detection data in highway engineering,an anomaly processing method“manual intervention+inspection model”was proposed.Through the comparison of four types of algorithms,including domain-based+probability-based+lin?ear-based+ensemble-based,the initial model was screened,and the LSCP ensemble idea was used to perform en?semble operation on the primary model,so as to realize the secondary classification of the detection dataset,improve the accuracy and robustness of model detection,and test the effectiveness of the model ensemble processing meth?od.The results showed that the model can achieve accuracy and sensitivity of outlier identification to 99.65%and 96.99%,respectively,and the detection performance is much higher than that of other single algorithms.The model algorithm was applied to the monitoring data detection of water inrush accident in a highway tunnel in Yunnan,and the average accuracy was 98.55%,indicating that the algorithm has a good anomaly detection effect.
Key words:highway engineering;detection data;model integration;identification of abnormal points;accuracy
在公路工程建設過程中,為確保工程質量和安全,需要進行大量的變形、位移、沉降、裂縫、強度、滲透等監測,在這些海量監測數據中,難免會存在一些異常點,這些異常點的存在往往可能會誤導設計和施工參數的確定,危及工程建設質量和安全[1-3]。根據不同領域的需要,開發出了多種類型的異常值檢測算法,如基于鄰域的異常點檢測算法[4]、基于概率的異常點檢測算法[5]、基于線性的異常點檢測算法[6]、基于集成的異常點檢測算法[7]等。然而工程監測受天氣等外力影響較大,在采用單一算法時,需要根據趨勢變化對模型進行不斷的訓練調整,才能獲得較高的識別精度,但這樣會浪費大量的資源[8-9]。因此,研究提出“人工干預+檢驗模型”的異常點處理方法,將基于領域的異常點檢測算法、基于概率的異常點檢測算法、基于線性的異常點檢測算法、基于集成的異常點檢測算法等多種類型算法進行集成,從而提高異常值的檢測精度,更好地為工程建設服務。
1算法簡介
數據異常點檢測算法根據原理可以劃分為基于鄰域的異常點檢測算法、基于概率的異常點檢測算法、基于線性的異常點檢測算法、基于集成的異常點檢測算法等多種類型。其中,基于領域的異常點檢測算法核心思想為:異常點與內點分布存在差異,因此異常點所在的區域密度低或者與內點的距離很遠,采用鏈接距離或者歐幾里得距離來選擇最近的鄰居,從而實現異常點的檢驗,屬于這類算法的有K最近鄰算法(KNN)、局部異常因子算法(LOF)和基于連接的異常值因子算法(COF)等。基于概率的異常點檢測算法核心思想為:假定數據樣本服從某種概率模型,通過檢查數據偏離樣本均值的程度來檢測數據集的異常點,為了應對不同大小數據集和不同維度數據集的使用需求,當前最常用的2種基于概率的異常檢測算法分別為基于角度的離群點檢測(ABOD)和基于copula函數的離群點檢測算法(COPOD)。基于線性的異常點檢測算法的核心思想是通過數據間映射關系來檢測數據的異常值,常用的屬于這一類算法的模型包括基于最小協方差行列式算法(MCD)和單類基于向量機的算法(OCSVM)。基于集成的異常點檢測算法的核心思想是結合不同檢測器或者是監測算法的檢測結果重新生成更穩健的算法模型,然后減少某個模型對特定數據位置的依賴性,從而獲得異常值,屬于這類算法模型的有孤立森林算法(IForest)和并行異常值集合的局部選擇性組合算法(LSCP)。
2模型集成檢測算法構建過程
2.1初始模型選取
由于算法類型眾多,模型集成不可能囊括所有算法,否則會造成模型集成計算量過大,影響異常點的檢測效率,因此有必要在眾多模型中選取最合適的算法來進行模型集成。隨機選用UCI數據集中17組不同類型數據集,然后分別用不同算法對這17組數據集進行異常值檢測,計算得到不同算法在17組數據集上的變動率(ROC)值,結果見表1。
由表1可知,9種算法模型在17種數據集下,均沒有任何模型表現持續穩定,每種算法在某些數據下總有表現較差的現象,9種算法的平均ROC,按表現優劣排列依次為Iforest、MCD、OCSVM、COPOD、KNN、ABOD、LSCP、LOF、COF,Iforest算法檢測穩定性最好。按同種類型算法檢測效果對比,對于KNN、LOF和COF算法,KNN的檢測效果最好,因此基于鄰域異常點檢測算法宜優先選擇KNN算法;對于ABOD和COPOD算法而言,COPOD的檢測穩定性更好,故基于概率的異常點檢測算法宜優先選擇COPOD算法;對于MCD和OCSVM算法,OC?SVM算法更加穩定,故基于線性的異常點檢測算法宜優先選擇OCSVM算法;對于Iforest和LSCP算法,Iforest算法表現更加穩定,故基于集成的異常點檢測算法宜優先選擇IForest算法。
2.2初分類
通過模型檢測效果對比,篩選出了KNN、CO?POD、MCD和Iforest 4種算法進行模型集成訓練,從而提高異常點的檢測準確性。為檢驗初選模型的有效性,利用上述4種模型對UCI中的shuttle數據集進行異常點檢測,該數據集包含正常數據點45 586個和異常數據點3 511個。
4種初選算法模型中,KNN模型相比其他3種模型,檢測結果與實際結果最為接近,其他3種算法的檢測結果相同,4種模型的檢測結果均為有效。
2.3偽標簽訓練
為了進一步提高檢測的準確性,需要對上述4種分類結果進行整合。采用投票規則對4種模型的正常點和異常點進行投票,出現4∶0、3∶1和2∶2投票比例結果,由于工程檢測數據的正常點遠多于異常點,且正常點在后續工程建設中還需要進一步分析和利用,故在定義正常點時,需要比較嚴苛的標準,確保無監督條件下的檢測盡可能準確。將4種模型檢測結果均為正常點的點劃分到正常點D1(即正常點投票比例為4∶0),而對異常點投票比例為4∶0、3∶1和2∶2投票結果的點進行二次劃分,劃分為異常點D2和人工規則之外的未被歸類的中間點集D3,從而完成對工程檢測數據集的二次劃分,構造偽標簽數據集。然后再根據偽標簽數據集情況,將正常點和異常點按照6∶4的比例劃分為訓練集和測試集,并采用LSCP并行集成方式將KNN、CO?POD、MCD和Ifores這4種模型進行集成[10],對不同異常點投票比例下的偽標簽數據集進行異常檢測,檢測結果見表2。
2.4再分類
通過LSCP并行集成算法繼續對中間點D3進行再次分類,分離出異常點和正常點,在人工干預情況下,經過2次篩選,最終得到正常點D正和異常點D異,見表3。
由表3可知,在不同投票比例下,當投票安排比例為2∶2時,D正和D異與實際情況最為接近,故模型集成投票比例選擇為2∶2。
將所提模型集成檢測效果與其他9種算法模型的檢測效果進行對比,結果可知,無論從檢測精確率還是檢測靈敏度來講,所提集成模型均較其他9種單一模型高,表明集成模型檢測效果優異,在實際海量工程檢測數據應用時,能夠最大程度提高異常檢測數據的準確,對于工程建設而言意義重大。
3模型集成算法應用
3.1案例背景
某高速公路工程全長42.76 km,橋隧占比達到42.7%,其中某特長隧道工程全長4.27 km,分為左右兩線,設計形式為分離式小凈距,隧道寬度為10.75 m,隧道高度為5 m,隧道設計高程為317.05~303.9 m,隧道頂部距地面最小距離為90 m。隧道穿越區主要地層巖性為粉質粘土、卵石、飄石等和殘坡積層砂質粘土,下伏基巖巖性主要以片麻巖和石英巖為主,巖體分布全風化、強風化、中風化和微風化,地下水埋藏較淺,地下水豐富。隧道周邊大部分民房為土坯房和簡易磚混房,年久失修,多數存在不同程度的原生裂縫,且居民生活、生產用水以周邊地表和溪流水為主。
隧道右線開挖至DK2+838掌子面時,出現大量滲水涌水,涌水口直徑從0.15 m注漿擴大至0.8 m,涌水量1 000~1 300 m3/h。在涌水發生過程中,引發了隧道周邊地層發生沉降塌陷、房屋開裂、地表水干涸以及農田損壞等多種次生災害。根據現場地勘情況,確認了本次涌水潛在影響區為掌子面前方即左右兩側約100~800 m;在現場總共劃出了A、B、C 3個監測區,在3個監測區內共布置了23個監測點,監測參數包括地表變形、地基沉降、裂縫和水位,監測期間共獲得10 949個地表變形、10 008個地基沉降、3 347個裂縫和1 317個水位監測樣本數據。
3.2異常檢測過程
首先,分別利用KNN、COPOD、MCD和Iforest 4種算法對4種監測樣本數據集進行異常檢測,然后按照正常點投票比例4∶0,異常點投票比例2∶2的篩選規則對數據集進行初次劃分;然后將數據集劃分為正常點集D1、異常點集D2和中間點集D3,得到偽標簽數據集,接著再通過LSCP并行集成框架將4種模型進行集成;然后,將所有中間點集D3再次進行劃分,最后將2次劃分得到的正常點和異常點數量相加,得到最終的檢測結果,見表4。
由表4可知,采用集成模型檢測得到的地表變形正常點和異常點分別為10 106個和843個,異常點占比為7.7%;地基變形正常點和異常點分別為9 179個和829個,異常占比為8.3%;裂縫正常點和異常點分別為3 030個和317個,異常點占比為9.5%;水位正常點和異常點分別為1 165個和152個,異常點占比為11.5%。將檢測結果與實際結果進行對比,地表變形、地基沉降、裂縫和水位的檢測準確率分別為99.14%、98.94%、99.01%和97.11%,平均準確率為98.55%。可見,本文提出的集成模型能夠很好地完成海量工程檢測數據的異常檢測工作。
4結語
(1)利用9種不同類型算法對UCI中隨機17種數據集進行檢測,得到9種算法的ROC值排序為If?orest、MCD、OCSVM、COPOD、KNN、ABOD、LSCP、LOF、COF,分別選取基于鄰域KNN、基于概率CO?POD、基于線性MCD和基于集成Iforest算法來構建集成模型;
(2)利用篩選出的4種算法模型首先對數據集進行初分類,再通過LSCP并行集成方式對模型進行集成和二次分類,將二次分類得到的數據點相加,獲得最終檢測分類結果,結果表明本文提出的基于集成模型的異常點檢測查準率和靈敏度均高于其他單一算法模型,具有較高的異常點檢測潛力;
(3)將集成模型應用到某高速公路隧道工程涌水事件監測的異常檢測中,異常值平均檢測正確率達到98.55%,檢測效果優異。
【參考文獻】
[1]王晨陽,張子新,黃昕,等.地下工程多時間序列監測數據異常檢測算法[J].現代隧道技術,2022,59(S1):171-179.
[2]郭松,尹曉星,李福平,等.基坑沉降監測小樣本數據非等間距灰色建模與應用[J].工程勘察,2022,50(3):67-71.
[3]尤辰汀.基于數據特征分析的污染源監測數據異常值識別方法研究[J].環境科學與管理,2023,48(2):133-138.
[4]劉意,毛鶯池,程楊堃,等.基于鄰域一致性的異常檢測序列集成方法[J].計算機科學,2022,49(1):146-152.
[5]郭鵬.基于概率的網絡異常數據流的檢測方法[J].新鄉學院學報,2021,38(6):43-46.
[6]徐勝超,宋娟,潘歡.基于線性回歸與最小二乘法的物理主機狀態異常檢測方法[J].計算機與現代化,2021(5):105-111.
[7]莊銳,張浩.基于平均特征重要性和集成學習的異常檢測[J].計算機系統應用,2023,32(6):60-69.
[8]楊碎明,曹雅蓉.基于集成分類器的網絡異常流量特征選擇模型[J].自動化技術與應用,2022,41(4):34-37.
[9]鄺萌,李英娜,李川,等.基于多模型融合Stacking集成學習的異常用電檢測方法研究[J].電力科學與工程,2021,37(3):23-29.
[10]陳江雨,李培強,鐘吳君.基于多模型并行集成框架的風電功率異常數據識別[J].電力系統及其自動化學報,2023,35(11)133-142.
(責任編輯:平海,蘇幔)