999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

聲吶滲流測量數據降噪的分類模型研究

2021-07-14 01:13:12杜家佳杜國平王永利宋曉峰杜建平
聲學技術 2021年3期
關鍵詞:分類模型

杜家佳,卜 凡,杜國平,,王永利,宋曉峰,杜建平

(1. 南京帝壩工程科技有限公司,江蘇南京210094;2. 南京理工大學,江蘇南京210063;3. 廣西帝壩科技公司,廣西南寧530021)

0 引 言

土木工程建設具有工程規模大、環境條件復雜、施工風險高等特點,在工程事故中因滲漏引起的故事高達62%,造成了巨大的經濟損失和廣泛的社會影響。而究其原由是沒有一種能夠在天然流場下定量定位測量出地下隱蔽工程滲漏缺陷的技術方法[1]。聲吶滲流探測技術作為原創性聲吶滲流測量技術,先后在國內外的百余項各類大中型工程上應用與推廣,得到業界的普遍認可和好評。聲吶滲流探測技術利用聲波在水中的優異傳播特性而實現對水流速度場的測量。如果被測水體存在滲流,則必然在測點產生滲流場,聲吶探測器陣列能夠精細地測量出聲波在流體中能量傳遞的大小,依據聲吶傳感器陣列測量數據的時空分布,即可生成土木工程需要的原位滲流場的滲透流速、滲流方向、滲流量、滲透系數等各種水文地質參數[2],從而對滲流情況進行判斷。然而由于噪聲干擾的存在,會影響對滲流屬性的判斷。因此有必要對滲流波形與噪聲波形進行建模、計算與分類,以計算機的手段與方法快速、準確地識別、分離干擾噪聲以保證對真實滲流的判斷與甄別。

目前對聲吶波形進行分類的研究并不多,效果較好的包括通過傳統波形分析[3-4]以及通過并行網絡[5]、分層網絡[6]、通用回歸網絡(General Regression Neural Network, GRNN)[7]等神經網絡模型的聲吶分類方法。傳統波形分析方法難以在較短的時間內完成對滲流類型的分類,而現有經過屬性標注的真實滲流聲吶波形數據量不足以支撐神經網絡的學習,且神經網絡的可解釋性較差,較難探究聲吶的分類過程。

梯度提升樹(Gradient Boosting Decision Tree,GBDT)[8]是一種基于boosting[9]思想的、泛化能力較強的模型,通過對回歸樹進行梯度增強,可以產生有競爭力的、高度健壯的、可解釋的回歸和分類過程。實驗表明,梯度提升樹模型能夠較好地對滲流的聲吶數據進行分類。

實現聲吶滲流檢測結果分類要求模型有較強的魯棒性。考慮到實際使用時數據的時效性,該模型需要在較短的訓練過程中獲得相對較高的準確率,以便對不同的地區進行針對性判斷。本文出于對屬性標注的滲流聲吶數據特征復雜性、聲吶數據類型多樣性以及噪聲數據干擾普遍性的考慮,提出了基于聲吶聲波與梯度提升樹的聲吶滲流檢測結果分類模型。利用梯度提升樹高靈活性、高魯棒性、高準確率的特性,挖掘水庫滲流與井孔滲流的分類依據并將其與噪聲聲波區分開,最后利用該模型對日常滲流聲吶數據進行自動區分。

1 模型建立

聲吶滲流檢測結果分類模型的任務是對未標注的聲吶數據集進行自動分類,為了實現該目標需要訓練一個自動分類模型,模型的整體結構如圖 1所示。

圖1 聲吶滲流檢測結果分類模型整體結構Fig.1 The overall configuration of the classification model of sonar seepage detection results

該模型可分為以下步驟:(1) 建立樣本集;(2)訓練分類模型。

2 建立樣本集

2.1 聲吶數據信息

用于訓練的滲流的聲吶數據由 2013—2019年間包括廖葉灣和魯地拉水電站等在內不同地區工程的實測波形組成。數據均采用Brüel & Kj?r聲學與振動測量公司的 8104型通用水聽器錄制,采樣精度為16 bit,采樣頻率為 600 Hz。通過屬性標注從中標注出了三類數據共 7 848條,其中包括了2 998條噪聲數據、3 656條井孔滲流數據、1 194條水庫滲流數據。

2.2 聲吶信號預處理

聲吶信號屬于時間序列信號,故利用單位根檢驗(Augmented Dickey-Fuller Test, ADF)對其進行平穩性分析。由單位根檢驗可知用于訓練的聲吶信號為平穩序列,說明其圍繞常數上下波動且范圍有限,有常數均值與常數方差。由于聲吶信號采樣總點數較少,故將其幀長取為1 s。

首先,需去除原始聲吶信號的直流干擾。其次,從時域譜、頻域譜、功率譜與數據特征四個維度共提取出 36維聲吶信號特征。其中,從時域譜提取的特征有平均值、峰差、峭度、偏度、脈沖因子、裕度因子等 15維特征。頻域譜通過快速傅里葉變換(FFT)算法[10]獲得,從頻域譜提取的特征有振幅平均值、振幅峰差、重心頻率、均方頻率、均方根頻率等11維特征。進行功率譜變換時,設聲吶信號s( t)在時間段t∈ [- T / 2,T /2]上用sT( t)表示,且sT( t)的傅里葉變換為FT(ω)= F FT[sT( t )],則功率譜P(ω)的表達式為

從功率譜提取的特征有功率最大值、功率最小值、信噪比等5維特征。從數據特征提取的特征有數據分類、聲道數、采樣總點數等5維特征。圖2為一個聲吶信號及其轉換的不同譜圖。

圖2 一段典型的聲吶信號分析圖Fig.2 A typical sonar signal analysis diagram

由于不同維數據的量綱差距較大,為提高對比實驗精度,對數據進行歸一化處理。本文采用z-score歸一化,表達式為

其中:σ為數據標準差,μ為樣本均值。歸一化后數據的平均值為0,方差為1。

2.3 特征選擇

ReliefF算法[11]改進了Relief算法只能處理二分類特征選擇的問題,使其能夠處理多分類問題,而本文提出的分類模型本質上是一個多分類模型。設聲吶數據集為 D,包含類別為 y,對于實例si,若它屬于第k類,則先在第k類樣本中尋找si的最近鄰si,nh作為猜中近鄰,然后在第k類之外的每個類別的樣本中尋找實例si的最近鄰si,l,nm,作為猜錯近鄰。則相關統計量對應于屬性j的分量表達式為

其中,pl為第l類樣本在聲吶數據集D中所占的比例,diff(a,b)為a與b兩個特征的值的差。

3 訓練分類模型

分類模型的訓練模塊包含預處理模塊、訓練模塊、驗證模塊與輸出模塊四部分,模塊具體內容如圖3所示。

圖3 分類模型訓練模塊Fig.3 Training modules of the classification model

決策樹算法[12]具有良好的時間復雜度與模型易讀性,但容易過擬合。梯度提升樹基于 boosting思想對決策樹算法進行了優化,其核心思想是利用損失函數的負梯度在當前模型的值作為殘差的近似值,本質是對損失函數進行一階泰勒展開,從而擬合回歸樹。

梯度提升樹算法的計算流程如下:

(1) 輸入:

4 實 驗

4.1 實驗環境

實驗環境的操作系統為Windows 10,CPU為Intel i7-7700HQ,RAM大小為16GB。

4.2 實驗結果

4.2.1 特征選擇結果

通過ReliefF算法計算的貢獻權重如圖4所示,可以看出對區分滲流波形貢獻最大的屬性為功率平均值,對分類的貢獻度達到了1.892。較為重要的屬性包括了功率平均值、振幅平均值、振幅峰差、振幅最大值、振幅峰值閾值等。

圖4 ReliefF算法計算出的貢獻權重Fig.4 The contribution weights calculated by ReliefF algorithm

為了選取合適的閾值并驗證 ReliefF算法對結果的影響,對最大樹數量為 5、最大深度為 5、學習率為 0.1的梯度提升樹分別取不同閾值進行訓練,訓練數據集包括1 000條噪聲數據、1 000條井孔滲流數據、1 000條水庫滲流數據。閾值分別取0、0.2、0.4、0.6進行訓練,從準確率、總時間、每千行訓練時間進行比較,結果如表1所示。

表1 不同閾值對算法結果的影響Table 1 The influence of different thresholds on the algorithm results

從表1能夠看出,由于選取了更少的屬性,隨著閾值的增加,訓練消耗的總時間在不斷降低。準確率在閾值取0.2時達到最大,之后隨著閾值的增大而減小。綜合以上考慮,選擇0.2為篩選ReliefF權重的閾值,去除6個屬性,用排名前30的數據進行訓練。

4.2.2 模型比較

不同模型的性能如表2所示,其中Marco-P為宏查準率,Marco-R為宏查全率,Marco-F1為宏F1值,這三者皆為多分類任務的評價指標。效果較好的模型包括梯度提升樹模型、樸素貝葉斯模型、廣義線性模型。由于樸素貝葉斯模型假設屬性之間相互獨立,故理論上準確率較高,但實際情況并非如此,主要因為聲吶不同屬性之間具有一定的相關性;廣義線性模型對數據獨立性要求較高,不獨立的數據易導致標準差偏小,從而獲得較高的理論準確率,但模型在實際使用時的準確率遠低于理論準確率。而與梯度提升樹模型相比,邏輯回歸模型、快速大邊界模型、決策樹模型的各項指標較低。綜上所述,梯度提升樹模型在各項性能指標上均有較好的表現,說明本文提出的模型在聲吶滲流檢測結果分類方面具有良好的效果。

表2 不同模型的性能指標Table 2 Performance metrics of different models

4.2.3 模型分析

對得到的GBDT模型進行分析,可知不同屬性對模型的貢獻度不同,具體比例如圖5所示。其中功率中位數占模型貢獻度的 38.80%,振幅最大值占比 25.55%,時域整流平均值貢獻占比 18.65%,振幅中位數貢獻占比7.01%,其他屬性對模型貢獻度占比共為7%。

圖5 不同屬性對GBDT模型的貢獻度Fig.5 The contribution of different attributes to GBDT model

功率中位數是聲吶信號功率譜的直接體現;振幅最大值與振幅中位數可以較為準確地刻畫出聲吶信號頻譜的振幅;時域整流平均值是聲吶信號絕對值積分的平均值,能夠較好地表現出聲吶信號的時域的變化。利用決策樹模型對上述屬性進行分析,結果如圖6所示,其中rl為水庫滲流,pl為小孔滲流。

圖6 GBDT模型分析過程Fig.6 Analysis procedure of GBDT model

綜合看來,當閾值設置為0.384時,時域整流平均值能夠區分水庫滲流波形與其他兩類滲流波形,其分布情況如圖7所示;當閾值設置為0.005時,振幅中位數能夠大致區分井孔滲流波形與噪聲波形,其分布情況如圖8所示。

由圖7與圖8可知,利用以上屬性作為GBDT模型的分類指標具有較高的可信性,能夠較好地區分三類波形。

圖7 時域整流平均值分布情況Fig.7 The distribution of rectified mean values

圖8 振幅中位數分布情況Fig.8 The distribution of the median amplitudes

5 結 論

本文提出了基于聲吶信號與梯度提升樹的聲吶滲流檢測結果分類模型。通過提取聲吶數據的特征,對特征進行數據清洗與歸一化,再利用ReliefF算法選取貢獻權重大的特征,最后利用數據集訓練出用于區分水庫滲流、井孔滲流與噪聲的梯度提升樹模型。該模型在訓練效率及分類精度方面有較好的表現。隨著研究工作的深入和工程應用領域的擴大,我們將在更大的范圍內采集到更多的工程應用聲吶數據,在積累到一定程度后,嘗試利用更好的大數據原解析手段與方法,使得聲吶滲流測量技術的準確性、可靠性和抗干擾能力獲得更大的提高,為眾多滲流工程的風險控制與創新管理作出貢獻。

致謝 感謝南京理工大學計算機工程學院為本文研究提供的技術支持。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 久久96热在精品国产高清| 国产日韩欧美精品区性色| 九九热视频在线免费观看| 狠狠色噜噜狠狠狠狠色综合久| 亚洲精品男人天堂| 午夜a视频| 欧美午夜视频在线| 在线观看国产精品第一区免费| 视频一区视频二区中文精品| 国产精品女人呻吟在线观看| 亚洲精品图区| 亚洲丝袜中文字幕| 久久精品国产精品青草app| 看你懂的巨臀中文字幕一区二区| 亚洲伊人久久精品影院| aaa国产一级毛片| 亚洲av无码久久无遮挡| 偷拍久久网| 色精品视频| 亚洲性影院| 青草国产在线视频| 国产美女一级毛片| 3344在线观看无码| 国产综合精品一区二区| 久久www视频| 欧美精品不卡| 欧美日韩另类国产| 国产高清在线丝袜精品一区| 精品久久蜜桃| 色天天综合| 欧美亚洲国产精品久久蜜芽| 亚洲国产精品无码AV| 亚洲综合婷婷激情| 黄色福利在线| a级毛片免费看| 在线一级毛片| 一级毛片免费高清视频| 亚洲人成人伊人成综合网无码| 制服无码网站| 黑色丝袜高跟国产在线91| 亚洲最大福利视频网| 久久国产毛片| 欧美日韩精品一区二区视频| 深夜福利视频一区二区| 婷婷伊人久久| 青青草一区| 亚洲综合天堂网| 99精品久久精品| 九色免费视频| 亚洲精品国产精品乱码不卞| 人妻91无码色偷偷色噜噜噜| 国产精品欧美激情| 国产成年无码AⅤ片在线| 日韩精品无码免费专网站| 91精品在线视频观看| 国产亚洲欧美日韩在线一区| 成人伊人色一区二区三区| 免费国产一级 片内射老| 中文字幕在线播放不卡| 欧美在线国产| 国产成人无码Av在线播放无广告| 激情综合激情| 亚洲成年网站在线观看| 欧美在线网| 国产精彩视频在线观看| 99视频在线免费观看| 欧美日韩国产综合视频在线观看| h网站在线播放| 国产91精品久久| 国产乱人免费视频| 亚洲色图欧美视频| 素人激情视频福利| 亚洲精品视频免费| 99热这里只有免费国产精品 | 欧美福利在线| 日本国产精品| 亚洲日本精品一区二区| 全裸无码专区| 婷婷色狠狠干| 最近最新中文字幕在线第一页| 成年人国产视频| 欧美成人看片一区二区三区|