





















摘 要: 建筑墻體瓷磚粘貼空鼓的敲擊檢查方法是目前無(wú)損檢測(cè)中應(yīng)用最多的檢測(cè)方法。為實(shí)現(xiàn)對(duì)復(fù)雜敲擊位置下的識(shí)別和智能化檢測(cè),使用敲擊法獲取空鼓聲音信號(hào),提取連續(xù)小波變換(CWT)時(shí)頻圖和梅爾倒譜系數(shù)(MFCC)等時(shí)序特征。設(shè)計(jì)輕量化注意力CNN?Transformer雙分支網(wǎng)絡(luò)GATRNet,提出一種基于門控機(jī)制的特征融合模塊,對(duì)CWT時(shí)頻圖和融合時(shí)序特征分別提取深度特征并進(jìn)行融合。試驗(yàn)結(jié)果表明,所提方法測(cè)試精度可達(dá)99.10%,特征融合模塊能夠充分融合多種特征;相較于機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)識(shí)別方法,GATRNet在面對(duì)復(fù)雜敲擊位置的聲音時(shí),多樣性評(píng)價(jià)指標(biāo)明顯較優(yōu)異。
關(guān)鍵詞: 雙分支網(wǎng)絡(luò); 瓷磚粘貼空鼓檢測(cè); 特征融合; 敲擊法; 聲音識(shí)別; 深度學(xué)習(xí)
中圖分類號(hào): TN919?34; TU17 " " " " " " " " " " 文獻(xiàn)標(biāo)識(shí)碼: A " " " " " " " " " " 文章編號(hào): 1004?373X(2024)18?0163?09
Fused feature based CNN?Transformer algorithm for empty drum detection of
pasting tile in exterior wall
ZHAO Xiang1, DING Yong1, LI Denghua2
(1. Faculty of Physics, Nanjing University of Science and Technology, Nanjing 210094, China; 2. Nanjing Hydraulic Research Institute, Nanjing 210021, China)
Abstract: At present, the percussion inspection method for empty drum detection of the pasting tile in exterior wall is the most widely used non?destructive testing method. In order to recognition and intelligent detection under complex tapping positions, the tapping method is used to obtain empty drum sound signals, extract time?frequency maps of continuous wavelet transform (CWT) and time?series features such as Mel frequency cepstral coefficients (MFCC). A lightweight attention CNN?Transformer two branch network GATRNet is designed, a feature fusion module based on gating mechanism is proposed, and deep features are extracted from CWT time?frequency maps and fused temporal features separately, and perform fusion. The testing results show that the testing accuracy of the proposed method can reach 99.10%, and the feature fusion module can fully integrate multiple features. In comparison with the machine learning and neural network recognition methods, GATRNet has significantly better diversity evaluation indicators when facing complex tapping positions of sound.
Keywords: two branch network; pasting tile empty drum detection; feature fusion; percussion method; sound recognition; deep learning
0 "引 "言
建筑墻體瓷磚粘貼空鼓是墻面問題中最常見的,空鼓的存在會(huì)導(dǎo)致該區(qū)域與基底面產(chǎn)生內(nèi)力變化,且受偶然荷載作用會(huì)造成空鼓區(qū)域脫落,特別是高層建筑的空鼓脫落會(huì)產(chǎn)生巨大的安全隱患。因此,如何對(duì)建筑外墻內(nèi)部空鼓進(jìn)行智能化識(shí)別已經(jīng)成為一個(gè)重要研究方向。黃繼忠等將超聲波成像儀應(yīng)用于文物外墻圍護(hù)結(jié)構(gòu)空鼓成像[1],胡媛馨等證明空鼓和非空鼓區(qū)域敲擊聲音存在區(qū)別[2],王俊偉等利用墻面敲擊聲音振動(dòng)特性判別空鼓情況[3],孫牽宇等建立墻體空鼓缺陷模型[4],袁林等利用VMD檢測(cè)木材內(nèi)部空鼓[5]。雖然國(guó)內(nèi)已有學(xué)者對(duì)空鼓聲音信號(hào)識(shí)別有了一定研究,但識(shí)別方法在人工智能領(lǐng)域內(nèi)的應(yīng)用依然較少。敲擊空鼓檢測(cè)是一種聲音識(shí)別技術(shù),深度學(xué)習(xí)的音頻分類的精度已被證明優(yōu)于使用GMM、HMM以及SVM等傳統(tǒng)方法的系統(tǒng)[6]。目前,神經(jīng)網(wǎng)絡(luò)識(shí)別聲音的第一步是選擇適當(dāng)?shù)囊纛l特征,但直接使用音頻信號(hào)并沒有提高分類識(shí)別精度[7]。李大鵬等使用Log?Mel圖實(shí)現(xiàn)鳥聲識(shí)別[8]。謝旭康等利用時(shí)序卷積神經(jīng)網(wǎng)絡(luò)(TCN)來(lái)加強(qiáng)神經(jīng)網(wǎng)絡(luò)對(duì)位置信息的捕捉,并通過(guò)Transformer結(jié)合時(shí)序特征分類(CTC)實(shí)現(xiàn)端到端的語(yǔ)音識(shí)別[9]。付忠廣等利用Vision?Transformer結(jié)合音頻時(shí)序特征對(duì)旋轉(zhuǎn)機(jī)械進(jìn)行故障診斷[10]。劉思思等選取優(yōu)化梅爾倒譜系數(shù)作為特征,對(duì)車窗電機(jī)異常噪聲進(jìn)行識(shí)別[11]。王天銳等利用MFC對(duì)環(huán)境聲音進(jìn)行識(shí)別[12]。信號(hào)特征的選取對(duì)于分類模型的性能至關(guān)重要,提取原始聲信號(hào)的相關(guān)聲音特征,包括Zero Crossing Rate、Energy和頻域特征梅爾倒譜系數(shù)(MEL Frequnency Cepstrum Coefficients, MFCC)、Chroma、Bandwidth、Spectral?centriod、Spectral?contrast、Spectral?rolloff、Spectral?flatness。這些聲音特征在近些年的語(yǔ)音識(shí)別、故障診斷、損傷監(jiān)測(cè)、醫(yī)療診斷等領(lǐng)域均被廣泛應(yīng)用[13?15]。
綜上所述,為了充分利用空鼓敲擊聲音的多特征,提高空鼓識(shí)別準(zhǔn)確率,本文提出一種門控特征融合機(jī)制的雙分支神經(jīng)網(wǎng)絡(luò)GATRNet(Ghost Attetion Two Brunch with Transformer),以聲音多特征作為模型輸入, 同時(shí)利用Ghost和CBAM來(lái)減小網(wǎng)絡(luò)參數(shù)量[16],并利用Transformer[17]對(duì)融合特征進(jìn)行提取,最后完成空鼓聲音檢測(cè)。
1 "本文算法
1.1 "聲音特征提取
特征提取是在保留可有效用于語(yǔ)音分類任務(wù)的相關(guān)信息的同時(shí)降低維度的過(guò)程。本研究涉及從語(yǔ)音信號(hào)中提取時(shí)序特征和圖像特征。表1為時(shí)序特征簡(jiǎn)述,表2為時(shí)序特征的主要計(jì)算公式。通過(guò)連續(xù)小波變換(Continues Wave Transform, CWT)獲得時(shí)頻圖特征。
表2中:設(shè)[b1]、[b2]為頻帶邊界;[fk]單位為Hz;[sk]為頻譜值;η取0.95;x[n]為信號(hào)點(diǎn);sgn為符號(hào)函數(shù)。
聲音特征向量是通過(guò)librosa提取,聲音特征主要包括MFCC、Chroma、Contrast、Zero Crossing Rate、Bandwidth、Flatness、Centriod、Rolloff、Energy,維度分別為13、12、7、1、1、1、1、1、1。級(jí)聯(lián)特征拼接示意圖如圖1所示。文獻(xiàn)[18]對(duì)大量聲音分類系統(tǒng)和聽覺特征進(jìn)行分析對(duì)比后發(fā)現(xiàn),融合特征在聲音識(shí)別中效果要優(yōu)于單一特征。對(duì)音頻特征進(jìn)行線性疊加會(huì)導(dǎo)致分類精度降低[19],因此,采用均值方差標(biāo)準(zhǔn)化處理數(shù)據(jù),拼接后的特征維度為38。
空鼓敲擊聲信號(hào)是一種非平穩(wěn)隨機(jī)信號(hào),文獻(xiàn)[20]中發(fā)現(xiàn)CWT對(duì)非平穩(wěn)隨機(jī)信號(hào)的識(shí)別有著良好的作用。與一維時(shí)間信號(hào)相比,時(shí)頻圖能更細(xì)致、全面地反映信號(hào)的特征。選取Morlet小波基函數(shù),尺度范圍選擇(1,268)進(jìn)行連續(xù)小波變換,得到CWT時(shí)頻圖。
[ψ(t)=(π?Fb)-0.5?e2?i?π?Fc?t?e-t2FbWT(τ,a)=1a-∞+∞x(t)φ((t-π)a)dt] " " (1)
式中:[Fb]是帶寬因子;[Fc]是中心頻率因子;a是尺度因子,表示與頻率相關(guān)的縮放;τ為平移因子。τ和a共同決定了時(shí)頻域中小波窗口的位置[21]。
1.2 "GATRNet原理
1.2.1 "GA模塊
由于卷積操作在大規(guī)模數(shù)據(jù)和深度網(wǎng)絡(luò)中會(huì)造成特征圖冗余,故本文通過(guò)Ghost卷積操作[22]、SENet[23]、CBAM[24]來(lái)解決特征圖冗余的問題。GA(GhostModule+Attention)模塊中,特征圖首先通過(guò)SENet分配通道權(quán)重,然后經(jīng)過(guò)Ghost卷積提取深度特征,再經(jīng)過(guò)激活函數(shù)和CBAM,并結(jié)合殘差連接來(lái)增強(qiáng)特征。
1.2.2 "GFusion特征融合模塊
常見的特征融合方法包括Concat拼接和Add逐元素相加等[25]。而本文提出一種基于門控機(jī)制的特征融合模塊。在融合過(guò)程中,首先通過(guò)Concat操作將兩部分特征連接,再利用Sigmoid的前饋神經(jīng)網(wǎng)絡(luò)獲得可學(xué)習(xí)的權(quán)重系數(shù),然后將權(quán)重系數(shù)與兩部分特征相乘,得到融合特征向量。特征融合過(guò)程如圖2所示。
[f[i]=j=1len(I)+len(s)ci,jW[i]=σi=1NWi,j?j=1len(I)+len(s)ci,j+biF[i]=i=1Nwi?fi] " "(2)
式中:I和s分別是圖像深度特征和時(shí)序深度特征的長(zhǎng)度;[ci,j]代表逐個(gè)元素;σ為激活函數(shù)。
1.2.3 "Transformer編碼網(wǎng)絡(luò)
Transformer引入多頭注意力機(jī)制,能夠讓模型以多種不同的Q、K、V進(jìn)行注意力計(jì)算,并通過(guò)線性連接操作融合多頭注意力機(jī)制結(jié)果。本文主要是采用Transformer編碼器架構(gòu)對(duì)音頻時(shí)序組合特征進(jìn)行處理。
1.3 "GATRNet結(jié)構(gòu)
本文提出的GATRNet結(jié)構(gòu)如圖3所示。
GATRNet以CWT時(shí)頻圖和級(jí)聯(lián)聲學(xué)特征作為輸入,通過(guò)Transformer編碼器網(wǎng)絡(luò)提取時(shí)序深度特征,再將兩部分特征經(jīng)GFusion模塊融合,最后融合特征通過(guò)Transformer處理。雖然多頭注意力機(jī)制能夠同時(shí)兼顧局部特征和時(shí)間上下文特征,但是相較于CNN,其捕捉局部信息的能力較弱,因此本文提出的網(wǎng)絡(luò)彌補(bǔ)了Transformer在局部信息捕捉上的不足。
2 "試驗(yàn)部分
2.1 "空鼓音頻信號(hào)采集
試驗(yàn)所用瓷磚為普通陶瓷瓷磚,基底面采用水泥砂漿,試塊由C30混凝土制作。粘貼瓷磚是邊長(zhǎng)為20 cm的正方形,通過(guò)控制空鼓面積占瓷磚總面積的比例來(lái)制作其他試塊。空鼓試塊制作如圖4所示。表3是試塊數(shù)量統(tǒng)計(jì)。
空鼓音頻采集設(shè)備主要由耳機(jī)、麥克風(fēng)、敲擊金屬錘構(gòu)成。通過(guò)敲擊建筑外墻空鼓區(qū)域和非空鼓區(qū)域來(lái)及時(shí)采集聲音。圖5所示為空鼓聲音振動(dòng)信號(hào)采集裝置。將敲擊位置分為A、B、C三種,分別對(duì)應(yīng)邊緣、中部、角點(diǎn)。空鼓(hollow)敲擊位置按照敲擊長(zhǎng)度6~12 cm進(jìn)行敲擊,用麥克風(fēng)錄制敲擊聲音。樣本統(tǒng)計(jì)如表4所示,本試驗(yàn)所采用空鼓聲音信號(hào)均為單次敲擊。采集樣本為800個(gè),其中空鼓樣本為600個(gè),非空鼓樣本為200個(gè)。為防止過(guò)擬合現(xiàn)象,進(jìn)行采樣數(shù)據(jù)增強(qiáng),增強(qiáng)后樣本為1 900個(gè),其中空鼓樣本為1 500個(gè),非空鼓樣本為400個(gè)。取測(cè)試樣本為100個(gè),其中空鼓測(cè)試樣本為60個(gè),非空鼓測(cè)試樣本為40個(gè)。
圖6為不同敲擊距離與位置的波形圖與時(shí)頻圖。由圖6可見,在相同的敲擊能量條件下,隨著敲擊力度的增強(qiáng),空鼓的中高頻能量的耗散會(huì)減慢,而非空鼓區(qū)域的高頻能量耗散會(huì)加快。空鼓與非空鼓區(qū)域在敲擊力度大的時(shí)候能耗變化比較明顯。在敲擊角點(diǎn)和敲擊邊緣的空鼓受非空鼓區(qū)域的干擾,呈現(xiàn)的時(shí)頻特征圖中,低頻能量無(wú)明顯差異,邊緣敲擊能量耗散要比角點(diǎn)敲擊能量慢。本文采取級(jí)聯(lián)時(shí)序特征,現(xiàn)將級(jí)聯(lián)時(shí)序特征通過(guò)特征可視化,如圖7所示。從圖7得出,級(jí)聯(lián)特征可視化空鼓區(qū)域和非空鼓區(qū)域二者的數(shù)值差異非常明顯。因此,通過(guò)級(jí)聯(lián)時(shí)序特征能夠彌補(bǔ)上述時(shí)頻圖特征因敲擊位置和敲擊力度造成的時(shí)頻圖差異不明顯的缺陷。
2.2 "音頻數(shù)據(jù)增強(qiáng)
音頻數(shù)據(jù)增強(qiáng)旨在增加訓(xùn)練數(shù)據(jù)的多樣性,有助于模型更好地泛化到未見過(guò)的數(shù)據(jù)。常用的音頻數(shù)據(jù)增強(qiáng)方法主要有噪聲添加、時(shí)間拉伸壓縮、隨機(jī)混響、語(yǔ)速變化頻譜增強(qiáng)、時(shí)移等。本文方法主要采用時(shí)間拉伸壓縮、添加高斯噪聲和時(shí)移。
[y(t)=x(αt)y=x(t)+β?ε(t)] " " " "(3)
式中:[α]為1.3;[ε(t)]為高斯噪聲函數(shù)。圖8a)是原始波形圖,圖8b)是添加噪聲波形圖,圖8c)是時(shí)移波形圖,圖8d)是時(shí)間壓縮波形圖。
2.3 "試驗(yàn)環(huán)境
本試驗(yàn)采用Python 3.9?PyTorch框架,音頻預(yù)處理以及特征提取采用librosa庫(kù)操作。硬件條件:CPU采用Intel?i5,GPU采用RTX2050,顯存為4 GB。訓(xùn)練參數(shù)設(shè)置中batchsize為16,學(xué)習(xí)率設(shè)置為1×10-5,損失函數(shù)采用交叉熵?fù)p失函數(shù)。對(duì)每一個(gè)試驗(yàn)均使用經(jīng)過(guò)數(shù)據(jù)增強(qiáng)后的數(shù)據(jù)集。本文主要貢獻(xiàn)是融合特征、基于CNN?Transformer的GATRNet結(jié)構(gòu)。因此,首先對(duì)比了三種主流信號(hào)特征訓(xùn)練神經(jīng)網(wǎng)絡(luò)的效率,其次探討了本文的融合特征與融合聲音時(shí)頻域特征的分類性能以及本文方法的抗噪聲干擾能力,最后進(jìn)行現(xiàn)場(chǎng)測(cè)試。
2.4 "評(píng)價(jià)指標(biāo)
評(píng)價(jià)指標(biāo)采用準(zhǔn)確率、精確率、召回率、F1。準(zhǔn)確率是所得結(jié)果與真實(shí)數(shù)值或事實(shí)間的接近程度;精確率是指在所有被模型預(yù)測(cè)為正類別的樣本中,實(shí)際上是正類別的比例;召回率是指在所有實(shí)際為正類別的樣本中,被模型正確預(yù)測(cè)為正類別的比例;F1是精確率和召回率的調(diào)和平均數(shù),用于綜合考慮兩者的性能。各指標(biāo)公式見表5。表中:TP為被模型預(yù)測(cè)為正的正樣本數(shù)量;FP為模型預(yù)測(cè)為正的負(fù)樣本數(shù)量;FN為被模型預(yù)測(cè)為負(fù)的正樣本數(shù)量;TN為被模型預(yù)測(cè)為負(fù)的負(fù)樣本數(shù)量。
2.5 "深度學(xué)習(xí)識(shí)別對(duì)比試驗(yàn)
經(jīng)上文總結(jié),聲音識(shí)別算法模型分為時(shí)頻圖特征、聲音特征向量、原始聲音信號(hào)三種類型。為驗(yàn)證GATRNet的性能,本試驗(yàn)采用ResNet?34、VGG16、AlexNet對(duì)本文聲音的時(shí)頻圖進(jìn)行識(shí)別,利用MFCC對(duì)特征向量MFCC進(jìn)行識(shí)別,利用WDCNN對(duì)原始波形進(jìn)行識(shí)別。深度神經(jīng)網(wǎng)絡(luò)方法試驗(yàn)對(duì)比分析如表6所示。
由表6可知,GATRNet的最高識(shí)別準(zhǔn)確率為99.10%,比ResNet?34的分類精度高3.65%,比VGG?16的分類精度高8.19%。相對(duì)于其他特征,本文提出的融合特征訓(xùn)練模型的性能要更優(yōu)一些。通過(guò)測(cè)試結(jié)果分析,本文提出的GATRNet具有較高的分類精度,同時(shí)依據(jù)三種不同特征的識(shí)別結(jié)果,本文的融合特征增強(qiáng)了有效特征的信息,比單特征具有更好的分類效果。因此融合特征是一種有效的方法,并且相對(duì)于時(shí)頻圖訓(xùn)練模型,GATRNet訓(xùn)練時(shí)間更短。
圖9為GATRNet的測(cè)試結(jié)果。從圖9a)可得,只有一個(gè)樣本未被正確識(shí)別為空鼓,非空鼓樣本均被正確識(shí)別;從圖9b)、圖9c)可得,測(cè)試樣本特征被正確聚類。綜上所述,本文方法有著較好的分辨能力。
2.6 "融合特征識(shí)別對(duì)比試驗(yàn)
與單特征相比,融合特征能夠提供更豐富的信息。本試驗(yàn)將上文所述聲音特征進(jìn)行疊加融合,利用表7中多種機(jī)器學(xué)習(xí)模型對(duì)融合特征進(jìn)行訓(xùn)練,與本文提出的基于融合聲學(xué)特征與時(shí)頻圖特征的GATRNet進(jìn)行了對(duì)比驗(yàn)證。評(píng)價(jià)指標(biāo)采用上述指標(biāo)最大值,各模型分類結(jié)果如表7所示。
試驗(yàn)結(jié)果表明:疊加的融合聲學(xué)特征在各類機(jī)器學(xué)習(xí)中表現(xiàn)最高的為88.64%,相對(duì)于融合了聲學(xué)特征和時(shí)頻圖的特征,融合聲學(xué)特征的分類精度有所降低。疊加的聲音時(shí)頻域特征會(huì)引起信息損失,并且時(shí)頻域特征向量提供的信息要低于時(shí)頻圖,機(jī)器學(xué)習(xí)的算法復(fù)雜度相對(duì)簡(jiǎn)單,無(wú)法進(jìn)一步擬合疊加融合特征。
2.7 "單特征識(shí)別對(duì)比試驗(yàn)
由上述試驗(yàn)結(jié)果可知,疊加的融合特征會(huì)引起部分維度上的信息沖突,從而導(dǎo)致分辨精度降低。本試驗(yàn)采用單特征訓(xùn)練機(jī)器學(xué)習(xí)模型,對(duì)每一種特征選擇訓(xùn)練效果最好的機(jī)器學(xué)習(xí)算法,與GATRNet訓(xùn)練融合時(shí)頻圖和聲學(xué)特征進(jìn)行對(duì)比。召回率、F1分?jǐn)?shù)、精確率選擇在多種機(jī)器學(xué)習(xí)上的平均值,測(cè)試結(jié)果如圖10所示。不同特征識(shí)別效果如表8所示。
試驗(yàn)結(jié)果表明:聲音單特征的識(shí)別效果表現(xiàn)最好的為MFCC,而融合特征在隨機(jī)森林、AdaBoost、MLP上的分類精度均優(yōu)于除MFCC以外的單特征,這表明疊加融合特征有助于提高部分模型的分類效果。多種聲音單特征的分類精度低于本文所提的融合時(shí)頻圖和聲音特征的特征,這證明本文融合特征和本文算法具有較好的性能。
2.8 "噪聲干擾試驗(yàn)
在對(duì)墻體瓷磚粘貼空鼓進(jìn)行聲音采集時(shí)易受環(huán)境噪聲干擾,為驗(yàn)證本文方法在噪聲環(huán)境下的性能,本試驗(yàn)設(shè)計(jì)不同信噪比下的識(shí)別測(cè)試,信噪比為-2~8 dB,逐次增加2 dB。每項(xiàng)信噪比進(jìn)行10次測(cè)試,取平均值作為最終測(cè)試結(jié)果。圖11是各信噪比下的測(cè)試準(zhǔn)確率。
試驗(yàn)結(jié)果表明:在強(qiáng)信噪比-2 dB下,GATRNet的識(shí)別準(zhǔn)確率可達(dá)75%,在6 dB以上的信噪比下,平均準(zhǔn)確率可達(dá)97%。信噪比由強(qiáng)到弱的過(guò)程中,本文方法的準(zhǔn)確率呈遞增趨勢(shì)。信噪比越低,分類精度越差。模型能夠適應(yīng)噪聲較強(qiáng)的環(huán)境,GATRNet具有良好的魯棒性。
2.9 "現(xiàn)場(chǎng)測(cè)試
為驗(yàn)證本文方法的現(xiàn)場(chǎng)測(cè)試效果,通過(guò)紅外熱成像儀展示空鼓區(qū)域。項(xiàng)目地點(diǎn)位于江蘇省昆山市某危房,通過(guò)敲擊現(xiàn)場(chǎng)空鼓區(qū)域獲得空鼓聲音。敲擊時(shí)間為當(dāng)?shù)貢r(shí)間15:30—16:30,天氣晴,通過(guò)上述敲擊裝置,敲擊距離為6~12 cm,利用無(wú)線麥克風(fēng)對(duì)敲擊聲音進(jìn)行錄制。敲擊位置是圖12中空鼓區(qū)域的中心、角點(diǎn)和邊界。采集樣本分布如表9所示。
采集空鼓樣本為30個(gè),在外墻其他非空鼓區(qū)域敲擊20次,采集非空鼓樣本為20個(gè),總樣本數(shù)為50個(gè)。通過(guò)GATRNet模型進(jìn)行測(cè)試,測(cè)試結(jié)果如圖13所示。
圖13中,空鼓聲音均被正確識(shí)別,非空鼓聲音只有一個(gè)未識(shí)別出。這驗(yàn)證本文算法對(duì)于復(fù)雜敲擊位置空鼓判斷的有效性。
3 "結(jié) "論
本文提出一種基于CNN?Transformer雙分支網(wǎng)絡(luò)GATRNet和基于門控機(jī)制的多特征融合模塊,對(duì)空鼓聲音信號(hào)進(jìn)行識(shí)別。通過(guò)試驗(yàn)分析,空鼓識(shí)別準(zhǔn)確率達(dá)到99%,有效提高了針對(duì)不同敲擊位置、不同敲擊力度空鼓聲音信號(hào)識(shí)別的準(zhǔn)確性。
本文方法在噪聲干擾下的空鼓識(shí)別仍具有優(yōu)異的性能。在各不同噪聲下的準(zhǔn)確率處于穩(wěn)定狀態(tài)。
與機(jī)器學(xué)習(xí)相比,本文使用的特征融合方法優(yōu)于傳統(tǒng)疊加的時(shí)序特征融合,并且在多樣性指標(biāo)中,表現(xiàn)均優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)。
注:本文通訊作者為丁勇。
參考文獻(xiàn)
[1] 黃繼忠,章云夢(mèng),張悅,等.無(wú)損檢測(cè)技術(shù)在文物表面空鼓病害探查中的應(yīng)用[J].上海大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,28(4):656?667.
[2] 胡媛馨,高建衛(wèi),孔戈,等.普通飾面磚的外墻飾面層空鼓檢測(cè)研究[J].建筑科技,2017,1(5):41?44.
[3] 王俊偉,陳洋,趙鴻,等.建筑外墻敲擊聲音振動(dòng)特征分析[J].住宅科技,2013,33(1):44?46.
[4] 孫牽宇,童峰,曹紹杰.基于SPCE61A的墻體空鼓聲無(wú)損檢測(cè)系統(tǒng)[J].聲學(xué)技術(shù),2007(6):1150?1154.
[5] 袁林.基于聲音信號(hào)與VMD算法的木板材內(nèi)部空鼓檢測(cè)方法研究[D].淄博:山東理工大學(xué),2022.
[6] "DAI W. Acoustic scene recognition with deep learning [M]. Pittsburg: Carnegie Mellon, 2016.
[7] 張科,蘇雨,王靖宇,等.基于融合特征以及卷積神經(jīng)網(wǎng)絡(luò)的環(huán)境聲音分類系統(tǒng)研究[J].西北工業(yè)大學(xué)學(xué)報(bào),2020,38(1):162?169.
[8] 李大鵬,周曉彥,王基豪,等.基于Mel頻譜值和深度學(xué)習(xí)網(wǎng)絡(luò)的鳥聲識(shí)別算法[J].應(yīng)用聲學(xué),2023,42(4):825?832.
[9] 謝旭康,陳戈,孫俊,等.TCN?Transformer?CTC的端到端語(yǔ)音識(shí)別[J].計(jì)算機(jī)應(yīng)用研究,2022,39(3):699?703.
[10] 付忠廣,王詩(shī)云,高玉才,等.基于Mobile?VIT的旋轉(zhuǎn)機(jī)械故障診斷方法[J].汽輪機(jī)技術(shù),2023,65(2):119?121.
[11] 劉思思,譚建平,易子馗.基于MFCC和SVM的車窗電機(jī)異常噪聲辨識(shí)方法研究[J].振動(dòng)與沖擊,2017,36(5):102?107.
[12] 王天銳,鮑騫月,秦品樂.基于梅爾倒譜系數(shù)、深層卷積和Bagging的環(huán)境音分類方法[J].計(jì)算機(jī)應(yīng)用,2019,39(12):3515?3521.
[13] JOO N L M C. Zero?crossing rate method as an efficient tool for combustion instability diagnosis [J].Experimental thermal and fluid science: international journal of experimental heat transfer, thermodynamics, and fluid mechanics, 2021, 123(1): 110340.
[14] MAURICIO A M R, QI J, SMITH W A, et al.Bearing diag?nostics under strong electromagnetic interference based on integrated spectral coherence [J].Mechanical systems and signal processing, 2020, 140: 106673.
[15] 薛英杰,陳頎,周松斌,等.基于自監(jiān)督特征提取的機(jī)械異常聲音檢測(cè)[J].激光與光電子學(xué)進(jìn)展,2022,59(12):361?371.
[16] HE K, ZHANG X, REN S,et al.Deep residual learning forima?gerecognition [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 770?778.
[17] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [EB/OL]. [2023?11?08]. https://arxiv.org/abs/1706.03762.
[18] CHACHADA S, KUO C?C J. Environmental sound recognition:a survey [J]. APSIPA transactions on signal and information processing, 2014(3): e14.
[19] DHARMESH M A, HARDIK B S, MEET H S, et al. Novel TEO?based gammatone features for environmental sound classification [C]// 2017 25th European Signal Processing Conference: EUSIPCO 2017. Kos, Greece: IEEE, 2017: 1809?1813.
[20] 楊廣,喻柄睿,楊志慧,等.基于WT?CNN深度學(xué)習(xí)的軸承故障識(shí)別[J].價(jià)值工程,2022,41(2):115?117.
[21] 何強(qiáng),唐向紅,李傳江,等.負(fù)載不平衡下小樣本數(shù)據(jù)的軸承故障診斷[J].中國(guó)機(jī)械工程,2021,32(10):1164?1171.
[22] HAN K, WANG Y, TIAN Q, et al. GhostNet: more features from cheap operations [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, WA, USA: IEEE, 2020: 1580?1589.
[23] JIE H, LI S, GANG S. Squeeze?and?excitation networks [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2018: 7132?7141.
[24] SANGHYUN W, JONGCHAN P, JOON?YOUNG L, et al. CBAM: convolutional block attention module [C]// Computer vision?ECCV 2018: 15th European Conference. Munich, Germany: Springer, 2018: 3?19.
[25] CHAIB S, LIU H, GU Y, et al. Deep feature fusion for VHR remote sensing scene classification [J]. IEEE transactions on geoscience and remote sensing, 2017, 55(8): 4775?4784.
[26] ZHANG Z, XU C, XIE J,et al. MFCC?LSTM framework for leak detection and leak size identification in gas?liquid two?phase flow pipelines based on acousticemission [J]. Measurement, 2023, 219: 113238.