中圖分類號(hào):U463.6 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-8639(2025)10-0021-03
【Abstract】With the popularization of intellgent driving,the identification of special vehicles has become a key issue.This articleconducts research onthe recognition challenges of special vehicles in the eraof intellgent driving. Firstly,itintroduces thevehicle-levelsystem frameworkbasedonsoundrecogntion.Then,itelaboratesindetailthe methodsofsound preprocessingandeature extractionusingthe TorchAudio library.Finally,itcombines theResNet-18 residualnetworkforsoundclassification.Andtheeffctivenessofthismethodinthesoundrecognitionofspecialvehicles is verifiedthrough experiments,providing anew approach for therecognitionof special vehicles in intelligentdriving.
【Key Words】intelligent driving;special vehicles;voice recognition;Python;Torchaudio;ResNet-1l
根據(jù)《中華人民共和國(guó)道路交通安全法》規(guī)定,警車、消防車、救護(hù)車、工程救險(xiǎn)車執(zhí)行緊急任務(wù)時(shí),可使用警報(bào)器、標(biāo)志燈具;在確保安全的前提下,不受行駛路線、行駛方向、行駛速度和信號(hào)燈的限制,其他車輛和行人必須及時(shí)讓行[]。隨著智能駕駛汽車的快速普及,智能汽車常用的激光雷達(dá)和圖像識(shí)別技術(shù)僅能通過圖像識(shí)別車輛種類,卻無法識(shí)別處于作業(yè)狀態(tài)的特種車輛[2]。本文聚焦智能駕駛時(shí)代的特種車輛識(shí)別方法,首先介紹車輛級(jí)系統(tǒng)框架,其次探討基于Torchaudio與ResNet-18的聲音特征提取及識(shí)別方法,最后在Python環(huán)境下通過試驗(yàn)驗(yàn)證該方法的有效性。研究成果為智能駕駛進(jìn)入L3級(jí)別時(shí)代[3]提供了新的實(shí)施路徑,有助于推動(dòng)智能駕駛L3及以上級(jí)別道路特種車輛規(guī)避技術(shù)的發(fā)展。
1總體架構(gòu)
1.1整車的硬件架構(gòu)
整車的硬件架構(gòu)如圖1所示。在整車布置方面,4個(gè)數(shù)字麥克風(fēng)分別安裝于前保險(xiǎn)杠、后保險(xiǎn)杠及左右外后視鏡,用于拾取道路上特種車輛的聲音,并通過汽車音頻總線(AutomotiveAudioBus, A2B )傳輸至數(shù)字信號(hào)處理器(Digital SignalProcessor,DSP)功放。ResNet-18識(shí)別與分類算法運(yùn)行在DSP功放的處理器(如ADISharc系列5)中,經(jīng)預(yù)訓(xùn)練模型推理后得到聲音識(shí)別結(jié)果(是否為特種車輛聲音),并將結(jié)果通過控制器局域網(wǎng)CAN數(shù)字信號(hào)傳輸至智駕控制器(Autonomous Driving Control Unit,ADCU)以供進(jìn)一步使用。
圖1整車的硬件架構(gòu)圖

1.2基于聲音識(shí)別的軟件架構(gòu)
基于聲音識(shí)別的特種車輛識(shí)別與分類軟件總體架構(gòu)如圖2所示,分為訓(xùn)練階段和推理階段。訓(xùn)練階段包括數(shù)據(jù)集準(zhǔn)備、模型預(yù)訓(xùn)練及生成帶參數(shù)的pth模型文件;推理階段涵蓋聲音采集、聲音預(yù)處理、聲音識(shí)別與分類推理以及輸出識(shí)別結(jié)果。
圖2基于聲音識(shí)別的軟件架構(gòu)圖

訓(xùn)練數(shù)據(jù)集來源于網(wǎng)絡(luò)公開聲音數(shù)據(jù)庫(kù),如UrbanSound8K、ESC-50、AudioSet、TUT聲音事件2017等。在訓(xùn)練數(shù)據(jù)集準(zhǔn)備過程中,使用Python的Pydub和Pandas庫(kù)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理[7-8],例如將雙聲道音頻文件轉(zhuǎn)換為單聲道,將不同采樣率統(tǒng)一轉(zhuǎn)換為 44.1kHz ,并利用Torchaudio中的mel_spectrogram 方法結(jié)合 MFCC(Mel Frequency CepstralCoefficients)變換提取聲音信號(hào)特征]。采用Pytorch自帶的ResNet-18模型進(jìn)行預(yù)訓(xùn)練,生成具有最優(yōu)訓(xùn)練結(jié)果的帶參數(shù)模型文件。
在推理階段,聲音采集來自車外數(shù)字麥克風(fēng),對(duì)聲音進(jìn)行預(yù)處理后生成與訓(xùn)練數(shù)據(jù)集格式、長(zhǎng)度相同的音頻文件,并提取相同的聲音信號(hào)特征。推理過程中,加載訓(xùn)練好的模型文件,輸入車外聲音特征文件,經(jīng)模型推理后得到識(shí)別結(jié)果。
2基于Torchaudio 和ResNet-18的聲音識(shí)別和分類方法
聲音特征提取是聲音識(shí)別與分類的關(guān)鍵,本文研究基于Torchaudio的聲音特征提取及基于ResNet-18的聲音分類方法。
2.1 函數(shù)庫(kù)介紹
2.1.1 Torchaudio
Torchaudio是Pytorch深度學(xué)習(xí)框架中的音頻處理庫(kù),旨在將Pytorch的強(qiáng)大功能應(yīng)用于音頻信號(hào)處理領(lǐng)域。該庫(kù)提供了豐富的函數(shù)和方法,可提取多種聲音特征,為后續(xù)聲音識(shí)別與分類提供充足的特征信息[°]。Torchaudio 中提供的聲音處理的方法見表1。
表1Torchaudio中提供的聲音處理方法

2.1.2 ResNet-18殘差網(wǎng)絡(luò)
ResNet-18是ResNet系列中較為輕量級(jí)的版本,包含18層網(wǎng)絡(luò)(不含輸入層和連接層)。憑借殘差學(xué)習(xí)機(jī)制,ResNet-18有效解決了深層網(wǎng)絡(luò)的梯度消失問題,其預(yù)訓(xùn)練模型具備強(qiáng)大的特征提取能力,廣泛應(yīng)用于圖像分類、目標(biāo)檢測(cè)和語義分割等任務(wù)。ResNet-18結(jié)構(gòu)簡(jiǎn)單、計(jì)算量小,適用于資源受限環(huán)境。在音頻處理任務(wù)中,音頻特征(如梅爾頻譜圖)可轉(zhuǎn)換為圖像格式,進(jìn)而利用ResNet-18預(yù)訓(xùn)練模型進(jìn)行聲音分類。由于這些預(yù)訓(xùn)練模型已在大規(guī)模圖像數(shù)據(jù)上完成訓(xùn)練,能夠很好地遷移到音頻特征的圖像化表示(如梅爾頻譜圖),實(shí)現(xiàn)高效的聲音分類與分析。
2.2 實(shí)施方法與原理
文章以Torchaudio函數(shù)和ResNet-18為例,研究特種車輛聲音的識(shí)別與分類方法。一方面,利用Torchaudio中的mel_spectrogram函數(shù)將音頻信號(hào)轉(zhuǎn)換為梅爾頻譜圖,再通過離散余弦變換(DCT)提取MFCC特征;另一方面,通過ResNet-18殘差神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)訓(xùn)練,通過持續(xù)訓(xùn)練與迭代優(yōu)化模型參數(shù),使訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集的準(zhǔn)確度達(dá)到最大化。
在ResNet-18殘差神經(jīng)網(wǎng)絡(luò)中,設(shè) X 為上一層ResNet輸出的特征映射, H(x) 為觀測(cè)值,詳見公式(1),其核心原理如圖3所示。通過短路快捷通道的方式引入上一層的特征映射,可保留上一層的線性輸出,在非線性轉(zhuǎn)換和線性轉(zhuǎn)換之間取得平衡。
H(x)=F(x)+X
圖3ResNet-18殘差網(wǎng)絡(luò)核心原理示意圖

3 試驗(yàn)與分析
為驗(yàn)證Torchaudio和ResNet-18(殘差網(wǎng)絡(luò))在特種車輛聲音識(shí)別與分類中的應(yīng)用效果,本文采用UrbanSound8K數(shù)據(jù)集進(jìn)行訓(xùn)練、驗(yàn)證和推理。
UrbanSound8K數(shù)據(jù)集是廣泛應(yīng)用于環(huán)境聲音分類研究的公開數(shù)據(jù)集,包含10個(gè)種類共8732個(gè)短音頻文件,具體類別如表2所示。本文重點(diǎn)在于準(zhǔn)確識(shí)別第9類Siren(特種車輛警報(bào)聲),且避免將其他類別的聲音誤識(shí)別為特種車輛的聲音。
表2UrbanSound8K數(shù)據(jù)集類別

實(shí)施的過程如下: ① 下載UrbanSound8K數(shù)據(jù)集,使用Python的Wave庫(kù)和Pydub庫(kù)整理音頻文件和標(biāo)簽的信息; ② 數(shù)據(jù)預(yù)處理,使用Pydub對(duì)音頻數(shù)據(jù)統(tǒng)一通道數(shù)和采樣率; ③ 準(zhǔn)備索引和標(biāo)簽JSON文件,用于后續(xù)規(guī)范使用; ④ 數(shù)據(jù)劃分,使用Scikit-learn庫(kù)的 train_test_split函數(shù)[]將UrbanSound8K劃分為訓(xùn)練集和驗(yàn)證集,其中訓(xùn)練集數(shù)據(jù)占 80% ,驗(yàn)證集數(shù)據(jù)占 20% ; ⑤ 特征提取,利用Torchaudio的mel_spectrogram函數(shù)生成梅爾頻譜圖,再通過DCT變換提取MFCC特征,并調(diào)整和統(tǒng)一特征維度以匹配 ResNet-18 輸入要求(如將特征圖調(diào)整為3通道);⑥ 模型構(gòu)建,加載預(yù)訓(xùn)練的ResNet-18模型,替換全連接層以適應(yīng)音頻分類任務(wù),并添加Dropout層以增強(qiáng)正則化效果; ⑦ 模型訓(xùn)練,加載數(shù)據(jù)和加載模型,啟動(dòng)訓(xùn)練過程,并且使用Tensorboard實(shí)時(shí)可視化地觀察訓(xùn)練和驗(yàn)證的效果; ⑧ 輸出最優(yōu)的訓(xùn)練模型文件,保存為best_model.pth文件; ⑨ 加載上一步訓(xùn)練好的帶參數(shù)的模型文件和需要識(shí)別和分類的音頻文件,啟動(dòng)推理,輸出推理結(jié)果。
模型訓(xùn)練與驗(yàn)證準(zhǔn)確率曲線如圖4所示。訓(xùn)練的最佳準(zhǔn)確率達(dá)到 98.48% ,驗(yàn)證的最佳準(zhǔn)確率為88.17% ,驗(yàn)證的平均準(zhǔn)確率為 77.04% 。
使用訓(xùn)練好的模型對(duì)音頻文件進(jìn)行推理,特種車輛聲音的推理準(zhǔn)確率為 97.30% ,非特種車輛聲音的推理準(zhǔn)確率為 100% 。試驗(yàn)結(jié)果表明,基于Torchaudio和ResNet-18實(shí)現(xiàn)的特種車輛聲音識(shí)別與分類方法在準(zhǔn)確度方面表現(xiàn)優(yōu)異,為智能駕駛車輛在道路行駛中識(shí)別作業(yè)狀態(tài)的特種車輛提供了重要參考與支持。
圖4模型訓(xùn)練與驗(yàn)證準(zhǔn)確率曲線

4結(jié)束語
本文主要研究了Torchaudio和ResNet-18在智能駕駛車輛中基于聲音識(shí)別與分類道路特種作業(yè)車輛的方法,重點(diǎn)分析了數(shù)據(jù)預(yù)處理、聲音特征提取及模型訓(xùn)練與推理方法,展現(xiàn)了Torchaudio和ResNet-18在特種車輛聲音識(shí)別與分類中的靈活性和強(qiáng)大功能。通過在UrbanSound8K數(shù)據(jù)集上的實(shí)驗(yàn)分析,驗(yàn)證了所提方法在特種車輛識(shí)別領(lǐng)域具有良好的應(yīng)用前景。
參考文獻(xiàn)
[1]中華人民共和國(guó)道路交通安全法[M].北京:法律出版社,2005.
[2]Kaiming He,Xiangyu Zhang,Shaoqing Ren,et al.DeepResidual Learning for Image Recognition[C]//Proceedings of theIEEE conference on computer vision and pattern recognition,2015:770-778.
[3]崔勝民.一本書讀懂無人駕駛汽車[M].北京:機(jī)械工業(yè)出版社,2024.
[4]吳斌.汽車內(nèi) A2B 音頻系統(tǒng)設(shè)計(jì)研究[J].汽車實(shí)用技術(shù),2024(2):121-124.
[5]ADI.SHARC + SingleCore HighPerformance DSP(Up to1GHz)[EB/OL].(2023-01-01)[2024-01-01].https://www.analog.com/en/products/sharc-dsps/sharc-single-core-dsps.html.
[6]白龍,王淑玉,付東輝,等.基于DSP的CAN總線網(wǎng)絡(luò)設(shè)計(jì)[J].電子設(shè)計(jì)工程,2017,25(17):168-171.
[7]張夢(mèng)龍,龔勛陽,夏皓倫.Pandas和Matplotlib 在數(shù)據(jù)分析與可視化中的應(yīng)用[J].信息技術(shù)與信息化,2024(3):150-153.
[8]魏化永.基于Pydub的音頻混剪系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].電腦編程技巧與維護(hù),2024(4):45-47.
[9]陶佰睿,郭琴,苗鳳娟,等.基于自適應(yīng) Mel 濾波器組的MFCC 特征提取的SOC設(shè)計(jì)[J].吉林大學(xué)學(xué)報(bào)(工學(xué)版),2016,46(S1):388-392.
[10]張進(jìn)軍.PyTorch框架下的復(fù)雜場(chǎng)景目標(biāo)識(shí)別方法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2024,41(5):240-244.
[11]左一鵬,陳輝.基于Scikit-Learn的SVM分類器算法優(yōu)化[J].計(jì)算機(jī)技術(shù)與發(fā)展,2020,30(7):116-120.
(編輯 林子衿)