陳愛武 郭丙琴 李 榮
?
音頻分析在自動噴霧技術方面的應用
陳愛武1郭丙琴2李榮1
(1.湖南科技學院 電子與信息工程學院;2.湖南科技學院 教學質量管理處;湖南 永州 425199)
變量噴霧技術的機械設備和微流量精度控制已經取得長足的進展,精度高的機械設備裝置如果脫了病蟲害的實際情況和分布種類混藥,還是會造成農藥殘余或不能殺除病蟲害,文章因此提出了一種基于病蟲害聲學事件識別方法的在線混藥技術,該方法是把混雜在復雜背景音下的不同病蟲害的聲音識別出來,并根據識別的病蟲害種類及分布情況進行自動在線混藥的技術,實驗采集了四類不同病蟲害的聲音及背景音,通過深度神經網絡學習新的DNN特征和分類,平均識別率達到預期效果,實驗驗證了該方法可行性。
音頻分析;深度學習;自動噴霧
自上世紀70年代開始,我國的農業發展開始進入機器化年代[1],農藥的噴霧技術也隨機從常量噴霧發展為變量噴霧,但我國變量噴霧技術主要還是停留在藥水的精度的控制及機械化設備改進等方面,并沒有或很少有針對病蟲害的在線分析及在線混藥的變量噴霧的技術。這種精度化雖高的機械設備如果沒有病蟲害作為依據還是達不到完全除去病蟲害的目的,或者會造成農藥殘留。文章因此提出了基于病蟲害聲學事件識別方法的在線混藥系統研究。隨著信息化技術的發展,音頻信號獲取方便,性能穩定、且計算成本低,所以音頻信號的應用非常廣泛,如歐美國家通過對救護車、消防車等警報聲進行識別,并將識別結果用來交通調控;對獨居老年人或病殘人進行安全監護的音頻事件分析;野生動物的聲音識別用來保護自然環境。在農業和生物領域,也開始出現音頻的應用,如Abcouchacra等在2007年提出了識別30秒自然聲音方法[2];Valero等在2012年采用分層的方法對環境噪音進行識別[3];Zhuang Xiaodan等人實現了環境聲音識別[4];齊曉旭提出的場景依賴的音頻分析[5]。文章的方法是通過對農作物的病蟲害及各種背景聲進行識別和分析,識別出混疊在不同背景音中的不同種類的病蟲害發出來的聲音,這些聲音包括蟲害嘰喳的叫聲及飛動時翅胖擺動的聲音,通過這些聲音分析病蟲害的種類及分布情況,為農業變量噴霧技術提供在線混藥依據,達到智慧農業的目的。
自然環境中的病蟲害發出來的叫聲、飛動時翅膀所發出來的聲音等往往是混疊在風聲和雨聲等不同背景音中,從背景音中識別出不同種類的病蟲害所發出來的聲音不是一件容易的事情,因為音頻信號不同于語音信號有短暫的平穩性,且頻譜相對平坦,這種類似噪聲的平坦譜很難找到一種有效區分特征來進行區分,關于這方面的音頻事件分析的文獻較多,如:隨機森林和隨機回歸[6]、深度神經網絡[7]、稀疏字典,和通用的GMM模型、HMM模型等。文章將采用深度神經網絡(DNN)的算法進行農作物音效事件識別算法。
自動混藥裝置包括機械設備和電路系統以及控制算法等模塊,機械設備主要包括流量計、噴油器等設備、電路系統包括模擬信號通道、數字信號通道,控制算法一般采用PID等常規的控制算法。自動混藥裝置的機械設備和電路系統目前有了較深入的研究,如流量控制系統研究[8],自動噴霧系統[9],微流量計設計等。文章提出的基于病蟲害發出來的聲音進行自動混藥的在線技術主要目的就是尋找一種能有效區分不同病蟲害及自然背景音的特征,目前文獻中提出的常規特征如子帶能量、子帶譜通量、能量熵、譜滾降(Spectral Roll Off)、譜質心(Spectral Centroid)等,也包括語音識別常用的梅爾倒譜系數(Mel-frequency Cepstrum Coefficient,MFCC )、過零率和短時能量等音頻特征,盡管這些特征在語音識別中有較好的性能,但對重疊在背景音的病蟲害聲音的識別會較差,因為這些音頻事件較為平坦的譜特性。所以本文采用深度神經網絡(Depth Neural Network,DNN)來學習一種新的特征,DNN深度學習到的新特征可以較大去掉特征冗余信息,系統框圖如圖1所示。

圖1.自動混藥系統框圖
Hinton等人在2006年提出了深度無監督訓練的算法,并在2010年多倫多大學成功的應用到語音識別,取得了顯著的性能提升,深度神經網絡是一個包含多個隱層的多層感知器,包括輸入層和輸出層,中間層又稱隱含層,一般隱含層層數越多,需要訓練的數據量越大,但效果也越好,一般的音頻事件處理可以選2-4個隱含層,輸出層的層數就是需要分類的種類數,網絡拓撲結構如圖2所示。

圖2. DNN網絡拓撲結構
深度神經網絡的基本模型是受限波爾茲曼機(Restricted Boltzmann Machine, RBM),RBM能量函數定義如式(1)所示。
其中,
–可見層狀態矢量
v–可見層的第個節點的狀態
–隱含層單元的狀態矢量,
h–隱含層第個節點狀態
w–第個可見層節點和第個隱含層節點的連接權重
–表示我們的模型參數
能量函數的聯合概率分布的數學表達式如式(2)所示
因為音頻事件相對語音有較難的區分性,本文采用的深度神經網絡算法目的是對音頻信號提供一個有力的特征轉換和特征組合工具,通過深度學習,得到一種區分能力更強的新的特征。該方法的原理是將音頻信號提取的Fbank特征(Fbank特征類似語音信號中的梅爾倒譜系數(Mel Freqeuncy Cepstal Coefficients, MFCCs)),通過兩個不同的網絡TANDEM網絡和BOTTLENECK網絡深挖輸入特征中的潛在的信息,再組合成新的特征,即深度神經網絡特征,算法原理如圖3所示。
圖3.多流程DNN架構
因為通常的Fbank 特征會含有較多的冗余信息,上面所描述的架構可以減少特征的冗余信息,Bottleneck 網絡的作用可以解釋為對特征進行非線性維度減少,Bottlenect網絡是基于真正的多層感知器(Multi-Layer Perception, MLP),相對其他的隱含層,其內部有一個較小的隱層單元,這種結構可以限制從而達到對特征的壓縮功能。圖3所示多流程架構的工作流程首先是對Fbank特征前后各取31幀,然后通過一個離散余弦函數轉換(DCT)后分別送到兩個流程的網絡,通過兩個網絡分別輸出135幀和60幀,然后通過5幀的窗得到一個975幀輸出層進行特征組合,即(135+60)*5=975。
4.1 實驗數據
為了測試文章提出方法對病蟲害等聲學事件的區分能力,我們使用的實驗數據分別為真實環境中錄制、專業音效數據庫和音效下載網站:BBC Sound Effects Library,音效下載網站。BBC Sound Effects Library Original Series 是由SoundIdeas 機構出品的英國廣播公司(British Broadcasting Corporation,BBC)音效庫合輯,總共有60 卷,每一卷是一個音效大類,所涉及的音效的錄音環境包括不同國家、家庭室內、野外和學校等,錄音內容包括自然界、動物和主題。樣本采用16位量化誤差,采樣率為16kHz。實驗平臺使用Matlab R2016a,PC機為DELL臺式電腦上,CPU為雙核Intel i7-2600,主頻為3.4G Hz,操作系統為64位Win7家庭版,PC機器內存為8G。
表1.實驗數據

音頻事件類型文件數最短樣本(s)最長樣本(s)總的持續時間(s) 蚊子聲5761.379.071135 飛蛾3012.537.68945 蝗蟲2777.8134.183457 飛蟲3669.6727.994421 風聲89719.6795.9922365
4.2 實驗結果分析
實驗數據采用兩種分幀法,一種是短時分幀法,幀長為50ms,幀移是25ms。另一種是超級幀(Superframes)法[10, 11],超級幀定義為100ms長的分段音頻信號,由多個30ms的短時幀組合而成,這種長度的的分幀技術可以提供音頻信號更多的區分能力,文章采用Tmoke 建議的120維的特征法。
實驗結果如表2所示。
表2.識別混淆矩陣

蚊子聲3921050781 飛蛾191180631 蝗蟲3027004 飛蟲243403071 風聲0050140
從混淆矩陣可以看出,平均識別率達到78.40%,這種識別結果是在目前文獻所提供音頻事件識別率的范圍內。影響識別率的一個重要原因是深度神經網絡的數據量,深度學習需要有較大的訓練數據,訓練數據越多,訓練出的網絡就越好。目前是我們采集到的數據有限,所以這是造成整體識別率不是很高的原因。另外從混淆矩陣可以看出,病蟲害與背景音如風聲區分性是很高的,識別率達到100%。
文章提出了基于病蟲害聲學事件識別的方法識別混雜在背景音的不同種類的病蟲害發出來的音頻事件,并根據識別的病蟲害聲音種類和分布情況為農藥變量噴霧提供在線依據,該方法提取了4類不同病蟲害聲音及1類背景音的Fbank特征,并將提取到的Fbank特征輸入兩個神經網絡中進行深度學習得到新的DNN特征,并通過GMM模型對新特征進行分類和識別,實驗結果表明平均識別率為78.40%,和目前文獻音頻事件的識別率處于同等水平,該方法可以實現農藥自動在線混藥技術。
[1]劉俊展,王小夢,劉悅上,劉玉洪.植保機械發展現狀及趨勢[J].現代農業科技,2010,(17):255.
[2]Abouchacra K,??TOWSKI T,Gothie J.Detection and recognition of natural sounds[J].Archives of Acoustics,2007, (3):603-616.
[3]ValeroX,Alías F.Hierarchical classification of environment-al noise sources considering the acoustic signature of vehicle pass-bys[J].Archives of Acoustics,2012,(4):423-434.
[4]Zhuang X,Zhou X,Hasegawa-Johnson MA,Huang TS.Real- world acoustic event detection[J].Pattern Recognition Lett-ers.2010,(12):1543-1551.
[5]齊曉旭.場景依賴的關鍵音頻件檢測[D]:北京郵電大學, 2013.
[6]李欣海.隨機森林模型在分類與回歸分析中的應用[J].應用昆蟲學報,2013,(4):1190-1197.
[7]Laffitte P,Sodoyer D,Tatkeu C,Girin L,editors.Deep neural networks for automatic detection of screams and shouted speech in subway trains[C].2016 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP);2016 20-25 March 2016.
[8]陳愛武,劉志壯,郭丙琴.基于LabVIEW 的微流量控制系統的研究[J].控制工程,2014,(2):168-171.
[9]陳愛武,劉志壯.基于LabVIEW農作物變量噴霧算法研究[J].農機化研究,2013,(9):44-47.
[10]Phan H,Mertins A.A voting-based technique for acoustic event-specific detection[C].Proc 40th Annual German Congr Acoust(DAGA),2014.
[11]Schuller B,Wimmer M,Mosenlechner L,Kern C,Arsic D, Rigoll G,editors.Brute-forcing hierarchical functionals for paralinguistics:A waste of feature space?[C],2008 IEEE International Conference on Acoustics,Speech and Signal Processing,2008:IEEE.
(責任編校:宮彥軍)
2016-03-26
湖南科學技術廳科技計劃項目(項目編號2014FJ3143) ,2015年永州市科技計劃項目(永科發[2015]9號No.22)。
陳愛武(1976-),男,湖南邵陽人,副高職稱,博士研究生,研究方向為音頻事件識別及聲場景分析。
S499
A
1673-2219(2016)10-0023-03