楊春勇 祁宏達 彭焱秋 尹 濱 侯 金 舒振宇 陳少平
(1 智能無線通信湖北省重點實驗室 武漢 430074)
(2 中南民族大學電子信息工程學院 武漢 430074)
隨著國家生態文明建設加速推進,高效快捷評估生態環境質量的方法和技術亟待研究和開發。鳥類在生態系統中扮演著重要角色,其群落是環境質量的重要指標,有效監測與識別其分布對保護和評估生態系統都具有重要意義[1]。
目前,鳥類識別(Birds recognition,BR)一般依靠人工望遠觀測法,該法受限于鳥類移動高度不確定性、移動范圍大、識別目標難捕捉等特點,效率較低。鳴聲作為鳥類的重要生物學特征,已被證明可以用于鳥類自動識別[2-3]。2010 年,Cheng等[4]通過提取4種雀形目鳥類的梅爾倒譜系數(Mel-frequency cepstral coefficients,MFCC)結合高斯混合模型(Gaussian mixture model,GMM)進行了雀形目鳥類聲音識別,但其采用的實驗樣本數偏少,且在噪聲環境下的識別性能劣化較為嚴重。2014 年,王恩澤等[5]進一步提出一種基于MFCC的新型特征參數MFCCA 和雙重GMM 模型,識別率有明顯提升,但其未討論該模型在噪聲環境下的適應效果。2015年,Ptacek等[6]著重討論了噪聲背景下的識別問題,提出一種基于GMM 和通用背景模型(Universal background model,UBM)的鳥個體識別系統,但其識別率并不高。2017 年,程龍等[7]提出一種基于經驗模態分解改進的MFCC 算法,但仍屬于MFCC+GMM識別方法,且提升后的識別率增益不大,識別率為70.09%。Chakraborty等[8]使用支持向量機與深度學習技術相結合,但是復雜度較高,識別率沒有較大提升。2018年,Sevilla等[9]提出了針對解決生物聲學分類問題的深度卷技術網絡Inception-V4 的改良版Soundception,并使用數據增強策略和兩種注意力模型,平均識別準確率(Mean average precision,MAP)得分達到71.4%,在模型訓練階段依賴較高的硬件支持,耗時長且存在各種可拓展的優化空間。因此,綜合可查閱的一些典型文獻來看,目前關于鳥類鳴聲自動識別技術的研究大多采用MFCC+GMM 識別方法,且集中在提高識別率上,鮮有針對噪聲環境應用和識別耗時的討論,而抗噪和耗時問題又是識別技術能否獲得推廣應用所面臨的重要挑戰。
鳥類語譜圖是研究鳥的生物種類屬性的重要途徑[10-12],但是由于種類間譜圖特征重合度較高,難以直接用語譜圖進行鳥類準確識別。而鳴聲能量譜圖(Voice-power spectrogram,VPS)由鳥類語譜圖間接生成,使用Librosa庫可以提取Mel標度譜圖、色度圖、光譜對比度和色調質心等特征,最終使用這些方法生成能量譜圖的相關信息。因鳴聲能量譜圖兼具頻譜分布和時域波形的特點,可較清楚地顯示鳴聲能量隨時間變化的關系,時頻域演化將為鳥鳴聲識別提供較為顯著的判別信息,且能形成每種鳥類對應的鳴聲模式,這種特征提取技術屬于信號特征提取,主要目的是擴展和隔離每個樣本的重要特征。在能量譜圖中,亮度越高表示此段時間內鳥鳴聲能量越高,不同的鳥鳴聲會形成該種類特有的鳴聲模式,而圖像背景亮度較低的地方為環境噪聲與信道噪聲。對于單幅圖像而言,圖像上的噪聲部分與鳴聲主體能量差異大,邊緣特征尤其明顯,使得噪聲在鳴聲識別過程中整體影響較小;對整個鳥類鳴聲特征圖譜鳴聲模式而言,雖然不同個體鳥鳴聲具有差異性,但是與整個鳥類群的鳴聲模式上只存在一定合理范圍上閾值偏差,即鳥個體的鳴聲與整個鳥類群的鳴聲模式差異較小,從而使得單幅鳴聲譜圖不偏離整個鳥類鳴聲模式圖像。因此,本文提出的融合聲紋信息的能量譜圖的鳥類識別方法(VPS-BR)考慮到噪聲環境和識別耗時的應用需要,并結合聲紋特征在計算機視覺領域的應用[13-15],具有較大的研究意義與價值。在計算機視覺的邊緣特征識別領域,主要有具有良好容噪性能的方向梯度直方圖(Histogram of oriented gradient,HOG)[16-17]與在計算收斂方面表現出較快速度的局部二值模式(Local binary pattern,LBP)[18]算子兩類。本文使用這兩種算子對模型進行測試,實驗表明VPS-BR 方法識別速度快,魯棒性高且模型訓練部分易于收斂。并且對LBP 算子在本文中的應用,本文提出一種改進的多尺度塊中心對稱(Multi-scale block center symmetric,MBCS)局部二值模式(MBCS-LBP)。MBCS-LBP 特征融合了多尺度塊局部二值模式(MB-LBP)[19]算子與中心對稱局部二值模式(CS-LBP)特征算子的特性,以進一步降低計算復雜度。而由于大多數鳥類語音識別研究所使用的都是經過篩選的質量好的實驗室錄音,或者經過濾波等技術手段進行降噪處理后的干凈語音,且數據量較少,對于現實世界中所具有的不同類型的自然噪聲、信道噪聲和失真等信息缺失,難以得到有效的模擬。而針對數據集的問題,本文引入生成對抗網絡(Generated-adversarialnetwork,GAN)進行圖譜特征數據增強,由于GAN能夠對于圖像數據分布進行有效的學習,對鳥類鳴聲譜圖而言,不僅保留整體的鳴聲能量模式,并且會有細節上的變化,如背景環境噪聲的變化,或者鳴聲邊緣聲紋的細微變化,這些都能夠更好地模擬現實世界中每一鳴聲都不盡相同的情況,在引入GAN之后再次進行實驗,實驗結果表明GAN 確實學習到了有效信息。
VPS-BR 的識別原理如圖1所示,主要步驟包括數據采集、特征提取和鳥類識別3部分。

圖1 VPS-BR 原理Fig.1 The principle of VPS-BR
圖1 中,采集的樣本數據分為訓練樣本與測試樣本。兩類不同的樣本數據分別經由如圖2所示的信號采樣、Mel 濾波、色譜圖計算、對數能量和分貝轉換步驟生成相應的VPS。在特征提取步驟中,分別采用MBCS-LBP 特征和HOG 特征進行計算,將來自訓練樣本處理路徑①→②→③→④所獲得的特征參數預置入參數庫,測試樣本經處理路徑⑥→⑦→⑧獲得對應VPS 特征。VPS特征分別用MBCS-LBP和HOG特征進行計算。用MBCS-LBP 特征經過分塊計算,再將中心對稱化計算得到的結果,經組合以直方圖形式呈現。用HOG 特征經過分塊計算梯度值,組合所有塊向量的梯度值后以梯度矩陣形式呈現,具有不同頻域或時域變化的鳥鳴聲的VPS 特征將會差異明顯。在鳥類識別步驟中,將特征提取步驟所提取的VPS特征,經由處理路徑④→⑨→⑤→④對輸入的測試樣本進行識別。分類器④主要可由常規支持向量機(Support vector machine,SVM)、K 最近鄰(K nearest neighbor,KNN)、隨機森林(Random forest,RF)分類算法實現。識別結果通過自適應判決反饋算法完成鳥鳴聲特征向量等參數的自動優化,并回置參數庫,替換原訓練所得參數。在此過程中,后續的特征提取及識別都建立能量圖譜的生成基礎之上。參數入庫步驟引入人為的糾正與管理,體現了半監督學習的特性。

圖2 能量譜圖生成步驟Fig.2 Steps of generating energy spectra
據上述可知,特征提取作為VPS-BR 鳥類鳴聲識別中的重要內容,接下來將詳細描述本文所用MBCS-LBP和HOG特征提取算法原理。
本文設計的MBCS-LBP 特征提取流程如圖3所示。生成的VPS分別經由灰度圖像轉換、Gamma標準化、檢測窗口掃描、二值量化、直方圖統計和、中心對稱統計與直方圖拼接步驟生成相應的MBCS-LBP 特征。在檢測窗口掃描前,所進行的操作是對VPS 的預處理。在對檢測窗口進行逐個掃描的步驟中,分別對每個窗口所對應的掃描圖塊進行轉換進制的灰度值計算,經中心對稱處理后拼接統計直方圖,最后綜合所有掃描窗口的統計值,獲得MBCS-LBP特征。

圖3 MBCS-LBP 特征提取流程Fig.3 Flows of MBCS-LBP feature extraction
MBCS-LBP 特征采用鄰域多像素灰度均值替換傳統單像素灰度[20],進而根據多像素均值步進到多像素塊LBP 特征的計算來表達鳥類鳴聲聲紋特征。以N×N的鄰域為例,對整幅能量譜圖進行計算時,相應的MBCS-LBP特征計算如下:

式(1)中,“2j”是LBP 中的卷積運算,其中Bj表示鄰域內第j個像素塊的灰度均值,計算方法如式(2)所示;(Bj-Bj+N/2)表示互為中心對稱的兩個像素塊灰度均值之差;S(x)為單位階躍函數,計算方法如式(3)所示:

式(2)中,gi表示第j個像素塊內第i個像素的灰度值。
MBCS-LBP 特征計算示意圖如圖4所示,在LBP 特征提取步驟上進一步優化,使得編碼更短、傳輸識別速度更快。

圖4 MBCS-LBP 特征提取示意圖Fig.4 Diagram of MBCS-LBP feature extraction
由文獻[21],HOG特征提取示意圖如圖5所示。生成的VPS 分別經由灰度圖像轉換、Gamma 標準化、單元格梯度計算、空間直方圖計算、累加直方圖投影、對比度標準化與塊向量拼接步驟生成相應的HOG特征。在預處理環節,首先對從原始鳴聲譜圖轉換得到的灰度圖像進行Gamma 標準化,然后設置步長、掃描窗口大小等參數,最后啟動HOG 特征提取。在掃描步驟中,對每一個掃描窗口中的單元格進行梯度計算,并將不同權重的梯度信息進行累加直方圖投影,然后將所有單元格在像素塊上再次進行歸一化,最后組合檢測空間所有像素塊的HOG特征。

圖5 HOG 特征提取流程Fig.5 Steps of HOG feature extraction
本文樣本采自于鳥類識別領域引用較多且較為權威的網站Xeno-Canto。該網站收錄了世界各地上千種鳥類的幾十萬條語音樣本。通過分析從該網站下載的部分樣本,發現有些鳥類的記錄數量較少,也有些鳥類的鳴唱復雜多變,不利于識別驗證。為了減小這些情況對識別實驗的影響,本文選取樣本時按照“同種異域,鳴叫優先”原則,采集了不含鳴唱的鳥鳴叫聲片段進行實驗。不失一般性,為有利于開展實驗,本文選取了淡眉柳鶯、華西柳鶯、黃腹柳鶯、寬尾樹鶯、四聲杜鵑、北方中杜鵑、美洲旋木雀、太平洋鷦鷯、白頭鵯、烏鶇、中華鷓鴣、棕北伯勞、麻雀、鸊鷉、花尾榛雞共15種帶標簽的鳥鳴聲樣本。對每一種鳥,均取100 個WAV 格式片段,每個片段用時5 s,共計125 min,每種樣本含噪類型及程度不同,與純凈場景下的鳴聲識別對比,體現了本文算法的普適性及魯棒性。
淡眉柳鶯與寬尾樹鶯同屬鶯科,因其種群的地理分布范圍相近,而且體態較小,難以從遠距離進行人工辨識。據前述原理,若將二者的鳴聲信號轉為能量譜圖,特征差異將較為明顯,易于區分。因此,本文以淡眉柳鶯與寬尾樹鶯兩種鳥類為例,在圖6中展示了對二者鳴聲進行LBP特征提取的效果,以及相應的聲能譜圖特征對比。
在計算機視覺中,圖像邊緣特征、平坦特征和拐角特征對識別性能有重要作用。借此,將淡眉柳鶯VPS的邊緣特征、平坦特征和拐角特征分別展示在圖6中的子圖(a1)、(a2)、(a3)中,并用紅色像素點標示;作為對比,將寬尾樹鶯VPS的3個特征分別展示在圖6 中的子圖(b1)、(b2)、(b3)中,也用紅色像素點標示。從能譜圖直觀對比看,淡眉柳鶯與寬尾樹鶯的鳴聲譜圖形狀有明顯差異。將能量譜圖作進一步直方圖量化,如子圖(a4)、(a5)、(a6)分別對應淡眉柳鶯VPS 邊緣特征、平坦特征和拐角特征這3種像素點的LBP直方圖。從LBP直方圖(b4)、(b5)、(b6)中可以較為明顯地觀察到,根據不同特征像素點量化灰度分別在相應能量譜圖(a1)、(a2)、(a3)中所占的百分比權重分布,即可確定出此鳥鳴聲來自淡眉柳鶯。同理,子圖(b4)、(b5)、(b6)分別對應子圖(b1)、(b2)、(b3)特征像素點的LBP直方圖,可看出,3 種特征像素點量化灰度百分比權重分布較為明顯地表征了此鳥鳴聲與淡眉柳鶯鳴聲的差別,可以確定為來自寬尾樹鶯。因此,鑒于VPS 中特征灰度在整幅譜圖中所占的百分比權重有較大的區別,結合LBP 直方圖,這種差異特征可以用于科屬相近鳥類識別的量化辨識。
聲能譜圖中鳥鳴聲的邊緣特征對識別結果影響較大。根據文獻[22—23],HOG特征提取精度與圖像聲紋特征描述精細度呈正相關。如對特征提取精度越高,則對譜圖的描述程度更好,對圖像邊緣的擬合度也越好,識別率就越高。圖7 分別展示了對9 s 淡眉柳鶯鳴聲譜圖進行8×8 像素、16×16 像素、32×32 像素的HOG 特征提取實驗,相比而言,8×8像素提取精度具有更好的圖像聲紋特征表述效果。因此綜合考慮計算量,在后續的特征對比實驗中,將掃描塊大小設置為3×3 個單元格,其中每一單元格大小設定為8×8 像素,對每個掃描塊的直方圖投影設置為9個方向進行實驗。
中華鷓鴣與花尾榛雞科屬不同但同屬亞鳥綱,其種群分布范圍相近,生活習性也相近。圖8展示了淡眉柳鶯、中華鷓鴣和花尾榛雞這3 種鳥類鳴聲的HOG 特征提取效果及其聲能譜圖特征對比。子圖(a1)、(b1)、(c1)分別為淡眉柳鶯、中華鷓鴣和花尾榛雞這3種鳥類原始VPS;子圖(a2)、(b2)、(c2)為8×8像素精度的HOG 特征提取形式,圖中白色標識的梯度基本擬合了鳴聲譜邊緣;子圖(a3)、(b3)、(c3)進一步展示了對每個掃描塊求梯度值,并進行直方圖投影所得到的HOG 特征三維圖,由此可看出不同鳥類在HOG 特征上有較好區分度,證明HOG特征描述具有較好的識別效果,也可用于鳥類鳴聲識別。

圖6 淡眉柳鶯與寬尾樹鶯鳴聲譜圖特征對比Fig.6 the feature contrast of Phylloscopus humei and Cettia cetti’s spectrogram

圖7 不同精度HOG 特征提取Fig.7 HOG feature extraction with different accuracy

圖8 淡眉柳鶯、中華鷓鴣和花尾榛雞的VPS 特征對比Fig.8 VPS feature contrast between Phylloscopus humei,Francolinus pintadeanus and Bonasa bonasia
本文VPS-BR 算法實現所采用的硬件平臺為TITAN X GPU、8 G 內存,軟件環境為MATLAB 7.0、Python 3.6 以及相關工具包。為了進一步評估VPS-BR 的性能,對照文獻[5]所研究的MFCC 與GMM 組合模型,將提取的LBP、HOG 特征分別與SVM、KNN、RF分類器算法進行兩兩組合實驗。在實驗中,依次選擇2 種、5種、10種、15種鳥的鳴聲進行特征提取與種數識別。為便于比較,各算法按照識別率從低到高的順序依次列于表1。

表1 識別率對比Table 1 Comparison table of recognition rate
觀察并分析表1 中的數據,VPS-BR算法下的6種組合模型平均識別率為80.9%,較MFCC+GMM組合模型高出11.3%,證明VPS-BR識別算法(即從VPS提取LBP與HOG兩類特征,再與SVM、KNN、RF 三種分類器兩兩組合)比MFCC+GMM 的組合模型具有更高的識別率。其主要原因是鳥鳴聲一維波形信號被轉換為二維能量譜圖,通過增加維度引入更多高性能的多特征提取及識別算法對識別增益有直接貢獻。為更好地比較不同模型的識別性能,再將表1 中的7 種模型對2 種~15 種鳥類的識別情況示于圖9。
如圖9(a)所示,盡管每一波形樣本所含噪聲不盡相同,各模型識別變化趨勢也略有波動,但總體看,隨著識別種數增加,這7 種模型的識別率均逐漸減小,而且圖9(b)箱線圖顯示VPS-BR 算法各模型識別率比較穩定,多數優于MFCC+GMM。還可看出,在種數較少情況下,SVM和KNN分類器性能表現較好;在種數較多情況下,KNN 分類器性能仍然較為突出,RF 分類器識別率略高于MFCC+GMM組合模型。圖9 中還顯示LBP+SVM 組合模型較MFCC+GMM 模型以及其他5 種VPS-BR 算法中的模型,表現出較明顯的性能劣勢。這是因為SVM分類器難以適應大于2 的多分類,而且其LBP 直方圖操作因二值化隱去了特征細節,因此這兩方面因素疊加,導致LBP+SVM組合模型識別率最低。
為便于對比,設定鳥的種數為15,將聲能譜圖大小統一調整為180×180像素,然后依次用N×N分別為1×1、3×3、5×5、7×7、9×9 的像素塊大小進行測試。MB-LBP 和MBCS-LBP 特征提取方法在不同分塊情形下的識別性能如圖10所示。

圖9 MFCC+GMM 模型與VPS-BR 算法各模型識別性能對比Fig.9 Comparison of recognition performance between MFCC+GMM model and VPS-BR algorithm
由圖10 可以看出,隨著分塊維度N增加,識別耗時均逐漸減少。相比于前文提到的HOG+KNN模型,識別耗時縮短了91.1%。對于相同分塊維度,采用MBCS-LBP 方法在識別時間上的開銷比MB-LBP 方法少,其原因在于提取聲能譜圖特征時,MBCS-LBP 方法采用鄰域多像素灰度均值較MB-LBP 采用的單像素灰度方法大幅度降低了計算量。但分塊維度的持續增大并不能換取持續增加的識別率。隨著分塊維度N增大,這兩種方法所獲識別率均表現為先逐漸升高后逐漸降低的趨勢。而且均在分塊維度為5×5 時,這兩種方法的識別率達到各自性能頂點,其中MBCS-LBP 識別率最大值92%,比MB-LBP 方法高出2.32%。如分塊維度大于5×5,則因為譜圖微觀特征信息出現相對較大的損失,識別率會發生大幅降低。因此,分塊維度對基于LBP 特征提取的識別影響較大;若兼顧聲能譜圖微觀和宏觀特性,適當地對其進行分塊,不僅可提高識別效率,還可以提高識別質量。

圖10 LBP 特征分塊維度對識別率及識別時間的影響Fig.10 The influence of LBP feature block dimension on recognition rate and recognition time
針對自然復雜聲學環境下鳥鳴聲數據采集難度大、背景噪聲高、質量難以保障等問題,本文應用GAN 對原有的鳥鳴聲數據集進行數據增強以解決鳴聲數據不平衡的問題。
參考文獻[24—26]使用深度卷積生成對抗網絡(Deep convolutional generated-adversarialnetwork,DCGAN)在禽鳥鳴聲特征譜圖數據上進行的實驗,本文在判別器上和生成器上分別使用步幅卷積和微步幅卷積代替池化,這種卷積結構能夠將大部分信息傳遞給下一層,以保證生成圖譜的準確程度;其次引入批規范化操作,解決了梯度消失的問題;最后移除了全連接層并使用不同的激活函數,具體超參數包括Adam 優化、生成器使用ReLU激活函數、判別器使用leakyReLU 激活函數、學習率設為0.0002、每個批次32 個樣本。實驗證明圖譜生成效果較好,譜圖生成前后對比圖如圖11和圖12所示。

圖11 單物種-麻雀鳴聲原始譜圖Fig.11 Original spectrum of single sparrow song

圖12 單物種-麻雀鳴聲生成譜圖Fig.12 Generated spectrum of single sparrow song
圖11 和圖12 展示了部分以麻雀鳴聲為樣本的GAN 網絡生成案例。因為譜圖顏色表示能量高低,可以看出雖然背景噪聲各不相同,但是生成的語音與原始語音邊緣特征近似,表明GAN 生成網絡生成再進行訓練后生成的譜圖能夠反映原始鳴聲特征譜圖所描述的信息;而且譜圖形狀、結構差異性較小,表明在GAN 網絡訓練過程中學習到的知識是可以被使用的,若將迭代次數增加,更進一步得到更好的擬合譜圖。
在實驗中將鳴聲數據分為三組:第一組為訓練集,第二組為數據增強后的“訓練集”,第三組為測試集,可以有效地防止過擬合造成的識別率虛高情況。依次選擇2種、3種、4種、5種鳥的鳴聲進行特征提取與種數識別。為便于比較,各算法按照識別率從低到高的順序依次列于表2。

表2 識別率對比Table 2 Comparison table of recognition rate
觀察并分析表2 中的數據,在5 種鳥類鳴聲數據參與識別的情況下,原始VPS-BR 算法下的6 種組合模型平均識別率為90.47%,而加入GAN 生成的圖片之后,VPS-BR 算法的識別率為91.95%,比之原來提升1.48%。其主要原因一是可用于訓練和識別的樣本數增多,二是增多的數據能夠較好地擬合出原有鳥類語音的信息,對訓練和識別過程起到正向作用,表明GAN 網絡確實起到了數據增強的效果。
針對鳥鳴聲識別的容噪性能差、高復雜度及收斂困難問題,提出一種融合聲紋信息的能量譜圖鳥類識別方法(VPS-BR),通過描述鳥類鳴聲特征譜圖的聲紋特征并進行分類識別。通過LBP 和HOG特征分別與SVM、KNN、RF 分類器算法兩兩組合進行帶噪鳥鳴聲識別實驗,在15種鳥類參與分類的情況下,最高識別率可達92%,驗證了VPS-BR 方法兼具良好的容噪性能與識別魯棒性,且易于收斂。同時表明VPS-BR 方法不僅對噪聲環境有較強的適應性,而且具有較好的識別性能,這是利用圖像方法識別鳴聲的初步嘗試,而基于深度學習以及多種類的特征提取和模型驗證是下一階段的努力方向。GAN網絡的增強處理能夠進一步增強其識別性能,對VPS-BR 中所使用的模型進行改進,實驗效果還可以進一步提高,后續工作將進一步研究如何在整個模型網絡中引入鳥類相關先驗知識。本文可為鳥類識別與保護、濕地生態環境監測和動物行為學研究等領域提供應用方法上的理論參考,也為計算機語音與圖形搭建了聯系的橋梁。