黃漢英 楊詠文 李 路 趙思明 熊善柏 涂群資
(1.華中農業大學工學院, 武漢 430070; 2.華中農業大學食品科技學院, 武漢 430070)
我國是淡水魚養殖大國,在魚類養殖過程中,采用多品種合理混養與密養是實現高產的有效措施,因此魚類混合比例和數量識別在漁業資源調查和養殖監測中具有重要意義。被動水聲技術是魚類監測中常用的方法,其研究主要集中在海洋魚類的發聲特點[1-4]、魚類資源調查[5-9]、行為特征[10-13]等方面。然而,淡水魚和海水魚的發聲機理及生活習性不同,魚聲信號也不相同,目前針對淡水魚的研究較少。文獻[14]主要研究了淡水魚水聲信號特征參數的提取方法,使用概率神經網絡分類器建立了淡水魚品種識別模型;文獻[15]利用多元線性回歸算法建立了淡水魚數量估計模型;文獻[16]分析了魚的種類和數量與頻段能量、平均Mel頻率倒譜系數等特征之間的關系。這些研究僅僅涉及到單品種淡水魚的種類和數量,針對淡水魚混合比例和數量識別的研究鮮見報道。
針對上述問題,本文研究不同混合比例的淡水魚水聲信號,提取其特征參數,運用基于主成分分析(Principal component analysis,PCA)的支持向量機(Support vector machine, SVM)模型進行淡水魚混合比例識別。
選取鳊魚、鯽魚作為試驗材料,在華中農業大學市場購買鳊魚、鯽魚各4尾。其中鳊魚每尾0.4~0.7 kg,鯽魚每尾0.3~0.6 kg。
淡水魚被動水聲信號采集裝置如圖1所示,其主要包括SM2+型聲學記錄儀、HTI-96-MIN型水聽器和隔音魚箱。魚箱高為73 cm,直徑為60 cm,壁厚為0.5 cm,容積約為200 L。魚箱外表面覆蓋隔音海綿,以減弱外界噪聲對試驗的干擾,其中試驗魚箱采集魚聲信號,對照魚箱采集環境背景噪聲,用于后續信號預處理。

圖1 淡水魚被動水聲信號采集裝置示意圖Fig.1 Sketch of freshwater fish passive acoustic signal acquisition device1.試驗魚箱 2.1號水聽器 3.聲學記錄儀 4.2號水聽器 5.隔音海綿
1.2.1信號采集
利用淡水魚被動水聲信號采集裝置采集混養鳊魚和鯽魚的聲音信號。首先往水箱中注入約160 L水,將水聽器置于水面以下25 cm處,測量試驗環境參數,其中水溫為15~20℃,pH值為7.5~8.0,溶氧量為7~8 mg/L。將鳊魚和鯽魚分別按4∶1、3∶1、2∶1、1∶1、1∶2、1∶3、1∶4(分別用1~7作為分類標簽)的比例放入水箱中,其中每種比例中的“1”代表魚的數量為1尾,靜置10 min后開始信號采集。設置聲學記錄儀的采集時長為1 min,采樣頻率為4 000 Hz,每種混合比例各采集120個樣本,共采集840個鳊魚和鯽魚混合比例的水聲信號樣本。
1.2.2信號預處理
采集的淡水魚水聲信號樣本中含有噪聲,因此在提取水聲信號特征之前需要進行濾波、消噪等預處理。運用Cool Edit Pro數字音頻編輯器消除魚聲信號背景環境噪聲,并在Matlab 2014a軟件下采用butter函數進行濾波,其中濾波器的階數為4,截止頻率為1 000 Hz。
1.2.3樣本集劃分
將采集的840個鳊魚和鯽魚混合比例的水聲信號樣本進行信號預處理后,運用SPXY(Sample set partitioning based on joint X-Y distance)法[17]劃分樣本。為了使訓練的樣本數據覆蓋更均勻和廣泛,以保證每一種比例的識別率,首先將數據按照比例分組,然后在每組內分別使用SPXY法按4∶1的比例將數據劃分為訓練集和測試集,即訓練樣本共672個,測試樣本共168個。
1.2.4特征參數提取
魚聲信號與語音信號在聲學特征方面具有相似性,而在很多語音信號處理中,都會涉及到短時平均能量、短時平均過零率等,因此利用文獻[18]中的計算公式提取了短時平均能量和短時平均過零率,并通過功率譜分析提取了主峰頻率和主峰值。
Mel頻率是基于人耳聽覺特性提出來的,Mel頻率倒譜系數是利用其與頻率的非線性對應關系計算得到的頻譜特征,在語音識別領域應用廣泛。本文將預加重后的魚聲信號進行分幀處理,并選用Hamming窗作為窗函數,通過三角Mel帶通濾波器進行濾波,提取了12維平均Mel頻率倒譜系數。
由于魚聲信號具有明顯的時變特性,單獨的時域特征或者頻域特征都無法客觀地反映魚聲信號的全部特征。而小波包分解是一種可以獲取信號時頻局部特征的方法,適用于魚聲信號的提取。因此本文采用4層小波包分解,選取正交小波作為小波包基函數,再結合重構算法得到各頻段重構信號的能量,提取了16維頻段能量特征。
將上述所提取的特征采用Z-score[19]進行標準化,建立魚聲信號特征向量X=(x1,x2,…,x32),其中x1為短時平均能量,x2為短時平均過零率,x3~x18為小波包分解頻段能量,x19~x30為平均Mel頻率倒譜系數,x31為功率譜主峰頻率,x32為功率譜主峰值。
1.2.5主成分分析原理
所提取的水聲信號特征間可能存在較強的相關性,而主成分分析[20]運用降維的思想能將原本具有一定相關性的指標經過正交變換重組為互不相關的綜合指標,因此進行主成分分析可以進一步降低噪聲對分類結果的影響,提高識別正確率。主成分分析的數學模型為
(1)
式中ujp——標準化系數
xip——第i個水聲信號樣本的第p個標準化特征
zij——第i個水聲信號樣本的第j個主成分變量
經過主成分分析后魚聲信號特征向量為Zi=(zi1,zi2,…,zij),用于淡水魚混合比例識別。
1.2.6分類器設計
基于被動水聲信號的淡水魚混合比例識別本質是對淡水魚水聲信號進行分類。本文采用基于PCA的支持向量機分類算法實現淡水魚的混合比例識別,并與支持向量機、概率神經網絡、Fisher線性分類器模型的識別效果進行比較。
支持向量機是一種基于結構風險最小原則的模式識別方法[21]。其主要思想是將樣本空間的數據映射到高維空間,并在高維空間中尋找一個超平面,使得超平面與不同樣本集間的距離最大,以保證最小的分類錯誤率。本文構造軟邊距最優超平面,引入非負松弛變量ξi,為使訓練樣本(Zi,Yi)盡可能被正確分類,則需滿足
Yi(ωZi+b)≥1-ξi
(2)
式中ω——超平面的法向量
b——超平面截距
Yi——第i個水聲信號樣本對應的分類標簽
在約束條件式(2)下,分類超平面的最優問題為
(3)
式中C——懲罰系數N——訓練樣本數
其對偶問題為
(4)
式中α——Lagrange系數
K(Zi,Zm)——核函數
αi——第i個樣本對應的Lagrange系數
αm——第m個樣本對應的Lagrange系數
Ym——第m個水聲信號樣本對應的分類標簽,m≠i
相應的分類決策函數為
(5)
式中Z——待分類樣本 sgn(·)——符號函數
ft(Z)——第t類標簽對應的決策函數
將Z代入決策函數ft(Z),若ft(Z)>0,且fq(Z)<0(t、q=1,2,…,7,t≠q),則將其歸為第t類,反之歸為第q類。
選用徑向基函數(Radial basis function,RBF)作為支持向量機的核函數,其公式為
K(Zi,Z)=exp(-γ‖Z-Zi‖2)
(6)
懲罰系數C、核函數參數γ的選取會影響支持向量機算法的識別效果。而粒子群優化算法(Particle swarm optimization,PSO)[22]是一種群體智能優化算法,可以在較大范圍內快速地尋找C和γ最優值,提高搜索效率和識別正確率。
1.2.7模型評價標準
選用Kappa系數[23]和平均識別正確率來評價分類器模型的性能。Kappa系數是一種衡量多分類問題分類精度的指標,能夠計算樣本數據的整體一致性和分類一致性。Kappa系數在實際應用中通常取[0,1],越大表示模型分類精度越高。計算公式為
(7)
其中
(8)
(9)
式中Po——平均識別正確率
at——第t類樣本被識別正確的個數
n——總樣本個數
bt——第t類樣本的個數
ct——預測結果中第t類樣本的個數
Po直觀反映了分類器的性能,平均識別正確率越高,分類器越好。

圖2 不同樣本水聲信號消噪前后時域波形Fig.2 Diagrams of time domain waveform before and after denoising of different samples
圖2分別為2種不同混合比例的鳊魚、鯽魚水聲信號樣本濾波前后的時域波形。由圖2可知,采取butter函數的濾波方法可以有效地減弱噪聲干擾,鳊魚和鯽魚1∶2與2∶1混合比例的水聲信號時域波形存在差異。
每種比例120個樣本的特征參數平均值計算公式為
(10)
為突出每一種比例的水聲信號特征,將每種比例的32個特征參數平均值繪制成折線,結果如圖3所示。由圖3可知,不同混合比例的水聲信號樣本特征參數平均值存在一定的差異,雖然短時平均能量(p=1)、短時平均過零率(p=2)以及主峰頻率(p=31)和主峰值(p=32)的曲線存在近似重合的情況,無法將不同混合比例的水聲信號完全區分,但不同混合比例的水聲信號樣本的小波包分解頻段能量(p=3,4,…,18)和平均Mel頻率倒譜系數(p=19,20,…,30)的曲線波動較明顯。

圖3 7種混合比例水聲信號樣本特征參數平均值Fig.3 Average value of characteristics of seven classes acoustic signal samples
7種混合比例的水聲信號樣本特征參數顯著性分析結果如表1所示。由表1可知,在提取的32個水聲信號特征中,只有平均Mel頻率倒譜系數(p=19,20,…,30,且p≠26)能將第4類和第5類混合比例的水聲信號顯著區分,不同混合比例水聲信號樣本的特征之間存在一定差異,主峰值(p=32)的差異最小,平均Mel頻率倒譜系數的差異最大。由此可知,本文提取的32個特征可以用于淡水魚混合比例識別,且平均Mel頻率倒譜系數對于淡水魚混合比例識別效果最優。
2.3.1主成分分析
對提取的32個特征進行主成分分析,其貢獻率分布如圖4所示。由圖4可知,主成分貢獻率急劇下降,特征值大于1的前4個主成分貢獻率分別為43.57%、26.17%、11.81%、6.04%,累計貢獻率達到87.59%,代表了原始數據的大部分信息,說明所提取的32個特征之間具有較強的相關性,在實際應用中,可根據識別精度的要求通過主成分分析適當地對特征進行壓縮,從而提高識別效率。
2.3.2主成分個數對模型識別率的影響
以主成分分析得到的特征Zi建立支持向量機模型,得到7種混合比例的平均識別正確率與主成分個數的關系如圖5所示。由圖5可知,前4個主成分的測試集平均識別正確率為84.52%,前19個主成分的測試集平均識別正確率達到96.43%,隨著選用主成分個數的增加,模型的平均識別正確率急劇提高,當主成分個數少于10時,受測試樣本數和樣本集劃分的影響,存在訓練集平均識別正確率低于測試集平均識別正確率的情況,當主成分個數達到19時,訓練集和測試集的平均識別正確率均達到最大值且保持不變。因此,本文選用前19個主成分作為特征進行淡水魚混合比例識別。

表1 7種混合比例的水聲信號樣本特征參數顯著性分析Tab.1 Characteristic significance analysis of acoustic signal samples of seven classes
注:A、B、C表示組間數據在0.01水平上差異顯著,字母不同表示差異極顯著。

圖4 主成分貢獻率分布Fig.4 Distribution of principal component contribution rate

圖5 主成分個數與平均識別正確率的關系Fig.5 Relationship between number of principal components and average recognition rate
2.3.3模型評價
不同模型識別效果比較如表2所示。由表2可知,Fisher線性分類器模型的訓練集和測試集平均識別正確率均最低,Kappa系數最小,概率神經網絡模型的訓練集平均識別正確率較高,但測試集平均識別正確率低于PCA-SVM模型,模型泛化能力較差,PCA-SVM模型的訓練集和測試集平均識別率均高于SVM模型,測試集Kappa系數最大,因此模型泛化能力較強,分類精度較高。結果表明,PCA可以提高模型的識別率,PCA-SVM模型具有良好的分類識別能力,適用于淡水魚混合比例識別。

表2 不同模型識別效果比較Tab.2 Recognition effects comparison of different models
研究了7種混合比例的鳊魚和鯽魚被動水聲信號,分別提取了短時平均能量、短時平均過零率、4層小波包分解頻段能量、12維平均Mel頻率倒譜系數、基于功率譜的主峰頻率和主峰值等共32個特征,分析了不同混合比例水聲信號特征的顯著性差異,建立基于PCA的支持向量機分類模型,探討了主成分個數與平均識別正確率的關系,比較了不同模型的識別效果。結果表明,平均Mel頻率倒譜系數對于淡水魚混合比例識別效果最優,基于PCA的支持向量機模型的平均識別正確率較高,選用19個主成分進行比例識別時平均識別正確率達96.43%,Kappa系數為0.96,適用于淡水魚混合比例識別。