王 宸,陶 毅,吳劍明
(1. 廈門大學海洋與地球學院,福建省廈門361102;2. 廈門大學水聲通信與海洋信息技術教育部重點實驗室,福建廈門361102)
海豚的發聲信號可以分為:通訊信號(whistle)、回聲定位信號(click),和應急突發信號(burst pulse)。海豚的click信號是一種寬頻的脈沖信號,利用click信號可以進行海豚種類自動識別,這種方法對海豚的保護和研究具有重要作用。
現階段已經有一些方法可以根據海豚的click信號來識別海豚種類。Jarvis等[1]提出了一種分類器,它由多個二進制支持向量機(Support Vector Machine, SVM)組成,稱為特定類支持向量機(Class Specific Support Vector Machine, CS-SVM),利用這種模型對四種類型的 click進行分類;Roch等[2]通過提取 click信號的倒譜特征,比較了高斯混合模型(Gaussian Mixture Model, GMMs)和支持向量機模型(SVM)在鯨豚類識別中的性能,發現GMM分類器的錯誤率略低于SVM分類器,其中GMM模型和SVM模型的平均識別準確率分別為 93.5%和92.9%左右。
近年來,關于機器學習方法的研究日益繁盛,機器學習可以利用大量數據或者經驗,通過電腦編程來優化某個性能評價指標,從而對事物進行分類和預測。隨著硬件的快速發展,計算機的計算能力得到了極大的提高,將機器學習方法運用于識別海豚的click信號當中能極大提升工作的效率。因此,本文將以click信號為分類標準,使用3種機器學習方法(K 近鄰法,決策樹法和樸素貝葉斯法)識別中華白海豚,并比較同種海豚識別和不同種海豚識別的差異性。
該實驗中首先用時頻濾波器定位 click信號大致的開始時間和結束時間,然后用Teager-Kaiser能源算子(Teager-Kaiser Energy Operator, TKEO)方法和Gabor濾波器進行click信號的自動檢測,接著通過倒譜法提取 click信號的特征,最后通過機器學習方法識別中華白海豚,流程圖如圖1所示。

圖1 中華白海豚識別方法流程圖Fig.1 Flow chart of recognition method for Sousachinensis
首先采用時頻濾波器定位 click信號的大致開始時間和結束時間,然后用Teager-Kaiser能源算子(TKEO)和Gabor濾波器用于精確定位click信號起始點和結束點,這極大地提高了提取中華白海豚click信號的效率[3]。
利用倒譜的方法可以對海豚 click信號進行特征提取。倒譜的原理如下:先將 click信號經過傅里葉變換及對數運算,再經過傅里葉反變換得到特征提取后的信號。
從3種海豚中,各隨機抽取5個click信號,畫出經過倒譜方法進行特征提取后的 click信號,從而驗證3種海豚經過特征提取后信號存在顯著差異。特征提取后的click信號如圖2所示。

圖2 特征提取后的click信號Fig.2 Click signal after feature extraction
由圖2可以看出,雷州灣海域中華白海豚的信號幅值在-8~0之間(見圖2(a));廈門海域中華白海豚幅值在-2.8~0.3之間(見圖2(b));廈門海域寬吻海豚幅值在-5.3~0.2之間(見圖 2(c))。3種海豚經過特征提取后的 click信號存在顯著性差異,可以用于后續模型的訓練。
利用3種機器學習方法識別中華白海豚。以下為三種機器學習算法的原理:
1.4.1 K近鄰
K 近鄰(K-Nearest Neighbor, KNN)算法是機器學習中一種常見的分類方法。該算法由3個條件組成,即K值的大小、距離長度和分類決策規則。在輸入新的數據前,需要確定這3個條件,從而可以確定數據的類別。原理如下:
(1) 輸入:訓練集

其中:xi∈X∈RN為數據的特征向量,yi∈Y={c1,c2,??,ck} 為數據的類別,i= 1 ,2,??,N。
(2) 輸出:數據x所屬的類y
通過計算距離長度,找到訓練集T中最接近x的K個點,覆蓋K個點的x的區域表示為Nk(x)。
在Nk(x)中根據分類決策規則(如多數表決)決定x的類別y:

其中:I為指示函數,即當時,I為1,否則為0。
1.4.2 決策樹-分類回歸樹
決策樹-分類回歸樹(Classification and Regression Tree, CRAT)是一種重要機器學習分類算法,可以用于分類和回歸[4]。
設訓練樣本集為

當創建回歸樹時,Y為連續值;當創建分類樹時,Y為離散值。通過算法將樣本集分成兩個子樣本集,使生成的決策樹的每個非葉結點僅具有兩個分枝。在每個節點處,找到最優分裂變量和對應的分裂值,其可以使下一代子節點數據集中的非純度下降最大[4]。在這里非純度指標用基尼指數來衡量,其定義為

其中:i(t)是節點t的基尼指數,p(i/t)表示在節點t中屬i類的樣本比例,p(j/t)是節點t中屬于j類的樣本比例。用該分裂變量和分裂閾值把根節點t1分裂成t2和t3,如果在某個節點t1處,不可能再進一步顯著降低非純度,則該點稱為葉結點,否則繼續尋找它的最優分裂變量和對應的分裂值進行分裂[4]。
1.4.3 樸素貝葉斯
樸素貝葉斯(Navie Bays, NB)分類是以貝葉斯定理為基礎,是貝葉斯分類中常見的一種分類方法。
假設訓練集為m個樣本,n個維度,如下:


雷州灣中華白海豚的發聲數據集來自中國廣東雷州灣海域的中華白海豚。實驗過程中,調查船與中華白海豚之間需要保持一定的距離,等到中華白海豚活動狀態相對穩定時,關閉調查船的發動機,并迅速安排實驗儀器記錄中華白海豚的發聲數據[6]。整個記錄過程中,在研究區域中沒有發現其他鯨豚物種。實驗儀器采用丹麥B&K公司生產的8105水聽器(電壓靈敏度為 56 μV/Pa)作為前端輸入,利用B&K2692NEXUS適配放大器對信號進行放大,然后通過 NIDAQ6062E高速數據采集卡進行中華白海豚聲信號的數據采集,最后把數據儲存在電腦中,用于終端信號存儲與處理[7]。
廈門灣中華白海豚的發聲數據集來自中國福建廈門海域的中華白海豚。在廈門浯嶼島海域中記錄到1段中華白海豚群體的發聲信號。這個群體一共包括4只中華白海豚。在下午13:00~15:00這段時間,每隔30 s記錄一段數據,共記錄了16段中華白海豚發聲的數據[7]。整個記錄過程中,在研究區域中沒有發現其他鯨豚物種。實驗儀器由 Reson公司的全方向性水聽器TC 4014(含前置放大,頻率響應為15~480 kHz),高通濾波放大器VP1000(放大增益0~32 dB),NI公司的高頻采集卡USB6351和Lenovo公司的PC機T61組成[7]。
廈門灣寬吻海豚的發聲數據集來自中國福建省廈門海域的寬吻海豚。在廈門五緣灣海域中,共記錄了 19段寬吻海豚的發聲數據,時長總計37 min 39 s。整個記錄過程中,在研究區域中未發現其他鯨豚物種出現。實驗中采用丹麥B&K公司生產的8105水聽器和NIDAQ9216數據采集卡。
2.2.1 信號處理
利用倒譜的方法對自動識別出的海豚回聲定位信號進行特征提取。
2.2.2 數據集準備
經過處理后的3組各1 200個click信號,通過交叉驗證分為訓練集和測試集,其中訓練數據的click信號數量為1 080個,測試集的click信號數量為120個,如表1所示。

表1 3類海豚的訓練數據和測試數據Table 1 Training data and test data of three species of dolphins
將廈門灣中華白海豚和雷州灣中華白海豚設為第一組,進行同種海豚識別。將廈門灣中華白海豚和寬吻海豚設為第二組,進行不同種海豚識別。
2.2.3 測試過程
用測試集中的測試數據對訓練后的模型進行測試,共測試10次,測試集結果如表2、3所示。將不同模型的預測準確率以箱線圖的形式進行畫圖,結果如圖3、4所示。
2.2.4 實驗結果
第一組實驗結果可以看出廈門灣中華白海豚和雷州灣中華白海豚的識別準確率,平均值均在98%以上,其中K近鄰模型和決策回歸樹模型平均識別準確率分別為0.992和0.991,方差分別為0.005和 0.006,樸素貝葉斯模型的平均識別準確率較低為0.982,方差為0.012。

表2 第一組實驗的準確率和方差Table 2 The accuracy and variance of the first group of experiments

表3 第二組實驗的準確率和方差Table 3 The Accuracy and variance of the second group of experiments

圖3 第一組實驗的準確率Fig.3 The accuracy of the first group of experiments

圖4 第二組實驗的準確率Fig.4 The accuracy of the second group of experiments
由第二組實驗結果可以看出廈門灣海域中華白海豚和寬吻海豚的識別準確率,平均值均在94%以上,其中 K近鄰模型平均識別準確率最高為0.980,方差為 0.007,CART模型和樸素貝葉斯的平均識別準確率較低分別為0.949和0.960,且方差較大,分別為0.010和0.017。
本文中分別利用3種常見的機器學習算法對廈門海域和雷州灣的中華白海豚以及廈門海域的中華白海豚和寬吻海豚進行識別,平均識別準確率分別達到98%和94%以上。其中K近鄰算法具有最高的平均識別準確率。在兩組實驗結果中,樸素貝葉斯算法具有相對較低的準確率和較大的方差,這是因為樸素貝葉斯模型中總體的概率分布和各類概率分布函數常常是未知的,獲取這一數值需要足夠大的樣本量。另外,第二組的平均識別準確率相對于第一組下降了 2%,這與采集數據的質量有一定的關系,其中決策樹模型的平均識別準確率降低了4%,這與設置的決策樹參數有關。
由于采集到的海豚發聲信號數據集有限,未來工作需要更多的數據進行驗證,提高對廈門海域的中華白海豚和寬吻海豚的識別準確率。