蒼 巖,羅順元,喬玉龍
基于深層神經網絡的豬聲音分類
蒼 巖,羅順元,喬玉龍
(哈爾濱工程大學信息與通信工程學院,哈爾濱 150001)
豬的聲音能夠反映生豬的應激狀態以及健康狀況,同時聲音信號也是最容易通過非接觸方式采集到的生物特征之一。深層神經網絡在圖像分類研究中顯示了巨大優勢。譜圖作為一種可視化聲音時頻特征顯示方式,結合深層神經網絡分類模型,可以提高聲音信號分類的精度?,F場采集不同狀態的豬只聲音,研究適用于深層神經網絡結構的最優譜圖生成方法,構建了豬只聲音譜圖的數據集,利用MobileNetV2網絡對3種狀態豬只聲音進行分類識別。通過分析對比不同譜圖參數以及網絡寬度因子和分辨率因子,得出適用于豬只聲音分類的最優模型。識別精度方面,通過與支持向量機,隨機森林,梯度提升決策樹、極端隨機樹4種模型進行對比,驗證了算法的有效性,異常聲音分類識別精度達到97.3%。該研究表明,豬只的異常發聲與其異常行為相關,因此,對豬只的聲音進行識別有助于對其進行行為監測,對建設現代化豬場具有重要意思。
信號處理;聲音信號;識別;深度學習;豬只音頻;梅爾倒譜系數;分類
生豬的聲音信息是其重要體征之一,與豬的生長狀態和健康狀況息息相關。群養條件下,生豬呼吸系統的疾病具有一定的傳染性,容易引發群體性疾病,聲音特征可以直接反應呼吸系統的疾病。另外,聲音也被認為是判斷豬只應激狀態的一個依據,豬只在運輸或者屠宰的過程中,會產生應激反應。在這類情況下,特別是其他應激源特征不明顯或者不易采集時,由于聲音強度高,特征明顯,可以作為一個應激程度的判別條件。此外,生豬的聲音是一種較為容易獲取的一種生物學信息,并且聲音信號的采集可以與豬只保持一定距離,不會引發豬只任何應激反應,因此聲音已經逐漸成為一種用于分析行為、健康和動物福利的重要方法[1]。特別是,隨著無線傳感器網絡技術的快速發展[2-4],圍繞著家畜[5-8],特別是豬只聲音分析的研究逐漸增多[9-14]。
早期動物聲音領域中,通常使用包絡模板匹配方法識別,將待識別的動物聲音,比如咳嗽聲音,生成包絡模板,將采集到的現場聲音信號與模板進行逐一匹配,從而實現聲音的分類識別[10]。然而,這種方法中存在著一定弊端,其他類型的聲音也有可能在包絡特征上與模板匹配,比如屠宰過程中,由于應激而產生的短促叫聲與疾病引起的咳嗽聲,二者包絡匹配度也很高[15]。后期隨著聲音信號處理技術的發展,豬只聲音處理方法也逐漸進步。2003年,Van Hirtum等Berckmans[9]利用模糊算法對豬只聲音進行分析,數據集包含5 319條聲音,正確識別率為79%。Moshou等[13]利用線性預測編碼(Linear Predictive Coding,LPC)譜對生豬聲音進行了處理,聲音識別率為87%。2008年,Ferrari等[16]通過分析豬聲音信號波形的均方根及峰值頻率,發現了正常豬與患有呼吸道疾病的聲音信號的差異性,從而識別出患病豬,對后續進行的養殖場多種行為狀態的動物聲音的差異性分析,提供了理論依據。同年,Exadaktylos等[17]對豬咳嗽的聲音信號進行了功率譜密度分析,并用歐式距離衡量聲音信號的相似性,通過對應的閾值設定,實現了豬咳嗽聲音信號的監測。2013年,Chung等[18]通過對豬聲音信號進行梅爾頻率倒譜系數(Mel-scale Frequency Cepstral Coefficients,MFCC)提取,并用支持向量機分類算法對患有不同疾病的豬聲音信號進行分類識別,實現了對應疾病與不同聲音信號的匹配,這為養殖場豬的患病狀況提供了有效參考。2016年,馬輝棟等[19]用語音識別中的端點檢測法進行豬咳嗽聲音信號的檢測,提出了用雙門限檢測法對豬咳嗽聲音信號進行端點檢測,有效提高了豬咳嗽聲音信號的檢測效率,有利于后期對豬咳嗽聲音信號的識別。
本研究旨在通過深度學習技術實現對豬只聲音分類識別,以促進福利化養殖、提升豬只的健康水平。通過對現場采集的聲音進行分析,對多種類別的聲音進行聲音預加重、端點檢測、加窗分幀后,提取豬只聲音信號的多種特征參數,通過分析研究豬只聲音信號的譜圖特征,探究適用于深層神經網絡結構的最優譜圖生成方法,最終選擇MobileNetV2網絡模型作為試驗基礎模型,改進了網絡原有的優化策略,并利用提取的聲音特征訓練分類模型,建立豬只聲音識別系統,有效地識別豬只不同狀態的聲音。
1.1.1 試驗場地
本研究的試驗地點在河北省承德市某試驗豬場,試驗豬的類型為三元母豬杜長大。數據采集時間從2017年3月至2017年6月。豬只采用群養方式飼養于1.8 m×5 m的豬欄內。在試驗期間內,豬舍平均溫度為22 ℃,最高溫度25.4 ℃,最低溫度18.6 ℃。自然光照時間從早晨7時至傍晚19時。試驗設備采用吊裝的方式安裝于豬欄的中間位置(圖1)。

圖1 試驗現場
1.1.2 數據采集
本研究使用的聲音數據均在養殖場的實際環境下,通過使用數據采集盒、筆記本電腦等設備采集得到。采集盒內部的主要構造為ReSpeaker Core v2.0開發板(圖 2a),現場聲音數據傳輸存儲方式如圖2b所示。
采集數據為采樣率為16 KHz的單通道音頻,并以wav. 格式儲存于存儲設備中。為保證錄音效果以及得到可靠標簽的聲音數據,錄音過程中需要實時監測,并根據現場生豬的狀態對已錄的音頻進行初步標記,方便后續處理。采集的基本聲音類型分為正常的哼叫聲、受驚嚇的尖叫聲、喂食前嚎叫聲。其中,正常聲音為生豬在無應激反應時正常哼叫狀態下采集得到。喂食前的聲音為飼養員在投喂飼料時,豬由于看到食物產生應激反應而發出的聲音,類似嚎叫聲。受驚嚇的聲音為生豬在打針、咬架、被追趕時發出的聲音,在采集這類聲音時,需要進行強烈的人為刺激,因此采集難度較前2種更大,實際采集中也最為費時。
1.1.3 數據集構建
采集盒采集的聲音數據,在一段音頻中可能存在多種狀態下的聲音、無效聲音段,并且音頻長短不一,因此需要進一步的進行手工打標簽及批量切分操作,以構建試驗所需的數據集。手工標注使用的軟件為Audacity音頻處理軟件,操作界面如圖3所示。

圖2 數據采集方案

圖3 Audacity操作界面
使用Audacity為音頻標記后,對標簽后的音頻按類別進行批量切分,切分程序由Python編程實現?;谡Xi叫聲的周期性(0.5~1.8 s),確定2 s為音頻切分長度,即切分后的每條樣本至少包含一個聲音的完整周期。
制作數據庫如表1所示,其列出的數據庫是切分處理后的所有音頻按8∶2隨機分為訓練集和測試集,且每類均勻分布,得到的最終試驗數據庫。數據庫中包含正常哼叫、受驚嚇、喂食前狀態的聲音樣本,本研究主要討論這3種聲音的識別。

表1 數據庫音頻量分類統計
在聲音信號的特征提取之前,需要先對聲音信號進行預處理,這個過程對后面的特征提取、特征識別的效果都有重要的影響[20]。生豬聲音信號的預處理與語音信號處理中的預處理過程相似,包括聲音信號的預加重、分幀加窗、端點檢測。
1.2.1 預加重
在對豬音頻信號進行處理之前,為了增強聲音信號的高頻分量,去除發音過程中口唇輻射效應的影響,需要對音頻信號進行預加重處理。預加重就是讓聲音信號通過一個數字濾波器,通過預加重,可以補償豬只聲音信號的高頻特性[21]。濾波器的階數為1,其傳遞函數如式(1)所示


1.2.2 加窗分幀



1.2.3 端點檢測
由于采集到的豬音頻信號中存在無效的聲音片段,即有噪聲段和無聲段的干擾。因此需要對豬音頻信號進行端點檢測,確定聲音的起點和終點,以改善數據質量同時為后續特征提取減少了運算量,提高了計算效率。對豬的音頻信號進行端點檢測,本研究借鑒了語音信號處理中效果較好的雙門限檢測法,利用短時過零率和短時能量進行信號分析[22]。算法計算步驟如下:






圖4 音頻波形圖

圖5 音頻譜圖
譜圖生成后,利用圖像處理領域中的深度卷積神經網絡模型實現分類識別。本研究采用的MobileNetV2網絡模型[26],該模型是在殘差網絡和MobileNetV1[24]網絡模型的基礎上提出的輕量級的深層神經網絡,在保證準確度的同時,大幅減少乘法和加法的計算量,從而降低模型參數和內存占用,提高計算速度。MobileNetV2網絡模型基本的構建塊是殘差瓶頸深度可分離卷積塊,網絡包含初始的32個卷積核的全卷積層,后接7個瓶頸層,網絡中使用ReLU6作為非線性激活函數。MobileNetV2網絡采用大小為3×3的卷積核,在訓練時候利用丟棄(dropout)[27]和批標準化(batch normalization)技術防止過擬合。本研究中dropout取0.5。在訓練開始時,隨機地“刪除”一般的隱層單元,保持輸入層不變,更新網絡的權值,依次迭代,每次迭代過程中,隨機的“刪除”一般隱層單元,直至訓練結束。MobileNetV2網絡模型的詳細模型結構如表2所示。

表2 MobileNetV2 網絡模型結構[26]
注:表示樣本的類別數。
Note:represents the number of categories of samples.








在相同數據且除優化器本身參數外其余參數相同的情況下,分別用RMSprop優化器和Adam優化器進行對比試驗,其結果如圖6所示。

圖6 2種優化算法下模型損失函數變化
在本研究試驗中,模型訓練的所用的軟硬件平臺如下:
CPU:Core i7-8700K
內存:16GB DDR4
GPU:NVIDIA GeForce GTX 1080Ti
系統平臺:Ubuntu 16.04 LTS
軟件環境:Tensorflow 1.8.0、Cuda 9.0、Cudnn 7.0、Anaconda3.
由于本試驗的數據規模比較小,過訓練的現象不會出現,因此本研究試驗中數據集直接分為訓練集和測試集2個部分。為確定最優的譜圖參數,包括窗長和窗移參數,每次訓練集和測試集以8∶2隨機分配,測試不同參數生成的譜圖對識別率精度的影響。每組參數都進行了5次獨立試驗,試驗采用標準的MobileNetV2網絡模型,輸入圖像尺寸為224×224,由試驗結果可見(圖 7),不同類別的譜圖對模型性能有一定影響,在多次試驗下發現256點FFT、1/2窗移下的譜圖訓練模型識別效果最好,進而將譜圖類別與平均準確率繪制成折線圖,如圖8所示。

注:FFT表示信號的快速傅里葉變化,下同。

圖8 各類譜圖平均識別率統計圖
由圖8可知,相同窗長參數,1/2窗移參數的譜圖訓練所得模型識別率更優;相同窗移參數,256點FFT的譜圖訓練所得模型識別率更優,即頻率分辨率較高的譜圖表現更好。綜上,通過譜圖的優化試驗,較標準MobileNetV2網絡模型結果,優化后模型分類準確率提高1.8%。優化后的模型最終總體識別率為97.3%。對最優模型在測試集上各類別的識別率進行分類統計(表 3),表中測試樣本數目、正確識別數目及識別率都是5次試驗的平均值。
由于未來應用場景中,豬舍聲音監控模塊集成在一個小型手持設備中,對硬件設備的內存和運行速度有一定的限定條件,因此在保證精度的前提下,希望獲得更快更小的模型。本研究通過對寬度因子和分辨率因子的試驗,在標準MobileNetV2網絡模型的基礎上訓練定義出更小更有效的模型。

表3 測試集識別結果統計



進行分辨率因子調整后的網絡計算量如式(18)所示

進行寬度因子調整前后的網絡計算量之比如式(19)所示



進行寬度因子、分辨率因子調整前后的網絡計算量之比如式(21)所示


不同寬度因子和分辨率因子下的試驗結果如表4所示。由表中試驗結果可知,網絡寬度越小、譜圖的分辨率越低,模型的大小越小,速度越快,同時識別率有一定損失。分析可知,在識別率損失0.5%以內時,模型運行速度可有3到4倍的提升;識別率損失1.0%以內時,模型速度可有7~10倍的提升。通過對寬度因子和分辨率因子試驗,對網絡結構進行調整,可求得模型速度和精度的權衡,滿足適應實際應用中的需求。實際應用中,可根據應用場景的不同需求進行選擇。試驗結果表明,壓縮后的模型,在損失很小的精度的情況下,模型大小大大減小,模型運行速度顯著提升。
選取支持向量機(Support Vector Machine,SVM)以及梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)、隨機森林(Random Forest,RF)、極端隨機樹(Extra Trees,ET)算法分別進行了豬聲音數據集的訓練和測試,將測試結果與本研究分類網絡結果進行對比分析。
為了方便分析,測試結果以多分類混淆矩陣的形式表示(表5)。混淆矩陣中的每一列代表樣本預測值,每一行代表樣本的真實值,混淆矩陣可以反映出識別模型的性能。由混淆矩陣的性質可知,對角線元素為正確識別的樣本,非對角線元素為錯判樣本。對測試集的識別結果進行統計,各算法模型下得到的混淆矩陣如下列表格所示,所有結果均取模型的最優結果進行對比。

表4 不同寬度因子和分辨率因子下的試驗結果統計

表5 4種算法模型下試驗結果的混淆矩陣統計
通過對4種模型在測試集上的混淆矩陣進行初步分析可以看出,各個模型對正常狀態的樣本識別率高,而對受驚嚇和喂食前狀態的樣本識別率較低。
通過對以上試驗結果進一步分析,可以得出以下幾點結論:
1)較SVM,3種集成學習算法識別率更優;
2)3類集成學習算法中,ET算法模型對豬聲音識別效果最好,RF模型次之,且優于GBDT模型;
3)4種模型對不同類別聲音的識別率差異明顯,對正常狀態的樣本的識別率高,對受驚嚇和喂食前狀態的樣本的識別率較低。
基于上述試驗得出的最優MobileNetV2網絡模型參數以及譜圖的最優參數基礎上,利用相同的數據集合,將本研究提出的網絡與上述4種算法進行了識別精度的對比分析(圖9)。

圖9 各模型對測試集樣本識別率分類統計圖

針對豬只音頻識別中集成學習模型和支持向量機(Support Vector Machine,SVM)模型類間識別率差異明顯,對受驚嚇和喂食前狀態聲音樣本識別率較低的問題,本研究提出了深層神經網絡結合譜圖的識別方法,使用手工制作的數據集對模型進行了設計、實現及和優化。模型以MobileNetV2網絡為基礎,改進了其網絡原有的優化策略,提升了模型性能。此外,本研究進一步的從譜圖的生成方式以及網絡結構調整這2個方面來及進行模型優化。在標準MobileNetV2網絡上初步訓練所得模型準確率95.5%,通過譜圖優化試驗,模型識別性能提升了1.8%,即最終訓練得到的模型識別率為97.3%,且模型對各類別識別率都很高,克服了集成學習分類器存在的問題。進一步的,通過寬度因子和分辨率因子試驗,在標準MobileNetV2模型的基礎上定義了更小更有效的模型,通過損失很小精度來顯著提升模型速度,滿足實際應用中的需求。
[1] 黎煊,趙建,高云,等. 基于深度信念網絡的豬咳嗽聲識別[J]. 農業機械學報,2018,49(3):179-186. Li Xuan, Zhao Jian, Gao Yun, et al. Recognition of pig cough sound based on deep belief nets[J]. Transactions of the Chinese Society for Agricultural Machinery, 2018, 49(3): 179-186. (in Chinese with English abstract)
[2] Gutiérrez A, González C, Jiménez-Leube J, et al. A heterogeneous wireless identification network for the localization of animals based on stochastic movements[J]. Sensors. 2009, 9(5): 3942-3957.
[3] Handcock R N, Swain D L, Bishop-Hurley G J, et al. Monitoring animal behavior and environmental interactions using wireless sensor networks, GPS collars and satellite remote sensing[J]. Sensors. 2009, 9(5): 3586-3603.
[4] Hwang J, Yoe H. Study of the ubiquitous hog farm system using wireless sensor networks for environmental monitoring and facilities control[J]. Sensors. 2010, 10(12): 10752-10777.
[5] Yeon S C, Lee H C, Chang H H, et al. Sound signature for identification of tracheal collapse and laryngeal paralysis in dogs[J]. Journal of Veterinary Medical Science. 2005, 67(1): 91-95.
[6] Jahns G, Kowalczyk W, Walter K. Sound analysis to recognize animal conditions and individuals[C]//Annual Meeting National Mastitis Council, New York, USA, 1998: 228-235.
[7] Moi M, N??s I A, Caldara F R, et al. Vocalization as a welfare indicative for pigs subjected to stress situations[J]. Arquivo Brasileiro de Medicina Veterinária e Zootecnia, 2015, 67(3): 837-845.
[8] Mucherino A, Papajorghi P, Pardalos P. Data Mining in Agriculture[M]. New York: Springer, 2009.
[9] Van Hirtum A, Berckmans D. Fuzzy approach for improved recognition of citric acid induced piglet coughing from continuous registration[J]. Journal of Sound and Vibration, 2003, 266(3): 677-686.
[10] Moreaux B, Nemmar A, Beerens D, et al. Inhibiting effect of ammonia on citric acid-induced cough in pigs: A possible involvement of substance P[J]. Pharmacology & Toxicology. 2000, 87(6): 279-285.
[11] Chedad A, Moshou D, Aerts J M, et al. AP-animal production technology: Recognition system for pig cough based on probabilistic neural networks[J]. Journal of Agricultural Engineering Research, 2001, 79(4): 449-457.
[12] Marchant J N, Whittaker X, Broom D M. Vocalizations of the adult female domestic pig during a standard human approach test and their relationships with behavioral and heart rate measures[J]. Applied Animal Behavior Science. 2001, 72(1): 23-39.
[13] Moshou D, Chedad A, Van Hirtum A, et al. An intelligent alarm for early detection of swine epidemics based on neural networks[J]. Transactions of the American Society of Agricultural and Biological Engineers, 2001, 44(1): 167-174.
[14] Moura D J, Silva W T, Naas I A, et al. Real time computer stress monitoring of piglets using vocalization analysis[J]. Computers & Electronics in Agriculture, 2008, 64(1): 11-18.
[15] Van Compernolle D, Janssens S, Geers R, et al. Welfare monitoring of pigs by automatic speech processing[C]// Proceedings 12thCongress of the International Pig Veterinary Society. Hague, Netherlands, 1992: 570-571.
[16] Ferrari S, Silva M, Guarino M, et al. Cough sound analysis to identify respiratory infection in pigs[J]. Computers and Electronics in Agriculture, 2008, 64(2): 318-325.
[17] Exadaktylos V, Silva M, Ferrari S, et al. Real-time recognition of sick pig cough sounds[J]. Computers and Electronics in Agriculture, 2008, 63(2): 207-214.
[18] Chung Yongwha, Oh S, Lee J, et al. Automatic detection and recognition of pig wasting diseases using sound data in audio surveillance systems[J]. Sensors, 2013, 13(10): 12929-12942.
[19] 馬輝棟,劉振宇. 語音端點檢測算法在豬咳嗽檢測中的應用研究[J]. 山西農業大學學報:自然科學版, 2016, 36(6):445-449. Ma Huidong, Liu Zhenyu. Application of end point detection in pig cough signal detection[J]. Journal of Shanxi Agricultural University: Nature Science Edition, 2016, 36(6): 445-449. (in Chinese with English abstract)
[20] 張彩霞,武佩,宣傳忠,等. 母羊聲音信號處理與識別系統的設計[J]. 內蒙古農業大學學報:自然科學版, 2013, 34(5):145-149. Zhang Caixia, Wu Pei, Xuan Chuanzhong, et al. Design of acoustic signal processing and recognition system for the ewe[J]. Journal of Inner Mongolia Agricultural University: Natural Science Edition, 2013, 34(5): 145-149. (in Chinese with English abstract)
[21] 胡明輝. 基于支持向量機和HMM的音頻信號分類算法研究[D]. 長春:長春工業大學, 2015. Hu Minghui. Automatic Audio Stream Classification Based on Hidden Markov Model and Support Vector Machine[D]. Changchun: Changchun University of Technology, 2015. (in Chinese with English abstract)
[22] 許樂靈,胡石. 一種引導濾波自適應雙閾值優化邊緣檢測算法[J]. 南京理工大學學報,2018, 42(2):177-182. Xu Leling, Hu Shi. Adaptive double threshold modified edge detection algorithm for boot filtering[J]. Journal of Nanjing University of Science and Technology, 2018, 42(2): 177-182. (in Chinese with English abstract)
[23] Lipovskii A A, Shustova O V, Zhurikhina V V, et al. On the modeling of spectral map of glass-metal nanocomposite optical nonlinearity[J]. Optics Express, 2012, 20(11): 12040-12047
[24] Howard A G, Zhu M, Chen B, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications[EB/OL]. 2017, https: //arxiv. org/abs/1704. 04861.
[25] Khaliq A, Ehsan S, Milford M, et al. A holistic visual place recognition approach using lightweight CNNs for severe viewpoint and appearance changes[EB/OL]. 2018, https: //arxiv. org/abs/1811. 03032.
[26] Sandler M, Howard A G, Zhu Minglong, et al. MobileNetV2: Inverted residuals and linear bottlenecks[C]//The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake, USA, IEEE, 2018: 4510-4520.
[27] Hinton G E, Srivastava N, Krizhevsky A, et al. Improving neural networks by preventing co-adaptation of feature detectors[EB/OL]. 2012, https: //arxiv. org/abs/1207. 0580.
[28] Kingma D P, Ba J. Adam: A method for stochastic optimization[EB/OL]. 2015, https: //arxiv. org/abs/1412. 6980.
Classification of pig sounds based on deep neural network
Cang Yan, Luo Shunyuan, Qiao Yulong
(,,150001,)
Pig sounds reflect the stress and health status of pigs, also it is the most easily collected biomarker through non-contact methods. To improve the classification accuracy of pig sound signals, this study used the spectrogram to visualize the time-frequency characteristics, and combined with the deep neural network classification model. Four contents were discussed as followed: 1) The sound data set was constructed. According to the different sound signals, the pig's behavior could be recognized by the classification network. When the pig was in normal statuses, the pig sounds were called as grunts. If the pig was in frightened statuses, such as injected or chased, pig sounds were defined as screams. Before the feeding, when pigs see the food, pigs made long irritable sounds. The sounds were called as howls of hunger. All pig sounds were collected on-farm by the sound collection box. On the farm, a laptop was used as a host computer to display all the working parameters of the collection box. The data transmission and storage scheme adopted the Client/Server architecture. Besides, the worker labeled sounds, according to the behavior. 2) Spectrograms of different sounds built up the training and test dataset of the image recognition network. The pig sound was a stationary signal in short time duration, therefore, continuously calculating the frequency spectrum of the sound signal in the vicinity of the selected instant of time gave rise to a time-frequency spectrum. The study discussed the optimal spectrogram parameters, which were suitable for the structure of the deep neural network. Experiment results showed that the segment length of the pig sounds was 256 samples and the overlap was 128 samples, the classification accuracy of the deep neural network was highest. The spectrogram optimization experiment results showed that the recognition accuracy was improved by 1.8%. 3) The deep neural network was designed. The study used the MobileNetV2 network to achieve recognition, which was based on an inverted residual structure where the shortcut connections were between the thin bottleneck layers. Aiming to the portable platform in the real application, the width factor and the resolution factor were introduced to define a smaller and more efficient architecture. Also, Adam optimizer formed an adequate substitute for the underlying RMSprop optimizer, and it made the loss function convergent faster. Adam optimizer calculated the adaptive parameter-learning rate based on the mean value of the first moment, making full use of the mean value of the second moment of the gradient. The result implied the width factor was chosen as 0.5, the accuracy was highest. 4) Compared experiments had been done. Support Vector Machine (SVM), Gradient Boosting Decision Tree (GBDT), Random Forest (RF), and Extra Trees (ET) algorithms were compared with the proposed pig sound recognition network. All algorithms were trained and tested on the same sound dataset. Specifically, the proposed algorithm increased the recognition accuracy of screams from 84.5% to 97.1%, and the accuracy of howls was increased from 86.1% to 97.5%. But the recognition accuracy of grunts was decreased from 100% to 97.3%. This was caused by the difference in the principle of different recognition algorithms. Furthermore, through the experiments on the width factor and resolution factor, a smaller and more efficient model was defined based on the standard MobileNetV2 model, and the running speed of the model was significantly improved to meet the needs of practical applications, however, the accuracy remained. This study showed that the abnormal pig vocalization was related to abnormal behavior, so sound recognition could help to monitor behaviors. In the future, the abnormal behaviors combined the sound recognition and video analysis would be discussed.
signal processing; acoustic signal; recognition; deep learning; pig sounds; MFCC; classification
蒼巖,羅順元,喬玉龍. 基于深層神經網絡的豬聲音分類[J]. 農業工程學報,2020,36(9):195-204.doi:10.11975/j.issn.1002-6819.2020.09.022 http://www.tcsae.org
Cang Yan, Luo Shunyuan, Qiao Yulong. Classification of pig sounds based on deep neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(9): 195-204. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2020.09.022 http://www.tcsae.org
2019-12-16
2020-03-16
國家自然科學基金(61871142)
蒼巖,博士,講師,主要從事智能信息處理研究。Email:cangyan@hrbeu.edu.cn
10.11975/j.issn.1002-6819.2020.09.022
TP391.4
A
1002-6819(2020)-09-0195-10