環(huán)境背景聲自動識別技術(shù)研究

2019-10-21 10:26:57申小虎王聰

科學(xué)與信息化 2019年2期

關(guān)鍵詞：分類

申小虎王聰

摘要通過介紹環(huán)境背景音聲紋鑒定技術(shù)概念、產(chǎn)生、發(fā)展以及原理，來探討聲紋鑒定的步驟、理論依據(jù)、法律依據(jù)、案件適用的類型，討論聲紋鑒別在個人身份證明、刑事偵查、軍事、通信、防偽等領(lǐng)域的應(yīng)用，展望聲紋鑒別的應(yīng)用前景。

關(guān)鍵詞環(huán)境背景音；分類；鑒定

Abstract by introducing the concept， generation， development and principle of voiceprint identification technology in environmental background， this paper discusses the steps， theoretical basis， legal basis， applicable types of cases， and discusses the identification of voiceprint in personal identification. The applications of criminal reconnaissance， military affairs， communication， security and so on， and the application prospect of voiceprint identification are prospected.

Keywords Environmental background sound； Classification； Identification

1 環(huán)境背景音研究意義

在當(dāng)前，環(huán)境背景音識別技術(shù)發(fā)展得非常迅速，在很多方面（如原理認(rèn)識，識別模型的搭建，運(yùn)行效率等方面）都有迅猛的進(jìn)展。尤其是在無噪音環(huán)境下，環(huán)境背景音識別模型系統(tǒng)的識別率非常高。本論文基于語音信號分析的理論基礎(chǔ)，考慮了語音識別系統(tǒng)的實(shí)際應(yīng)用要求，提出來噪聲環(huán)境下非特定人孤立語音識別系統(tǒng)的研究，對語音通信系統(tǒng)有著重要的意義。實(shí)驗(yàn)表明，這種方法不僅能夠?qū)Σ煌尘霸肼暛h(huán)境下的語音進(jìn)行準(zhǔn)確識別以及鑒定分析，提高語音識別的準(zhǔn)確率，還能夠?qū)г胝Z音進(jìn)行精確處理，提高語音的清晰度和可理解度，在人群噪聲環(huán)境、機(jī)器噪聲環(huán)境以及其他背景聲環(huán)境下都有著較高的準(zhǔn)確度以及辨識度[1]。

2 環(huán)境背景音特征提取技術(shù)

在聲紋鑒別過程中最主要的兩部分內(nèi)容是特征提取和模式匹配。所謂特征提取，就是從聲音中選取唯一表現(xiàn)環(huán)境或人聲的有效且穩(wěn)定可靠的特征，即通過聲紋技術(shù)根據(jù)語音波形中反映的環(huán)境背景音的語音參數(shù)，將其識別分類出是哪種環(huán)境背景音的一項(xiàng)技術(shù)，甚至可以通過環(huán)境背景音的特征提取直接定位出背景音的具體位置，這對公安工作的開展具有巨大的意義。模式匹配就是對訓(xùn)練和鑒別時的特征模式做相似性匹配，進(jìn)而從原語音信號中分離出環(huán)境的背景音。

聲紋技術(shù)在環(huán)境背景音的特征提取方面有以下幾種技術(shù)可供參考：

2.1 獨(dú)立成分分析方法

不同的ICA算法可以提取聲音信號中獨(dú)立成分的特性，將聲音信號拆解成基函數(shù)與相互獨(dú)立的系數(shù)兩部分，對于常見的聲音信號，經(jīng)過ICA算法變化都會更強(qiáng)的超高斯性。另外，利用ICA變換的基函數(shù)是利用數(shù)據(jù)自身的統(tǒng)計(jì)特性求得，可以隨著處理對象的變化而變化[2]。

2.2 碼激勵線性預(yù)測編碼方法

網(wǎng)絡(luò)中的音頻信號一般都是經(jīng)過語音壓縮編碼的，碼激勵線性預(yù)測編碼的技術(shù)研究正是以音頻壓縮編碼的比特信息流為對象，環(huán)境音頻信息不需要經(jīng)過解壓縮，直接從編碼比特信息流中獲取音頻特征參數(shù)。

3 實(shí)驗(yàn)與分析

3.1 聲音數(shù)據(jù)庫

本文實(shí)驗(yàn)的測試對象包括45種噪聲環(huán)境下的環(huán)境聲音事件音頻。實(shí)驗(yàn)用到的生態(tài)環(huán)境聲音大部分來自使用SONYICD-UX512F錄音棒以16kHZ的采樣頻率實(shí)地采集的聲音，錄制背景為寂靜山林、馬路附近、雨天湖邊附近。其包括：動物叫聲，鳥叫聲，昆蟲叫聲，大自然聲和常見事物的聲音等，共45種，由于下載的聲音文件編碼格式、采樣頻率等與自己錄制的聲音并不統(tǒng)一，因此在實(shí)驗(yàn)開始前先將所有的聲音文件統(tǒng)一轉(zhuǎn)換為采樣率16KHz（可分析8KHz以內(nèi)的環(huán)境聲音信號），單聲道，16bits的格式。考慮到MP分解速度，將聲音截?cái)酁?-6s的聲音片段，每一段對應(yīng)于一種聲音類型，經(jīng)處理后，每種聲音都至少包含4個單獨(dú)的聲音文件，且所選擇聲音的錄制環(huán)境都不相同，最后得到的聲音數(shù)據(jù)庫。且經(jīng)語譜圖分析，所選45種聲音頻率在8kHz以下[3]。

3.2 環(huán)境聲音事件的分類

（1）MP噪聲消除

用25個原子就能將原始信號（海浪聲）的主體結(jié)構(gòu)重構(gòu)出來，說明利用MP稀疏表示的方法可以提取出信號最主要的結(jié)構(gòu)特征信息，有效的消除噪聲的干擾。若將整段信號進(jìn)行MP稀疏表示，對MP稀疏分解重構(gòu)之后的樣本（25個原子），提取MFCCs-12特征，輸入SVM模型進(jìn)行分類，得到對信號進(jìn)行系數(shù)表示后的信號的識別結(jié)果。去噪的效果有時要取決于信號和噪聲的相似度，如果某種噪聲的特征同信號的特征相似，則MP對這種噪聲的去噪效果不會得到預(yù)期效果。

（2）特征選擇

不同物種的聲音明顯不同，同一物種的不同個體間亦有可能會發(fā)出差異明顯的聲音，甚至是同一個體在不同的季節(jié)或時向，其聲音也會存在著一定的差異，這就需要合適的魯棒的特征參數(shù)來將信號的內(nèi)在特征信息表示出來。本文將對以下頻域和時頻域特征進(jìn)行研究。

①基音頻率

基音攜帶有非常重要的聲音信息，不同種類的聲音其基頻分布可能差異很大，考慮到環(huán)境聲音信號的差異性，試驗(yàn)中設(shè)定基音頻率范圍為50-2000Hz。

②Mel頻率倒譜系數(shù)

實(shí)驗(yàn)分為三步：首先，以12維MFCCs（MFCCs-12）作為分類特征，對5類聲音的每一類分別進(jìn)行特征提取，然后用純凈的聲音樣本進(jìn)行訓(xùn)練，用得到的分類模型對測試集樣本進(jìn)行預(yù)測，最后得到各類聲音事件的分類準(zhǔn)確率。下面是針對庫中的動物叫聲中的5中聲音的訓(xùn)練結(jié)果，MFCCs-12作為特征，采用網(wǎng)格搜索、交叉驗(yàn)證方法，得到的訓(xùn)練過程的參數(shù)選擇。

①動物叫聲：（MFCCs-12：84.27%）、（MFCCs-26：73.68%）、（MFCCs-39：73.68%）；

②鳥叫聲：（MFCCs-12：86.89%）、（MFCCs-26：92.03%）、（MFCCs-39：97.34%）；③昆蟲叫聲：（MFCCs-12：72.22%）、（MFCCs-26：86.67%）、（MFCCs-39：80%）；④大自然聲：（MFCCs-12：65.18%）、（MFCCs-26：24.59%）（MFCCs-39：23.77%）；⑤常見事物的聲音：（MFCCs-12：80%）、（MFCCs-26：33.33%）、（MFCCs-39：25%）。

由此可見：MFCCs-12特征對于5類聲音的分類準(zhǔn)確率最穩(wěn)定。對于鳥叫聲和昆蟲叫聲，MFCCs-26特征和MFCCs-39特征識別率均比MFCCs-12高出10個百分點(diǎn)左右，面對動物叫聲、大自然聲和常見事物的聲音，MFCCs-26和MFCCs-39特征的識別率大幅下降，尤其是對大自然聲和常見事物的聲音，準(zhǔn)確率降到了40%以下。綜合對5類聲音的識別率表現(xiàn)，MFCCs-12對識別結(jié)果的貢獻(xiàn)更穩(wěn)定，選擇MFCCs-12作為本文實(shí)驗(yàn)的識別特征[4]。

③匹配追蹤

通過實(shí)驗(yàn)驗(yàn)證基于Gabo小波的MP特征對實(shí)際情境下的環(huán)境聲音事件的識別是否有效。

首先對樣本信號進(jìn)行分幀、加漢明窗，對每幀信號進(jìn)行MP稀疏分解，每幀信號得到4個MP特征（MP-4）。需要注意的是，雖然隨著重構(gòu)原子數(shù)的增多，識別率也隨之上升，但是原子數(shù)越多，所消耗的時間也隨之增大。因此7個原子的鳥叫聲識別率反倒不如5個原子的識別率。此外，對于昆蟲叫聲，識別率均在8%以下，經(jīng)分析，這是因?yàn)槔ハx叫聲的錄制環(huán)境里干擾較多且干擾噪聲與昆蟲叫聲較相似，MP稀疏分解難以區(qū)分信號空間和噪聲空間。綜合時間和識別結(jié)果穩(wěn)定性的考慮，最終選擇7個原子重構(gòu)樣本信號。然后將MP-4（7個原子）與MFCCs-12分別作為特征參數(shù)進(jìn)行識別結(jié)果對比，結(jié)果如下所示：

①動物叫聲：（MFCCs-12：84.12%）、（MP-4：31.58%）；②鳥叫聲：（MFCCs-12：86.89%）、（MP-4：36.14%）；③昆蟲叫聲：（MFCCs-12：72.22%）、（MP-4：7.48%）；④大自然聲：（MFCCs-12：65.18%）、（MP-4：30.88%）；⑤常見事物的聲音：（MFCCs-12：80%）、（MP-4：22.12%）

MP-4（7個原子）單獨(dú)作為信號特征進(jìn)行識別，識別率在40%以下，那么將MP-4（7個原子）和MFCCs-12一起作為音頻特征，將這16維參數(shù)進(jìn)行歸一化，因?yàn)閰?shù)的取值差異較大，不在同一個數(shù)量級，因此先進(jìn)行歸一化，然后再將歸一化后的特征參數(shù)輸入識別模型，利用特征集合MP-4和MFCCs-12進(jìn)行識別，準(zhǔn)確率比單獨(dú)MFCCs-12提高8%以上，與單獨(dú)用MP-4（7個原子）相比識別率大幅提高。說明頻域特征MFCCs-12和時頻域特征MP-4（7個原子）的組合的特征集對環(huán)境聲音事件的識別是起積極作用的。

3.3 結(jié)果分析

對分析提取的特征參數(shù)：基音頻率、MFCCs-12，MFCCs-26，MFCC-39和MP-4通過實(shí)驗(yàn)進(jìn)行篩選。對庫中所有聲音信號分別求出上述特征，然后分別將MFCCs-12，MFCCs-26，MFCC-39，MP-4和特征組合MFCCs-12，MFCCs-12+MP-4，MFCCs-12+MP-4+基音頻率輸入SVM分類模型進(jìn)行識別，得到對應(yīng)的識別準(zhǔn)確率。

由實(shí)驗(yàn)結(jié)果，雖然MFCCs用于語音/音樂識別時表現(xiàn)良好，但對于不具有諧波結(jié)構(gòu)、背景噪聲復(fù)雜的環(huán)境聲音事件來說，并不適合。分析其原因，MFCCs對所有頻帶以相同的權(quán)重模擬信號的頻譜包絡(luò)，對噪聲和聲音事件一視同仁。

MP時頻特征提取是依據(jù)原子的能量高低依次選擇信號分量，提取的信號分量最終表現(xiàn)為按原子能量由高到低的線性和，而環(huán)境聲音事件與背景噪聲相比，聲音事件的能量在時頻平面上傾向于局部集中。因此MP特征對于環(huán)境聲音事件的識別，具有噪聲魯棒性，能在MFCCs失效的情況下彌補(bǔ)其噪聲敏感的缺陷。

利用不同種類聲音的基頻分布差異，將基音頻率用來作為識別的特征之一，實(shí)驗(yàn)結(jié)果表明，加入基音頻率特征后，識別準(zhǔn)確率略有上升[5]。

4 結(jié)論及展望

總之，聲紋識別技術(shù)是一種方便、快捷、安全的識別技術(shù)，隨著各個研究領(lǐng)域的不斷發(fā)展，聲紋識別技術(shù)也在飛速發(fā)展，由此可見，在不久的將來，聲紋識別技術(shù)會在更多領(lǐng)域內(nèi)獲得更廣泛的應(yīng)用，使人類的生活更方便、安全。此外，隨著聲紋識別技術(shù)準(zhǔn)確性的提高，以及錄音設(shè)備（如錄音筆、MP3）的更新?lián)Q代，新型錄音設(shè)備攜帶方便、存儲容量大、使用簡單的特點(diǎn)，使人們在很多場合下可以容易地獲取聲音樣本。通過聲紋識別技術(shù)，聲音樣本在公安機(jī)關(guān)偵破案件、司法部門做出判決等方面都將起到關(guān)鍵性作用。

參考文獻(xiàn)

[1] 沈陽麗，趙啟升.GMM-UBM聲紋識別技術(shù)研究與應(yīng)用[J].電腦編程技巧與維護(hù)，2017，（16）：84-86.

[2] 盧一男，單寶鈺，關(guān)超.聲紋識別技術(shù)現(xiàn)狀與發(fā)展應(yīng)用[J].信息系統(tǒng)工程，2017，（02）：11.

[3] 鄭方，李藍(lán)天，張慧，等.聲紋識別技術(shù)及其應(yīng)用現(xiàn)狀[J].信息安全研究，2016，2（01）：44-57.

[4] 趙成輝，楊大利.基于聲紋識別技術(shù)的移動通信監(jiān)聽方案[J].北京信息科技大學(xué)學(xué)報（自然科學(xué)版），2015，30（01）：59-65.

[5] 陳擁權(quán)，張羽，胡翀豪，等.聲紋識別技術(shù)及其應(yīng)用前景分析[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用，2013，（11）：24，26.