吳俊杰
(泉州信息工程學(xué)院,福建 泉州 362000)
隨著現(xiàn)代科技技術(shù)的飛速進步,各類識別技術(shù)也在不斷發(fā)展,識別技術(shù)作為新興技術(shù),在各個領(lǐng)域都發(fā)揮著自己的作用。聲紋識別與人臉識別、虹膜識別和指紋識別的性質(zhì)相同,都是利用生物特征對生物的身份進行認證。相比于其它識別技術(shù),聲紋識別技術(shù)的成本更低,更容易被用戶接受,且在使用聲紋技術(shù)時,用戶不需要在額外使用隱私信息,整個過程安全可靠,通過動態(tài)碼來防止各種信息被篡改,使錄音能夠更加完好地被拼接到一起[1]。在移動支付、智能硬件等領(lǐng)域,聲紋識別系統(tǒng)都有所應(yīng)用[2]。
聲紋識別系統(tǒng)內(nèi)部擁有聲紋識別引擎,能夠?qū)?shù)據(jù)進行管理和存儲,由于聲紋識別系統(tǒng)愈來愈受到人們關(guān)注,所以更多的學(xué)者投入到聲紋識別系統(tǒng)的研究中[3]。目前主要應(yīng)用的研究方法有基于線性預(yù)測倒普系數(shù)的聲紋識別預(yù)測方法和基于梅爾頻率倒譜系數(shù)的聲紋識別預(yù)測方法[4]。
在眾多優(yōu)化方法中,共軛梯度算法是最常見的優(yōu)化算法之一,該算法計算簡單,對存儲量的要求較少,在大規(guī)模優(yōu)化問題中,共軛梯度算法的效果最為顯著。共軛梯度算法的收斂速度要遠遠快于其它算法,共軛梯度算法來源于共軛性質(zhì),從1936年至今,該算法已經(jīng)有近百年的歷史,在很多方面都已經(jīng)相當(dāng)成熟[5]。
綜上所述,本文基于非單調(diào)共軛梯度算法設(shè)計了一種聲紋識別機器人控制系統(tǒng),通過加入多種傳感器實現(xiàn)遠距離控制,利用四自由度的AS-MRobotE機器人平臺到的軟件編程接口設(shè)計實時控制系統(tǒng),設(shè)計新的控制界面,從而更好地操控客戶端和服務(wù)器端[6]。
目前研究的聲紋識別系統(tǒng)技術(shù)越來越先進,因此在設(shè)計聲紋識別機器人控制系統(tǒng)時,必須要充分使用計算機技術(shù),利用互聯(lián)網(wǎng)控制系統(tǒng)的整體運行,從而提高控制系統(tǒng)的穩(wěn)定性、可靠性和實時性[7]。對于聲紋識別機器人控制系統(tǒng)來說,穩(wěn)定性和可靠性是確保整個系統(tǒng)正常運行的關(guān)鍵。Linux具有性能穩(wěn)定的優(yōu)點,因此本文將其應(yīng)用到控制系統(tǒng)中,用來確保控制系統(tǒng)能夠穩(wěn)定運行。由于系統(tǒng)內(nèi)部加入了大量由Windows平臺開發(fā)的軟件程序,因此系統(tǒng)也加入了Windows,將Windows和Linux一同使用,可以很好地提升配置資源的合理性,提高系統(tǒng)的工作性能[8]。基于非單調(diào)共軛梯度算法的聲紋識別機器人控制系統(tǒng)硬件結(jié)構(gòu)圖如圖1所示。

圖1 聲紋識別機器人控制系統(tǒng)硬件結(jié)構(gòu)圖
在聲紋識別機器人控制系統(tǒng)中加入采集器,用來進行聲紋識別,理解能夠反映說話人生理和行為特征的語音參數(shù),從而確定說話人的身份[9]。由于每個人的發(fā)聲器官在尺寸和形態(tài)上有所差異,所以聲紋也會有所差異,因此利用聲紋可以很好地鑒定出說話人的身份[10]。
使用的聲紋識別采集器為BioVoice 2.0 標準聲紋采集器,該聲紋識別采集器不僅能夠采集語音,提取聲紋特征,同時也會根據(jù)提取的聲紋特征建立模型庫,比對待識別的語音與所建立的模型庫中的語音,從而更好地完成識別[11]。聲紋識別采集器能夠執(zhí)行兩個任務(wù):聲紋采集、聲紋建模。
聲紋識別采集器與數(shù)據(jù)庫緊密連接,在確保采集的參數(shù)數(shù)據(jù)是準確的后,與數(shù)據(jù)庫對比,在不同設(shè)備和不同信道上得到的聲紋數(shù)據(jù)質(zhì)量不同,這會直接影響算法模型的準確性,降低識別準確率[12]。因此選擇的聲紋采集器要能夠有效克服由于信道差異而帶來的識別結(jié)果誤差,利用多個通道同時進行錄音,從而提高采集精度,在采集時,要充分分析采集內(nèi)容是否完整,標準的聲紋采集器可以為后續(xù)的聲紋識別、聲紋鑒定和聲紋比對打下堅實的基礎(chǔ)[13]。
BioVoice 2.0 標準聲紋采集器內(nèi)部擁有智能化麥克風(fēng)集群,既能夠單向拾音,也能夠雙向拾音,內(nèi)部加入了多種文本采集方式,以配套的方式獲得聲紋信息,在填入多標簽后加入數(shù)據(jù)庫,分類存儲,從而實現(xiàn)實時檢索[14]。采集器支持連續(xù)性創(chuàng)建采集,可批量入庫,從而縮小被采集的數(shù)據(jù)入庫的時間,確保采集的內(nèi)容真實完整,提高聲紋采集的工作效率[15]。
BioVoice 2.0 標準聲紋采集器在設(shè)計時嚴格遵照《聲紋數(shù)據(jù)采集終端技術(shù)要求》,通過聲紋識別可以1:1確定身份,實現(xiàn)聲音辨認。
為了更好地實現(xiàn)聲紋數(shù)據(jù)采集,本文同時引用了兩個聲紋數(shù)據(jù)采集終端,型號分別是TMC104-B和TMC104。
TMC104-B聲紋數(shù)據(jù)采集終端的陣列單元為4MES麥克風(fēng),能夠頻響的有效范圍為100~8 000 Hz,使用的輸出接口有兩個,分別是USB出口和模擬音頻輸出(AUX)出口,采用的輸出聲道為雙聲道,能夠進行語音識別的有效范圍為5 m,靈敏度超過60 mV/Pa,本機噪聲級小于30 dB,信噪比大于60 dB。在以1 000 Hz的正弦波信號為參考時,TMC104-B聲紋數(shù)據(jù)采集終端在低于±45°正面入射角的范圍內(nèi),聲壓級會從-7 dBFS降低到-9 dBFS;當(dāng)超過±60°正面入射角的范圍內(nèi),聲壓級會從-12 dBFS降低到-14 dBFS;當(dāng)超過±90°反面入射角的范圍內(nèi),聲壓級會從-12 dBFS降低到-14 dBFS,被識別人所對應(yīng)的音頻沒有輸出信號,因此可以從指定聲道得到音頻信號。
TMC104聲紋數(shù)據(jù)采集終端靈敏度超過60 mV/pa,本機噪聲級小于36 dB,信噪比大于30 dB,能夠頻響的有效范圍為50~8 000 Hz,波形失真度低于7%,TMC104聲紋數(shù)據(jù)采集終端具有低中高多級噪聲抑制功能,以入網(wǎng)管理的方式管理各種數(shù)據(jù),采集的語音格式為Windows PCM WAV,以單聲道的方式輸入,16位量化精度,采集終端的采樣率16 kHz,能夠?qū)崿F(xiàn)靜音段檢測、信噪比檢測、有效時長檢測、截幅比例檢測、平均能量檢測、是否多人說話檢測功能。
在以1 000 Hz的正弦波信號為參考時,TMC104B聲紋數(shù)據(jù)采集終端的性質(zhì)與TMC104-B聲紋數(shù)據(jù)采集終端完全一致。引入兩個終端后,系統(tǒng)在執(zhí)行語音信號處理、聲紋特征提取、聲紋建模、聲紋比對、判別決策等任務(wù)后,執(zhí)行能力更強,在截取蘊含聲紋特征的語音時,更加方便自然,使用的獲取設(shè)備成本更低。
本文使用的機器人由上海廣茂達公司生產(chǎn),型號為AS-MrobotR,該機器人為智能型機器人,能夠與BioVoice 2.0 標準聲紋采集器、TMC104-B和TMC104聲紋數(shù)據(jù)采集終端很好地配合。AS-MRobotR模塊化機器人內(nèi)部擁有領(lǐng)先于世界的機器人技術(shù),具有可重構(gòu)、全開放、安全可靠的特性,相較于進口版的AS-MRobot系列機器人,AS-MRobotR模塊化機器人的性加密更高,應(yīng)用AS-MRobotR模塊化機器人系統(tǒng),可以制造工業(yè)機器人、類人機器人、步行機器人、蛇行機器人。全開放的架構(gòu)體系,使機器人可以被重構(gòu)。在軟件中選用的操作系統(tǒng)為Windows 2000/XP,使用的開發(fā)工具為VC,機器人底層的控制工具系統(tǒng)設(shè)定為開放系統(tǒng),用戶可以隨時操作機器人底層,引入新的控制算法。在底層的控制系統(tǒng)中加入精確運動控制模塊,該控制模塊擁有2000線高精度編碼器和電機電流傳感器,對于機器人的運動速度、加速度、夾持力和終點位置都有著很強的控制能力,確保機器人能夠按照規(guī)定路徑精確行走。
在AS-MrobotR機器人內(nèi)部還加入了多個可擴展的配件,主要配件為全景攝像機、數(shù)字羅盤和力矩傳感器,使用CAN總線進行通訊,設(shè)定CAN總線使用電壓為直流電壓,電壓值為24 V,在應(yīng)用CAN總線進行通訊后,通訊產(chǎn)品可直接連接移動機器人AS-R/RF/RE,與其進行配合。
為了更好地控制本文使用的AS-MrobotR機器人,在Windows平臺下使用C/C+語言研究了一種專用的程序,在程序內(nèi)部添加mde-api數(shù)據(jù)庫,從而提高控制效果。AS-MrobotR機器人在VC++和OpenGL平臺上進行開發(fā),機器人內(nèi)部設(shè)計的控制系統(tǒng)同時具有仿真能力和控制能力。
基于非單調(diào)共軛梯度算法的聲紋識別機器人控制系統(tǒng)應(yīng)用程序分為兩個程序,分別是訓(xùn)練程序、識別程序,在訓(xùn)練程序中,系統(tǒng)建立基本的聲學(xué)模型,各基本單元都在訓(xùn)練程序中設(shè)立,在識別程序中,將采集到的聲音特征參數(shù)按照一定的標準與系統(tǒng)模型進行對比,從而獲得更加精準地識別模型。基于非單調(diào)共軛梯度算法的聲紋識別機器人控制系統(tǒng)應(yīng)用程序工作流程如圖2所示。

圖2 聲紋識別機器人控制系統(tǒng)應(yīng)用程序工作流程
利用麥克風(fēng)采集聲紋特征數(shù)據(jù),將采集到的聲紋特征數(shù)據(jù)上傳給系統(tǒng),使用計算機聲卡對數(shù)據(jù),使用A/D轉(zhuǎn)換,將得到的語音原始數(shù)據(jù)存儲起來,對端點進行檢測,從而得到有效語音信號的起始點和終點。
在完成語音信號預(yù)處理后,進行特征提取,在短時語音幀中確定出有用的信號,使用的提取方法為非單調(diào)共軛梯度算法,該算法能夠很好地求解出線性方程組和線性非方程組的數(shù)值,在給定初始量后,確定出代數(shù)特征值。由客戶機和服務(wù)器端啟動控制工作,客戶機和服務(wù)器端的通訊過程如圖3所示。

圖3 客戶機和服務(wù)器端通訊過程
本文使用的Windows和Linux兩個操控系統(tǒng)都支持TCP協(xié)議,因此采用標準的socket就可以調(diào)用,在對socket進行編程時,客戶機/服務(wù)器會采用主動請求的方式了解信息,由Linux系統(tǒng)確定客戶機的傳送指令,由Windows系統(tǒng)的服務(wù)器來接收指令。
為檢測本文基于非單調(diào)共軛梯度算法設(shè)計的聲紋識別機器人控制系統(tǒng),與傳統(tǒng)聲紋識別控制系統(tǒng)進行實驗對比,驗證系統(tǒng)的有效性。
該實驗的實驗參數(shù)如表1所示。
根據(jù)上述參數(shù),選擇本文的系統(tǒng)和傳統(tǒng)系統(tǒng)各自進行識別,識別次數(shù)為10次,識別環(huán)境分別為無噪聲環(huán)境、白噪聲環(huán)境、汽車噪聲環(huán)境、工廠噪聲環(huán)境以及F16機噪聲環(huán)境,對識別結(jié)果進行統(tǒng)計。在無噪聲情況下得到的實驗結(jié)果如圖4所示。

表1 測試實驗應(yīng)用參數(shù)

圖4 無噪聲下實驗結(jié)果對比圖
分析圖4可知,本文研究的數(shù)字語音信號共有9個,在針對0~9的數(shù)字語音信號進行識別時,本文研究的聲紋識別機器人控制系統(tǒng)的控制能力始終高于傳統(tǒng)系統(tǒng),因此控制的聲音識別準確率要始終高于傳統(tǒng)系統(tǒng),整個系統(tǒng)運行的穩(wěn)定性也要更高。
在有噪聲情況下進行測試,設(shè)定噪聲的信噪比在0~45 dB之間,得到的實驗結(jié)果如圖5所示。

圖5 有噪聲下實驗結(jié)果對比圖
針對有噪聲進行詳細實驗研究,分別在白噪聲環(huán)境、汽車噪聲環(huán)境、工廠噪聲環(huán)境以及F16機噪聲環(huán)境進行識別,得到的識別結(jié)果記錄如下。
在白噪聲情況下,對傳統(tǒng)系統(tǒng)和本文系統(tǒng)進行測試,白噪聲的信噪比在0~45 dB之間,得到的實驗結(jié)果如圖6所示。

圖6 白噪聲下實驗結(jié)果對比圖
分析圖6可知,當(dāng)信噪比為10 dB時,傳統(tǒng)系統(tǒng)的識別準確率為74.2%,本文系統(tǒng)的識別準確率為70.3%;當(dāng)信噪比為20 dB時,傳統(tǒng)系統(tǒng)的識別準確率為69.1%,本文系統(tǒng)的識別準確率為94.8%;當(dāng)信噪比為30 dB時,傳統(tǒng)系統(tǒng)的識別準確率為81.3%,本文系統(tǒng)的識別準確率為75.1%;當(dāng)信噪比為40 dB時,傳統(tǒng)系統(tǒng)的識別準確率為64.4%,本文系統(tǒng)的識別準確率為91.7%。由上述數(shù)據(jù)可知,在不同信噪比下,本文設(shè)計的系統(tǒng)和傳統(tǒng)系統(tǒng)的識別準確率是有所波動的,但是從整體來看,基于非單調(diào)共軛梯度算法設(shè)計的聲紋識別機器人控制系統(tǒng)識別準確率要高于傳統(tǒng)控制系統(tǒng)。
在汽車噪聲情況下進行測試,汽車噪聲的信噪比在0~45 dB之間,得到的實驗結(jié)果如圖7所示。

圖7 汽車噪聲下實驗結(jié)果對比圖
分析圖7可知,兩個系統(tǒng)都屬于比較平穩(wěn)的狀態(tài)。隨著信噪比的增加,本文系統(tǒng)的識別準確率和傳統(tǒng)系統(tǒng)的識別準確率逐漸增加,當(dāng)信噪比為45 dB時,傳統(tǒng)系統(tǒng)的識別準確率為78%,本文控制系統(tǒng)的識別準確率為90%。
在工廠噪聲情況下進行測試,得到的實驗結(jié)果如圖8所示。

圖8 工廠噪聲下實驗結(jié)果對比圖
由于工廠環(huán)境復(fù)雜,所以在識別噪聲過程中,波動性比較大,平穩(wěn)性不高,綜合來看,本文系統(tǒng)的識別準確率依舊高于傳統(tǒng)識別控制系統(tǒng)。
在F16機噪聲情況下進行測試,得到的實驗結(jié)果如圖9所示。

圖9 F16機噪聲下實驗結(jié)果對比圖
觀察圖9,在F16機噪聲下,傳統(tǒng)識別機器人控制系統(tǒng)的工作狀態(tài)十分不穩(wěn)定,工作中的波動性極高,而本文系統(tǒng)獲取信息的識別率更高,性能也更好。
綜合上述結(jié)果可知,在存在噪聲和不存在噪聲兩種情況下,本文研究的系統(tǒng)控制能力都要優(yōu)于傳統(tǒng)系統(tǒng),噪聲魯棒性更好,性能更加平穩(wěn)。
本文設(shè)計的聲紋識別機器人控制系統(tǒng)同時使用了操作廣泛的Windows系統(tǒng)和穩(wěn)定可靠的Linux系統(tǒng)作為平臺,在語音識別技術(shù)和網(wǎng)絡(luò)通信技術(shù)的支持下,實現(xiàn)控制,提高控制的精準性。相較于傳統(tǒng)控制系統(tǒng),本文的控制系統(tǒng)更加容易實現(xiàn),且識別率更高,性價比高,通用型好,開放性強,可擴展能力高,從整體來看,設(shè)計的控制系統(tǒng)具有很強的市場競爭力,在未來可以大力發(fā)展,擴大應(yīng)用范圍。