999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多普勒雷達(dá)的發(fā)音動(dòng)作檢測(cè)與命令詞識(shí)別

2020-05-09 02:59:48吳鵬飛凌震華
關(guān)鍵詞:分類(lèi)動(dòng)作實(shí)驗(yàn)

吳鵬飛,凌震華

(中國(guó)科學(xué)技術(shù)大學(xué) 語(yǔ)音與語(yǔ)言信息處理國(guó)家工程實(shí)驗(yàn)室,合肥 230027)

1 引 言

語(yǔ)音是從肺部呼出的氣流通過(guò)聲門(mén)、聲道等各種器官作用而產(chǎn)生的,人類(lèi)在發(fā)音時(shí)需要調(diào)動(dòng)多個(gè)發(fā)音器官,如軟腭、舌、牙齒、唇等[1].發(fā)音器官在發(fā)音過(guò)程中的位置和運(yùn)動(dòng)稱(chēng)作發(fā)音動(dòng)作特征(articulatory feature).發(fā)音動(dòng)作特征相對(duì)于語(yǔ)音的聲學(xué)特征具有變化緩慢、可解釋性強(qiáng)、不易受聲學(xué)噪聲影響等優(yōu)點(diǎn)[2],因此已有研究人員將發(fā)音動(dòng)作特征應(yīng)用到語(yǔ)音識(shí)別和語(yǔ)音合成方法的研究中,以提高噪聲環(huán)境下的識(shí)別準(zhǔn)確率[3]、實(shí)現(xiàn)靜默語(yǔ)音接口[4]和增強(qiáng)合成語(yǔ)音的自然度與靈活可控性[5]等.

發(fā)音動(dòng)作特征可以用多種技術(shù)手段采集,例如X射線微束影像[6]、磁共振成像[7]、圖像采集外部發(fā)音器官運(yùn)動(dòng)[8]、表面肌電[9]及電磁發(fā)音儀[10]等.這些發(fā)音動(dòng)作特征采集手段雖然能有效檢測(cè)發(fā)音器官運(yùn)動(dòng),但往往存在侵入人體、非便攜、成本高等問(wèn)題.近年來(lái),基于微波雷達(dá)的面部姿態(tài)[11]和舌部動(dòng)作識(shí)別[12]方法被提出,這些方法利用微波雷達(dá)的多普勒特性檢測(cè)面部肌肉的微小動(dòng)作,在簡(jiǎn)單的面部動(dòng)作和舌部動(dòng)作識(shí)別任務(wù)中取得了良好的性能.微波雷達(dá)采集方法具有無(wú)侵入性、成本低等優(yōu)點(diǎn),且適用靜默語(yǔ)音場(chǎng)景,因此本文使用多普勒微波雷達(dá)采集發(fā)音動(dòng)作,研究基于所采集動(dòng)作的命令詞識(shí)別方法.相對(duì)于先前的簡(jiǎn)單舌部動(dòng)作檢測(cè)任務(wù)[12],命令詞識(shí)別中發(fā)音動(dòng)作特征的組合模式更加復(fù)雜;相對(duì)于傳統(tǒng)語(yǔ)音識(shí)別任務(wù),本文所研究方法不依賴(lài)聲學(xué)特征,僅使用多普勒微波雷達(dá)采集的發(fā)音動(dòng)作特征來(lái)完成命令詞的識(shí)別,這對(duì)于高噪聲、隱私保密等場(chǎng)景中的語(yǔ)音控制具有應(yīng)用價(jià)值.

本文首先設(shè)計(jì)實(shí)現(xiàn)了一個(gè)基于多普勒微波雷達(dá)的發(fā)音動(dòng)作采集系統(tǒng),基于該系統(tǒng)采集了2個(gè)說(shuō)話人的發(fā)音動(dòng)作信息以構(gòu)建命令詞識(shí)別數(shù)據(jù)庫(kù).利用所采集的微波雷達(dá)數(shù)據(jù),本文研究了基于支持向量機(jī)和基于卷積神經(jīng)網(wǎng)絡(luò)的命令詞識(shí)別算法.實(shí)驗(yàn)結(jié)果顯示,本文設(shè)計(jì)的數(shù)據(jù)采集系統(tǒng)可以有效記錄命令詞發(fā)音過(guò)程中的發(fā)音動(dòng)作特征,本文提出的基于卷積神經(jīng)網(wǎng)絡(luò)的微波雷達(dá)數(shù)據(jù)分類(lèi)方法可以取得90%以上的命令詞識(shí)別準(zhǔn)確率.該方法可用于靜默語(yǔ)音控制,在一些高噪聲、或者無(wú)法發(fā)聲的環(huán)境下實(shí)現(xiàn)通信和語(yǔ)音控制.

2 數(shù)據(jù)采集系統(tǒng)

2.1 原理簡(jiǎn)介

多普勒微波雷達(dá)是基于多普勒效應(yīng)設(shè)計(jì)的.所謂多普勒效應(yīng),即物體相對(duì)于波源移動(dòng)時(shí)觀察到的反射波的頻率與發(fā)射波的發(fā)射頻率之間會(huì)因物體相對(duì)波源的運(yùn)動(dòng)方向不同而產(chǎn)生差異.若目標(biāo)靠近波源,則接收頻率大于發(fā)射頻率;反之,若目標(biāo)遠(yuǎn)離波源,則接收頻率小于發(fā)射頻率.該雷達(dá)基于此效應(yīng)設(shè)計(jì),包含一個(gè)發(fā)射器和一個(gè)接收器,通過(guò)計(jì)算發(fā)射器和接收器之間的頻率差即可得到所檢測(cè)動(dòng)作的運(yùn)動(dòng)速度.現(xiàn)假設(shè)fr為接收波的頻率,ft為發(fā)射波的頻率,v為物體的運(yùn)動(dòng)速度,c為光速,則fr與ft的關(guān)系可表示為式(1).

(1)

頻率偏移fd=fr-ft,當(dāng)v?c時(shí),有fd=2vft/c.由于人在發(fā)音時(shí)臉部肌肉運(yùn)動(dòng)速度有限,因此這個(gè)頻率一般在10Hz以下[12].

本文采用的雷達(dá)為24GHz的K波段多普勒雷達(dá)探測(cè)器K-LC2,使用連續(xù)波模式,解調(diào)方式為正交解調(diào),解調(diào)輸出為I、Q雙通道輸出,其中I通道為解調(diào)后的真實(shí)的頻移信號(hào),Q通道為I通道相移90°.后得出的信號(hào),發(fā)射信號(hào)與接收信號(hào)之間的相位差可通過(guò)式(2)得出[12].

(2)

其中λ為波長(zhǎng),?0為初始相位.由該式可知θ可以度量包括運(yùn)動(dòng)速度和方向在內(nèi)的目標(biāo)運(yùn)動(dòng)信息.

已有工作[12]表明該微波雷達(dá)可以有效檢測(cè)到舌部來(lái)回運(yùn)動(dòng)、舌位保持等動(dòng)作帶來(lái)的微小面部肌肉運(yùn)動(dòng).另一方面,人在發(fā)音時(shí)面部、舌部、下顎等多個(gè)部位同樣會(huì)產(chǎn)生微小的肌肉動(dòng)作,并且相同的發(fā)音時(shí)這些動(dòng)作具有類(lèi)似的模式,本文旨在研究基于該微波雷達(dá)數(shù)據(jù)檢測(cè)發(fā)音動(dòng)作并進(jìn)行命令詞識(shí)別的方法.

2.2 系統(tǒng)框架

本文設(shè)計(jì)實(shí)現(xiàn)的數(shù)據(jù)采集系統(tǒng)框圖如圖1所示.該系統(tǒng)平行采集兩路信號(hào):一路是語(yǔ)音信號(hào),語(yǔ)音通過(guò)一個(gè)USB接口的電容麥克風(fēng)錄制;另一路包括三個(gè)雷達(dá)的輸出數(shù)據(jù),共6個(gè)通道,雷達(dá)輸出數(shù)據(jù)經(jīng)處理后由單片機(jī)通過(guò)串口發(fā)送至PC上.

圖1 數(shù)據(jù)采集系統(tǒng)框圖Fig.1 Flow chat of data acquisition system

2.3 硬件實(shí)現(xiàn)

本文設(shè)計(jì)了一個(gè)可佩戴的頭盔用于放置微波雷達(dá).為了減少對(duì)于發(fā)音人正常朗讀的影響,要求設(shè)備體積不能太大.因此本文使用了三個(gè)K-LC2雙通道24GHz微波雷達(dá),該微波雷達(dá)具有體積小、抗噪性能強(qiáng)的優(yōu)點(diǎn).三個(gè)雷達(dá)分別定位于發(fā)音人的左、右臉頰和下巴處,用于檢測(cè)發(fā)音時(shí)這些部位的動(dòng)作.

雷達(dá)的輸出信號(hào)是經(jīng)解調(diào)的頻移信號(hào),該信號(hào)是一個(gè)交流小信號(hào),在本文的應(yīng)用場(chǎng)景內(nèi),其幅值范圍為[-80 mv,80mv],這個(gè)特性決定它無(wú)法直接被單片機(jī)的片上ADC直接采集.首先,對(duì)于片上ADC來(lái)說(shuō),由于其采集范圍為[0,3.3V],因此其無(wú)法采集交流信號(hào);其次,信號(hào)幅度小容易導(dǎo)致無(wú)法采集到信號(hào)的有用成分.因此,需要設(shè)置相應(yīng)的電壓放大、抬升電路,雷達(dá)輸出信號(hào)經(jīng)過(guò)本文設(shè)計(jì)的電壓放大、抬升電路后,其電壓范圍為[350mv,1.95V],適合單片機(jī)上ADC的信號(hào)采集.最后,單片機(jī)將采樣的數(shù)據(jù)經(jīng)串口發(fā)送至PC端用于分析處理.

2.4 軟件實(shí)現(xiàn)

由圖1可知,語(yǔ)音和雷達(dá)數(shù)據(jù)最終被傳入PC上,故需要在PC端設(shè)計(jì)相應(yīng)的處理、接收的上位機(jī)程序.本文中,語(yǔ)音數(shù)據(jù)使用ffmpeg工具錄制,串口數(shù)據(jù)使用現(xiàn)有的串口函數(shù)庫(kù)接收并寫(xiě)入文件中.本文設(shè)計(jì)的上位機(jī)程序共有兩個(gè)線程,其中一個(gè)線程負(fù)責(zé)啟動(dòng)ffmpeg用以錄制語(yǔ)音,啟動(dòng)完成后,該線程即結(jié)束;另一個(gè)線程負(fù)責(zé)與下位機(jī)的通信和串口數(shù)據(jù)的讀取與保存.兩個(gè)線程協(xié)同工作,從而保證語(yǔ)音數(shù)據(jù)與雷達(dá)數(shù)據(jù)在時(shí)間上對(duì)齊,以便后續(xù)進(jìn)行命令詞的切分.

3 基于雷達(dá)數(shù)據(jù)的命令詞識(shí)別

3.1 數(shù)據(jù)庫(kù)構(gòu)建

已有的基于發(fā)音動(dòng)作檢測(cè)的語(yǔ)音識(shí)別方法研究通常從孤立詞或孤立音素的識(shí)別入手.例如,在文獻(xiàn)[13]中作者使用了含有9個(gè)詞語(yǔ)和13個(gè)音素的語(yǔ)料集合來(lái)研究基于電磁發(fā)音儀的靜默語(yǔ)音識(shí)別方法;類(lèi)似地,文獻(xiàn)[14]中作者為研究聲道的電磁傳輸與反射特性對(duì)音素識(shí)別的影響,構(gòu)建了一個(gè)含有25個(gè)音素的微波信號(hào)數(shù)據(jù)庫(kù).參考上述工作,本文利用第2節(jié)中介紹的數(shù)據(jù)采集系統(tǒng),構(gòu)建了一個(gè)含有兩個(gè)說(shuō)話人的命令詞識(shí)別數(shù)據(jù)庫(kù).該數(shù)據(jù)庫(kù)使用一個(gè)含有10個(gè)命令詞的詞表,如表1所示.每個(gè)說(shuō)話人對(duì)詞表進(jìn)行10遍朗讀,每遍朗讀中這10個(gè)詞之間的順序隨機(jī)打亂,同時(shí)保證前后兩個(gè)詞不是相同的詞,以減少錄音中的語(yǔ)序影響.

表1 本文使用的10個(gè)命令詞詞表Table 1 Ten command words in this paper

本文中的數(shù)據(jù)庫(kù)是在一個(gè)專(zhuān)業(yè)的隔音密閉錄音室完成的.錄制時(shí)說(shuō)話人佩戴好頭盔,朗讀屏幕上顯示的命令詞,在其前方安置電容麥克風(fēng).為減少其他操作給說(shuō)話人帶來(lái)的干擾,屏幕上命令詞的更換操作由錄音室外的控制人進(jìn)行.在錄音過(guò)程中,說(shuō)話人被要求盡量不要有其余額外的臉部動(dòng)作以減少干擾,同時(shí)在每個(gè)命令詞的前后,留有1秒左右的靜音段以方便后續(xù)處理.

在數(shù)據(jù)采集過(guò)程中,雷達(dá)數(shù)據(jù)采樣率設(shè)為500Hz.為便于切分得到每個(gè)命令詞的起止位置,該數(shù)據(jù)庫(kù)還同步錄制了命令詞的語(yǔ)音音頻,音頻采樣率為48kHz.

3.2 數(shù)據(jù)預(yù)處理

對(duì)每位發(fā)音人,錄音得到的原始雷達(dá)數(shù)據(jù)是經(jīng)ADC量化的、含有100個(gè)命令詞的整段數(shù)據(jù).為滿足后續(xù)實(shí)驗(yàn)需要,本文對(duì)原始雷達(dá)數(shù)據(jù)進(jìn)行了數(shù)據(jù)預(yù)處理,包括真實(shí)電壓值轉(zhuǎn)換、去均值、濾波、切分、降采樣等.

串口接收到的數(shù)據(jù)是經(jīng)片上的12比特ADC量化的數(shù)字量化等級(jí)值,故這個(gè)值在0-4095之間,根據(jù)式(3)可將其轉(zhuǎn)換為真實(shí)的電壓值.

V=ADC_value·3.3/4096

(3)

其中ADC_value為串口直接接收的數(shù)據(jù),V為被轉(zhuǎn)換的真實(shí)電壓值.以上處理后的電壓往往含有較大的直流成分,因此本文利用全局均值進(jìn)行了去均值操作.此外,采集到的數(shù)據(jù)含有一定噪聲.針對(duì)這個(gè)問(wèn)題,本文設(shè)計(jì)了一個(gè)截止頻率為10Hz的20階數(shù)字低通濾波器用于濾除噪聲.

本文在命令詞的錄音過(guò)程中采取的是單個(gè)說(shuō)話人連續(xù)錄制的方式,因此對(duì)單個(gè)說(shuō)話人來(lái)說(shuō),得到的雷達(dá)數(shù)據(jù)是100個(gè)命令詞及它們之間的靜音段按時(shí)間先后排列組成的.為了開(kāi)展命令詞識(shí)別方法研究,需要將這100個(gè)命令詞從連續(xù)的數(shù)據(jù)流中切分出來(lái).為此,本文在數(shù)據(jù)庫(kù)構(gòu)建過(guò)程中同步錄制了命令詞的語(yǔ)音數(shù)據(jù),通過(guò)對(duì)語(yǔ)音數(shù)據(jù)的VAD處理[15]可以得到每個(gè)命令詞的起止時(shí)刻.由于雷達(dá)數(shù)據(jù)和語(yǔ)音數(shù)據(jù)是同步錄制的,且發(fā)音動(dòng)作可能先于語(yǔ)音產(chǎn)生而晚于語(yǔ)音結(jié)束,我們對(duì)以上VAD邊界前后各延伸0.5秒后得到每個(gè)命令詞的雷達(dá)數(shù)據(jù)起止位置,并依據(jù)此位置進(jìn)行數(shù)據(jù)切分.考慮到發(fā)音動(dòng)作特征的緩變特性,本文對(duì)切分后的命令詞微波雷達(dá)數(shù)據(jù)進(jìn)行8倍下采樣到62.5Hz以減少數(shù)據(jù)量.

至此,經(jīng)過(guò)以上預(yù)處理步驟后,一個(gè)具有兩個(gè)說(shuō)話人、每個(gè)說(shuō)話人100個(gè)命令詞數(shù)據(jù)段的微波雷達(dá)數(shù)據(jù)庫(kù)構(gòu)建完成.

3.3 特征選擇

本文使用使用兩種特征進(jìn)行基于雷達(dá)數(shù)據(jù)的命令詞識(shí)別:

1)幀級(jí)的雷達(dá)數(shù)據(jù);

2)從幀級(jí)雷達(dá)數(shù)據(jù)中提出的命令詞段統(tǒng)計(jì)參數(shù),本文參考已有工作[16]使用的波形統(tǒng)計(jì)參數(shù)如表2所示.

表2 本文使用的波形統(tǒng)計(jì)參數(shù)Table 2 Waveform statistical parameters

這兩種特征各有其優(yōu)點(diǎn),直接使用幀級(jí)的雷達(dá)數(shù)據(jù)可以最大化地保留原始信息,但是在分類(lèi)時(shí)需要考慮由于發(fā)音速度差異帶來(lái)的數(shù)據(jù)不等長(zhǎng)問(wèn)題;使用從波形中提取的統(tǒng)計(jì)參數(shù)可以無(wú)需考慮數(shù)據(jù)長(zhǎng)度不等的問(wèn)題,但是會(huì)帶來(lái)一定的信息損失.

3.4 分類(lèi)模型

本文研究了兩種分類(lèi)方法用于命令詞的識(shí)別,即支持向量機(jī)方法和卷積神經(jīng)網(wǎng)絡(luò)[17]方法,下面將分別進(jìn)行介紹.

圖2 CNN模型結(jié)構(gòu)示意圖Fig.2 CNN model struct

3.4.1 PCA-LDA-SVM分類(lèi)模型

我們使用雷達(dá)數(shù)據(jù)的段級(jí)統(tǒng)計(jì)參數(shù)構(gòu)建支持向量機(jī)模型.支持向量機(jī)是一種按監(jiān)督學(xué)習(xí)方式對(duì)數(shù)據(jù)進(jìn)行二元分類(lèi)的廣義線性分類(lèi)器,其可通過(guò)引入核方法進(jìn)行非線性分類(lèi).它的目的是尋找一個(gè)超平面來(lái)對(duì)樣本集進(jìn)行分割,分割的原則是間隔最大化,最終轉(zhuǎn)化為一個(gè)凸二次規(guī)劃問(wèn)題來(lái)求解.其輸入為每個(gè)樣本的多維特征,輸出為該樣本對(duì)應(yīng)的類(lèi)別.支持向量機(jī)是針對(duì)二分類(lèi)任務(wù)設(shè)計(jì)的,對(duì)多分類(lèi)任務(wù)要進(jìn)行專(zhuān)門(mén)的推廣.本文使用“一對(duì)多余(OVR)”策略[18]將其推廣至10分類(lèi)任務(wù),核函數(shù)使用徑向基函數(shù).

考慮到特征維數(shù)有60維而樣本數(shù)目較少,故在使用支持向量機(jī)進(jìn)行分類(lèi)時(shí),首先對(duì)特征使用主成分分析(Principle Component Analysis,PCA)和線性判別分析(Linear Discriminat Analysis,LDA)進(jìn)行降維處理.經(jīng)PCA和LDA降維后,使用SVM分類(lèi)不會(huì)產(chǎn)生過(guò)擬合,且在相對(duì)低維的空間進(jìn)行分類(lèi)效果會(huì)更好.另外,考慮到使用原始波形數(shù)據(jù)維度太高,降維后信息損失過(guò)于嚴(yán)重,故在使用SVM方法時(shí),未使用原始數(shù)據(jù)作為特征.

3.4.2 CNN分類(lèi)模型

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是一類(lèi)包含卷積計(jì)算且具有深度結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),其具有平移不變性等多個(gè)優(yōu)點(diǎn),對(duì)圖片、語(yǔ)音等時(shí)序數(shù)據(jù)具有很好的學(xué)習(xí)能力.在本文的任務(wù)中,由于CNN具有平移不變性,在使用幀級(jí)特征時(shí),可以應(yīng)對(duì)由于語(yǔ)速、發(fā)音起止位置等因素的不一致帶來(lái)的影響.本文中使用的CNN結(jié)構(gòu)如圖2所示,其中“@”前數(shù)字表示該層特征通道的數(shù)目,若某層無(wú)該符號(hào),則代表該層只有1個(gè)通道.該結(jié)構(gòu)中,池化時(shí)選擇最大池化,激活函數(shù)使用修正線性單元(Rectified Linear Uint,ReLU)[19].

在使用CNN進(jìn)行分類(lèi)時(shí),本文對(duì)比使用了幀級(jí)雷達(dá)數(shù)據(jù)和段級(jí)統(tǒng)計(jì)參數(shù)兩種特征,若使用原始波形作為輸入,則輸入層中的N是所有樣本的最大時(shí)間長(zhǎng)度,其余樣本補(bǔ)零為該長(zhǎng)度;若使用統(tǒng)計(jì)參數(shù)作為輸入,則各樣本的輸入長(zhǎng)度相等,即N為10.

4 實(shí)驗(yàn)與結(jié)果

4.1 實(shí)驗(yàn)配置

由于數(shù)據(jù)庫(kù)中樣本數(shù)目有限,實(shí)驗(yàn)使用5-折交叉驗(yàn)證的方法進(jìn)行訓(xùn)練集和測(cè)試集的劃分,即對(duì)每個(gè)說(shuō)話人的100個(gè)雷達(dá)數(shù)據(jù),隨機(jī)劃分為5組,保證這5組中樣本類(lèi)別是均衡的(即每個(gè)命令詞都有2個(gè)樣本).實(shí)驗(yàn)時(shí)每次從這5組中取一組作為測(cè)試集,剩余4組作為訓(xùn)練集,如此重復(fù)5次直至每一組都曾被挑選作為測(cè)試集,最后將5次測(cè)試結(jié)果的均值作為最終的評(píng)估結(jié)果.

實(shí)驗(yàn)中構(gòu)建了以下三個(gè)模型用于對(duì)比分析:

1)SVM_seg:使用段級(jí)的統(tǒng)計(jì)參數(shù)作為特征.首先將各樣本的6個(gè)通道的10維統(tǒng)計(jì)參數(shù)拼接成一個(gè)60維特征向量,然后使用PCA與LDA進(jìn)行降維,經(jīng)實(shí)驗(yàn)調(diào)試后,先使用PCA將該特征向量將至20維,然后繼續(xù)使用LDA將其降維至8維,最后使用SVM對(duì)降維后向量進(jìn)行分類(lèi);

2)CNN_seg:使用段級(jí)統(tǒng)計(jì)參數(shù)作為特征輸入,但輸入與SVM_seg不同,此處將每個(gè)通道的10維段級(jí)統(tǒng)計(jì)參數(shù)組合成10*6的矩陣;

3)CNN_frm:使用幀級(jí)的雷達(dá)數(shù)據(jù)作為特征輸入.首先計(jì)算所有樣本的最大長(zhǎng)度N,然后其余樣本補(bǔ)至長(zhǎng)度N,輸入即為N*6大小的矩陣.

基于上述三個(gè)模型,每個(gè)模型均進(jìn)行單話者建模、多話者建模實(shí)驗(yàn).其中單話者建模指的是訓(xùn)練集和測(cè)試集均使用單個(gè)說(shuō)話人的數(shù)據(jù),每個(gè)說(shuō)話人分開(kāi)進(jìn)行實(shí)驗(yàn);而多話者建模指的是訓(xùn)練集和測(cè)試集中同時(shí)含有兩個(gè)說(shuō)話人的訓(xùn)練數(shù)據(jù).使用5-折交叉驗(yàn)證進(jìn)行實(shí)驗(yàn),每個(gè)模型、每種實(shí)驗(yàn)方式均重復(fù)1000次以獲得一個(gè)平均結(jié)果.

4.2 實(shí)驗(yàn)結(jié)果與分析

4.2.1 單話者建模命令詞識(shí)別結(jié)果

表3為在單話者建模實(shí)驗(yàn)中,兩個(gè)說(shuō)話人使用各模型的分類(lèi)準(zhǔn)確率情況.其結(jié)果顯示,在單話者建模實(shí)驗(yàn)中,CNN_seg模型的結(jié)果最差,SVM_seg其次,而CNN_frm模型的結(jié)果最好,對(duì)兩個(gè)說(shuō)話人的命令詞識(shí)別準(zhǔn)確率都在90%以上.CNN_seg的識(shí)別結(jié)果不盡如人意,相對(duì)于CNN_frm,此模型只是使用的輸入數(shù)據(jù)不同,說(shuō)明在此模型配置下,數(shù)據(jù)之間的模式不再那么容易區(qū)分,其原因可能是在提取統(tǒng)計(jì)參數(shù)時(shí)丟失了部分與命令詞標(biāo)簽相關(guān)的信息;SVM_seg的識(shí)別準(zhǔn)確率在80%左右,這個(gè)結(jié)果雖比CNN_frm稍差,但是也表明本文命令詞數(shù)據(jù)庫(kù)中的數(shù)據(jù)具備一定模式,使用傳統(tǒng)的SVM方法也可以取得一定性能;CNN_frm模型的結(jié)果最好,說(shuō)明CNN可以充分利用幀級(jí)特征的優(yōu)勢(shì),從而達(dá)到最優(yōu)的分類(lèi)效果.

表3 單話者建模命令詞識(shí)別準(zhǔn)確率(%)Table 3 Recognition accuracy of single-speaker modeling(%)

圖3是說(shuō)話人1各模型某次測(cè)試結(jié)果對(duì)應(yīng)的歸一化混淆矩陣圖,在混淆矩陣圖中,縱向表示真實(shí)標(biāo)簽,橫向表示預(yù)測(cè)標(biāo)簽,圖中數(shù)字為預(yù)測(cè)準(zhǔn)確率.首先,三個(gè)模型都具有較明顯的對(duì)角趨勢(shì),但混淆程度各有不同,CNN_frm模型的結(jié)果近乎對(duì)角陣,而CNN_seg模型的結(jié)果比較分散.其次,對(duì)比CNN_seg與SVM_seg兩個(gè)模型,可以看出雖然兩者都有一定的誤分類(lèi)結(jié)果,但是CNN_seg在混淆矩陣圖上更為分散,以“上升”與“左邊”兩個(gè)標(biāo)簽為例,這兩個(gè)標(biāo)簽在測(cè)試過(guò)程中都出現(xiàn)了4個(gè)不同的預(yù)測(cè)結(jié)果;SVM_seg系統(tǒng)則不然,其很大一部分誤分類(lèi)都是被誤分類(lèi)為“右方”.這兩個(gè)模型的原始輸入相同,但是后者首先進(jìn)行了PCA降維去除了40維之多的冗余信息,然后使用LDA再次降維至8維,使得其結(jié)果具有更小的混淆度.

圖3 各模型測(cè)試結(jié)果混淆矩陣圖Fig.3 Confusion matrix of three models

對(duì)比CNN_frm與CNN_seg兩個(gè)模型,可以明顯地看出使用幀級(jí)的雷達(dá)數(shù)據(jù)作為輸入的模型可以有效地避免上述問(wèn)題,且能達(dá)到比傳統(tǒng)SVM方法更好的結(jié)果.前者的輸入是段級(jí)的統(tǒng)計(jì)參數(shù),這些統(tǒng)計(jì)參數(shù)在一定程度上丟失了原始雷達(dá)數(shù)據(jù)的時(shí)序性與部分模式信息.

4.2.2 多話者建模命令詞識(shí)別結(jié)果

多話者建模實(shí)驗(yàn)的結(jié)果如圖4所示.對(duì)比表3和圖4可見(jiàn)在多話者建模實(shí)驗(yàn)中,SVM的性能有較明顯地下降,而使用CNN的模型仍保持和單話者建模實(shí)驗(yàn)中相近的水平,從而再次證明CNN模型可以較好勝任本文的命令詞識(shí)別任務(wù).

圖4 多話者建模命令詞識(shí)別結(jié)果Fig.4 Recognition accuracy of multi-speaker modeling

SVM性能下降的一個(gè)可能原因是兩個(gè)說(shuō)人在命令詞數(shù)據(jù)模式上具有較大的差別,SVM并沒(méi)有足夠的能力同時(shí)學(xué)習(xí)到兩個(gè)說(shuō)話人的發(fā)音動(dòng)作特征.為驗(yàn)證這個(gè)猜想,本文設(shè)計(jì)了一個(gè)話者交叉的多人建模補(bǔ)充實(shí)驗(yàn),該實(shí)驗(yàn)使用一個(gè)說(shuō)話人的全部數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),另一個(gè)說(shuō)話人的全部數(shù)據(jù)作為測(cè)試數(shù)據(jù),仍使用前述的CNN_frm模型,結(jié)果顯示測(cè)試集分類(lèi)正確率僅為20%左右,此實(shí)驗(yàn)證明兩個(gè)說(shuō)話人的模式差異性較大.在多人建模實(shí)驗(yàn)中,雖然測(cè)試集和訓(xùn)練集都包含了相同的2個(gè)說(shuō)話人,但是SVM模型的性能卻由于兩個(gè)說(shuō)話人模式的差異性出現(xiàn)一定的下降;而CNN模型卻幾乎沒(méi)有性能損失,可見(jiàn)CNN模型可以同時(shí)學(xué)習(xí)兩個(gè)說(shuō)話人各自的特征模式.

綜合單話者建模實(shí)驗(yàn)與多話者建模實(shí)驗(yàn)結(jié)果,可以得出一個(gè)在本文任務(wù)中性能最佳的模型,即CNN_frm,該模型無(wú)論在單話者建模還是多話者建模任務(wù)中,都保持了90%以上的分類(lèi)正確率.實(shí)驗(yàn)結(jié)果證明本文構(gòu)建的發(fā)音動(dòng)作檢測(cè)系統(tǒng)確實(shí)能檢測(cè)到發(fā)音相關(guān)的參數(shù),而后續(xù)提出的基于CNN與幀級(jí)雷達(dá)數(shù)據(jù)的模型可以從中提取出與命令詞相關(guān)的模式并很好地將它們進(jìn)行分類(lèi).

5 結(jié) 論

本文構(gòu)建了一個(gè)基于多普勒微波雷達(dá)的發(fā)音動(dòng)作檢測(cè)系統(tǒng),并基于此系統(tǒng)錄制了一個(gè)含有兩個(gè)說(shuō)話人共200個(gè)樣本的命令詞識(shí)別數(shù)據(jù)庫(kù).基于此數(shù)據(jù)庫(kù),設(shè)計(jì)了三個(gè)模型進(jìn)行對(duì)比實(shí)驗(yàn),通過(guò)對(duì)比實(shí)驗(yàn)得出了一個(gè)基于CNN和原始數(shù)據(jù)的命令詞識(shí)別分類(lèi)模型,該模型在命令詞識(shí)別任務(wù)上可以達(dá)到90%以上的準(zhǔn)確率.多話者建模實(shí)驗(yàn)的結(jié)果顯示,不同人的發(fā)音動(dòng)作數(shù)據(jù)模式之間差異較大,對(duì)于如SVM之類(lèi)學(xué)習(xí)能力不夠的傳統(tǒng)方法,會(huì)嚴(yán)重影響其分類(lèi)性能,而本文構(gòu)建的CNN模型可以較好的同時(shí)學(xué)習(xí)到多個(gè)說(shuō)話人的數(shù)據(jù)模式.后續(xù)計(jì)劃包括錄制更多說(shuō)話人數(shù)據(jù)、研究話者無(wú)關(guān)的命令詞識(shí)別方法等.

猜你喜歡
分類(lèi)動(dòng)作實(shí)驗(yàn)
記一次有趣的實(shí)驗(yàn)
分類(lèi)算一算
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
分類(lèi)討論求坐標(biāo)
數(shù)據(jù)分析中的分類(lèi)討論
動(dòng)作描寫(xiě)要具體
教你一招:數(shù)的分類(lèi)
畫(huà)動(dòng)作
動(dòng)作描寫(xiě)不可少
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
主站蜘蛛池模板: 亚洲综合极品香蕉久久网| 亚洲第一色网站| 91人妻在线视频| 国产久草视频| 在线视频亚洲色图| 中文字幕在线看| 久久精品这里只有国产中文精品| a毛片在线| 亚洲综合色区在线播放2019| 国产特一级毛片| 黄色网页在线观看| 极品国产在线| 午夜视频在线观看免费网站| 无码日韩精品91超碰| 试看120秒男女啪啪免费| 丁香亚洲综合五月天婷婷| 亚洲国产日韩一区| 婷婷综合亚洲| 爆乳熟妇一区二区三区| 午夜国产不卡在线观看视频| 亚洲国内精品自在自线官| 久久99精品久久久久纯品| 欧美一区精品| 日韩欧美网址| 欧美黄色网站在线看| 久久久久中文字幕精品视频| 精品三级在线| 一本大道香蕉久中文在线播放 | 青青青国产视频| 亚洲视频色图| 中日韩欧亚无码视频| 国产成人精品一区二区不卡| 精品国产香蕉在线播出| 国产精品手机视频一区二区| 色首页AV在线| 久久精品丝袜| 国产青青草视频| 国产欧美视频在线| 成人自拍视频在线观看| 欧美中文字幕在线二区| 国产人人乐人人爱| 中文国产成人精品久久一| 九九热精品视频在线| 国产情侣一区二区三区| 国产黄在线免费观看| 91小视频在线观看免费版高清| 精品视频一区二区三区在线播 | 美女免费精品高清毛片在线视| 成人国产小视频| 99无码中文字幕视频| 日本手机在线视频| 农村乱人伦一区二区| 日本在线欧美在线| 亚洲黄色高清| 日韩大片免费观看视频播放| 40岁成熟女人牲交片免费| 国产美女无遮挡免费视频| 亚洲最新在线| 亚洲成aⅴ人在线观看| 日韩国产另类| 亚洲毛片一级带毛片基地| 91探花在线观看国产最新| 亚洲欧洲日韩久久狠狠爱| 日韩在线永久免费播放| 久热99这里只有精品视频6| 白丝美女办公室高潮喷水视频| 久久国产香蕉| 米奇精品一区二区三区| 国产成人一区在线播放| 粉嫩国产白浆在线观看| 欧美日韩国产精品综合| 国产精品999在线| 国内老司机精品视频在线播出| 亚洲国产欧洲精品路线久久| 内射人妻无套中出无码| 亚洲av无码专区久久蜜芽| 色婷婷综合在线| аⅴ资源中文在线天堂| 欧美精品亚洲精品日韩专区va| 亚欧美国产综合| 亚洲专区一区二区在线观看| 亚洲日韩久久综合中文字幕|