999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

帶置信度的基于sEMG的無聲語音識別研究

2020-09-29 07:51:13王鑫喬波楊夢
電腦知識與技術 2020年17期

王鑫 喬波 楊夢

摘要:基于表面肌電信號(sEMG)的語音識別是通過面部放置的肌電信號傳感器采集生物電信號進行處理識別,過程不依賴于聲學信號, 可以避免外界噪聲的干擾,可提高強背景噪聲下通訊的準確性、可靠性以及適應場景條件的多變性,因此作為新的替代通訊方式在很多領域和場景被研究且應用。因為信號時間軸不一致而無法直接利用機器學習算法進行識別,本文提出了利用插值法來解決此問題。現有研究的識別結果沒有提供可信度評估,在高風險領域應用不足,本文將一致性預測器(Conformal Predictors)應用于基于表面肌電信號的孤立漢字無聲語音識別中,在提高了識別準確率的同時為預測結果提供可靠性評估和保障。

關鍵詞: 肌電信號;無聲語音識別;置信度;插值算法;一致性預測器

中圖分類號:TN912.34 ? ? ? ?文獻標識碼:A

文章編號:1009-3044(2020)17-0003-04

Abstract:Silent speech recognition is based on the bioelectric signal collected by the sEMG sensor placed on the face, which is independent of the acoustic signal. It can avoid the interference of external noise, improve the accuracy and reliability of communication under strong background noise, and adapt to the variability of scene conditions. Therefore, as a new alternative communication method, it has been studied and applied in many fields and scenes. At present, the recognition of signal is based on the hidden Markov model, because the time axis of signal is inconsistent, so it can not directly utilize machine learning algorithms. This paper proposes an interpolation method to solve this problem. The existing research results do not provide confidence guarantee, and are insufficient in the high-risk field. In this paper, conformal predictors are applied to the isolated Chinese silent speech recognition based on sEMG signal, which improves the recognition accuracy and provides reliability evaluation and guarantee for the prediction results.

Key words:sEMG signal; silent speech recognition; confidence measurement; interpolation algorithm; conformal predictor

1概述

近二十年來,自動語音識別(Automatic Speech Recognition,ASR)在實際應用中取得了令人滿意的發展,然而基于聲學信號的語音識別仍存在一些固有缺點:(1)語音信號很容易被環境噪聲干擾,在背景噪音下的語音識別性能會顯著下降;(2) 聲學信號的采集過程很難保持隱私或保密;(3)不適用于發聲障礙人士。 表面肌電信號(surface electromyography,sEMG)是肌肉系統進行隨意性和非隨意性活動時產生的生物電變化經表面電極引導、放大、顯示和記錄所獲得的一維電壓時間序列信號,反映了神經和肌肉系統的功能和生理狀態,并且從人體皮膚表面獲取,不會對人體造成損傷,因此在多個領域獲得深入研究和廣泛應用,例如疾病診斷、假肢控制、遠程操作機器人、康復治療等[1]。話語聲音的產生是一系列喉部肌肉和面部肌肉蔟活動協作完成的,肌肉的變化對應不同的活動狀態,因此可以從表面肌電信號中提取特征進行語言或語義識別,識別不依賴于聲學信號,自然避免了噪音或其他聲波干擾,因此基于表面肌電信號的無聲語音識別作為強噪音下的替代通訊方式被廣泛應用,如飛行員在強噪音駕駛艙中進行指令控制[2],消防員在救火場景中與隊員或指揮中心進行交互[3];基于肌電信號可以與語音信號同步采集,被研究用于為宇航員提供額外通訊方式[4];除此之外,因為說話人可以采用默讀的方式述說指令或語句,也可以用來實現高保密性的人-機或人-人交互[5]。

雖然早在1985年肌電信號就被引入無聲語音識別的研究[6],但研究直到2001年才有突破性進展,研究者比較了時域、傅里葉、小波包、小波變換四種特征提取方式,采用線性判別分析進行分類進行0-9數字的識別,平均識別率達到90%[2]。隨后針對大量以及連續信號的識別展開了許多的研究和實驗,并證明通過sEMG進行連續語音識別是可能的[7]。Michael Wand等學者[8]建立了肌電信號數據庫,由108 個詞匯組成的50個基本句子,平均每句話的字準確率達到70%。 國內的研究起步比較晚,2005年戴立梅等人將sEMG應用于無聲語音識別領域,實現10個數字的識別,平均識別率達到85%。2019年金丹彤等人將深度學習應用于漢語孤立詞的識別,對10個漢字得到80%的平均識別準確率[9]。基于肌電信號的無聲語音識別一般包括信號預處理、肌肉活動狀態檢測(分割),特征提取和識別四個步驟,目前的無聲語音信號識別多是基于隱馬爾可夫模型(HMM),但HMM模型的建立需要依賴一個較大的語音庫,這在實際工作中占有很大的工作量,且模型需的存儲量和匹配計算的運算量相對較大,雖然機器學習算法可解決此問題,但由于說話快慢的變化會使得信號的時間軸不一致,因此機器學習算法無法直接被應用,只能與HMM一起建立混合模型實現。本文利用圖像識別領域常見的插值法解決了時間軸不一致性問題,使得機器學習算法可以直接應用于無聲語音信號識別。在高風險領域,分類失敗將導致嚴重的后果,利用可信度可以對識別結果的可靠性進行假設檢驗,定位識別錯誤所在,提高系統的識別率和穩健性[10][11]。基于轉導推理的一致性預測 (Conformal Predictor,CP)是1998年Vovk等人[12]提出來一種基于柯爾莫戈洛夫(Kolmogorov)算法隨機性理論的域預測機器學習算法,可以對預測結果進行可靠性評估和保障,本文將研究一致性預測器在基于肌電信號的孤立詞的無聲語音識別的應用,通過線性判別分析(LDA)優化特征后,10個漢字的分類識別準確率達99%,且同時可輸出帶置信度評估的域預測結果,為后續連續詞識別提供支持。

2 ?原理和方法

本研究使用表面肌電信號進行10個漢語單詞的孤立詞的識別,單詞選用日常會話中的最常用的漢字。言語是多種面部和其他肌肉活動復雜結合的結果。根據解剖學研究[13],與言語相關活躍的肌肉數量很豐富,我們采用了先前研究中的電極位置[14],并進行了一些實驗,確定使用五個通道捕捉肌肉信號,分別為:顴骨主、提角肌、頸闊肌、外舌和二腹肌前腹,如圖1所示。電極使用標準的Ag/AgCl電極,使用NuAmps腦電放大器采集肌電信號,采樣頻率為250HZ。為了減少噪音,在采集過程中關閉了所有不必要的電源。實驗采集了2位男性同學的肌電信號。在實驗中,受試者以重復的方式默讀詞匯表中的單詞,每個單詞讀20次,每個字之間有10秒的停頓,使肌肉得到充分休息。

基于肌電信號的無聲語音識別一般包括信號預處理、肌肉活動狀態檢測(分割),特征提取和識別,如圖2所示。本研究采用陷波濾波、帶通濾波和基線漂移對信號進行預處理,然后手動進行信號分割,采用插值技術使信號長度達到一致。特征提取的目的是用一組有效的數據描述原始肌電信號。本研究使用信號的時域信息作為特征,利用線性判別分析對特征進行降維。分類識別步驟中對比了傳統的離線模式機器學習算法和在線學習模式的一致性預測器。

3關鍵技術實現

3.1 信號預處理與分割

本研究采用陷波濾波、帶通濾波對信號進行預處理。陷波濾波器(notch ?filter)用于消除普遍存在的電力線干擾。電力線干擾可以通過地面、空氣等介質傳輸到人體,后由表面肌電信號采集裝置采集。由于表面肌電信號相對較弱,電力線干擾很可能造成嚴重的影響,掩蓋了表面肌電信號本身的特性。本研究使用自適應陷波濾波器來恢復干擾,然后將其從被測信號中消除。經研究電力線干擾被認為是50赫茲正弦信號和50赫茲余弦信號的線性疊加[15],本系統采用自適應算法調整兩個信號的權值,使誤差最小。sEMG的主要信息集中在20Hz-120Hz范圍內。通過帶通濾波可以保持20Hz-120Hz的信號,來消除電力線信號的高次諧波和其他環境噪聲。

實驗采用連續錄入的方式,對詞匯表的每一個單詞,用戶將重復說20次,所以一個記錄將包含20段有效信號,需要將這些有效信號分割出來。盡管語音識別針對VAD(Voice Activity Detection)進行了大量的研究,但基于sEMG的SAD(Speech Activity Detection)在許多方面是一個更為困難的問題,多個表面肌電通道的使用使問題更加復雜,因為肌肉收縮優先于語音產生并提前時間不等, 很難定義語音相關活動的開始和結束,而每個通道的言語活動相關行為獨立又互相受影響。本論文采用人工分割的方式篩選出所有有效信號段,總共獲得1200多個樣本,如表1所示。

3.2插值和特征提取

由于用戶說話的快慢不同,導致有效信號的長度不一,本研究采用插值方法來規整信號的長度,通過對比最近鄰插值法、雙線性插值和雙三次插值的效果,最終采用雙線性插值將信號調整為每個通道370維的長度。

根據提取參數的方法不同,可以將信號分析分為:時域分析、頻域分析和時頻域分析。根據之前的研究,時域特征可以為識別提供足夠的信息,獲得更好的性能[16],本論文對信號進行時域分析。肌電信號是具有非平穩特性的生理電信號,在短時間范圍內可以認為信號是穩態的,為了描述sEMG信號隨時間變化的趨勢,首先按照疊加窗技術進行分幀處理。根據信號采樣率和實際分析的需要,我們取每幀信號長為30ms, 幀移為15ms,每幀信號加漢明窗以消除分幀帶來的幀信號邊緣的不連續性。接著提取幀內的四個時域特征值,分別為短時平均幅度、短時能量、短時平均過零率、短時平均幅值差。 從采集的5個通道的信號中共提取460維特征值。考慮到高維相關的精度和計算問題,利用線性判別分析(Linear Discriminant Analysis,LDA)方法從460個特征中選擇了50個特征,該方法在腦組織分析[17]、語音識別[18]和人臉識別[19]等領域有著廣泛的應用。

3.3 一致性預測器

3.3.1 一致性預測器原理

一致性預測器基于樣本服從獨立同分布假設的假設,預測過程可以采用在線學習的方式,過程中訓練樣本集是不斷更新的,在對測試樣本完成預測后,將測試樣本和它的真實標簽加入訓練樣本序列中,使得訓練可以從零樣本開始并逐步擴充訓練集;也可以采用傳統的機器學習的離線學習模式,即在固定的訓練樣本集上訓練模型。

4 實驗結果

本論文分別使用傳統的分類算法K近鄰、隨機森林(RF)以及支持向量機(SVM)和CP-KNN、CP-SVM、CP-RF進行無聲語音識別。在KNN中使用的距離是歐幾里德距離。支持向量機的核函數是線性函數。隨機森林中決策樹的數量為500。所有實驗均在10倍交叉驗證程序中進行。

4.1 單值預測結果

實驗先后使用460維全部特征和50維優化特征進行分類,對比了離線模式的CP-KNN、CP-SVM和CP-RF的單值預測結果和傳統的KNN、SVM和RF的預測結果,如表2所示。結果顯示,使用優化后的50維特征在預測中有更好的性能。對比多有的分類器,采用CP-RF識別的準確度最高,同時具有最大的可信度。

4.2 域預測結果

實驗比較了三種CP分類器的在線模式下的域預測性能。為了比較不同顯著性水平的域預測的精確度,我們統計了標簽集的元素個數的中值,如圖3所示。在顯著性水平為5%時,CP-SVM的域預測的中值約為9,隨著顯著性水平的增加而減小。相較于CP-SVM,CP-1NN和CP-RF輸出精確度更高的域預測,即中值為1,但當顯著性水平增加時,CP-RF的空預測增長率最小,如圖4所示。

5結論

本研究實現了基于面部肌肉肌電信號的10個漢語孤立詞的無聲語音識別,通過使用插值技術解決信號時間軸不統一的問題,并將一致性預測器應用于分類識別,為預測提供可靠性評估和保障。實驗表明基于隨機森林的CP識別性能最好,在離線模式下分類精確度可達99.5%,可信度為99.8%,在線模式下,置信度水平為95%時仍可得到大量單一預測。證明一致性預測器可成功應用于孤立漢語單詞識別。在今后的工作中可以探索如何利用CPs來提高漢語識別的魯棒性以及將小詞匯量孤立詞識別擴展至連續詞識別進而實現連續識別。

參考文獻:

[1] MerlettiR,LoConteLR.Advances in processing of surface myoelectric signals:Part1[J].Medical andBiological Engineering and Computing, 1995,33(3):362-372.

[2] Chan A D C,Englehart K,Hudgins B,etal.Myo-electric signals to augment speech recognition[J].Medical & Biological Engineering & Computing, 2001,39(4):500-504.

[3] Betts B J,BinstedK,JorgensenC.Small-vocabulary speech recognition using surface electromyography[J].Interacting With Computers, 2006,18(6):1242-1259.

[4] Jonas Dino. Ames Technology Capabilities and Facilities[EB/OL]. https://www.nasa.gov/centers/ames/research/technology-onepagers/human_senses.html

[5] Kapur A , Kapur S , Maes P . AlterEgo: A Personalized Wearable Silent Speech Interface[C]// the 2018 Conference,2018.

[6] Sugie N,Tsunoda K.A speech prosthesis employing a speech synthesizer-vowel discrimination from perioral muscle activities and vowel production[J].IEEE Transactions on BiomedicalEngineering, 1985,BME-32(7):485-490.

[7] Lopez-Larraz E,Mozos O M,Antelis J M,et al.Syllable-based speech recognition using EMG[C]//2010AnnualInternational Conference of the IEEE Engineering in Medicine and Biology,August31-September 4, 2010. Buenos Aires. IEEE, 2010: 4699-4702.

[8] Schultz T,WandM.Modeling coarticulation in EMG-based continuous speech recognition[J].Speech Communication, 2010,52(4):341-353.

[9] 金丹彤. 基于表面肌電信號的無聲語音識別算法研究[D].浙江:浙江大學,2019.

[10] 劉鏡,劉加.置信度的原理及其在語音識別中的應用[J].計算機研究與發展,2000,37(7):882-890.

[11] Jiang H.Confidence measures for speech recognition:a survey[J].Speech Communication,2005,45(4):455-470.

[12] Vovk V, Gammerman A,Shafer G.Algorithmic Learning in a Random World[J].2005:xvi.

[13] Smith K K.Anelectromyographic study of the function of the jawadducting muscles inVaranusexanthematicus (Varanidae)[J].Journal of Morphology,1982,173(2):137-158.

[14] Maier-Hein L,Metze F,SchultzT,et al.Session independent non-audible speech recognition using surface electromyography[C]//IEEE Workshop on Automatic Speech Recognition and Understanding,2005.,November 27, 2005.SanJuan,Puerto Rico. IEEE, 2005: 331-336.

[15] Chan A DC,Englehart K,Hudgins B,etal.Myo-electric signals to augment speech recognition[J].Medical & Biological Engineering & Computing, 2001,39(4):500-504.

[16] Schultz T, Walliczek M, Kraft F, et al. Towards Continuous Speech Recognition Using Surface Elec- tromyography. Bmj, 2006(29).

[17] Sch?ferKC,Balog J,SzaniszlóT,etal.Real time analysis of brain tissueby direct combinationofultrasonicsurgical aspiration and sonic spray mass spectrometry[J].Analytical Chemistry, 2011,83(20):7729-7735.

[18] Sakai M,Kitaoka N,Takeda K.Feature transformation based on discriminant analysis preserving local structure for speech recognition[C]//2009 IEEE International Conference on Acoustics,Speech and Signal Processing,April 19-24,2009. Taipei, Taiwan, China. IEEE, 2009: 3813-3816.

[19] BelhumeurPN,HespanhaJP,KriegmanDJ.Eigenfaces vs.Fisherfaces:recognition using class specific linear projection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997,19(7):711-720.

[20] Phinyomark A,HuH,Phukpattaranont P,etal.Application of linear discriminant analysis in dimensionality reduction for hand motion classification[J].Measurement Science Review, 2012,12(3):15-22.

【通聯編輯:唐一東】

主站蜘蛛池模板: 久青草网站| а∨天堂一区中文字幕| 欧美日韩一区二区三区四区在线观看| 99热国产在线精品99| 精品福利国产| 无码日韩精品91超碰| aaa国产一级毛片| 国产青青草视频| 97久久精品人人| 日韩精品一区二区三区大桥未久 | 欧美午夜在线观看| 亚洲福利网址| 狠狠干综合| 小说区 亚洲 自拍 另类| 欧美精品成人一区二区视频一| 欧美在线观看不卡| 日韩在线2020专区| 国产欧美日韩专区发布| 亚洲黄色视频在线观看一区| 国产精品久久久免费视频| 国产精品一区在线观看你懂的| 欧美区国产区| 成人免费一级片| 国产三区二区| 国产激情无码一区二区免费 | 成人免费午夜视频| 高清国产va日韩亚洲免费午夜电影| 国产午夜无码片在线观看网站| 天天做天天爱天天爽综合区| 丰满少妇αⅴ无码区| 国产精品高清国产三级囯产AV| 国产后式a一视频| 国产制服丝袜91在线| 特级毛片8级毛片免费观看| 久久精品嫩草研究院| 国产精品伦视频观看免费| 欧美.成人.综合在线| 国产香蕉97碰碰视频VA碰碰看| 日韩久久精品无码aV| 秘书高跟黑色丝袜国产91在线| 日韩精品亚洲精品第一页| 日韩在线影院| 无码粉嫩虎白一线天在线观看| 毛片网站在线看| 又爽又大又光又色的午夜视频| 日韩不卡高清视频| 国产情侣一区| 亚洲精品无码av中文字幕| 一本综合久久| 福利在线不卡| 国产美女视频黄a视频全免费网站| 国产欧美日韩另类| 亚洲欧美日韩久久精品| 一级香蕉视频在线观看| 亚洲国产清纯| 欧美一区二区自偷自拍视频| 91福利片| 亚洲女同欧美在线| 欧美在线天堂| 在线观看国产小视频| 亚洲综合狠狠| 99热这里只有精品2| 91无码网站| 欧美三级自拍| 国产va在线| 无码中文字幕精品推荐| 欧美成人区| 91年精品国产福利线观看久久| 999在线免费视频| 国产精品久久久久久影院| 色首页AV在线| 国产女人18毛片水真多1| 中文无码日韩精品| 国产玖玖玖精品视频| 国产麻豆福利av在线播放| 99爱视频精品免视看| 色综合五月婷婷| A级全黄试看30分钟小视频| 91精品人妻一区二区| 国产玖玖视频| 亚洲精品无码专区在线观看| 久久久成年黄色视频|