張瑛琪,彭大衛(wèi),李森,孫瑩,牛強
基于單標簽射頻識別的唇語識別算法
張瑛琪,彭大衛(wèi),李森,孫瑩,牛強*
(中國礦業(yè)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 徐州 221116)(*通信作者電子郵箱niuq@cumt.edu.cn)
近年來,有研究提出了使用多個定制且可拉伸的射頻識別(RFID)標簽進行語音識別的無線平臺,但該標簽難以精準捕捉拉伸引起的大頻率偏移,而且需要探測多個標簽,標簽脫落或自然磨損時還須重新校準。針對以上問題,提出基于單標簽RFID的唇語識別算法,將靈活、易于隱藏且沒有侵入性的單個通用RFID標簽貼在臉上,即使用戶不發(fā)出聲音,僅依靠面部的微動作也可進行唇語識別。首先建立模型處理RFID閱讀器接收的單個標簽隨時間和頻率響應(yīng)的接收信號強度(RSS)和相位變化,然后采用高斯函數(shù)對原始數(shù)據(jù)的噪點進行平滑去噪預(yù)處理,再采用動態(tài)時間規(guī)整(DTW)算法對收集到的信號特征進行評估分析,以解決發(fā)音長短不匹配的問題;最后創(chuàng)建無線語音識別系統(tǒng)來識別區(qū)分與聲音相對應(yīng)的面部表情,從而達到識別唇語的目的。實驗結(jié)果表明,對于識別不同用戶的200組數(shù)字信號特征,該方法的RSS準確率可以達到86.5%以上。
射頻識別;唇語識別;單標簽;接收信號強度;動態(tài)時間規(guī)整
唇讀主要研究說話者發(fā)音過程中口腔的變化。每個人的語言都有自己的特點,言語過程中嘴巴的運動也有自己獨特的規(guī)律。這種規(guī)律包括一般特征和個體特征:一般特征指語音中常見的口腔運動規(guī)律,主要與語音內(nèi)容有關(guān),可以應(yīng)用于語音識別;個體特征與說話者的生理特征和習(xí)慣有關(guān),主要用于說話者的身份識別。早在1984年,Petajan等[1]就介紹了自動唇讀系統(tǒng)進行語音識別;1988年,在原有工作的基礎(chǔ)上,Petajan等[2]引入了矢量量化、動態(tài)時間規(guī)整(Dynamic Time Warping, DTW)和一種新的啟發(fā)式距離測度,使語音識別系統(tǒng)的性能顯著提高。隨著對唇讀技術(shù)的研究,人們對嘴唇運動規(guī)律和生理特性的認識也越來越深入。唇部作為人類面部最大的區(qū)域,包含著豐富的內(nèi)容和信息,包括唇形、膚色、肌膚紋理和語速等。唇部的運動可以充分反映說話人的個性信息。其次,它可以充分結(jié)合人臉和語音特征,充分展示其在說話人識別中的優(yōu)勢[3]。隨著計算機視覺、模式識別和信號處理等領(lǐng)域的技術(shù)進步,基于射頻識別(Radio Frequency IDentification, RFID)的唇語識別成為可能。利用RFID進行唇語識別時,無需使用具有侵入性的面部傳感器,僅采用小巧且價格低廉的標簽。基于RFID的唇語識別針對無法發(fā)聲的用戶也具有很好的魯棒性,且環(huán)境周圍的噪聲對實驗影響較小。傳統(tǒng)的無線運動檢測更側(cè)重于手勢[4]或者身體的運動[5],本文提出的單標簽RFID唇語識別算法可以識別到面部的微動作,細粒度較高。
在RFID應(yīng)用中,貼上RFID標簽的物品被密集地大規(guī)模放置。RFID標簽是一個小型芯片,封裝在天線上。在掃描過程中,RFID閱讀器通電并發(fā)射連續(xù)波給標簽通電;然后,標簽通過調(diào)制反向散射信號,以攜帶標簽的信息響應(yīng)閱讀器,閱讀器則進一步解碼信號并獲得相應(yīng)的信息[6]。由于擁有讀取速度較快、信息存儲量較大、應(yīng)用壽命較長以及使用安全、可靠性較高等特點,RFID被廣泛應(yīng)用于射頻門禁、電子溯源、產(chǎn)品防偽、醫(yī)療管理、交通運輸、車牌識別以及商品銷售等領(lǐng)域。RFID系統(tǒng)包括硬件組件與軟件組件兩大部分:硬件組件包括閱讀器、射頻標簽和網(wǎng)絡(luò)基礎(chǔ)設(shè)施等;軟件組件包括驅(qū)動程序、RFID中間件和企業(yè)應(yīng)用軟件等。
文獻[7]中設(shè)計了多個定制標簽利用RFID的方法進行唇語特征識別,但該方法存在以下不足:1)所定制的標簽天線長度的變化較為敏感,即使只有1 mm的微小變化,也會使諧振頻率降低8 MHz,難以精準捕捉拉伸引起的大頻率偏移;2)需要探測多個經(jīng)過特殊調(diào)整的標簽;3)如果標簽脫落或自然磨損,必須重新校準。為了解決上述問題,本文提出了一種采用通用單標簽的語音識別方法。在系統(tǒng)正常運行之前,需要解決幾個關(guān)鍵挑戰(zhàn):1)采用通用的RFID標簽,該標簽不具備可拉伸性;2)處理使用單個RFID標簽收集到的信號,并將其進行分割,提取出信號的特征值進行后續(xù)計算;3)標簽的輕微移動不應(yīng)影響實驗的準確性及魯棒性。
針對挑戰(zhàn)1),本文使用無電池供電且輕巧靈活的RFID標簽粘貼在皮膚上,采用無需佩戴手動輸入設(shè)備的RFID無線語音識別系統(tǒng),利用盡量少的標簽識別用戶所能夠做出的與語音相關(guān)的嘴部動作,并隨著時間的推移來學(xué)習(xí)這些動作,以便識別用戶發(fā)出的不同聲音,進而指導(dǎo)。雖然標簽不可拉伸,但可以通過跟蹤單個標簽隨時間的應(yīng)變來進行識別,因為它們會根據(jù)不同的聲音以及嘴部微小的動作產(chǎn)生不同的阻抗,這些阻抗會引起不同的相位和接收信號強度(Received Signal Strength, RSS),通過對這些變化的相位和RSS的處理與分析,來識別不同的語音。針對挑戰(zhàn)2),考慮到采集原始數(shù)據(jù)的環(huán)境具有各種噪聲,且原始數(shù)據(jù)很多時候不穩(wěn)定或有明顯波動,采用高斯函數(shù)對原始數(shù)據(jù)的噪點進行平滑去噪預(yù)處理。由于每個人的發(fā)音方式、發(fā)音長短各不相同,采用DTW算法對收集到的信號特征進行“規(guī)整”對齊,解決了發(fā)音的音節(jié)長短線性不一致、頻譜偏移和音強大小的問題,并創(chuàng)建無線語音識別系統(tǒng)來識別區(qū)分與聲音相對應(yīng)的面部微表情。針對挑戰(zhàn)3),本文采用RSS替代相位進行唇部特征值的提取。RSS對接收到的無線電信號中呈現(xiàn)的功率進行測量,測量相對簡單,而且相比相位,RSS對唇部動作的變化較不敏感,故而標簽的脫落之后再粘貼或面部表情導(dǎo)致的標簽輕微移動對實驗結(jié)果影響不大。本文設(shè)計將薄薄的標簽貼在用戶臉上,并使用化妝品進行遮蓋隱藏。使用基于RFID的方法進行評估分析,它所應(yīng)用的RFID標簽較為靈活,且RFID相關(guān)部署較為簡單,沒有受過專業(yè)訓(xùn)練的人也可以勝任。綜上,本文設(shè)計了可以通過一個小巧靈活的RFID標簽來識別用戶(包括語音障礙患者)的預(yù)期語音系統(tǒng),主要工作包括:
1)通過處理閱讀器收集的來自不可拉伸的通用RFID標簽的反向散射信號來進行唇語識別算法研究;
2)僅檢測一個標簽隨面部表情的信號變化并提取相關(guān)的相位和RSS特征值,利用高斯濾波和DTW等方法進行數(shù)據(jù)的分析與處理;
3)進行唇語識別實驗,對比不同標簽角度、人臉朝向及用戶是否發(fā)聲對實驗的影響。
文獻[8]將RFID標簽進行物理修改使其轉(zhuǎn)換為傳感器并用來監(jiān)測溫度、濕度;文獻[9]則利用配備傳感器的RFID標簽監(jiān)測神經(jīng)信號;文獻[10]的研究依賴標簽的相位和RSS來精確跟蹤它們的位置,包括感知身體骨架、形狀和目標成像;文獻[11]利用RFID標簽通過感知標簽芯片和天線之間的阻抗不匹配進行手指觸摸跟蹤;文獻[12]利用近場天線的耦合效應(yīng)來區(qū)分位于RFID標簽下的不同材料。與這些研究不同的是,本文試圖根據(jù)用戶臉上已知位置的標簽的相位和RSS變化來識別用戶的唇語,因此需要新的解決方案。
文獻[13]探索了一種視聽融合策略,超越簡單的特征拼接,提高了識別精度;基于攝像頭的唇讀解決方案,如文獻[14-15],需要提取獨立且有區(qū)分度的幾何特征,基于圖像、模型和運動的特征,較為復(fù)雜且對照明條件很敏感,而且在用戶移動時可能無法實現(xiàn);基于音頻的輔助解決方案僅適用于用戶可以發(fā)出聲音的情況,對于不能發(fā)聲的語音障礙患者效果甚微;基于手語的輔助解決方案需要用戶熟練使用手語,對語音障礙患者練習(xí)發(fā)聲用處不大;此外,多種用于言語感應(yīng)的面部傳感器被提出,比如在臨床環(huán)境中附在舌頭上的磁鐵[16]、腦電圖(ElectroEncephaloGram, EEG)[17]和面部肌電電極等,但這些設(shè)備具有侵入性并且需要經(jīng)過訓(xùn)練的專業(yè)醫(yī)護人員操作,對日常生活中的語音練習(xí)來說較為昂貴。
文獻[18]中提出了基于超分辨率測試序列(Visual Geometry Group, VGG)的時空卷積神經(jīng)網(wǎng)絡(luò)用于將單詞分類。該體系結(jié)構(gòu)在一個字級數(shù)據(jù)集BBC-TV(333和500個類)上進行了評估,結(jié)果顯示時空模型與空間體系結(jié)構(gòu)的差距約為14%;然而,該文獻中的唇讀模型不能處理可變的序列長度,也不嘗試句子級的序列預(yù)測。文獻[19]中訓(xùn)練了一個用于學(xué)習(xí)預(yù)訓(xùn)練嘴特征的視聽最大邊緣匹配模型,將其輸入到長短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)中,用于在OuluVS2數(shù)據(jù)集上進行10個短語分類,以及非唇讀任務(wù)。文獻[20]中介紹了用于唇讀的LSTM遞歸神經(jīng)網(wǎng)絡(luò),但既沒有解決句子級序列預(yù)測問題,也沒有解決說話人獨立性問題,與說話人相關(guān)的準確率為79.6%。
隨著機器學(xué)習(xí)的發(fā)展,廣泛應(yīng)用于唇語識別的方法有隱馬爾可夫模型(Hidden Markow Model, HMM)、DTW算法、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)、深度學(xué)習(xí)(Deep Learning, DL)以及LSTM等。但目前利用深度學(xué)習(xí)進行唇語識別的工作并不多,因為這類工作需要對幀進行大量預(yù)處理以提取圖像特征,或進行時間預(yù)處理以提取視頻特征(例如光流或運動檢測)或其他類型的手工制作視覺管道。本文選擇采用DTW算法來進行唇語識別。
標簽的大小和FCC(Federal Communications Commission)讀距有很大的關(guān)系。標簽越小,F(xiàn)CC讀距就越小,因此如果想要精準地讀取數(shù)據(jù),標簽和天線的距離需要減小;反之,標簽越大,F(xiàn)CC讀距相對來說就較大,但是過大的標簽貼在用戶臉上不美觀,且更易脫落。因此,需要平衡好標簽的大小與FCC讀距之間的關(guān)系。
當標簽連接到目標時,標簽天線的阻抗會發(fā)生變化;而不同材料的目標也會引起不同數(shù)量的阻抗變化,這種阻抗變化將導(dǎo)致從該標簽反向散射信號的相位變化,并且還導(dǎo)致從該標簽輻射的功率發(fā)生變化[21]。不過由于本文實驗始終將標簽貼在同一目標——人臉上,因此,標簽連接到目標上產(chǎn)生的影響相互抵消,可忽略不計。
本文將輕量型、對皮膚友好且無電池的RFID標簽貼在人的左(或右)臉頰上,每個標簽都是柔韌、薄片狀的,并且由低過敏性材料制成,跟蹤單個標簽隨時間的應(yīng)變,因為它們會因為不同的聲音而變形。標簽在人臉的位置如圖1所示。

圖1 標簽在人臉的位置示意圖
原則上來說,標簽的數(shù)量越多識別的精度就越高,但在多通道網(wǎng)絡(luò)中,給定的時隙中只有一個標簽通過共享信道進行傳輸,則傳輸成功;如果兩個或多個標簽在同一信道上同時傳輸,就會發(fā)生沖突[22]。在RFID實際應(yīng)用中,多個標簽共享一個公共通信信道,因此當多個標簽同時進入讀寫器的有效識別區(qū)域范圍內(nèi)傳輸時,會產(chǎn)生信道征用的問題,不同標簽之間的信息相互影響,導(dǎo)致閱讀器不能正確識別,數(shù)據(jù)包將發(fā)生沖突并丟失。
本文進行了多標簽和單標簽的對比實驗,相位和RSS結(jié)果對比如圖2、圖3,其中,圖2從上至下的四個標簽依次位于左臉頰、嘴唇上方、嘴唇下方和右臉頰。

圖2 多標簽的相位和RSS

圖3 單標簽的相位和RSS
由圖2、3可以看出,單標簽的相位和RSS的規(guī)律比多標簽更加明顯,且多標簽之間互相干擾會造成部分標簽存在失讀或者是誤讀的問題,從而導(dǎo)致數(shù)據(jù)準確性下降。在本文的實驗中,由于粘貼在臉上的標簽較小,該標簽的FCC讀取距離也較小,如果同時在臉上貼多個標簽的話,標簽之間的相互影響會干擾讀取面部表情的微小變化,因此僅采用1個RFID標簽附著在面部皮膚表面的已知位置。
在室內(nèi)環(huán)境中,除了硬件電路施加的相位噪聲之外,多徑效應(yīng)是另外一個影響實驗結(jié)果精確性的破壞性因素,且標簽的方向以及用戶的移動對實驗也會有影響。因此可以通過控制實驗環(huán)境等因素來抵消多徑效應(yīng)對識別的影響,并保證用戶在采集時粘貼標簽的位置盡量一致,且在用戶發(fā)聲時標簽被拉伸。
設(shè)置空白對照組來判斷多徑干擾對識別的影響,該對照組可以將拉伸的影響與無線電環(huán)境相關(guān)的其他方面隔離開來。具體來說,放置固定位置的RFID標簽,先在用戶盡量靜止的時候采集數(shù)據(jù),然后在用戶進行唇讀時繼續(xù)采集,接著將標簽在用戶唇讀時接收到的信號減掉用戶靜止不動時所采集的信號,以隔離標簽位置、方向和無線電環(huán)境的影響。實驗表明,由于唇讀時天線和標簽的距離比較近,因此,多徑等干擾因素對識別的影響很小,可忽略不計。
本章首先介紹數(shù)據(jù)的采集方法,然后介紹高斯濾波預(yù)處理,最后著重研究了DTW算法的原理與使用。系統(tǒng)流程如圖4所示。

圖4 系統(tǒng)流程
監(jiān)控標簽拉伸的關(guān)鍵方法是測量標簽伸長引起的阻抗變化。具體而言,當用戶想要說話時,標簽會隨著用戶的嘴部動作不斷地被拉伸,其寬度和長度都會相應(yīng)地發(fā)生變化,標簽的電阻和電抗增加,這也會導(dǎo)致標簽的共振頻率發(fā)生變化。將單個RFID標簽貼在人臉上,當一個人發(fā)出不同的音素聲音時,該標簽會被拉伸不同的量,從而產(chǎn)生不同的阻抗變化。采集該標簽的所有響應(yīng),以獲得標簽拉伸所導(dǎo)致的變化。
用戶面向天線重復(fù)數(shù)字0~9若干次,并提取每個數(shù)據(jù)的相位和RSS信息,如圖5所示。從圖5可以看出,這若干個重復(fù)的數(shù)字的相位和RSS都是有規(guī)律的,將其分割后每個數(shù)字隨機選取20組數(shù)據(jù)集,10個數(shù)字共200個數(shù)據(jù)集。

圖5 原始數(shù)據(jù)相位和RSS信息




本文對HMM、互相關(guān)和DTW算法進行深入研究后發(fā)現(xiàn):由于語音序列具有時序性,互相關(guān)并不能將不同速度且不同長度的語音序列很好地對齊,實驗結(jié)果僅呈現(xiàn)微相關(guān)的狀態(tài);而使用HMM進行建模需要符合隱性狀態(tài)的轉(zhuǎn)移必須滿足馬爾可夫性(即一個狀態(tài)只與前一個狀態(tài)有關(guān))這一條件,因此更適用于連續(xù)語音識別系統(tǒng),所以本文采用DTW算法對唇語識別進行研究。
DTW是孤立詞語音識別中最簡單有效的方法,在自動語音識別中,DTW最初用于比較不同的語音模式。它可以在一定的約束條件下,在兩個給定的時間相關(guān)序列之間找到最佳的對齊方式,是一種用于測量兩個可能在時間或速度上變化的序列之間的相似性的彈性測量方法,解決了模板中發(fā)音長短不一的匹配問題。

圖6 高斯預(yù)處理前后相位和RSS的對比
DTW的計算公式如下:




規(guī)整前和規(guī)整后的累積距離矩陣如圖7所示,圖8為DTW前后最優(yōu)路徑對比。

圖7 DTW累積距離矩陣

圖8 DTW前后最優(yōu)路徑對比


前端硬件:使用商品RFID Impinj R420讀卡器實現(xiàn)本文識別系統(tǒng)的原型,可以在920.625~924.375 MHz的16個頻道上跳躍。硬件組件如圖9,包括一個閱讀器、一個增益為8 dBi的定向圓極化天線和無源標簽(閱讀器Impinj AZ-ET的尺寸是13.2 cm ×13.2 cm ×18 cm,標簽B42的芯片為M4,天線尺寸是8 mm × 22 mm,Wet Inlay尺寸為12 mm ×26 mm)。閱讀器通過以太網(wǎng)線與上位機相連,并連續(xù)報告時間、相位和RSS讀數(shù)。實驗中該閱讀器的工作范圍約為3 m。

圖9 硬件組件
后端實施:使用C#和Matlab語言進行數(shù)據(jù)收集和處理[23]。該處理過程在配備Intel Core i7-6500U CPU和8.0 GB RAM的DELL筆記本電腦上進行。該系統(tǒng)可以實現(xiàn)直接從RFID閱讀器中檢索相位和RSS讀數(shù)。
測試環(huán)境:測試參與者在安靜的辦公室環(huán)境下進行測試,該環(huán)境具有豐富的多路徑:墻壁、沙發(fā)、書架和家具。實驗場景部署如圖10。

圖10 實驗場景部署
采用上述方法收集了5位用戶(2女3男)的1 000組數(shù)據(jù),每位用戶各200組數(shù)據(jù),各用戶的相位和RSS的準確率如表1所示。可以看出,根據(jù)相位測量的準確率遠低于根據(jù)RSS測量的準確率,這是因為與RSS相比,相位讀數(shù)具有更好的分辨率[24],因此相位變化對面部微表情的感知更為敏感,進而引入了更多關(guān)于面部微表情的信息,導(dǎo)致數(shù)據(jù)包含的內(nèi)容更繁雜。本文的目的僅在于識別用戶說出的不同數(shù)字,所以本文主要采用RSS進行數(shù)據(jù)的處理與唇語的識別,在日后更為精細的工作中,可能會在RSS讀數(shù)效果較差或區(qū)分度不大時采用相位進行輔助識別。同時,對于不同性別用戶的不同語速,本實驗的準確性也十分可觀,在未來會采集更多不同年齡段及特殊人群(如聾啞人、語音障礙患者等)用戶進行數(shù)據(jù)收集并實驗,進一步提高系統(tǒng)的準確率和魯棒性。

表1 各用戶的相位和RSS準確率
圖11、12顯示了用戶A和用戶B的相位和RSS混淆矩陣,可以很清晰地看到RSS的準確率普遍比相位的準確率高。同時經(jīng)分析得到:一個數(shù)字會被認為是另一個數(shù)字的原因是發(fā)音時的嘴部動作較為相近,從而使標簽產(chǎn)生了相似的形變,導(dǎo)致信號的變化較為相似。不同的數(shù)字,根據(jù)相位和RSS的DTW距離判斷出來的結(jié)果也略有不同,不同用戶同一數(shù)字的準確率也未必相同,一個可能的原因是:每個人的發(fā)音習(xí)慣不同,進而在發(fā)聲時嘴巴張開的角度及面部肌肉拉伸的情況也略有區(qū)別。
由圖13觀察到,當詞匯量變大時,系統(tǒng)的精確度會下降。一個可能的解決方案是使用對拉伸更為敏感的RFID芯片,這些芯片在更細粒度的離散頻率上共振,來模擬拉伸,從而更為精準地識別用戶的唇語;或者使用相位讀數(shù)更為精準的感知用戶唇讀時面部的微小變化。
此外,本文繼續(xù)研究其他相關(guān)因素對實驗的影響,包括標簽角度、人臉相對天線朝向以及用戶是否發(fā)出聲音。具體分析如下:
1)標簽角度的影響:本文通過重復(fù)一個單詞若干次來驗證標簽位于不同角度的魯棒性。標簽角度部署如圖14,根據(jù)圖15標簽不同角度的RSS對比分析得到,在45°時,數(shù)據(jù)收集的穩(wěn)定性最差,0°其次,90°的時候效果相對較好。這是由于在45°時,標簽的方向與唇部周圍肌肉的運動方向大致相同,受到的拉伸最小,導(dǎo)致的形變也較小,因此本實驗的標簽方向選擇90°。
2)人臉相對天線朝向的影響:將標簽貼在左臉頰,分別對臉正對天線、貼標簽一側(cè)的臉正對天線和未貼標簽一側(cè)的臉正對天線進行實驗,以判斷人臉朝向?qū)嶒灥挠绊懀瑴蚀_率分別為88%、90%和0%。可見雖然平衡好了標簽FCC讀距與標簽大小的關(guān)系,但是在標簽隔著人臉對著天線時,由于中間遮擋物太多,收集數(shù)據(jù)較為困難,因此準確率幾乎為0;當人臉正對天線或者貼標簽一側(cè)正對天線時,效果較好。因此在實驗及日后應(yīng)用中,應(yīng)盡量保證標簽與天線之間沒有遮擋。
3)用戶是否發(fā)出聲音對實驗的影響:針對同一用戶發(fā)聲和不發(fā)聲的100個樣本,測試得出的相位準確率分別為90%和91%,因此可知用戶是否發(fā)聲對實驗結(jié)果幾乎無影響,所以本文的系統(tǒng)也可以用于不能發(fā)聲的語音障礙患者。

圖11 用戶A的相位和RSS的混淆矩陣

圖12 用戶B的相位和RSS的混淆矩陣

圖13 不同樣本量的準確率

圖14 標簽角度部署示意圖

圖15 標簽不同角度的RSS對比
針對現(xiàn)有RFID唇語識別需要探測多個經(jīng)過特殊調(diào)整的標簽來捕捉拉伸引起的偏移以及標簽脫落需重新校準等問題,本文提出了基于單標簽RFID的唇語識別算法,使用價格低廉的單個RFID標簽來識別用戶發(fā)聲時面部的微表情,并采用高斯的方法進行預(yù)處理,在此基礎(chǔ)上,利用DTW算法處理收集到的相位和RSS信息,計算訓(xùn)練集和測試集之間模板匹配時最小的累計距離,保證了唇語識別的有效性。
本文充分利用已進行廣泛應(yīng)用的RFID設(shè)備,根據(jù)所收集到的信號參數(shù)的變化進行研究分析,實現(xiàn)了成本較低且準確率較高的唇語識別。本文方法與其他唇語識別方法相比,不具有侵入性,利用通用RFID標簽,降低了應(yīng)用成本,易于在實際環(huán)境中廣泛部署應(yīng)用。同時,由于采用了說話時面部表情的微動作識別,本文方法可以很好地適用各種用戶(包括語音障礙患者)唇語識別。提高DTW算法的計算效率、進一步完善本方法的實際部署方案和應(yīng)用模式使識別模型可以在不同的環(huán)境中快速部署應(yīng)用是下一步工作的重點。此外,關(guān)于利用該方法識別更多種類的詞句、進行細粒度更高的識別、延長唇語識別的讀取距離也值得進一步研究。
)
[1] PETAJAN E D. Automatic lipreading to enhance speech recognition (speech reading)[D]. Champaign, IL: University of Illinois at Urbana-Champaign, 1984: 4-23.
[2] PETAJAN E, BISCHOFF B, BODOFF D, et al. An improved automatic lipreading system to enhance speech recognition[C]// Proceedings of the 1988 SIGCHI Conference on Human Factors in Computing Systems. New York: ACM, 1988: 19-25.
[3] BAI Z X, ZHANG X L. Speaker recognition based on deep learning: an overview[J]. Neural Networks, 2021, 140: 65-99.
[4] HONMA N, TODA K, TSUNEKAWA Y. DoA estimation technique of back-scattering signal from RFID for gesture recognition[C]// Proceedings of the 2015 9th European Conference on Antennas and Propagation. Piscataway:IEEE, 2015: 1-2.
[5] LIU J, CHEN X Y, CHEN S G, et al. TagSheet: sleeping posture recognition with an unobtrusive passive tag matrix[C]// Proceedings of the 2019 IEEE Conference on Computer Communications. Piscataway: IEEE, 2019: 874-882.
[6] XIE L, YIN Y F, VASILAKOS A V, et al. Managing RFID data: challenges, opportunities and solutions[J]. IEEE Communications Surveys and Tutorials, 2014, 16(3): 1294-1311.
[7] WANG J X, PAN C F, JIN H J, et al. RFID tattoo: a wireless platform for speech recognition[J]. Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies, 2019, 3(4): No.155.
[8] WANG J, ABARI O, KESHAV S. Challenge: RFID hacking for fun and profit[C]// Proceedings of the 24th Annual International Conference on Mobile Computing and Networking. New York: ACM, 2018: 461-470.
[9] YEAGER D J, HOLLEMAN J, PRASAD R, et al. NeuralWISP: a wirelessly powered neural interface with 1-m range[J]. IEEE Transactions on Biomedical Circuits and Systems, 2009, 3(6): 379-387.
[10] YANG L, CHEN Y K, LI X Y, et al. Tagoram: real-time tracking of mobile RFID tags to high precision using COTS devices[C]// Proceedings of the 20th Annual International Conference on Mobile Computing and Networking. New York: ACM, 2014: 237-248.
[11] PRADHAN S, CHAI E, SUNDARESAB K, et al. RIO: a pervasive RFID-based touch gesture interface[C]// Proceedings of the 23rd Annual International Conference on Mobile Computing and Networking. New York: ACM, 2017: 261-274.
[12] HA U, MA Y F, ZHONG Z X, et al. Learning food quality and safety from wireless stickers[C]// Proceedings of the 17th ACM Workshop on Hot Topics in Networks. New York: ACM, 2018: 106-112.
[13] STERPU G, SAAM C, HARTE N. Attention-based audio-visual fusion for robust automatic speech recognition[C]// Proceedings of the 20th ACM International Conference on Multimodal Interaction. New York: ACM, 2018: 111-115.
[14] AGRAWAL S, OMPRAKASH V R, RANVIJAY. Lip reading techniques: a survey[C]// Proceedings of the 2nd International Conference on Applied and Theoretical Computing and Communication Technology. Piscataway: IEEE, 2016: 753-757.
[15] ASSAEL Y M, SHILLINGFORD B, WHITESON S, et al. LipNet: sentence-level lipreading[EB/OL]. (2016-11-05)[2021-05-19]. https://arxiv.org/pdf/1611.01599v1.pdf.
[16] BEDRI A, SAHNI H, THUKRAL P, et al. Toward silent-speech control of consumer wearables[J]. Computer, 2015, 48(10):54-62.
[17] BRIGHAM K, KUMAR B V K V. Imagined speech classification with EEG signals for silent communication: a preliminary investigation into synthetic telepathy[C]// Proceedings of the 4th International Conference on Bioinformatics and Biomedical Engineering. Piscataway: IEEE, 2010: 1-4.
[18] CHUNG J S, ZISSERMAN A. Lip reading in the wild[C]// Proceedings of the 2016 Asian Conference on Computer Vision, LNIP 10112. Cham: Springer, 2017: 87-103.
[19] CHUNG J S, ZISSERMAN A. Out of time: automated lip sync in the wild[C]// Proceedings of the 2016 Asian Conference on Computer Vision, LNIP 10117. Cham: Springer, 2017: 251-263.
[20] WAND M, KOUTNíK J, SCHMIDHUBER J. Lipreading with long short-term memory[C]// Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2016: 6115-6119.
[21] DOBKIN D M. The RF in RFID: UHF RFID in Practice[M]. 2nd ed. Waltham, MA: Newnes, 2013: 306-314.
[22] COHEN K, LESHEM A. Distributed game-theoretic optimization and management of multichannel ALOHA networks[J]. IEEE/ACM Transactions on Networking, 2016, 24(3): 1718-1731.
[23] XIE B B, XIONG J, CHEN X J, et al. Tagtag: material sensing with commodity RFID[C]// Proceedings of the 17th Conference on Embedded Networked Sensor Systems. New York: ACM, 2019: 338-350.
[24] YANG L, LI Y, LIN Q Z, et al. Making sense of mechanical vibration period with sub-millisecond accuracy using backscatter signals[C]// Proceedings of the 22nd Annual International Conference on Mobile Computing and Networking. New York: ACM, 2016: 16-28.
Lip language recognition algorithm based on single-tag radio frequency identification
ZHANG Yingqi, PENG Dawei, LI Sen, SUN Ying, NIU Qiang*
(,,221116,)
In recent years, a wireless platform for speech recognition using multiple customized and stretchable Radio Frequency Identification (RFID) tags has been proposed, however, it is difficult for the tags to accurately capture large frequency shifts caused by stretching, and multiple tags need to be detected and recalibrated when the tags fall off or wear out naturally. In response to the above problems, a lip language recognition algorithm based on single-tag RFID was proposed, in which a flexible, easily concealable and non-invasive single universal RFID tag was attached to the face, allowing lip language recognition even if the user does not make a sound and relies only on facial micro-actions. Firstly, a model was established to process the
Signal Strength (RSS) and phase changes of individual tags received by an RFID reader responding over time and frequency. Then the Gaussian function was used to preprocess the noise of the original data by smoothing and denoising, and the Dynamic Time Warping (DTW) algorithm was used to evaluate and analyze the collected signal characteristics to solve the problem of pronunciation length mismatch. Finally, a wireless speech recognition system was created to recognize and distinguish the facial expressions corresponding to the voice, thus achieving the purpose of lip language recognition. Experimental results show that the accuracy of RSS can reach more than 86.5% by the proposed algorithm for identifying 200 groups of digital signal characteristics of different users.
Radio Frequency IDentification (RFID); lip language recognition; single tag; Received Signal Strength (RSS); Dynamic Time Warping (DTW)
This work is partially supported by National Natural Science Foundation of China (51674255).
ZHANG Yingqi, born in 1996, M. S. candidate. Her research interests include Internet of Things, wireless sensing.
PENG Dawei, born in 2001. His research interests include wireless sensing.
LI Sen, born in 1998. His research interests include wireless sensing.
SUN Ying, born in 2000. Her research interests include wireless sensing.
NIU Qiang, born in 1974, Ph. D., professor. His research interests include intelligent information processing, artificial intelligence, pattern recognition, machine learning, data mining.
TP391
A
1001-9081(2022)06-1762-08
10.11772/j.issn.1001-9081.2021061390
2021?08?03;
2021?08?31;
2021?10?15。
國家自然科學(xué)基金資助項目(51674255)。
張瑛琪(1996—),女,遼寧營口人,碩士研究生,CCF會員,主要研究方向:物聯(lián)網(wǎng)、無線感知;彭大衛(wèi)(2001—),男,江蘇邳州人,主要研究方向:無線感知;李森(1998—),男,河南鄭州人,主要研究方向:無線感知;孫瑩(2000—),女,江蘇泰興人,主要研究方向:無線感知;牛強(1974—),男,遼寧沈陽人,教授,博士,主要研究方向:智能信息處理、人工智能、模式識別、機器學(xué)習(xí)、數(shù)據(jù)挖掘。