999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于CNN與Bi-LSTM的唇語識別研究

2019-12-04 01:47:08駱天依劉大運李修政房國志安欣魏華杰胡城
軟件導(dǎo)刊 2019年10期
關(guān)鍵詞:深度學(xué)習(xí)

駱天依 劉大運 李修政 房國志 安欣 魏華杰 胡城

摘要:針對唇語識別過程中唇部特征提取和時序關(guān)系存在的問題,提出一種卷積神經(jīng)網(wǎng)絡(luò)(CNN)和雙向長短時記憶網(wǎng)絡(luò)(Bi-LSTM)相結(jié)合的深度學(xué)習(xí)模型。利用CNN學(xué)習(xí)唇部特征,并將學(xué)習(xí)到的唇部特征送入Bi-LSTM進行時序編碼,通過Softmax進行分類。建立NUMBER DATASET和PHRACE DATASET兩個大型漢語數(shù)據(jù)集以解決漢語唇語數(shù)據(jù)缺失問題。將該模型與傳統(tǒng)的唇語識別方法在兩個數(shù)據(jù)集上進行實驗對比,發(fā)現(xiàn)在NUMBER DATASET上識別準確率為81.3%,比傳統(tǒng)方法提高了8.1%,在PHRACE DATASET上識別準確率為83.5%,比傳統(tǒng)方法提高了9%。實驗結(jié)果表明該模型能有效提高唇語識別的準確率。

關(guān)鍵詞:唇語識別;卷積神經(jīng)網(wǎng)絡(luò);雙向長短時記憶網(wǎng)絡(luò);深度學(xué)習(xí);時序編碼

DOI:10.11907/rjdk.191058開放科學(xué)(資源服務(wù))標識碼(OSID):

中圖分類號:TP301文獻標識碼:A 文章編號:1672-7800(2019)010-0036-04

0引言

唇語識別指通過觀察人說話時唇部特征變化,識別出入所說的話。作為智能化人機交互的重要組成部分,唇語識別技術(shù)由于具有方便快捷、安全度高等特點,逐漸應(yīng)用在輔助語音識別、協(xié)助警方破案、提高人臉識別安全性等眾多領(lǐng)域。

目前,大多數(shù)研究主要集中在唇部檢測定位、特征提取以及對樣本數(shù)據(jù)的訓(xùn)練幾方面。在唇部檢測定位方面,田原螈等提出基于YCbCr膚色檢測與AdaBoost聯(lián)級算法的嘴部特征定位,采用自適應(yīng)閾值分割法進行唇部特征狀態(tài)分析。在特征提取方面,王嘩等通過改進的主動形狀模型(Active Shape Model,ASM),計算標定點間平均紋理和協(xié)方差矩陣實現(xiàn)對人臉表情的識別。雖然這種方法直觀地獲得了唇部特征參數(shù),但模型對唇部初始位置和形狀十分依賴,不能很好地適應(yīng)唇部復(fù)雜多變的紋理結(jié)構(gòu)。在樣本數(shù)據(jù)訓(xùn)練方面,Alan J.Goldschen等利用隱馬爾可夫模型(Hidden Markov Model,HMM)和層次聚類算法,實現(xiàn)對口腔動態(tài)特征的識別;Jfirgen Schmidhuber提出基于長短時記憶單元(Long Short-Term Memory,LSTM)的遞歸結(jié)構(gòu),解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)梯度消失的問題。LSTM考慮了過去信息對當前信息的影響,馬寧等將LSTM運用到唇語識別,有效解決了唇讀信息多樣性問題。然而LSTM沒有考慮未來信息對當前信息的影響,在一定程度上影響了識別準確率。

針對以上問題,本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)(Con-volutional Neural Network,CNN)和雙向長短時記憶網(wǎng)絡(luò)(Bidirectional-Long Short-Term Memory,Bi-LSTM)的深度學(xué)習(xí)方法,充分利用CNN捕捉局部特征以及Bi-LSTM捕捉時序信息的特點,無需考慮唇部紋理特征并將未來信息對當前信息的影響考慮在內(nèi),實現(xiàn)了對數(shù)字0-9和10個常用漢語短語的唇語識別。

1唇語識別模型

基于CNN和Bi-LSTM的唇語識別模型如圖1所示,該模型由4個部分組成:①唇讀視頻預(yù)處理;②利用CNN模型學(xué)習(xí)唇部特征;③利用Bi-LSTM模型提取唇動時序特征;④利用分類器進行特征分類。

1.1輸入層

首先將視頻轉(zhuǎn)換成圖片,然后利用dlib庫提取唇部的20個特征點,根據(jù)這20個特征點確定唇部位置和裁取范圍,裁出唇部隨時間變化的特征圖像序列,將唇動序列送人輸入層。

1.2CNN模型

CNN是一種專用于處理類似網(wǎng)格結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),包含卷積層、池化層和全連接層3個單元。多層卷積層和池化層交替排列自主學(xué)習(xí),在保留訓(xùn)練樣本主要特征的同時防止過擬合,并提高模型泛化能力。全連接層對前面學(xué)習(xí)到的特征進行加權(quán)處理,得到各種分類情況概率。

如圖2所示,輸入層、卷積層和池化層均只有一個。假設(shè)輸入層和卷積層之間存在m個卷積核,根據(jù)卷積層計算公式可以得到卷積層輸出的第m個特征面:

類比這類計算方法,可以得到多卷積層情況下的全連接層。

本實驗采用CNN對唇部特征進行學(xué)習(xí)。將輸入層內(nèi)容送人CNN后,卷積層用采樣器從視頻中采集唇部關(guān)鍵特征信息數(shù)據(jù),池化層對卷積層結(jié)果進一步壓縮,提取到唇部更關(guān)鍵的特征信息,全連接層對池化層結(jié)果進行整合,最終將學(xué)習(xí)到的唇部特征送人到Bi-LSTM中。

1.3Bi-LSTM模型

LSTM網(wǎng)絡(luò)主要由遺忘門(forget gate)、輸入門(inpulgate)及輸出門(output gate)構(gòu)成。遺忘門決定從上一單元中丟失哪些信息,輸入門的輸入信號為h(t-1)和X(t),輸出門輸出信號h(t)介于0和1之間,見圖3。

輸出門最終確定LSTM單元的輸出值。首先運行一個sigmoid層確定細胞狀態(tài)的哪個部分將輸出出去,之后經(jīng)過非線性變換得到最終輸出。

2實驗結(jié)果與分析

2.1數(shù)據(jù)集建立

唇語識別研究剛剛起步,有關(guān)唇語方面的數(shù)據(jù)集很少,其中較具有影響力的數(shù)據(jù)集如下:

(1)OuluVS數(shù)據(jù)集。包含20個說話人,語料為每人讀10個日常問候短語。

(2)MIRACL-VC數(shù)據(jù)集。5男10女錄制的同時包含深度圖和彩色圖的唇語數(shù)據(jù)集,由微軟Kinect錄制,語料為每人讀10個單詞和10個短語各10次的視頻。

(3)哈工大HIT Bi-CAV語料庫。語料為10人基于96個音讀出的200個常用漢語句子。

這些視頻數(shù)據(jù)大部分為外文發(fā)音,并且大多是針對特定的拍攝技術(shù)和場地要求建立的數(shù)據(jù)集,無法滿足中文數(shù)字0-9和短語語料要求。因此,筆者根據(jù)需求分別構(gòu)建了中文數(shù)字數(shù)據(jù)集NUMBER DATASET和中文短語數(shù)據(jù)集PHRACE DATASET。

NUMBER DATASET數(shù)據(jù)集由10人錄制5天完成,每人每天讀0-9各10遍,共計5000個視頻的普通話唇語數(shù)據(jù)集。本數(shù)據(jù)集的視頻分辨率為480×640,幀率約為25fps,時長約為2s,見圖5。

PHRACE DATASET數(shù)據(jù)集的建立方法和NUMBERDA7ASET相同,分別錄制了唇讀生活中10種常見水果名稱的視頻,將此作為短語數(shù)據(jù)集的主要內(nèi)容。

2.2實驗設(shè)置

分別對NUMBER DATASE7和PHRACE DATASET兩個數(shù)據(jù)集采用分層抽樣的方式,抽取500個樣本作為測試數(shù)據(jù),其余樣本作為訓(xùn)練數(shù)據(jù)。將測試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)分離開進行交叉驗證,以更好地評估模型的泛化能力。基于上述訓(xùn)練集和測試集,設(shè)置了18個唇部特征點+LSTM、CNN+LSTM和CNN+Bi-LSTM三組對比實驗,以驗證模型的有效性。

三組實驗的神經(jīng)網(wǎng)絡(luò)模型均采用Keras搭建并基于Tensorflow后端。

在18個唇部特征點+LSTM的實驗中,本實驗設(shè)置與馬寧等的實驗設(shè)置一致。

在CNN+LSTM實驗中,圖像特征提取的CNN部分采用在ImageNet上預(yù)訓(xùn)練過的VGGl6。VGGl6使用連續(xù)的小卷積核對圖像進行多次卷積,在圖像特征提取中表現(xiàn)較好。而本實驗中VGGl6模型對最上面的5層進行fine-tuning,其它層的參數(shù)不變以適應(yīng)本文實驗數(shù)據(jù)。對于輸入的每幀RGB圖像(初始大小為(128,128,3)),經(jīng)過VGG抽取后的特征向量為(4,4,512),然后采用Flatten方法將三維特征向量轉(zhuǎn)為一個大小為8192的一維向量,使其能夠作為LSTM的輸入。同時為避免直接輸入LSTM的數(shù)據(jù)過大,還應(yīng)在CNN與LSTM之間加入一個神經(jīng)元數(shù)為2048的全連接層以減小LSTM輸入的數(shù)據(jù)量。然后使用Keras中Time Distributed層為視頻序列中每個CNN網(wǎng)絡(luò)輸出連接一個LSTM,整個模型輸出為10個神經(jīng)元的全連接層,全連接層的激活函數(shù)則采取適用于多分類問題的softmax函數(shù)。

在CNN+Bi-LSTM實驗中,僅將LSTM替換為Bi-LSTM,其余實驗設(shè)置與第二組實驗設(shè)置一致。

2.3實驗結(jié)果

本文選取識別準確率作為評價指標,識別準確率定義如下:

表1和表2分別展示了3種模型在NUMBER DA7AS-ET和PHRACE DATASET數(shù)據(jù)集上的識別準確率。從表中可以看出,采用CNN+LSTM方法比采用18個唇部特征點+LSTM方法的單詞識別準確率提高了5.6%,短語識別準確率提高了6.1%。采用CNN+Bi-LSTM方法比采用CNN+LSTM方法在單詞識別準確率和短語識別準確率分別提高了2.5%和2.9%。采用CNN識別特征信息時無需考慮特征對象復(fù)雜多變的紋理特征,比采用傳統(tǒng)的特征點提取特征信息容錯率更高。同時,Bi-LSTM考慮了未來信息對于當前信息的影響,對于唇語識別準確率提升是切實有效的。實驗結(jié)果表明,CNN和Bi-LSTM相結(jié)合的方法識別準確率最高。

3結(jié)語

通過對現(xiàn)有深度學(xué)習(xí)技術(shù)和傳統(tǒng)唇語識別技術(shù)研究,發(fā)現(xiàn)傳統(tǒng)唇語識別方法存在以下問題:①唇部特征提取時用特征點替代唇部特征不能很好地體現(xiàn)唇部特征;②在時序編碼時LSTM并未捕獲未來信息對當前信息的影響。針對以上問題,本文提出了一種基于CNN和Bi-LSTM相結(jié)合的唇語識別方法,通過CNN有效地學(xué)習(xí)唇部特征,通過Bi-LSTM捕獲上下文信息。實驗結(jié)果表明,CNN和Bi-LSTM相結(jié)合的唇語識別方法,對于提高唇語識別準確率作用明顯。本實驗還有待完善的地方,如訓(xùn)練數(shù)據(jù)不夠、語料數(shù)據(jù)集僅包含數(shù)字和漢語短語等等,后期將針對以上問題進一步改進。

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠程開放實驗平臺構(gòu)建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學(xué)習(xí)的三級階梯
有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
利用網(wǎng)絡(luò)技術(shù)促進學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
主站蜘蛛池模板: 亚洲另类色| 中文字幕av无码不卡免费| 成人免费一级片| 99视频在线看| 中文字幕色在线| 午夜a视频| 国产精品粉嫩| 在线视频亚洲色图| 欧美在线国产| 538国产在线| 国产尤物视频网址导航| 尤物午夜福利视频| 国产第一页亚洲| 日韩 欧美 小说 综合网 另类| 欧美亚洲另类在线观看| 日韩高清一区 | 国产精品视频观看裸模| 丝袜无码一区二区三区| 精品人妻系列无码专区久久| 国产电话自拍伊人| 成人一区在线| 亚洲视频一区在线| 亚洲色图欧美激情| 91精品情国产情侣高潮对白蜜| 国产一级妓女av网站| 台湾AV国片精品女同性| 国内精品免费| 青草午夜精品视频在线观看| 91无码人妻精品一区二区蜜桃| 少妇精品久久久一区二区三区| 国产精品福利在线观看无码卡| 亚洲精品国产成人7777| 久久成人免费| 999国产精品| 人妻出轨无码中文一区二区| 2020国产精品视频| 一级一级一片免费| 在线va视频| 国产午夜精品一区二区三区软件| 亚洲精品少妇熟女| 夜精品a一区二区三区| 婷婷中文在线| 亚洲欧洲美色一区二区三区| 中文字幕首页系列人妻| 婷婷五月在线| 亚洲欧洲自拍拍偷午夜色| 91综合色区亚洲熟妇p| 无码国内精品人妻少妇蜜桃视频| 国产亚洲欧美在线中文bt天堂 | 国产精品久久国产精麻豆99网站| 黄色免费在线网址| 国产va在线观看免费| 国产中文一区a级毛片视频| 免费一级无码在线网站| 欧亚日韩Av| 国产精品女在线观看| 国产欧美精品一区aⅴ影院| 毛片在线播放网址| 亚洲无限乱码一二三四区| 国产美女一级毛片| 人妖无码第一页| 久久久精品国产亚洲AV日韩 | 国产对白刺激真实精品91| 2022国产91精品久久久久久| 日韩经典精品无码一区二区| 日日拍夜夜操| 91亚瑟视频| 毛片久久网站小视频| 国产微拍一区二区三区四区| 九九免费观看全部免费视频| 女人18毛片久久| 久久人体视频| 亚洲一级毛片在线观播放| jizz在线免费播放| 18禁黄无遮挡网站| 久久国产高清视频| 欧美www在线观看| 国产伦精品一区二区三区视频优播| 萌白酱国产一区二区| 18禁高潮出水呻吟娇喘蜜芽| 91精品国产丝袜| 国产本道久久一区二区三区|