劉建通(四川大學計算機學院,成都 610065)
基于Kinect的聽障人士語言能力康復輔助系統
劉建通
(四川大學計算機學院,成都610065)
據2014年的數據統計,中國有2780萬聽力殘疾人,接近中國總人口數的2%。聽障患者特別是聾啞兒童的康復工作是國家和社會高度關注的問題之一,中央財政在聾兒康復救助項目上大力投入,為聾兒實施人工耳蝸手術和助聽器免費佩戴和康復訓練。助聽器、人工耳蝸及相關手術能夠讓聽障患者恢復聽力,但聽力的長期喪失會使聽障患者的語言能力受到較大影響。只有通過語言康復訓練,才能讓聽障患者的語言能力達到正常人的水平。而我國在語言康復訓練專業人員方面存在巨大的缺口,這直接導致我國聽力與言語障礙兒童的康復率只有29.7%,大量的聽障患者恢復聽力后仍面臨艱難而長期的語言能力康復訓練過程,不能達到正常人的語言能力水平。
人類認知的語言過程是多通道的。在面對面交流的過程中,人們不僅通過聲音來理解對方的說話內容,也通過觀察對方的表情、口型等方式獲取信息,從而更準確地理解說話內容。而對于聽力障礙者來說,視覺信息顯得尤其重要。唇讀原本指的就是聽障患者通過唇部動作和面部表情感知正常人的說話內容的一種方法。計算機領域的唇讀(lip reading/speech reading,以下簡稱唇讀)或唇語識別是指通過分析說話者的唇形變化特征,根據唇形特征和語音音素之間的對應關系,判斷說話內容的技術[1]。唇讀的研究內容主要包括唇部檢測和定位(lip detection)、唇動特征提取(lip feature extraction)以及唇動特征識別。近年來,唇讀技術在科研和工業界得到了廣泛的關注和研究。唇讀技術可以應用于輔助語音識別、輔助手語識別、口型合成、聾人輔助教育等領域。
Kinect是微軟公司推出的體感設備,具有人臉追蹤的功能。開發者可以使用Kinect進行人臉追蹤,從人臉追蹤的結果數據中,定位嘴唇部分,并提取唇動特征信息。
鑒于我國的聽障人士語言能力康復訓練的現狀,以唇讀技術和Kinect技術為基礎,本文提出了一種聽障人士語言能力康復輔助系統的設計方案。聽障人士說話后,通過Kinect來完成唇部的檢測、定位以及唇動特征提取。然后根據識別算法,識別提取到的唇動特征,并與預定義的標準唇形匹配,得出正確率,反饋給用戶。用戶根據系統的反饋,不斷修正自己的發音方式,達到輔助康復的效果。
1.1唇部檢測和定位
唇部檢測和定位是所有的唇讀系統首先需要解決的問題。以前的唇讀研究中曾使用人工標定的方法來定位唇部。而唇讀系統要達到的目標是在無任何限制條件和人機交互的前提下,能夠自動地將不同光照、不同皮膚顏色、不同說話者準確定位、跟蹤、識別和理解[2]。因此,智能型的檢測手段不斷研究出新。
1.2唇動特征提取
唇動特征提取是唇讀的關鍵環節。唇語識別是在提取到的唇動特征的基礎上完成的。唇動特征提取方法大致可以分為三類:基于像素的方法、基于模型的方法和混合方法。
1.3識別方法
唇讀和語音識別都屬于動態序列特征識別的范疇,它經歷了和語音識別類似的發展階段。從最初的模板匹配方法到之后漸漸成為主流的基于HMM模型的方法和基于人工神經網絡(ANN)的方法。
2.1Kinect 簡介
Kinect是微軟公司推出的體感設備,有如下組件:一個彩色攝像頭,一個紅外線發射器和一個紅外線接收器,如圖1所示。

圖1 Kinect外觀示意圖
其中,彩色攝像頭用來獲取彩色圖像,紅外線發射器和接收器可以共同獲取深度數據。其相機坐標空間如圖2所示。

圖2 Kinect的相機坐標空間
微軟同時提供了Kinect for Windows SDK,開發者可以利用該SDK在Windows平臺上開發應用程序,驅動Kinect設備完成骨骼跟蹤、動作捕捉、語音識別等功能。在1.5版本以后的SDK中,微軟增加了一個輔助工具——Face Tracking(人臉追蹤)SDK,可以進行人臉追蹤[3]。
2.2使用 Face Tracking SDK 定位唇部并提取唇動特征
Face Tracking SDK是用來在Kinect for Windows SDK的基礎上完成人臉追蹤的。通過分析Kinect設備提供的每一幀的彩色數據、深度數據和骨骼追蹤數據,Face Tracking SDK可以返回人臉追蹤的結果,其中包括頭部的3D坐標和根據臉部模型預定義的121個點的坐標 (這里使用的是1.8版本的Kinect for Windows SDK,版本不同,坐標點個數可能有差異),如圖3所示。

圖3 Kinect設備追蹤人臉時返回的121個面部特征點
通過調用FaceTrackFrame.GetProjected3DShape()和FaceTrackFrame.Get3DShape()方法,可以分別獲取這121個特征點的2D坐標和3D坐標。在這121個點中,有18個點用來定義嘴唇部分,其中8個點用來表示內唇,10個點用來表示外唇。在圖4中,可以直觀地看到表示嘴唇的18個點。
由于特征點的坐標來自對每一幀數據的分析,而Kinect采集數據的幀率可以達到30fps,因此可以將18個唇部特征點坐標的變化作為唇動特征信息。由此,即借助Kinect完成了唇讀系統中的唇部檢測定位和唇動特征信息提取的任務。

圖4 表示嘴唇部分的18個特征點
3.1主要模塊
基于Kinect的聽障人士語言能力康復輔助系統包含三個模塊:
(1)人臉模型參數采集模塊
在 Kinect人臉追蹤的結果中,還包括基于Candide-3人臉模型的參數。Candide-3模型[4]是一種通用的參數化人臉模型,使用少量的參數就可以模擬人臉的表情和動作,可以節省很多計算時間,因此廣泛應用于三維人臉重建、人臉動畫合成和視頻傳輸中[5]。開發 者可以通過調用 FaceTrackFrame.GetAnimation UnitCoefficients()方法獲得Candide-3模型的參數。基于這些參數,可以完成人臉模擬、口型合成等任務。
人臉模型參數采集即使用Face Tracking SDK驅動 Kinect進行一段時間的人臉追蹤,得到基于Candide-3人臉模型的參數,其中包括6個動畫單元(Animation Units)和11個形態單元(Shape Units)[6]。這些參數可以用于進行標準口型動畫的合成。在光照正常和人臉位置合適的條件下,這一過程僅需要幾秒鐘時間。
(2)口型合成與標準唇形定義模塊
口型合成模塊即根據要練習的文字,使用Candide-3人臉模型參數進行口型動畫的合成。參數中的動畫單元用來模擬嘴唇、眉毛等臉部動作,形態單元用來模擬面部形態,如鼻子的位置,嘴唇的位置和寬度等。口型動畫合成后可以在程序窗口中播放,讓用戶可以直觀地進行模仿和學習。
標準唇形定義即根據要練習的文字,計算出標準的唇動特征信息,這一信息將用于之后的唇形識別過程。
(3)唇動特征提取與識別模塊
這一模塊中要做的主要工作是提取唇動特征,并根據預定義的標準唇形,使用識別算法進行識別和匹配,計算出用戶發音時唇形的正確率,反饋給用戶。
Kinect可以在用戶發聲練習的過程中實時地獲取唇部特征點的坐標變化信息,這些信息可以用于唇動特征的識別。
識別模塊要解決的主要問題是如何定義唇形正確率。例如如果采用KNN算法,是否可以根據提取到的用戶發音時的唇動特征數據的特征向量與標準的唇動特征向量的距離遠近來得出正確率。實際上,在識別過程中不需要知道唇部特征點的絕對坐標,只需要知道特征點坐標的相對關系。因此可以對這些特征點坐標做一些預處理操作。文獻[7]使用Kinect對土耳其語中表示顏色的單詞進行了唇語識別,在獲取特征點坐標后,對坐標數據進行了預處理,獲得了嘴唇張開的角度數據。然后針對這些角度數據,使用KNN算法進行識別,取得了較好的效果。這里用于識別的單詞數較少,只包括15個表示顏色的土耳其語單詞。但這種處理特征點坐標數據的方式具有一定的借鑒意義。識別算法是系統實現的難點,還有待進一步的研究。
3.2工作流程
基于Kinect的聽障人士語言能力康復輔助系統的主要工作流程如圖5所示。

圖5 系統工作流程圖
(1)用戶(聽障人士)進入系統后,系統首先進行人臉模型參數的采集,即根據一段時間內Kinect設備進行人臉追蹤的結果,得到基于Candide-3人臉模型的參數。
(2)用戶輸入要練習的文字內容。系統根據用戶的輸入內容,計算出標準的唇動特征數據,并使用上一步中獲取的基于Candide-3人臉模型的參數來合成正確的發音口型,然后播放口型動畫。
(3)用戶可以先觀看口型動畫,在點擊開始學習后,開始發音練習。
(4)用戶練習過程中,系統將驅動Kinect設備,追蹤人臉,獲取唇動特征信息。接著對獲取到的唇動特征信息進行識別,并與輸入的文字所對應的標準唇動特征進行匹配,得出正確率,反饋給用戶。用戶可以反復進行練習過程,不斷修正自己的發音方式。
本文提出了一種基于Kinect的聽障人士語言能力康復輔助系統的設計方案。系統借助Kinect的人臉追蹤功能,完成唇部檢測定位和唇動特征提取的任務。但與此同時,Kinect本身也會消耗比較多的計算資源。而在識別和匹配的過程中,又要求較好的實時性。因此如何處理表示唇動特征的坐標點數據,并尋找準確而高效的識別和匹配算法將是本系統實現的難點和下一步的研究方向。
[1]姚鴻勛.視覺語言——唇讀綜述.電子學報,2001,29(2):1-8.
[2]榮傳振,岳振軍,賈永興,王淵,楊宇.唇語識別關鍵技術研究進展.數據采集與處理,2012,27(2):277-283.
[3]吳國斌,李斌,閻驥洲.KINECT人機交互開發實踐[M].北京:人民郵電出版社,2013.
[4]CANDIDE-a parameterized face.http://www.icg.isy.liu.se/candide/
[5]胡峰松,林亞平,鄒北驥,張茂軍.應用于人臉識別的基于Candide-3特定人臉三維重建.湖南大學學報,2008,35(11):69-73
[6]MSDN.Face Tracking Programming Guide.https://msdn.microsoft.com/en-us/library/jj130970.aspx#
[7]Alper Yarg,Muzaffer Dogan.A Lip Reading Application on MS Kinect Camera.In Innovations in Intelligent Systems and Applications (INISTA),2013 IEEE International Symposium on,pp.1-5.IEEE,2013.
Language Ability Rehabilitation;Lip Reading;Lip Recognition;Kinect
An Assistive System for Language Ability Rehabilitation of Hearing Impaired People Based on Kinect
LIU Jian-tong
(College of Computer Science,Sichuan University,Chengdu 610065
1007-1423(2016)07-0092-04
10.3969/j.issn.1007-1423.2016.07.021
劉建通(1990-),男,河北衡水人,碩士研究生,研究方向為機器智能2016-01-20
2015-02-10)
近年來,唇讀技術在科研和工業界得到廣泛關注和研究。唇讀能夠應用于輔助語音識別、口型合成、聾人輔助教育等領域。Kinect是微軟公司推出的體感設備,具有人臉追蹤的功能,并能夠完成唇讀系統中的唇部檢測和定位以及唇動特征提取的任務。提出一種基于Kinect的聽障人士語言能力康復輔助系統的設計方案。
語言能力康復;唇讀;唇語識別;Kinect
In recent years,lip reading has attracted widely attention from research community and industry.Lip reading can be used in the areas of auxiliary speech recognition,synthesis of lip reading,deaf-aided education.Kinect is one kind of motion sensors with face tracking func-tion,and it is used to complete tasks of lip detection and lip feature extraction in a lip reading system.Provides a solution of designing an assistive system for language ability rehabilitation of hearing impaired people based on Kinect.