□黃冠程 陸 越 張曉穎
口吃,英文名:stuttering,世界衛生組織定義為“一種言語障礙現象,即個人知道自己想說什么,但由于無法控制的重復、停頓或延伸而無法表達自己。”新奧爾良圖蘭大學發表的一項神經研究發現,嚴重或長期口吃的人會導致大腦左額葉或右額葉形狀不規則,相應的區域是負責空值語言表達的中樞,在后續對正常人與口吃患者說話時的頭部掃描影像中發現,相比之下,口吃患者在右半球有更多的興奮點,這也干擾了本應由左腦完成的語言表達功能,加劇腦部額葉形狀的變化,進而影響額葉控制聽力的相關部位,使口吃患者在講話、尤其是在面對公眾發言時,聽力功能受到一定影響導致語言表達不流暢,這些神經系統的異常反應可能將錯誤的表達信息傳遞到主導發音的肌肉:嘴唇、舌頭和聲帶,從而加重口吃患者的病情。下文通過分析口吃人群的實際需求,探索使用科技手段來幫助口吃患者矯正。
(一)沉浸式VR與口吃矯正。VR(虛擬現實)又稱“靈境”,它是通過對現實場景的數據采集,結合3D建模、構圖,實現在計算機中重現現實場景的技術,并通過各種傳感器設備為用戶提供各種感官,它能讓用戶有身臨其境的真實操控感,并能為用戶模擬觸覺、視覺等感官體驗,使虛擬環境更加貼近真實,非常具有代入感。
目前市面上的口吃康復訓練方法,大多是將患者集中,面對逐漸增加的聽眾,進行不同時長的演講,利用系統脫敏法,使患者逐漸擺脫講話時的心理障礙。希望利用VR的沉浸感、交互性和便捷性,實現專業性更高、效果更好的口吃遠程治療,使口吃患者克服心理障礙,提高口吃患者的生活質量,既能達到改善口吃的目的,也為口吃治療領域提供更優質的治療手段,拓寬了虛擬現實技術在醫學領域的使用。
關于沉浸式VR技術在口吃治療領域的研究,曹留進研究了其專利裝置對口吃患者的治療效果,通過實際治療結果數據,對本系統改進及提升患者實用性具有參考價值;嚴磊2016年研究了口吃矯正治療與VR技術結合的必要、優勢及應用,實現了實際應用理論基礎雛形,對后續的研究具有較大幫助。
(二)VR在口吃矯正中的優勢及特點。
1.代入感。口吃患者可以通過VR相關外設,置身于虛擬訓練環境中,讓口吃患者從被動的接受訓練內容,轉為更傾向于實際練習操作,口吃患者在練習演講的過程中可以觀察到每位觀眾的神態表情動作,如果口吃患者演講流暢,無吞音等良好表現,觀眾會產生相應反饋,微笑、叫好、部分起身鼓掌等反饋;相反若達到觀眾應激閾值,則會激起觀眾失望表情、走神、玩手機等反饋。患者需通過反復訓練測試,采用系統脫敏法使患者在面對現實生活中人群講話時克服恐懼害羞等心理障礙。
2.長效性。線下的言語康復機構或多或少不便于患者隨時練習,所以導致超過70%的參與矯正患者在結束后出現復發甚至更嚴重的口吃情況,VR的虛擬現實技術使病人不受康復機構的限制,在家里就可以完成發音訓練。利用移動端設備下載響應程序,就能不受時間、空間和教師資源等條件約束,更適合患者隨時鞏固練習,達到訓練自由。
3.直觀性。傳統的口吃矯正方法主要是基于簡單插圖的書籍,結合言語矯正師現場發聲動作教學,但因為患者數量多且不能直觀地看到口腔內部活動,它不能及時準確地顯示每個器官的結構,直觀的呼吸和發聲也很復雜,導致很多口吃患者在練習發音時不知道如何調動發音單元肌肉,或者發音不當導致發音錯誤。而在VR訓練場景中,對于每個音節是如何發聲的都有對應的三維口腔動作剖析圖,使患者更直觀地看到發聲單元工作狀態,提高矯正的效率。
使用3Dsmax構建虛擬演講環境,通過制作全景圖來模仿演講環境,包括觀眾及觀眾的表情、動作,給演講者制造緊張的氛圍,關鍵技術在于VR場景的創建以及語音分析,目前計劃可以通過拍攝全景圖或制作3D動畫來實現場景及人物的創建,而語音分析模塊預計達到的效果是可以通過演講者的演講情況,在合適的時間引起觀眾對應的反應。圖1是VR場景圖的創建流程圖。

圖1 場景圖創建流程
核心技術在于語音分析,通過患者的演講情況,包括:語言流暢度,字節重復頻率,字節間的時間停頓等信息來得到臺下觀眾的反饋,包括:語言、動作、神態,在規定的時間內口吃患者需要完成自我介紹、工作匯報、主題講話等任務,同時屏幕上設置計時器,對口吃患者施加一定的壓力,有助于推進康復進度,在交互上,通過語音分析,在患者開口講話時,所有觀眾注視演講者,當患者口吃率超過閾值時,臺下觀眾會表現失望不耐煩的表情,反之觀眾會微笑鼓掌。
在實際語音采集過程中,由于環境音及患者口吃間摩擦產生的噪音會不利于特征向量的提取,所以先對采集的語音數字信號進行預處理,預處理流程圖如圖2所示。

圖2 語音信號預處理
為了提高準確率,通過語音活動檢測(VAD)從患者輸入的語音數字信號流中識別并消除長時間的靜音期。通過中值濾波消除采集器的電沖激信號、患者口齒摩擦等外界噪聲,通過取分段數字信號中間向量的方法提高整體平滑度,便于提取特征值。
x(i)=Median[x(i-1),x(i),x(i+1)]
(1)
將中值濾波后的數字信號進行歸一化處理,把數字信號映射到同一區間[-1,1],以消除聲音音幅大小不同對特征向量提取的影響。
x(i)=x(i)/max(x(0),x(1)…x(i))
(2)
為了對語音進行分析,需要對聲音進行分幀,因為聲音音節與音節之間具有很強過渡性,因此不能簡單地削減它。在這里用移動窗函數來實現它,幀之間通常有重疊,如圖3所示。每幀的長為20ms,兩幀之間20-10=15ms的重疊稱為移幀。

圖3 音頻信號分幀
為了使分幀之后的數字信號更加平滑,使用海明窗口,余弦窗口之一,在這里使用與其他窗函數相比,海明窗的加權系數可以使旁瓣更小,使處理后的數字信號更加平滑。海明窗函數如下:
(3)
為了準確地提取梅爾倒譜系數(MFCC),通過快速傅里葉變換得到語音信號的DFT為:
(4)
為消除諧波的影響,在三角帶通濾波器對熱量譜進行平滑處理,并算每一個濾波器輸出的對數能量s(m),通過離散余弦變換得到MFCC系數:
(5)
口吃作為一種患者數量龐大、治療周期長且易復發、影響患者正常生活的語言類障礙,因患者口吃程度差異性較大,重視程度不同導致的治療不當,致使口吃矯正領域的治療手段長時間沒有突破性進展,這也是口吃患者數量與治療矯正機構數量嚴重失衡的主要原因之一。但隨著社會口吃患者數量的不斷增多,亟需一種口吃矯正手段可以便捷且高效地幫助口吃患者矯正口吃。在當今社會科技迅速發展的前提下,利用沉浸式VR技術可以通過建立虛擬訓練場景幫助患者訓練,利用系統脫敏法,即把患者暴露在恐懼的事物之下,從輕微到重度刺激逐級遞增,最終使刺激失效。這既可以幫助患者達到矯正口吃的目的,也推動了言語治療領域新興治療手段的發展,使醫療領域與現代科技巧妙融合,不但讓患者擺脫了治療場地的限制,也可以通過VR設備實現不同場景的切換,滿足患者不同環境訓練的需求,這種新興的治療手段也會吸引更多的口吃患者參與治療,幫助更多的口吃患者解決困擾生活的口吃難題,對口吃治療與言語治療領域的推動具有深遠意義。