張小恒
(重慶開放大學,重慶 400052)
語言障礙人群是指在語言產生或理解過程中存在障礙的特定人群,這類人群通常包括失語癥患者、自閉癥患者、口吃患者、聽覺障礙患者、阿爾茲海默癥患者、帕金森癥患者等,涉及的人群從兒童到老年人都有[1],數量十分龐大。據相關數據統計,約10%的學齡前兒童存在不同程度的語言障礙。中國人口老齡化趨勢明顯,據估計,我國已有600~700萬的阿爾茲海默癥患者,其最典型的表現是認知障礙和語言障礙。中國約有1 300萬人深受口吃之苦,且腦外傷、腦炎、帕金森、退化性疾病等均會導致語言障礙。
由于語言障礙人群大都存在一定的生理缺陷,前期的評估一般多從患者的以往病史、行為及體格檢查入手。例如,記錄患者目前的語音情況;了解患者的認知、運動、社交和基本行為情況;檢查患者的發聲器官是否有異常;觀察患者的手眼協調、注意力等。對于部分存在聽覺障礙的人群,醫護人員還要對其進行聽力測試,了解其聽力情況[2]。
目前,語言能力評估主要通過制定語言能力等級量表實現,國內已有《漢語失語癥成套測驗》[3]《漢語標準失語癥檢查量表》《漢語語法量表》[4-5]等。近年來,北京語言大學和美國西北大學在西北命名成套測驗和西北動詞語句成套測驗的基礎上,結合現代漢語語音、詞匯、句法和語義特點以及中國人的認知心理,聯合研發了適用于漢語母語者的失語癥語言能力評估成套測驗,于2017年3月制定了《中國失語癥評估量表》[6]。這些傳統方法已能覆蓋大部分語言障礙人群,但仍存在如下不足:主要依靠測試員按照評估量表進行人工打分,存在主觀的理解及評估差異;評估結果不客觀,評估效率低下;成本高,且遠程評估應用無法實施。
人工智能技術在語音信號處理和自然語言處理(NLP)上已日趨成熟,將其用于語言能力評估可最大限度地排除人為主觀因素,更加準確客觀。因此,本文提出基于人工智能技術的語言能力評估的基本方法,如圖1所示,包括訓練和測試兩個階段。訓練階段的步驟如下:首先,進行傳統量表評估準則的人工智能評估轉換,將評估量表中模糊主觀的人為評價準則轉化為語音語言客觀可量化的依據,然后收集大量語音障礙人群的原始語料(原始語音及對應識別的語言文字等),從語音的層次對語言障礙人群進行語音樣本特征提取,并結合轉化后的評估量表中的語音評估依據對測試人群的語音樣本進行標簽化,建立人工智能語音模型。其次,從語言的層次對語言障礙人群的語言進行NLP處理,并結合轉化后的評估量表中的語言評估依據對語料語句進行標簽化,建立人工智能語言模型。最后,基于已訓練的語音模型和語言模型,建立語音語言相融合的聯合預測評估模型。在測試階段,醫護人員用聯合預測評估模型對訓練語料之外的語言障礙人群的語音語言進行測試,得到評估等級。

圖1 基于人工智能技術的語言障礙評估方法流程
首先,醫護人員要對語言障礙人群語言能力評估的常規方法進行全面總結,對語言障礙人群的各個細分人群評估量表進行研究,從大量標準中挖掘出一般性分析方法,進一步實施基于人工智能技術的語言障礙人群語言能力評估。基于人工智能技術進行評估需要建立在傳統評估量表的基礎之上,因此,我們需要將量表中的主觀描述性語言轉換成客觀判據。如描述構音障礙的“模糊含糊,吐詞不清”等可以轉換為語音的具體參數進行量化,而描述患者語言語法結構問題或語音邏輯問題的描述性語言可以轉換為NLP中的相關指標進行判決。
這個階段主要針對的是構音障礙。構音障礙人群的發聲系統大都已經發生病變,因此,我們要自動化提取含有畸變信息的特征參數,并將這些特征參數的取值范圍與語音清晰度有效對應起來。只有這樣,智能化評估語音質量才有可能。
1.語音預處理
我們要構建多類型特征的特征提取估計模型,設計形如稀疏矩陣的優化因子對該模型進行全局優化,并設計以優化因子為未知變量的適應度函數,將適應度函數代入到進化算法(如遺傳算法、粒子群優化算法及蟻群算法)中進行搜索,得到最佳優化因子,提高多類型特征在噪聲環境下的提取精度。
2.特征參數提取
反映語音障礙的特征種類繁多,通用特征如基音周期(pitch)、梅爾頻率倒譜系數(MFCC)、線譜頻率系數(LPCC)、伽馬通濾波器倒譜系數(GFCC)、PLP(Perceptual Linear Prediction,感知線性預測器)、DCT域特征、小波域特征等。專用特征包括頻率微擾(Jitter)和幅度微擾(Shimmer)兩類。頻率微擾(Jitter)又可分為local、absolute、rap、ppq5、ddp五種測度方式。幅度微擾(Shimmer)又可分為local、dB、apq3、apq5、apq11、ddp六種測度方式。此外,反映語音障礙的特征還有脈沖數、周期數、基音周期平均、基音周期標準差、清音幀占比、語音中斷的次數、諧波信噪比(HNR)等。通常情況下,單一的語音特征參數無法反映語音全貌,我們還需要對多個特征參數進行選擇、組合及變換。
3.特征參數選擇
早期,C Okan Sakar等人手動選擇語音特征。后期,特征選擇方法逐漸多樣化,如通過主成分分析(PCA)、線性判別分析(LDA)、神經網絡方法(NN)進行特征選擇。
4.特征參數組合變換
我們要對特征集中的各通用特征和專有特征進行對應的組合計算,包括加、減、幾何平均、算術平均、模等運算,形成新的特征集,該特征集則為多類型特征集。我們要對特征集進行組合計算,合并成一個新的特征集。該特征集中每個特征的值構成了一個特征向量,該特征向量即為該待檢者所對應的特征向量。我們重復以上操作,提取完所有待檢者的多類型特征向量,構成一個特征矩陣。
這個階段,我們主要針對語言的語法及邏輯問題,收集整理語言障礙人群的預料進行NLP技術的處理。
1.常見語法邏輯錯誤
語法問題分為句法成分搭配不當、句法成分殘缺、詞語位置擺放不當幾類。其中,句法成分搭配不當包含主謂不搭、述語和賓語不搭、修飾語和中心語不搭等;句法成分殘缺具體表現為主謂賓及虛詞的殘缺;詞語位置擺放不當具體表現為修飾、語序及介詞使用不當,以及句法成分雜糅、代詞指代不明及數量混亂等語法錯誤。
2.語言障礙人群的語法邏輯問題
語言障礙人群大腦中的語言功能區會發生不同程度的病變,導致語言障礙人群在說話時易出現嚴重的語法邏輯錯誤。然而,文化水平不足的人群也可能出現語法邏輯錯誤。因此,我們不能將對語言障礙人群語言的判斷與語法的識別同等看待。目前,如何進行有效區分并沒有嚴格的界限。從主觀感受上講,語言障礙患者的語言存在可懂度極低、不連貫斷續等問題。從經驗上看,我們一般可以將語法邏輯問題是否嚴重影響語意的表達作為衡量是否存在語言障礙的標準。
3.語言的NLP技術處理
通常情況下,語言障礙人群的語料以音頻格式存在,如果要進行后續處理,我們需要將其識別保存為文字語料。現有成熟的語音識別工具可使用科大訊飛和百度公司的相應產品,特別是科大訊飛作為語音識別領域的頭部企業,可使普通話及方言的識別準確率達到98%以上。隨后,我們要對文字語料進行NLP處理,包括分詞處理、詞性標注、語義及句法分析等。進行NLP處理的相關工具比較多,如使用jieba進行中文分詞、使用word2vec進行詞向量的轉換等。
標簽化最終需要實現的目標是將評估量表中的主觀描述語句進行有效分解,并將其與語音語言的客觀特征進行有效對應,從而使標簽化更加合理。
1.測試人群語音樣本的標簽化
能夠使用機器學習或深度學習等人工智能技術分析患者語音數據的前提是需要大量的標簽化訓練數據,因此,我們要收集大量語言障礙人群的語音,并為這些語音樣本打標簽。語言障礙人群在語音上的障礙主要表現為聲帶等發聲器官病變導致的構音障礙。因此,我們可以從語音角度將語音清晰度分為不同等級,并進行標簽標注。
2.測試人群語言樣本的標簽化
我們可以從語言的語法結構角度將語言障礙進行具體分類。語言障礙主要表現為語言障礙人群的大腦語言中樞受損,導致言語表達出現中斷、字詞重復、音調異常、明顯邏輯混亂或者完全無法表達完整語意等情況。考慮到不同的患者由于患病嚴重程度的不同,語言能力也會存在差異,以及同一患者在不同時間段及不同語義上會呈現一定語音能力波動變化,這一步的標注工作需要大量有經驗的評估人員完成,并對大量語料的語音能力等級進行劃分,如劃分為輕微、中度、嚴重三個等級。目前沒有公開的已進行語言能力標注的語言障礙人群公共語料庫,導致語言樣本標簽化是整個研究過程中工作量最大、最耗時的一個階段。
1.語音子模型訓練
語音模型的構建方式有很多,以二分類為例,我們將采集好的受試者語音信息視為訓練語音庫,并將受試者分為健康組和患者組,從中提取多類型特征向量。健康組的標簽為0,患者組的標簽為1。隨后,我們可以構建二分類模型。我們可采用支持向量機(SVM)、鄰近算法(KNN)、隨機森林(RF)等機器學習方法,也可以采用深度神經網絡(DNN)、卷積神經網絡(CNN)等深度學習模型。如果語音樣本的數據量不大,機器學習模型往往優于深度學習模型。從工程效率角度進行考慮,SVM特別是線性SVM的計算復雜度最低。
2.語言子模型訓練
語言模型的構建通常會考慮語句中的詞語搭配及前后的邏輯關聯性,因此,更多使用循環神經網絡(RNN)、長短期記憶網絡(LSTM)等連續時間依賴性的深度學習方法。我們通過分詞、詞向量等處理過程將語料庫轉化為矢量樣本庫,并將受試者分為健康組和患者組。健康組的標簽為0,患者組的標簽為1。隨后,我們構建了穩定的LSTM模型。同理,如果要構建多級(如5級)語言障礙評估模型,我們可以將二分類標簽數據進行進一步細化,設置0、1、2、3、4等多個等級標簽。因為深度學習模型的優劣在很大程度上取決于語料庫規模,所以我們收集大規模的患者語料十分重要。
3.語音語言模型融合預測評估
語音模型和語言模型構建完成后,將其進行有效融合是構建完整的語言障礙人群人工智能預測評估模型的關鍵。不同的語音障礙患者在構音障礙方面及語音邏輯方面的嚴重程度并不完全相同,且同一個語音障礙患者在不同語料上的嚴重程度也不同。因此,相對簡單有效的方法是給語音和語言設置不同的權重,并將其進行加權融合,再進行有效預測評估。聯合預測模型權重及語音語言子模型參數通過在訓練過程中達到最佳訓練準確率得到,但訓練準確率的高低并不能直接決定聯合預測模型的性能是否優良。
得到語音語言聯合預測模型后,我們需要輸入訓練語料集之外的測試語料進行測試,以檢驗模型的性能。我們通過預測可以得到語音能力等級,并將其與專家通過量表進行打分的語言能力評估等級進行比較,得到測試準確率。如果測試準確率不高,或者需要進一步提升性能,我們可以調整聯合預測模型的超參數,再進行測試。
本文提出了基于人工智能技術進行語言能力評估的系列方法步驟,包括對語音樣本進行特征提取、標簽化、模型化;對語言樣本進行NLP技術處理、標簽化、模型化;構建語音語言聯合預測模型。筆者希望本研究能為目前的語言障礙評估提供一種新的思路。基于人工智能技術的初步評估方法增強了語言障礙評估的客觀性,最大限度地排除了人為主觀因素,且能大幅提高評估效率,為語言障礙人群語言能力的提升奠定良好的基礎。