朱洪濤, 黃桂敏
(1.桂林電子科技大學 信息與通信學院,廣西 桂林 541004; 2.桂林電子科技大學 計算機與信息安全學院,廣西 桂林 541004)
隨著計算機輔助發音訓練(computer assisted pronunciation training,簡稱CAPT)技術的發展,中國學生自主英語口語學習成為了可能。為了使學生更有針對性地進行口語練習,CAPT系統需要準確評估學生的發音水平并給出有效的反饋指導[1-2],因此,發音質量評測作為CAPT的一項關鍵技術獲得了廣泛的關注。
在統計語音識別框架下,聲學模型是發音質量評測的基礎,許多研究人員通過改進聲學模型來提升評測性能。Abdou等[3]采用最大似然線性回歸(maximum likelihood linear regression,簡稱MLLR)算法調整聲學模型,以匹配二語學習者的聲學特征。為了使MLLR自適應后的聲學模型仍具有較高的標準度,Luo等[4]提出一種Regularized-MLLR方法,該方法使用多個教師變換矩陣的線性組合來表示學習者的變換矩陣,能夠避免過自適應情況的發生。Landini等[5]比較了基于對數似然比得分的發音評分系統中不同聲學模型的訓練方法,使用未標注過的大量語音數據訓練了一個基線聲學模型,采用最大后驗概率(maximum a posterior,簡稱MAP)算法,并利用與目標說話人特征相匹配的少量語音依次進行模型的自適應,分別得到2個性能最優的母語和非母語聲學模型。Song等[6]采用說話人自適應訓練方法來補償訓練語料中眾多說話人的聲學特征差異,也取得了不錯的效果。
除了提高聲學模型的適應性外,評分特征融合方法也可提升評測性能。以聲學模型為參考模板,可以提取出不同類型的評分特征,如GOP(goodness of pronunciation)[7]、語速等。單獨使用這些評分特征只能從發音準確度、流利度等某一方面表征學生的發音質量,經過評分特征融合后就能夠全面衡量學生的整體發音水平[8-9]。此外,提取的這些評分特征與人工評分之間往往呈非線性關系[10],直接使用多元線性回歸算法進行融合,會降低機器評分的準確性。一些非線性回歸,如神經網絡算法[10],雖然能夠較好地逼近這種非線性關系,但需要大量的數據對模型進行細致的訓練。支持向量回歸(support vector regression,簡稱SVR)算法[11]通過變換特征空間進行線性運算,只需要少量的訓練樣本就能高效地學習系統輸入與輸出之間的非線性關系,并且比傳統方法具有更好的泛化能力。
鑒于此,針對中國學生的英語朗讀發音進行研究,從聲學模型和評分特征融合2個方面提出改進方案。利用計算機自動篩選出的發音正確數據,對標準美音聲學模型進行MLLR-MAP二級自適應;在改進后的聲學模型基礎上,分別提取學生朗讀語音的準確度、流利度以及完整度特征;訓練了一個支持向量回歸評分模型,將這些評分特征融合映射為最終的朗讀質量分數,從而實現對學生朗讀發音質量的有效評測。
發音質量評測必須確保聲學模型的標準度,只有這樣才能準確度量學生發音相較于標準模型的相似度。由于標準聲學模型使用標準美音訓練得到,具有很高的標準度,但在實際應用中評測中國學生的英語發音時,不可避免地出現音色、發音習慣等聲學特征方面的差異,這就造成了聲學模型和測試語音的失配。因此,需要減弱這些差異對聲學模型的影響,才能準確評測出中國學生的英語發音質量。
MLLR和MAP是2種不同的說話人自適應算法,在語音識別任務中可減弱聲學模型與測試語音之間的不匹配。當將其應用于發音質量評測時,同樣需要減弱這種不匹配,但必須保證調整后的聲學模型仍具有較高的標準度。在HMM-GMM聲學模型中,這些差異往往體現在GMM參數上。MLLR算法通過估計模型參數的線性變換來最大化自適應數據的似然度,這些變換能夠調整聲學模型,以匹配測試語音,只需少量的數據就能取得較好的效果。MAP算法能夠更精細地重估GMM模型參數,但只能對自適應語料中有觀測矢量的高斯分布進行更新,當數據較多時可獲得比MLLR算法更好的性能。因此,為了充分利用這2種算法的優點,采取MLLR-MAP二級自適應策略來調整模型參數。使用MLLR調整聲學模型時,HMM模型的狀態高斯分布都使用同一個變換矩陣,以使所有的模型參數都能更新,再采用MAP算法對模型進行更細致的調整。同時,為了保證調整后聲學模型的標準度,利用計算機自動標注學生語音,篩選出發音正確的音素段作為自適應語料。MLLR-MAP聲學模型自適應框圖如圖1所示。

圖1 MLLR-MAP聲學模型自適應框圖
首先,使用標準美音聲學模型,將學生的朗讀語音切分成獨立的音素段。然后計算得到這些音素段的GOP得分,將得分高于預設閾值的音素段作為自適應語料。采用MLLR算法調整模型參數,再采用MAP算法對模型進行更細致的調整,最終得到一個適合于評測中國學生英語發音的聲學模型。
為全面衡量學生的朗讀發音質量,從3個方面提取了評分特征:
1)準確度特征:對數后驗概率、GOP;2)流利度特征:語速、段時長和暫停時長;3)完整度特征:單詞匹配度。
1.2.1 對數后驗概率
對于音素qi,與其對應的每幀觀測向量為Ot,幀級后驗概率定義為
(1)

(2)
一句話的對數后驗概率評分ρ定義為該句話中所有N個音素的對數后驗概率評分均值,
(3)
1.2.2 GOP
GOP是對數后驗概率的一種簡化。音素qi的GOP定義為
(4)
對一句話中所有N個音素的GOP評分求均值,即可得到該句的GOP評分:
(5)
1.2.3 語速
語速定義為單位時間內學生朗讀的音素個數,語速的快慢很好地反映了學生朗讀的流暢程度。語速RS的計算式為
(6)
其中:T為朗讀時間;Q為該段時間內學生朗讀的音素數量。
1.2.4 段時長
段時長表示學生朗讀語音中不同音素的發音時長,段時長評分定義為
(7)
其中:f(di)為歸一化函數,通常用語速進行歸一化,定義為f(di)=diRS。
1.2.5 暫停時長
學生朗讀時,若不清楚某個單詞如何發音,則單詞之間就會出現停頓,總停頓時間在朗讀時間中所占的比例反映了學生朗讀的流暢程度。暫停時長定義為
(8)
其中TSIL為朗讀語音中靜音部分總時長。
1.2.6 單詞匹配度
學生朗讀時有可能出現單詞漏讀的情況,將學生朗讀的單詞數在朗讀內容中的比率作為完整度的評價指標,單詞匹配度定義為
(9)
其中:w為識別結果與指定朗讀內容相匹配的單詞數;W為朗讀內容的單詞總數。
支持向量回歸是一種基于結構風險最小化準則的機器學習算法,其充分利用了機器學習的優勢,僅用有限的訓練樣本就能夠學習復雜的數據模式,從而將特征映射到目標評分[12]。為此,采用支持向量回歸對評分模型進行特征融合,實現對學生朗讀發音質量的準確評測。
給定訓練集{(xi,yi),i=1,2,…,l},其中xi∈Rn為第i段語音的n維評分特征向量,yi∈R為第i段語音對應的人工評分,l為訓練集的語音樣本數,在ε-SVR[13]中,其目標就是對于訓練集的特征向量xi,找到一個最優函數f(xi)來逼近人工評分yi,使得預測誤差在ε范圍內。SVR回歸函數f(x)定義為
f(x)=〈w,Φ(x)〉+b。
(10)
其中:〈*,*〉為內積運算;Φ(x)為x的非線性函數;w為權值向量;b為偏置項。w、b是需要估計的參數[13]。回歸函數f(x)可簡化為
(11)

SVR算法使用不同的核函數來代替內積,避免了高維空間的過量計算,能夠構造原始空間的各種非線性模型[12]。為了確定合適的核函數,分別測試了多項式核、Sigmoid核以及RBF核的融合性能。最終選用RBF核函數,形式為
K(xi,x)=exp(-γ‖xi-x‖2),
其中γ為核參數。
由于直接計算得到的評分特征取值區間與人工評分不一致,在評分特征融合之前,先采用三次多項式函數將特征得分歸一化到[0,1]區間。三次多項式函數為
(12)

基于SVR的特征融合框圖如圖2所示。對于學生的朗讀語音,首先提取不同種類的評分特征,并計算特征得分。然后采用三次多項式函數對每個評分特征值進行調整,將調整后的評分特征值以及相應的人工評分作為輸入訓練SVR模型參數。最后用訓練好的SVR模型預測學生的朗讀發音質量評分。
使用卡耐基梅隆大學發布的Sphinx 4語音識別系統為實驗平臺。聲學模型自適應語料來自20名大學生的英語發音,每位學生盡可能標準地朗讀Arctic語料庫中的30個句子,共計600份語音數據。
朗讀語音數據庫由50名大學生的英語朗讀語音構成,其中25位男生,25位女生,包含了從發音較差到發音標準的不同水平學生。每人朗讀Arctic語料庫中的30個句子,每句為8~15個單詞,共計1500份語音數據。邀請3位經驗豐富的英語教師,從發音準確度、流利度和完整度3個方面對這些語音的整體發音質量進行0~5打分,0分最低,5分最高,最后以3位教師打分均值為每份語音數據的人工打分。
人工打分作為機器評分性能的參考,需要首先評估其一致性。采用open-correlation作為一致性評價的指標。假設有L位評分者,則評分者k打分的open-correlation計算式為
(13)
其中:hk為評分者k的打分向量;r(*,*)為2個打分向量間的相關度,計算式為
(14)

3位英語教師打分一致性統計如表1所示。從表1可看出,句子級和說話人級open-correlation均值分別為0.706和0.847,說明人工打分的一致性較好,可作為機器評分的上界。

表1 人工打分的open-correlation
從朗讀語音數據庫中隨機抽取80%的數據作為訓練集,其余的20%作為測試集,計算測試結果與對應人工評分的相關度,并采用5折交叉驗證的相關度均值來衡量機器評分性能。
實驗分別測試了每個評分特征性能,然后采用SVR評分模型將其融合,測試整體性能。發音準確度特征性能如表2所示。從表2可看出,對數后驗概率和GOP是很好的準確度度量指標,單獨使用可獲得較高的評測性能,其中GOP的性能最好,句子級相關度為0.482,說話人級相關度為0.648。這2種特征結合,發音準確度性能進一步提升,句子級相關度提升到0.506,說話人級相關度提升到0.735。

表2 發音準確度特征性能
發音流利度特征性能如表3所示。從表3可看出,在3個流利度特征中語速的性能最好,句子級和說話人級相關度分別為0.426和0.618。說明發音水平高的學生語速相對較快,朗讀更流暢,從而可獲得更高的人工評分。3種特征結合,發音流利度整體性能有明顯提升。
朗讀完整度特征性能如表4所示。從表4可看出,使用單詞匹配度來評估朗讀完整度可獲得較好的評測性能,句子級和說話人級相關度分別為0.439和0.607。

表3 發音流利度特征性能

表4 朗讀完整度特征性能
綜合準確度、流利度以及完整度特征,朗讀發音質量整體評測結果如表5所示。從表5可看出,發音準確度和發音流利度特征在整體中所占的比重較大,其中發音準確度特征比發音流利度特征的性能稍好。同時,綜合發音準確度、發音流利度以及朗讀完整度特征來評估整體發音質量,獲得了最高的評測性能,句子級和說話人級相關度分別達到了0.579和0.796,比發音準確度特征分別提高了14.4%和8.3%。

表5 整體發音質量性能
為了驗證本發音質量評測模型的效果,采用不同的聲學模型自適應方法與評分特征融合算法建立了4個評測模型,并計算機器評分和人工評分之間的說話人級相關度。采用不同方法的評測模型及其性能分析如表6所示。其中,模型1采用標準美音訓練得到的聲學模型,模型2采用不同發音質量的中國學生英語語料進行MLLR自適應,模型3和本模型采用經過篩選的中國學生發音正確的語料進行MLLR-MAP二級自適應。模型1到模型3都采用多元線性回歸(multiple linear regression,簡稱MLR)算法融合各評分特征,本模型采用SVR算法進行特征融合。

表6 采用不同方法的評測模型及其性能分析
從表6可看出,與模型1相比,模型2采用傳統的MLLR自適應方法可顯著提升發音質量評測性能,相關度從0.605提高到0.743,雖然降低了標準美音聲學模型與中國學生英語發音的不匹配程度,但仍會受到錯誤音素段的影響。模型3采用MLLR-MAP二級自適應方法可較大幅度地提升評測性能,相關度從0.743繼續提升到0.782,相對提高了5.2%。此外,本模型采用SVR算法融合評分特征,獲得了比模型3更好的評測效果,相關度進一步增加到0.796,相對提高了1.8%。
為提升中國學生的英語朗讀發音質量評測性能,提出一種基于聲學模型自適應與支持向量回歸的發音質量評測模型。通過自動標注學生語音并篩選出發音正確的數據,對標準美音聲學模型進行MLLR-MAP二級自適應,顯著提升了標準美音聲學模型在評測中國學生英語發音時的適應性和標準度。同時,結合發音準確度、流利度以及朗讀完整度特征,全面衡量了學生的朗讀發音質量。此外,使用支持向量回歸算法進行特征融合,能夠很好地逼近評分特征與人工評分之間的非線性關系,進一步提升了發音質量評測的準確性。如何優化評測聲學模型以及引入更多有效的評分特征(如韻律特征等)是下一步的研究方向。