林思岑
(西安醫(yī)學(xué)院 外國(guó)語(yǔ)學(xué)院, 陜西 西安 710021)
近年來(lái),計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)(Computer Aided Language Learning,CALL)作為一種提高非母語(yǔ)學(xué)外語(yǔ)口語(yǔ)能力的方法受到了廣泛的關(guān)注。為了使CALL系統(tǒng)提供有用的輔導(dǎo)反饋,需要一個(gè)自動(dòng)匹配的評(píng)分系統(tǒng)來(lái)評(píng)估非母語(yǔ)學(xué)生的發(fā)音質(zhì)量、流利性和特定錯(cuò)誤。
流利度評(píng)分系統(tǒng)一般由語(yǔ)音自動(dòng)識(shí)別、流利度特征提取和評(píng)分模型組成。在流利性特征提取中,假設(shè)與外語(yǔ)口語(yǔ)流利性高度相關(guān)的特征被計(jì)算出來(lái)[1-3]。例如,長(zhǎng)靜默時(shí)間、每秒字?jǐn)?shù)和交流持續(xù)時(shí)間是最常見(jiàn)的流利性特征[4]。評(píng)分模型是訓(xùn)練模型參數(shù),將輸入的流利性特征映射到相應(yīng)的真實(shí)得分,然后用于預(yù)測(cè)輸入話語(yǔ)得分的分類器。評(píng)分模型最常用的算法是線性回歸[2]、支持向量機(jī)(SVM)[5-6]或高斯過(guò)程[7]。
分?jǐn)?shù)建模是一個(gè)一般的有監(jiān)督學(xué)習(xí)問(wèn)題。因此,為了使模型得到可靠的訓(xùn)練,必須提供正確的真實(shí)分?jǐn)?shù)作為目標(biāo)輸入。然而,要從人工評(píng)分的分?jǐn)?shù)中獲得正確的基本事實(shí)分?jǐn)?shù)并非易事,因?yàn)檫@些分?jǐn)?shù)包括由于人工評(píng)分的主觀偏見(jiàn)造成的變異性。例如,每個(gè)人工評(píng)分可能會(huì)給相同的話語(yǔ)分配不同的分?jǐn)?shù)。接著,通過(guò)消除人工評(píng)分的主觀偏見(jiàn)來(lái)估計(jì)基本真實(shí)分?jǐn)?shù)。最常用的方法是平均法,它通過(guò)平均有偏的分?jǐn)?shù)來(lái)估計(jì)基本真實(shí)分?jǐn)?shù)[8];另一種是投票法,它基于多數(shù)人的意見(jiàn)[9]。
盡管平均和投票在實(shí)踐中得到了成功的應(yīng)用,但考慮到人工評(píng)分的偏見(jiàn)和評(píng)分模型度量,比如皮爾遜的相關(guān)性,關(guān)于它們是否能產(chǎn)生可靠的基本真實(shí)分?jǐn)?shù)的問(wèn)題仍然存在。因此,提出了一種基于去相關(guān)懲罰低秩矩陣分解的估計(jì)方法,并且本研究為了使結(jié)果更加準(zhǔn)確,同時(shí)考慮了人工評(píng)分的主觀偏見(jiàn)和皮爾遜的相關(guān)性。
在此采用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)作為評(píng)分模型。DNN是一種具有多個(gè)隱含非線性層的前饋神經(jīng)網(wǎng)絡(luò)[10]。對(duì)于輸入流暢性特征向量x,每個(gè)隱藏層通過(guò)應(yīng)用仿射變換和非線性映射將其輸入向量從下一層轉(zhuǎn)換到上一層,如式(1)-式(3)。
z0=x
(1)
y(l+1)=W(l)z(l)
(2)
z(l)=σ(y(l))
(3)
式中,W(l)表示l層的權(quán)重矩陣;σ(·)表示非線性激活函數(shù)。在最后一層中,softmax用于獲得輸入特征向量xt的第ith類si的概率,如式(4)。
(4)


圖1 DNN網(wǎng)絡(luò)架構(gòu)
為了訓(xùn)練基于DNN的評(píng)分模型,必須提供輸入-輸出對(duì),(x1,y1),…,(xn,yn),其中xi是外語(yǔ)口語(yǔ)的流利特征向量,而yi是對(duì)應(yīng)的真實(shí)分?jǐn)?shù)。特征xi是由原始波形的流暢性特征提取計(jì)算的,如圖2所示。

圖2 訓(xùn)練語(yǔ)料準(zhǔn)備程序
基本的真實(shí)分?jǐn)?shù)yi通常是從m個(gè)人工評(píng)分的得分(ui1,ui2,…,uim)中獲得。通常的估計(jì)值平均,如式(5)。
(5)
式中,uij表示第ith個(gè)話語(yǔ)的分?jǐn)?shù),由第jth個(gè)人工評(píng)分來(lái)評(píng)定。

(6)

(7)
在這一節(jié)中,主要討論真實(shí)值估計(jì)問(wèn)題。
在外語(yǔ)口語(yǔ)流利性評(píng)分模型中,由于設(shè)計(jì)了一個(gè)評(píng)分標(biāo)準(zhǔn),并訓(xùn)練了人工評(píng)分員,使他們的評(píng)分之間保持高度的相關(guān)性,因此有時(shí)忽略了基本事實(shí)的估計(jì)問(wèn)題。然而,評(píng)分者的評(píng)分存在分歧,為了訓(xùn)練DNN等計(jì)算評(píng)分模型,必須為每個(gè)輸入特征確定一個(gè)單一的評(píng)分。
對(duì)于給定的人工評(píng)分矩陣U,其中(i,j)-th元素表示第j個(gè)人工評(píng)分分配的第i個(gè)話語(yǔ)的得分,如式(8)。
(8)
真實(shí)值估計(jì)的目的是尋找一種將(n×m)矩陣映射到n維向量y∈Rn的變換,該向量表示n個(gè)話語(yǔ)的估計(jì)真實(shí)得分。從這個(gè)意義上講,式(5)中的傳統(tǒng)平均值可以重寫(xiě),如式(9)。
y=Um
(9)

在這項(xiàng)工作中,考慮了兩個(gè)與使用平均值作為外語(yǔ)口語(yǔ)流利性得分的基本真實(shí)值估計(jì)有關(guān)的問(wèn)題:(a)人工評(píng)分的主觀偏見(jiàn);(b)皮爾遜的相關(guān)度量。
首先,平均意味著在人工評(píng)分的解釋中沒(méi)有主觀偏見(jiàn),分?jǐn)?shù)是在相同的標(biāo)準(zhǔn)下評(píng)分的,然而,很自然地假設(shè)每個(gè)人工評(píng)分都有特殊的不平等偏見(jiàn);第二,平均不考慮皮爾遜估計(jì)的真實(shí)得分和人工評(píng)分的得分之間的相關(guān)性。這種相關(guān)性是一個(gè)重要的衡量標(biāo)準(zhǔn),因?yàn)槿绻斯ぴu(píng)分的得分之間的平均相關(guān)性為1.0,就不必估計(jì)基本事實(shí)。所以根據(jù)這些內(nèi)容可知,期望估計(jì)的基本真實(shí)分?jǐn)?shù)與人工評(píng)分的分?jǐn)?shù)顯示出高度的相關(guān)性。
在這項(xiàng)工作中,假設(shè)人工評(píng)分的得分矩陣U由人工評(píng)分的偏差向量w∈Rm和潛在得分向量y∈Rn相乘確定,如式(10)。
U≈ywT
(10)
換言之,假設(shè)Uij是由第j個(gè)人工評(píng)分的偏倚wj與第i個(gè)潛在得分yi的多重疊加來(lái)確定的。
因此,本研究的目標(biāo)是將矩陣U分解為w和y,然后將y用作估計(jì)的真實(shí)分?jǐn)?shù)。為了進(jìn)行分解,將分?jǐn)?shù)之間的去相關(guān)作為懲罰項(xiàng),以最大限度地提高皮爾遜在估計(jì)的真實(shí)分?jǐn)?shù)y和人工評(píng)分的分?jǐn)?shù)U之間的相關(guān)性。
(11)
式中,損失函數(shù)L(γ,w,y)由重建誤差和解相關(guān)懲罰項(xiàng)定義,如式(12)。

(12)
式中,γ控制解相關(guān)的貢獻(xiàn);R(y)測(cè)量估計(jì)的基本真實(shí)得分和人工評(píng)分得分之間的平均解相關(guān),如式(13)。
(13)
式中,corr(Ui,y)表示第ith列向量Ui和y之間的皮爾遜相關(guān)性。另外,引入了非負(fù)歸一化約束,例如0≤w≤1,因?yàn)榱骼鹊梅趾腿斯ぴu(píng)分的偏倚值是非負(fù)的,并且偏倚在0和1之間歸一化。
從提出的方法的角度來(lái)看,常規(guī)平均的方法可以看作是本研究提出方法的一種特殊情況,其中w初始化為1n=[1,…,1]T和γ=0,那么w是固定值,所以式(11)可以改寫(xiě),如式(14)。
(14)
在這項(xiàng)工作中,使用隨機(jī)投影梯度下降(stochastic projected gradient descent,SPGD)算法來(lái)解決式(11)中的優(yōu)化問(wèn)題。雖然該算法較為簡(jiǎn)單,但對(duì)于合并約束條件是有效的。下面描述本研究中使用的SPGD算法,其中η是學(xué)習(xí)率。實(shí)驗(yàn)是通過(guò)使用Theano工具包實(shí)現(xiàn)的。

在這一部分中,主要對(duì)提出的模型進(jìn)行測(cè)試和結(jié)果評(píng)估。
本研究的實(shí)驗(yàn)環(huán)境是在一臺(tái)Windows 7 64位操作系統(tǒng),16GB內(nèi)存,Intel I7 3.5Ghz處理器的臺(tái)式機(jī)上,使用的顯卡為英偉達(dá)GTX 1080。實(shí)驗(yàn)采用的是Python 2.7語(yǔ)言進(jìn)行數(shù)據(jù)處理。實(shí)驗(yàn)的數(shù)據(jù)集為Fran?is數(shù)據(jù)集[12],該數(shù)據(jù)時(shí)長(zhǎng)232小時(shí),數(shù)據(jù)集包含經(jīng)濟(jì),娛樂(lè),新聞,口語(yǔ),數(shù)字等法語(yǔ)語(yǔ)音,語(yǔ)音數(shù)據(jù)集共有404人參與錄制(法國(guó)、加拿大、非洲等地的法語(yǔ)母語(yǔ))平均每人錄入392句;其中女性193人,占比48%。采用其中的80%數(shù)據(jù)作為訓(xùn)練集,剩下來(lái)的20%數(shù)據(jù)作為測(cè)試集,如表1所示。

表1 數(shù)據(jù)集中例句內(nèi)容實(shí)例
每句話都由五位法語(yǔ)專家按1到5的比例打分。為了保持評(píng)分者之間的一致性,設(shè)計(jì)了評(píng)分量表,如表2所示。

表2 人工評(píng)分指南
每個(gè)人工評(píng)分的得分分布,如表3所示。

表3 人工評(píng)分的得分分布
評(píng)分之間的皮爾遜相關(guān)性,如表4所示。

表4 等級(jí)間皮爾遜相關(guān)
(15)
實(shí)驗(yàn)中評(píng)估的估計(jì)方法,如表5所示。
“基線”是指?jìng)鹘y(tǒng)的算術(shù)平均,“CASE-I”是平均方法,但以數(shù)值方式計(jì)算;“CASE-II”通過(guò)最大化皮爾遜相關(guān)度來(lái)估計(jì)基本真實(shí)得分;“CASE-III”通過(guò)消除人工評(píng)分的偏見(jiàn)和最大化皮爾遜相關(guān)度來(lái)估計(jì)得分。

表5 評(píng)估估計(jì)方法(w0=[1,…,1])
評(píng)估結(jié)果,如表6所示。

表6 評(píng)估結(jié)果
“Baseline”和“CASE-I”的性能相同,這意味著“Baseline”方法是該方法的一個(gè)特例。
改變?chǔ)弥堤岢龅姆椒ǖ慕Y(jié)果,如表7所示。

表7 提出方法的性能評(píng)估結(jié)果
可見(jiàn),平均相關(guān)系數(shù)從0.914增加到最大值0.920,標(biāo)準(zhǔn)差從0.0232減小到0.01822。它還表明,“CASE-III”的表現(xiàn)略好于“CASE-II”。這意味著消除人工評(píng)分的偏見(jiàn)有助于增加平均相關(guān)性。雖然改進(jìn)的幅度不大,但結(jié)果表明,該方法有助于提高估計(jì)的真實(shí)有效值的相關(guān)性,并減少估計(jì)的真實(shí)得分的變化。

表8 人工打分權(quán)重
從表中可知,rater3相對(duì)于他人表現(xiàn)出較高的偏向性,即rater3的得分高于他人,這與表3所示的得分分布有關(guān)。
本文提出了一種基于約束條件的低秩矩陣分解的法語(yǔ)口語(yǔ)流利性得分的基本真實(shí)值估計(jì)方法。所提出的方法提供了一個(gè)通用的框架,用于消除人工評(píng)分的分?jǐn)?shù)偏見(jiàn),并包含其他信息,如皮爾遜的相關(guān)性。本研究還表明,傳統(tǒng)的平均方法可以作為一個(gè)特殊的情況下提出的方法。
該方法的性能優(yōu)于傳統(tǒng)方法,但改進(jìn)不大。因此認(rèn)為其中一個(gè)原因是矩陣分解中缺乏非線性。因此,在未來(lái)的工作中,將引入非線性因素來(lái)分解人工評(píng)分的評(píng)分矩陣,并評(píng)估一個(gè)大規(guī)模的評(píng)分語(yǔ)料庫(kù)。