基于去相關(guān)化的低秩矩陣分解對(duì)口語(yǔ)能力的評(píng)估方法

2021-03-17 08:12:28林思岑

微型電腦應(yīng)用 2021年2期

關(guān)鍵詞：方法模型

林思岑

(西安醫(yī)學(xué)院外國(guó)語(yǔ)學(xué)院, 陜西西安 710021)

0 引言

近年來(lái)，計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)(Computer Aided Language Learning，CALL)作為一種提高非母語(yǔ)學(xué)外語(yǔ)口語(yǔ)能力的方法受到了廣泛的關(guān)注。為了使CALL系統(tǒng)提供有用的輔導(dǎo)反饋，需要一個(gè)自動(dòng)匹配的評(píng)分系統(tǒng)來(lái)評(píng)估非母語(yǔ)學(xué)生的發(fā)音質(zhì)量、流利性和特定錯(cuò)誤。

流利度評(píng)分系統(tǒng)一般由語(yǔ)音自動(dòng)識(shí)別、流利度特征提取和評(píng)分模型組成。在流利性特征提取中，假設(shè)與外語(yǔ)口語(yǔ)流利性高度相關(guān)的特征被計(jì)算出來(lái)[1-3]。例如，長(zhǎng)靜默時(shí)間、每秒字?jǐn)?shù)和交流持續(xù)時(shí)間是最常見(jiàn)的流利性特征[4]。評(píng)分模型是訓(xùn)練模型參數(shù)，將輸入的流利性特征映射到相應(yīng)的真實(shí)得分，然后用于預(yù)測(cè)輸入話語(yǔ)得分的分類器。評(píng)分模型最常用的算法是線性回歸[2]、支持向量機(jī)(SVM)[5-6]或高斯過(guò)程[7]。

分?jǐn)?shù)建模是一個(gè)一般的有監(jiān)督學(xué)習(xí)問(wèn)題。因此，為了使模型得到可靠的訓(xùn)練，必須提供正確的真實(shí)分?jǐn)?shù)作為目標(biāo)輸入。然而，要從人工評(píng)分的分?jǐn)?shù)中獲得正確的基本事實(shí)分?jǐn)?shù)并非易事，因?yàn)檫@些分?jǐn)?shù)包括由于人工評(píng)分的主觀偏見(jiàn)造成的變異性。例如，每個(gè)人工評(píng)分可能會(huì)給相同的話語(yǔ)分配不同的分?jǐn)?shù)。接著，通過(guò)消除人工評(píng)分的主觀偏見(jiàn)來(lái)估計(jì)基本真實(shí)分?jǐn)?shù)。最常用的方法是平均法，它通過(guò)平均有偏的分?jǐn)?shù)來(lái)估計(jì)基本真實(shí)分?jǐn)?shù)[8]；另一種是投票法，它基于多數(shù)人的意見(jiàn)[9]。

盡管平均和投票在實(shí)踐中得到了成功的應(yīng)用，但考慮到人工評(píng)分的偏見(jiàn)和評(píng)分模型度量，比如皮爾遜的相關(guān)性，關(guān)于它們是否能產(chǎn)生可靠的基本真實(shí)分?jǐn)?shù)的問(wèn)題仍然存在。因此，提出了一種基于去相關(guān)懲罰低秩矩陣分解的估計(jì)方法，并且本研究為了使結(jié)果更加準(zhǔn)確，同時(shí)考慮了人工評(píng)分的主觀偏見(jiàn)和皮爾遜的相關(guān)性。

1 基于深度神經(jīng)網(wǎng)絡(luò)的評(píng)分模型

1.1 深度神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)

在此采用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks，DNN)作為評(píng)分模型。DNN是一種具有多個(gè)隱含非線性層的前饋神經(jīng)網(wǎng)絡(luò)[10]。對(duì)于輸入流暢性特征向量x，每個(gè)隱藏層通過(guò)應(yīng)用仿射變換和非線性映射將其輸入向量從下一層轉(zhuǎn)換到上一層，如式(1)-式(3)。

z0=x

(1)

y(l+1)=W(l)z(l)

(2)

z(l)=σ(y(l))

(3)

式中，W(l)表示l層的權(quán)重矩陣；σ(·)表示非線性激活函數(shù)。在最后一層中，softmax用于獲得輸入特征向量xt的第ith類si的概率，如式(4)。

(4)

圖1 DNN網(wǎng)絡(luò)架構(gòu)

1.2 訓(xùn)練語(yǔ)料庫(kù)

為了訓(xùn)練基于DNN的評(píng)分模型，必須提供輸入-輸出對(duì)，(x1,y1),…,(xn,yn),其中xi是外語(yǔ)口語(yǔ)的流利特征向量，而yi是對(duì)應(yīng)的真實(shí)分?jǐn)?shù)。特征xi是由原始波形的流暢性特征提取計(jì)算的，如圖2所示。

圖2 訓(xùn)練語(yǔ)料準(zhǔn)備程序

基本的真實(shí)分?jǐn)?shù)yi通常是從m個(gè)人工評(píng)分的得分(ui1,ui2,…,uim)中獲得。通常的估計(jì)值平均，如式(5)。

(5)

式中，uij表示第ith個(gè)話語(yǔ)的分?jǐn)?shù)，由第jth個(gè)人工評(píng)分來(lái)評(píng)定。

1.3 評(píng)分模型度量

(6)

(7)

2 真實(shí)值估計(jì)問(wèn)題

在這一節(jié)中，主要討論真實(shí)值估計(jì)問(wèn)題。

2.1 進(jìn)行真實(shí)值評(píng)估的目的

在外語(yǔ)口語(yǔ)流利性評(píng)分模型中，由于設(shè)計(jì)了一個(gè)評(píng)分標(biāo)準(zhǔn)，并訓(xùn)練了人工評(píng)分員，使他們的評(píng)分之間保持高度的相關(guān)性，因此有時(shí)忽略了基本事實(shí)的估計(jì)問(wèn)題。然而，評(píng)分者的評(píng)分存在分歧，為了訓(xùn)練DNN等計(jì)算評(píng)分模型，必須為每個(gè)輸入特征確定一個(gè)單一的評(píng)分。

2.2 口語(yǔ)流利性評(píng)分中的基本事實(shí)估計(jì)問(wèn)題

對(duì)于給定的人工評(píng)分矩陣U，其中(i,j)-th元素表示第j個(gè)人工評(píng)分分配的第i個(gè)話語(yǔ)的得分，如式(8)。

(8)

真實(shí)值估計(jì)的目的是尋找一種將(n×m)矩陣映射到n維向量y∈Rn的變換，該向量表示n個(gè)話語(yǔ)的估計(jì)真實(shí)得分。從這個(gè)意義上講，式(5)中的傳統(tǒng)平均值可以重寫(xiě)，如式(9)。

y=Um

(9)

2.3 真實(shí)估計(jì)中的平均問(wèn)題

在這項(xiàng)工作中，考慮了兩個(gè)與使用平均值作為外語(yǔ)口語(yǔ)流利性得分的基本真實(shí)值估計(jì)有關(guān)的問(wèn)題：(a)人工評(píng)分的主觀偏見(jiàn)；(b)皮爾遜的相關(guān)度量。

首先，平均意味著在人工評(píng)分的解釋中沒(méi)有主觀偏見(jiàn)，分?jǐn)?shù)是在相同的標(biāo)準(zhǔn)下評(píng)分的，然而，很自然地假設(shè)每個(gè)人工評(píng)分都有特殊的不平等偏見(jiàn)；第二，平均不考慮皮爾遜估計(jì)的真實(shí)得分和人工評(píng)分的得分之間的相關(guān)性。這種相關(guān)性是一個(gè)重要的衡量標(biāo)準(zhǔn)，因?yàn)槿绻斯ぴu(píng)分的得分之間的平均相關(guān)性為1.0，就不必估計(jì)基本事實(shí)。所以根據(jù)這些內(nèi)容可知，期望估計(jì)的基本真實(shí)分?jǐn)?shù)與人工評(píng)分的分?jǐn)?shù)顯示出高度的相關(guān)性。

3 解相關(guān)的低秩矩陣分解

在這項(xiàng)工作中，假設(shè)人工評(píng)分的得分矩陣U由人工評(píng)分的偏差向量w∈Rm和潛在得分向量y∈Rn相乘確定，如式(10)。

U≈ywT

(10)

換言之，假設(shè)Uij是由第j個(gè)人工評(píng)分的偏倚wj與第i個(gè)潛在得分yi的多重疊加來(lái)確定的。

因此，本研究的目標(biāo)是將矩陣U分解為w和y，然后將y用作估計(jì)的真實(shí)分?jǐn)?shù)。為了進(jìn)行分解，將分?jǐn)?shù)之間的去相關(guān)作為懲罰項(xiàng)，以最大限度地提高皮爾遜在估計(jì)的真實(shí)分?jǐn)?shù)y和人工評(píng)分的分?jǐn)?shù)U之間的相關(guān)性。

3.1 約束條件低秩矩陣分解

(11)

式中，損失函數(shù)L(γ,w,y)由重建誤差和解相關(guān)懲罰項(xiàng)定義，如式(12)。

(12)

式中，γ控制解相關(guān)的貢獻(xiàn)；R(y)測(cè)量估計(jì)的基本真實(shí)得分和人工評(píng)分得分之間的平均解相關(guān)，如式(13)。

(13)

式中，corr(Ui,y)表示第ith列向量Ui和y之間的皮爾遜相關(guān)性。另外，引入了非負(fù)歸一化約束，例如0≤w≤1，因?yàn)榱骼鹊梅趾腿斯ぴu(píng)分的偏倚值是非負(fù)的，并且偏倚在0和1之間歸一化。

3.2 對(duì)提出方法平均

從提出的方法的角度來(lái)看，常規(guī)平均的方法可以看作是本研究提出方法的一種特殊情況，其中w初始化為1n=[1,…,1]T和γ=0，那么w是固定值，所以式(11)可以改寫(xiě)，如式(14)。

(14)

3.3 隨機(jī)投影梯度下降

在這項(xiàng)工作中，使用隨機(jī)投影梯度下降(stochastic projected gradient descent，SPGD)算法來(lái)解決式(11)中的優(yōu)化問(wèn)題。雖然該算法較為簡(jiǎn)單，但對(duì)于合并約束條件是有效的。下面描述本研究中使用的SPGD算法，其中η是學(xué)習(xí)率。實(shí)驗(yàn)是通過(guò)使用Theano工具包實(shí)現(xiàn)的。

4 實(shí)驗(yàn)結(jié)果

在這一部分中，主要對(duì)提出的模型進(jìn)行測(cè)試和結(jié)果評(píng)估。

4.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)集

本研究的實(shí)驗(yàn)環(huán)境是在一臺(tái)Windows 7 64位操作系統(tǒng)，16GB內(nèi)存，Intel I7 3.5Ghz處理器的臺(tái)式機(jī)上，使用的顯卡為英偉達(dá)GTX 1080。實(shí)驗(yàn)采用的是Python 2.7語(yǔ)言進(jìn)行數(shù)據(jù)處理。實(shí)驗(yàn)的數(shù)據(jù)集為Fran?is數(shù)據(jù)集[12]，該數(shù)據(jù)時(shí)長(zhǎng)232小時(shí)，數(shù)據(jù)集包含經(jīng)濟(jì)，娛樂(lè)，新聞，口語(yǔ)，數(shù)字等法語(yǔ)語(yǔ)音，語(yǔ)音數(shù)據(jù)集共有404人參與錄制(法國(guó)、加拿大、非洲等地的法語(yǔ)母語(yǔ))平均每人錄入392句；其中女性193人，占比48%。采用其中的80%數(shù)據(jù)作為訓(xùn)練集，剩下來(lái)的20%數(shù)據(jù)作為測(cè)試集，如表1所示。

表1 數(shù)據(jù)集中例句內(nèi)容實(shí)例

每句話都由五位法語(yǔ)專家按1到5的比例打分。為了保持評(píng)分者之間的一致性，設(shè)計(jì)了評(píng)分量表，如表2所示。

表2 人工評(píng)分指南

每個(gè)人工評(píng)分的得分分布，如表3所示。

表3 人工評(píng)分的得分分布

評(píng)分之間的皮爾遜相關(guān)性，如表4所示。

表4 等級(jí)間皮爾遜相關(guān)

(15)

實(shí)驗(yàn)中評(píng)估的估計(jì)方法，如表5所示。

“基線”是指?jìng)鹘y(tǒng)的算術(shù)平均，“CASE-I”是平均方法，但以數(shù)值方式計(jì)算；“CASE-II”通過(guò)最大化皮爾遜相關(guān)度來(lái)估計(jì)基本真實(shí)得分；“CASE-III”通過(guò)消除人工評(píng)分的偏見(jiàn)和最大化皮爾遜相關(guān)度來(lái)估計(jì)得分。

表5 評(píng)估估計(jì)方法(w0=[1,…,1])

4.2 結(jié)果與評(píng)估

評(píng)估結(jié)果，如表6所示。

表6 評(píng)估結(jié)果

“Baseline”和“CASE-I”的性能相同，這意味著“Baseline”方法是該方法的一個(gè)特例。

改變?chǔ)弥堤岢龅姆椒ǖ慕Y(jié)果，如表7所示。

表7 提出方法的性能評(píng)估結(jié)果

可見(jiàn)，平均相關(guān)系數(shù)從0.914增加到最大值0.920，標(biāo)準(zhǔn)差從0.0232減小到0.01822。它還表明，“CASE-III”的表現(xiàn)略好于“CASE-II”。這意味著消除人工評(píng)分的偏見(jiàn)有助于增加平均相關(guān)性。雖然改進(jìn)的幅度不大，但結(jié)果表明，該方法有助于提高估計(jì)的真實(shí)有效值的相關(guān)性，并減少估計(jì)的真實(shí)得分的變化。

4.3 人工打分的偏見(jiàn)歸一化

表8 人工打分權(quán)重

從表中可知，rater3相對(duì)于他人表現(xiàn)出較高的偏向性，即rater3的得分高于他人，這與表3所示的得分分布有關(guān)。

5 總結(jié)

本文提出了一種基于約束條件的低秩矩陣分解的法語(yǔ)口語(yǔ)流利性得分的基本真實(shí)值估計(jì)方法。所提出的方法提供了一個(gè)通用的框架，用于消除人工評(píng)分的分?jǐn)?shù)偏見(jiàn)，并包含其他信息，如皮爾遜的相關(guān)性。本研究還表明，傳統(tǒng)的平均方法可以作為一個(gè)特殊的情況下提出的方法。

該方法的性能優(yōu)于傳統(tǒng)方法，但改進(jìn)不大。因此認(rèn)為其中一個(gè)原因是矩陣分解中缺乏非線性。因此，在未來(lái)的工作中，將引入非線性因素來(lái)分解人工評(píng)分的評(píng)分矩陣，并評(píng)估一個(gè)大規(guī)模的評(píng)分語(yǔ)料庫(kù)。