于明誠,黨亞固,吳奇林,吉旭,畢可鑫
(四川大學化學工程學院,四川 成都 610041)
目前學生英文作文評分主要依靠人工方式,打分過程耗時耗力,且結果具有明顯主觀性[1]。隨著自然語言處理技術的發展,作文自動評分(AES)系統的出現能夠減輕評分員的工作負擔,同時避免主觀因素影響評分結果[2-3]。
AES 屬于文本多分類任務,研究方式主要有基于傳統機器學習方法和基于深度神經網絡模型方法。傳統機器學習方法[4-5]需要手動構建特征工程,過程需要耗費大量人力物力,且泛化能力較弱,無法應用于大規模英文文本數據集。基于深度神經網絡模型憑借強大的自動特征提取能力,深層次提取作文的高維潛在語義特征。文獻[6]提出增強型混合神經網絡的作文自動評分模型,通過融合文章的語言、語義和結構屬性,更客觀和全面地實現評分,較實驗對比最佳模型的Kappa 系數平均提高1.4%。文獻[7]通過EssayGAN 網絡對英文作文數據集ASAP進行樣本擴充,采用BERT-CLS 模型進行作文自動評分,EssayGAN-BERT-CLS 在8 個子集上的平均二次加權Kappa 系數(QWK)為78.8%,優于實驗對比的其他預訓練模型BERT[8]輸入長度限制為512,對長文本進行截斷操作影響上下文語義嵌入。文獻[9]提出基于多層次語義特征的英文作文自動評分方法,通過將卷積神經網絡(CNN)和長短期記憶(LSTM)網絡模塊相結合提取深層特征,并手動構建淺層語義特征,在ASAP 公開數據集上的平均二次加權的Kappa 值 為79.17%,CNN 和LSTM 模塊無 法關注到對作文評分結果影響較大的關鍵特征,且未能提取句子級別的上下文連貫性語義。文獻[10]提出結合雙層LSTM 與Attention 作文自動評分,通過雙層LSTM 提取作文上下文語義信息,Attention 模塊識別出關鍵文本信息,在ASAP 數據集上的實驗結果優于實驗對比模型,LSTM 循環網絡訓練效率較低,特征提取能力不足,僅能捕捉單詞級別的上下文語義特征。文獻[11]提出融合回歸和排序損失微調BERT(R2BERT)模型,采用BERT 輸出的[CLS]向量作為作文語義表征,綜合考慮回歸和排序信息,取得較優的評分性能。文獻[12]提出基于BERT 的作文多尺度特征聯合學習,利用2 個BERT 模型來顯式地建模作文的多尺度信息,包括提取文檔和詞匯級特征,缺乏對文章短語級別上下文語義特征的學習。文獻[13]將BERT 和XLNet 模型應用于英文作文自動評分任務中,在ASAP 數據集上取得了優良的表現。文獻[14]考慮句子之間的連貫性特征并將其與深度學習模型相融合,進一步增強神經網絡模型作文評分的性能,但模型缺乏對作文主題層次相關特征的捕捉。
本文提出基于多尺度上下文的英文作文自動評分模型MSC。采用XLNet 提取作文單詞和句子級別的語義嵌入,并在單詞嵌入基礎上提取短語級別嵌入,避免因輸入長度序列限制導致無法準確捕捉嵌入向量的語義表示。多尺度上下文網絡通過內置自注意力簡單循環單元(BSASRU)分別捕捉單詞、短語和句子級別的上下文語義特征,挖掘深層次的作文潛在特征,全局注意力機制識別出對作文評分結果影響大的關鍵特征,避免無關信息的干擾,并引入句子級別的主題層次相關特征,以評價文章的扣題程度,最后通過特征融合層和線性層得到作文預測分數。
基于多尺度上下文的英文作文自動評分模型整體架構如圖1 所示,GA 表示全局注意力模塊。MSC模型主要從多個層次提取作文的特征用于自動評分。首先,構建多尺度上下文語義網絡,使用XLNet預訓練模型分別獲取作文單詞和句子向量表示,而短語向量表示則通過一維卷積網絡在單詞向量的基礎上提取,通過相應的雙向內置自注意力簡單循環單元(BiBSASRU)網絡對不同尺度的上下文語義進行序列建模,深層次獲取作文的潛在語義特征;其次,將目標作文中每個句子的向量表示和作文提示語信息進行映射,得到低維的嵌入式表示,通過計算提示語和句子之間的余弦相似度以獲取主題相關性,從主題層次提取目標作文的扣題程度特征。將多尺度上下文語義特征和主題層次相關性特征融合得到作文的最終表示并進行作文自動評分。

圖1 MSC 模型整體結構Fig.1 Overall structure of the MSC model
Transformer 編碼器框架輸入的序列長度有限,導致作文文本序列信息丟失,影響整體上下文語義的準確率。而基于Transformer-XL 的預訓練模型XLNet[15]通過引入片段循環機制和雙流自注意力機制能夠在長文本語義編碼中取得更佳效果。因此,本文采用XLNet 模型提取英語作文單詞和句子級別的嵌入表示,具體過程如圖2 和圖3 所示。

圖2 單詞嵌入過程Fig.2 Word embedding process

圖3 句子嵌入過程Fig.3 Sentence embedding process
圖2 中單詞編碼層的輸入由字符向量和分句向量組成。在單詞嵌入中,根據預訓練模型字典表查找每個單詞的對應序號,并將其作為靜態單詞編碼信息,并設置截斷長度將作文文本進行統一化操作。在文本首位插入標志位[CLS],在句末插入分句標志[SEP]作為單詞編碼層的輸入之一。由于編碼器無法預知文本句間的順序關系,因此通過分句向量編碼使模型獲得子句在文本中的先后關系。文本中在不同位置的相同字或詞所帶來的信息存在明顯差異,為了提取單詞之間的上下文信息,在注意力計算過程中加入位置編碼以感知詞與詞之間的位置特征。
經XLNet 模型訓練后得到詞嵌入矩陣Ew=為文本輸入的截斷長度,針對單詞嵌入情況須去除首位[CLS]編碼向量,僅采用后續的單詞嵌入向量。
圖3 中輸入為原始作文文本,通過對原始作文文本進行切分操作,以問號、感嘆號和句號作為標識,批量獲取句子集合。為提取每個句子在原文中的上下文句向量表示,在每個單獨句子的前后加上句首標記[CLS]和結束標記[SEP],并整體串聯起來。由于每個英語作文中句子數量不一致,因此對不定長的句向量集合加入Padding 操作,以符合后續循環神經網絡的輸入形式。為后續獲取句向量特征表示,用于句子級別的上下文語義建模,須記錄每個[CLS]位置,方便后續提取每個句子對應的語義向量。
經過預訓練模型XLNet 進行上下文語境特征學習后,通過事先記錄的每個[CLS]位置在單詞向量矩陣中 提取對 應的句 子特征向量
語義的連貫性及上下文的整體表達效果是影響作文質量的重要因素,通過多尺度上下文網絡更好地提取作文的上下文信息及關聯信息,有助于提高作文的評分性能。多尺度上下文網絡主要由短語級別語義嵌入提取模塊、內置自注意力簡單循環單元模塊和全局注意力機制構成。
1.3.1 短語級別語義嵌入提取模塊
為了對英文作文短語級別特征的上下文語義進行建模,本文通過一維卷積模塊對原始單詞語義嵌入向量進行卷積操作,為不損失整體語義,不使用池化技術進行顯著特征選取,再通過雙向內置自注意力簡單循環單元模塊對局部短語特征進行上下文建模,提取不同層次的上下文信息。本文使用卷積模塊對單詞嵌入向量特征輸出Ew進行卷積操作得到短語級別特征,具體計算過程如式(1)和式(2)所示:
其中:w代表卷積核,本文設置卷積核尺寸為2 和3;b表示偏置值;m為卷積過程中滑動窗口大小;?代表卷積操 作;Ti:i+m-1表示T中第i~i+m-1 行作文單詞向量表示;f為非線性函數,增強模型對數據集的擬合能力[16],通過滑動窗口進行卷積得到短語級別特征向量Ep2和Ep3。
1.3.2 內置自注意力簡單循環單元模塊
內置自注意力簡單循環單元模型在簡單循環單元[17]的基礎上,引入自注意力機制,有利于模型學習到英語作文中當前詞對其他詞的重要程度,捕獲句子內部語法結構信息[18]。BSASRU 模型結構如圖4所示。

圖4 內置自注意力簡單循環單元模型結構Fig.4 Structure of built-in self-attention simple recurrence units model
圖4 中768 為輸入向量維度,512 為注意力維度大小;X代表XLNet 預訓練模型最后一層輸出的隱狀態,分別表示單詞、短語和句子級別向量特征Ew、Ep2、Ep3和Es;Elementwise Recurrence 代表元 素循環迭代計算。Elementwise Recurrence 的計算式如式(3)~式(6)所示:
其中:Wf、W、Wr、vf和vr為可訓練權重參數矩陣,是模型學習優化的主要目標之一;bf、br為偏置值。由式(6)可知,簡單循環單元在序列元素循環迭代計算中當前時刻ht不再依賴上1 個時刻的輸出ht-1,可實現大部分運算并行化處理,訓練效率優于傳統循環網絡LSTM[19]和門控循環單元(GRU)[20]。
為提升簡單循環單元的特征學習能力,BSASRU[21]在簡單循環單元的基礎上內置自注意力機制。自注意力計算過程如式(7)~式(11)所示:
其中:當BSASRU 處理單詞和短語級別上下文語義建模時,X?RL×d為詞和 短語向 量矩陣,此處為XLNet 輸出詞向量,針對句子級別上下文建模,X則表示句向量矩陣,L代表句子數量,d為詞向量維度;為可學 習權重 矩陣為注意力得分矩陣;α?R 是自適應訓練參數為實現殘差連接時的參數矩陣;UT?RL×3×d為輸出張量。
為全面提取詞、短語和句子在特定英語作文文本具體語境中的含義,本文構建BiBSASRU,其計算過程如式(12)所示:
1.3.3 全局注意力機制
為突出對評分結果較為關鍵上下文語義特征,避免無關信息對結果造成干擾[22],全局注意力機制分別計算單詞、短語和句子級別上下文語義特征提取模塊BiBSASRUw、BiBSASRUp2、BiBSASRUp3和BiBSASRUs,每個時間狀態輸出Ht對作文評分結果影響的權重大小αt,加權求和后分別得到單詞、短語和句子級別的多尺度整體注意力輸出Aw,Ap2,Ap3,As,具體計 算過程如式(13)~式(15)所示:
其中:tanh 為非線性激活函數;exp 表示指數計算;W為可訓練權重參數矩陣,為主要的優化目標;b為偏置值。
主題作文是一種根據材料和提示語所提供的思考范圍和方向,提取作文的主題特征以及更好地衡量作文主題與作文提示語之間的語義相關性,將會直接影響作文自動評分的性能表現。通過XLNet 模型對每個子集合的提示語進行編碼,嵌入過程形式與單詞嵌入原理一致,但不利用提示語中單個詞的語義表示,而是通過[CLS]標簽獲取整體語義特征Topic。
本文采用余弦相似度來衡量英語作文與主題提示語的語義相關度,余弦相似度計算原理如式(16)所示:
其中:Si表示英語作文中第i個句子符合上下文語境的整體語義表示;T表示當前子集合對應的提示語嵌入表示Topic;SSimilarityi表示第i個句子與主題提示語的語義相關度。
為全面評價作文文本與主題提示語的語義相似度,本文采用每個句子向量與主題提示語進行余弦相似度計算,得出每個句子對提示語的關聯度得分,將全部句子的得分拼接得到主題語義相關特征表示,如式(17)所示:
其中:l表示作文中的句子數量。為解決作文句子數量不定長的問題,本文設置固定長度為L的0 向量矩陣ZeroL,L大于等于所有文章中切分出的最大句子數,確保其能夠接受Similarity 的輸入。通過將主題語義相關特征Similarity 輸入到ZeroL,得到定長的句子級別與主題相關聯的語義特征SL,將作文的切題度融入到評分特征。
本文將單詞、短語和句子級別的多尺度整體注意力輸出Aw,Ap2,Ap3,As與定長的句子級別與主題相關聯的語義特征SL進行拼接,得到融合后的作文評分特征Fusion,具體計算過程如式(18)所示:
其中:Concat 表示向量拼接函數。
本文將融合后的評分特征Fusion 輸入到線性層進行向量維度降低,將結果映射到具體作文評分空間,由Softmax 函數對概率進行歸一化操作得到概率Pred,TopMax 函數取數值最大值對應的作文評分作為最終結果Result,相關計算過程如式(19)和式(20)所示:
為訓練英語作文自動評分模型,本文采用前饋和反向傳播數據更新迭代算法。在反向傳播過程的每次迭代中,通過損失值計算梯度值從而更新模型參數。其關鍵目的是減少所有真實類標簽和網絡輸出的平均損失Loss。其中,Loss 采用多分類交叉熵損失函數[23]計算,相關計算原理如式(21)所示:
為驗證MSC 英文作為自動評分模型的性能表現,本文分別在公開標準的英文作文數據集ASAP中的8 個子集進行實驗,將數據集按照6∶2∶2 劃分為訓練集、測試集和驗證集。ASAP 數據集描述如表1所示。

表1 ASAP 數據集描述Table 1 Description of ASAP dataset
ASAP 數據集 均使用 二次加 權Kappa[24]系數對作文評分模型在每個子集的性能表現進行評估。QWK 評價指標具體計算過程如式(22)和式(23)所示:
其中:i和j分別表示不同的分數大小;N為整體評分等級數;Oi,j表示被評分為i且被評分為j的作文篇數,{Oi,j}表示維度大小為N×N的參數矩陣。QWK是評估不同評分之間一致性的關鍵系數,取值范圍為[-1,1]。
深度學習模型參數量較大,優化過程需要耗費大量的計算機資源,實驗環境軟硬件配置如表2所示。

表2 軟硬件環境Table 2 Hardware and software environment
參數設置對模型訓練精度影響較大,經多次實驗調整參數后,最優參數設置:采用基礎版本英文訓練模型XLNet,隱藏層維度大小為768,自注意力頭數為8。雙向內置自注意力簡單循環單元隱藏層大小為312,層數為2,投影層維度大小為512;卷積核組合大小設置為(2,3),特征圖數量大小均為128;全局注意力機制維度大小為256。
本文采用優化器Ranger[25-26]自適應調整學習率大小以適應訓練過程,加速模型收斂和提升英語作文自動分類的性能效果。損失函數為多分類交叉熵損失函數。部分訓練參數設置如表3 所示。

表3 訓練參數設置Table 3 Setting of training parameters
為全面驗證本文所提模型MSC 在自動英文作文評分任務上的有效性,本文主要從XLNet 詞向量模型應用效果、與近期優秀深度學習模型性能對比和消融實驗3 個方面開展實驗。為確保實驗過程的客觀公平,固定隨機數種子以避免實驗結果受到隨機誤差的影響,在每個子數據集上分別取5 次實驗結果的平均值作為最終結果。不同模型的性能指標如表4 所示,實驗對比模型的結果均引用原論文,加粗表示最優數據。

表4 不同模型的二次加權Kappa 系數值Table 4 Quadratic weighted Kappa coefficient values among different models %
從表4 可以看出,本文模型MSC 在ASAP 數據集上取得了最高平均QWK,達到了80.50%,優于實驗對比表現優良的深度學習模型,較HNN-AES、EssayGAN-BERT-CLS、GAT-LSTM、MLSN、R2BERT和BERT-XLNet 分別提高了0.10、1.70、2.29、1.33、1.10 和4.74 個百分點,同時在子集4、子集5、子集6和子集8 中取得最佳效果,證明MSC 模型通過XLNet 能準確獲取單詞和句子語義嵌入。多尺度上下文網絡進行不同層次的語義特征學習,以及通過句向量與提示語計算文章的扣題程度,能夠有效提高英文作文自動評分性能。
BERT-XLNet 僅取得了75.76%的平均QWK 值,說明通過簡單的語義特征融合方式得到的評分特征無法很好地捕捉英文作文的高維潛在語義,影響自動評分的準確性。而R2BERT 綜合考慮回歸和排序信息,英文作文評分效果有顯著提升,平均QWK 值達到了79.40%。HNN-AES 采用混合神經網絡捕捉作文文章語言、語義和結構屬性特征,取得了80.40%的平均QWK 值,在子集1、子集2 和子集3 評分效果最佳,證明整體文章語義連貫和篇章結構特征對英文作文自動評分任務的重要性。
MLSN 通過CNN 和LSTM 模塊捕捉局部和上下文語義特征,并加入淺層特征和文章與提示語相似度得分,融合多種特征對作文進行評分,性能表現良好,但淺層特征需要人為手動進行提取,過程費時費力。
2.3.1 模塊消融實驗
為驗證MSC 模型中各個模塊對整體性能的貢獻程度,本文設置相應模塊消融實驗,試驗軟硬件環境均保持一致。消融實驗結果如表5 所示。

表5 消融實驗結果Table 5 Results of ablation experiment %
MSC(w/o GAp+GAs+GAw)表示在MSC 的基礎上去除各個尺度下的全局注意力模塊。MSC(w/o主題層次特征)表示不加入句子與提示語的主題層次特征。MSC(w/o BiBSASRUw+GAw)、MSC(w/o BiBSASRUp+GAp)和MSC(w/o BiBSASRUs+GAs)分別表示去除單個尺度下的BiBSASRU+GA 特征提取模塊。其中,GAp包含GAp2和GAp3。
從表5 可以看出,加入句向量與主題提示語向量計算語義相似度得到的主題層次特征,MSC 的平均QWK 系數提高了0.95 個百分點,說明本文提取的句子級別主題層次特征對提高作文評分準確性幫助較大,也更符合人為打分過程需要考慮作文扣題度的行為。
模型MSC(w/o BiBSASRUw+GAw)在加入單詞級別上下文語義特征后,平均QWK 值提高1.44 個百分點,MSC(w/o BiBSASRUp+GAp)加入短語級別上下文語義特征后,平均QWK 值提高1.29 個百分點,說明單詞和短語尺度下的整體語義特征能夠促進模型對英文作文的表征能力,提高作文評分的性能。
MSC(w/o BiBSASRUs+GAs)加入句子上下文語義連貫特征后,平均QWK 值提高0.74 個百分點,表明在句級別上的全文連貫性特征對作文評分有著明顯影響,能夠在更高的維度上提取文章上下文關聯,增強模型的語義表征能力。
模型MSC(w/o GAp+GAs+GAw)在加入各個尺度下的全局注意力模塊后,平均QWK 值提高0.41 個百分點,表明全局注意力機制能夠更好捕捉不同尺度下的關鍵評分特征,減小噪聲對評分結果的干擾,有效地提升作文評分準確率。
2.3.2 循環網絡評分性能和訓練效率對比分析
為驗證本文提出的雙向內置自注意力簡單循環單元(BiBSASRU)較其他循環網絡在評分性能和訓練效率上的優勢,本文采用目前性能較佳的循環網絡BiLSTM、BiGRU 和BiSRU 作為對比,實驗過程中僅循環網絡類型不同,其他模塊和軟硬件環境均保持相同。采用不同循環網絡在8 個子集上的平均QWK 值如表6 所示,在子集上的平均輪次訓練時長曲線如圖5 所示。

表6 不同循環網絡模型性能Table 6 Performance among different recurrent network models %

圖5 不同循環網絡在子集上的平均訓練時間Fig.5 The average training time among different recurrent networks on subsets
由表6 結果可知,MSC(w/o BiBSASRU)模型在8 個子集上的平均QWK 值高于MSC(w/o BiSRU)、MSC(w/o BiGRU)和MSC(w/o BiLSTM),表 明BiBSASRU 通過內置自注意力機制,能夠有效捕捉不同語義特征之間的依賴關系,增強模型的特征表示能力,從而有效地提高作文評分的性能。
從圖5 可以看出,模型MSC(w/o BiBSASRU)、MSC(w/o BiSRU)、MSC(w/o BiGRU)和MSC(w/o BiLSTM)的整體平均訓練時長分別為159.3 s、157.1 s、163.4 s 和167.1 s。本文模型MSC(w/o BiBSASRU)整體平均訓練時間較MSC(w/o BiGRU)和MSC(w/o BiLSTM)分別縮短了4.1 s 和7.8 s,證明BiBSASRU模塊訓練速度優于傳統循環網絡BiGRU 和BiLSTM。而BiGRU 在BiLSTM 的基礎上簡化門控循環單元,同時參數量有所下降,因此BiGRU 模塊訓練效率優于BiLSTM。模型MSC(w/o BiBSASRU)整體平均訓練時長較MSC(w/o BiSRU)增加2.2 s,由于BiBSASRU 在BiSRU 模塊的基礎上內置自注意力機制,因此會引入額外的運算量,導致訓練時長方面也有所增加,但幅度較小。
針對英文作文自動評分任務,本文提出基于多尺度上下文的英文作文自動評分模型MSC。XLNet提取原始作文的符合上下文語境的單詞和句嵌入,由多尺度上下文網絡通過結合內置自注意力簡單循環單元與全局注意力機制,全面捕捉單詞、短語和句子級別的高維作文潛在語義,計算每個句子與提示語得到主題層次特征,更好地表征作文扣題度。實驗結果表明,該方法在公開英文作文數據集ASAP上得到了80.50%的平均QWK 值,高于實驗對比的優秀深度學習模型,能夠有效捕獲不同層次的上下文語義關聯特征,并通過消融實驗驗證各個模塊的有效性。后續將考慮高效地引入淺層特征,進一步提升作文評分性能。此外,由于本文數據集為英文,因此開展針對中文作文進行自動評分研究也是本文重點研究方向。