付瑞吉,王 棟,王士進,胡國平,劉 挺
(1. 科大訊飛股份有限公司研究院,安徽 合肥518057;2. 科大訊飛股份有限公司 哈工大訊飛聯合實驗室,北京100094;3. 哈爾濱工業大學 計算機科學與技術學院 社會計算與信息檢索研究中心,黑龍江 哈爾濱150001)
現行高考語文作文考綱的發展等級要求詞語生動、句式靈活,善于運用修辭手法,文句有意蘊[1]。這是在語言通順基礎上提出的高一層次的語言標準,或是語言生動,或是句式靈活,或是善于運用修辭手法,或是文句有意蘊,這些都是有文采的表現[2]。考生在運用語言方面,只要有某一處閃光耀眼的地方,都應該加以肯定和鼓勵,以保證他們在通順的基礎上所展示的各種語言風采能夠得到應有的評價。
一個句子有文采與否,看似是一件主觀的事情,實則也有一定的規律。本文參考了高考語文作文中關于優美表達的判別標準: 有文采的句子通常在語言生動、活用句式、運用修辭、巧借引用、巧用文言詞語等某一方面或幾方面有突出之處[3]。我們同時請高考評分專家對數據標注過程進行了指導和數據質量保障。并在此基礎上,提出了面向作文自動評分的優美句識別任務。
優美句識別可以看作一個文本分類問題。文本分類的主要任務是在預先給定類別集合的前提下,計算機通過分析文本內容判別其類別。傳統的文本分類通常有文本領域的區分,如新聞可分為政治、體育、財經等;還有基于文本特定維度的分類,如情感分類、垃圾郵件過濾等。傳統的基于統計機器學習的方法[4-9]通常需要人工設定特征模板,從文本中抽取出來,作為分類模型計算的依據。而優美句識別是一種句子級的二元分類問題,與傳統文本分類相比,優美的文采更難以把握,很難人為制定優美的特征。
而神經網絡方法的一個優勢恰好在于無需人工特征,即可從數據中學習得到模型參數。因此,本文提出一種基于卷積神經網絡(CNN)和雙向長短時記憶(BiLSTM)網絡的混合深度神經網絡的優美句自動識別方法,并對比了該方法和CNN、BiLSTM網絡等在此任務上的效果。實驗證明,混合神經網絡獲得了最好的準確率,以及和BiLSTM網絡相當的最好的F1值。
最后,判別作文句子優美與否,也是作文自動評分任務中的關鍵之一。本文對于整篇作文句子的優美程度及分布進行分析,并可組合相關特征對作文進行自動評分提供幫助,提高作文評閱精度。
綜上,本文的主要貢獻包括: ①首次提出了句子優美自動識別的任務; ②采用混合深度神經網絡進行分類預測取得了較好的效果; ③優美句子識別結果作為特征,可改善作文自動評分。
文本分類一直是自然語言處理領域的研究熱點和關鍵技術之一,在Web內容管理、搜索引擎、郵件過濾等許多實際應用中都扮演著至關重要的角色,是組織和管理數據的重要方法。
從20世紀90年代起,基于統計機器學習的文本分類逐漸興起,常用的文本分類方法如 K 近鄰法(K nearest neighbor,KNN)[4]、最大熵(maximum entropy,ME)[5-6]、樸素貝葉斯(Na?ve Bayes,NB)[7]、決策樹(Decision Tree,DT)[8]、支持向量機(support vector machine,SVM)[9]等。尤其是SVM,很長一段時間內在效果和穩定性上占據優勢[10-11]。然而這些機器學習方法大都采用淺層結構,為了使其有較好的性能,系統必須融入大量的人工特征。這些特征集合一般具有高維度、稀疏、特征間相關性大的特點。因此,在傳統的基于機器學習的文本分類任務中選擇和提取特征成為一個重要的任務。
近年來深度神經網絡技術快速發展,在自然語言處理的許多任務上都取得了很好的效果。深度學習模型的一個顯著優勢在于特征的自動選取和組合,能夠提取出較好反映文本信息的特征。 基于 Hinton 對概念進行分布表示(distributed representation)的思想[12],詞嵌入(word embedding)或稱為詞向量將詞用一種低維實數向量表示,使得語義相似的詞在距離上更接近,成為衡量詞語語義遠近的一個有效方法。詞向量可由大量生語料訓練得到,無需人工標注,且它的引入有效降低了網絡的深度,使得深度學習成為文本分類的一種高效方法。
常用的深度神經網絡包括卷積神經網絡(convolutional neural network,CNN)[13]和循環神經網絡(recurrent neural network,RNN)[14]。深度學習算法在圖像處理和語音識別領域取得了令人矚目的成果[13-15]。其中,CNN是近年發展起來并引起廣泛重視的一種高效學習方法,是目前應用最為廣泛的一種深度學習結構,通過卷積層(convolutional layer)和池化層(pooling layer)來具體實現。CNN可以很好地利用文本中的局部特征,如相鄰詞匯間的關聯關系等。Kim將CNN用于文本分類任務,僅用一層卷積層就達到了很好的分類效果[16]。Zhang等人采用基于字符層面的卷積神經網絡進行文本分類,他們設計了一個9層的CNN,包括6層卷積層和3層全連接層,該CNN在多個文本分類任務上取得了最好的效果[17]。
RNN的結構更適用于時序特征的利用,并支持變長輸入。然而傳統的RNN在使用后向傳播進行訓練的時候會出現梯度消失和梯度爆炸的問題,這些問題導致傳統的RNN捕獲不到遠距離的依賴,而只能捕獲當前位置近距離的信息。Hochreiter和Schmidhuber提出了長短時記憶(long short-term memory,LSTM)網絡[18],在神經元上添加輸入門、遺忘門和輸出門的方式更好地控制神經元中信息的傳遞,由于每個神經元上的門打開的時刻可以不同,所以LSTM可以捕獲遠距離的特征和近距離的信息,同時可以更有效地過濾掉不重要的信息,起到去噪的作用。原始的LSTM是沿著序列的一個方向掃描,為了更好地捕獲序列的模式信息,常用的一種方式是采用雙向LSTM。目前LSTM廣泛應用于機器翻譯、信息檢索、文本分類等任務中[19-22]。Liu等人提出了基于多任務學習的RNN,在文本分類中取得了很好的效果[21]。Tai等人提出了樹LSTM,用于語義關聯學習和情感分類任務[22]。Lee等人在RNN和CNN中加入了時序化信息,提升了多輪對話中短文本分類的效果[23]。
作文自動評分(automated essay scoring, AES)是使用計算機對作文進行評估和打分的技術,其中最著名的是E-rater系統,它是由Educational Testing Service(ETS)的Burstein 等人在20世紀90 年代末開發的作文評分系統[24-27]。目前ETS正利用該系統對GMAT中Analytical Writing Assessment(AWA)部分進行評分,并于2005年開始應用于托福考試的作文評分[28]。
近十幾年來,國內外自然語言處理研究者在作文自動評分領域開展了不少研究工作,以英文作文評分居多。按照研究側重點的不同,相關工作大致可以分成內容和表達兩個方面。
內容方面,Burstein等基于句子位置、論點高頻詞以及RST篇章關系特征,通過貝葉斯分類方法實現對英文熟練度測試(English proficiency test, EPT)中答案中心句子的識別[29]。Burstein等通過改進Barzilay和Lapata的實體連貫性算法[30],引入其他表征作文質量的特征,對作文連貫性進行二元分類,取得了較好的效果[31]。Persing和Ng對作文主題的清晰度進行了評價,他們將導致作文主題不清晰的原因分成五類,針對每種類型的錯誤訓練二元分類模型,從而實現導致主題不清晰錯誤的識別,同時基于上述針對錯誤識別的特征,運用回歸方法實現對作文主題清晰度的評分[32]。Klebanov等通過互信息統計詞匯之間的關聯度,將詞對分成高、中、低三種關聯,通過對文章的分析發現: 作文的質量越高,其高和低兩種類型關聯度所占的比例較大,而詞對關聯度處于中等水平所占的比例較小。引入詞對關聯度分布情況作為特征,可以提升作文評分的效果[33]。
表達方面,由于EFL(English as first language)句子不符合語法規則,采用傳統的依存句法分析十分困難,Lonsdale采用鏈接語法對句子進行分析,同時引入一些作文相關的句法規則,從而提升句法分析的魯棒性[34]。Chang基于對詞性和詞匯不同水平文章的分布分析實現修辭手法連接詞(如“變成”“好像”)的識別,然后通過定義一些規則,從而實現對包含修辭手法的句子的識別,最終通過ID3決策樹將作文分成高和低兩種等級[35]。
最近幾年,隨著深度學習的廣泛應用,一些研究者也嘗試了基于神經網絡深度學習的作文評分。 Alikaniotis等人采用LSTM來表示作文,同時在訓練時引入分數信息對詞匯的表示進行調整,得到面向評分任務的詞向量表示(score-specific word embeddings),從而提高了評分的準確率[36]。Dong 和Zhang采用的是雙層卷積神經網絡CNN,第一層是句子級的表示,第二層是篇章級的表示,同樣要調整詞向量表示,使其更適合評分任務[37]。Nguyen和Dery對比了多種神經網絡,包括CNN、RNN和LSTM等,結果顯示LSTM在作文自動評分上表現最好[38]。
優美句子識別可以看作是一個文本分類的問題,輸入為句子文本s=x1x2…xn,輸出為二元分類結果:y∈Y,Y={優美,不優美}。傳統的文本分類是根據文本中的內容,如詞匯分布等,預測文本是否屬于某一領域,如政治、財經、體育等。但與傳統的文本分類不同的是,優美句子識別任務是根據句子內容、表達方式等對于句子優美程度做出判別。
本節提出三種基于深度神經網絡的優美句子識別方法,并介紹優美句子特征在作文評分中的應用。
本節分別介紹三種基于深度神經網絡的優美句子識別方法: 循環神經網絡、卷積神經網絡,及循環和卷積混合的神經網絡。
2.1.1基于卷積神經網絡的優美句子識別
我們首先訓練詞向量(word embedding),然后將一句話中的詞向量輸入到卷積神經網絡中,經過卷積層、池化層后(這里我們只采用了一層卷積和池化)。然后在上層接入全連接層進行分類,結構如圖1所示。

圖1 基于CNN的優美句子識別
卷積層第j個卷積核的輸出cj按照式(1)計算,其中xi為相鄰a個詞向量組成的二維矩陣中第i個向量,a為卷積核窗口大小,kij為卷積核中第i個向量,bj為偏置。最后通過一個激活函數f得到隱層特征值。池化層采用最大值池化(max-pooling)選擇隱層向量中的最大值,如式(1)所示。
(1)
訓練時,訓練數據以句子為單位,均標有“優美”或“不優美”的標記,我們采用反向傳播算法訓練模型參數。
2.1.2基于循環神經網絡的優美句子識別
我們首先訓練詞向量,然后將一句話中詞向量依次輸入到雙向循環神經網絡中,然后再接入一個全連接層進行分類。本文中的循環神經網絡,我們使用的是常用的雙向LSTM,其特點是可以捕捉到長距離的相關特征,結構如圖2所示。

圖2 基于雙向LSTM的優美句子識別

其中,w1×m為全連接層網絡參數,b為偏置。
2.1.3基于混合神經網絡的優美句子識別
由于優美句子的識別不僅需要考慮句子的內容,比如用詞是否生動、是否引用詩詞等,而且要考慮句子的組織形式,比如句式組織是否工整,讀起來是否朗朗上口,這就要求模型能夠捕捉句子的局部信息和全局信息。因此,本文嘗試使用CNN對于局部短距離特征進行建模,而在此基礎上利用Bi-LSTM對這些局部特征進行串聯來刻畫全局特征。
首先將詞向量輸入到CNN網絡中,在卷積層得到一系列特征向量后,再將各維向量補充空值為等長向量后對齊,組成縱向向量,按照時序作為雙向LSTM的輸入,最后再接入全連接層中計算分類概率進行類別的判別,如圖3所示。結合式(1)~式(5),得到我們混合神經網絡的分類概率計算如式(6)、式(7)所示。

圖3 基于混合神經網絡的優美句子識別
這樣做的好處在于可以將局部多個窗口內的信息綜合起來,再通過BiLSTM獲取長距離的依賴,便于利用局部和全局信息的綜合判斷,但也增加了參數數量,需要更多的訓練語料來訓練。
在優美句識別的基礎上,我們嘗試將優美句特征應用于作文自動評分任務。實驗使用科大訊飛研發的語文作文自動評分系統,該系統參考高考作文評分標準,基礎特征包括詞匯豐富性、句子通順度、立意高低、篇章結構等多個方面,采用支持向量回歸(support vector regression,SVR)、梯度提升決策樹(gradient boost decision tree,GBDT)、嶺回歸(ridge regression)等多種回歸模型融合,對作文進行自動評分。
按照高考作文評分標準的指導,在不離題的情況下,語言表達越優美,作文分數越高;文采越好,作文發展等級得分越高,使得作文最終得分越高。基于本文提出的優美句識別結果,我們設計了一系列特征(表1),加入到基礎特征中,考察其對于自動評分的作用。

表1 面向作文自動評分的優美句子特征
3.1.1優美句子識別數據
實驗部分,我們從一個公開的學生作文練習批改網站*http://www.leleketang.com/zuowen/上收集優美句子訓練語料,示例如圖4所示,我們抽取劃線句子為優美句子的候選。采用這種方式,并經過人工標注確認,我們共得到3萬句優美表達,然后隨機從未劃線句子中選取約6萬句作文反例,構成訓練數據(正反例比例為1∶2)。

圖4 優美句子訓練集獲取示例
為了測試,我們從真實的中學生考試作文中隨機選取21 053個句子,人工標注優美與否,作為測試語料,其中被標注為優美的句子共3 990句(占比18.95%)。我們請兩個標注人員背靠背標注,Kappa值為0.87。
此外,我們還從互聯網爬取中學生作文,共計約139萬篇,用于訓練詞向量。我們采用skip-gram的方法[39]進行訓練。
3.1.2作文評分數據
為了評價優美句子特征對于作文自動評分的影響,本文選取了三次中學生語文考試的作文來測試,數據包括原始試卷圖片以及對應的人工評分。我們首先采用手寫漢字識別技術將試卷圖片中的作文內容識別出來,轉換為文本,然后再基于文本內容進行自動評分。三次考試評分數據的基本情況如表2所示。

表2 作文自動評分數據情況
我們采用準確率、召回率和F1值作為優美句子識別的評價指標。
對于作文評分,我們采取如下指標:
(1) 一致率: 計算機評分和現場評分(這里將評分現場的人工評分簡稱為“現場評分”)之間的分差在一定范圍內視為評分一致(按照語文作文的評分慣例,一般取滿分的10%作為閾值),在雙評閱卷中不一致的作文須第三人復評,以保證評分的準確性。一致率的比例也可反映出將來實施人機雙評后復評率的高低。
(2) 平均分差: 計算機評分和現場評分之間的分差的平均值,反映評分之間分差大小。
(3) 相關度: 計算機評分與現場評分之間的皮爾遜相關系數(式8),其中X和Y表示計算機評分和現場評分兩個序列,cov(X,Y)表示X和Y的協方差,σX表示X的標準差,σY表示Y的標準差。
(8)
(4) 仲裁勝率: 對于計算機評分和現場評分不一致的作文,我們隨機抽取部分由專家精評,以專家評分為標準來評判現場評分和計算機評分的準確性。當計算機評分和仲裁分一致,并且現場評分和仲裁分不一致時,則計算機評分更接近于仲裁分,視為計算機評分勝,反之則現場評分勝,如表3所示。

表3 仲裁評分定義表
我們首先對不同的優美句子識別方法進行了對比分析,然后將優美句子特征用于作文自動評分任務,分析其作用。
3.3.1優美句子識別結果對比
在優美句子識別任務中,我們比較了經典的基于特征工程的分類方法與深度神經網絡方法,經典分類方法包括邏輯回歸(logistic)、最大熵、支持向量機,神經網絡方法包括前面介紹的CNN、Bi-LSTM以及本文提出的混合神經網絡方法。基于特征工程的方法所使用的特征為句子中所有詞向量(embedding)的平均值。
由表4可見,在優美句子識別任務上,神經網絡的表現均比傳統統計分類方法好。其中,BiLSTM的召回率和F1值最好,混合神經網絡(CNN+Bi-LSTM)的準確率最高,F1值與BiLSTM相當。表4最后一行為多人人工標注結果的平均指標。

表4 優美句子識別對比結果
混合神經網絡的召回率不如BiLSTM,可能的原因是參數更多,所需的訓練數據更多,本文中的訓練數據量可能不足以支持其充分訓練。后續工作中可嘗試標注更多的訓練數據驗證。然而,在某些準確率要求較高的場景,比如作文自動批改場景中,模擬老師劃出文中最亮點的句子,而并不要求全部劃出,混合神經網絡的結果更符合實用要求。
3.3.2優美句子識別結果分析
我們期望分析優美句子識別模型到底捕捉到了什么樣的特征,使其具備區分句子是否優美的能力。但神經網絡模型的中間結果難以被直觀解釋,于是我們采用間接分析的方法,通過修改句子觀察模型輸出結果的變化,來推測神經網絡模型起作用的模型。
如表5所示,我們嘗試將優美句子中的一些內容替換掉或刪除,或者將句式改變,觀察模型預測概率的變化。當我們將生動的描述性詞匯(或成語、短句)替換為普通詞匯(或短句),模型輸出的優美概率明顯下降;當我們將詩詞引用替換為意思相同但大白話版的表達,優美概率也大幅下降;當我們將工整的句式修改為普通的句式,優美概率同樣會顯著下降。由此可以間接說明,我們的模型能夠捕捉到作文句子中生動的語言、工整的句式以及古詩詞引用等信息,從而據此判斷句子優美與否,這符合高考作文優美表達的評判標準。
此外,我們還在表6中展示了部分基于混合神經網絡識別正確和識別錯誤的例子。可見我們的方法對于用詞優美考究的句子識別較好,而對于語言普通但蘊含哲理的句子識別較差。

表5 優美句判別結果修改分析示例

表6 基于混合神經網絡的優美句子識別結果示例
究其原因,一方面是由于前一種類型優美句容易被中學生學習和運用,但要寫出蘊含哲理的句子,需要深厚的文化素養和深刻的思考,要做到比較難,這導致訓練語料中前一種類型的句子較多;另一方面,前一種體現在用淺層詞匯上的優美特征較容易獲取和學習,相較于含蓄的富有哲理的句子,優美詞匯和搭配或者明顯的修辭手法,如排比、比喻等,比較容易被神經網絡學習掌握。
3.3.3優美句子特征對于作文評分的影響
在3.1.2節介紹的中學生作文評分數據上,我們基于1.3節介紹的特征進行評分實驗,分別加入優美句子相關的特征,觀察評分效果是否有所提高,實驗結果如表7所示。

表7 優美句子特征對于作文自動評分結果的影響
如表7中結果所示,在基礎特征基礎上增加優美句子特征,可以穩定地改善作文評分的的一致率、平均分差、相關度和仲裁勝率。其中,平均評分一致率提高1.88%,即大分差的比例由8.78%降低到了6.90%,下降21.41%;平均分差縮小0.29分;相關度提高0.02;仲裁勝率提高2.4%。
此外,本文還對2.2節中提出的優美句特征進行了更加詳細的實驗分析。如圖5所示,可見作文中句子優美概率的最大值Fmax和最小值Fmin特征并不有效,可見偶爾的好句子或差句子并不影響評分;其余的特征可以代表整篇作文的語言表達水平,實驗證明這些特征均是有效的。

圖5 優美句子特征詳細對比結果
3.3.4優美句子識別在作文自動批改中的應用
我們還將優美句子識別技術應用于訊飛智學網(http://www.zhixue.com)的作文自動批改系統中,模擬老師劃出文中亮點句子(圖6)。該系統已在北京、安徽等地的部分中學試點應用。

圖6 優美句子在作文自動批改中應用示例
本文提出了面向中學生作文自動評分的優美句識別任務,并對比了CNN、BiLSTM和混合神經網絡等方法。實驗證明,BiLSTM獲得了最佳的F1值75.45%,卷積和循環混合神經網絡的準確率最高,達到89.23%,F1值與BiLSTM相當,達到75.39%。通過間接分析發現,本文提出的模型可以捕捉到作文句子中生動的語言、工整的句式及古詩詞引用等信息,從而據此判斷句子優美與否。另外,本文將優美句子特征用于作文自動評分任務,實驗結果顯示,反映整篇作文語言水平的優美句子特征可以有效提高作文自動評分的各項指標。在未來工作中,我們將繼續探索新方法,進一步提高優美句子識別的效果,并探索更多評估中學生語言表達能力的方法,提高作文自動評分的精度,可以使計算機評分和人工評分的大分差比例下降21.41%。