摘要: 智能寫作評價是指使用計算機等現代技術對作文進行自動化評價的系統。隨著計算機及人工智能領域關鍵技術的不斷突破,國外智能寫作評價系統的發展和應用已進入深水區。通過對國外相對成熟的寫作評分系統的介紹與分析,文章對中文智能寫作評價系統的關鍵詞提取技術、神經網絡模型、語料庫進行分析和介紹,指出我國中文智能寫作評價面臨的困難,并對智能寫作評價系統的發展與優化進行思考。
關鍵詞:人工智能;寫作評價;中文寫作;技術進展
寫作評價指評價者依據一定的目標和標準,對寫作過程和結果進行價值判斷的過程。智能寫作評價又叫“自動作文評分”(automated essay scoring,AES),屬于“基于自然語言應用處理的教育評價方法”[1]。它是指使用計算機等現代技術對作文進行自動化評價的系統,在國外始于20世紀60年代,發展到今天已經相對成熟。但由于漢語寫作的特殊性和復雜性,中文智能寫作評價仍存在語義理解不準確、評分細則不清晰、評分系統不完善等問題。本文擬介紹國外主流智能寫作評價系統以及中文寫作評價關鍵技術進展,并對我國中文智能寫作評價的發展進行思考。
一、國外智能寫作評價系統發展概述
目前,國外著名的自動作文評價系統主要有四種:PEG(project essay grade)、E-rater、IntelliMetric、IEA(the intelligent essay assessor)[2]。它們有一些共同的特點:一般是先構建評分操作模型,確定一組可度量的特性;然后對這些特征建模,使其生成最大化分數,并與一些外部標準形成對應關系;最后,使用單獨的數據集進行模型測試和驗證,以檢查模型性能和模型的通用性并對其微調。當模型顯示出在不同的真實數據集間有評分一致性和準確性的水平,它便可以使用。
(一)PEG:由關注文本表層特征到關注復雜文本特征
PEG是埃利斯·佩奇(Ellis Page)等人于1966年應美國大學委員會請求而研發的第一個自動作文評價系統,其目的是使大規模寫作評分更加實際而高效。早期版本主要關注文章可量化的淺層語言學特征,基本不涉及內容評判。修訂版于20世紀90年代發布,開始使用自然語言處理工具,如語法檢查器和詞性標記語,能夠關注更豐富和更復雜的文本特性,更能顯示作者潛在的寫作能力。
(二)E-rater:通過文本與數據庫信息匹配進行評價
E-rater是由美國教育考試服務中心(ETS)于1998年開發的專用智能寫作評價系統。它依賴自然語言處理(NLP)和信息檢索(IR)提取文本特征的技術,如應用標準化(單詞)頻率指數,使用基于向量空間模型的內容向量分析來評估主題寫作內容,根據語篇分類圖式和非詞匯句法結構線索表示術語,對于文本相關信息進行標簽匹配,結合ETS的數據庫審核考生的寫作質量。目前,主要考查學生作文的五大方面,即文章組織和發展、語法、用詞、格式、語言風格。
(三)IntelliMetric:首個廣泛使用人工智能技術的作文評分軟件
它由卓越學習公司(Vantage Learning)于1998年發布,充分模擬人工評分過程,不斷通過人工校正其自動給分點,通過分析給分點之間的聚合關系,模擬人工從整體上評判作文的過程。它首先對給分點(包括主要的、次要的、聚群的和分散的)進行標記賦值,之后使用神經合成方法訓練系統獲取評分規則,建立評分模型,并使用專利技術減小誤差。據說這是一個關注文章類型、構造等整體模式進行評分的系統,能夠達到令人滿意的高匹配的評閱結果。
(四)IEA:強調事實意義和內容評價
IEA是在1998年由美國培生知識分析技術公司(KAT)基于潛在語義分析技術開發的。潛在語義分析是指一種用于文本索引和信息提取的復雜統計技術,2004年被培生(PTE)英語學術考試用來為學生的書面回答打分。
目前可用的四個AES系統中,IEA是唯一聲稱可以基于語義內容測量事實知識和意義的寫作評估系統,評價內容時優先考慮其事實意義的重要性。
其他智能寫作評價系統還有加州測試局設計的Bookette、美國研制的AutoScore、BETSY貝葉斯作文評分系統等。
現有的智能寫作評價系統多采用多種屬性來描述文章的特征,一般包括語法、書寫規范、詞匯復雜性、風格、組織和內容的發展,使用的主要方法是自然語言處理(NLP),如詞性標注(POS)、句法分析、句子碎片化、話語分割、命名實體識別、內容向量分析(CVA)等。評價文章語義的主要分析方法有潛在語義分析(LSA)、潛在狄克雷分配(LDA)和內容向量分析(CVA)[3]。
上述智能寫作評價系統大多采用潛在語義分析技術,它是一種推理語義的機器學習方法。現今,英語智能寫作評價系統早已商用并有大量實驗數據支撐,但仍存在兩個爭議:一是文章的整體質量取決于哪些重要內容;二是機器能否用來把握文章內容的意義。這同樣是中文智能寫作評價系統需要問答的問題。
二、我國漢語智能寫作評價技術進展
教育部考試中心于1998年和1999年先后邀請美國ETS和英國劍橋大學考試委員會的專家來華,介紹他們網上評卷和軟件及自動評卷系統,希望能夠改進我國的自動評分現狀。技術的發展,也使智能寫作評價系統的開發成為可能。關鍵詞句提取技術、智能評價系統中的人工智能、大規模語料庫的發展與完善,是智能寫作評價系統成功開發的前提。使用智能系統輔助人工教學及評價是未來教育的發展趨勢,相關技術與理論的發展、支持必定是重要的推動器。
(一)中文智能寫作評分實踐介紹
寫作自動評分系統開始時更多適合于英語,對于類似中文、日文等黏著性語言,開發寫作自動評分系統多了一重困難,即如何將單詞正確地細分到最小單位——詞素,以便提取量化文章特征。隨著計算機自然語言處理研究的發展,目前已開發出比較成熟的計算機工具來完成分詞工作,為這一問題提供了解決方法。
中文寫作自動評分研究業已起步,部分學者開始大膽嘗試,主要體現在兩個方面:一是積極關注和介紹英文寫作自動評分系統,借鑒學習它的理論和方法;二是開展嘗試性研究,對各種中文寫作自動評分的方法進行實踐驗證,探索開發中文寫作評分系統的可能性[4]。
1.中文作文智能評測系統及漢語寫作教學綜合智能訓練系統
由中國語言智能研究中心等機構在北京聯合發布的中文作文智能評測系統及漢語寫作教學綜合智能訓練系統根據學習類型可分為三部分:基于打分、評級、糾錯等功能,從語料庫中挖掘打分細則、評級參數、常規范式,使得作文批改更客觀、科學;將作文導入漢語作文智能評測系統;系統借助語言大數據,自動評級、打分、糾錯,提供范例,對作文進行批閱[5]。
2.漢語測試電子評分員
國內一些學者也開始了實證研究方面的嘗試。如張晉軍等提出“漢語測試電子評分員”的設想,并進行了實驗檢驗,隨機選取700份中國少數民族漢語水平等級考試(MHK)三級作文預測卷,并編寫程序對這些作文進行評分,最后將人工評分和電子評分員的自動評分結果進行比較,發現電子評分員與人工評分的一致性達到較高水平,相關度為0.842。
3.中文寫作自動化評分系統(ACES)
中國臺灣學者林素穗等對非同步式網絡教學評價進行研究,設計出漢語作文自動評分程序。該程序是從語法層面,通過提取學生作文中的字詞進行評價,沒有語意分析的成分,使用的是向量空間模型評分方法,但未見報道實驗進程和結果。最近中國臺灣研發出一套中文寫作自動化評分系統(ACES),能自動分析初中基準測試考生的作文程度,并給予6個等級的評分。
4.智能評價系統實驗
陳一樂針對智能化的中文寫作評價系統進行實驗,包括以下一些要點:第一,構建一個盡可能龐大詳細的語料資源庫,涵蓋和高考語文作文相關的諸多語料,對這些語料去雜、標注、分類以及整理;第二,找到合理的評價方式評判系統的效果;第三,找到影響中文寫作評分的關鍵淺層語言特征,包括變換的長度特征、詞匯豐富度特征、段落特征;第四,探索能表征文章的深層語言特征,包括情感詞特征、引用特征、篇章特征;第五,深度學習相關方法,試圖以自動表示文章特征而非啟發的方式進行有選擇性的人工發現、抽取[6]。
通過分析我國目前智能寫作評價系統發展,可以看到自動評分研究正努力朝著語義分析的方向發展,真正做到對語義的理解還要得到認知科學的大力支持。未來智能寫作評分研究中關于認知過程的研究成分會逐漸加大,注重寫作評價的心理過程將成為研究發展方向。
(二)漢語寫作智能評價的關鍵性技術
1.關鍵詞句提取技術
關鍵詞句提取在文本處理的許多領域如文本聚類、文本摘要和信息檢索中都是一項重要技術。當下,關鍵詞句提取技術更是在NLP領域有著重要地位。目前,文本處理領域主要有基于隱含主題模型(LDA)、基于TFIDF詞頻統計和基于詞圖模型的三種關鍵詞句提取技術。
(1)詞匯及語句:蔡黎等提出了一種用文本中所有詞語的使用難度系數之和作為寫作水平特征的計算方法。彭星源等提出了一個假設以文本中所有詞匯得分之和為文本總分為前提的計算方程[7]。語句層面,有人提出通過與詞語搭配提取進行語法識別,并根據句長以及語句包含詞語難度進行簡單的難度特征分析。這些計算方法和程式主要考慮到文本中詞句選用的難度及匹配度,而對于深層次詞語的靈活使用以及詞語、語句的創意表達等較為個性化的寫作手法,智能寫作還未能完全顧及。這也是智能寫作評價系統不能完全取代人工評判的原因之一。
(2)修辭手法:有學者基于形式規則的方法,結合排比句位置、結構和標點等特征,設計了一系列關于排比句的識別和篩選算法[8]。陳一樂使用倒排索引結構抽取出候選引用句,再結合模糊匹配(動態規劃)的算法對引用進行判別[9]。鞏捷甫對引用資源語料庫的構建和引用特征的查找識別等工作進行完善和豐富,嘗試使用深度學習方法解決文章中包含比喻、擬人手法的語句自動識別[10]。比喻、排比、擬人、引用這些寫作手法常用于我們平時的寫作訓練,一定程度上更加適合中小學常見的語句訓練,為進一步的修辭手法分析、計算提供了可能。
(3)主旨或中心論點:當前,語言分析處理認為關鍵詞代表文本主題。蔡黎等使用Text Rank 結合詞頻 TF(term frequency)計算主題特征值;劉明楊在此基礎上采用無監督的LDA(latent dirichlet allocation)主題模型輸出文章的主題關鍵詞;鞏捷甫結合訓練LDA產生的模型矩陣和詞向量的方法進行主題詞的擴展;等等[11]。大部分學者分析主旨和中心論點時采用了提取主題詞這一方法,這對于主題明顯、簡練的議論文和說明文有一定的實踐價值,但對于記敘文或抒情散文等主題詞較為隱晦的文章可能需要進一步的設想和建構。
(4)語義特征:有學者借助HowNet提出一種基于文學義素特征的智能寫作評價方法,并將段落間的概念關系融入其中。王耀華等提出了兩種文本語義離散度特征表示方法——“基于距離”“基于中心”,并使用統計和神經網絡模型獲得這兩項特征的向量化表示[12]。語義特征的計算與分析能對文本整體的段落布局與整體思想內容的表達進行評判,這對于分析文章的整體思路布局有一定的幫助。
2.基于深度學習的神經網絡模型
近年來,自然語言處理領域基于深度學習的神經網絡模型建構取得很大進展。作為模型輸入的詞向量訓練最常用的方法有Word2vec以及 Glove 等,在大規模語料中通過目標詞和上下文詞語的共現訓練得到詞向量[13]。鞏捷甫嘗試使用深度學習方法解決文章中包含比喻、擬人修辭手法的語句自動識別,借助Word2vec、循環神經網絡RNN訓練出二元分類模型。語言處理領域內的神經網絡模型建構成功與否,大概率就決定中文智能寫作評分系統能否成功應用。
3.語料庫開發是智能寫作評價的基礎
語料庫是指按一定原則取樣獲得的大規模電子文本匯集,語料庫軟件包括詞匯索引工具、自動和人工標注工具、文本整理工具、口語轉寫工具、統計分析工具等[14]。Hownet是一個中文語義知識庫,其重要的工作是義原的歸納和總結。義原是最基本、不易再分割的意義最小單位,每個詞語都可由一個或若干義原來表示[15]。因此,諸如Hownet等中文語料庫的開發是中文智能寫作評價系統的重要基石。
三、漢語智能寫作評價存在的問題
由于中文在語音、詞匯及語法等方面與英語有著很大差別,其智能寫作評價在語言處理及模型建構方面還存在很多問題。
(一)詞句識別困難
漢語字詞無明確的分離符號,需要聯系上下文自行理解,且存在二字、四字或多字詞語。漢語處理首先要識別詞語,這是智能語義信息處理的一項基礎工作。它不僅要識別常用詞語、短句,還要注意一詞多義、詞語的特殊用法以及語句因斷句產生的歧義和新詞識別等實際困難。
(二)語法類型較多
中文存在某些特定的語法形態,如意合類較為抽象的語法識別,涉及語境、上下文理解等問題。在寫作文本中,往往出現特殊形式的語法結構,這需要智能寫作評價系統基于大量真實的文本進行分析與識別,才能真正從技術層面分析和處理漢語語法的各種類型。
(三)語義分析復雜
中文詞匯及短語類型中,一詞多義、同音、同義、近義、歇后語等現象較為常見,這就給語義分析帶來不小的困難。在整體篇章及結構架設層面,中文寫作語義的理解分析涉及更多的引經據典、詞義蘊含省略、行文思路以及情節構思等問題,語義理解更為復雜。這更需要構建智能寫作評價系統時從學生實際出發,具體分析。
(四)實際應用缺乏驗證
2020年底,有媒體報道部分省市在高考等考試中已經開始針對語文作文等主觀性命題引入機器閱卷[16],這傳達出智能寫作評價已有重大進展。但隨后也有媒體發聲認為人工智能評判作文還不夠“資格”[17]。這正是智能寫作評價面臨的兩難局面。實際應用中,還應考慮寫作個性化以及多樣化的問題,這樣才能更好地基于不同文本進行寫作評價。
(五)適用效果有待驗證
正是因為智能化寫作評價發展進程中還有亟待解決的難題,其真實的評價效率及準確性等需要進一步分析,貿然應用可能得到的結果并不完全有效。今后,對不同年級、不同寫作體裁和類型的文本,還應分別進行可行性驗證,這樣才能確保智能寫作評價的真實性和有效性。
四、對漢語智能寫作評價的建議
(一)盡快成立漢語寫作智能評價專門機構,開展研究和通力合作
智能寫作評價是一項涉及很多學科領域、需要通力協作的系統工程,首先,國家要給予高度重視,成立專門機構,開展基礎研究。比如,建設一個數量龐大且資源詳細的語料資源庫,并對大量的語料文件進行整理分析、逐項特征提取,分類進行語言處理,這很可能是一個基礎工作。其次,基于深度學習技術、神經網絡模型、人工智能技術等,對漢語作文的語義結構、情感風格、內容旨意進行具體和擬人化分析。再次,設計合理、有效的評分標準細則,涵蓋基礎技能考查及發展能力評價。最后,根據分數進行反向考量,對其評分做出具體反饋,給出得分。每一步都充滿艱辛,需要依托各項技術的發展及革新。
(二)積極開展實驗研究,不斷開展技術攻關
漢語智能寫作評價是一個新生事物,也是一項龐大及持續性較長的工作,需要有專業知識的人才,開展專項核心關鍵技術研究與攻關。現今開發智能寫作評價系統需要考慮的問題主要有:科學合理的評價指標體系;可應用的詞句識別技術;合理的評價模型;適當的計算、統計方法;深度融合的機器學習、人工智能等技術的發展。這些技術、理論的成功開發和應用,才會為漢語智能寫作評價系統的更好發展帶來可能。這對中國的語文教育和考試評價、減輕教師批改作文的負擔、我國漢語教育科學化與智能化建設、提高我國軟實力都具有極其重要的意義。
(三)大力開展循證實踐研究,不斷提升漢語智能寫作評價水平
現階段,對于智能寫作評價的大規模實踐驗證分析獲得的經驗數據還不夠豐富,仍需要不斷開展循證實踐。這種循證實踐不僅包括作文客觀的語篇指標(如內容、結構、語言等),還包括文體類型的識別、評價的價值取向設定等。這種評價很可能不僅僅是基于大數據統計的人工智能式判斷,因為價值判斷是一個主觀甚至個性化的事物。中文智能寫作評價更加復雜,其真正落地應用任重而道遠。
參考文獻
[1] Kenton W. Murray,Naoki Orii.Automatic Essay Scoring[M]. Lawrence Erlbaum Associates,London,2003.
[2] Kaja Zupanc, Zoran Bosnic.Advances in the Field of Automated Essay Evaluation[J].Informatica,2015:383-395.
[3] 曹亦薇,楊晨.使用潛語義分析的漢語作文自動評分研究[J].考試研究,2007(1):63-71.
[4] 楊晨,曹亦薇.作文自動評分的現狀與展望[J].中學語文教學,2012(3):78-80.
[5] 段栩雯.漢語作文自動評級、打分和糾錯智能評測系統發布[J].江西教育,2017(14):25.
[6][9]陳一樂.基于回歸分析的中文作文自動評分技術研究[D].哈爾濱工業大學,2016.
[7][8]吳恩慈,田俊華.漢語作文自動評價及其關鍵技術——來自作文自動評價(AEE)的經驗[J].教育測量與評價,2019(8): 45-54.
[10]馬創新,梁社會.面向語言分析的語料庫技術平臺建設[J].智能計算機與應用,2019,9(4):100-103.
[11]周錦章,崔曉暉.基于詞向量與TextRank的關鍵詞提取方法[J].計算機應用研究,2019,36(4):1051-1054.
[12]李紀扣,韓建宇,王嫄.基于相似度融合算法的主觀題自動閱卷機制[J].天津科技大學學報,2019,34(1):76-80.
[13]高思丹,袁春風.語句相似度計算在主觀題自動批改技術中的初步應用[J].計算機工程與應用,2004(14):132-135.
[14]張仰森,鄭佳,李佳媛.一種基于語義關系圖的詞語語義相關度計算模型[J].自動化學報,2018,44(1):87-98.
[15]陳洋,羅智勇.一種基于Hownet的詞向量表示方法[J].北京大學學報(自然科學版),2019,55(1):22-28.
[16]9省高考針對語文、英語作文等主觀性命題引入機器閱卷[EB/OL].https://www.thepaper.cn/newsDetail_forward_10374752.
[17]人工智能判作文還不夠“資格”[EB/OL].https://news.cctv.com/2021/01/04/ARTImmyqtw5mhvkHtP4dnN9I210104.shtml.
(作者榮維東系西南大學教師教育學院教授、博士生導師;李自然系廣東省深圳市寶安區龍騰小學教師)
責任編輯:孫建輝