





摘 要:簡答題自動評分(ASAG)是智慧教育中的一個重要研究方向,解決該問題主要著眼于如何從參考答案、評分標準和學生作答信息中提取用來對比、評分的特征,通過構建模型和優化評估指標得到合理的學生作答評分。其中數據預處理和構建模型階段多采用自然語言處理技術(NLP),近年來出現了以機器學習為主導的特點。文章綜合梳理了ASAG的研究和發展,首先梳理、歸納出ASAG的五種解決方案,重點對基于機器學習的ASAG解決方法進行了總結,分析了中文、英文實現ASAG的區別,以及各方案關注點和相關主流算法;其次對比了ASAG主要算法特征以及它們在典型數據集上的效果;最后闡述了簡答題自動評分研究面臨的問題和挑戰,以及未來的發展趨勢。
關鍵詞:簡答題自動評分;自然語言處理;機器學習;智慧教育
中圖分類號:TP391;TP18 文獻標識碼:A 文章編號:2096-4706(2024)14-0013-08
A Review of the Development of Machine Learning in Solving Automatic Scoring Problems for Short Answer Questions
XU Jining, HUANG Nan, GONG Bo
(School of Electrical and Control Engineering, North China University of Technology, Beijing 100144, China)
Abstract: Automatic Short Answer Grading (ASAG) is an important research direction in smart education, which focuses on how to extract features for comparison and grading from reference answers, grading criteria and student response information, and to obtain reasonable grading for student response by building models and optimizing assessment metrics. Natural Language Processing (NLP) is mostly used in the stages of data pre-processing and model building, and Machine Learning has emerged as a mainstream in recent years. It comprehensively summarizes the research and development for ASAG. Firstly, five solutions of ASAG are sorted out and summarized, a focused summary of Machine Learning based on ASAG solutions is presented, the differences between Chinese and English implementations of ASAG is analyzed, and the concerns of each solution and relevant mainstream algorithms are compared and summarized. Then, it compares the main algorithm features of ASAG and their effectiveness on typical datasets. Finally, the current problems and challenges faced by the research on ASAG and the future trends are described.
Keywords: ASAG; Natural Language Processing; Machine Learning; smart education
DOI:10.19850/j.cnki.2096-4706.2024.14.004
收稿日期:2024-01-04
基金項目:北京市教委北京市數字教育研究重點課題(BDEC2022619001)
0 引 言
國務院于2017年、2019年分別印發的《國家教育事業發展“十三五”規劃》《中國教育現代化2035》提出要借助信息技術,大力開展實施智能教育[1]。自動評分是智慧教育領域的一項重要研究任務,簡答題是主觀題評價中的常見環節。近年來,國內外學者圍繞簡答題自動評分(Automatic Short Answer Grading, ASAG)問題進行了多種方法的研究,探索如何更客觀準確地對學生作答進行評分,研究涉及語義分析、深度神經網絡、知識圖譜等技術。本文收集整理了59篇解決ASAG問題的國內外相關文獻,對ASAG的研究方法、發展情況、相關算法做了梳理分析,重點關注了基于機器學習的解決方法,并歸納出現階段ASGA中存在的問題和未來發展趨勢。
1 簡答題自動評分研究現狀
1.1 技術發展歷史和特征
迄今為止,ASAG的5類解決方案及其各自主要關注點總結如表1所示。
ASAG系統最早可追溯到1966年Delta發表的論文,開啟了自然語言文本自動評分的研究領域[2]。
ASAG數據預處理和自然語言處理(Natural Language Processing, NLP)技術的發展緊密相關,從早期利用字符串檢索,到人工構建近義詞詞林,逐步發展到最新的基于語音相似度統計計算的階段[3]。最早出現的是One-Hot獨熱編碼形式,即用一個向量表示單個詞,作為詞匯的特征,該方法為詞向量的出現埋下了伏筆[4]。隨后Google中的研究團隊提出了一些基于空間向量的編碼方式,如2013年,Mikolov等的Word2Vec詞向量模型[5];2017年由Vaswani等人提出的Transformer模型[6],以及2019由Devlin提出的當下NLP領域最為流行的BERT(Bidirectional Encoder Representations from Transformers)模型[7]。BERT模型將Transformer模型進行堆疊并引入雙向編碼技術,在NLP語句編碼中取得優秀成果。
簡答題自動評分的基本思路可歸納為圖1所示流程,首先從學生作答和參考答案中分別提取特征,再進行相似度對比,其核心是提取用于對比內容的特征。提取兩文本特征的方法主要有:概念圖、詞袋法、抽離出三元組結構對比、抽離文本向量等(神經網絡可視為文本的encoder抽取文本特征);相似度對比方面,常用cos相似度、sim相似度、Frobenius范數等[8-15]進行對比。
鑒于中文和拼音文字的不同特點,下面就ASAG的國內外發展予以綜述分析。由于國內對ASAG的研究晚于國外,所以采用先國外后國內的順序,最后列舉出中英文在實現ASAG時的區別。
1.2 國外研究現狀
國外學者主要使用概念圖(Concept Mappings)、信息抽?。↖nformation Extraction, IE)、語料庫(Corpus-based Methods)、信息檢索(Information Retrieval, IR)以及機器學習(Machine Learning)方法[16]。
概念圖技術最早,在1996年Burstein提出將簡答題作答內容映射成為概念,通過概念或概念關系與標準答案進行匹配[7]。在此基礎上,Caller與Leacock分別于2001和2003年開發了Automatic Text Marker(ATM)與C-Rater算法[17-18]。
信息抽取技術通過模板搜索和建模對文本信息進行抽取和匹配,從文本等非結構化數據中抽取結構化數據表示為元組以供在眾多領域中使用[19]。Mitchell、Thomas在2002到2003年使用了IE中的語法樹作為評分方法[20-21]。2007年Sima提出利用人工標注與分模式匹配的eMax算法進行評分[22]。2011年Cutrone利用詞袋進行計算匹配率對作答內容進行評分[23]。2012年Hahn用LRS模型將參考答案和作答內容構成圖(Graph)的形式作為對比評分依據[24]。2015年Sahu利用語義、單詞重疊等多種特征的綜合相似度作為評分依據[25]。2018年Ratna提取文本的對比依據是利用Winnowing算法生成一組最小哈?;蛑讣y作為輸出的文本[26]。2019年Basak利用識別文本蘊含RTE(Recognizing Textual Entailment)從內容中抽取三元組進行結構對比[27]。
基于語料庫實現ASAG大多通過統計學手段抽離詞袋模型,計算參考答案和作答內容的相似程度,如在2004年Diab與Alfonseca基于語言模型N-Gram標準化長度樣本和詞義重疊率計算相似率值,并在評價指標上使用不同變體[28-29]。2020年Süzen使用BW單詞袋模型,從文檔集合提取獨特單詞轉化為單詞頻率向量來表示文本特征[30]。
信息檢索(IR)技術應用于ASAG問題,早期通過英文單詞或者中文字符串匹配的方式進行評分。如今信息檢索領域常用算法是潛在語義分析LSA(Latent Semantic Analysis),利用矩陣分解基于話題挖掘文本語義關系,表示單詞-文本矩陣并奇異值分解,以得到的主題詞向量空間代表整個文本。在2011年Klein用LSA分析參考答案和作答內容的潛在語義[31]。2017年Pribadi使用單詞重疊法來衡量參考答案與作答間的相似度[9]。2018年Hasanah采用了與Pribadi相同度量相似度的方法,但數據預處理環節使用了多種方法[32]。2019年Ratna用聚類算法K-means判斷作答是否符合題意,再用LSA將文本提取用于對比的特征[10]。
基于機器學習的ASAG,早期受算力和NLP技術等限制,主要通過SVM和決策樹等分類與回歸算法對簡答題進行評分[16]。近年來隨著深度神經網絡技術的成熟,機器學習可以彌補早期技術提取文本特征維數不夠的問題,擅長處理序列信息的RNN(Recurrent Neural Network)網絡,及LSTM(Long Short-Term Memory)循環神經網絡模型、GRU(Gate Recurrent Unit)等均有應用。從2017年開始,BERT和Transformer等預訓練模型開始用于解決ASAG問題。
機器學習方法的常見思路是用神經網絡作為對比內容的特征編碼器,從而輸出對比向量。2018年Prabhudesai用BiLSTM(Bi-directional Long Short-Term Memory)神經網絡對簡答題進行評分[33]。同年,Ye用堆疊多層LSTM形成編碼器,將文本編碼成向量作為相似度比較依據[34]。基于LSTM的孿生神經網絡MaLSTM(Manha?anLSTM)被用于多輸入和單輸出的場景,如文本相似度檢驗、人臉識別等[35]。2021年Tulu提出基于同義詞集的詞嵌入方法SemSpace,將上下文嵌入,利用MaLSTM將作答和參考答案在隱藏層中轉化為向量,用曼哈頓距離計算相似度[36]。2022年,Sawatzki基于北得克薩斯大學的短答案評分數據集進行實驗,將BERT模型與基于Ans2vec方法建立特征提取架構,再對比特征轉換進行特征融合后,輸入線性模型的解決方案進行了對比,發現BERT模型對英語和德語表現最好[37]。同年,Garg提出改進的帶余弦相似性的問答BERT模型[11]。2020年Gomaa使用Ans2vec模型提取Skip-thought向量[38]。同年,Zhang引入DBN(Deep Belief Network)神經網絡解決問題,由分層預訓練優化參數[12]。
上述研究中,BERT模型在ASAG預處理中的表現尤為值得關注。因為它結構上分為預訓練與下游任務微調兩部分,預訓練部分主要對語句進行雙向編碼,不同語言均可使用不同的預訓練模型編碼成相對統一的句向量形式。這使得ASAG在數據預處理階段之后能獲得相對統一的數據形式,使得不同語言的ASAG在建模、評分以及模型評估這幾個階段存在相互借鑒的可能性。
此外,一些學者引入關系網絡或者圖譜解決問題,2021年Li提出SFRN算法(Semantic Feature-wise transformation Relation Network),用基于語義特征的轉換關系網絡來學習,將問題Q、參考答案R、作答A構成向量三元組。編碼器對QRA三元組各分量編碼,作為相似度計算依據[39]。2022年Agarwal提出多關系圖轉換器MitiGaTe(Multi-Relational Graph Transformer)融入評分依據的結構性因素,將文本解析為圖的形式作為分數依據。在英文Mohler數據集上MitiGaTe模型以0.762的均方根誤差優于其他對比模型[40]。算法優化方面,2021年Sahani使用并行LSTM,使用不同特征向量考察不同指標[41]。
1.3 中文ASAG研究現狀
由于中文不像英文有單詞的天然分隔,在分詞方面,中文簡答題評分難度高于英文。早期中文ASAG在數據預處理階段通常要將句子拆分成多個詞,再利用概念圖、信息檢索、信息抽取等方法計算相似度。
基于信息抽取方法,2012年程傳鵬抽取參考答案和作答的關鍵詞形成二部圖,并使用同義詞詞林計算二者之間詞語的相似度[42]。2019年王逸凡使用基于命名實體識別的關鍵詞提取方法以及基于同義詞詞林的詞語相似度分析[43]。
基于信息檢索方法,2007年田緒安等采用基于字符串的關鍵詞模糊匹配的方法,不同于英文文本的詞檢索,使用的是對正文單字或字段進行檢索[44]。2017年楚尚武使用LDA(Latent Dirichlet Allocation)模型計算參考答案和學生作答的主題分布相似度[45]。2018年姚洪發采用jieba分詞工具做文本預處理,用TF-IDF及LSA提取文本特征作為相似度度量基礎[46]。
近五年國內學者的研究主要集中在用機器學習的深度學習技術構建模型,從而提取作答和參考答案的特征。2019年李冰提出深度神經網絡使機器獲得抽象概念能力,可以使主觀題自動閱卷提升準確率[47]。2019年李永丹用簡答題評分模型提取兩種語義特征;利用BERT、BiLSTM及注意力機制提取深層語義特征,淺層特征包括詞匯和句子的特征[48]。羅梟提取關鍵詞,用由BiLSTM、CNN和Attention機制組成網絡架構BiLSTM-CA,SST-1和SST-2數據集實驗中分別取得52.8%和89.7%的正確率[14]。
2020年楊松利用多頭自注意力機制模擬多人主觀判分進行關系抽取,降低了閱卷偏差,將其與BiLSTM網絡結合進行評分,精確率、召回率、F1值均達到了較好的效果[49]。午澤鵬提出了基于注意力機制的Att-Grader模型,通過LSTM網絡將對比特征編碼捕獲語義信息,用CNN網絡獲取局部特征。同時還利用K-means聚類,選擇簇內與其他樣例相似度最高的樣例作為參考答案的補充[50]。王沖提出字符級的RCNN模型,先將作答進行字符級向量嵌入,通過LSTM層和降維處理,輸出類別標簽[51]。2021年郭振鵬使用CNN-BiGRU-CRF模型提升中文分詞的準確性,用非線性加權TF-IDF算法及Word2Vec-CNN算法,計算參考答案和作答的相似度[52]。
在多特征融合計算相似度方面,喬亞男將題型和科目作為相似度的權值[53]。肖靈云綜合文本、語義、關鍵詞3種相似度,利用段落向量訓練方法Doc2vec模型計算文本相似度[54-55]。2022年王金水分別計算專業術語和通用詞語兩種相似度,并綜合考慮句子的詞序、詞形和搭配詞對相似度,三個特征的加權得到結果分數[56]。同年,張展鑫提出利用BERT和互注意力機制提取對比特征,對比相似度時考慮到了關鍵詞和語義,對于關鍵詞組的匹配則使用同義詞詞林[57]。同年錢升華引入孿生網絡,提出孿生BERT模型評分,在編碼層后增加池化層來降低噪聲影響,對比特征使用余弦相似度[15]。
2 ASAG方法歸納和對比
2.1 五種實現方法的特點和局限
基于概念圖的方法在不同學科領域之間遷移時,需要專家對該領域概念進行詞典擴展和持續更新,對人工成本較高,難以大規模使用。
基于語料庫方法是利用通用性的統計學習方法,但需要大型文檔語料庫的支持,且一般詞袋模型都沒有考慮語義或句意,影響后期評分質量。
基于信息抽取的方法是從文本中抽取和提取特定的信息或實體,并將其轉化為結構化的形式化的知識表示,以便后續分析處理。
基于信息檢索的方法是從內容中檢索和尋找,與特定問題或查詢相匹配的文本。該方法對于建模算法有很強的依賴性。
基于機器學習的方法早期利用RNN、LSTM提取對比內容特征。近些年,深度神經網絡彌補了特征維度不足的問題,利用更寬更深的網絡結構挖掘出更多的潛在特征,有效地解決了高維信息難以表示、數據稀疏性、模糊屬性難以提取等問題。該方法在不同學科領域之間遷移能力最強。
2.2 中文、英文實現ASAG的區別
中文和英文ASAG的不同主要體現在預處理階段,其原因在于他們的處理存在如下區別:
1)分詞。中文的單元詞匯邊界較為模糊,缺少英文文本中空格這樣明確的分隔符。
2)詞素/詞元。英文構詞基于詞根和豐富的形態變化,可通過詞形還原(lemmatization)和詞干提?。╯temming)等預處理操作簡化文本;而中文沒有明顯的詞形變換特征,容易造成許多邊界歧義。
3)語法、句法結構。英文句子間的連接關系清晰,語句連接多是從屬結構。中文的句子結構比較松散,靠語義連接而不靠連接詞[58]。在預訓練模型中基于英文訓練集而得到句子位置、句子成分的權重,不能在漢語中發揮相應的效果。
4)多義性。中文存在多義性、句式復雜表達靈活、省略多等特點。語境比英文更加復雜,同一詞語在不同領域中表示意思不同,同種語義也可存在多種表達形式。
3 ASAG應用算法總結
3.1 機器學習技術實現ASAG的流程
機器學習ASAG實現流程包括建立數據集、數據預處理、提取對比特征的模型、得到測試集預測結果以及模型評估[59] 5部分,如圖2所示。目前主要采用的機器學習技術是深度學習。
3.2 深度學習解決ASAG部分算法對比
信息檢索、深度學習是研究主流和熱點。所以將這兩種ASAG解決方案的算法思路特點進行對比整理,分別于表2和表3中呈現。
3.3 評價指標
評估模型預測與真實值之間的相關性和差異性的常見評價指標如下:
1)皮爾遜相關系數Pearson、平均絕對誤差MAE和均方根誤差RMSE。有些論文對比時只選兩個。
2)準確率(A)、Kappa系數:準確率評估簡答題自動評分模型的準確性,計算式如式(1)。其中,M1表示標注得分,M2表示模型得分,MTSQ表示題目總分(Total Score Of The Question)。
(1)
在文本分類中也常用Kappa系數作為評價指標,Kappa系數可以衡量預測結果與實際結果的一致性,它取值范圍一般在-1到1之間。
3)精確率(Precision)、召回率(Recall)、F1值:精確率評估模型的查準率,即正確分類的樣本在所有測試樣本中所占的比例。召回率是評估模型的查全率,F1值是綜合考慮準確率和召回率。
3.4 不同算法在典型數據集的效果對比
國外主要研究算法效果在數據集上的實驗對比匯總如表4、表5所示。表4是Ans2vec與BERT在公共數據集(University of North Texas)上的英語ASAG對比實驗,結果發現BERT-EN提供了最好結果[37]。表5為各模型在公共數據集(Mohler ASAG dataset)上對比結果,其中,SemSpace與MaLSTM網絡的解決方案效果非常突出,證實了孿生網絡解決ASAG問題的可靠性[36,11]。國內學者羅梟在SST-1和SST-2數據集上對常見模型算法進行實驗對比驗證,結果如表6所示[14]。
4 ASAG研究面臨問題和挑戰
現階段簡答題自動評分一些難點亟待解決,一是使用語義匹配的評分缺乏解釋性,無法確定得分與被考查知識的關系。二是對開放式問題的評分方法目前研究較少。
針對上述問題,除了考慮多特征融合計算相似度,還可以增加、擴展簡答題評分相關的考察點,比如引入題干表述、題目類型等;其次可以綜合歐式與非歐式模型各自的分析優勢,進行協同評價。在中文ASAG具體應用中,還存在專項訓練的數據集不足,缺少學科垂直領域的預訓練模型等問題。以后可以引入多模態數據的解決辦法,或者利用ChatGPT等大模型進行評分。
5 結 論
主觀題自動評分是教育領域一直想實現和突破的一個問題,因人工智能、自然語言處理等技術融合的研究仍有待深入,目前讓模型理解復雜和深度語義仍然是一個挑戰,盡管如今大語言模型的語言理解能力有目共睹,但理解復雜的語義、掌握話語中的含義、領會非文字語境等方面,還存在難以覆蓋的問題。這對主觀題評分造成了挑戰,因為學生的答案語義可能復雜并含多重含義。所以想在教學任務中實現中文主觀題自動評分仍是難題。同時對于例如表格等多種作答形式的簡答題自動批改,仍然是領域內的一個棘手問題。本文對五種ASAG解決方案的思路要點和主流算法進行了總結對比,重點分析了最新的機器學習解決方案。特別關注了中文、英文實現ASAG的區別,闡述了常用的評價指標,對深度學習解決ASAG問題的主要算法優缺點以及在公開數據集上的效果對比進行了總結梳理。
隨著技術成熟和發展,未來的教學輔助領域可以引入學習者畫像和知識建模,實施動態的個性化練習題推薦,因材施教;還可以根據學生知識基礎和能力傾向,有針對性的生成適合的試題。以ASAG為代表的主觀題自動批改解決方案的發展和普及是教育教學數字化轉型的重要組成部分,對全面、全流程提高學生自主學習能力和素質有顯著的現實意義。
參考文獻:
[1] 楊琴,蔣志輝,何向陽.智慧教育的緣起、挑戰與發展路向追問 [J].當代教育論壇,2019(6):108-115.
[2] WRESCH W. The Imminence of Grading Essays by Computer—25 Years Later [J].Computers and Composition,1993,10(2):45-58.
[3] 南鉉國.基于語句相似度計算的主觀題自動評分技術研究 [D].延吉:延邊大學,2007.
[4] BENGIO Y,SCHWENK H,SENéCAL J S,et al. Neural Probabilistic Language Models [M]//Holmes D E,Jain L C. Innovations in Machine Learning,[S.I.]:Springer-Verlag,2006:137-186.
[5] MIKOLOV T,CHEN K,CORRADO G,et al. Efficient Estimation of Word Representations in Vector Space [J/OL].arXiv:1301.3781 [cs.CL].[2023-12-06].https://arxiv.org/abs/1301.3781v1.
[6] VASWANI A,SHAZEER N,PARMAR N,et al. Attention is All you Need [C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.Long Beach:Curran Associates Inc.,2017:6000-6010.
[7] DEVLIN J,CHANG M W,LEE K,et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [J/OL].arXiv:1810.04805 [cs.CL].[2023-12-06].https://arxiv.org/abs/1810.04805.
[8] RATNA A A P,SANTIAR L,IBRAHIM I,et al. Latent Semantic Analysis and Winnowing Algorithm Based Automatic Japanese Short Essay Answer Grading System Comparative Performance [C]//2019 IEEE 10th International Conference on Awareness Science and Technology.Morioka:IEEE,2019:1-7.
[9] PRIBADI F S,ADJI T B,PERMANASARI A E,et al. Automatic Short Answer Scoring Using Words Overlapping Methods [C]//Proceedings of the 5th International Conference on Education, Concept, and Application of Green Technology.Semarang:AIP Publishing,2017,1818(1):020042.https://doi.org/10.1063/1.4976906.
[10] RATNA A A P,NOVIAINDRIANI R R,SANTIAR L,et al. K-Means Clustering for Answer Categorization on Latent Semantic Analysis Automatic Japanese Short Essay Grading System [C]//2019 16th International Conference on Quality in Research (QIR):International Symposium on Electrical and Computer Engineering.Padang:IEEE,2019:1-5.
[11] GARG J,PAPREJA J,APURVA K,et al. Domain-Specific Hybrid BERT based System for Automatic Short Answer Grading [C]//2022 2nd International Conference on Intelligent Technologies.Hubli:IEEE,2022:1-6.
[12] ZHANG Y,LIN C,CHI M. Going deeper: Automatic Short-Answer Grading by Combining Student and Question Models [J].User Modeling and User-Adapted Interaction,2020,30:51-80.
[13] 梁曉誠,岳曉光,麥范金,等.基于自然語言處理的主觀題評分算法研究 [J].昆明理工大學學報:理工版,2010,35(2):81-84.
[14] 羅梟.基于深度學習的課程主觀題自動判卷技術研究與實現 [D].杭州:浙江農林大學,2019.
[15] 錢升華.基于孿生網絡和BERT模型的主觀題自動評分系統 [J].計算機系統應用,2022,31(3):143-149.
[16] BURROWS S,GUREVYCH I,STEIN B. The Eras and Trends of Automatic Short Answer Grading [J].International Journal of Artificial Intelligence in Education,2015,25(1):60-117.
[17] CALLEAR D,JERRAMS-SMITH J,SOH V. CAA of Short Non-MCQ Answers [J/OL].Computer Science, Education,2001[2023-12-10].https://www.semanticscholar.org/paper/CAA-of-Short-Non-MCQ-Answers-Callear-Jerrams-Smith/515938ae02e12cbdc054175d42bb1e6d41aacb3c?p2df.
[18] LEACOCK C,CHODOROW M. C-Rater: Automated Scoring of Short-Answer Questions [J].Computers and the Humanities,2003,37:389-405.
[19] FARIA C,GIRARDI R. An Information Extraction Process for Semi-automatic Ontology Population [C]//Soft Computing Models in Industrial and Environmental Applications,6th International Conference SOCO 2011.[S.I.]:Springer,2011:319-328.
[20] MITCHELL T,RUSSELL T,BROOMHEAD P,et al. Towards Robust Computerised Marking of Free-Text Responses [J]. Computer Science,2002:233-249.
[21] THOMAS P. The Evaluation of Electronic Marking of Examinations [J]. ACM SIGCSE Bulletin,2003,35(3):50-54.
[22] SIMA D,SCHMUCK B,SZ?LL?SI S,et al. Intelligent Short Text Assessment in eMax [C]//AFRICON 2007.Windhoek:IEEE,2007:1-7.
[23] CUTRONE L,CHANG M,KINSHUK. Auto-Assessor: Computerized Assessment System for Marking Student's Short-Answers Automatically [C]//2011 IEEE International Conference on Technology for Education. Chennai:IEEE,2011:81-88.
[24] HAHN M,MEURERS D. Evaluating the Meaning of Answers to Reading Comprehension Questions: A Semantics-Based Approach [C]//Proceedings of the Seventh Workshop on Building Educational Applications Using NLP.Montreal:Association for Computational Linguistics,2012:326-336.
[25] SAHU A,BHOWMICK P K. Feature Engineering and Ensemble-Based Approach for Improving Automatic Short-Answer Grading Performance [J].IEEE Transactions on Learning Technologies,2019,13(1):77-90.
[26] RATNA A A P,LALITA LUHURKINANTI D L,IBRAHIM I,et al. Automatic Essay Grading System for Japanese Language Examination Using Winnowing Algorithm [C]//2018 International Seminar on Application for Technology of Information and Communication. Semarang:IEEE,2018:565-569.
[27] BASAK R,NASKAR S,GELBUKH A. Short-Answer Grading Using Textual Entailment [J].Journal of Intelligent & Fuzzy Systems,2019,36(5):4909-4919.
[28] DIAB M,RESNIK P. An Unsupervised Method for Word Sense Tagging Using Parallel Corpora [C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics.Philadelphia:Association for Computational Linguistics,2022:255-262.
[29] ALFONSECA E,PéREZ D. Automatic Assessment of Open Ended Questions with a Bleu-Inspired Algorithm and Shallow NLP [C]//4th International Conference,EsTAL 2004.Alicante:Springer,2004:25-35.
[30] SüZEN N,GORBAN A N,LEVESLEY J,et al. Automatic Short Answer Grading and Feedback Using Text Mining Methods [J].Procedia Computer Science,2020,169:726-743.
[31] KLEIN R,KYRILOV A,TOKMAN M. Automated assessment of short free-text responses in computer science using latent semantic analysis [C]//Proceedings of the 16th annual joint conference on Innovation and technology in computer science education.Darmstadt:Association for Computing Machinery,2011:158-162.
[32] HASANAH U,ASTUTI T,WAHYUDI R,et al. An Experimental Study of Text Preprocessing Techniques for Automatic Short Answer Grading in Indonesian [C]//2018 3rd International Conference on Information Technology, Information System and Electrical Engineering.Yogyakarta:IEEE,2018:230-234.
[33] PRABHUDESAI A,DUONG T N B. Automatic Short Answer Grading using Siamese Bidirectional LSTM Based Regression [C]//2019 IEEE International Conference on Engineering,Technology and Education.Yogyakarta:IEEE,2019:1-6.
[34] YE X F,MANOHARAN S. Machine Learning Techniques to Automate Scoring of Constructed-Response Type Assessments [C]//2018 28th EAEEIE Annual Conference.Hafnarfjordur:IEEE,2018:1-6.
[35] MUELLER J,THYAGARAJAN A. Siamese Recurrent Architectures for Learning Sentence Similarity [C]//Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence.Phoenix:AAAI Press,2016:2786-2792.
[36] TULU C N,OZKAYA O,ORHAN U. Automatic Short Answer Grading With SemSpace Sense Vectors and MaLSTM [J].IEEE Access,2021,9:19270-19280.
[37] SAWATZKI J,SCHLIPPE T,BENNER-WICKNER M. Deep Learning Techniques for Automatic Short Answer Grading: Predicting Scores for English and German Answers [C]//Proceedings of 2021 2nd International Conference on Artificial Intelligence in Education Technology.Nanjing:Springer,2022:65-75.
[38] GOMAA W H,FAHMY A A. Ans2vec: A Scoring System for Short Answers [C]//The International Conference on Advanced Machine Learning Technologies and Applications.Cairo:Springer,Cham,2020:586-595.
[39] LI Z H,TOMAR Y,PASSONNEAU R J. A Semantic Feature-Wise Transformation Relation Network for Automatic Short Answer Grading [C]//The 2021 Conference on Empirical Methods in Natural Language Processing.Punta Cana:[s.n.],2021:6030-6040.
[40] AGARWAL R,KHURANA V,GROVER K,et al. Multi-Relational Graph Transformer for Automatic Short Answer Grading [C]//2022 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Seattle:[s.n.],2022:2001-2012.
[41] SAHANI A,MEHTA S,RAMESH R,et al. An AES System to Assist Teachers in Grading Language Proficiency and Domain Accuracy Using LSTM Networks [C]//Proceedings of the 29th International Conference on Computers in Education.Asia-Pacific Society for Computers in Education.Taiwan:ICCE,2022:309-314.
[42] 程傳鵬,齊暉.文本相似度計算在主觀題評分中的應用 [J].計算機工程,2012,38(5):288-290.
[43] 王逸凡,李國平.基于語義相似度及命名實體識別的主觀題自動評分方法 [J].電子測量技術,2019,42(2):84-87.
[44] 田緒安,郭華磊,劉瑞光,等.基于模糊匹配的主觀題評分在線考試系統 [J].現代電子技術,2007(12):96-98.
[45] 楚尚武.基于LDA主題模型的主觀題自動評分算法 [D].長沙:湘潭大學,2017.
[46] 姚洪發.基于TF-IDF及LSI的主觀題自動評分系統的研究——以系統建模與仿真課程為例 [D].昆明:昆明理工大學,2017.
[47] 李冰.計算機技術在主觀題自動閱卷中的應用述評 [J].江蘇科技信息,2019,36(8):39-43+54.
[48] 李永丹.面向模糊語義和多相似度的簡答題評分方法研究 [D].武漢:華中師范大學,2019.
[49] 楊松,衛文學. Multi Head-Self Attention BiLSTM網絡應用于主觀題評分的研究 [J]. 軟件,2020,41(12):180-184.
[50] 午澤鵬.簡答題自動評分方法研究 [D].太原:山西大學,2020.
[51] 王沖.短答案自動評分方法研究 [D].太原:山西大學,2020.
[52] 郭振鵬.基于中文分詞與文本相似度的主觀題評分系統研究與實現 [D].太原:太原理工大學,2021.
[53] 喬亞男,胡名凱,薄鈞戈.基于特征融合的主觀題智能閱卷算法研究 [J].電氣電子教學學報,2021,43(6):104-111.
[54] 肖靈云,劉軍庫.基于相似度組合的主觀題評分方法研究 [J].貴州大學學報:自然科學版,2021,38(5):64-68.
[55] 肖靈云,劉軍庫,李春紅.基于doc2vec的主觀題自動評分應用 [J].現代計算機,2022,28(1):79-82+95.
[56] 王金水,郭偉文,陳俊巖,等.多特征融合的電氣領域主觀題自動評分方法 [J].貴州大學學報:自然科學版,2022,39(2):77-82.
[57] 張展鑫.主觀題自動評分方法的研究 [D].廣州:廣東工業大學,2022.
[58] 吳敏建.淺談英語與漢語結構上的幾點區別 [J].福建外語,1992(Z2):37-39+31.
[59] HASANAH U,PERMANASARI A E,KUSUMAWARDANI S S,et al. A Review of an Information Extraction Technique Approach for Automatic Short Answer Grading [C]//2016 1st International Conference on Information Technology,Information Systems and Electrical Engineering.Yogyakarta:IEEE,2016:192-196.
作者簡介:徐繼寧(1970—),女,漢族,陜西興平人,副教授,博士,研究方向:控制理論與模式識別、智慧教育等;通訊作者:黃楠(1997—),男,漢族,北京人,碩士在讀,研究方向:深度學習、自然語言處理、智慧教育;龔博(1996—),男,漢族,北京人,碩士在讀,研究方向:深度學習、自然語言處理、智慧教育。