









[摘 要] 隨著大語言模型技術(shù)的發(fā)展,基于Decoder-Only的預(yù)訓(xùn)練模型因其強大的語言理解能力和增強的文本生成能力,為主觀題自動評分研究帶來了新的思路。通過數(shù)據(jù)清洗與預(yù)處理,將主觀題評分任務(wù)劃分為4個子任務(wù):評分標準解析、學(xué)生作答評分、總結(jié)得分和總得分。通過人工標注的方式構(gòu)建1000條高質(zhì)量的主觀題自動評分微調(diào)數(shù)據(jù)和100條測試數(shù)據(jù)。選擇Qwen-7B-Chat模型作為基座模型,在算力有限的條件下,該模型通過Lora方法結(jié)合DeepSpeed分布式訓(xùn)練即可完成微調(diào)。利用1000條數(shù)據(jù)對Qwen-7B-Chat模型進行微調(diào),并在另外的100條測試數(shù)據(jù)集上進行性能測試。實驗結(jié)果表明,使用基于Decoder-Only的大語言模型,在較小的算力條件下(兩張NVIDIA 3090Ti顯卡)和較少的微調(diào)數(shù)據(jù)量情況下,模型的平均分差僅為0.061,皮爾遜相關(guān)系數(shù)高達0.952,這一性能遠高于未經(jīng)過微調(diào)的基座模型Qwen-7B-Chat和GPT。研究證明,隨著技術(shù)的進一步發(fā)展和優(yōu)化,基于Decoder-Only的預(yù)訓(xùn)練模型有望在更多教育場景中發(fā)揮作用,不僅提高評分效率和準確性,還能為教育評價和教學(xué)反饋提供更多智能化解決方案。
[關(guān)鍵詞] 主觀題自動評分;大語言模型;Decoder-Only;Qwen-7B-Chat模型
[中圖分類號] G424.74 [文獻標識碼] A
[文章編號] 1673—1654(2025)02—096—013
一、引言
主觀題是教育評估中極為重要的部分,它不僅可以考查學(xué)生的記憶能力,更能評估他們的理解深度、思維品質(zhì)和解決問題的能力。通過主觀題,可以更好地了解學(xué)生的學(xué)習(xí)狀態(tài),同時激勵學(xué)生探索更深層次的知識。本文研究的主觀題是答案相對確定、包含多個要點和對應(yīng)分值類型的主觀題。
主觀題自動評分是近年來考試與測評領(lǐng)域一個重要研究方向,是智慧教育創(chuàng)新中的重要環(huán)節(jié),目前已成為人工智能領(lǐng)域和教育領(lǐng)域中的熱點研究課題之一。相比于人工評閱,機器可以快速處理、即時反饋,從而提高評分效率、消除人為偏差、統(tǒng)一標準,保證評分公平性,將教師從枯燥乏味的試卷批閱工作中解放出來。本研究采用基于Decoder-Only的大語言模型為基座模型進行微調(diào),這種模型以自回歸結(jié)構(gòu)[1]為核心,采用多層Transformer解碼器堆疊[2],通過預(yù)測下一個詞來生成文本。這種架構(gòu)在主觀題評分任務(wù)中具有顯著優(yōu)勢:一方面,其生成式能力可以提供詳細的評分解釋,幫助捕捉答案中的語言和邏輯特點;另一方面,大模型通過大規(guī)模預(yù)訓(xùn)練,積累廣泛的語言和知識語料,更精準地理解復(fù)雜表述和多樣化答案,從而實現(xiàn)更具一致性和高效的評分效果。
二、相關(guān)文獻回顧
主觀題自動評分的方法有4類:基于規(guī)則匹配的自動評分法、基于統(tǒng)計特征的自動評分法、基于機器學(xué)習(xí)的自動評分法、基于深度學(xué)習(xí)的自動評分法。
(一)基于規(guī)則匹配的自動評分法
該方法根據(jù)參考答案建立評分規(guī)則,依據(jù)規(guī)則進行自動評分[3]。Siddiqi等人提出了一個適用于面向?qū)ο缶幊陶n程的主觀題評分IndusMarker系統(tǒng),該系統(tǒng)基于規(guī)則匹配,通過專門設(shè)計的結(jié)構(gòu)編輯器開發(fā)的預(yù)定義結(jié)構(gòu)與學(xué)生答案文本內(nèi)容進行匹配[4]。Makhatchev和VanLehn將自然語言語句映射為謂詞表示,并將其與自動生成的領(lǐng)域給定條件、錯誤假設(shè)和領(lǐng)域規(guī)則的演繹閉包進行匹配,從而對學(xué)生作答進行評分[5]。Bachman等人提出了名為WebLAS的評分系統(tǒng),從標準答案中提取關(guān)鍵元素組成正則表達式,這些關(guān)鍵元素由單詞或短語的精確匹配和近似的替代元素組成,根據(jù)學(xué)生作答與標準答案的匹配程度進行評分[6]。
這種方法容易理解和調(diào)試,在結(jié)構(gòu)化和格式固定的答案中效果較好,但難以處理復(fù)雜和多樣化的答案,對不同表達方式的適應(yīng)性差,擴展性有限。
(二)基于統(tǒng)計特征的自動評分法
該方法利用統(tǒng)計學(xué)方法和簡單的機器學(xué)習(xí)算法,對大量標注的數(shù)據(jù)進行訓(xùn)練,從中學(xué)習(xí)評分模式。常用的方法包括支持向量機(SVM)[7]、樸素貝葉斯分類器等。Mohler等人提出了一種結(jié)合圖對齊特征和詞匯語義相似性度量的機器學(xué)習(xí)方法,用于自動評分學(xué)生作答[8]。Jimenez等人提出了一種基于文本重疊,通過軟基數(shù)(soft cardinality)和一種新的權(quán)重傳播機制來實現(xiàn)自動評分的方法[9]。Heilman和Madnani借鑒了機器翻譯的評價方法,使用N-grams特征計算學(xué)生作答與標準答案之間的BLEU值,以此對學(xué)生作答進行評分[10]。Saha等人提出了一種基于標記部分相似性的新特征編碼方法,并將其擴展到詞性標記(HoPSTags)和問題類型信息,通過將所提出的特征與基于句子嵌入的特征結(jié)合進行評分[11]。
相對于基于規(guī)則匹配的自動評分方法,這種方法更加靈活,能夠處理一定程度的答案多樣性,但需要大量標注數(shù)據(jù)進行訓(xùn)練,模型復(fù)雜度增加,且在長文本和復(fù)雜句子處理方面能力十分有限。
(三)基于機器學(xué)習(xí)的自動評分方法
該方法通過特征工程提取文本的特征如詞頻、語法結(jié)構(gòu)、語義信息等,然后使用機器學(xué)習(xí)的算法如隨機森林[12]、邏輯回歸(Logistic Regression)[13]等進行訓(xùn)練和評分。
Ramachandran等人使用詞序圖從人工提供的評分標準文本和高分學(xué)生答案中識別重要模式,并使用隨機森林進行回歸評分[14]。Shen等人將標準答案與學(xué)生作答切割成若干單元,然后利用雙向匹配層所提出的方法學(xué)習(xí)每個單元的匹配向量,最后通過自匹配注意力層來表征生成的匹配向量的重要性[15]。Marvaniya等人提出了一種基于親和傳播的聚類技術(shù),從評分后的學(xué)生答案中獲取特定類別的代表性答案制定評分標準,并使用詞向量作為文本表示進行評分[16]。Sultan等人提出學(xué)生回答的正確性關(guān)鍵衡量標準可以通過其與正確答案的語義相似性來推導(dǎo),并通過關(guān)鍵的評分特定結(jié)構(gòu)增強了文本相似性特征[17]。
相比于前兩種方法,這種方法雖然能夠捕捉更復(fù)雜的文本特征,評分準確度也有所提高,適應(yīng)范圍相對較廣,但特征提取過程復(fù)雜,需要人工干預(yù)和大量的領(lǐng)域知識,擴展性和泛化能力受限。
(四)基于深度學(xué)習(xí)的自動評分法
該方法采用深度神經(jīng)網(wǎng)絡(luò),如卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短期記憶網(wǎng)絡(luò)(LSTM)等進行端到端的學(xué)習(xí),直接從文本數(shù)據(jù)中提取特征和模式。Riordan等人基于Taghipour和Ng的基本神經(jīng)網(wǎng)絡(luò)架構(gòu),進行了一系列實驗,探索不同參數(shù)設(shè)置對主觀題評分任務(wù)的影響,發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)在主觀題評分任務(wù)中通常能超越非神經(jīng)網(wǎng)絡(luò)基線系統(tǒng)的表現(xiàn)[18]。Yang等人提出了一種基于深度自動編碼器的自動短答案評分算法,該算法可以在未明確定義目標答案的情況下構(gòu)建,并學(xué)習(xí)學(xué)生回答的低維表示[19]。Kumar等人介紹了一個新穎的ASAG框架,通過級聯(lián)三個神經(jīng)構(gòu)建模塊:應(yīng)用于模型答案和學(xué)生答案的孿生雙向LSTM、基于地球移動距離(EMD)跨越兩個LSTM所有隱藏狀態(tài)的創(chuàng)新池化層,以及靈活的最終回歸層以輸出分數(shù)[20]。Mueller等人提出了一種針對長短期記憶(LSTM)網(wǎng)絡(luò)的孿生適應(yīng)模型,適用于由成對的可變長度序列組成的標注數(shù)據(jù)[21]。隨著Transformers[22]預(yù)訓(xùn)練架構(gòu)的問世,由于其在處理并行計算、長距離依賴、靈活性、表示能力、訓(xùn)練穩(wěn)定性以及預(yù)訓(xùn)練和遷移學(xué)習(xí)方面相比于RNN和CNN具有顯著優(yōu)勢,這使得Transformers在自然語言處理和其他序列建模任務(wù)中成為當(dāng)前的主流選擇,如基于Encoder-only的BERT[23]、基于Decoder-only的GPT[24-26]。在主觀題自動評分研究上,也開始使用Transformers注意力機制架構(gòu)。Sung等人探討了在主觀題評分這一智能輔導(dǎo)系統(tǒng)的重要組成任務(wù)中,改進預(yù)訓(xùn)練上下文表示的方法,展示了通過增加來自特定領(lǐng)域資源(如教科書)的數(shù)據(jù)來改進BERT模型,從而提高評分的準確性[27]。Lun等人提出了名為MDA-ASAS的基于多種數(shù)據(jù)增強策略的評分系統(tǒng)[28]。王士進等人提出基于BERT的要點匹配文科主觀題通用評分系統(tǒng),通過將學(xué)生作答與標準答案的要點進行匹配,根據(jù)匹配程度(完全匹配、部分匹配、不匹配)來計算出學(xué)生得分[29]。肖國亮等人提出基于領(lǐng)域預(yù)訓(xùn)練模型BERT的孿生網(wǎng)絡(luò)智能評分方法,探索利用考生作答文本提高評卷精度的方法[30]。錢升華等人提出了一種基于BERT模型和孿生網(wǎng)絡(luò)的主觀題自動評分系統(tǒng)[31]。
這種方法能夠自動提取復(fù)雜特征,處理能力強,適應(yīng)性好,能夠處理長文本和上下文關(guān)系,但不論是RNN、CNN還是基于Encoder-Only的BERT模型,在模型訓(xùn)練和推理時計算量大,可解釋性較差。
以上四類方法都具有一定的局限性,而且大部分智能評分方法僅給出預(yù)測的總分值,缺少評分細節(jié),無法為后續(xù)的結(jié)果評價提供依據(jù)。雖然王士進等人[29]、錢升華等人[31]提出的方法在評分結(jié)果中可以提供與答案要點相匹配的學(xué)生作答片段,但也只針對學(xué)生作答中單一連續(xù)片段匹配要點的情況,而對于學(xué)生作答中多個片段對應(yīng)一個要點的情況表現(xiàn)一般。
三、數(shù)據(jù)與方法
(一)基座模型選取
本文選用的基座大模型是Qwen-7B-Chat[32]開源大語言模型。Qwen-7B-chat是在Qwen-7B基礎(chǔ)上進一步微調(diào)的版本,專門針對對話生成和互動任務(wù)進行優(yōu)化,表現(xiàn)更適合自然語言對話和交互。Qwen-7B是阿里云研發(fā)的通義大模型系列的70億參數(shù)規(guī)模的模型,它是基于Decoder-Only的Transformer大語言模型,在超大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)上進行訓(xùn)練得到的。用于預(yù)訓(xùn)練的數(shù)據(jù)覆蓋廣泛、類型多樣,包括大量代碼、專業(yè)書籍、網(wǎng)絡(luò)文本等。相較于最初開源的Qwen-7B模型,現(xiàn)已將預(yù)訓(xùn)練模型Base版和Chat版更新到效果最優(yōu)的版本。Qwen-7B在多個中英文下游評測任務(wù)上效果顯著,超越現(xiàn)有相近規(guī)模的開源模型,甚至部分指標與其他更大量級的模型相比也有較強的競爭力[32]。
總之,Qwen-7B-Chat具有上文理解能力強、優(yōu)秀的文本生成能力、多任務(wù)處理能力、訓(xùn)練基礎(chǔ)強大、自適應(yīng)加權(quán)和多頭注意力機制、計算性能高效、可擴展性強等優(yōu)勢,因此選用其作為本文研究主觀題評分的基座大語言模型。
(二)微調(diào)數(shù)據(jù)集構(gòu)建
數(shù)據(jù)在模型微調(diào)中扮演了至關(guān)重要的角色。通過在特定任務(wù)和領(lǐng)域的數(shù)據(jù)上進行微調(diào),可以顯著提高模型性能、增強泛化能力、糾正模型偏差、適應(yīng)用戶需求、提高訓(xùn)練效率,并支持多任務(wù)學(xué)習(xí)。因此,選擇高質(zhì)量、相關(guān)性強的數(shù)據(jù)進行微調(diào),是提高模型表現(xiàn)的關(guān)鍵步驟。
數(shù)據(jù)集大部分來自江蘇警官學(xué)院大數(shù)據(jù)教育教學(xué)資源庫平臺。該平臺是學(xué)院內(nèi)部用來進行線上教學(xué)的平臺,于2018年建立,經(jīng)歷了三年的線上教學(xué),積累了大量的教學(xué)試題。從中選取包括政治、經(jīng)濟、文化、法學(xué)等十幾門課程的主觀題,如簡單題、材料分析題等,這類題目雖是“主觀”的,但其評分標準是客觀的,是根據(jù)要點給分的。另有少部分數(shù)據(jù)來自網(wǎng)絡(luò)文本、相關(guān)研究的論文等,用來證明本文微調(diào)模型的有效性。將收集到的數(shù)據(jù)按照訓(xùn)練的數(shù)據(jù)又進行了人工標注,共標注訓(xùn)練數(shù)據(jù)集1000條,測試數(shù)據(jù)集100條。標注格式如表1所示。
表1中的User(input)是輸入,在系統(tǒng)中相當(dāng)于用戶的角色。輸入的主要內(nèi)容包含題干、評分標準以及學(xué)生作答。題干是主觀題的題目,根據(jù)題干的信息,學(xué)生可以知道從哪些方面進行回答,模型能夠讀懂從哪些方面對學(xué)生作答進行評分,起到輔助分析學(xué)生作答的作用。評分標準是主觀題的參考答案,包括分值、要點及要點與分值的對應(yīng)關(guān)系。學(xué)生作答是要進行評分的學(xué)生回答題目的文本。表中的Assistant(output)是輸出,是模型本身,根據(jù)上面用戶的輸入,模型自動產(chǎn)生輸出。系統(tǒng)的輸出包含評分標準解析、學(xué)生作答評分、總結(jié)得分、總得分。其中,評分標準解析是對評分標準進行要點提取分類;學(xué)生作答評分是根據(jù)解析的評分標準按要點對學(xué)生作答進行分析評分;總結(jié)得分是結(jié)合評分標準解析對學(xué)生作答評分的結(jié)果做一個歸納總結(jié);總得分是在總結(jié)得分的基礎(chǔ)上算出學(xué)生作答的總分數(shù)。整個輸出是將主觀題評分這一任務(wù)分解成4個子任務(wù),邏輯上層層遞進從而得出最終得分。表1中,題干及評分標準給出的要點分類比較清晰,在評分標準解析中要點容易提取,如果題干及評分標準沒有對要點進行清晰提示,在進行評分標準解析時就要根據(jù)評分標準人工提取要點進行劃分,如表2所示。
表2中,雖然題干及評分標準中沒有明確給出分類的要點,但通過人工標注的方式標注數(shù)據(jù),將評分標準按照組成部分、篇數(shù)和時間跨度、內(nèi)容涵蓋三個部分進行劃分,后面學(xué)生作答評分也是按照這三個部分對照學(xué)生作答與評分標準完成分析與評分。
訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)都是按照表1、表2示例所示進行標注的。
(三)評測指標
從表1、表2可知,模型的輸出是有先后順序的4個子任務(wù):評分標準解析、學(xué)生作答評分、總結(jié)得分、總得分。由于總結(jié)得分是對學(xué)生作答評分的歸納總結(jié),是為了得出總得分的中間過程,對于這一項不需設(shè)置評測指標。
1.評分標準解析任務(wù)評測指標
從兩個方面判斷模型評分標準解析的準確性:一是要點歸納的內(nèi)容,二是要點的個數(shù)。使用分類任務(wù)中的P、R、F值進行評測:P(Precision,精確率)衡量模型預(yù)測為正類的樣本中,真正為正類的比例;R(Recall,召回率)衡量實際正類的樣本中,成功被模型預(yù)測為正類的比例;F(F1-Score)表示精確率和召回率的調(diào)和平均值,綜合衡量模型的精確率和召回率。具體計算過程如式(1)-式(6)所示。
要點歸納內(nèi)容評測公式:
[AP=i=1NciCMiN]" " (1)
[AR=i=1NciCGiN]" " " " " " " (2)
[AF=2×AP×ARAP+AR]" " " "(3)
其中,N代表測試數(shù)據(jù)集中試題的總個數(shù),CM
i代表模型預(yù)測的要點歸納內(nèi)容片段,這部分數(shù)據(jù)獲取是通過將測試集中的題干、評分標準及學(xué)生作答輸入到微調(diào)好的大模型中,大模型經(jīng)過推理得到的內(nèi)容,然后再從推理內(nèi)容中截取對評分標準要點歸納的內(nèi)容,最后再統(tǒng)計其字數(shù),CG
i代表測試數(shù)據(jù)集中人工標注的要點歸納內(nèi)容片段,ci代表模型預(yù)測的要點歸納內(nèi)容片段與測試數(shù)據(jù)集中人工標注的要點歸納內(nèi)容片段所重疊部分的字數(shù)。
要點個數(shù)評測公式:
[DP=TPTP+FP]" " " (4)
[DR=TPTP+FN]" " " " " (5)
[DF=2×DP×DRDP+DR]" " " " " "(6)
其中,TP表示模型預(yù)測的要點個數(shù)等于測試數(shù)據(jù)集中人工標注的要點個數(shù)的題目總數(shù),F(xiàn)P表示模型預(yù)測的要點個數(shù)大于測試數(shù)據(jù)集中人工標注的要點個數(shù)的題目總數(shù),F(xiàn)N表示模型預(yù)測的要點個數(shù)小于測試數(shù)據(jù)集中人工標注的要點個數(shù)的題目總數(shù)。
式(3)與式(6)中的AF、DF都是綜合評價指標,取值范圍在0和1之間,越接近1表示訓(xùn)練出的模型性能越好。
2.學(xué)生作答評分評測指標
從兩個方面判斷學(xué)生作答評分的準確性:一是評分的內(nèi)容;二是評分的分數(shù)。使用分類任務(wù)中的P、R、F值對評分的內(nèi)容進行評測,使用評分分數(shù)均方誤差對評分的分數(shù)進行評測。具體計算過程如式(7)-式(10)所示。
評分內(nèi)容評測公式:
[SP=i=1NciCMiN]" " " (7)
[SR=i=1NciCGiN]" " " " " " " "(8)
[SF=2×SP×SRSP+SR]" " " " " (9)
其中,N代表測試數(shù)據(jù)集中試題的總個數(shù),CM
i代表模型預(yù)測的評分內(nèi)容片段,這部分數(shù)據(jù)來自于微調(diào)模型推理內(nèi)容中對學(xué)生作答進行評分的內(nèi)容,然后統(tǒng)計其字數(shù),CG
i代表測試數(shù)據(jù)集中人工標注的評分內(nèi)容片段,ci代表模型預(yù)測的評分內(nèi)容片段與測試數(shù)據(jù)集中人工標注的評分內(nèi)容片段所重疊部分的字數(shù)。
評分分數(shù)評測公式:
[SMSE=i=1n1Kij=1KiPSj-TSj2N]" " (10)
其中,Ki代表每道題目評分的個數(shù),PSj代表模型預(yù)測的評分分數(shù),TSj代表測試數(shù)據(jù)集中人工標注的評分分數(shù)。
式(9)中SF是綜合評價指標,取值范圍在0和1之間,越接近1表示訓(xùn)練出的模型性能越好;式(10)中SMES是所有題目均方誤差的平均值,越接近0表示訓(xùn)練出的模型預(yù)測的評分分數(shù)與人工標注的評分分數(shù)差距越小。
3. 總得分評測指標
將平均分差、皮爾遜相關(guān)系數(shù)作為總得分的評測指標,如式(11)-式(12)所示。
平均分差公式:
[mean_err=i=1Nyi-y*iyiN]" " " (11)
其中,yi代表人工標注的真實得分,y*
i代表模型預(yù)測的分數(shù)。平均分差衡量模型預(yù)測分數(shù)與真實分數(shù)之間的平均相對誤差,表示模型預(yù)測的準確性。相對誤差考慮了每個樣本的真實分數(shù)大小,從而使得不同分數(shù)區(qū)間的誤差具有可比性。平均相對誤差越低表示模型預(yù)測的分數(shù)與真實分數(shù)越接近,模型的預(yù)測準確性就越高;平均相對誤差越高表示模型預(yù)測的分數(shù)與真實分數(shù)越偏離,模型的預(yù)測準確性就越低。
皮爾遜相關(guān)系數(shù)公式:
[R=i=1Nxi-xy-yi=1Nxi-x2i=1Nyi-y2]" "(12)
皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient)是一種用于測量兩組分數(shù)之間線性相關(guān)度的方法,它評估預(yù)測得分與實際得分之間的關(guān)系。其中xi代表模型預(yù)測的得分,[x]是模型預(yù)測所有題目得分的平均值,yi代表人工標注的真實得分,[y]代表所有題目真實的平均值。皮爾遜相關(guān)系數(shù)取值在0和1之間,越接近于1,意味著預(yù)測得分與實際得分的線性關(guān)系越接近,模型的性能也就越好。
(四)實驗環(huán)境及配置
本文實驗環(huán)境見表3。由于算力限制,并且算力是由兩張 GPU 卡共同提供,所以本文采用了 Lora 方法進行模型微調(diào),并使用 DeepSpeed 在兩張卡上進行分布式訓(xùn)練。將 Lora 與 DeepSpeed 結(jié)合使用,能夠充分發(fā)揮兩者的優(yōu)勢,實現(xiàn)高效、內(nèi)存友好且穩(wěn)定的大規(guī)模模型訓(xùn)練。在內(nèi)存管理、計算效率、擴展性和訓(xùn)練穩(wěn)定性方面,Lora 和 DeepSpeed 的結(jié)合顯著提升了訓(xùn)練性能和效果。Lora微調(diào)參數(shù)見表4所示。
四、模型性能及結(jié)果分析
(一)評分標準解析任務(wù)評測結(jié)果及分析
在分別使用 100、500、1000 條數(shù)據(jù)進行訓(xùn)練后,觀測模型對評分標準解析任務(wù)的評測結(jié)果,見表5。
實驗結(jié)果表明,對于評分標準解析任務(wù),當(dāng)訓(xùn)練數(shù)據(jù)僅為 100 條時,模型性能就表現(xiàn)良好,要點內(nèi)容及個數(shù)的綜合評測指標均達到 70% 以上;當(dāng)訓(xùn)練數(shù)據(jù)增加到 500 條時,模型性能進一步提升,比 100 條數(shù)據(jù)時提高了 15% 以上,要點個數(shù)評測指標高達 90% 以上;當(dāng)訓(xùn)練數(shù)據(jù)增加到 1000 條時,模型在該任務(wù)上的性能雖有提升,但提升有限。這與參考答案內(nèi)容的規(guī)范性有關(guān),內(nèi)容越規(guī)范,模型微調(diào)性能提升越快,即使在較少的訓(xùn)練數(shù)據(jù)量下,也能達到很好的性能。
(二)學(xué)生作答評分任務(wù)評測結(jié)果及分析
同樣在分別使用 100、500、1000 條數(shù)據(jù)進行訓(xùn)練后,觀測模型對學(xué)生作答評分任務(wù)的評測結(jié)果,見表6。
實驗結(jié)果表明,當(dāng)訓(xùn)練數(shù)據(jù)量為100條時,模型的綜合評測指標SF為43.21%,均方差SMSE為7.34,表明模型的預(yù)測準確性較低,誤差較大;當(dāng)訓(xùn)練數(shù)據(jù)量增加到500條時,模型的綜合評測指標提升至68.37%,均方差降至2.18,顯示出模型性能的顯著提升,預(yù)測誤差明顯減少;進一步增加訓(xùn)練數(shù)據(jù)量至1000條時,模型的綜合評測指標達到82.75%,均方差降至0.37,表明模型在預(yù)測準確性和誤差減少方面都達到了較高水平。由于學(xué)生作答評分任務(wù)的復(fù)雜性,在該任務(wù)上模型性能的表現(xiàn)不如在評分標準解析任務(wù)上的表現(xiàn)。
(三)總得分任務(wù)評測結(jié)果及分析
使用在1000條數(shù)據(jù)上微調(diào)的模型Qwen-7B-Chat_1000與其基準模型Qwen-7B-Chat及GPT,對比它們在平均分差、皮爾遜相關(guān)系數(shù)上的表現(xiàn),如表7所示。
實驗結(jié)果表明,未經(jīng)過訓(xùn)練的基準模型 Qwen-7B-Chat 雖然具有一定的評閱主觀題能力,但其平均分差較大,與人工批注得分的相關(guān)性較弱。GPT作為目前最流行的大語言模型,表現(xiàn)雖比Qwen-7B-Chat略好,但與人工批注仍有較大差距。經(jīng)過微調(diào)的模型 Qwen-7B-Chat_1000 的平均分差僅為 0.061,相關(guān)系數(shù)高達 0.952,已非常接近人工批注得分。這證明,基于 Decoder-Only 的預(yù)訓(xùn)練模型通過微調(diào),能夠顯著提高其在特定領(lǐng)域的語義表征能力。
(四)模型輸出內(nèi)容分析
大語言模型的原始輸出內(nèi)容能夠更直觀地反映其性能[33]。本研究隨機從測試集中抽出一道題目觀察模型的輸出結(jié)果。題干及評分標準如表8所示,學(xué)生作答如表9所示,人工標注如表10所示,模型輸出如圖1所示。
對應(yīng)這道題,從模型輸出的結(jié)果來看,總得分為2.5分,而人工標注的總得分為2分。差距出現(xiàn)在第二次歷史性飛躍這個點上,模型預(yù)測的得分為1.5分,而人工標注的分數(shù)為1分。具體到得分要點上,兩者的差異在于對“中國特色社會主義理論體系及其組成部分”的評分不同。人工標注未給分,而模型預(yù)測結(jié)果給了0.5分。根據(jù)評分分析,人工標注認為“未明確提及中國特色社會主義理論體系及其組成部分”,所以給了0分;而模型認為“雖然沒有直接明確提及中國特色社會主義理論體系及其組成部分,但總體上指向了中國特色社會主義理論體系的形成背景和過程”,因此給了0.5分。學(xué)生作答中指出了中國特色社會主義理論體系的背景和過程,模型認為“雖未明確提出中國特色社會主義理論體系及其組成部分,但大體方向正確”,所以給了0.5分。
從這個得分差異來看,模型通過對學(xué)生作答進行語義分析,并結(jié)合其預(yù)訓(xùn)練掌握的知識,給出了最終的評分。這一點在“進入改革開放新時期”這個要點評分上也有所體現(xiàn)。學(xué)生作答是“第二次飛躍發(fā)生在十一屆三中全會之后”,只有學(xué)過歷史的人才知道,中國的改革開放始于十一屆三中全會之后,所以人工標注時,盡管學(xué)生作答中沒有明確提出“社會主義進入改革開放時期”,但還是給了1分。而模型在預(yù)測時也給了1分,其評分分析為“這句話表明了改革開放新時期的時間起點,符合‘社會主義進入改革開放的新時期’”。通過分析可以看出,模型也知道改革開放始于十一屆三中全會之后。
因此,這正是基于Decoder-Only預(yù)訓(xùn)練大模型的優(yōu)勢所在。通過在大量數(shù)據(jù)上的預(yù)訓(xùn)練,模型不僅具備了廣泛的語言理解能力、強大的文本生成能力,還能夠掌握豐富的背景知識和語義信息。預(yù)訓(xùn)練過程使模型能夠識別和理解復(fù)雜的語義關(guān)系,從而在面對各種問題時表現(xiàn)出更高的智能和靈活性。隨后,通過少量數(shù)據(jù)的微調(diào),模型能夠快速適應(yīng)特定任務(wù)的要求,進一步提高其在具體任務(wù)中的準確性和表現(xiàn)。
五、結(jié)論與展望
本研究針對主觀題自動評分,創(chuàng)新性地提出了在Decoder-Only領(lǐng)域大模型上進行微調(diào)的方法,并設(shè)計了專門的微調(diào)數(shù)據(jù)。微調(diào)數(shù)據(jù)的設(shè)計將主觀題自動評分任務(wù)劃分為多個步驟:首先解析評分標準劃分為多個得分點,其次根據(jù)得分點對學(xué)生作答進行評分,然后總結(jié)各部分得分,最后計算總得分。實驗結(jié)果表明,使用這種結(jié)構(gòu)的微調(diào)數(shù)據(jù),僅1000條數(shù)據(jù)即可顯著提高模型的評分性能。模型的穩(wěn)定性從其性能來說,因為采用的是數(shù)據(jù)微調(diào)的方式,并沒有修改原生模型的結(jié)構(gòu),所以微調(diào)模型性能與基座模型相差無幾。
然而,當(dāng)前的研究仍存在一些挑戰(zhàn)和不足。例如,雖然模型在多數(shù)情況下能夠準確理解和評分,但在面對復(fù)雜和多樣化的答案時,仍可能存在誤差。未來研究可以在以下幾個方面進一步提升:一是通過引入更多樣化和高質(zhì)量的訓(xùn)練數(shù)據(jù),提高模型的泛化能力和魯棒性;二是結(jié)合多模態(tài)數(shù)據(jù)(如文本、圖像、音頻等),進一步提升模型對復(fù)雜場景的理解和處理能力;三是探索更高效的微調(diào)策略和優(yōu)化方法,以減少模型訓(xùn)練的計算資源和時間成本。
總之,隨著技術(shù)的不斷進步和應(yīng)用場景的拓展,領(lǐng)域大語言模型在教育領(lǐng)域,特別是主觀題自動評分中的應(yīng)用前景廣闊,值得深入探索和持續(xù)創(chuàng)新。
參考文獻:
[1] Liu T,Jiang Y,Monath N,et al. Autoregressive Structured Prediction with Language Models [J]. arXiv preprint arXiv:2210.14698,2022.
[2] Bagal V,Aggarwal R,Vinod P K,et al. MolGPT:Molecular Generation Using a Transformer-Decoder Model [J]. Journal of Chemical Information and Modeling,2021,62(9):2064-2076.
[3] Ramachandran L,Cheng J,F(xiàn)oltz P. Identifying Patterns for Short Answer Scoring Using Graph-Based Lexico-Semantic Text Matching [C] // Proceedings of the 10th Workshop on Innovative Use of NLP for Building Educational Applications. Denver:Association for Computational Linguistics,2015:97-106.
[4] SIDDIQIR,HARRISON CJ,SIDDIQIR. Improving Teaching and Learning through Automated Short-Answer Marking [J]. IEEE Transactions on Learning Technologies,2010,3(3):237-249.
[5] Makatchev M, VanLehn K. Combining Bayesian Networks and Formal Reasoning for Semantic Classification of Student Utterances [C] // Proceedings of the Artificial Intelligence in Education, IOS Press, 2007: 307 - 314.
[6] BACHMAN LF,CARR N,KAMEI G,et al. A Reliable Approach to Automatic Assessment of Short Answer Free Responses [C] // Proceedings of the 19th International Conference on Computational Linguistics, 2002:1-4.
[7] C. J. C. Burges,A Tutorial on Support Vector Machines for Pattern Recognition [J]. Data Min. Knowl. Discov,1998,2:121-167.
[8] MOHLER M,BUNESCU R,MIHALCEA R. Learning to Grade Short Answer Questions Using Semantic Similarity Measures and Dependency Graph Alignments [C] // Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies,2011:752-762.
[9] JIMENEZ S,BECERRA C,GELBUKH A. SOFT-CARDINALITY:Hierarchical Text Overlap for Student Response Analysis [C] // Proceedings of the 2nd Joint Conference on Lexical and Computational Semantics:Volume 2—Proceedings of the 7th International Workshop on Semantic Evaluation,2013:280-284.
[10] HEILMAN M,MADNANI N. ETS:Domain Adaptation and Stacking for Short Answer Scoring [C] // Proceedings of the 2nd Joint Conference on Lexical and Computational Semantics:Volume 2—Proceedings of the 7th International Workshop on Semantic Evaluation,2013:275-279.
[11] Saha S,Dhamecha T I,Marvaniya S,et al. Sentence Level or Token Level Features for Automatic Short Answer Grading:Use Both? [C] // Artificial Intelligence in Education:19th International Conference,AIED 2018,London,UK,June 27–30,2018,Proceedings,Part I 19. Springer International Publishing,2018:503-517.
[12] Breiman L. Random Forests [J]. Machine Learning,2001,45:5-32.
[13] Peng C Y J,Lee K L,Ingersoll G M. An Introduction to Logistic Regression Analysis and Reporting [J]. The Journal of Educational Research,2002,96(1):3-14.
[14] RAMACHANDRAN L,CHENG J,F(xiàn)OLTZ P. Identifying Patterns for Short Answer Scoring Using Graph-Based Lexico-Semantic Text Matching [C] // Proceedings of the 10th Workshop on Innovative Use of NLP for Building Educational Applications,2015:97-106.
[15] SHEN C,SUN C,WANG J,et al. Sentiment Classification towards Question-Answering with Hierarchical Matching Network [C] // Proceedings of the Conference on Empirical Methods in Natural Language Processing,2018:3654-3663.
[16] MARVANIYA S,SAHA S,DHAMECHA TI,et al. Creating Scoring Rubric from Representative Student Answers for Improved Short Answer Grading [C] // Proceedings of the 27th ACM International Conference on Information and Knowledge Management,2018:993-1002.
[17] Sultan MA,Salazar C,Sumner T. Fast and Easy Short Answer Grading with High Accuracy [C] // Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. San Diego:Association for Computational Linguistics,2016:1070-1075.
[18] RIORDAN B,HORBACH A,CAHILL A,et al. Investigating Neural Architectures for Short Answer Scoring [C] // Proceedings of the 12th Workshop on Innovative Use of NLP for Building Educational Applications,2017:159-168.
[19] YANG X,HUANG Y,ZHUANG F,et al. Automatic Chinese Short Answer Grading with Deep Autoencoder [C] // Proceedings of the International Conference on Artificial Intelligence in Education. Springer,Cham,2018:399-404.
[20] Kumar S, Chakrabarti S, Roy S. Earthmover's Distance Pooling over Siamese LSTMs for Automatic Short Answer Grading [C] // Proceedings of the 26th International Joint Conference on Artificial Intelligence, 2017: 2046 - 2052.
[21] Mueller J,Thyagarajan A. Siamese Recurrent Architectures for Learning Sentence Similarity [C] // Proceedings of the 30th AAAI Conference on Artificial Intelligence. Phoenix: AAAI Press, 2016:2786-2792.
[22] Vaswani A,Shazeer N,Parmar N,et al. Attention Is All You Need [J]. Advances in Neural Information Processing Systems,2017,30.
[23] Devlin J,Chang M W,Lee K,et al. Bert:Pre-training of Deep Bidirectional Transformers for Language Understanding [J]. arXiv preprint arXiv:1810.04805,2018.
[24] Radford A, Narasimhan K, Salimans T, et al. Improving Language Understanding by Generative Pre - Training [EB/OL]. (2020 - 09 - 26) [2022 - 10 - 25]. https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf.
[25] Radford A,Wu J,Child R,et al. Language Models Are Unsupervised Multitask Learners [J]. OpenAI blog,2019,1(8):9.
[26] Mann B,Ryder N,Subbiah M,et al. Language Models Are Few-Shot Learners [J]. arXiv preprint arXiv:2005.14165,2020.
[27] Sung C,Dhamecha T,Saha S,et al. Pre-training BERT on Domain Resources for Short Answer Grading [C] // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing(EMNLP-IJCNLP), 2019:6071-6075.
[28] Lun J,Zhu J,Tang Y,et al. Multiple Data Augmentation Strategies for Improving Performance on Automatic Short Answer Scoring [C] // Proceedings of the AAAI Conference on Artificial Intelligence, 2020,34(09):13389-13396.
[29] 王士進,鞏捷甫,汪意發(fā),等.基于要點匹配的文科主觀題通用評分[J].中文信息學(xué)報,2023,37(06):165-178.
[30] 肖國亮,馬磊,袁峰,等.基于領(lǐng)域預(yù)訓(xùn)練的孿生網(wǎng)絡(luò)智能評分方法[J].中國考試,2023,(04):78-85.
[31] 錢升華.基于孿生網(wǎng)絡(luò)和BERT模型的主觀題自動評分系統(tǒng)[J].計算機系統(tǒng)應(yīng)用,2022,31(03):143-149.
[32] Bai J,Bai S,Chu Y,et al. Qwen Technical Report [J]. arXiv preprint arXiv:2309,16609,2023.
[33] 朱丹浩,趙志梟,胡蝶,等.領(lǐng)域大語言模型下的古籍詞性標注應(yīng)用研究[J].科技情報研究,2024,6(02):21-29.
Research on Automatic Scoring of Subjective Questions under Large Language Model Fine-tuning
Chang Zhenghui1" Zhu Danhao2" Gong Pengfei1
1 Modern Educational Technology Center,Jiangsu Police Institute,Nanjing,Jiangsu,210031
2 Department of Criminal Science and Technology,Jiangsu Police Institute,Nanjing,Jiangsu,210031
Abstract:With the advancement of large language model technology,Decoder-Only pre-trained models,known for their robust language understanding capabilities and enhanced text generation abilities,have introduced new approaches to the research on automatic scoring of subjective questions. Applying large language models to the research of automatic scoring of subjective questions is a significant step in educational innovation in the new era. This paper delineates the process of data cleaning and preprocessing,breaking down the subjective question scoring task into four subtasks:scoring criteria analysis,student response scoring,score summarization,and total score calculation. To achieve this,we manually annotated 1,000 high-quality fine-tuning data entries for automatic subjective question scoring and 100 test data entries. Based on these data,the Qwen-7B-Chat model was chosen as the base model,which can be fine-tuned under limited computing power conditions by using the LoRA method combined with DeepSpeed distributed training. During the experiments,the Qwen-7B-Chat model was fine-tuned by using these 1,000 data entries,and its performance was tested on another set of 100 test data entries. The experimental results demonstrate that by using a Decoder-Only large language model,high accuracy can be achieved even under limited computing power conditions(two NVIDIA 3090Ti GPUs)and with a small amount of fine-tuning data. Specifically,the model's average score difference is only 0.061,and the Pearson correlation coefficient is as high as 0.952. This performance is significantly higher than that of the base model Qwen-7B-Chat and GPT without fine-tuning. This study proves that with further technological advancements and optimizations,Decoder-Only pre-trained models may play a more prominent role in various educational scenarios,not only enhancing scoring efficiency and accuracy,but also providing more intelligent solutions for educational assessment and teaching feedback.
Key words:Automatic Scoring of Subjective Questions,Large Language Model,Decoder-Only,Qwen-7B-Chat Model
(責(zé)任編輯:陳暢)
作者簡介" 常正輝,助理研究員,江蘇警官學(xué)院現(xiàn)代教育技術(shù)中心。江蘇南京,210031。朱丹浩,博士,副教授,江蘇警官學(xué)院刑事科學(xué)技術(shù)系。江蘇南京,210031。龔鵬飛,博士,教授,江蘇警官學(xué)院現(xiàn)代教育技術(shù)中心.江蘇南京,210031。
基金項目" 江蘇警官學(xué)院教改項目“數(shù)字時代下高校教學(xué)資源平臺新形態(tài)的研究”(2023B14)。