大語言模型驅動的多模態實驗報告自動批改

2025-08-18 00:00:00徐繼寧黃楠宋浩

現代信息科技 2025年12期

中圖分類號：TP391.4；TP181 文獻標識碼：A 文章編號：2096-4706（2025）12-0079-06

Automatic Correction of Multimodal Experimental Reports Driven by LLM

XU Jining， HUANG Nan， SONG Hao （SchoolofElectricalandControlEngineering，North China UniversityofTechnology，Beijing10o144，China）

Abstract：Automatic correction of experimental reports isan important task in the field of intellgent education. FollowingteOBEconcept，tepaperreproduces thteacher'sorrctionideatransfoms tesoingitesitoquestons，and coordinates temultimodalresposeiformatiosuchastext，tables，ndpictures tosoresostoblosetoteactuateaching and curiculum construction needs.Intheunderstanding and scoring stageof multimodal information，on the basisof Deep Learming，LLMisitroduced torealizethecontentextractionandtransformationoftablequestions，andsolvethdifculties of positioningandlogicaldiscrimination.Fortextcontent，BERTisusedtounderstand.Fortheimagecontent，theself-training modelconstructed by thecombination ofBERTand ResNet-18 isused to scale the image matching weightsforthe image featureevaluationingraphicquestions.Theschemeusessmallsampledata fortraining，adapts todiferent subject experiments， andovercomes the pain points such as insuffcient generalization and migration caused byrelying onalarge amount of data training.Through the correction test of two courses，the average accuracy of the report score reaches 92.20% ，bridging the gap of automatic correction of non-customized experimental reports.

Keywords： automatic correction of experimental report; Deep Learning; LLM

0 引言

隨著人工智能技術融入教育，各類作業考試的自動評分系統使教師的工作變得更加高效。實驗報告作為實踐能力培養的重要教學載體，采用人工智能自動批改不僅可以提高效率，大幅度減少教師的批改時間，消除教師個人因素導致的評分偏差，提升評分公平性；而且AI批改系統通過算法和大量數據訓練，能夠準確識別學生的作答過程和具體錯因，提供更加客觀的評分和個性化的即時反饋。通過收集數據，它還能夠為教師和管理者提供可靠的學情分析報告，幫助優化教學內容和方法，為學生提供更加富有成效的指導。

當前，編程練習的自動批改、在線作業批改、AES自動論文評分、虛擬實驗教學等應用場景的智能批改準確性和有效性越來越得到用戶的認可。然而，其他理工科實驗報告的批改因其教學方式和內容的特點，需要處理復雜問題、圖表或非標準化答案，仍存在很多困難。例如，目前自動批改大多只能勝任單點、單一模態評分，很難基于實驗報告的多種模態信息進行綜合評價。

以ChatGPT為代表的大語言模型橫空出世，其強大的文本理解和生成能力改變教育教學的面貌[。本文嘗試將大語言模型（LargeLanguageModel，LLM）引入實驗報告自動批改過程，同時采用ResNet18深度神經網絡預訓練模型處理圖像輸入，提取圖片特征，并用BERT自然語言表示模型理解文本內容。將實驗教學預設目標轉化成大語言模型的提問任務，基于問題對實驗報告全文進行匯總分析，得到分析文本和參考評分。最后，利用全連接層對提取的特征進行深入解析和預測，達到更精準合理的評分效果。

1 研究現狀

目前國內外關于實驗報告自動批改的研究中，比較成熟的是編程類課程，多使用測試用例對學生提交的代碼進行評判。其他類別的實驗批改技術近十年來也受到了廣泛關注，如表1所示。

表1實驗報告模態類別和解決技術

本文通過嘗試模擬教師的報告批改思路和流程，遵循OBE的教學理念，以問題為導向，在學生的實驗報告全文中搜索與問題相關的作答信息，對每個考核問題進行多模態綜合評分，并依據教師設定的報告評分規則匯總各考核點成績，最終得出實驗報告的綜合評價。

2應用大語言模型的自動批改方案

2.1 批改業務流程分析

在實驗教學過程中，教師要依據學生對實驗目標的理解、操作執行的規范水平、實驗結果的合理性，以及對實驗過程的分析和反思來進行評分。除了操作執行外，其他考核點大多通過實驗報告來反映。

教師按照OBE理念將實驗教學目標設置為考核評分點，并以問題的形式呈現。這些問題可方便地作為實驗教學評價和教師反饋的依據，直接用于課程的形成性評價和達成性評價。自動批改過程就是從實驗報告中逐個尋找這些問題答案的過程。這種批改思路最大限度地貼近了教學的需求和邏輯。

圖1展示了基于實驗教學目標設置的報告評價考核點，旨在評估學生在某個知識和能力維度的認知水平和應用能力。這就意味著學生對某個考核點問題的全部作答不一定是單一模態的，可能需要考察數據表格、文字簡答、公式、圖片及描述文字等不同內容。因此，以問題為導向的自動批改流程引發了多模態綜合評分的需求，以保證得到更加精確有效的綜合評分。

圖1問題導向方法在自動批改流程分析思路

2.2實驗報告批改總方案

模擬老師批改實驗報告的過程，可以提煉出教師評分的兩個基本步驟：首先，根據實驗報告評分的預設考核點，精準定位到學生報告的相關作答部分；然后，對作答內容進行分析并評分。學生作答內容按照形式被分為三類：表格填寫類、文字簡答類和圖片展示類。

教師在查看表格時，關注的是表格內數據的準確性和數據之間的相互關系。他們首先提取表格數據，然后按照規則判斷數據是否合理。在考察圖片時，教師會判斷圖片是否與所討論的主題緊密相關，通過學生的上下文描述和圖片內容來判斷圖片的切題性，隨后考察圖片的正確性。通過考察圖片的相關性和正確性，教師可以判斷學生對實驗圖片是否真正理解。

考核問題答案為導向。對于表格和文字簡答類問題，利用大語言模型提取相關內容、分析表格參數和相關規則，再將返回的信息文本送入相應的評分網絡。圖片題則使用自主訓練的深度學習模型完成評分。最后將三類題目的得分進行累計，得到報告的總評分。

圖2展示了本文的自動批改方案，該方案以尋找

圖2實驗報告自動批改總流程

3 批改分支任務實現

表格類、文字簡答類，兩種模態均利用大語言模型（LargeLanguageModel，LLM）的知識問答功能進行解答。首先，教師需要指導，將實驗報告中的預設問題轉化為LLM的提示詞。本文在眾多大語言模型（LargeLanguageModel，LLM）工具中選擇了Kimi，通過它分析并理解實驗報告的文本內容，返回預設問題的分析結果，并將結果送至評分神經網絡以獲取該項分數。表2展示了Kimi在表格問題、文字簡答題中的作用。

表2Kimi在表格類、文字簡答類問題中的作用

3.1文字簡答題

為每個文本簡答問題對應設置一個大模型提示詞，并將其與實驗報告一同上傳給Kimi的Client對象。通過Client對象，數據可以被送至Kimi的后端服務器進行分析和交互，從而返回相關的原文作答。為改進傳統文本處理算法，本文將返回內容和問題兩個文本分別輸入BERT模型以提取特征，將兩個文本的特征向量聯結后作為輸入，送入文本簡答評分網絡，以此提升了評分預測效果。文本簡答評分網絡采用堆疊的全連接層結構，能夠有效地處理高維數據，捕捉文本間的復雜關系，從而提高評分預測的精確性。

3.2 表格問題

表格問題的解決首先模擬教師思考過程，將表格中的數據提取和評價規則轉化為提示詞。自動評分時，按照圖3展示步驟進行：

1）利用Python的Document庫從學生報告中提取指定表格，借助Pandas庫將表格數據轉化為保留了表格格式的字符串。隨后，將表格數據字符串與LLM提示詞進行拼接，送入Client對象進行多輪對話，由API返回相關的參數。

2）將提取到的表格內容參數再次與考察表格參數關系的提示詞進行拼接，送入Client對象的多輪對話API，等待信息返回。

3）將大語言模型返回的客觀分析文本通過BERT提取特征。將BERT模型的CLS標志位送入由多層感知器（MultilayerPerceptron，MLP）構成的評分神經網絡，輸出對表格內容進行評價的歸一化預測分數。

其中，CLS標志位是評分預測的關鍵，它代表了整個句子的聚合特征。這里的表格評分神經網絡同樣采用堆疊的全連接層結構。

3.3 圖片題

圖4展示了圖片題評分中引入自主訓練的圖文匹配模型的過程，其中，文字部分沿用BERT作為文本特征提取器，圖像特征提取則采用ResNet-18。該模型將圖片及其周圍的描述信息同時送入，輸出匹配標志位或權重位來表示圖文的匹配性。不相關的圖片會被乘以0向量，因此不參與評分；而相關圖片則根據匹配權值縮放圖像特征，進入評分網絡進行打分。圖文匹配和圖片評分兩個神經網絡的圖像特征提取器并不共用，以實現功能解耦。這是因為圖文匹配模型僅需提供是否匹配的標志位。若未來有更好的預訓練模型可替代當前圖文匹配模型，這種解耦設計將便于獨立更新圖文匹配模型，而不會影響到圖片評分步驟的特征提取。

4報告自動批改實驗結果

4.1數據集與訓練準備

實驗的環境參數如：CPU為Inteli7-10875H8核；GPU為NVIDIARTX2060-6GB；操作系統為Win10（64位系統）；PyTorch2.0.1；CUDA11.7；Python3.9。

實驗數據來源于本校2024年自動控制原理課的“系統穩定性分析”實驗報告，共220份。其中50份報告用作深度評分網絡的測試集，以驗證模型的性能。其余170份報告，根據學生作答條件和評分規則，對圖片題和表格題進行數據生成，擴充成2000條表格數據和4834張圖片數據，補充成為預訓練集。

根據實驗教學要求，將實驗報告的考核點轉化為10個考核問題，并形成相應的LLM提示詞，部分題目如表3所示。

表3“系統的穩定性分析”實驗問題列表

實驗報告內題目還有一類判斷題，是關于評判報告作答表格中數據范圍合理性的兩個小題，使用固定代碼進行數值邏輯判斷進行評分，并且不參與最后的實驗對比。

4.2實驗參數及實驗結果分析

表4展示了三種題型評分網絡在驗證集上的實驗結果。由于圖片題數據集的數據量較其他兩種題型的數據量更大，所以圖片評分網絡在驗證集上的表現優于其他兩種題型。

表4各題型評分網絡在驗證集的結果

文字簡答題和表格題的作答原文及表格分析文本，均通過BERT模型提取特征，隨后送入各自評分網絡。文字簡答題評分神經網絡和表格題評分神經網絡均由全連接層構成，具體參數如下：

文字簡答題評分神經網絡：學習率為 6×10^-4 使用Adam迭代優化器進行迭代優化，損失函數為MAE損失函數，訓練迭代次數為100次。

表格題評分神經網絡：學習率為 3×10^-3 ，使用Adam迭代優化器進行迭代優化，損失函數同樣為MAE損失函數，訓練迭代次數設為7次。

前文提到，圖片題評分環節通過拆分為圖文匹配模型與圖片評分模型這兩個任務的網絡組合來完成。兩個任務的數據集，從生成的4834張圖片和170份實驗報告中篩選出質量較高的圖片，將它們混合構成的數據集。圖片題的圖文匹配模型的網絡結構采用圖像特征提取神經網絡ResNet-18，圖片周圍的文本描述信息的文本特征使用BERT提取和全連接層組成的分類網絡，學習率分別設置為 6×10^-5 和 8×10^-4 均使用Adam迭代優化器，損失函數選擇為二元交叉熵損失（BCE），訓練迭代次數設為20次。在圖文匹配的圖像預處理中，會使用Resize（調整大小）和CenterCrop（中心裁剪）方法來減小圖片尺寸，這樣做既能防止顯存溢出，又能保留圖片的主要特征。

生成的4834張圖片數據作為數據集，豐富了訓練數據集的多樣性，提升了模型的泛化能力。訓練數據集和驗證數據的比例為9：1。圖5顯示圖文匹配任務在預訓練數據集上訓練階段的效果圖，可以看到BCE損失最終收斂到0.05以下，模型在驗證集的準確率（Accuracy）和F1指標分別達到 99.60% 和 99.58% 。

圖5圖文匹配任務在預訓練數據集上Loss衰減圖

在圖片評分模型中，圖像特征網絡采用ResNet-18，評分網絡則由多層全連接層構成。兩者的學習率分別設為 4×10^-5 和 2×10^-5 ，并使用Adam迭代優化器進行迭代優化。損失函數是MAE損失和MSE損失相加的組合，訓練迭代次數設為20次。同圖文匹配模型一樣，訓練數據集和驗證數據的比例為9：1。圖6顯示，評價指標隨訓練迭代次數變化趨于收斂。結合圖5的結論，這表明模型在該數據集上具有優異的性能，為后續的實際應用奠定了堅實的基礎。

圖6圖片評分任務在預訓練數據集上驗證集的效果圖

表5分別展示了三種題型評分網絡在50份報告的測試集上的實驗結果，三種題型評分網絡在測試集上均取得了較好的性能表現，其中表格題評分網絡的表現相對更為優異。

表5各題型評分網絡在測試集的結果

圖7展示了“系統的穩定性分析”實驗中三種題型各自的平均誤差曲線對比?？梢钥吹饺N題型絕大多數的誤差都在1分以內，表明本實驗具有較好的泛化性，可以在后續的教學任務中推廣使用，從而有效減輕老師的工作壓力，將精力轉向其他工作。

圖7“系統的穩定性分析”實驗中三種題型的平均誤差曲線圖

4.3自動批改效果實驗對比

如前述，在實驗報告批改研究中，僅文獻[14]的作者曹珊珊考慮了多模態信息。其實驗圖像題的批改方法是將圖像曲線與參考答案的特征點進行匹配，從而得出分數。該方法僅能解決一部分較為確定的圖片和曲線評分問題。該文獻對不同模態的信息采用的是分別定位、獨立評分再相加的線性方式。

表5給出了本文所述方案實驗結果與該文獻實驗效果的比對，指標采用了該作者使用的平均準確率?？梢钥闯?，本文方案在提升自動批改對表格邏輯關聯分析和多模態作答內容相互匹配性的基礎上，批改結果的正確率也有出色的表現。

綜合分析表5和圖7，可以分析出“系統的穩態性分析”實驗中圖片題批改效果不夠理想，誤差曲線波動較其他兩種題型更為明顯。主要原因是該實驗的圖片題評價的是多組響應曲線的變化趨勢，而圖片中的曲線形狀不確定性且較為復雜，缺乏統一的參考評價數據點來輔助得出作答曲線的誤差，導致曲線的評價結果稍遜。隨著運行過程數據積累，圖片題的評分效果還會有所提升。

表6中最后一行展示了本文自動批改方案在另一門“計算機原理與實踐”課程實驗報告中的應用效果，平均正確率達 93.66% ，這表明本解決方案具有良好的可遷移性和通用性。綜合“系統的穩態性分析”實驗結果，兩門課程的報告評分平均準確率達到 92.20% 。

表6實驗報告自動批改方案效果對比

5結論

本文遵循OBE理念，秉持問題導向，復現教師批改實驗報告的思路和內在邏輯，最大限度地貼近了一線教學和課程建設的發展需求。針對實驗報告中文字、表格、圖片等多種模態并存的現象，本文引入了大語言模型強大的文本理解和生成能力，解決了評分任務定位和邏輯判別的難點，且僅需小樣本數據集即可完成模型訓練，獲得較高的批改準確率。該方案可適配不同學科實驗，展現出良好的可遷移性，填補了非定制化實驗報告自動批改的空白。未來，隨著人工智能技術的發展，我們可在提示詞自動生成和公式識別評價方面進一步深入研究，以更好地解決各類報告的自動批改問題。

參考文獻：

[1]吳蘭岸，閆寒冰，黃發良，等.大型語言模型在高等教育中的應用分析與現實挑戰[J].現代教育技術，2023，33（8）：29-37.

[2]王紹卿.電子實驗報告自動批改系統的設計與實現[J].山東理工大學學報：自然科學版，2010，24（3）：60-63.

[3]蔣進文，張衛豐.基于代碼倉庫的作業自動批改的研究與實現[D].南京：南京郵電大學，2021.

[4]LINOA，ROCHAA，SIZO A.Virtual TeachingandLearningEnvironments： Automatic Evaluation withArtificialNeuralNetworks[J].Cluster Computing，2019，22：7217-7227.

[5]ABDEL-HALEEMAM，EIDMM，ELMESALAWYMM，etal.AGenericAI-Based Technique forAssessingStudentPerformance in Conducting Online Virtual and Remote ControlledLaboratories[J].IEEEAccess，2022，10：128046-128065.

[6]汪生海，劉玉敏.深度學習在虛擬實驗指導與批改中的應用[D].：郵電大學，2018.

[7]張景輝，王培進.課程設計自動評分系統設計與實現

[8]張琳，陳夕松，王曉俊.基于遠程開放式測控教學實驗平臺的智能綜合考評系統研發[D].南京：東南大學，2020.

[9]孫雅琳，文福安.人工智能在語言訓練指導和批改中的應用[D].：郵電大學，2018.

[10] CHENYF，LIUXM，HUOPP，et al.TheDesign andImplementation forAutomaticEvaluation SystemofVirtual Experiment Report[C]//201712th International Conference on Computer Science and Education（ICCSE）.Houston：IEEE， 2017：717-721.

[11]姜建華，汪洋，王敏，等.基于互聯網的實驗教學到實驗報告自動批改[J].實驗室研究與探索，2017，36（5）：157-161.

[12]李東煒，胡昊，龍云.基于Halcon平臺的金工實習自動評分系統[J].機電工程技術，2025，54（2）：111-115.

[13]ZENGW，GUOJ，HAOL，etal.EvaluationofPhysical Electrical Experiment Operation Process BasedonYOLOv5 and ResNeXt Cascade Networks[J].Neural ProcessingLetters，2022，55（2）：1583-1603.

[14]曹姍姍.工科線上實驗報告智能評價系統設計與開發[D].：林業大學，2022.

作者簡介：徐繼寧（1970—），女，漢族，陜西興平人，副教授，博士，研究方向：控制理論與模式識別、智慧教育；通信作者：黃楠（1997一），男，漢族，人，碩士在讀，研究方向：深度學習、自然語言處理、智慧教育；宋浩（1977一），男，漢族，河北廊坊人，工程師，本科，研究方向：邊緣智能與智能制造控制系統、工業控制網絡。