







[摘 要] 選用Kimi作為生成式人工智能AIGC分析工具,以某市2023年高中學業水平等級性考試歷史學科試卷和考生答題卡為分析內容,探討AIGC在高考評價中的應用。研究表明:Kimi協同工作模式可以優化試卷結構分析,提升考生水平臨界分數劃定效度,提高評價結果反饋的時效性和針對性;但存在問題判定過分廣泛、不能深入推理發現材料之間的關系、有時會給出錯誤結論或理由、無法明確進行微調等問題。
[關鍵詞] 生成式人工智能;高考評價;試卷結構分析;評價反饋
[中圖分類號] G424.74 [文獻標識碼] A
[文章編號] 1673—1654(2024)06—042—009
一、引言
高考評價是指基于新一輪高考改革以來高考統一科目(語文、數學、外語)和高中學業水平等級考試科目(物理、化學、生物學、思想政治、歷史、地理)的實測統計數據分析結果,服務于教與學及命題質量改進的過程[1]。雖然高考評價是基于數據的評價,但是其核心環節依然依賴評價老師專業素養的判定,如試卷的結構分析、考生水平臨界分數的確定、評價結果的反饋等,但評價教師團隊通常規模有限,一般僅由5~10人組成,面對眾多的高考評價對象(市級、區級、校級),往往難以提供及時且具有針對性的反饋。
隨著人工智能技術的快速發展,特別是生成式人工智能(Artificial Intelligence Generated Content,AIGC)技術的突破,教育領域迎來了創新的機遇。AIGC技術通過模擬人類的語言生成過程,能夠實現自動化的文本生成、內容理解和邏輯推理,對教育領域產生了巨大影響,極大地豐富了教學內容,增強了教學的互動性,還為個性化學習和評估提供了強有力的工具。現有研究表明,以ChatGPT為代表的AIGC可以參與到教育教學的各個環節,如個性化教學[2]、作業批閱[3]、學習評價設計[4]、考試評價[5]等,為教育創新和質量提升提供強大支持。
AIGC技術雖在教育領域表現出很強的應用潛力,但也應注意到其存在一定的局限性,如它在回答問題時缺乏常識可信度(如ChatGPT容易給出錯誤或無意義的答案、有些答案并無參考來源等)[6]以及具體如何運行缺乏透明度。本研究重點探討AIGC協同參與高考評價的可行性,以及對于優化和改進高考評價工作效度的作用與影響。
二、研究對象和方法
以某市2023年高中學業水平等級性考試歷史學科試卷為例,按照原始分進行分層抽樣,每隔2分抽取6名考生作答題卡,共抽取342名考生作答題卡和數據作為分析對象。選取國內最新推出的Kimi作為AIGC工具的代表。Kimi具有長文總結和生成、聯網搜索、數據處理等功能,是全球首個支持輸入20萬漢字的人工智能工具,具備自動生成結構化提示詞的能力,降低了AIGC的使用難度,使得用戶能夠更準確地獲取答案。
本研究旨在探討以下問題:Kimi協同下優化試卷結構分析的效果;提升考生水平劃定的效度;提高評價結果反饋的時效性和針對性。
研究方法主要包括兩種:Kimi獨立完成部分工作,與人工分析結果進行對比;將Kimi作為輔助工具,協助完成某些分析工作,以提高人工分析的效率和精準度。
三、研究結果與分析
(一)AIGC協同優化高考試卷結構分析的應用
試卷結構分析是高考評價的基礎工作,只有對試卷考查的內容結構和素養結構有了完整、準確的認識,才能為數據分析、診斷和反饋提供依據。目前高考試卷結構分析的依據是《普通高中課程標準(2017年版2020年修訂)》(以下簡稱“《課程標準》”)。選取5名評價教師,在充分研讀《課程標準》的基礎上,獨立進行分析,厘定試題考核內容、所屬知識領域、所考查的學科核心素養、所屬的學業質量水平及所屬的質量描述內容,最后討論確定試卷結構。由于評價教師對試題所屬知識領域和學科核心素養存在一定的爭議,意見不容易統一,影響著評價的客觀性。如圖1所示,Kimi根據結構化提示詞,可先學習《課程標準》,了解學科課程內容和學科核心素養要求,然后讀入上傳的試卷,最后自動輸出結構化試卷分析結果。表1比較了評價教師與Kimi完成的試卷結構分析的一致性程度。
表1數據表明,質量水平描述維度一致性偏低,是因為質量水平描述維度的確定取決于“所屬學科核心素養”和“學業質量水平級別”兩個維度,而兩個維度的差異會累加到“質量水平描述”維度。同樣,“所屬學科核心素養”的差異也會累加到“學業質量水平級別”維度。如果排除累加效應帶來的差異,Kimi試卷結構分析與評價教師一致性較高,一致性程度均在85%以上,說明Kimi的試卷結構分析能夠為評價教師的分析打好基礎。
研究還表明,經過訓練可以提升Kimi試卷結構分析的水平。具體做法是:第一次判定時,未教給它基本的判定操作流程和技巧;第二次判定時,教給它選擇題考核內容(知識點)的判定方法,按照“設問-材料-選項”的順序進行判定,一些錯誤很容易就糾正過來,如表2所示。
從表2可以看出,經過訓練后,Kimi的分析水平得到了很大提高。例如,第2題第1次判定為“秦朝滅亡后的政治格局”,實際此題主要考查項羽的政治行為;第2次判定為“秦朝滅亡后項羽的政治決策和行為”,非常準確。但也要注意到,雖經二次判定,最終的結果仍舊存在不足。例如,第9題判定為“改革開放初期文藝作品”,實際上此題呈現的時間為“1977年”,此時改革開放尚未開始,不屬于“改革開放初期”;第2次判定為“1977年文藝作品反映的社會情況”,時間上非常準確,但是表述上存在歧義。“文藝作品反映的社會情況”可以存在兩種解讀,即文藝作品內容反映的社會情況或者文藝作品出版狀況反映的社會情況,這說明Kimi的判定仍存在改進空間。但是現有的試卷結構分析成果能夠為評價教師進行深入分析提供很好的參照。
(二)AIGC協同提升考生水平臨界分數劃定效度的應用
為挖掘高考或學考分數的教學意義,通常會基于《課程標準》并結合考生作答表現建立學科學業水平表現標準,從而對新高考分數進行標準參照解釋[7-8],而分數的標準參照解釋有一個重要環節,就是劃定水平的臨界分數,最常用的臨界分數劃定方法是安戈夫法(Angoff method),但是安戈夫法在實施過程中主要依賴專家的主觀判斷,因此受專家個人經驗和偏見的影響較大。
本研究實施時首先制定了《高中學業水平等級考試歷史學科考生水平表現標準》(以下簡稱“《表現標準》”),將考生表現劃分為四個水平(精通水平、熟練水平、基本水平、基本水平以下),評價教師依據表現標準,使用改進的安戈夫方法劃定臨界分數之后,可在AIGC協同下對臨界分數附近的考生作答試卷進行質性評估,達到對臨界分數進行效度驗證的目的。具體的工作模式如圖2所示。
以精通水平(G4)臨界分數的確定為例說明臨界分數確定的過程。例如,評價教師根據改進的安戈夫方法確定的精通水平(G4)臨界分數為81分,然后隨機選取了一份84.5分(客觀題得分31分和主觀題得分53.5分)的考生作答題卡讓Kimi依據《表現標準》判斷是否達到了G4水平,分析結果如下:
該考生的分數高于臨界分數,但Kimi的解析并不認為該考生明確達到了G4水平,而是接近G4水平,因此由Kimi自己估計G4水平的臨界分數,如下所示:
根據Kimi的評估,G4水平的臨界分數為81~92分之間,因此隨機選取一份81分考生作答的題卡,由Kimi進行分析,結果如下:
從以上分析可以看出,Kimi從客觀題和主觀題兩部分的作答情況評判考生體現出的能力水平,最后綜合評估認為81分的考生只是在某些方面接近G4水平。為了確定81分是否適合作為G4水平的臨界分數,選取了低于臨界分數(78分)的考生作答題卡,同時給出該考生客觀題得分26分,主觀題得分52分,分析結果如下:
從以上分析可以看出,78分的考生被明確判定為未達到G4水平,因此81分適合作為G4水平的臨界分數。
為進一步確認84.5分考生是否已達到G4水平,由Kimi重新進行了評估,評估結果如下:
可見,在Kimi支持下,能夠實現對考生的作答進行深入的質性分析,有效提取考生作答表現出的學科核心素養特征。通過將考生的作答表現與既定表現標準進行細致的質性對比,使得確定臨界分數的過程從質性到量化,又從量化回到質性,有效驗證了臨界分數確定的準確性和有效性。
(三)AIGC協同提高評價結果反饋時效性和針對性的應用
新高考評價是基于數據的評價,能夠為不同層級的評價對象,包括市級、區級和校級等,生成詳細的數據分析報告。目前由于人力限制,無法實現對每個評價對象提供個性化反饋和定制化的教學建議。然而,在AIGC協同下,可以在評價數據分析和提供有針對性的教學建議方面提供有力支持。圖3顯示了在Kimi的協同參與下,提高評價結果反饋時效性和針對性的工作模式。
首先由Kimi審讀某區2023年普通高中學業水平等級性考試歷史學科考生水平數據統計分析報告,Kimi很快就給出本區不同水平考生知識內容領域和素養領域的強弱項,分析結果如下:
可見,Kimi通過審讀數據報告,能在很短時間內自動給出本區知識內容領域和素養領域中的強弱項,并且還能提出具有針對性的教學建議。雖然Kimi提出的教學建議只是方向性意見,但是評價教師可以憑借自身豐富的教學經驗,在此基礎上進行完善。
Kimi還能根據要求選出知識內容領域和素養領域的典型題,并且給出選擇的依據,如下所示:
對于為什么不選擇某題作為典型題,Kimi還能接受追問,并給出解析:
為提高評價結果反饋的針對性,進一步比較了主觀題同為49.5分的兩名考生的作答題卡,Kimi能夠很快針對兩名考生的作答題卡提出針對性的分析和學習建議:
Kimi顯示出強大的語義分析能力,從多個角度分析了兩名考生作答所表現出的學科核心素養之間的差異,且根據分析內容提出了相應的學習建議,分析的針對性、建議的有效性均較好,達到了專家評價的一般水平。
可見,有了Kimi的輔助,不但可以節省評價教師的評價分析時間,有效提高評價反饋的時效性,而且還可以提升評價反饋的針對性,能夠分析同分考生在知識、能力、思維等層面的不同,并提出相應的學習建議,從而促進學生的個性化學習。
四、討論和建議
以Kimi為代表的AIGC工具應用于高考評價,能較好地優化試卷結構分析及提升考生水平劃定臨界分數的效度,提高評價反饋的時效性和針對性;同時,研究過程中也暴露出當前AIGC工具的不足之處,需要引起足夠重視。
第一,Kimi在內容領域判定方面,存在主要問題判定過分廣泛或缺乏實質性內容的情況。如第4題:
4.漢初采取郡國并行制,后爆發“七國之亂”;曹魏創立九品中正制,后出現門閥士族把持政權;唐朝在邊境重地設置軍鎮,后藩鎮勢大引發“安史之亂”。對上述三組歷史現象的共性,解釋正確的是
A.歷史評判要以成敗為基本依據
B.制度設立之初存在明顯弊端
C.中央與地方矛盾導致社會動蕩
D.歷史事物之間因果關聯復雜
第4題題干呈現了三組史事,漢朝的郡國并行制、三國兩晉南北朝的九品中正制、唐朝的節度使制度,這三個史事都是中國史,而且都屬于中國古代政治史內容,沒有世界史的內容。但是Kimi判定為“中外歷史現象的共性解釋”,“中外”過于寬泛,歷史現象也過于寬泛。其他判定的表述大體上是合適的。
第二,在素養領域中的質量水平描述判定方面,不能深入推理發現材料之間存在的關系。如第3題和第4題:
3.唐朝租庸調制和兩稅法情況
上表反映了
A.減輕部分農民的負擔
B.保證農民的生產時間
C.強化農民的人身依附
D.增加政府的算賦收入
Kimi判定第3題所屬學科核心素養是史料實證,這是對的。判定質量水平描述時,判定史料實證的層次屬于“3-3 能夠在探究特定歷史問題時,自主地搜集有關史料,并利用不同類型史料的長處進行互證”。分析該題材料可知,該題不存在不同類型的史料,只有一種史料,即經過處理后的唐朝租庸調制和兩稅法兩種賦稅制度的數據統計。該題要求考生分析唐朝租庸調制和兩稅法的歷史材料并得出一定的結論,因此屬于“ 2-3能夠在對史事與現實問題進行論述的過程中,嘗試運用史料作為證據論證自己的觀點”。
Kimi判定第4題所屬學科核心素養是歷史解釋,這是對的。判定質量水平描述時,認為第4題屬于課程評價標準中,歷史解釋的“ 3-4能夠分辨不同的歷史解釋,并嘗試從來源、性質和目的等多方面加以評析”層級,則是錯誤的。第4題材料中呈現了三組史事(系列史事),漢朝的郡國并行制、三國兩晉南北朝的九品中正制、唐朝的節度使制度,三種制度設立之初都起到了積極作用,有利于統治,后期都出現了問題,不利于統治。因此,該題核心素養水平屬于歷史解釋的“ 3-4能夠選擇、組織和運用相關材料并使用相關歷史術語,在正確的歷史觀和方法論的指導下,對系列史事作出解釋”。
第三,Kimi有時會給出一些錯誤結論或理由。如Kimi在選取典型題時,會給出錯誤的選擇理由。第10題考查的是古埃及的歷史,而Kimi給出的典型題選取理由是涉及中國近現代史,這是錯誤的;第14題圖中給出的是清朝商幫貿易示意圖,而Kimi給出的典型題選取理由是涉及中國古代國家起源與發展階段。Kimi在審讀數據報告時,從數據報告中提取的內容不一定準確,會存在誤讀,給出錯誤的結論,如強弱項分析時,認為本區G1水平組世界史的得分率0.58和綜合的得分率0.48低于同類區或全市,實際卻是高于同類區或全市。因此,針對Kimi給出的內容或從數據報告中提取的內容,仍需要評價教師使用時進行甄別。
第四,由于AIGC運行的暗箱性,目前仍無法明確如何進行微調。本次研究雖探索過借助提示詞進行微調,但依然不夠精細,而且AIGC工具為了表明自身具有一定的智能性,兩次分析的結果并不完全一樣,雖然可以通過溫度參數進行調節,但是固定的結果,會影響生成式人工智能水平的提升。
總之,AIGC參與到新高考評價工作流程中,確實可以大幅提升評價分析的效率和效度,同時也存在一些不足。未來隨著技術的不斷發展和完善,AIGC有望更好地滿足教育評價領域的多樣化需求。
參考文獻:
[1] 于涵,韓寧,關丹丹,關于新高考改革背景下考試質量監測與評價工作的思考[J].中國高教研究,2018,(10):11-16.
[2] 陳勝賢.生成式人工智能在高中地理個性化教學中的運用——以ChatGPT應用于“陸地水體及其相互關系”教學為例[J].中學地理教學參考,2024,(05):16-21.
[3] 高立洋,姚偉國,樂聲浩.生成式人工智能在地理作業批閱中的實踐探索[J].中小學數字化教學,2024,(01):56-60.
[4] 鄭耿標.基于生成式人工智能的歷史學習評價設計初探[J].歷史教學,2024,(03):20-29.
[5] 孫旭.人工智能在考試評價領域的實踐研究——以2023年江蘇省高考地理試題為例[J].地理教學,2024,(05):21-23+34.
[6] 托雷·霍爾,李思琦,孫波.生成式人工智能對歐洲教育的影響及對中國的啟示[J].中國教育信息化,2023,29(06):8-16.
[7] 關丹丹,韓寧,章建石.立足“四個評價”、服務“五類主體” 進一步深化高考評價改革[J].中國考試,2021,(03):1-8.
[8] 許志勇,劉欣.高考分數標準參照解釋的實踐與思考[J].天津師范大學學報(基礎教育版),2017,18(03):69-74.
Research on the Application of Generative Artificial Intelligence in the Evaluation of the New College Entrance Examination : Taking Kimi as an Example
Xu Zhiyong1" Fan Yingjun2
1 Tianjin Municipal Educational Admission amp; Examinations Authority,Tianjin,300387
2 Tianjin No. 41 High School,Tianjin,300204
Abstract: Chosing Kimi as the analysis tool,and the test paper of History subject and candidates’ answer sheets of 2023 High School Academic Level Grade Examination of a city as the analysis contents,this paper focuses on the application of generative artificial intelligence in the evaluation of the new college entrance examination. The study shows that Kimi collaborative working mode can optimize the structure analysis of the examination paper,enhance the validity of the demarcation of the critical score of the candidates’ level,and improve the timeliness and relevance of the feedback in the evaluation results so as to improve the validity and efficiency. Some problems,such as problem judgment is too broad,it is unable to reason deeply to discover relationships between materials,sometimes it gives wrong conclusions or reasons,it is not sure how to fine-tune,should be paid attention to under the current use of AIGC.
Key words:Generative Artificial Intelligence,New College Entrance Examination Evaluation,Analysis of Examination Paper Structure,Evaluation Feedback
(責任編輯:吳茳、陳暢)
作者簡介 許志勇,副研究員,天津市教育招生考試院。天津,300387。范英軍,一級教師,天津市第四十一中學。天津,300204。
基金項目 本文為教育部教育考試院“十四五”規劃支撐專項課題“基于學科核心素養的新高考分數標準參照解釋的研究”(課題批準號:NEEA2021043)研究成果之一。