摘 要:近年,Microsoft Copilot類生成式人工智能引發社會各界的廣泛討論。本文基于中學地理教育視角,評估了Copilot在2022—2024年6次浙江省地理選考試卷中的表現。結果表明,盡管Copilot以55.9%的平均得分率超過失分率(44.1%),具備基本的地理素養及較好的交互性與生成性,但可靠性與穩定性較弱,尤其在自然地理學與部分圖像解析方面局限性較大;Copilot在對地理的理解與響應生成方面,有潛在的改進空間。通過實證分析,Microsoft Copilot具有賦能地理教育和成為師生新型學習工具的潛力,但必須審慎、批判性地使用,不應將其作為地理問題答案的可靠提供者。師生需主動提升人工智能素養,擁抱智能技術,順應未來地理教育的變革浪潮。
關鍵詞:Microsoft Copilot;人工智能;中學地理教育
中圖分類號:G633.55 文獻標識碼:A 文章編號:1005-5207(2025)01-0017-05
近年來,語言模型在理解和生成跨領域的類人文本方面取得了顯著進展,并引發各領域的廣泛討論[1-2]。眾多教育工作者對AI于教育界的可能影響進行了大量有益探索[3-4],其中部分地理學者對人工智能時代背景下中學地理教學面臨的機遇、挑戰及如何應對等也進行了相關理論闡述[5-8]。但在評估AI處理標準化考試材料領域,尤其是其理解題目材料信息和生成答案的準確性方面,研究仍相對局限,不利于挖掘和拓展其作為地理教育工具的可能性。Microsoft Copilot為微軟推出的高級語言模型,是由 OpenAI 公司提供支持并使用ChatGPT 4.0版本的搜索引擎。與需要較高費用的原生ChatGPT 4.0相比,Copilot免費版也可處理圖表、文檔等復雜材料。地理選考是評估學生對地理原理的掌握程度及其在現實生活中應用能力的“試金石”。本文通過評估Copilot在浙江省地理選考中的表現,了解該模型在理解多元地理概念與幫助學生學習方面的能力,及其在中文語境下的適用性與AI賦能地理教育的實際應用潛力,為師生更加高效地使用AI輔助地理教與學提供參考。
一、研究方法
浙江省高考地理標準化試卷來源于公開可用的資料,包括2022年1月、2022年6月、2023年1月、2023年6月、2024年1月、2024年6月(以下簡稱2022.1、2022.6、2023.1、2023.6、2024.1、2024.6)的6次普通高校招生入學考試,主要題型為選擇題和簡答題。其中,2022.1~2023.6前20項選擇題單個分值為2分,后5項為3分,滿分55分;2024.1和2024.6的25項選擇題單個分值均為2分,滿分50分。此數據集因其為高考試題而具有內容豐富、要求嚴格、科學性高等特點,并涵蓋自然地理學、人文地理學及地理信息技術等多元的地理主題。Microsoft Copilot是有效評估具有較多圖表地理試題的合適工具。圖1為本文數據處理過程,從數據集測試到使用origin等繪圖軟件對Copilot測試結果進行可視化表達。
為確保評估的客觀性和統計便利性與精準性,本文全部采用選擇題,降低評價簡答題答案時的主觀因素,并將試題按年份、地理主題2個維度進行分析。通過搜索網絡資源和咨詢資深教師確定試題答案,將Copilot的回答分為3個獨立類別:正確、錯誤以及未給出有效回答(多選或未選)。然后將其響應結果與標準答案進行比對以評估Copilot在理解材料圖文信息和提供正確答案方面的有效性。
二、Microsoft Copilot評估結果
1.Copilot作答總體表現
Microsoft Copilot作答結果的年際分布表明(表1、圖2、圖3a),其在近6次的平均得分率(55.9%)高于失分率(44.1%),但不同年份表現出顯著差異性。其中,2024.1準確率40%(10/25)顯著低于其他年份,錯誤率56%(14/25)占比最大,未答率為4%(1/25);2023.6表現最為優異,準確率達68%(17/25),沒有未答情況,準確度和完成度均最好;2023.1和2024.6正確率均為60%(15/25),僅次于2023.6;2022.1與2022.6表現均較為平庸:準確率分別為48%(12/25)、56%(14/25),錯誤率分別為52%(13/25)、44%(11/25),未答率均為0。上述結果表明,盡管Copilot問題參與度高,基本可回答所有問題,但提供答案的準確性有限。由于地理學科的特殊性,圖表是題目的重要載體與表現方式,圖表類題目占歷年試題80%以上篇幅。因此,從作答完成度來看,Copilot基本可對圖表內容進行讀取和分析。
2.Copilot作答與實際考生對比結果
為確定Copilot在實際考試情境中的表現,本文以2024.1選考試題為例,隨機抽取并統計了兩所學校共67名考生的選擇題得分(A校28人,均分29.36,為地區排名靠后學校;B校39人,均分36.82,為地區排名靠前學校;總平均分33.7),各分數段百分比排名情況如圖4所示。實際考生成績的高斯擬合曲線(圖4a)表明,得20分的人數只占總人數的2.8%左右,在所有分數段中屬于低分段且人數占比非常低。從實際分數排名(圖4b)看,20分在所有考生中排名靠后,僅超過2.98%的學生。因此,Copilot與系統學習過地理的考生相比,其地理思維和素養略顯不足,在地理考試中并非一名出色的“考生”。
3.Copilot對不同主題作答表現的差異性
從地理主題(圖3b)看,自然地理類題目近6次平均正確率為44.19%,人文地理類為70.24%。除2022.6自然地理類題目準確率(58.8%)略高于人文地理類(42.9%),其他時間人文地理類均顯著高于自然地理類。此外,自然地理得分率與總分的Pearson相關性分析(數據符合正態分布,顯著性>0.05)結果表明,兩者的相關系數為0.873,P值為0.023,小于0.05,說明兩者存在顯著相關性,即自然地理的低得分率是造成總得分偏低的主要原因。地理信息技術類題目占比較少,2023.6未命該類題目,其余6題答對4題,準確率為66.7%。
三、討論
1.培養提問技巧,在與Copilot雙向互動中鞏固地理知識
整體而言,Copilot 6次選擇題平均得分(29.83分)略超過總分半值(27分),證明其對地理問題具有基本理解,并在“正確回答”方面表現出較好的一致性,即對于所給的正確答案可以進行科學解釋。特別是對于部分圖表的準確解讀與分析,表明Copilot在特定知識領域和上下文推理方面有較大潛力。但44.1%的失分率及在部分解析中提供錯誤推斷、虛假和偏見的信息亦不可忽視,這一結果可能是由訓練數據較少或數據質量較差所致[9]。源于ChatGPT的Copilot訓練數據來源于不同語言的不同樣本量,且因其誕生于美國,因而訓練樣本也多為英語材料,這種偏差會降低語言之間的理解和翻譯的準確性[10]。有學者指出,若試題語言為英語,ChatGPT 得分會比以其他語言進行的考試高10.4%[11]。因此,從教育工具的角度來看,Copilot可解答還沒有給出答案的題目,并支持對結果的追問,實現人機的雙向互動,彌補了傳統的基于人工提供正確答案的搜題工具的單向性缺陷,可成為學生的虛擬“學伴”。
有效提問與追問可提高生成式人工智能的回答準確率[12]。因此,為獲取正確響應,學生需主動使用正確的地理術語或概念組織問題進行提問,并根據回答形成新問題,不斷提高提問技巧和能力,在此過程中增強對已有知識的鞏固。但Copilot并非是完全可靠的助手,其在提供錯誤解析時也會“有理有據”地“自圓其說”,故需引導學生通過教科書和科學文章等權威參考資料確認來自人工智能信息的可靠性并審慎使用。對信息的謹慎求證與評估同樣是培育學生自主學習能力的重要構件。
2.關注主題差異,加強對Copilot自然地理類回答的甄別
Copilot的6次地理選考測試結果在不同年份和題型中表現差異較大,可靠性與穩定性較弱。年際得分差異性主要由自然地理、人文地理的不同主題得分貢獻度所致,尤其是自然地理低得分率導致了總分偏低。中學地理教材和課程涉及地球表層環境的形成背景與演化過程,運行機制和作用路徑,時空分異特征和變化規律,人地關系與可持續發展,資源環境與自然災害,人口、城市與鄉村,世界格局、國家情勢、區域區位等知識[13]。Copilot在自然地理類題目中的不良表現凸顯其在自然科學知識與應用方面的薄弱,這可能是由于所需的地球科學類知識(海洋地理、生物學、地貌學、地質學、天文學、氣象氣候學、土壤學、水文學等)無法在Copilot的訓練數據中得到充分體現,或缺乏在特定題目材料情境下運用此部分知識的能力。反之,其在人文地理類題目中的優異表現,可能歸結為Copilot訓練數據中有較豐富的社會科學類知識(人口、農業、工業、城市、語言、宗教、旅游、政治、行為地理學等)樣本量[14]。從社會性角度看,人文地理貼合生產生活,題目信息也多基于現實生活案例,易于識別。且因其在人文類知識方面的廣泛訓練,使其能夠更好地理解和分析人文地理類材料信息,故此類題目的答題表現較為出眾。
因此,在使用Copilot作答時,需注意不同主題類型的準確度,尤其要加強對自然地理類主題回答結果的評估。鼓勵學生在評估過程中充分利用已有知識并結合教材,對疑點進行追問,弄清模型答案背后所依據的事實、原理和推理過程,從而鞏固和提升地理知識。
3.反思解析結果,注重對Copilot答案解釋的多元化利用
在圖表分析方面,圖像解析的準確度存在較大差異,且穩定性較差。下面以2024.1第9~10題為例進行說明。
一個區域的水資源總量與該區域的降水量和面積成正相關。表2為2022年我國甲、乙兩省(區市)水資源狀況,圖5為甲、乙用水量的構成。完成9~10題。
Microsoft Copilot:題目9,根據圖表甲省的水資源總量較乙省少,但用水量的構成相似。因此,可考慮選項D“甲乙間跨區域調水”,即通過跨區域的水資源調配,平衡兩地的水資源和用水需求。題目10,根據圖表乙省的水資源總量和各類用水量都明顯高于甲省,這可能與乙省的產業結構有關,因此,可推斷選項B“乙第一二產業比例更高”,即乙省的第一產業(農業)和第二產業(工業)占比可能高于甲省。
【例題解析】本題考查資源跨區域調配、學生讀圖及地理知識綜合應用能力。Microsoft Copilot對圖表信息進行了準確解讀,并結合表中甲、乙兩地的水資源特點與圖示用水類型構成選出正確答案,解析過程較為科學合理且具有一定邏輯性,體現了過程與結果的一致性(衡量人工智能選擇的選項與其解釋之間的一致性或相似程度的指標)[15]。
但在2024.1第20~21題中,Copilot則表現較差。具體如下。
河流階地是發育在河谷兩側高水位之上的階梯狀臺地。圖6為某河流階地剖面示意圖,圖中標注的時間為階地形成的距今時間。完成20~21題。
Microsoft Copilot:題目20,根據圖中的時間和高度標注,T2的形成時間是3.5萬年前,而T1的形成時間是1.1萬年前,兩者相差2.4萬年,T2的高度是255米,T1的高度是210米,兩者相差45米,因此,T2的抬升幅度是45/2.4=18.75米/萬年,而T1的抬升幅度是15/1.1=12.82米/萬年,所以T2的抬升幅度最大。題目21,根據圖例,T2的組成物質是細砂巖,而其他階地的組成物質是粗砂巖,這說明T2的沉積物來自河流的側蝕作用,而不是下切作用,因此,T2的階地面比其他階地的階地面更寬,呈現出不同的結構。
【例題解析】此組題考查水成地貌及學生讀圖分析能力。Copilot在20題的分析思路正確,通過比較各階地的形成時間和高度來判斷階地的抬升速率快慢。但由于信息讀取錯誤,導致計算結果錯誤。21題未將圖例與圖示對應,未能準確判斷出T2時期的沉積結構,并杜撰未出現的“細砂巖”“粗砂巖”詞匯。分析過程也有悖一般的河流沉積結構與流水運動關系。該題暴露了生成式人工智能的潛在不足,即當未受過類似文本和數據訓練時,其會基于已有“知識”進行分析推演,做出錯誤判斷,生成具有偏見性、不正確甚至虛假的信息[16]。
綜上不難發現,Copilot的地理圖像解析能力不穩定,需要強化對模型答案解釋的分析。對于正確答案,可思考模型的答題過程與術語使用,拓寬學生解題思路,查找知識漏洞;對于錯誤答案,可仔細研究模型推理過程的錯因,強化學生的思辨能力和對已有知識的運用能力。對于教師而言,也可將模型錯誤的解題過程用于課堂教學設計,以此檢測學生對知識的掌握情況并培養學生獨立思考能力與批判性思維。
4.積極應對改變,理性使用生成式AI賦能中學地理教育
隨著Copilot接受更多訓練數據和更先進算法,其問題解答能力一定會隨之提升。例如,OpenAI發布ChatGPT 4.0時隨附的技術文件顯示了其在美國繼續教育(post-16 education)標準化測試中的明顯改進[17]。Copilot等生成式人工智能未來將對學校教育產生重大影響,并有望解決教育現代化進程中面臨的一些問題[18]。從教育者角度來看,地理教師必須適應新的教育生態,發展人機協同的教學能力,借助人工智能構建更加高效的教—學—評一體化的地理課程模式。此外,需培養學生的高階地理思維能力、信息甄別能力及高效使用智能工具的能力[19]。如教師可提升課堂中對學生的提問技巧,鼓勵學生提出更好、用詞更科學規范的問題,因為學生在與Copilot類生成式人工智能交互時就是不斷運用正確的地理術語或概念組織問題,并通過提問與追問的方式來挑戰 AI的回答。
在鼓勵學生使用人工智能的同時,亦需提前思考和防范其在考試中的不當使用及可能引發的教育誠信危機[19]。
四、結語
本文評估了Microsoft Copilot在普通高等學校招生全國統一考試(2022—2024年浙江省地理選考)中的表現。由于評估載體為中文語境下的浙江省地理選考試題,而Copilot作為成長在英語環境中的模型,可能在處理英文類題目時會有更高的準確度[11],故此次測試或許無法代表其他語言或科目使用的效果。此外,目前市面上已有“文心一言”“通義千問”等國產大型語言模型,本研究只測試了Copilot的性能,沒有與國內本土化人工智能模型進行比較。
盡管存在以上不足,但本文仍基于浙江省地理選考試題為地理教育工作者了解Copilot在服務中學地理教育中的優勢與局限提供了一定參考。Copilot具有交互性強、生成性較好的特點,具備作為地理教育補充工具的潛力,但也存在準確率不高、穩定性弱等不足,特別是在自然地理學與部分圖像解析方面還有較大提升空間,故不應將其作為地理問題答案的可靠提供者。人工智能以其變革潛力,將極大影響現代教育。因此教師和學生應積極擁抱智能技術,提升人工智能素養,審慎、批判地利用Copilot等生成式人工智能模型作為教育、學習工具。另外,政策制定者、研究人員、教育工作者和技術專家需跨領域合作以尋找應對生成式人工智能潛在挑戰的有效策略,將 Copilot 等人工智能集成到教育系統中,以提高其作為地理教育甚至更廣泛的教育背景下的教育工具的有效性。
參考文獻:
[1] 丁寶根,鐘陽陽. “ChatGPT+高等教育”變革的驅動因素、主要障礙及有關建議[J]. 現代教育技術, 2024, 34(4): 60-68.
[2] Biswas S S. Potential use of chat gpt in global warming[J]. Annals of biomedical engineering,2023, 51(6): 1126-1127.
[3] 應益華,陳嘉樂,黃百俊. 教育生態重塑: ChatGPT的潛力、風險及治理[J]. 繼續教育研究,2024(5): 56-61.
[4] Sharma S, Yadav R. Chat GPT–A technological remedy or challenge for education system[J]. Global Journal of Enterprise Information System,2022, 14(4): 46-51.
[5] 肖麗梅,馮冰,李詩涵,等. 人工智能時代中學地理教學的機遇、挑戰與進路[J]. 地理教育,2024(6): 7-10.
[6] 鄒筱露,徐志梅. ChatGPT的新樣態及地理教育的應對之策[J]. 地理教育,2024(6): 11-14.
[7] 石嘉寧,徐志梅. 地理教學“人機共教系統”的價值與實現路徑[J]. 地理教育,2024(3): 63-65.
[8] 楊林茂,閆曉玲,郭志永. 芻議人工智能與未來中學地理教學[J]. 地理教育,2018(10): 11-13.
[9] Sallam M. ChatGPT utility in healthcare education, research, and practice: systematic review on the promising perspectives and valid concerns[C]. MDPI, 2023.
[10] Zhuo T Y, Huang Y, Chen C, et al. Exploring ai ethics of chatgpt: A diagnostic analysis[J]. arXiv preprint arXiv,2023(1):128-167.
[11] Wood D A, Achhpilia M P, Adams M T, et al. The ChatGPT artificial intelligence chatbot: How well does it answer accounting assessment questions?[J]. Issues in Accounting Education,2023, 38(4): 81-108.
[12] 王麗,李艷,陳新亞,等. ChatGPT支持的學生論證內容評價與反饋——基于兩種提問設計的實證比較[J]. 現代遠程教育研究,2023, 35(4): 83-91.
[13] 王建,張昊,鄔愉婷,等. 中學地理課不宜改為地球科學課[J]. 地理學報,2023(12): 3161-3171.
[14] 王恩涌,張小林,劉繼生,等. 人文地理學(第二版)[M]. 北京:高等教育出版社, 2000.
[15] Yu P, Fang C, Liu X, et al. Performance of ChatGPT on the Chinese Postgraduate Examination for Clinical Medicine: Survey Study[J]. JMIR Medical Education,2024(10): e48514.
[16] Tlili A, Shehata B, Adarkwah M A, et al. What if the devil is my guardian angel: ChatGPT as a case study of using chatbots in education[J]. Smart Learning Environments,2023, 10(1): 15.
[17] Achiam J, Adler S, Agarwal S, et al. Gpt-4 technical report[J]. arXiv preprint arXiv,2023,2303:08774.
[18] 黃榮懷,李敏,劉嘉豪. 教育現代化的人工智能價值分析[J]. 國家教育行政學院學報,2021, 285(9): 8-15, 66.
[19] 黃榮懷. 人工智能正加速教育變革:現實挑戰與應對舉措[J]. 新華文摘,2023(17): 122-125.