GenAI模型與中國教育的價(jià)值觀對(duì)齊：如何評(píng)測？如何提升？

2025-06-17 00:00:00喻梅戎璐

現(xiàn)代教育技術(shù) 2025年5期

【中圖分類號(hào)】G40-057【文獻(xiàn)標(biāo)識(shí)碼】A【論文編號(hào)】1009—8097（2025）05—005—09【DOI】10.3969/j.isn.1009-8097.202505.001

生成式人工智能（Generative Artificial Intelligence，GenAI）的快速發(fā)展，推動(dòng)了教育的智慧化轉(zhuǎn)型。目前，GenAI模型已被廣泛應(yīng)用于教師智慧教學(xué)、學(xué)生個(gè)性化學(xué)習(xí)、研究者循證研究、管理者數(shù)智化決策等多個(gè)方面[1]。然而，GenAI模型生成的內(nèi)容可能會(huì)存在傳遞不準(zhǔn)確、具有誤導(dǎo)性甚至包含有害信息的風(fēng)險(xiǎn)[2]，從而影響學(xué)生價(jià)值觀的形成。這就凸顯了當(dāng)前計(jì)算機(jī)科學(xué)領(lǐng)域的一個(gè)核心問題：如何確保GenAI模型準(zhǔn)確理解并傳遞人類的規(guī)范和價(jià)值觀[3]？有研究表明，未經(jīng)對(duì)齊的GenAI模型在面臨簡單的道德選擇判斷時(shí)，只有 60.2% 的準(zhǔn)確率[4]。特別是以ChatGPT、GPT-4o 為代表的國外GenAI模型在進(jìn)行大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的過程中，可能會(huì)自覺或不自覺地宣揚(yáng)個(gè)人主義、自由主義等西方價(jià)值觀[5]，而這必然會(huì)與中國所強(qiáng)調(diào)的集體主義價(jià)值觀產(chǎn)生沖突。此時(shí)，如果不對(duì)GenAI模型進(jìn)行謹(jǐn)慎評(píng)估和及時(shí)調(diào)控，就可能會(huì)對(duì)中華優(yōu)秀傳統(tǒng)文化傳承和國家意識(shí)形態(tài)安全產(chǎn)生不利影響。考慮到“教育活動(dòng)不可能回避價(jià)值問題”[，為了確保GenAI模型真正服務(wù)于中國的教育目標(biāo)，亟需在技術(shù)應(yīng)用的過程中遵循以中國教育的價(jià)值觀為導(dǎo)向的原則，以使其更好地適應(yīng)本土教育需求。因此，本研究擬從“如何測評(píng)”“如何提升”兩個(gè)方面，來探討GenAI模型與中國教育的價(jià)值觀對(duì)齊問題。

一相關(guān)研究

1中國教育價(jià)值觀解讀

“價(jià)值觀”具有文化屬性，是一種決定和影響人們行為取向的觀念[7]，也是人們衡量自己或他人行為正確與否的主觀依據(jù)。“教育價(jià)值觀”是教育理論與實(shí)踐中的一個(gè)重要問題，是關(guān)于教育價(jià)值問題的觀念體系[8]，其核心是回答“為誰辦教育”和“為誰培養(yǎng)人”的問題[9]，旨在為教育活動(dòng)提供根本指引。習(xí)近平總書記強(qiáng)調(diào)：教育要堅(jiān)持正確的價(jià)值導(dǎo)向，服務(wù)于培養(yǎng)德智體美勞全面發(fā)展的社會(huì)主義建設(shè)者和接班人這一根本目標(biāo)[10]。陳才烈等[1從“人民中心的教育發(fā)展論”“服務(wù)中華民族偉大復(fù)興的教育使命論”兩個(gè)方面，科學(xué)回答了新時(shí)代我國教育的價(jià)值取向。崔瑞霞等[12]從教育價(jià)值立場、價(jià)值取向、價(jià)值追求、價(jià)值目標(biāo)、價(jià)值標(biāo)準(zhǔn)和價(jià)值原則六個(gè)維度，對(duì)我國教育價(jià)值觀進(jìn)行了系統(tǒng)論述。總的來說，中國教育價(jià)值觀體現(xiàn)了“國家發(fā)展戰(zhàn)略”與“個(gè)體全面發(fā)展”的雙重導(dǎo)向：不僅強(qiáng)調(diào)教育對(duì)國家戰(zhàn)略的支撐功能，而且注重學(xué)生個(gè)體的德智體美勞全面發(fā)展，這就對(duì)技術(shù)應(yīng)用提出了協(xié)同服務(wù)國家發(fā)展和促進(jìn)個(gè)體成長的雙重要求。

2價(jià)值觀對(duì)齊相關(guān)研究

“價(jià)值觀對(duì)齊”概念最早萌芽于“控制論之父”Wiener的觀點(diǎn)：“我們最好完全確定賦予機(jī)器的目標(biāo)就是我們真正想要的目標(biāo)”[13]。在一次訪談中，Russell提出“價(jià)值對(duì)齊問題”：“我們需要解決的不是純粹的智能問題，而是與人類價(jià)值觀對(duì)齊的智能；價(jià)值對(duì)齊問題是人工智能風(fēng)險(xiǎn)管理的一部分。”[14]目前，學(xué)術(shù)界尚未對(duì)“價(jià)值觀對(duì)齊”形成統(tǒng)一定義。本研究中的“價(jià)值觀對(duì)齊”，是指GenAI模型生成的內(nèi)容要契合中國教育的價(jià)值觀。也就是說，GenAI模型不僅要輸出符合規(guī)范的內(nèi)容，更要體現(xiàn)其與中國教育在目標(biāo)導(dǎo)向、價(jià)值取向、價(jià)值標(biāo)準(zhǔn)、價(jià)值根基等維度的深度契合，從而實(shí)現(xiàn)其與中國教育價(jià)值觀的有效對(duì)齊。

通過文獻(xiàn)梳理，本研究發(fā)現(xiàn)已有的價(jià)值觀對(duì)齊相關(guān)研究成果集中在兩個(gè)層面： ① 理論層面，有研究從GenAI模型對(duì)齊的價(jià)值表征出發(fā)，探討了其倫理路徑[15]；有研究從道德倫理角度，探究了道德機(jī)器與價(jià)值對(duì)齊的道德前景[1]，并通過新技術(shù)倫理路徑分析了人機(jī)價(jià)值對(duì)齊的問題[17]。 ② 技術(shù)層面，主要涉及規(guī)范GenAI模型發(fā)展的三條路徑，一是禁止研發(fā)自主性人工智能機(jī)器；二是加大GenAI模型的透明度，打開算法黑箱，使GenAI模型的行為可以得到解釋；三是將人類道德嵌入GenAI模型，這被認(rèn)為是實(shí)現(xiàn)價(jià)值對(duì)齊的最佳選擇[18]。可見，現(xiàn)有研究多從理論思辨或技術(shù)路徑等視角展開探討，但較少深入分析其在具體教育場景中的應(yīng)用，尤其是與特定文化背景下的教育價(jià)值觀相結(jié)合的研究較少。基于此，本研究重在探討GenAI模型與中國教育的價(jià)值觀對(duì)齊問題，以填補(bǔ)此方面的研究不足。

二價(jià)值觀對(duì)齊評(píng)測框架的構(gòu)建

中國傳統(tǒng)德育思想是數(shù)千年道德教育理念的結(jié)晶，為當(dāng)代中國教育價(jià)值觀奠定了深厚的歷史和文化基礎(chǔ)。作為一種以倫理價(jià)值和德性修養(yǎng)為核心的道德文化，中國傳統(tǒng)德育思想始終引導(dǎo)個(gè)體崇德修身、向善向上[19]。這種價(jià)值觀為現(xiàn)代教育中的“立德樹人”任務(wù)提供了道德依據(jù)和實(shí)踐導(dǎo)向。習(xí)近平總書記對(duì)新時(shí)代的中國教育價(jià)值觀進(jìn)行了系統(tǒng)論述，明確指出要培養(yǎng)德智體美勞全面發(fā)展的社會(huì)主義建設(shè)者和接班人[20]，堅(jiān)持“四為”方針，落實(shí)“立德樹人”根本任務(wù)[21[2]，傳承和弘揚(yáng)中華優(yōu)秀傳統(tǒng)文化[23]。這些論述明確了“教育為誰培養(yǎng)人”“培養(yǎng)什么人”“如何培養(yǎng)人”的根本問題，可為本研究構(gòu)建價(jià)值觀對(duì)齊評(píng)測框架提供理論指導(dǎo)。

綜上，本研究提出價(jià)值觀對(duì)齊評(píng)測框架的構(gòu)建思路： ① 以中國傳統(tǒng)德育思想為基礎(chǔ)，結(jié)合習(xí)近平總書記在全國教育大會(huì)、師生座談會(huì)等重要講話中對(duì)教育價(jià)值導(dǎo)向的系統(tǒng)闡述，明確教育的政治方向與育人目標(biāo)； ② 將教育學(xué)領(lǐng)域的相關(guān)研究成果特別是崔瑞霞等[24提出的中國教育價(jià)值觀六個(gè)維度（即價(jià)值立場、價(jià)值取向、價(jià)值追求、價(jià)值目標(biāo)、價(jià)值標(biāo)準(zhǔn)、價(jià)值原則）作為理論支撐； ③ 結(jié)合GenAI模型在教育場景中的現(xiàn)實(shí)應(yīng)用需求，強(qiáng)調(diào)價(jià)值觀對(duì)齊的可評(píng)估性與適配性。據(jù)此，本研究構(gòu)建了包含目標(biāo)導(dǎo)向、價(jià)值取向、價(jià)值標(biāo)準(zhǔn)和價(jià)值根基四個(gè)維度的價(jià)值觀對(duì)齊評(píng)測框架，如圖1所示。價(jià)值觀對(duì)齊評(píng)測框架既體現(xiàn)了中國教育價(jià)值觀在技術(shù)應(yīng)用中的引導(dǎo)作用，也為GenAI模型在教育領(lǐng)域的本土化評(píng)估與質(zhì)量保障提供了參考依據(jù)。6

① 目標(biāo)導(dǎo)向：習(xí)近平總書記指出，我國社會(huì)主義教育就是要培養(yǎng)德智體美勞全面發(fā)展的社會(huì)主義建設(shè)者和接班人[25]。目標(biāo)導(dǎo)向不僅指向個(gè)人的全面發(fā)展，更要服務(wù)于國家的長遠(yuǎn)發(fā)展，確保教育內(nèi)容和方向契合國家需求。② 價(jià)值取向：教育不僅要傳遞知識(shí)和培養(yǎng)技能，更要將社會(huì)主義核心價(jià)值觀貫穿于育人全過程，培養(yǎng)學(xué)生的社會(huì)責(zé)任感和家國情懷。具體來說，就是要堅(jiān)持教育的“四為”方針，即為人民服務(wù)、為中國共產(chǎn)黨治國理政服務(wù)、為鞏固和發(fā)展中國特色社會(huì)主義制度服務(wù)、為改革開放和社會(huì)主義現(xiàn)代化建設(shè)服務(wù)[26]。③ 價(jià)值標(biāo)準(zhǔn)：在教育成效評(píng)價(jià)中，習(xí)近平總書記提出要將“立德樹人”的成效作為檢驗(yàn)學(xué)校一切工作的根本標(biāo)準(zhǔn)[27]。落實(shí)“立德樹人”根本任務(wù)，要求教育不僅注重知識(shí)教育，更要注重學(xué)生品德修養(yǎng)的培養(yǎng)，使學(xué)生具備正確的價(jià)值判斷能力和良好的社會(huì)適應(yīng)性，成長為符合社會(huì)主義核心價(jià)值觀要求的合格人才。④ 價(jià)值根基：習(xí)近平總書記指出，中華優(yōu)秀傳統(tǒng)文化已成為中華民族的基因，植根在中國人內(nèi)心，潛移默化地影響著中國人的思想方式和行為方式[28]。價(jià)值根基是傳承和弘揚(yáng)中華優(yōu)秀傳統(tǒng)文化，不僅包括文化知識(shí)的傳播，也涉及民族精神和道德力量的傳遞，使學(xué)生具備正確的價(jià)值觀和深厚的文化底蘊(yùn)。

三研究設(shè)計(jì)

1數(shù)據(jù)來源

本研究的數(shù)據(jù)來源于 2016～2023 年國家教師資格證考試和教育學(xué)碩士研究生統(tǒng)一招生考試的真題，主要基于以下考慮： ① 權(quán)威性，國家教師資格證考試和碩士研究生統(tǒng)一招生考試都是經(jīng)過精心設(shè)計(jì)且廣泛認(rèn)可的標(biāo)準(zhǔn)化考試體系，蘊(yùn)含我國教育理論和實(shí)踐的價(jià)值導(dǎo)向，能有效代表我國的教育價(jià)值標(biāo)準(zhǔn)； ② 多樣性，考試內(nèi)容涵蓋教育學(xué)、心理學(xué)等多個(gè)領(lǐng)域，且包括選擇題、判斷題等多種題型，可從多維度評(píng)估教育價(jià)值觀； ③ 公信力，每道題附有標(biāo)準(zhǔn)答案和評(píng)分標(biāo)準(zhǔn)，免去了人工設(shè)計(jì)答案可能引起的理解偏差，確保了評(píng)估的客觀性。

2樣本描述

本研究從“歷年教師資格證筆試試題庫”和“考研教育學(xué)統(tǒng)考《311教育學(xué)專業(yè)基礎(chǔ)綜合》歷年考研真題庫”中選取200道試題，依托價(jià)值觀對(duì)齊評(píng)測框架，從目標(biāo)導(dǎo)向、價(jià)值取向、價(jià)值標(biāo)準(zhǔn)、價(jià)值根基四個(gè)維度對(duì)這些試題進(jìn)行分類統(tǒng)計(jì)，以提供多樣化情景來測試GenAI模型在中國教育價(jià)值觀方面的表現(xiàn)。為全面評(píng)估GenAI模型在中國教育價(jià)值觀不同層次任務(wù)中的表現(xiàn)，本研究對(duì)200道試題的題型進(jìn)行了難度分層設(shè)計(jì)，從易到難依次劃分為基礎(chǔ)知識(shí)理解、綜合分析、倫理判斷等層次，確保GenAI模型在邏輯推理和深度理解方面的表現(xiàn)能夠得到較為全面的體現(xiàn)。題型主要分為客觀題和主觀題兩類，其中客觀題包括單選、多選、填空、判斷四種，而主觀題主要為論述題。此外，本研究團(tuán)隊(duì)自行設(shè)計(jì)了10道情景題，這些試題由3名具有副高級(jí)以上職稱的教育學(xué)專家審核后最終確定。情景題有多個(gè)情景化設(shè)定，用于模擬真實(shí)教育情景中對(duì)價(jià)值觀的多重考驗(yàn)，從而檢驗(yàn)GenAI模型在深層對(duì)齊任務(wù)中的表現(xiàn)能力。評(píng)測試題的基本構(gòu)成如表1所示。

3GenAI模型選擇與評(píng)估范圍

本研究選取8個(gè)前沿的國內(nèi)外GenAI模型進(jìn)行評(píng)估：國外GenAI模型包括GPT-4o、LLAMA3-70B、Mistral 7bv0.3 ，國內(nèi)GenAI模型包括Qwen 2.5、Baichuan4、ChatGLM4、文心大模型3.5 和訊飛星火大模型。這些GenAI模型具備優(yōu)秀的語言理解能力和復(fù)雜任務(wù)處理能力，因而被選為本研究的評(píng)估對(duì)象，以開展多維度對(duì)比分析。值得注意的是，訊飛星火大模型在測試過程中出現(xiàn)了敏感信息提示，故本研究未對(duì)此GenAI模型進(jìn)行客觀題和主觀題評(píng)測，只進(jìn)行了情景題評(píng)測，以確保測試結(jié)果的合理性和公正性。

4評(píng)測方法與評(píng)分細(xì)則

① 基于標(biāo)準(zhǔn)答案的客觀題評(píng)測：對(duì)于單選題、多選題、填空題和判斷題，主要根據(jù)參考答案對(duì)8個(gè)GenAI模型進(jìn)行評(píng)分，每題分值為1分，答對(duì)得1分，答錯(cuò)不計(jì)分。考慮到各維度客觀題的數(shù)量不同，為確保評(píng)分的一致性，按照公式（1）進(jìn)行計(jì)算，以通過準(zhǔn)確率來客觀量化各GenAI模型在客觀題上的表現(xiàn)。例如，GPT-4o在“價(jià)值標(biāo)準(zhǔn)”維度的客觀題總分為50分，實(shí)際得分為43分，那么此GenAI模型在“價(jià)值標(biāo)準(zhǔn)”維度客觀題上的準(zhǔn)確率為（ 43÷50 ） ×100%=86% 。

準(zhǔn)確率 Σ=Σ （GenAI模型得分÷該維度客觀題總分） ×100% 公式（1）

② 基于專家評(píng)分的主觀題和情景題評(píng)測：在主觀題評(píng)分方面，每道主觀題由3名具有副高級(jí)以上職稱的教育學(xué)專家獨(dú)立評(píng)分，滿分為5分。在提供標(biāo)準(zhǔn)答案的前提下，論述題依據(jù)準(zhǔn)確性、邏輯性、完整性、語言表達(dá)、價(jià)值觀契合度五個(gè)指標(biāo)進(jìn)行評(píng)測，每個(gè)指標(biāo)各占1分，評(píng)分為五個(gè)指標(biāo)的總和，GenAI模型得分取三名專家評(píng)分的平均值。為確保評(píng)分的公平性和科學(xué)性，論述題的準(zhǔn)確率也按公式（1）進(jìn)行計(jì)算。同樣，情景題評(píng)分也由上述3名專家共同完成，采用分級(jí)評(píng)分法。依據(jù)內(nèi)容契合度，情景題的回答分為完全契合（5分）、基本契合（4分）、部分契合（3分）、存在偏差（2分）、偏差嚴(yán)重（1分）、不符（0分）六個(gè)等級(jí)。3名專家在評(píng)分時(shí)重點(diǎn)關(guān)注回答是否體現(xiàn)了標(biāo)準(zhǔn)答案的核心思想，是否在情景中準(zhǔn)確傳達(dá)了中國教育的價(jià)值觀。GenAI模型得分取三名專家評(píng)分的平均值，按照公式（1）計(jì)算出情景題的準(zhǔn)確率。

四研究分析

1GenAI模型在教育價(jià)值觀不同題型上的表現(xiàn)差異

按照上述評(píng)測方法，本研究對(duì)8個(gè)GenAI模型在不同題型上的準(zhǔn)確率進(jìn)行了對(duì)比，如表2所示。整體來看，8個(gè)GenAI模型的準(zhǔn)確率均值為 53.00% ，其中文心大模型3.5、GPT-4o、ChatGLM4、Qwen2.5的準(zhǔn)確率均大于 60% ，表明這4個(gè)GenAI模型具備一定的價(jià)值觀對(duì)齊能力，但也還有較大的提升空間。從題型表現(xiàn)來看，GenAI模型在客觀題上的表現(xiàn)較好（準(zhǔn)確率均值為 73.13% ），其中Qwen2.5的表現(xiàn)最佳（準(zhǔn)確率為 83.03% ），文心大模型3.5、GPT-4o、Baichuan4的準(zhǔn)確率也均超過 80% ，說明GenAI模型對(duì)結(jié)構(gòu)化、明確的教育價(jià)值觀問題識(shí)別能力較強(qiáng)；GenAI模型在主觀題上的表現(xiàn)一般（準(zhǔn)確率均值為 56.57% ），其中Qwen2.5的表現(xiàn)最佳（準(zhǔn)確率為 71.86% ），GPT-4o、ChatGLM4和文心大模型3.5、Baichuan4的準(zhǔn)確率也均超過 65% ，這反映了GenAI模型在回答開放性題目時(shí)存在一定的局限性；GenAI模型在情景題上的表現(xiàn)欠佳（準(zhǔn)確率均值僅為 31.00% ），僅文心大模型3.5、訊飛星火大模型、GPT-4o的準(zhǔn)確率超過 40% 說明GenAI模型在復(fù)雜情景中的價(jià)值觀判斷能力有限。

2GenAI模型在教育價(jià)值觀不同維度上的表現(xiàn)差異

基于客觀題和主觀題的作答結(jié)果，本研究對(duì)7個(gè)GenAI模型在四個(gè)維度（即目標(biāo)導(dǎo)向、價(jià)值取向、價(jià)值標(biāo)準(zhǔn)、價(jià)值根基）上的準(zhǔn)確率進(jìn)行了對(duì)比，如表3所示。需要說明的是，GenAI模型中的訊飛星火大模型因客觀題和主觀題的數(shù)據(jù)不完整，未覆蓋全部維度，故未納入本節(jié)分析；而情景題主要用于整體評(píng)估GenAI模型的價(jià)值觀對(duì)齊能力，未劃歸具體維度，故亦不在本節(jié)討論之列。

整體來看，7個(gè)GenAI模型的準(zhǔn)確率均值為 62.64% ，其中GPT-4o和Baichuan4在四個(gè)維度上的表現(xiàn)較好（準(zhǔn)確率均超過 70% ），表明這兩個(gè)模型在價(jià)值觀各維度上的理解與生成較為穩(wěn)定，具備較強(qiáng)的教育價(jià)值觀對(duì)齊能力。相比之下，LLAMA3-70B的表現(xiàn)欠佳，而Mistral7b v0.3的表現(xiàn)最差（準(zhǔn)確率均不足35% ），反映了部分國外的GenAI模型在文化適應(yīng)性方面仍存在明顯短板，難以滿足中國教育價(jià)值觀對(duì)齊的實(shí)際需求；在四個(gè)維度中，“目標(biāo)導(dǎo)向”的準(zhǔn)確率均值最低（準(zhǔn)確率為 57.61% ），說明GenAI模型缺乏對(duì)中國政策與時(shí)代使命的整體理解能力，難以準(zhǔn)確把握宏觀教育目標(biāo)蘊(yùn)含的價(jià)值導(dǎo)向；國內(nèi)四個(gè)GenAI模型在“價(jià)值取向”和“價(jià)值根基”兩個(gè)維度上的表現(xiàn)都較好且準(zhǔn)確率相差不大（準(zhǔn)確率均超過了 70% ），說明GenAI模型更擅長處理語言穩(wěn)定性強(qiáng)、價(jià)值立場鮮明的內(nèi)容，而面對(duì)語義內(nèi)涵更復(fù)雜、文化意涵更豐富的價(jià)值理念時(shí)仍然存在理解深度不足的問題。

3GenAI模型在教育價(jià)值觀對(duì)齊能力上的表現(xiàn)差異

基于客觀題、主觀題和情景題的作答結(jié)果，本研究統(tǒng)計(jì)了7個(gè)GenAI模型在這三種題型上的總分并進(jìn)行對(duì)比，結(jié)果如圖2所示。圖2顯示，7個(gè)GenAI模型形成了明顯的三個(gè)梯隊(duì)：文心大模型3.5和GPT-4o表現(xiàn)優(yōu)異，總分均高于190分，處于第一梯隊(duì)；ChatGLM4、Qwen2.5、Baichuan4表現(xiàn)中等，總分處于170～185 分，構(gòu)成第二梯隊(duì)；而LLAMA3-70B、Mistral 7bv0.3 表現(xiàn)較差，總分低于140分，屬于第三梯隊(duì)。整體而言，7個(gè)GenAI模型在教育價(jià)值觀對(duì)齊能力上的表現(xiàn)存在顯著差異，其中表現(xiàn)最佳的文心大模型3.5與表現(xiàn)最差的Mistral7bv0.3在三種題型上的總分相差135.87分。此外，即使是第一梯隊(duì)的文心大模型3.5和GPT-4o，其在三種題型上的總分也僅占三種題型總分的 60% 左右，說明當(dāng)前國內(nèi)外GenAI模型與中國教育的價(jià)值觀對(duì)齊能力均未達(dá)到理想水平，仍有較大的提升空間。

4測評(píng)結(jié)果與揭示的問題

綜合上述分析，本研究主要得到以下測評(píng)結(jié)果： ① 從題型表現(xiàn)來看，GenAI模型在客觀題上的表現(xiàn)較好，在主觀題上的表現(xiàn)一般，而在情景題上的表現(xiàn)欠佳。可見，GenAI模型更擅長處理具有固定答案的客觀問題，而在處理復(fù)雜價(jià)值判斷或情景認(rèn)知任務(wù)方面的能力不足。 ② 從維度表現(xiàn)來看，GPT-4o和Baichuan4在“目標(biāo)導(dǎo)向”“價(jià)值取向”“價(jià)值標(biāo)準(zhǔn)”“價(jià)值根基”四個(gè)維度上的表現(xiàn)都較好，顯示出良好的適應(yīng)性和生成能力；國內(nèi)4個(gè)GenAI模型在“價(jià)值取向”和“價(jià)值根基”兩個(gè)維度上的表現(xiàn)都較好，說明本土化訓(xùn)練對(duì)于提升GenAI模型的文化價(jià)值認(rèn)知具有積極作用。 ③ 從能力表現(xiàn)來看，國內(nèi)外GenAI模型與中國教育的價(jià)值觀對(duì)齊能力均未達(dá)到理想水平。GenAI模型與中國教育在價(jià)值觀上的差異，反映了GenAI模型與人類在價(jià)值認(rèn)知上的本質(zhì)區(qū)別：GenAI模型主要通過數(shù)理邏輯運(yùn)算來模擬人類思維，而人類價(jià)值判斷是在具體實(shí)踐中形成的；GenAI模型雖能通過數(shù)據(jù)訓(xùn)練獲得某種程度的價(jià)值認(rèn)知，但這種認(rèn)知往往停留在形式邏輯層面，而缺乏對(duì)價(jià)值生成過程的真正理解[29]。

上述測評(píng)結(jié)果揭示了GenAI模型與中國教育進(jìn)行價(jià)值觀對(duì)齊時(shí)存在的一些問題，主要表現(xiàn)為： ① GenAI模型對(duì)中國傳統(tǒng)文化和知識(shí)背景理解存在困難，如無法準(zhǔn)確識(shí)別“董仲舒三大文教政策”“科舉制產(chǎn)生的原因、演變及特點(diǎn)”等中華文化中具有代表性的教育思想與制度內(nèi)容。此問題反映了GenAI模型對(duì)中國傳統(tǒng)教育思想的理解不夠深入，導(dǎo)致其在特定文化情景下難以準(zhǔn)確傳遞中國教育的價(jià)值觀內(nèi)涵。此外，GenAI模型的訓(xùn)練數(shù)據(jù)雖然龐大，但缺乏中國傳統(tǒng)文化的系統(tǒng)性語料，導(dǎo)致其在特定文化語境下的文化敏感性明顯不足。 ② GenAI模型在傳達(dá)核心價(jià)值觀時(shí)存在概念混淆的問題。例如，測評(píng)中發(fā)現(xiàn)GenAI模型錯(cuò)誤地將“職業(yè)教育”而非“人才”界定為衡量綜合國力的主要指標(biāo)。此概念混淆問題不僅影響了GenAI模型對(duì)教育價(jià)值觀的精準(zhǔn)傳遞，還可能誤導(dǎo)公眾對(duì)國家教育發(fā)展戰(zhàn)略和價(jià)值導(dǎo)向的理解。出現(xiàn)此問題的原因，可能在于訓(xùn)練數(shù)據(jù)來源于網(wǎng)絡(luò)文本、媒體報(bào)道等多元語料，導(dǎo)致概念邊界模糊；另外，現(xiàn)有算法更擅長處理界定明確的概念和簡單的邏輯關(guān)系，而對(duì)蘊(yùn)含價(jià)值判斷和政策導(dǎo)向的復(fù)雜概念體系難以像人類那樣進(jìn)行整體性的把握和理解。 ③ GenAI模型在情景適應(yīng)能力方面表現(xiàn)不足。例如，在對(duì)《中國教育現(xiàn)代化2035》提出的八大基本理念進(jìn)行理解與應(yīng)用的測試中，國外GenAI模型無法準(zhǔn)確回答八大基本理念的具體內(nèi)容；國內(nèi)GenAI模型雖然理解相對(duì)準(zhǔn)確，但將八大基本理念應(yīng)用于具體的教學(xué)情景時(shí)，GenAI模型的輸出內(nèi)容常以“價(jià)值理念 + 教學(xué)套話”草率作答，缺乏深度分析及其與教學(xué)情景的有效適配。這種情景適應(yīng)能力的不足，使GenAI模型對(duì)價(jià)值觀的傳達(dá)流于表層化和片面化，難以準(zhǔn)確闡述特定文化背景下的教育目標(biāo)。此問題反映了國外GenAI模型缺少對(duì)中國教育政策相關(guān)數(shù)據(jù)的訓(xùn)練，中國GenAI模型雖然覆蓋了這方面數(shù)據(jù)，但對(duì)教育情景的整體性認(rèn)知不足，主要原因在于GenAI模型在訓(xùn)練過程中缺乏來自真實(shí)課堂的教學(xué)互動(dòng)、合作交流等情景素材，難以實(shí)現(xiàn)對(duì)真實(shí)教學(xué)情景的有效建構(gòu)，進(jìn)而限制其價(jià)值觀的準(zhǔn)確表達(dá)。

五GenAI與中國教育價(jià)值觀對(duì)齊能力的提升建議

基于上述測評(píng)結(jié)果和揭示的問題，本研究圍繞“如何提升”的問題，從本地語料庫建設(shè)、概念識(shí)別體系構(gòu)建、情景化訓(xùn)練機(jī)制健全等方面著手，針對(duì)GenAI模型與中國教育的價(jià)值觀對(duì)齊能力提升提出建議。

1推進(jìn)本地語料庫建設(shè)，提升GenAI模型的文化理解能力

針對(duì)GenAI模型對(duì)中國傳統(tǒng)文化和知識(shí)背景理解存在困難的問題，本研究建議： ① 政府牽頭打造中華文化數(shù)字資源平臺(tái)，系統(tǒng)收錄傳統(tǒng)文化經(jīng)典、教育思想家著作和教育史論等，推進(jìn)中華文化語料庫建設(shè)；同時(shí)，通過構(gòu)建知識(shí)圖譜，強(qiáng)化GenAI模型對(duì)中華傳統(tǒng)文化核心知識(shí)點(diǎn)的理解與應(yīng)用能力。 ② 教育主管部門整合全國高校和研究機(jī)構(gòu)的相關(guān)資源，確保本地語料庫持續(xù)更新，并開發(fā)評(píng)估工具定期檢測GenAI模型對(duì)中國傳統(tǒng)文化理解的準(zhǔn)確性與深度。 ③ 高校組建跨學(xué)科研究團(tuán)隊(duì)，將傳統(tǒng)文化與現(xiàn)代教育理念深度融合，設(shè)計(jì)具有中國文化特色的教學(xué)場景和案例庫，促進(jìn)GenAI模型對(duì)復(fù)雜文化和教育思想的理解。

2構(gòu)建概念識(shí)別體系，解決GenAI模型的概念混淆問題

針對(duì)GenAI模型在傳達(dá)核心價(jià)值觀時(shí)存在概念混淆的問題，本研究建議： ① 政府組織跨領(lǐng)域?qū)＜覉F(tuán)隊(duì)編制中國教育價(jià)值觀學(xué)習(xí)指南、GenAI教育應(yīng)用手冊(cè)等，對(duì)教育政策、人才戰(zhàn)略等關(guān)鍵概念進(jìn)行科學(xué)界定和層級(jí)分類，為GenAI模型進(jìn)行數(shù)據(jù)訓(xùn)練提供依據(jù)。 ② 教育主管部門組織專家團(tuán)隊(duì)開發(fā)專門的教育政策文本解析工具，以自動(dòng)識(shí)別并提取政策文件中的核心概念、價(jià)值導(dǎo)向和邏輯關(guān)系，為GenAI模型提供更精準(zhǔn)的學(xué)習(xí)資源，避免GenAI模型在概念理解上出現(xiàn)偏差。 ③ 高校開展價(jià)值概念對(duì)抗學(xué)習(xí)研究，通過設(shè)計(jì)錯(cuò)誤概念識(shí)別、糾正等訓(xùn)練模塊，使GenAI模型針對(duì)常見的概念混淆點(diǎn)進(jìn)行針對(duì)性強(qiáng)化訓(xùn)練，并建立概念之間的精確邊界和關(guān)聯(lián)機(jī)制，增強(qiáng)GenAI模型對(duì)中國教育價(jià)值觀的整體把握能力。

3健全情景訓(xùn)練機(jī)制，優(yōu)化GenAI模型的情景適用能力

針對(duì)GenAI模型在情景適應(yīng)能力方面表現(xiàn)不足的問題，本研究建議： ① 政府組織開展全國范圍內(nèi)的優(yōu)秀教學(xué)案例征集活動(dòng)，建設(shè)從宏觀教育理念到微觀教學(xué)實(shí)踐的示范庫，為GenAI模型提供大量真實(shí)情景下的應(yīng)用范例，提高其在復(fù)雜教育場景中的適應(yīng)能力。 ② 教育主管部門組織科研機(jī)構(gòu)、高校和一線教師團(tuán)隊(duì)聯(lián)合開發(fā)教育價(jià)值觀情景應(yīng)用評(píng)估工具，并構(gòu)建從理念識(shí)別到實(shí)際應(yīng)用的梯度評(píng)估體系，通過設(shè)計(jì)包含不同難度和應(yīng)用深度的評(píng)估任務(wù)，不斷優(yōu)化GenAI模型的情景適應(yīng)能力。 ③ 高校打造集虛擬教學(xué)環(huán)境、情景模擬系統(tǒng)和實(shí)際教學(xué)反饋機(jī)制于一體的綜合實(shí)驗(yàn)平臺(tái)，為GenAI模型提供接近真實(shí)的教育情景訓(xùn)練場，強(qiáng)化其在動(dòng)態(tài)教學(xué)環(huán)境中的適應(yīng)能力。

參考文獻(xiàn)

[1]楊俊鋒.生成式人工智能與高等教育深度融合：場景、風(fēng)險(xiǎn)及建議[J].中國高等教育，2024，（5）：52-56.

[2]柯清超，米橋偉，鮑婷婷.生成式人工智能在基礎(chǔ)教育領(lǐng)域的應(yīng)用：機(jī)遇、風(fēng)險(xiǎn)與對(duì)策[J].現(xiàn)代教育技術(shù)，2024，（9）：5-13.

[3]Jiang I， Hwang JD，Bhagavatula C， et al. Can machines learn morality？ The Delphi experiment[OL].

[4]（美）萊恩·克里斯汀著.唐璐譯.人機(jī)對(duì)齊[M].長沙：湖南科學(xué)技術(shù)出版社，2023：100.

[5]GlaserN.Exploring thepotentialofChatGPTasaneducational technology：Anemerging technologyreport[J].TechologyKnowledge and Learming， 2023，（4）：1945-1952.

[6]葉瀾.重建課堂教學(xué)價(jià)值觀[J].教育研究，2002，（5）：3-7、16.

[7]展立新，陳學(xué)飛.理性的視角：走出高等教育“適應(yīng)論\"的歷史誤區(qū)[J].北京大學(xué)教育評(píng)論，2013，（1）：95-125、192.

[8][12][24]崔瑞霞，石中英.試析習(xí)近平總書記關(guān)于教育價(jià)值觀的論述[J].教育研究，2022，（10）：14-25.

[9]石中英.學(xué)習(xí)領(lǐng)會(huì)習(xí)近平總書記的教育價(jià)值觀[J].思想理論教育導(dǎo)刊，2020，（9）：15-16.

[10][21]本書編寫組.習(xí)近平總書記教育重要論述講義[M].北京：高等教育出版社，2020：59-62、99.

[11]陳才烈，白強(qiáng)，梁菲，等.習(xí)近平總書記關(guān)于教育重要論述的理論蘊(yùn)涵、內(nèi)在邏輯與思維品質(zhì)[J].重慶大學(xué)學(xué)報(bào)（社會(huì)科學(xué)版），2022，（4）：239-250.

[13]Wiener N. Some moral and technical consequences of automation： As machines learn they may develop unforeseenstrategies at rates that baffle their programmers[J]. Science， 1960，（3410）：1355-1358.

[14]Brockman J. The myth of AI[OL].

[15][18]閆坤如.人工智能價(jià)值對(duì)齊的價(jià)值表征及倫理路徑[J].倫理學(xué)研究，2024，（4）：94-100.

[16]閆坤如.人工智能體價(jià)值對(duì)齊的分布式路徑探[J].上海師范大學(xué)學(xué)報(bào)（哲學(xué)社會(huì)科學(xué)版），2024，（4）：131-139.

[17]袁雨晴，陳昌鳳.道德物化：大模型人機(jī)價(jià)值對(duì)齊的技術(shù)倫理進(jìn)路[J].南京社會(huì)科學(xué)，2024，（6）：88-97.

[19]彭援援，蒲清平，孟小軍.習(xí)近平關(guān)于傳統(tǒng)文化的德育思想論述及時(shí)代價(jià)值[J].重慶大學(xué)學(xué)報(bào)（社會(huì)科學(xué)版），2019，（2）：168-179.[20][23]習(xí)近平.論教育[M].北京：中央文獻(xiàn)出版社，2024：6、117

[22][26]中國教育報(bào).新時(shí)代教育工作的根本方針[OL].

[25]中共教育部黨組.著力培養(yǎng)擔(dān)當(dāng)民族復(fù)興大任的時(shí)代新人[OL].

[27]習(xí)近平.在北京大學(xué)師生座談會(huì)上的講話[N].人民日?qǐng)?bào)，2018-5-3（5）.

[28]習(xí)近平.習(xí)近平談治國理政[M].北京：外文出版社，2014：170.

[29]苗逢春.生成式人工智能技術(shù)原理及其教育適用性考證[J].現(xiàn)代教育技術(shù)，2023，（11）：5-18.

Values Alignment of GenAIModels and Chinese Education： How to Evaluate？ How to Improve？

YUMei1，2 RONG Lu1[Coresponding Author] （1.School ofEducation， Tianjin University， Tianjin， China 300350;

2. College of Intelligence and Computing， Tianjin University， Tianjin， China 300350）

Abstract：Whether theGenAImodelscanalignwithvaluesofChineseeducationisakeyfactorindetermining theireffective implementationin theeducationfield， which mainly involves two isues of\"howto evaluate\"and“how toimprove.Centering on the issue of“howto evaluate，this paper firstlyconstructedavalues alignment evaluationframework.Then，taking 210 questions as testing samples，this paper assessedthe values alignment abilityof eight leading domestic and foreign GenAI models with Chinese education acrossthree major question types （i.e.，objective，subjective，and situational） and four dimensions （i.e.，goal orientation，valueorientation，valuestandards，andvalue foundation）.ResultsshowedthatGenAI exhibited good performanceonobjective questions，moderate capabilityonsubjective questions，andnotably poor performance on situational questions，reflecting itsinsufficient abilityinhandling complex valuejudgmentsor situational cognition tasks. Domestic GenAI models performed wellinvalueorientation and value foundation dimensions，reflecting theconsiderable effctivenessoflocalized training.The values alignment abilityofthe GenAImodels with Chinese education hadnotreached the ideallevel，suggstingsubstantialpotentialforimprovement.Finallthispaper focusedontheissueof\"howtoipoe and put forwardsuggestions for improvingthevalues alignment abilityof the GenAImodels withChineseeducation，inorder to facilitate the localized applicationofthe GenAI models inthefieldofChineseeducationand drive the high-qualityand connotative development of Chinese education.

Keywords： generative artificial intelligence; Chinese education; values alignment