




摘要:在全球創新驅動發展戰略不斷深化的背景下,生成式人工智能(Generative AI,GenAI)技術正逐步成為推動教育評價體系轉型升級的重要力量。然而,當前教育領域對智能技術的應用仍處于初級階段,尤其在大語言模型的可解釋性方面面臨嚴峻挑戰。數據偏差、算法設計缺陷和測試驗證不足導致的“算法偏見”問題,已成為制約技術公平應用的關鍵難題。對此,文章結合GenAI技術在教育評價中的實際應用,首先系統梳理了算法偏見的具體表現,涵蓋個體差異、地域差異、社會地位差異等維度;之后深入剖析了偏見產生的成因,主要從數據質量、模型設計、應用場景三個方面展開;最后提出完善算法設計、統籌治理主體、促進技術普惠等對策,以期為構建公正、透明、包容的教育評價體系提供參考。
關鍵詞:GenAI技術;算法偏見;教育評價;數據倫理;人工智能
【中圖分類號】G40-057 【文獻標識碼】A 【論文編號】1009—8097(2025)01—0053—10 【DOI】10.3969/j.issn.1009-8097.2025.01.006
引言
面向2035年建設教育強國的戰略目標,習近平總書記關于“如何建設教育強國”的重要論述為新時代教育發展指明了方向[1]。教育評價作為提升教育質量與促進公平發展的關鍵手段,對于實現這一目標至關重要[2]。近年來,GenAI技術迅速發展,正在逐漸改變教育評價的方式。GenAI技術基于深度學習模型和跨模態生成技術,能夠高效地處理和分析大量教育數據,結合大數據的自適應學習能力,生成個性化教學內容并進行實時反饋,顯著提高了教育評價的精準化、多樣化和個性化水平。
2023年7月,我國國家網信辦等七部門聯合公布《生成式人工智能服務管理暫行辦法》,同年8月正式實施。作為我國首部針對GenAI的行政規章,該辦法明確鼓勵GenAI在教育領域的深度應用,以推動技術創新與實際教育場景的融合[3]。然而,技術的快速迭代往往伴隨著新的挑戰。特別是在教育評價過程中,GenAI依賴的算法和大規模數據易受訓練數據不穩、模型設計缺陷、生成機制偏差的影響,從而引發算法偏見(Algorithmic Bias)問題[4]。作為GenAI技術的“引擎”,算法決定著生成內容的類型和質量。一旦出現算法偏見,其在生成過程中就可能被放大,從而導致教育評價結果不公正。更進一步來說,GenAI技術中的算法偏見不僅會影響學生的自我認知和學習意愿,也可能會損害教育系統的公平性和社會的和諧穩定。因此,如何在充分利用GenAI技術提升教育評價效能的同時系統地識別和應對其潛在的算法偏見,成為當前教育研究的重要課題。基于此,本研究將結合GenAI技術在教育評價中的應用情況,梳理GenAI技術在教育評價中的算法偏見表現、剖析其成因,并有針對性地提出對策。
一 GenAI技術在教育評價中的應用
當前,GenAI技術正迅速融入教育領域,并在教育評價體系的革新方面顯示出了巨大的潛能。不同于人工智能(Artificial Intelligence,AI)技術側重于標準化評估、注重效率和一致性,GenAI技術強調個性化和創造性、可提供更靈活的學習支持。此外,AI技術依靠規則、算法進行自動評分和數據分析,而GenAI技術能夠生成個性化的學習材料和反饋,并基于學生的表現生成適應性的學習內容。為展示GenAI技術給教育評價體系帶來的雙重影響、挖掘隱于其中的算法偏見問題,本研究從應用方式、技術基礎、算法偏見三個維度,對比了AI技術與GenAI技術在教育評價中的特征差異,如表1所示。
1 GenAI技術在教育評價中的應用情況
回顧AI技術在教育領域的發展歷程,可劃分為誕生期、摸索期、產業期三個階段。在誕生期,AI技術聚焦輔助教學的實踐探索,其應用場景廣泛,涵蓋答疑、練習、模擬測試等多個關鍵環節,初步展現了其在教育領域所蘊含的巨大潛力。進入摸索期后,隨著機器學習的興起,AI技術的應用方向轉為智能導學和自適應學習,實現了教育方式的創新[5]。而進入產業期后,隨著深度學習的發展,在大數據、云計算等技術的支持下,GenAI為個性化學習、評價與反饋、數據分析等提供了高效的解決方案。以ChatGPT、Sora、Suno、Kimi為代表的眾多GenAI應用,憑借其數據獲取的便捷性、信息加工的創造性和應用功能的個性化,以超越AI技術的態勢迅速進入大眾視野,使學生學習呈現出精準化、擬真化、個性化的發展趨勢[6]。在此期間,數字教育系統逐漸向智慧教育系統升級,教育評價也從傳統的標準化評價向個性化的自適應評價過渡,這兩種評價方式在各評價環節的特征對比如表2所示。
2 GenAI技術在教育評價中的技術基礎
AI技術依賴于統計分析模型和機器學習模型,主要用于數據分析與分類,生成標準化的評估工具。基于AI技術的系統雖能處理結構化數據并根據預定義規則進行預測,但在適應不同學習者的需求和復雜教育情境方面存在局限。例如,Carnegie Learning’s MATHia系統通過分析學生的錯誤模式,提供個性化反饋,但其效果受數據分布不均衡和算法設計中隱性假設的限制。相比之下,GenAI技術超越了傳統的數據分析,能通過深度學習框架下的生成模型創造全新內容,提供更具個性化和互動性的學習體驗[7]。例如,GANs模型能生成虛擬實驗、模擬練習等互動學習內容,提升學生的興趣和參與度;VAEs模型能生成有針對性的練習題和評估任務,幫助學生精準學習特定的知識點;而Transformers模型擅長處理實時數據,能根據學生的學習進展動態調整學習路徑,提供個性化的學習指導。GenAI技術顯著提升了教育評價的互動性和適應性,且在優化資源分配、支持個性化學習路徑規劃等方面展現出了巨大潛力。
3 GenAI技術在教育評價中的算法偏見
隨著智能技術的發展,算法偏見問題逐漸成為機器學習和AI倫理學中的重要議題[8]。對此,Floridi等[9]從宏觀倫理學的視角,提出了“三元數據倫理框架”(Trilateral Data Ethics Framework),認為數據科學帶來的倫理問題能夠在以數據倫理(Data Ethics)、算法倫理(Algorithm Ethics)和實踐倫理(Practical Ethics)三個維度為基礎的概念空間內得到全面的闡釋和映射,且這三個維度與社會倫理相互交織、相互影響,如圖1所示。這一框架有助于深入理解算法偏見的根源,為不同階段采取相應的倫理措施提供指導,以確保AI系統的公平性和透明性。Suresh等[10]詳細闡述了“機器學習管道”(Machine Learning Pipeline,下文簡稱“ML管道”)的六個核心環節,分別是:明確研究目標、數據劃分、模型開發、模型評價、決策制定與調整、模型部署。在ML管道中,算法偏見主要分為數據偏見、模型偏見和應用偏見”[11]。在各個環節,偏見可能通過不均衡的數據分布、模型設計選擇、結果呈現方式被引入或加劇,導致生成內容帶有某些文化、性別或社會背景[12]。AI技術與GenAI技術均遵循類似的機器學習基本框架,但GenAI在特征工程、模型設計、數據需求等方面更加復雜且計算密集。此外,GenAI的“黑箱”特性加大了偏見的識別和糾正難度,使教育工作者和研究人員難以對結果進行有效的糾偏[13]。
二 GenAI技術在教育評價中的算法偏見表現
社會分層理論(Stratification Theory)強調,社會資源、權力和地位的分配不平等往往通過教育等制度化手段被再生產[14]。Bourdieu[15]認為,教育體系不僅是知識傳遞的工具,更是社會階層再生產的關鍵機制;教育通過隱性課程、評價標準和制度化實踐,鞏固了現有的社會等級結構,使特定階層的文化資本得以延續。而在教育評價中,盡管GenAI技術具有革新潛力,但其算法設計和數據依賴性可能放大既有的社會不平等。基于此,本研究依托社會分層理論,聚焦個體差異、地域差異和社會地位差異三個層面,探討GenAI技術在教育評價中算法偏見的具體表現。
1 個體差異引發的算法偏見
個體差異引發的算法偏見是指系統在處理數據和作出決策時,因個體特征的不同而產生的不公平或不準確現象。一個公平的教育體系,應能識別并培養來自不同背景、擁有多元能力的個體。然而,算法偏見可能導致大量具有潛力的學生被忽視,從而影響教育的公平性和社會的創新性,主要表現為:①在與種族(或族裔)有關的研究中,Bridgeman等[16]發現,GRE寫作評分系統E-Rater對非洲裔學生的評分顯著低于人工評分員,特別是在特定類型的寫作任務中差異更為明顯。此外,Hu等[17]發現,基于美國數據訓練的模型對發達國家學生的成績預測較為準確,而對欠發達國家的學生預測表現較差。對此,Lee等[18]通過引入公平性校正措施,顯著改善了算法在預測少數族裔學生成績時的公平性。②在與性別有關的研究中,Anderson等[19]發現,預測男生畢業情況的模型存在較高的假陰性率,模型傾向于將實際上有可能畢業的男生錯誤地預測為無法畢業,導致教育資源分配出現偏差;Gardner等[20]指出,在預測學術潛力的模型中,模型對女性的預測值低于男性。盡管已有許多研究關注針對男女性別差異的算法偏見問題,但針對非二元性別和跨性別群體的研究仍然不足。
2 地域差異引發的算法偏見
地域差異引發的算法偏見主要體現為稀缺資源如優秀教師、先進設備分配的不均衡,算法系統可能會優先給學業成績優秀的學生或發達地區分配資源,而忽視那些實際上需要更多支持的學困生和弱勢地區,主要表現為:①在國家層面的研究中,Wang等[21]發現E-Rater系統對中國學生的評分相對較高,而對阿拉伯語和印地語使用者的評分較低,反映了該系統存在一定的地域偏見。Li等[22]的研究表明,利用美國數據訓練的模型在預測經濟發達國家的學生成績時較為準確,但在預測經濟欠發達國家的學生成績時表現相對較差。②在城市層面的研究中,Ocumpaugh等[23]發現,面向城市、郊區和農村學生的自動化探測器在不同環境下的表現存在差異,其中面向農村學生的表現最差。可見,算法偏見進一步加劇了地域之間的教育不平等,導致出現了“強者愈強,弱者愈弱”的現象[24]。
3 社會地位差異引發的算法偏見
英國教育哲學家Bernstein曾指出:“一個社會如何選擇、分類、分配、傳遞和評價公認的教育知識,既反映了社會權力的分配,也體現了社會控制的原則。”[25]算法偏見問題不僅是觸及教育資源分配是否公平的問題,更是反映深層次社會結構的重要議題[26]。例如,Yu等[27]發現,當學生父母的教育背景被納入生成式模型時,父母未接受過高等教育的學生被預測為表現不佳;然而,當模型中加入流數據和問卷調查結果后,預測結果就顯得公正多了。另外,Yudelson等[28]對享受減免午餐的學生比例(此比例常作為衡量社會經濟地位的替代性指標)不同的學校進行測試,結果顯示:當模型在享受減免午餐高比例、低社會經濟地位的學校進行訓練時,其在其他學校預測評分方面的表現相對較弱;而當模型進行更為廣泛的訓練后,這種不公的表現明顯減少。由此可見,盡管社會地位差異對算法預測有一定的影響,但通過合理的數據訓練和模型調整,算法便能保持一定的泛化能力。
三 GenAI技術在教育評價中的算法偏見成因
要想有效解決GenAI技術在教育評價中的算法偏見問題,除了梳理并識別偏見的外在表現,更應從技術層面深入剖析造成偏見的內在機制與根源,厘清偏見在數據、算法設計與應用環境中的復雜交互關系。基于此,本研究結合前述ML管道中算法偏見的三種類型(即數據偏見、模型偏見、應用偏見),從數據、模型、應用三個維度對算法偏見的成因進行系統性剖析。
1 數據中的偏見:歷史遺留與代表失衡
GenAI依賴于大規模數據集的學習,故數據集的質量將直接影響生成內容的準確性和公正性。然而,數據在采集和處理的過程中,就被嵌入了社會文化、歷史等主觀因素[29]。這種由原始數據傳遞的隱性偏見,被稱為“病毒性歧視”(Viral Discrimination)[30]。數據中的偏見主要表現為歷史偏見、代表性偏見和測量偏見[31]。其中,歷史偏見主要源于社會長期存在的不平等,如教育資源分配不均或社會結構中的權力失衡,這些不平等在數據記錄和使用中被延續,進而在教育評價中使弱勢群體長期遭遇不公[32]。代表性偏見是由于數據樣本分布的不均衡導致某些群體在數據中被低估或忽視,如面部分析算法對深色皮膚女性的誤分類率顯著高于淺色皮膚男性,反映了深色皮膚樣本在數據集中的代表性不足,即使通過后期抽樣優化,仍難以完全消除這一問題[33]。測量偏見則與數據測量過程中隱含的假設密切相關,這些假設未能充分考慮教育環境的復雜性和學生個體特質的多樣性,導致統一測量標準無法準確反映學生的真實學習情況和潛力。總之,GenAI無法準確捕捉到學生的真實學習情況,其數據中的偏見不僅會影響算法對學生個體的評價,還會在教育資源分配和升學機會方面造成不公[34]。
2 模型中的偏見:特征混淆與驗證缺憾
GenAI基于深度學習模型(如GANs、VAEs、Transformer)處理教育數據,通過提取特征,生成個性化學習路徑、預測學生成績或優化教育資源分配,而算法選擇和參數調整直接決定其生成結果的公平性與準確性。模型中的偏見主要表現為聚合偏見和評價偏見:①聚合偏見產生于模型訓練過程中,是將不同群體的數據一概而論,未充分考慮群體之間的差異性。例如,教育評價模型若未能區分農村學生與城市學生的資源背景差異,而直接混合訓練數據,就可能低估農村學生的表現,從而產生不公平的評價結果。事實上,大多數GenAI模型并沒有考慮模型測試人群的信息,這使得公正的評價變得更加困難[35]。當測試數據或基準數據無法充分反映實際情境的多樣性和復雜性時,就可能會引發一系列潛在的問題。例如,由于學習少數民族語言的學生樣本在訓練和測試數據中嚴重不足,模型可能無法準確評估其學業表現;又如,針對接受特殊教育的學生,模型若未充分考慮其行為特征的差異性,在生成學習建議時就可能忽略實際需求。②評價偏見是因為測試數據或基準數據在代表性上存在問題,而導致在模型訓練過程中出現的偏見。GenAI教育評價模型一旦開發完成,就會將未曾接觸過的測試數據與基準數據進行比較測試,以驗證模型的公平性和準確性,此驗證對于提升模型在新情境下的泛化能力至關重要。
3 應用中的偏見:布署失當與循環加疊
在進行教育評價時,應用中的偏見主要表現為部署偏見和反饋循環偏見。其中,部署偏見是指GenAI模型進行實際應用時,由于模型對不同群體的適應性和公平性未被充分驗證,導致部分人群在系統中遭遇不公正的標記。例如,英國政府的“預防犯罪數據庫”將低收入社區的居民標記為高風險群體,導致他們被過度監控[36]。在教育評價系統中,部署偏見可能會導致某些特定群體的學生(如經濟困難家庭學生或農村學生)在整個教育生命周期中被長期低估,從而影響其學習成績和未來發展。反饋循環偏見是指模型的輸出再次成為輸入數據時,由于模型的固有偏差未得到糾正,致使偏見不斷被放大并持續存在。在教育評價系統中,GenAI模型生成的初步評價和學習路徑會直接影響后續教育資源的分配與個性化支持。例如,當經濟困難家庭學生在初期評價中被低估時,后續的反饋機制可能會進一步強化這種偏見,最終形成對其長期不利的負面反饋循環[37]。
四 GenAI技術在教育評價中的算法偏見對策
為厘清GenAI技術在教育評價中算法偏見的表現、成因與對策的對應邏輯關系,本研究對其進行了結構化分析,如圖2所示。算法偏見表現為個體差異、地域差異和社會地位差異,體現了算法應用于教育評價的不公平性;偏見的成因可概括為數據、模型與應用三個層面,反映出偏見的出現受數據質量不足、模型設計缺陷、應用部署偏差等多重因素的影響。針對上述成因,本研究進一步借鑒“三元數據倫理框架”,分別從數據倫理、算法倫理、實踐倫理三個維度提出GenAI技術在教育評價中的算法偏見對策,形成從問題診斷到對策實施的邏輯閉環。
1 數據倫理:完善算法設計
數據是GenAI技術運行的基礎,其質量直接影響算法的表現與公正性。然而,數據偏見往往源于采集和處理環節中的歷史偏見、代表性偏見和測量偏見等問題,導致某些群體在算法中無法得到充分代表和公正對待。因此,從數據倫理的角度出發,完善算法設計的關鍵在于確保數據的多樣性和代表性。為此,有必要在數據的采集和處理過程中采取有效措施,來減少數據源頭的偏見:①進行更為廣泛和包容的數據采集,確保邊緣化群體和少數群體的相關數據得以充分覆蓋。例如,在教育評價系統中,增加來自農村地區、少數民族地區和社會經濟地位較低家庭學生的數據,使算法更全面地反映不同群體學生的真實表現。②在數據預處理過程中引入數據審查機制,剔除帶有性別歧視、種族歧視、宗教歧視等歷史不公特征的數據,防止數據偏見在模型訓練中被繼承和放大[38]。這一機制有助于糾正歷史偏見、代表性偏見和測量偏見,保障數據的質量與公平,為算法設計提供更加公正的基礎。
2 算法倫理:統籌治理主體
算法的復雜性常常使用戶難以理解其決策機制,從而對其產生的偏見很少提出質疑。這種“黑箱”現象的存在,使得依靠GenAI技術進行自我優化和調整已不足以確保算法的公正性。從算法倫理的角度出發,統籌治理主體實現多方協同,是確保算法在不同教育群體中公平性和透明性的有效措施[39]。近年來,世界各國在加大力度進行技術創新的同時,也對AI、GenAI在教育領域中的數據倫理問題給予了高度關注。本研究梳理了近5年內世界一些國家或機構關于數據倫理問題的代表性法律法規,如表3所示。其中,聯合國教科文組織發布的《關于AI倫理的建議》強調確保AI技術在倫理框架內運行;中國發布的《生成式人工智能服務管理暫行辦法》要求數據使用合法合規,內容真實準確;美國發布的《算法問責法案》提出算法開發需強化數據審查與風險評估;英國在《人工智能監管白皮書》中強調AI治理應遵循透明、公正原則,確保用戶的異議權利;而歐盟在《人工智能法案》中進一步明確了AI模型的風險評估與監管標準。此外,《英國的AI:準備、意愿與能力?》報告指出,用戶應有權通過透明、公正的流程對AI算法的決策提出異議[40]。參考國外做法,我國教育評價系統應統籌治理主體,如政府層面制定全面的技術管理政策并與數字中國、教育強國和教育現代化的戰略相對接,用戶層面加強對算法的倫理審查與監管,確保所用的算法和數據能夠真實、客觀地反映評價對象的相關情況;同時,引入相關的保護機制,確保用戶對自身數據的使用和GenAI技術的自動化決策擁有充分的知情權與控制權。
3 實踐倫理:促進技術普惠
隨著GenAI技術在教育評價中的廣泛應用,智能時代的邊緣群體呈現出更為復雜、多元的特征,若技術普惠問題未能得到有效解決,必然會引發更多的社會矛盾。聯合國教科文組織指出,全球范圍內數字貧困加劇、技術不透明、國家政策法律滯后等問題正在削弱技術在教育中的公平性[41]。而這些問題的出現,正是算法偏見未得到有效解決的結果。從實踐倫理的角度出發,促進技術普惠的重點在于構建公平的教育評價體系,以確保邊緣群體獲得公平機會。而要構建公平的教育評價體系,其關鍵在于營造一個公正、無偏見的人類社會環境。然而,“公正、無偏見的人類社會環境”在現實中往往被視為“理想的烏托邦”。即使偏見在現實中難以被徹底消除,教育工作者仍需積極發揮主觀能動性,秉承技術和教育互促的原則,形成教育領域“拿來技術-善用技術-創新技術-再用技術”的良性循環[42],化技術挑戰為教育機遇,使技術惠普成為教育現代化的紅利,從而推動我國教育評價改革良性發展。
五"結語
在我國,黨和國家高度重視新時代教育評價體系的構建工作,提出了“建立”“完善”“形成”三步走的戰略路徑[43]。目前,我國正依據《深化新時代教育評價改革總體方案》的指引,努力實現“構建富有時代特征、彰顯中國特色、體現世界水平的教育評價體系”的目標。當前,人工智能應用正在快速普及,GenAI技術協同教育評價體系改革已成必然之勢。然而,正如習近平總書記所言:“科技是發展的利器,也可能成為風險的源頭。”[44]在GenAI技術協同教育評價體系改革的過程中,出現了個體差異、地域差異、社會地位差異等引發的算法偏見。這些算法偏見不僅會誤導教師對學生能力的判斷,還會對教學效果的評價和教育資源的合理分配產生負面影響,進而加劇社會的不公。盡管算法偏見無法完全消弭,但教育工作者仍需發揮主觀能動性,改善和預防潛在的“算法之弊”。為此,教育工作者需結合GenAI技術在教育評價中的算法偏見表現,剖析GenAI技術在教育評價中的算法偏見成因,從數據倫理、算法倫理和實踐倫理三個維度出發,完善算法設計,統籌治理主體,促進技術普惠,為教育評價體系改革提供更專業的支持和更全面的服務。
參考文獻
[1]習近平.扎實推動教育強國建設[OL]. lt;http://www.qstheory.cn/dukan/qs/2023-09/15/c_1129862386.htmgt;
[2]本刊編輯部.新時代教育評價改革向更深遠處邁進[J].人民教育,2023,(20):14.
[3]張惠彬,許蕾.生成式人工智能在教育領域的倫理風險與治理路徑——基于羅素大學集團的實踐考察[J].現代教育技術,2024,(6):25-34.
[4][37]Suresh H, Guttag J. A framework for understanding sources of harm throughout the machine learning life cycle[A]. Proceedings of the 1st ACM Conference on Equity and Access in Algorithms, Mechanisms, and Optimization[C]. New York, USA:"Association for Computing Machinery, 2021:1-9.
[5](土)埃塞姆·阿培丁著.范明,昝紅英,牛常勇譯.機器學習導論[M].北京:機械工業出版社,2009:2.
[6]胡小勇,孫碩,楊文杰,等.人工智能賦能教育高質量發展:需求、愿景與路徑[J].現代教育技術,2022,(1):5-15.
[7]Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[J]. Advances in Neural Information Processing Systems, 2014,27:2672-2680.
[8]O’neil C. Weapons of math destruction: How big data increases inequality and threatens democracy[M]. New York: Crown, 2017:3-15.
[9]Floridi L, Taddeo M. What is data ethics?[J]. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 2016,(2083):20160360.
[10]Kizilcec R F, Lee H. Algorithmic fairness in education[M]. New York: Routledge, 2022:174-202.
[11]Suresh H, Guttag J V. A framework for understanding unintended consequences of machine learning[OL].
lt;https://courses.cs.duke.edu/spring20/compsci342/netid/readings/suresh-guttag-framework.pdfgt;.
[12]Barocas S, Selbst A D. Big data’s disparate impact[J]. California Law Review, 2016,104:671.
[13]Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[J]. OpenAI Blog, 2019,(8):1-24.
[14](美)格爾哈特·倫斯基著.關信平,陳宗顯,謝晉宇譯.權力與特權:社會分層的理論[M].社會科學文獻出版社,2018:500-505.
[15]Bourdieu P. The forms of capital[A]. Cultural Theory: An Anthology[C]. Malden, MA: Wiley-Blackwell, 2010:81-93.
[16]Bridgeman B, Trapani C, Attali Y. Comparison of human and machine scoring of essays: Differences by gender, ethnicity, and country[J]. Applied Measurement in Education, 2012,(1):27-40.
[17]Hu Q, Rangwala H. Towards fair educational data mining: A case study on detecting at-risk students[A]. Proceedings of the 13th International Conference on Educational Data Mining[C]. International Educational Data Mining Society, 2020:431-437.
[18]Lee H, Kizilcec R. F. Evaluation of fairness trade-offs in predicting student success[OL]. lt;https://arxiv.org/pdf/2007.00088gt;
[19]Anderson H, Boodhwani A, Baker R S. Assessing the fairness of graduation predictions[A]. Proceedings of the 12th International Conference on Educational Data Mining (EDM)[C]. Durham, UK: International Educational Data Mining Society, 2019:393-398.
[20]Gardner J, Brooks C, Baker R. Evaluating the fairness of predictive student models through slicing analysis[A]. Proceedings of the 9th International Conference on Learning Analytics amp; Knowledge[C]. Tempe, AZ: ACM, 2019:225-234.
[21]Wang Z, Zechner K, Sun Y. Monitoring the performance of human and automated scores for spoken responses[J]. Language Testing, 2018,(1):101-120.
[22]Li X, Song D, Han M, et al. On the limits of algorithmic prediction across the globe[OL]. lt;https://arxiv.org/pdf/2103.15212gt;
[23]Ocumpaugh J, Baker R, Gowda S, et al. Population validity for educational data mining models: A case study in affect detection[J]. British Journal of Educational Technology, 2014,(3):487-501.
[24]金兼斌.數字鴻溝的概念辨析[J].新聞與傳播研究,2003,(1):75-79.
[25]Bernstein B. On the classification and framing of educational knowledge[M]. London: Routledge, 2018:1-23.
[26]郭元祥.對教育公平問題的理論思考[J].教育研究,2000,(3):21-24.
[27]Yu R, Li Q, Fischer C, et al. Towards accurate and fair prediction of college success: Evaluating different sources of student data[A]. Proceedings of the 13th International Conference on Educational Data Mining[C]."International Educational Data Mining Society, 2020:292-301.
[28]Yudelson M, Fancsali S, Ritter S, et al. Better data beats big data[A]. Proceedings of the 7th International Conference on Educational Data Mining[C]. London: International Educational Data Mining Society, 2014:123-128.
[29]徐端.大數據戰略:個人,企業,政府的思維革命與紅利洼地[M].新世界出版社,2014:176-178.
[30]Chander A. The racist algorithm?[J]. Michigan Law Review, 2017,(6):1023-1045.
[31]Baker R S, Hawn A. Algorithmic bias in education[J]. International Journal of Artificial Intelligence in Education, 2022,(4):665-705.
[32]Buolamwini J, Gebru T. Gender shades: Intersectional accuracy disparities in commercial gender classification[A]. Conference on Fairness, Accountability and Transparency[C]. New York, NY: Proceedings of Machine Learning Research, 2018:77-91.
[33]Holstein K, Doroudi S. Equity and artificial intelligence in education: Will “AIED” amplify or alleviate inequities in education?[OL]. lt;https://arxiv.org/pdf/2104.12920gt;.
[34]Fischer C, Pardos Z A, Baker R S, et al. Mining big data in education: Affordances and challenges[J]. Review of Research in Education, 2020,(1):130-160.
[35]Paquette L, Ocumpaugh J, Li Z, et al. Who’s learning? Using demographics in EDM research[J]. Journal of Educational Data Mining, 2020,(3):1-30.
[36]Eubanks V. Automating inequality: How high-tech tools profile, police, and punish the poor[M]. New York: St. Martin’s Press, 2018:22-24.
[38]Barocas S, Selbst A D. Big data’s disparate impact[J]. California Law Review, 2016,(3):671-732.
[39]徐繼敏.生成式人工智能治理原則與法律策略[J].理論與改革,2023,(5):72-83.
[40]Lords H O. AI in the UK: Ready, willing and able?[J]. Retrieved August, 2018,13:2021.
[41]UNESCO. Guidance for generative AI in education and research[R]. Paris: UNESCO, 2023:14-17.
[42]方建鋒,王克宇,房欲飛.生成式人工智能對教育的顛覆性影響和應對[J].全球教育展望,2024,(8):17-32.
[43]劉云生.新時代教育評價體系構建的中國路向[J].教育與經濟,2023,(4):3-12.
[44]新華社.習近平:在中國科學院第二十次院士大會、中國工程院第十五次院士大會、中國科協第十次全國代表大會上的講話[OL]. lt;https://www.gov.cn/xinwen/2021-05/28/content_5613746.htm?eqid=82192999001e3aa10000000464561893gt;
The Algorithmic Bias of"GenAI Technology"in"Educational Assessment: Manifestations, Causes, and Strategies
XIE Qi1""""YU Ri-Ji1[Corresponding Author]""""CAI Su2
(1."School of Art and Design, Hubei University, Wuhan, Hubei, China 430062;
2."Department of Education, Beijing Normal University, Beijing, China 100875)
Abstract:"Under the context of deepening global innovation-driven development strategy, Generative Artificial Intelligence (GenAI) technology is increasingly becoming an important force to promote the transformation and upgrading of educational evaluation system. However, the application of intelligent technologies in the education field remains nascent, particularly facing significant challenges in the interpretability of large language model. The problem of “algorithmic bias”"stemming from data bias, algorithm design defect, and inadequate testing verification has become a key problem restricting the fair application of technology. Therefore, combined with the practical application of GenAI technology in education evaluation, this paper first systematically combed the specific manifestations of algorithm bias, including individual differences, regional differences, social status differences, and other dimensions. After that, the root causes of bias were deeply analyzed from the perspectives of data quality, model design, and application scenarios. Finally, the strategies such as refining algorithm design, coordinating governance subject, and promoting technology inclusion to provide reference for the construction of a fair, transparent, and inclusive educational evaluation system.
Keywords: GenAI technology; algorithmic bias; educational assessment; data ethics;"artificial intelligence
*基金項目:本文為湖北省高校人文社科重點研究基地湖北大學文化科技融合創新研究中心開放基金重點項目“文化可持續發展視閾下文化遺產AR游戲化教育體驗設計研究”(項目編號:WK2023004)的階段性研究成果,并受國家社會科學基金教育學一般項目“高水平開放格局下高校海外科技人才引進政策優化研究”(項目編號:BIA230213)資助。
作者簡介:謝琦,博士后,研究方向為教育人工智能應用,郵箱為97694387@qq.com。
收稿日期:2024年8月27日
編輯:小米