智能學習評價研究：理念、挑戰(zhàn)與前景

2021-11-30 08:20:15丁念亮

山東理工大學學報(社會科學版) 2021年3期

丁念亮

當前全球正在經(jīng)歷新一輪科技革命，人工智能技術已成為推動教育變革的重要力量。教育部于2018年發(fā)布《教育信息化2.0行動計劃》，要求進一步推進人工智能教育的發(fā)展[1]，表明我國教育信息化已進入一個新的階段。教育人工智能的理論探索、技術開發(fā)和生態(tài)構建將是當前和未來教育研究的重要任務。在學習評價研究領域，人工智能的介入正深刻改變著傳統(tǒng)學習評價模式，但學習評價模式的智能化發(fā)展之路卻充滿了諸多挑戰(zhàn)。

一、智能學習評價的內(nèi)涵

人工智能是計算機系統(tǒng)的一種能力，它能夠完成本質(zhì)上具有人類特征的行為[2]。人工智能的概念源自Alan Turing的《計算機器與智能》，但其作為一個術語則是由麻省理工學院教授John McCarthy 等人首次提出[3]。這一術語本身具有較強的包容性，含有多個相互交叉重疊的概念，如預測分析、深度學習、機器學習、專家系統(tǒng)和社交機器人等。雖然人工智能是一個多維度概念，但其核心都是機器模仿人的一種或幾種智力活動[4]。

在學習評價中的人工智能可以包含上述一個或多個技術概念，這與學習評價的內(nèi)涵密切相關。學習評價一般理解為對學生學習成效的評價，其內(nèi)涵在歷史上也經(jīng)歷了若干變化，至今仍有不同的理解。Harlen將“對學習的評價(assessment of learning)”和“為學習的評價(assessment for learning)”做了區(qū)分，認為兩者的差異歸于其各自不同的評價目的[5]。“對學習的評價”目的是終結性的，意在提供可靠的學生學業(yè)成績報告，評價過程是線性的；而“為學習的評價”本質(zhì)上是形成性的、不斷重復的循環(huán)過程，目的是從持續(xù)的學習活動中提取數(shù)據(jù)、形成反饋信息并指導學生下一步的學習。與上述兩種理解不同，Dann提出了“評價即學習(assessment as learning)”的概念[6]。這種學評融合的評價理念使學生全程置于評價之中，使教、學、評三者融為一體，評價不再是教和學的附屬品，而是與教和學一起構成的相互關聯(lián)和滲透的統(tǒng)一體。學評融合模式的優(yōu)勢是能夠?qū)W習進行及時反饋和連續(xù)反饋，但限于傳統(tǒng)評價手段高昂的時間成本，這種評價模式似乎只是一種現(xiàn)實中難以實現(xiàn)的評價理想。當大數(shù)據(jù)、人工智能和區(qū)塊鏈技術日趨成熟并逐漸滲透到教育領域時，學評融合的評價模式也迎來了新的發(fā)展契機。

人工智能等信息技術與學評融合理念的結合可以實現(xiàn)學習與評價的同步。在過去的一二十年中，人工智能技術已經(jīng)在學習評價中得到越來越廣泛的應用，如智能作文評分系統(tǒng)和智能教學系統(tǒng)等。智能學習評價利用人工智能技術對學習過程大數(shù)據(jù)進行分析并提供實時反饋。學習過程中產(chǎn)生的大量與學習相關的數(shù)字化信息被準確完整地記錄下來用于學習評價。這些數(shù)據(jù)既包括鼠標點擊次數(shù)和鍵盤操作情況，也涵蓋學習任務完成進度及正確率等信息。除此之外，通過精密傳感儀器甚至可以獲得學生的心率、微表情等所有個人活動信息數(shù)據(jù)。這些學習過程數(shù)據(jù)由系統(tǒng)預置的評價模型自動分析并生成實時反饋信息，指導進一步學習。理論上，智能學習評價能完全貫徹學評融合的評價思想，徹底改變傳統(tǒng)評價體系下無法連續(xù)評價和及時評價的尷尬局面。

二、發(fā)展智能學習評價的意義

智能學習系統(tǒng)從早期的智能專家系統(tǒng)逐漸向自適應和智適應學習系統(tǒng)過渡，不僅自動提供學科知識，對學習行為進行診斷評價[7]，還可以憑借大數(shù)據(jù)和人工智能技術使其擁有媲美特級教師的教學能力[8]。通過基于大數(shù)據(jù)的量化自我學習算法，智能學習系統(tǒng)全面記錄學生學習行為，評估預設學習內(nèi)容是否掌握，最終實現(xiàn)學習評價的動態(tài)性、全程性和綜合性[9]。信息化時代背景下，智能學習評價的內(nèi)在價值決定了其存在和發(fā)展的合理性。

(一)評價目標的個性化

人工智能技術支持下的學習評價可以快速實現(xiàn)評價目標的個性化。依托智能學習系統(tǒng)，設計者利用人工智能技術對學習大數(shù)據(jù)進行分析，可以得到學生學習行為的預測信息，進而形成基于學習內(nèi)容的個性化評價目標。在完成學習內(nèi)容后，系統(tǒng)可對目標達成情況向?qū)W生和教師進行反饋，推送新的學習內(nèi)容，形成新的評價目標，如此周而復始，引導每個學生完成預定的學習內(nèi)容。由于學生學習能力存在個體差異，學生的評價目標和學習進度是不一樣的。這與傳統(tǒng)學校教育中的評價體制相異，因而目前無法將人工智能學習系統(tǒng)大規(guī)模應用到學校教學中，只能較多滿足自主學習者的需要。

(二)評價過程的持續(xù)性

傳統(tǒng)的紙筆評價方式只能進行數(shù)據(jù)抽樣或階段性測評，獲取學習數(shù)據(jù)，完成評價和反饋。這種評價方式的不足在于評價過程的中斷。學習評價的理想狀態(tài)就是無間斷的全程評價。但全程評價方式會產(chǎn)生巨量數(shù)據(jù)，傳統(tǒng)數(shù)據(jù)分析手段無法快速處理，當然也無法進行全程記錄、分析和評價。人工智能技術可以全程記錄學習行為數(shù)據(jù)，并依據(jù)評價模型實現(xiàn)即時性全程性評價。除了學習行為之外，學生的心理狀態(tài)、運動情況、休息情況等都可以通過智能便攜設備進行全程記錄和分析評價。

(三)評價效果的精確性

學習評價系統(tǒng)能夠準確客觀地診斷學習表現(xiàn)，幫助師生把握課程目標和教學策略[10]。學習過程大數(shù)據(jù)是學習行為的數(shù)字化體現(xiàn)，排除了人工打分的個人偏好、隨意和誤差等不利因素。數(shù)據(jù)記錄精確即時，在評價模型成熟可靠的前提下，評價效果必然是客觀和精確的。因此，開發(fā)出可靠的評價模型是評價效果的重要保障。但評價模型的開發(fā)并非易事，需要融合先進的信息技術和科學的評價理念，經(jīng)過專業(yè)人員通力合作反復測試才能完成。

(四)評價內(nèi)容的整體性

紙筆評價方式常以階段性評價為主，評價內(nèi)容圍繞本階段的學習表現(xiàn)，可以包括單元測試、課堂表現(xiàn)、作業(yè)成績等主要學習行為。但除此以外的學生素質(zhì)評價則較為主觀和模糊，缺乏客觀精確的統(tǒng)計數(shù)據(jù)作為依據(jù)。造成這種困難的原因在于缺少一種可以容納全部可測項目的評價工具，僅依靠傳統(tǒng)人力無法完成如此龐大的數(shù)據(jù)處理工作。人工智能技術的介入使學生綜合素質(zhì)評價成為可能。綜合素質(zhì)可以進行測評項目分解，并向人工智能評價系統(tǒng)無限添加，對數(shù)據(jù)進行自動記錄、分析和匯總，最終得出評價結果和反饋建議。

三、智能學習評價的挑戰(zhàn)

(一)評價主體單一化

智能評價系統(tǒng)往往與智能學習系統(tǒng)整合，成為智能學習系統(tǒng)的一部分，傳統(tǒng)評價中的教師評價、學生自評和互評部分被人工智能取代，智能評價系統(tǒng)扮演了教師和學生在傳統(tǒng)評價過程中的角色。原本由教育者和受教育者共同完成的教學評價活動，僅由人工智能便可完成[11]，原有的評價參與者被排除在外。通過所謂的算法“黑匣子”，基于深度學習的人工智能所構建的評價系統(tǒng)超出了人類監(jiān)控能力，導致無法對智能評價系統(tǒng)的準確性、客觀性和公正性做出科學評判。人類有可能從最初的系統(tǒng)設計者，轉變?yōu)閷W習評價的旁觀者；而人工智能評價系統(tǒng)則可能成為教育的隱形操控者。學習評價活動成為智能評價系統(tǒng)獨立掌控的壟斷事務，普通教師對學生的評價和學生的自評互評，因為過于“主觀”或者過于繁瑣而無奈讓位于高效的智能評價。但智能評價系統(tǒng)的設計往往無法完全反映教育目標，如同情心、正義感、批判性思維能力等素質(zhì)指標。這種狹隘的智能評價系統(tǒng)一旦取代人類成為學習的評價者，教育將面臨被異化的風險。

(二)教師職能逐漸弱化

智能學習系統(tǒng)往往內(nèi)置評價系統(tǒng)，在評價系統(tǒng)研發(fā)和測試階段往往需要教師的參與，把符合時代要求的評價思想融入評價模型，由信息技術專家將教學評價思想轉化為一串串代碼，最終實現(xiàn)學生學習行為的智能化評價。由此帶來的一個重要轉變就是教師職能的弱化。正常使用的智能評價系統(tǒng)已經(jīng)具備了全自動的評價流程，不需要教師的介入，教師失去話語權，師生關系可能會逐漸淡化。雖然人機交互的自主學習模式已逐漸成為學校教育的重要輔助力量，但人工智能技術目前還不能完全模擬教師在教育中的情感職能。師生之間和生生之間融洽的人際關系對學生未來成長至關重要，去教師化的智能評價系統(tǒng)很難實現(xiàn)如人類之間的直接情感交流，由此可能導致學生的情感缺失和性格障礙，不利于學生的人際交往能力發(fā)展[12]。

(三)綜合素質(zhì)難以測評

新時期我國陸續(xù)發(fā)布的重大教育政策已經(jīng)明確了綜合素質(zhì)的重要性。國家近幾年大力推進的新高考改革方案加強了對學生核心價值和綜合能力的考核，并將綜合素質(zhì)評價作為高考錄取的重要參考。2020年10月，中共中央、國務院印發(fā)了《深化新時代教育評價改革總體方案》，要求“改革學生評價，促進德智體美勞全面發(fā)展”[13]，探索通過信息化等手段記錄學生品行等日常表現(xiàn)，并納入學生綜合素質(zhì)評價。這些都表明綜合素質(zhì)評價日益凸顯的重要性和創(chuàng)新評價手段的緊迫性。但目前的評價手段多為主觀評價，難以保證綜合素質(zhì)評價結果的客觀性和準確性。同時，利用過程數(shù)據(jù)進行的綜合素質(zhì)評價也面臨挑戰(zhàn)。首先，人們對綜合素質(zhì)的理解和界定存在一定的差異，對學習者的技能、信念、毅力、情感、態(tài)度等特質(zhì)尚缺乏清晰的界定和明確的維度，因而難以準確測量和評估。其次，在綜合素質(zhì)評價建模過程中，存在大量無標注數(shù)據(jù)。缺乏語義標簽的數(shù)據(jù)很難用于模型的構建、訓練和完善[14]。造成這一困難的原因在于相關實證研究的不足。墨爾本大學教育學院評價研究中心的桑德拉等認為，缺乏有效的實證研究數(shù)據(jù)，就無法定義學習過程中學生的各項素質(zhì)，難以實現(xiàn)學習評價的效度、效用和解釋力[15]。可見，對學習過程要素進行明確的定義是構建測量模型的關鍵步驟，而要對學習過程所涉及要素進行確切定義，只能依靠大量的實證研究。

(四) 隱私倫理遭遇挑戰(zhàn)

傳統(tǒng)的學習評價目標較為單一，數(shù)據(jù)采集方式也較為簡單，評價內(nèi)容主要涉及課程學習本身，較少大規(guī)模采集學生的行為、情感或其他個人信息。因此，在傳統(tǒng)評價體系中，學生個人隱私泄露風險和潛在危害較小。但隨著人工智能技術的介入，學生行為數(shù)據(jù)的實時采集成為現(xiàn)實。學生的日常學習行為，包括學習平臺登錄次數(shù)、使用資源情況、在線學習時長、作業(yè)提交情況等都被記錄在案。通過攝像頭和智能便攜設備，學生的地理位置、社交偏好、表情變化、運動和睡眠時長等私密性數(shù)據(jù)也可以實時記錄和查詢。在符合倫理并遵守法律的前提下合理使用這些數(shù)據(jù)，可以極大地提高學習評價的準確性和客觀性，甚至可以幫助教師描繪出學生學習的數(shù)字全景圖，為客觀評價提供可靠的數(shù)據(jù)支持。但學生隱私數(shù)據(jù)實時采集往往伴隨著倫理和法律風險。人工智能技術使學生可以被當作實驗對象時時處處暴露在放大鏡下等待評判，這種評價系統(tǒng)忽略了學生作為人的基本權利，違背了教育評價的本意。沒有約束的智能評價系統(tǒng)極有可能淪為“課堂間諜”[16]，對學生的個人隱私構成極大威脅。許多智能系統(tǒng)基于云端建設，更增加了隱私數(shù)據(jù)濫用的潛在風險。

(五)開發(fā)建設成本高昂

傳統(tǒng)的學習評價方式以終結性評價為主，簡單易行，成本較低。即使采用形成性評價，教師也只是把評價過程粗略劃分為幾個大的類別，數(shù)據(jù)采集量不大，對數(shù)據(jù)處理能力要求不高。因此，傳統(tǒng)評價方式投入的人工和經(jīng)濟成本相對較低。與之相反，智能評價系統(tǒng)開發(fā)費用較高，且管理運行也需要較高的技術要求和成本投入。構建大規(guī)模智能評價系統(tǒng)的成本難以準確估算，但通過其他大型人工智能項目動輒數(shù)億美元的巨大投入來看，構建和維護一個智能學習評價系統(tǒng)的費用也會相當高昂[2]。桑德拉等指出，構建學習評價系統(tǒng)的測量模型成本較高，不僅耗時費力而且需要技術和設備支持，小規(guī)模應用時經(jīng)濟性也很差[15]。同時，學習行為數(shù)據(jù)采集需要硬件設施的支持才能實現(xiàn)。傳統(tǒng)學校平臺的數(shù)據(jù)采集功能十分有限，無法收集到學生平臺之外的學習信息。智能便攜設備盡管可以滿足這一要求，但人人佩戴目前尚不現(xiàn)實。

四、智能學習評價的前景

(一) 智能評價與人工評價互為補充

智能評價系統(tǒng)應該體現(xiàn)正確的教育價值判斷，否則人工智能技術不僅無助于學習評價，反而會造成嚴重誤導。在現(xiàn)有的智能評價系統(tǒng)尚不能對學生情感和綜合素質(zhì)等方面做出整體評價的情況下，人工評價仍不可缺席。智能評價和人工評價應該形成互補關系，共同服務于學習評價。教師不能一味地將自己的評價者角色讓位于日漸強大的人工智能，也不可完全否定人工智能在重復性技能型工作方面的客觀性和專業(yè)性。學習評價不僅僅是對學習成績和行為數(shù)據(jù)的統(tǒng)計和比較，還應涵蓋復雜的思維活動和細膩的情感活動。目前即使最先進的人工智能系統(tǒng)也無法完全模擬和評價人類的情緒、意志和語言表達。人類評價者的參與可以關照學生的情商和語商等多個評價維度[14]，防止評價維度單一而導致的片面性。同時，學習者不論是作為獨立的學習個體還是相互聯(lián)系的集體成員，學習評價都應該包含學習者本人的自我評價和同伴互評，而不應當使學習評價成為智能學習系統(tǒng)的壟斷行為。

(二)評價模型體現(xiàn)教育價值導向

科學的評價模型是有效實施學習評價的關鍵一環(huán)，也是目前大數(shù)據(jù)時代亟待攻克的難題。學界應當加強與商界的合作，開發(fā)大規(guī)模適用的智能學習評價系統(tǒng)。因為大數(shù)據(jù)本身并不能自動呈現(xiàn)教育的真相，應當把大數(shù)據(jù)變成可理解的小數(shù)據(jù)，才能對學習狀況進行科學測量和評價，進而提供合理反饋，提高學習質(zhì)量。這需要本學科教師、評價研究者、人工智能和大數(shù)據(jù)工程師的有效協(xié)作和努力。因此在一定意義上，科學的評價模型是智能化學習評價的核心與關鍵[17]。當把學習測量和學習評價分開看待時，它們的再次結合就變得不那么自然而然，而是需要使預先建構的測量模型與評價內(nèi)容相適應，即測量模型須涵蓋評價內(nèi)容且體現(xiàn)評價者的價值判斷。這就要求評價者明確學習評價的價值導向，在構建測量模型時確定“影響學習評價質(zhì)量的關鍵性假設，并對其逐一檢驗”[15]。

(三)制度規(guī)約解決隱私和管理問題

學習評價系統(tǒng)中的數(shù)據(jù)采集內(nèi)容能夠包括學生全部學習行為。可穿戴設備、人臉識別、智慧校園監(jiān)控等大量數(shù)據(jù)采集設備的應用使學生時時刻刻都處在“第三只眼”的注視之下，毫無隱私可言。所收集到的數(shù)據(jù)如何管理一直是嚴肅的倫理問題。人工智能在教育應用中的倫理風險主要在于設計開發(fā)和實踐應用兩個環(huán)節(jié)[11]。學習評價系統(tǒng)的設計人員在開發(fā)之初除了要有明確的教育價值理念指導之外，還要有嚴格的倫理規(guī)范作為約束。因此，制定符合社會倫理和技術倫理的制度規(guī)約是對學生學習行為數(shù)據(jù)進行管理、使用和保護的制度保障。在有效的倫理框架下開展學習行為評價，才能最大限度地保障學生權利，促進學生健康發(fā)展。在具體評價過程中，評價者能否遵守評價倫理制度需要由政策和法規(guī)加以強制約束。評價行為必須在法規(guī)框架內(nèi)進行，違反倫理法規(guī)，侵犯、泄露、傳播學生隱私的行為應受到法律制裁。學生提出質(zhì)疑或?qū)﹄[私有爭議時，應該首先暫停數(shù)據(jù)采集，在獲得學生或家長同意之后，才能繼續(xù)使用。學生、家長和學校共同擁有學習數(shù)據(jù)的所有權和使用權。只有制定完整的隱私和倫理制度的具體規(guī)約，智能學習評價才能在更大規(guī)模上健康發(fā)展。

(四)政府決策推動人工智能評價落實

在我國現(xiàn)行的教育體制下，由政府推動的自上而下的評價模式改革更容易取得成效。除了加大研發(fā)和推廣的投入以外，政府應順應智能時代的發(fā)展趨勢，繼續(xù)強化政策導向，具體落實教育評價改革。事實上，我國已經(jīng)發(fā)布了若干政策文件，大力推動人工智能學習評價的落實。其中，2020年發(fā)布的《深化新時代教育評價改革總體方案》就指明了落實教育評價改革的創(chuàng)新路徑，強調(diào)充分利用“人工智能、大數(shù)據(jù)等現(xiàn)代信息技術，探索開展學生各年級學習情況全過程縱向評價、德智體美勞全要素橫向評價”，“提高教育評價的科學性、專業(yè)性、客觀性”[13]。以此為導向，教育主管部門可結合人工智能、大數(shù)據(jù)和區(qū)塊鏈技術嘗試建立區(qū)域性乃至全國性的權威智能評價系統(tǒng)，向所有學校開放，統(tǒng)一管理。這樣可以降低小規(guī)模開發(fā)和應用造成的重復建設和資源浪費；也可以避免由于學校之間數(shù)據(jù)格式和評價標準的不統(tǒng)一，而無法橫向比較的弊端。

綜上所述，智能學習評價是新時期教育評價改革的重要組成部分，是智能時代 “識才”“育才”“選才”的重要手段。智能學習評價系統(tǒng)構建過程中，探索智能評價建模方法和關鍵技術、正確處理智能評價和人工評價的關系、制定保護隱私合乎倫理的政策法規(guī)、注重頂層設計和基層建設的結合，既是實現(xiàn)智能學習評價的保證，也是教育改革的要求。