摘要:人工評卷是目前語文測評中主觀題部分評卷的主要方式,但容易出現評分者效應。將人工智能運用于語文作文評卷,可發揮其精確高效的優勢,減少人工評卷的不利因素,確保評卷工作的公平性,對促進教育公平必將利大于弊。因此,引入人工智能評閱語文主觀題,宜有可為,且應有可為。
關鍵詞:人工智能;人工評卷;評分者效應;語文主觀題;作文評閱
在大規模的高利害考試中,語文主觀題的評卷工作一直是難點,主要原因有二:一是語文主觀題題量大,答題書寫量大,需要的評卷員數量多;二是評卷工作強度大、難度大,評卷標準執行水平不一,評卷質量參差。因此,近年來,能否引入人工智能評閱語文主觀題成為語文測評工作的思考熱點。筆者在一次涉及約4萬名學生、160名評卷員的語文模擬考試作文評卷工作結束后,對評卷的工作質量數據做了統計,并面向一線語文教師發起問卷調查,了解教師對人工智能評卷的支持度。經過調研和討論,筆者試著從語文教育者以及測評工作組織者的角度,提出人工智能技術適度介入語文主觀題評卷工作的設想,或許本文能為人工智能研究專家及測評專家提供一定的參考價值。
一、人工評卷的“評分者效應”
人工評卷是目前語文測評中主觀題部分評卷的主要方式,雖然使用了評卷平臺,但評分這一具體工作由人工完成。評價人工評卷的質量,目前主要依據評卷平臺統計的評卷員工作吻合指數。該指數由兩項數據計算而成:一是該評卷員在回評考核中與自己首次評分的吻合度;二是該評卷員個體與評卷團隊整體評分的一致性。回評考核是指評卷平臺不定時將評卷員已完成評分的同一份試卷重新發送給他,根據其第二次評分與第一次評分的情況計算吻合度,以此評判其自評吻合質量。評卷個體與集體的一致性考核是將該名評卷員的評分情況與評卷團隊的評分情況做比較。例如,語文的作文評卷設置雙評,同一篇作文由兩名評卷員評分,當二人分差超過設定的標準(一般設定為6分),該作文將被發送至第三名評卷員。三評完成后,差距符合設定分差的兩位評卷員之評分為有效分,另一位評卷員的評分則視為無效分,由此可統計每一位評卷員評分的有效度和無效度,作為評卷員個體與團隊評分一致性的參考數據。
在常見的模擬考試中,人工評卷的質量到底如何?下面以一次高三模擬考試語文學科的作文評卷工作為例。本次模擬考試共有4萬份考卷,作文為雙評制,評分差距8分以上將進入三評,最終作文評卷的任務總量82 017份;評卷人員160人,人均工作量512.6份。評卷結果表明,160名評卷員產生的無效評卷1 639份,約占任務總量的2%。評卷有效度從89.01%到100%不等。其中,有效度低于90%的1人,有效度在90%~95%(不含95%,下同)的8人,95%~98%的47人,98%~99%的103人,有效度100%的1人。從人工評卷速度來看,160名評卷員的平均速度為55.32秒/份,其中速度最慢的148.7秒/份(約2.5分/份),速度最快的19.8秒/份。用時30秒以下的有6人,31~40秒的有21人,41~50秒的有41人,51~60秒的有46人,61~70秒的有29人,71~90秒的有17人,90秒以上的有5人。
再看本次考試作文成績分布情況。去除0分試卷后,共有37 454份有效樣本,根據作文評分細則的6檔分別統計:35分以下的有795人,占總數的2.12%;36~39分的有2 242人,占總數的5.99%;40~44分的有17 456人,占比46.60%;45~47分的有12 607人,占比33.66%;48~53分的有4 306人,占11.50%;54~60分的有48人,占比0.13%。值得關注的是,本次作文評卷沒有滿分,最高為59分(1人),且55分以上的僅有18人。以本市高三學生的寫作素養,應不至于如此慘淡。如果合計40~48分(也就是第二至第四檔)的人數占比,發現數值高達91.77%,這說明本次模擬考試的作文評卷出現了“評分者效應”中的“趨中漂移”,且情況頗為嚴重。在主觀題評分過程中,評分員自身以及不同評分員間在多次評定上的不一致性,直接導致分數信度和效度的降低,這種現象被稱為評分者效應。隨著評分進程的推進,一些評分員會更頻繁地使用量尺的中間類別,表現出一種逐漸的范圍限制,這種現象被稱為趨中漂移[1]。在高中語文作文評卷場上,這種趨中漂移現象已成為常態,評分員慣于在均分上下趨中評分。這樣既快速又安全,因不打極高分和極低分,就能降低被留意到和被管理的概率。
受趨中漂移影響,本次模擬考試作文題的區分度僅為0.0838,而作文之外的其他主觀題共12題,區分度在0.3~0.48的有5題,在0.2~0.3(不含0.3)的有4題,在0.1~0.2的有3題。這說明評卷員所給分數趨中性已經嚴重影響作文測評的區分度。這樣帶來的弊端不僅僅是一次考試測評的質量判斷不準確,更嚴重的是寫作試題的區分效果不理想,由此造成高考語文的區分功能減弱,中學不重視寫作教學[2]。
基于進一步了解評卷員工作心態的需求,模擬考試評卷結束后,筆者面向本市高中一線教師開展了一次調查,共回收有效答卷570份。在關于“目前的人工評卷所存在的不足”這個問題上,認為“耗時長、效率低”的占78.77%,認為“同一個評卷員出現前后狀態不一現象”的占72.81%,認為“評分標準執行過程中存在因人而異現象”的占85.26%。這個問卷調查的結果與評卷平臺數據反映的事實有一致性,說明評分者效應是不容忽視的。一方面,一些評分員因練習效應準確性得以提高;另一方面,疲勞和厭倦也可能導致評分誤差隨著評分進程加劇。此外,有些評分項目會對評分員進行持續的培訓或者階段性校正,這些措施也會導致評分員的準確性發生變化[3]。
因此,人工評卷的質量參差是毋庸爭議的事實,這在評閱主觀題時表現得極為突出。評閱主觀題常用傳統的“采點”評分法,具有評分標準客觀、操作性強的優點,但在實踐中存在以下問題:倚重專家經驗卻缺乏理論指導,評分的科學性和規范性有待提高;側重學生回答的“量”而非“質”;參考答案僅給出少數作答樣例,須根據個人理解評分,主觀傾向性突出,降低了考試的信度;參考答案不能涵蓋所有作答,特別是有創新性的見解和方法,不能真正評價高水平的學生,降低了考試的效度[4]。
基于人工評卷的種種不足,是否可以借助人工智能技術輔助語文主觀題評分呢?
二、人工智能評閱主觀題的可行性
1956年夏,麥卡錫、明斯基等科學家在美國達特茅斯學院開會研討“如何用機器模擬人的智能”,首次提出“人工智能”(artificial intelligence,AI)這一概念,標志著人工智能學科的誕生。人工智能能否代替人類完成一部分工作?經過深度學習后,人工智能是可以做到的。深度學習是一種基于深度神經網絡學習的圖文識別技術,是為了“訓練原始數據和正確答案、其他數據之間的對應關系。在人類給出正確答案之前盡量提升精度,調整各個層次組織”。所以,深度學習與其說是一種“學習”,不如說是一種“訓練”[5]。2017年5月,谷歌公司的人工智能AlphaGo成為第一個擊敗中國圍棋世界冠軍柯潔的電腦程序。5個月后,AlphaGo迭代出AlphaGo Zero[6]。這可能是目前最接近人類智能的一種人工智能模式,其利用的主要技術就是深度學習。目前,隨著圖像文字轉寫識別、自然語言處理、深度學習和評分算法等核心技術的發展,運用人工智能技術完成諸如語文作文和英語作文等智能輔助評分已經成為可能。人工智能技術輔助評分的要點可概括為兩個方面:一是對考生答題內容進行文字(含公式等)識別,轉換成文本;二是基于深度神經網絡建模的評分模型訓練和多維度計算機智能輔助評分[7]。
人工智能若能運用于語文作文評卷,應可具備以下優勢。一是高效率,人工智能評卷比人工評卷速度更快,這是毋庸置疑的。首先,人類的記憶力參差影響評卷進展,不少評卷員時常需要重新查閱評分標準,影響速度。其次,人工評卷的雙評、三評機制也需要消耗大量人力和時間。二是準確性,人工智能一旦被輸入評分標準,即能完全根據標準評分,避免人工評卷員可能存在的前后標準不一致的“評分者效應”。三是公平性,人工智能不知疲倦,不受任何外界影響,也不存在自身情感、情緒等各種因素影響,不存在“評分者效應”,確保了評卷工作的公平性。
人工智能在這些方面恰恰可彌補人工評卷的不足。近幾年,不少地市開始在評卷工作中引入人工智能。2017年,湖北襄陽在中考評卷工作中引入智能評分系統作為評分輔助手段,實現對除選擇題以外的所有題型的空白題檢測,還有效地檢測出語文和英語答卷中學生抄襲范文的異常答卷,減少了主觀題人工評卷的工作量。2018年,湖北黃石市也在中考評卷中引入人工智能閱卷技術,針對異常卷、空白卷、雷同卷以及疑似作文“套作”等進行檢測,讓絕大多數的作弊行為無處遁形。更能體現出人工智能優勢的是浙江外國語學院國際學院的一次應用。該院在2017年的一次中文測試中,使用人工智能評閱11位外國留學生的中文寫作答卷。人工智能技術精確圈畫出留學生寫作答卷上的錯誤,并準確使用“多詞”(redundant)、“缺詞”(missing)、“選詞”(selection)和“詞序”(word order)等評語標注錯誤,完成對留學生中文寫作的批改。該人工智能被“投喂”了龐大的中文語言材料庫后,處理一篇200字左右的作文只需5秒鐘,其準確度和細致程度已經超出人工評卷的水平。在2021年廣東等八省的高三適應性考試評卷工作中,廣東省語文學科的名句名篇默寫題已經使用人工智能評卷,但基于考試工作保密的原則,詳情無從得知。
從以上事實來看,人工智能輔助評閱語文主觀題,在技術層面應該是可行的。
三、人工智能用于評卷的幾種方式
基于對人工智能的粗淺認識,人工智能運用于語文考試主觀題評卷可以有以下方式。
(一)人工智能完全介入,獨立評卷
語文試題中的名句名篇默寫是有標準答案的,這樣的評卷工作可以全部交由人工智能完成。因為與人相比,人工智能更擅長記憶、基于準則的推理、邏輯運算等程序化工作,擅長處理目標確定的事務。例如,數學、物理、計算機等理工科作業,評價標準客觀且容易量化,自動化測評程度較高[8]。
(二)人工智能適度介入,形成“人工+智能”的評卷方式
采用“人工+智能”而不是全程“人工智能”的方式,這是一線教師比較支持的。在570份問卷數據中,贊同全部由人工智能評閱的占21.93%,贊同部分環節(錯字、病句等有明確標準的部分)由人工智能評閱的占60.7%,贊同人工智能用于人工打分后二次質檢的占17.37%。
“人工+智能”可以階段性介入的方式,再細分為“先智能后人工”和“先人工后智能”兩種情況。前者是先由人工智能識別宿構卷、套作卷或者抄襲卷等,減少人工評卷的難度和煩瑣程度,經過第一步驟人工智能的篩選后再由人工評閱,提高評卷效率。或者人工智能完成初評,將問題卷或存疑卷提交評卷員人工評分,或者提交評卷組長仲裁。“先人工后智能”則相反,先進行人工試評,根據答卷情況和人工評定試評結果,調整形成人工智能可執行的評分標準,再交由人工智能閱卷。
使用“人工+智能”的方式評閱作文已有先例。2017年,首屆中國漢語寫作大會暨第五屆楚才作文網絡大賽使用了“人工智能漢語寫作評價系統”,參照主題表達、破題立論、扣題結論、主題一致性、修辭與表達、字詞文雅、用詞能力、詞匯量等標準,對作文進行加減分考核,而后經過專家人工修正,系統自我修正、自我完善評審規則,最終得到評價結果。
今天的人工智能必須依賴人類的參與才能運行。所謂“人類計算”,就是人類與人工智能協同工作。這是代碼與人類智慧的融合,它正在迅速發展[9]。既然自動駕駛系統可以變成“司機助理”,那么,人工智能評卷系統也可充任“評卷助理”,成為測評工作的得力助手。如此,優質的評卷員不一定是人工智能,也不一定是教師,而可能是會使用人工智能的教師。
(三)不適合人工智能介入的評卷工作
完全開放、沒有單一標準答案的主觀題,涉及情緒情感、哲學思辨、審美鑒賞等,連人工評卷都存在諸多爭議的題目,不適合人工智能介入。因為人工智能沒有動機、責任感、倫理觀念等,它不會被任何人操控,也無法自己發現問題,思考解決問題的方法。目前看來,人工智能尚不具備脫離人類獨立、自主的能力,也沒有掌握人類常識和基礎知識的能力[10]。
四、人工智能用于評卷工作的障礙
目前,人工評卷的工作人員主要是一線教師,教師對人工智能的了解程度和支持度不甚樂觀。570份樣本的問卷調查中,在“您是否知道人工智能”這個問題上,選擇“知道而且非常了解”的占19.65%,選擇“知道但不是很了解”的占79.12%,選擇“不知道”的占1.23%。對于“您是否知道人工智能已經運用于一些語文測評工作”的問題,選擇“知道而且非常了解”的占9.47%,選擇“知道但不是很了解”的占68.6%,選擇“不知道”的占21.93%。以上兩項數據說明,一線語文教師對人工智能以及人工智能應用于語文評卷工作的情況普遍不夠了解。但這不妨礙較多教師支持人工智能評卷,在是否支持人工智能應用于語文評卷的問題上,接受人工智能應用于語文主觀題評卷的教師占78.95%,選擇“不接受”的占11.75%,9.3%的教師認為“無法選擇”。
假如運用人工智能評閱語文主觀題,一線教師認可的優點有哪些?認為“效率高”的占97.89%,認為“準確度高”的占31.93%,認為“精細度高”的占35.96%。顯然,在繁重的評卷工作壓力下,“效率高”是評卷教師的集中期待。那么,假如運用人工智能評閱語文主觀題,教師的擔憂是什么? 擔心“機器做不到像人工一樣認知,將導致誤判”的占78.42%,擔心因此影響教學、“誤導學生迎合機器的標準答題”的占52.81%,擔心“誤導教師迎合機器的標準備考”的占44.56%,有9.65%的教師未做選擇。教師具體擔憂的內容比較龐雜,如:對于開放探究式題目,答案不固定,人工智能能否靈活處理?人工智能能否精準識別學生的手寫答卷并評定?人工智能閱卷會不會導致同一意思不同表述的試卷被誤改?人工智能閱卷會不會錯過優秀答卷?總而言之,一線教師主要擔心因文字表達的模糊性部分答案無法經由人工智能判斷高下。也有教師不是出于對人工智能工作質量的擔憂,而是認為人類不應該被機器選擇和控制;人類不應片面追求效率和速度,而應更負責任、更人性化地對待考生,因為高利害的考試影響的是一個人、一個家庭乃至社會的未來與前途。
人工智能目前仍存在技術瓶頸,自然語言處理技術仍未足夠成熟,其技術障礙將影響評卷的精確度。2020年,美國一款服務兩萬所學校的人工智能閱卷系統遭到質疑。該系統通過關鍵詞評分,學生只要輸入相應關鍵詞,即使關鍵詞之間并無關聯,也能輕易獲得高分。避免考生利用類似的漏洞作弊,識別關鍵詞拼湊式的表達,應該是必須解決的技術問題。目前仍不能過高估計人工智能的技術水平,大多數現實世界的任務是在難以預判情況的前提下開展的。這意味著人工智能系統要完成現實世界的任務,就需要對世界上萬事萬物的運行規則有深入的了解和認識[11]。
除了技術障礙,財力障礙也是影響應用的一個因素。例如,AlphaGo本質上是一個通過中央處理器和圖形處理器工作的圍棋智能機器人,在挑戰歐洲冠軍的比賽中,需要1 202臺中央處理器、176個圖形處理器以及反映3 000萬局數據的預測器和探索器。一場5小時的比賽,它耗能為3 000兆焦耳,需要消耗的電費為3 000美元,可見人工智能需要高昂的運營成本。
即便技術障礙和財力障礙都能克服,仍有一個最棘手的倫理障礙不能忽視。盡管筆者調查的近80%的教師樂意接受人工智能參與評卷,6D042zt0aE/XfYFlCw1hjg==但如果面向學生和家長開展調查,支持度恐怕會大為降低,沒有考生敢于把自己的試卷或者說命運交給一臺目前不知道是否已經成熟的機器。即便已經有了若干地市中考、外國語學院中文寫作考試使用人工智能評卷的成功先例,但考生對人工智能的不信任將是其使用的最大障礙。
著名物理學家馬克斯·普朗克說:科學在一次一次的葬禮中進步。曾經輸給IBM深藍計算機的世界國際象棋冠軍加里·卡斯帕羅夫說:與其擔心機器會做什么,我們更應該擔心它們還不能做什么。在2020年人工智能與教育大數據大會上,中國教育國際交流協會會長劉利民表示,教育領域已成為人工智能重要應用場景之一,目前人工智能已經與教育領域深度融合,利用大數據開展的個性化學習已覆蓋超千萬學生。在2020年高考閱卷工作中,已有9個省針對語文、英語作文等主觀性命題引入機器閱卷。所以,用科技將人們從單一的、機械的工作中解放出來,從事富于生產力和創造力的工作,這是科技進步帶來的自由與發展,我們理應抱持樂觀態度。
我們常說教育公平,它通常可以概括為起點公平、過程公平和結果公平,測評公平是結果公平之一種。如果人工智能技術介入測評,發揮其精確高效的優勢,減少人工評卷的不利因素,對教育公平必將利大于弊,所以我們有理由期待科技帶來的公平。因此,引入人工智能技術評閱語文主觀題,宜有可為,且應有可為。
其實,人類對于人工智能的不足夠信任,才是推行人工智能評卷的最大難題。
參考文獻
[1][3]趙海燕,辛濤,田偉.大規模教育考試作文評分的趨中漂移和不準確性漂移研究[J].中國考試,2020(3):13-20.
[2] 佟威,趙靜宇.高考語文寫作整體評分與分項評分的實證研究[J].中國考試,2020(3):6-12.
[4] 溫紅博,楊建強.高考語文閱讀主觀題評分方法對考試質量的影響[J].中國考試,2020(3):1-5.
[5][10][日]野村直之.人工智能改變未來:工作方式、產業和社會的變革[M].付天祺,譯.北京:東方出版社,2018:109,250.
[6][9][美]瑪麗·格雷,西達爾特·蘇里.銷聲匿跡:數字化工作的真正未來[M].左安浦,譯.上海 :上海人民出版社,2020:14,2.
[7] 何屹松,孫媛媛,張凱,付瑞吉.計算機智能輔助評分系統定標集選取和優化方法研究[J].中國考試,2020(1):30-36.
[8] 任萍萍.智能教育:讓孩子站在人工智能的肩膀上適應未來[M].北京:電子工業出版社,2020:34.
[11][意]皮埃羅·斯加魯菲.人工智能通識課[M].張瀚文,譯.北京:人民郵電出版社.2020:254.
(作者系廣東省深圳市教育科學研究院高中教研中心語文教研員,中學高級教師)
責任編輯:孫建輝