新高考制度下英語科目網(wǎng)上評卷誤差控制途徑探索*

2024-06-01 08:40:37葉萍

教育與考試 2024年1期

葉萍

一、引言

2005 年，網(wǎng)上評卷在我國各省份高考的所有科目全面推行，經(jīng)過近二十年的實踐檢驗，技術越來越成熟，積累了相當豐富的經(jīng)驗。相較于測試領域其他分支的研究，大規(guī)模標準化網(wǎng)上評卷研究的體量并不大，推廣之初，研究主要集中于評卷工作的科學管理方法和綜合質(zhì)量監(jiān)控措施[1-2]，隨著應用和影響的不斷擴大，不少學者關注主觀題評卷誤差控制研究[3-4]，也有支撐網(wǎng)上評卷信度和效度的實證研究[5]；之后關于誤差控制的研究變得更為深入，探討了針對監(jiān)控趨中評分等具體問題[6-7]。近年，隨著大數(shù)據(jù)、云技術和人工智能技術的快速發(fā)展，網(wǎng)上評卷的技術性問題研究再次成為關注點，有學者首先指出了因主客觀原因造成網(wǎng)上評卷實踐的大量數(shù)據(jù)信息未能有效用于分析和指導教學的信息浪費問題[8]，何屹松等[9-10]則大膽提出了人工智能評分參與高考網(wǎng)評一評的設想，并開展了應用研究，楊帆[11]從理論到實踐全面分析了人工智能參與網(wǎng)上評卷的未來發(fā)展之路。中國的新一輪高考改革在2024 年進入關鍵時期，大部分省份即將加入新考高模式，題型的改變，尤其是開放性主觀題的增加對英語科目提出了挑戰(zhàn)，在新舊高考交替之際，梳理和分析當前評卷實踐中存在的評分誤差控制相關問題，探索以制度建設和人工智能技術作為解決方案有很大的研究空間。

新高考制度對英語科目的影響主要體現(xiàn)在題型的變化上。原來考核表達準確性的“短文改錯”題型取消，書面表達增加“讀后續(xù)寫”題型，從評卷的角度看，準客觀題型的短文改錯由主觀的續(xù)寫作文替代，在評卷的難度和工作量上壓力大幅增加。廣西曾經(jīng)率先其他省份在1999 年嘗試大規(guī)模標準化考試的網(wǎng)考，建設英語科目口試題庫，在口試中實行人機協(xié)作，但在之后的二十多年，改革的步伐放緩，并沒有能夠?qū)⑷藱C協(xié)作評卷模式推廣應用到筆試的評卷中，個別省份后來者居上，以可信賴的實驗數(shù)據(jù)支撐決策決定，很好地解決了日益增長的考生人數(shù)給評卷工作效率、準確性帶來的壓力。2024 年，廣西也將面臨英語科目新題型給評卷工作帶來的挑戰(zhàn)。本文以近兩年廣西英語科目考點的實踐情況為例，找短板查問題，從評分誤差解決的三要素（評分方式、評卷隊伍建設、動態(tài)誤差控制）入手，探討在新高考背景下人工智能協(xié)助提升英語網(wǎng)上評卷準確度和精度的必要性和可行性。

二、新舊高考交替期的難題與挑戰(zhàn)

網(wǎng)上評卷主觀題評分誤差控制主要有三個途徑：改進評分方法、建設評卷隊伍、動態(tài)監(jiān)控誤差。本研究駐點2022 年和2023 年廣西高考英語科目網(wǎng)上評卷點，評估反思工作流程，查找短板失誤，發(fā)現(xiàn)并分析存在的問題，具體總結如下。

（一）評分方法改革進展緩慢

英語科目2008 年首次調(diào)整題型后這十多年來都是兩道準客觀題語法填空和短文改寫，以及一篇主觀書面表達，在評分方法方面，大部分評卷點，包括廣西的評卷點，均為雙人工評模式，語法填空和短文改錯雙評零誤差成績有效，否則需進入三評或仲裁，主觀書面表達滿分25 分，雙評誤差達到4 分進入三評或仲裁。雙人工評模式以及誤差值的設置科學合理，有效保障評卷質(zhì)量，但隨著考生人數(shù)的逐年攀升，評卷的壓力越來越大。廣西2022 年英語科目考卷數(shù)達到41 萬份，2023 年再創(chuàng)新高達到44 萬份。增加評卷員是最簡單的辦法，然而這并不是最科學和明智的選擇。如果每個科目都要求增加人力，評卷點的承載和管理、評卷員選聘工作的難度加大，無法保障工作的順利開展，也在無形中加大了經(jīng)濟成本。廣西在網(wǎng)上評卷的初期屬于最早的實驗省份，特別在口試人機協(xié)作方面有較好的經(jīng)驗優(yōu)勢，但在人工智能輔助教育研究如火如荼的近五年，沒有邁出探索的步伐，在一定程度上忽視和浪費了技術進步對提升評卷效率和準確性的資源優(yōu)勢。

（二）評卷隊伍建設不盡如人意

首先是人員結構問題，中學是人才培養(yǎng)和輸送單位，中學教師是中等教育國標的執(zhí)行者，大學對所輸入人才有準入的標準，因此，評卷隊伍，尤其是試評的專家隊伍，應按各占50%的選拔比例執(zhí)行。現(xiàn)實情況是，因評卷工作與教學科研工作基本無關，有經(jīng)驗和高職稱的大學教師參與此項工作的積極性不高，選聘人員成為難題，相比之下，此項工作與中學的優(yōu)秀教師評選、職稱晉升等等密切相關，中學教師報名參與的熱情很高，備選的體量與大學教師的反差很大。其次是隊伍建設的意識較為薄弱，很多評卷點未建立有包括個人信息和評卷情況等完整數(shù)據(jù)支撐的評卷員檔案，基本憑近1-2 年的印象和系統(tǒng)呈現(xiàn)的有限個人信息來遴選。再次，選聘過程不排除行政干預。評卷點后勤出于其管理的便利考慮而不時對評卷員的選拔加以行政干預，例如，以住宿安排緊張等為由不歡迎外地和評卷點校外教師。

（三）專家組的宏觀動態(tài)監(jiān)控作用效果有限

理論上，納入動態(tài)監(jiān)控的指標是多樣多面的，包括評卷速度、采用率、有效評卷數(shù)、評分結果分布曲線、評分一致性檢測、異常得分率檢查、異常卷判定檢查、雙評誤差異常抽檢等。在常規(guī)評卷實踐中，小組長的關注點主要停留在前三項比較粗糙的數(shù)據(jù)，并了解組員對比數(shù)據(jù)狀態(tài)，以便及時做好小組間的人員調(diào)配，保證評卷的正常速度和節(jié)奏；質(zhì)檢組成員（題組長）則主要抽查評分誤差值超標的卷子，特別復核那些三評與一評或二評誤差超過8 分的，判斷哪一個是較準確的評分，必要時給予仲裁重評，在此過程中兼顧其他數(shù)據(jù)指標，發(fā)現(xiàn)并跟蹤評卷質(zhì)量較低的評卷員，及時談話指導培訓。總而言之，質(zhì)量監(jiān)控相關責任人（專家組）通常處于多任務狀態(tài)，責任界限模糊，被理想化地要求面面俱到，而事實上往往顧此失彼。目前專家組更多的是通過抽樣的方式來對個別評卷教師進行管理，無法對整體控制評卷發(fā)揮作用[12]。

三、新高考背景下對網(wǎng)上評卷主觀誤差控制三要素的再思考

新高考題型的改變，增加了主觀書面表達讀后續(xù)寫，評卷壓力增大，合并舊題型實踐期出現(xiàn)的各種管理問題，要保障評卷的效率和質(zhì)量，必須從三大要素入手進行改革完善。

（一）評分方法改進：人機協(xié)作的必要性和可行性

如前文分析所述，以擴大評卷隊伍來應對考卷增加和主觀題評卷量增加的做法并不是明智的選擇，是短視缺乏遠見的行為。在口試人機協(xié)作已有二十多年應用的基礎上，早就應該進行筆試的人機協(xié)作實驗嘗試。近年，隨著高精度的手寫文字識別、自然語言理解、智能評測等技術的發(fā)展，人工智能輔助教育評分的應用研究探索越來越多，有些已經(jīng)取得了實質(zhì)性的進展，技術上實現(xiàn)了“網(wǎng)上評卷系統(tǒng)”與“智能評分系統(tǒng)”在網(wǎng)絡鏈接、數(shù)據(jù)交換、實時共享、訪問，實證研究也表明，人工智能參與數(shù)學科目填空題的網(wǎng)評一評結果可靠[13]。

相較于數(shù)學科目的填空題，英語科目語法填空題的正確答案具有更強的客觀性，是人工智能參與一評的合適實驗對象。目前人工特征工程方案和深度學習方案是人工智能輔助評分的兩種主要研究方向，前者需要由專家先定標，機器學習定標樣本后通過訓練優(yōu)化過程，最終形成評分模型；后者通過復雜算法作答內(nèi)容分按段落、句子、詞組等分解，量化后再借助神經(jīng)網(wǎng)絡來自動抽取與評分細則相關的特征，進行匹配評分。深度學習方案以大數(shù)據(jù)為基礎，其效果隨著數(shù)據(jù)量的增加顯著提升，在大規(guī)模網(wǎng)考的應用前景更為廣闊[14]。無論采用哪一種方案，使用往年高考網(wǎng)考數(shù)據(jù)庫進行校驗是必要和可行的，試行階段可以同步采用傳統(tǒng)“雙人工一評”和“機一評+人一評”進行驗證比較，因為技術上已能夠保證智能評分系統(tǒng)與網(wǎng)上人工評分系統(tǒng)的獨立和隨時融合。

關于人工智能參與主觀書面表達應用文寫作一評問題，可以參考2023 年廣西英語科目考點的后臺數(shù)據(jù)，機評與人工終評誤差超過4 分的約占3.6%，誤差超過8 分的約占0.9%，誤差超過10 分的約占0.2%，說明機評參與主觀題一評也是具有可行性的，當然仍需更多的校驗數(shù)據(jù)支撐。

（二）評卷隊伍建設：精簡嚴選，激發(fā)主觀能動性

在控制評分誤差的三大途徑中，改進評分方法是手段，建設評卷隊伍是基礎。隊伍建設首先要完善評卷員檔案。評卷組織單位與技術部門合建的專家?guī)炖镏饕珍浽u卷員的履歷信息，包括姓名、性別、年齡、職稱、工作單位、聯(lián)系電話、參與評卷次數(shù)等。僅憑外部履歷信息無法較全面地判斷候選人的資質(zhì)，理論上還應評估其評卷勝任能力[15]。建模評估最為科學，但工作較為復雜和系統(tǒng)，目前學科組掌握的附加信息是每年任務結束后評卷員的基本評卷行為信息匯總，包括有效評卷數(shù)、采用率、速度、平均分等，屬于較為粗糙的數(shù)據(jù)信息，只能在一定程度上輔助判斷評卷員的勝任能力。未來技術改進方面應該整合個體評卷員的全程評卷行為數(shù)據(jù)，將累計在線時間、考核情況、自查一致性結果等一并納入，最后形成個體評卷員該次任務完成結果的總體描述，條件允許下技術方與學科組共同研究確定各指標賦值，構建評卷勝任力評估模型，統(tǒng)計結果供下一年遴選參考。學科組應注意年度信息的變化，有些評卷員因年齡增長或健康原因等會出現(xiàn)不穩(wěn)定的評卷行為結果，一次優(yōu)秀不代表次次優(yōu)秀，還可增加工作態(tài)度一欄，根據(jù)小組長、題組長等同行反饋進行主觀評價。

高考評卷工作強度大，是否參與對大學教師的教學、科研、職稱晉升沒有影響，因此通常需要長時間動員才能招滿人員。從可持續(xù)性發(fā)展角度考慮，大學應該配合制定相應的激勵機制改變這種反差被動局面，例如可以將這項工作納入公共服務課時范疇，至少保障能選拔足額的有經(jīng)驗高職稱教師參與試評工作。此外，為公平起見，英語學科組應根據(jù)本學科評卷工作的特征，制訂一套操作性強的綜合考慮效率、質(zhì)量、責任的報酬分配辦法，鼓勵多勞多得。

（三）動態(tài)監(jiān)控誤差：挖掘人工智能輔助監(jiān)控的潛力

目前各科目評卷點基本都是四層級質(zhì)量監(jiān)控體系：普通評卷員、小組長、題組長和科目組長，各負其責，人數(shù)根據(jù)考卷體量設置。評卷員進行評卷工作，小組長負責誤差控制調(diào)度，題組長進行題目評卷進度控制及平衡評判異常考卷等問題，科目組長負責整個科目進度控制管理[16]。動態(tài)監(jiān)控“誤差指標”包括評卷員之間一致性誤差、評卷員本人一致性誤差、人工雙評誤差、評分點之間誤差、平均分、評分分布等，評卷“效率指標”則包括評卷速度、有效評卷、采用率。網(wǎng)上評卷系統(tǒng)自帶的質(zhì)量監(jiān)控功能很多，但是未對相關數(shù)據(jù)進行整合，以形成直觀的結果匯報，需要相關責任人逐項查看并自我分析判斷，無形中增加了工作量和難度，造成在評卷實踐中小組長只通過評卷速度、有效評卷、采用率、平均分來粗略了解組員的評卷情況，情愿在監(jiān)控的間隙同時分擔部分評卷任務，也較少去關注除了系統(tǒng)自動推送的雙評誤差卷之外的其他“誤差指標”。同樣，題組長的工作重心放在了隨機抽查三評卷和異常卷，查看是否有三評誤判情況并加以糾正，充當了隨機質(zhì)檢的角色，在不斷的抽查中獲取到部分教師的評分質(zhì)量印象，預警并指導。科目組長從更宏觀的層面來監(jiān)測和調(diào)控。題組長和科目組長對于“誤差指標”的觀測也不多，因為不夠直觀，所以大家更愿意相信具體的評卷行為，沒有將系統(tǒng)的質(zhì)檢功能科學地利用起來。從本質(zhì)上看，平臺仍有較大的技術潛力等待挖掘，以方便提升動態(tài)誤差監(jiān)控的效率和準確性。以下羅列兩個具體改進方向。

1.提升網(wǎng)上評卷系統(tǒng)的自動監(jiān)控功能。加強學科組長與技術方的溝通合作，以便具體需求得以通過技術突破而實現(xiàn)。各項重要監(jiān)控指標，尤其是“誤差指標”的結果，應形成智能化的分析報表，產(chǎn)生清晰的預警清單，以便題組長和科目組長能夠及時明確地掌握總體情況，必要時查驗個體數(shù)據(jù)，保障及時發(fā)現(xiàn)和解決問題。

2.引入智能評卷系統(tǒng)輔助人工評卷質(zhì)量監(jiān)控。“網(wǎng)上評卷系統(tǒng)”支持隨時在“人一評+機一評+人二評”模式和“人工雙評”模式之間的切換，智能評分系統(tǒng)支持在“機一評”模式和“智能評分輔助網(wǎng)評質(zhì)量監(jiān)控”模式之間的切換，在智能評分參與一評之前，應充分發(fā)揮智能評分系統(tǒng)的輔助監(jiān)測功能，使得科目組對評分誤差的動態(tài)監(jiān)控更具效度。

要實現(xiàn)動態(tài)誤差監(jiān)控的智能化，需要考試的組織單位、學科評卷組、技術方三方的共同協(xié)作，組織單位牽線搭橋和資助，學科組梳理監(jiān)控效果需求，技術方領會并幫助實現(xiàn)。一旦技術能夠?qū)崿F(xiàn)預警清單的便捷直觀，質(zhì)檢責任人監(jiān)控、指導、糾錯的效率將會大幅提升，“預警+隨機抽查”監(jiān)控模式將能有效有序地控制主觀題評卷過程的誤差，發(fā)揮專家組的宏觀監(jiān)控調(diào)控作用，保障評卷的質(zhì)量。

四、結語

高考改革在不斷地推進，很多省份紛紛加入“新高考”陣營中來，預計在2024 年會有29 個省份會啟動“新高考”模式。新高考對于評卷工作的影響主要在于題型的改變，英語科目減少一道準客觀題，增加一道全主觀題，給評卷工作帶來不少的壓力。從控制主觀題評分誤差的三要素考慮，人工智能技術的融入有很大的發(fā)展空間，換言之，評卷誤差控制應主攻人工智能的深度介入。在評卷方式改革方面，應盡早啟動機器參與一評的可行性校驗實驗；在評卷隊伍建設方面，可基于評卷系統(tǒng)人工評卷行為重點數(shù)據(jù)推進人員評卷勝任力模型的構建，使得評卷員的遴選更具科學性；在動態(tài)誤差控制方面，挖掘的潛力更大，但需要考試組織單位、學科組和技術方三方的常態(tài)化溝通交流作為前提條件，需求與供給達成默契，才有利于技術潛能的開發(fā)利用。網(wǎng)上評卷在高考等大規(guī)模標準化考試中的應用已近二十年，考試主管領導、科目組長等相關負責人因工作調(diào)整等更換的情況時有發(fā)生。一年一次的考試，因其規(guī)律性的程序化過程而很容易讓評卷隊伍產(chǎn)生麻痹大意的心理，以任務的無差錯完成為主要目標，忽略了任務后問題匯報總結和解決完善，使用者和技術方缺乏交流和溝通的機會，這個問題阻礙了技術潛能的挖掘，必須在制度上予以重視，才能保障評卷誤差控制機制的日益完善。