肖 媛 李群鋒 董 彬
新冠肺炎疫情是百年來全球發生的最嚴重的傳染病大流行。為有效抗擊疫情蔓延,世界各國政府不得不關閉教育機構,面對面的聚集型教學與測試被迫中斷。世界教科文組織統計,2021 年5 月全球仍有近一半的學生受到教育中斷所帶來的影響[1];與此同時,在線教育的占比正在逐漸擴大。此次疫情對于全球教育業態的影響是深遠的。正如Gacs 和Chapelle所言,“我們已經到了在線教育、語言測試實踐的分水嶺時刻[2-3]”。為了迅速適應這種變化,2020年初,許多國家的教育組織從面授改為遠程教學[4]。多家國際知名語言教育考試機構如美國教育考試服務中心(Educational Testing Service,ETS)、劍橋大學英語考評部(Cambridge Assessment English)、法國法語聯盟(Alliance Fran?aise)和中國教育部中外語言交流合作中心(簡稱“語合中心”)的線下考試經歷短暫中斷后,在2020 年初相繼推出了居家版語言能力測試,這一創新的考試形式使全球數千萬語言學習者受益。居家語言測試對于恢復語言教育秩序做出了重要貢獻,對語言測試業態變革與發展產生深遠影響。
居家語言測試不是現有紙筆考試或網絡考試版本的簡單轉化,其在考試技術、考試安全、考試公平、考試倫理等諸多方面都面臨著獨特的挑戰。筆者以標準化的第二語言水平測試為研究對象,調查了9項居家語言測試,從內容、效力、技術、安保4 個角度分析居家考試的現狀,在公平性、技術和安全3方面探討面臨的挑戰,并對居家考試未來的發展進行展望,希望能為我國教育考試提供借鑒,并為不同利益相關者,特別是學習者、考試主辦單位和院校提供參考。
廣義上的居家考試由來已久,在獨立空間單獨進行的在線或非在線測試都可以稱為居家考試。狹義上的居家考試則僅指由于本次疫情而導致的由線下轉移到線上的有組織有計劃的大規模在家進行的測試。疫情以來,居家語言測試一經推出便引起了學習者、使用者的廣泛關注,但關于居家測試的研究尚比較少見,僅有Isbell 和Kremmel 對英語為主的幾項居家測試的一項調研[5]。目前由于日語能力測試(JLPT)、韓語能力考試(TOPIK)、西語考試(DELE/SIELE)、德語考試(TestDaF/Goethe/?SD/?IF)等標準化語言測試僅在部分地區恢復了線下考試而尚未采用居家形式,使得調查對象的選擇相對有限。在綜合考慮影響力、語種分布及考生數量等因素的基礎上,選擇了領思考試(Linguaskill)[6]、托福居家版(TOEFL iBT?Home Edition)[7]、法語水平考試居家版(TEFExpress)[8]、雅思居家版(IELTS Indicator)[9]、HSK 居家版[10]、日語交流能力鑒定考試居家版(JLCAT)[11]、TOEFL?EssentialsTM[12]、美國外語教學學會ACTFL 居家考試TEP和Duolingo 9種測試進行分析[13-14]。
2020 年3 月到6 月,劍橋大學英語考評部、ETS等多家機構比較集中地推出了居家版語言能力測試。如表1所示,這些測試可分為四種類型:

表1 國際居家語言測試內容與形式
第一種是基于原有的紙筆或網絡版本測試開發的居家版考試,一般試卷體例固定,可稱為傳統型居家 考 試,如TOEFL iBT?Home Edition、IELTS Indicator 和HSK,這些考試的內容、結構與線下考試完全一致,覆蓋范圍最為廣泛,TOEFL iBT?Home Edition 在除了中國大陸和伊朗以外的地區開放;HSK 居家考試至2021 年5 月已覆蓋全球96 個國家和地區,對原紙筆測試考點國家數的覆蓋達64%。
第二種是針對疫情開發的新測試,多采用基于人工智能技術(AI)的多級遠程自適應模式,如Linguaskill、JLCAT 和TOEFL?EssentialsTM,這些考試的題目和考試時長根據應試者的表現決定。有的還采用自由組合的模塊式設計考查聽、讀、說、寫各項語言技能,如Linguaskill,學習者可以根據需要選考或重考任意模塊,滿足了個性化和靈活性的需求。
第三種是根據已有測試開發的縮減版考試,僅在疫情期間使用,如TEF-Express只在2020年4月到9月間提供,題目數量和考試時間都縮短至TEF的一半(TEF 有閱讀、聽力、詞匯與結構三項必考項目和寫作、口語兩項選考項目,Express 僅有閱讀和聽力兩個測驗)。
第四種測試是原本就被設計為B2B/B2C 形式的遠程自適應考試,在疫情期間通過將原有測試組合或優化,升級為居家版考試,TEP 和Duolingo 屬于這種情況。TEP 是美國外語教學學會開發的聽說讀寫全技能集成性測驗,實際上是將ACTFL 已有的口語OPIc、寫作WPTc 和聽讀L&Ract 三項自適應考試匯集成一個測試,每項分技能測試單獨進行。除了HSK居家版和TEF-Express外,其他測試都考查聽說讀寫全技能。考試時長1到4小時不等。
居家考試的評分可分為有資質的評分員評分、自動評分和AI 輔助下的有資質的評分員評分三種形式。根據前一部分對考試的分型,傳統型居家考試評分方式與線下考試保持一致,特別是口語和寫作都由有資質的評分員評閱;自適應考試多為自動評分或自動評分與人工評分相結合。每項考試都提供分項分數和總分,有些測試還提供與不同標準的參照量表,如Linguaskill分數以劍橋英語分數量表形式呈現并對應CEFR;Duolingo 提供與CEFR、TOEFL iBT?和IELTS?Academic 的等級對應量表;JLCAT 提供了和日語能力考試(JLPT)以及CEFR 的對應量表;TEP 依據《美國外語教學學會語言能力指導大綱2012 版》(ACTFL Proficiency Guidelines 2012),對Novice 到Superior 各等級相應語言能力進行描述。考試結束后的2~14天即可查詢成績,見表2。

表2 國際居家語言測試的分數和認可度
關于考試效力,TOEFL iBT?Home Edition 和HSK 明確指出不同考試版本具有相同的效力;特別是HSK,其居家版并沒有單獨設置名稱,各版本不作區分。雅思聯盟則明確說明,IELTS Indicator 僅在疫情期間為因受疫情影響而取消雅思考試的地區開放,并非所有機構都接受居家版成績,建議考生咨詢相關單位后報考。為在疫情期間提升法語學習者法語水平而開發的TEF-Express 則與TEF沒有可比性,Express 沒有正式成績單,考后2 天會收到一封關于考試結果的郵件,官網指出Express 成績在作為入學和移民參考方面不能與TEF 進行比較,建議考試前咨詢相關單位是否認可,目前Express 只被加拿大個別大學接受。Duolingo 和TEP 的認可度非但沒有受到影響,反而因為其遠程形式的先天優勢在疫情初期擴大了市場份額。可見,因疫情而特別推出的新考試還在逐步被認可的過程中,這些新考試一方面依托于測試提供者的品牌信譽和豐富的測評經驗,另一方面測試提供者也在推動新考試認可度向“旗艦”項目靠近上不斷努力。劍橋大學英語考評部針對Linguaskill 提出了“以測促學”和“領軍AI 測評”的理念,在測試的可靠性、靈活性、易操作性、快速生成結果、降低考生焦慮感等方面宣傳其優勢。ETS 則在其官網上從考試體驗、設計、成績、安全等方面將Essentials 與Duolingo、雅思學術類考試和PTE 學術英語考試進行對比,EssentialsTM在考費、考試便利、寄分服務、AI 輔助下的人工作業(出題、評分、監考)諸多方面展現出了不小的優勢。在ETS 的推動下,90%的美國、英國、加拿大院校愿意接受EssentialsTM作為錄取標準。但這些新考試推出時間還比較短,接受程度遠不如傳統考試廣泛。
各項居家考試對于考試環境和設備的總體要求差別不大。考場需要獨立、封閉且安靜,考場內需具備電腦、攝像頭、揚聲器和麥克風,一般不允許使用平板或手機,除非作為第二機位監考使用,如HSK(表3)。對于耳機的要求則比較多樣,TOEFL iBT?Home Edition、JLCAT 和EssentialsTM、Duolingo 禁止使用耳機,考試過程中面部及耳朵需要清晰可見,Linguaskill則要求使用包耳式耳機;HSK 禁止使用藍牙等無接線耳機,TEP 則建議使用無線的USB 數字耳機。Windows 操作系統比MacOS 更為普遍,一般64 位Win7 及 以 上 可 滿 足 要 求,Google Chrome 和Firefox 是較為常用的瀏覽器,網絡帶寬基本要求是1Mbps。由于遠程應用軟件存在將考試機鏈接至第三方設備的風險,出于考試安全的目的,部分考試中,TeamViewer、Apple Remote Desttop、向日葵等遠程軟件被禁止使用。

表3 考試環境要求
各項居家版測試所采用的安保措施不盡相同,可歸納為監控和使用指定程序兩種手段(表4),監控包括考前核驗身份、考中遠程監考和考后抽查三種。值得注意的是,除了真人遠程監考外,生物識別技術和人工智能輔助手段在監控中也有所應用,雅思采用生物識別技術進行“人證”比對來確認考生身份,并在考后借助人工智能對考試過程和結果進行審查;JLCAT 采用了人臉識別和語音識別技術;Duolingo 自動巡航監控可辨析考生75 種以上的行為,為監考老師判斷不當行為作出提示。使用指定程序方面,Linguaskill、TOEFL iBT?Home Edition/EssentialsTM、IELTS Indicator、HSK、Duolingo均要求應試者安裝專用的考試客戶端,這些考試客戶端通常設有頁面前置、禁用未授權程序、禁用鼠標右鍵和鍵盤快捷鍵等功能。TEP、HSK和托福還啟用了遠程監考程序,這些遠程程序中一部分是侵入式的,即安裝在考試機上,監考老師可以遠程操控考生電腦,TEP和托福就屬于這種情況;還有一種是非侵入式的,遠程程序安裝在第二機位上如HSK。遠程軟件通常由第三方平臺提供,包括ZOOM、LogMeIn Rescue、騰訊會議等,并非是專門用于居家測試的監控軟件。ETS則將監考工作委托給了專門提供監考服務的第三方公司ProctorU,ProctorU 不僅提供平臺還提供人員和技術的支持。TEF-Express 全程無監控,僅書面告知考生誠信考試并對考試內容進行保密。

表4 安保措施
疫情給線下考試帶來了前所未有的危機,卻為遠程居家考試的發展迎來了重要機遇,也為測試研發人員重新思考語言測試的發展提供了有益啟示。ETS 稱居家考試會成為一個永久性的選項(permanent option),HSK 相關研發人員認為居家考試很可能發展為一種常規考試類型,而這種全新的考試形式在考試的公平性、技術和安全等方面正面臨著不同于以往線下考試的獨特的挑戰。
在全球教育中斷的時刻,許多語言測試不約而同地選擇從線下轉為居家,并且Linguaskill 和Duolingo還提供隨時約考服務,這無疑對促進教育公平做出了重要努力。但同時,測試的公平性問題引發了利益相關者極大的擔憂,并與測試安全和測試技術交織在一起。雖然一些測試的居家版試題與常規版并無差別,但許多單位并不認可居家考試成績,在人們的觀念中,在家進行的考試安全等級更低,而手寫與鍵盤輸入也存在難度差異,這些都有損考試公平,然而尚未見到任何語言測試機構發布的關于紙筆版、機考版和居家版不同版本考試是否具有相同的構念效度,以及不同版本測試之間分數轉換和銜接的實證研究。測試公平問題并不限于此,還涉及考試的標準化。作為測試行業標準的《教育與心理測量標準》(Standards for Educational and Psychological Testing,簡稱“標準”)在其2014版中對測試過程中的公平性問題(Fairness in Treatment During the Testing Process)進行了討論,從考試時長、考場、監考人員、安全程序的一致性方面做了詳盡描述,包括為所有考生提供的設備具有相似的處理速度、所提供的圖表具有相同的分辨率和尺寸等[15]。而居家考試在私人環境中進行,無論軟、硬件設備還是網絡條件都千差萬別,無疑降低了對考試標準化的要求,從技術角度講也存在引發考試公平爭議的風險。此外,還涉及考試的可達性(accesssibility)。這是2014 版《標準》中新增的概念,可理解為考生在所測量構念上的表現不得因為任何無關特質而受到影響,對于一些特殊應試群體,如視障者,線下考試可通過提供盲文考卷、放大字考卷等,使這一群體能夠更公平地獲取考試內容,居家考試在特殊應試者個性化設置方面則受到了一定限制。為了更加順利地推動居家考試的發展,居家測試研發單位應提高對考試公平性的認識,加強考試公平性的實證研究,形成科學的考試公平理論,以便提供更多的有力證據證明居家考試的公平性,這包括對不同版本測試效度的實證研究、不同版本測試的等值、是否應該建立單獨的居家考試考生常模、不同環境中的應試者的認知方式和焦慮水平對成績的影響等,這些議題都與考試公平密切相關,同時也應當盡可能通過技術手段消減因考試形式所帶來的公平性隱患,保障所有學習者參加考試的權利。
技術要求也是居家考試直面的挑戰之一。作為測試提供者,不僅要考慮服務器部署、并發壓力等技術問題,還要充分考慮應試者所具備的實際條件。從以上調查的居家考試來看,居家考試對于考試環境和設備的要求大致相同,可以說當今全球初等發達及以上的國家和地區基本都能滿足居家考試的實施條件,這為居家考試的快速擴展提供了可能。另一方面,居家版測試對于網絡帶寬有比較嚴格的限制,HSK 相對于其他考試,對上傳和下載速度的要求是最低的,達到150Kbps 即可,其他考試則需達到512Kbps 或1Mbps 及以上;自適應考試以及通過音頻、視頻、仿真考官等形式交付的試題對網絡帶寬要求更高,這對于能否在經濟欠發達地區和網絡環境不穩定的情況下開展居家考試帶來了挑戰。第二,缺乏居家口語測試專用軟件和居家測試監控專用軟件。人機互動式口語考試通常只需要對考生回答進行錄音、保存并回傳至服務器,但遇到人與人遠程面試型的口語測試,許多考試的做法是選擇在第三方會議平臺上進行,如雅思聽讀寫在其考試專用客戶端Inspera 完成,口語則選用通用型的會議平臺Zoom暫時替代考試客戶端。由于測試開發時間緊迫,目前許多考試的居家客戶端某種程度上是原有機考版客戶端的升級版本,居家測試監控專用軟件也普遍采用第三方軟件,如ProctorU,這對于考試安全和用戶隱私保護形成了潛在威脅。考慮到居家考試很可能發展成為一種常規化考試形式,測試研發單位應當加大科研投入,提升居家考試技術水平。一方面,應及時收集和分析居家環境中所產生的新要求新問題,優化、完善現有系統的功能,自主研發適用于居家場景的考試和監控系統;另一方面,應加大人、財、物的投入和保障力度,支持技術不斷更新迭代,使居家考試技術始終處于領先水平,進而維護測試的公平和安全。
除了上述兩方面,居家考試的安全性也備受關注。從采取的安保措施分析可知,以上所調查的居家考試在維護考試安全方面都做出了巨大努力,嚴密的監控流程和專用軟件能有效減少考試違規行為發生。然而,居家考試在考生熟悉的私人環境中進行,即便通過網絡遠程監控,有些行為也有可能逃過檢測[16],如使用隱蔽的拍攝設備盜取試題、通過無線電接收器接收答案等。開發和使用測試的利益相關者一致認為,當考試或其他結構化評估出現某種形式的作弊或泄題時,分數的價值就會減少[17],使考試公平性受到損害[18]。居家測試提供者要強化考試安全觀念,對居家考試安全進行系統設計。國際考試委員會(International Test Commission,ITC)制定的《考試安全準則》(The International Test Commission Guidelines on the Security of Tests,Examinations,and Other Assessments)指出,考試安全的頂層設計便是制定考試安全計劃。居家考試也應該根據自身考試理念、目標、設計制定相應的《居家考試安全計劃》,通過《居家考試安全計劃》建立完備的居家考試安全體系。該體系應涵蓋考試設計、開發、部署、實施、結果處理各關鍵階段,具體包括:
1. 優化考試安全設計。基于大規模題庫設計的自適應考試在控制題目曝光率、防作弊和防泄題等方面都表現出了一定優越性,Duolingo 稱只有參加1000 次考試才能碰到相同的試題。傳統考試也可以通過采用多套平行試卷(Multiple Equivalent Forms)、打亂題目和選項排列順序的方式降低考試風險。另外,還可以優化題目呈現方式,如將文字題通過圖片、音/視頻結合的多模態形式展現也能增加泄題難度;
2. 加強考試安全教育。使測試研發人員、使用者、考生和第三方機構(院校、法院、雇主)出于法律和道德的要求,保障測試內容和結果安全,履行自覺維護考試權威的義務;
3. 強化作弊篩查機制。雅思和TEF Express 在考后通過人工或AI 對考試過程進行審查,筆者認為,除了審查考試過程的記錄外,還應加強針對考試作答結果的作弊篩查,如雷同篩查、個體一致性篩查、短期多次應試篩查等。互聯網的超時空特性使得一些人員利用時差進行跨國作弊成為可能,不僅要在相同國別、區域內查,還可以開展跨國家、跨時區篩查,深入研究不同作弊行為特點,不斷優化作弊篩查機制,提升作弊防控甄別能力;
4. 通過加強考試違規行為違法證據采信的方式維護考試安全。需對監考人員進行摸底與培訓,建立違規者黑名單,控制多次考試間隔等。建立主動的、前瞻性的居家考試安全體系,將有助于保障考試安全。
由于居家考試的出現,語言測試的業態已經悄然改變,居家測試在未來或許會發展成為一種不可或缺的考試形式。希望對上述國際居家語言測試的調查和分析能為我國的教育考試發展起到參考作用。國際居家測試剛剛起步,正處于技術窗口期,我國測試研發人員應抓住歷史機遇,積極投身研發工作,在居家測試這一新起點上增強我國教育考試的考試理念、考試理論、考試技術和考試產品的原創性、引領性,推動我國教育考試高質量發展。
關于居家測試的研究剛剛開始,許多議題都值得深入地思考和分析。如何提升居家測試的公平性、安全性和技術水平是一系列相當復雜的問題,每一個專題都需要投入大量精力進行深入研究和實踐,需要語言教育、心理測量和計算機科學等不同領域的專家展開跨學科跨領域合作,本文僅提出一些淺見,希望能為測試利益相關者提供有益借鑒,未來筆者將進一步聚焦于居家考試的公平性開展實證研究。