李敏子,曾用強
(1.廣東外語外貿大學,廣東 廣州 510420;2.廣東省外語藝術職業學院,廣東 廣州 510641)
《中國英語能力等級量表》(以下簡稱《量表》)為我國首個統一的英語能力測評國家標準。作為我國英語能力測評體系的綱領性文件,《量表》描述語言能力發展的不同階段,是英語教學與評價目標的參照或依據。其正式發布于2018年6月并在全國范圍實施,當前亟待開發應用型測評產品(自我評估工具)以橋接我國英語統一度量“標尺”與其在實際教、學與測評中的實踐。然而,基于《量表》開發自我評估工具是一項較為繁雜的工作,研究者需從多方面進行考量,包括自評工具的研發目的、測評標準的類別與表征、評估特征參數指標、工具外在表征、評分模型等。故文章擬對基于《量表》的自我評估工具的研發路徑及步驟提出一些建議。
外語學習、教學與應用領域,和有關學習者語言能力的測評一直以來都是學者關注的核心。在外語水平能力測評方面,教育領域普遍使用傳統模式“外部測評”,即通過考試或教師評價收集學習者能力表現用以檢測既定目標或任務表現是否達成,以此作為判定語言水平能力的[1]依據。隨著以“學習者為中心”的教學理論被廣泛接受,及對自主學習的呼吁日趨高漲,自我評估即以學習者自身為評估代理人進行內部自我檢驗的方式[1]受到廣泛的關注。這種方式即通過自我導向,使語言學習者主動參與、自主評價、反思其在學習過程中的進步、判定預期目標是否達成[2]。
目前有關自我評估在語言教、學與測評領域已有較多探索,現有研究大多集中于對自我評估有效性與效用的探討。在自我評估中,有效性具體表現為對學習者語言水平表現提供準確、可靠、真實的評價。現有研究對自我評估作為衡量語言能力的有效測評方式給予了廣泛積極的肯定[3]。此外,自我評估在其效用層面也被深入挖掘。與傳統外部測評比較,自我評估具有多方面的優勢。學習者在自評實踐中逐步提高自我評價意識,增強參與度,提升學習責任感,強化學習動機,培養自主學習機制。過程中為學習者提供了全面審視自身能力的機會。學習者基于評估結果可在未來學習中做出調整與修正,從而達到促學的效用。同時,自我評估能較好規避由高風險測試引發學習者的備考或臨考焦慮、恐慌等負面情緒[4]。自我評估要求學習者在實踐中主動參與,承擔測評主導地位,極大程度上節省了用于考試管理、人員配置等資源。同時,這類測評方式幫助分擔了由傳統外部測評帶來的較為繁瑣的工作任務(例如:檢查學生的習題作業等多項任務),促進了以教師為中心至以學習者為中心教學范式的轉變,教師可依據學生自評結果調整教學進度和課程設置,或開展針對性的補救性措施[5]。
語言能力量表是語言能力標準的具體尺度。由于在不同教育背景下對語言水平能力測量統一度量標準的迫切呼吁,語言能力量表應運而生,并在語言教育領域獲得了廣泛的關注與肯定。其在實踐中從測評能力構念的多維視角出發,通過具體描述代表學習者不同水平的能力表現特征,為外語教、學與測評等利益相關者提供了全面、透明化的統一參照體系。
在國家外語評估系統啟動與《量表》實施之前,中國未有統一的外語能力評估的國家標準。盡管影響規模最大的《歐洲語言共同參考框架》(以下簡稱《歐框》)[6]被廣泛引進并應用于中國教育背景下的語言學習,由于服務群體、語言教學環境和教育體制的差異,其在中國本土教育體系的教學與測評實踐中出現了不少“水土不服”的情況。故迫切需要構建一個著眼于我國英語教育長期發展和需求的、本土化的統一度量標準[7]。為積極響應《國務院關于深化考試招生制度改革的實施意見》中關于“加強外語能力測評體系建設”的教育目標與國內英語教育發展實踐的迫切需求,我國于2014年10月啟動了《中國英語能力等級量表》研制項目,匯集國內外專家力量開展大規模調研[8],構建了適合我國英語學習者的量表框架、指標體系、描述語庫、分級原則等。
《量表》的研制主要分為三個階段:描述語收集、分類及分級。在收集階段,采用文獻法,以國內外語言能力標準、現有課程標準、考綱、教材等為文獻基礎對描述語進行收集,并對于初步收集的描述語進行拆分、整理、篩選、改寫與審核;對于構念中缺失部分,通過采樣法進行補充,構建描述語預備庫。在分類階段,開展多次組內審核與跨技能組交叉審核,同時組織專家與各地一線教師對描述語初步分類,并通過問卷調查進一步驗證。分級階段,通過大規模問卷讓專家、教師、學生進行判斷。編制的問卷間實施橫向與縱向等值。采用Rasch模型等統計工具對問卷數據進行統計分析、等值處理、借助臨界點錨定各等級,驗證分級結果,確定各等級標準。《量表》以交際語言能力模型為基礎,以語言運用為導向[9],將語言能力定義為使用者運用所掌握的知識(語言知識與非語言知識)與策略,參與特定情境下某話題的語言活動時所表現出的語言理解和表達的能力。《量表》高度關注聽、說、讀、寫、譯等多項語言技能的協調統一,將學習者的英語能力從低到高劃分為九個級別,全面、系統界定并描述了語言能力發展不同階段的特征,明確學習者應具備的英語知識與能力[10]。
《量表》作為我國語言能力測評體系的綱領性文件,為我國英語教學與評價目標提供了參照與依據。自正式發布并在全國范圍實施以來,其被廣泛應用于具體的英語教學與測評實踐中,特別是自我評估。學習者可依據《量表》的各分項技能描述語對自己的語言能力進行自我評估,找出自己的優勢與不足,從而調整學習目標。教師在課程設計與教學中可根據課程特色從《量表》中摘選與其內容相匹配的描述語,開展相應的課程活動。過程中可以讓學習者在學前、過程中與課后分別進行周期性自我評價、反思學習過程中的困難與取得的進步。然而,在具體的自我評估實踐中,可以發現使用者大多將“能做”描述語(Can-do Statements)作為評價標準直接應用于真實的教育環境中,自評實踐中對標準解讀容易出現自由度高、主觀性強及對先驗知識有過強依賴等情況,應用結果在效用層面有偏差。因此,開發實踐中效用性強的自評工具以橋接我國英語統一度量標準與其在教、學與測評中的應用尤為必要。
自我評估由于服務于不同研究目的和領域,各理論機制考量偏重不同,各研究背景下對其構念的闡釋具有多樣性,故在實踐結果層面具有差異。目前有關自我評估的運行機制主要為五類:第一類理論框架主要強調學習者在自我評估標準構建中的參與[11];第二類則偏重自我評估實踐中教師的參與程度[12];第三類關注測評過程中教師與學生間決策權力的差異[13];第四類理論框架則立足于自我評估標準的表征形式,對自我評估標準在實踐中的使用及效用予以詳細說明,實用性和可操作性較強[14];第五類從通用視角出發,基于自我評估的實踐操作構建理論體系,實操性較強[15]。以研究目的為出發點,自我評估主要分為兩類:第一類多從形成性視角對自我評估進行概念化,強調從情感機制與心理層面對學習過程進行評價,自我評估被廣泛定義為一種能力或學習過程,這類定義將自我評估與自我效能、自主學習、反饋與事后修正緊密關聯[16];第二類則關注自我評估的測量結果(對能力表現的具體方面作出準確評級或評分),探討其作為測評方式提供準確的能力水平判定的價值[17]。
確定自我評估的構念定義為基于《量表》研制自評工具的首要前提。故在工具研發前,研究者需結合研究的具體目標與擬應用實踐環境,明確自我評估工具開發的目的,確定采用的自我評估構念、核心要素及其運行機制等,以便在后續研究中對自我評估工具構建所需實現的目標提供清晰的指導。
1.自我評估工具標準類別
自我評估結果的有效性被證實與自我評估標準的具體程度緊密相關。自我評估對任務的設定或標準的描述越具體,學習者對自評工具標準的理解內化程度越高,評判越準確。以“具體化程度”為衡量標準,自我評估標準可分為“普通類”與“具化類”,“具化類”可進一步分為“具化現實生活類”標準(Specific Real-life Criteria)與“具化任務類”標準(Specific-study Criteria)[18]。這三類自我評估標準在具體化程度上具有明顯差異。普通類自我評估標準常應用于大規模研究以作節省資源考量。這類測評標準常通過單一測評問題進行呈現(One Single-item Measure),基于此構建的自評工具對學習者自評有效信息挖掘較為薄弱。相比之下,“具體現實生活類”自我評估標準具體化程度較高。由于其將概述的測評標準解構為具體語言任務,極大程度上保證了學習者對測評標準中各具體維度的理解,故自我評估結果普遍具有較好的效度。“具體任務類”標準對外部測評方式依賴性強,部分研究甚至將預測個體學習者在外部測評中正確答題數作為測評標準。這類標準與語言能力關聯弱,難以界定學習者是否據實評判自身語言能力,故在工具開發實踐中需謹慎使用。
2.自我評估工具標準的表征形式
自我評估工具標準的表征形式選擇對基于《量表》的自評工具建設至關重要。標準的表征形式可分為“一般類”與“參照類”:“一般類”對自我評估標準表征形式無明確要求,標準呈現上具有較強的概述性和抽象性,使用者對此類標準的解讀自由度略高,自我評估結果具有差異性;“參照類”[19]則強調三個方面:(1)提供明確表述的具體自評標準,將對語言能力的抽象、概括性描述拆解為多層級、多維度的典型性能力要素組件予以呈現,以供學習者參照和校準;(2)對測評標準中核心術語提供可操作化定義,自我評估實踐中學習者需將測評標準與現實語言能力表現進行匹配從而做出判定,提供核心術語的可操作定義將極大程度上校準學習者對給定測評標準的理解;(3)提供測評標準的典型示例,示例本身需兼具典型性與普適性,避免學習者對自我評估標準產生認知偏差或錯誤解讀。
綜上,基于《量表》研發的自評工具不建議將描述語直接采納為自評標準。《量表》綜合運用了描述交際語言能力的 RL(Real-life Approach)方法和 IA(Interactional Ability Approach)方法,對能力發展的不同學段的語言特征、語言活動情境、語言任務的完成情況等進行描述[20],采用“能做描述”表征了語言能力的測評標準。受量表表征特性影響,描述語一定程度上具備概述性與抽象性。若將其直接運用于工具標準的構建,那么自評實踐中使用者對描述性評估標準的解讀易出現自由度較高與主觀性略強的情況,無法保證其對自身能力的準確判定。因此建議研究者在對自我評估標準進行描述時最大程度地實現具體化,測評任務的設定確保典型性,最大程度保障學習者對標準的熟悉和理解。具體實踐操作中,研究者可基于量表將描述性評估標準(描述語)解構為最能反映測評語言能力構念的系統化、典型性能力要素組件,形成具有層級的多維區分性測評指標特征體系;并提供具體化“典型模型”(Model Demonstration)作為基準以供學習者進行參照與校準,實踐過程中學習者據此關注自身能力的發展并在未來學習中進行修正,可實現促學效用;同時結合核心特征參數的可操作化定義(Operational Definition),最大程度確保使用者對測評標準進行正確、有效的解讀,避免由于錯誤理解而導致的自我評估結果與實際能力不匹配或出現巨大偏差的風險。
基于《量表》研發的自我評估工具中,提取有效評估特征參數指標是工具構建至關重要的一步。
在特征提取(Feature Extraction)方法上,建議采用定性與定量結合的混合研究方法。在質性研究中,擬通過多名相關領域專家基于《量表》的構念框架,采用參數分析法拆解描述語,通過迭代內容分析與多層級主題編碼對描述語進行分析與審核,精化和完善參數指標體系,參數框架最大化體現并反映語言能力構念的各核心要素;此外,還需制定特征提取的統一準則以確定不同層級多維區別性特征參數(自上而下)。量化研究方面,可在基于專家意見提取區別性特征基礎上構建問卷,采集大規模使用者數據,即通過不同能力水平的學習者在多維參數指標下對自身學習情況作出的真實描述而獲取其語言能力的表現。基于大規模量化數據,研究者可進一步篩選區別性參數特征(自下而上)。
為使特征參數指標能反映語言能力構念在九個級別上的核心要素,特征參數指標需具備明確性、典型性與區分度、獨立性及可操作性:
1.特征參數指標明確性:各項測評參數指標需目標明確、表達清晰、措辭嚴謹,能反映該語言技能能力的評價目標。即提供使用者“明確標準”(Clear Criteria)以提高使用者對標準的熟悉度,進而引導學習者對標準多維度下各參數指標進行正確的解讀。此外,特征提取過程中需排除抽象或模糊的表達的特征,避免使用者因對測評標準解讀的差異導致測評結果的偏差。
2.特征參數指標兼具典型性與區分度:各項測評參數指標需反映該語言測評能力的構念,使指標參數體系系統化,各指標兼具典型性與區分度。具體實踐中,需注意以下幾個方面:(1)特征參數覆蓋與包含的能力層級數越多,該特征參數在不同層級的區分度越弱、對某特定級別的典型性與代表性相對弱化。(2)特征參數首次出現的級別被視為該特征參數在某級別對相鄰較低級別具有高區分度與典型性。(3)與量表構建理論保持一致性,特征參數提取時高水平語言學習者能掌握低級別出現的特征參數。(4)難度值過高或過低的特征參數因其在級別間不具備較強區分力度需排除。
3.特征參數指標獨立性:獨立性指提取的特征參數與其他特征在縱向級別上與橫向維度上都具有獨立邊界。具體實踐時需注意:(1)提取特征參數時,需連續多次比較縱向與橫向的參數及子參數,并對特征參數的重要程度(Feature Importance)進行排序,確保參數的獨立性。(2)當相鄰級別或多級別特征參數出現從屬、重疊或邊界不清晰等情況時,需謹慎對待。建議保留首要特征參數,刪除冗余特征。特征提取過程中如出現意見不一致時,需標記并詳細記錄,后續通過專家小組多輪討論審核(Expert Review)以確定。
4.特征參數指標可操作性:考慮到提取區別性特征參數將作為自我評估工具的評價題項,工具實用性需納入考量:(1)特征參數提取時需考量使用者感受(User-oriented),尤其是特征參數的易理解性、在真實語言環境中的可操作性。(2)關注特征指標作為測評題項的數量。研究者在工具研發時需確保所提取的區別性特征題項的數量不會影響工具測評的效用與使用感。即確保題項數量不會過多或過少。自我評估工具包含過多的題項在實踐中對使用者認知處理能力(Cognitive Processing)具有較高要求;而題項過少將難以衡量學習者的語言水平能力(即題項需足夠數量覆蓋并體現測評能力構念的各核心參數)。
自我評估工具的外部表征需謹慎選擇與設計,工具在外部表征上的差異會導致差異化的自我評估結果[21]。目前,常見的自我評估工具表征形式可分為四類。(1)表現記錄卡常用于形成性評估,工具開發過程中對自評任務的設計要求高,自評任務需具備連續性,任務難度需具備梯度。(2)自評日志多用于過程性評估。與表現記錄卡相比,系統性更強。在具體實踐中,這一外在表征對受試具有較高的要求。評估過程中使用者需借助一定的外部指導。(3)檢查表這類表征形式的使用頻率較少。自我評估檢查表的表征多為二分選項的設定,學習者判定較為絕對,無法多維全面挖掘學習者語言能力。基于這類表征的自我評估在結果方面較為粗糙、與實際語言能力存在一定差異。(4)計算機輔助自適應表征是通過互聯網等技術對語言能力的自評實踐,在實踐層面操作性強。這類工具表征在建立時需對每項自我評估任務設定難度系數和確定難度級別,并據此將具體測評任務置于具有語言能力難度排序的系統中,故此類工具表征可為學習者提供較為系統化的評估數據。這類表征在實際操作中要求受試對平臺有一定的熟悉度,研究人員需對自我評估網絡系統的設計與搭建有嚴格把控。(5)多維李克特量表這類工具外部表征多適用于終結性評估。這類自我評估工具表征能收集大規模標準化數據,并將數據最大程度簡化用于后期統計分析。此外,多維李克特量表的表征形式為研究者基于《量表》設定分層多維的測評標準提供了空間,幫助個體學習者挖掘語言能力各方面的診斷信息,在后續的學習過程中開展補救性措施與修正,真正發揮自我評估工具“以評促學”與“為學習服務”的功效。
結合數統模型確定自評工具的評分模型是基于量表構建有效自評工具的核心步驟。在工具評分層面,服務于形成性評估目的表征類目偏重學習過程。與服務于終結性評估為目的的表征相比,這幾類表征對自我評估結果的精度關注不足,大部分研究者并未在研究中匯報具體的評分方式。現有研究中部分自評工具采用了二分項評分模型。這類基于“是或否”的二維能力判別評分方式在自評實踐中無法系統化挖掘學習者能力的具體信息、學習者在自評實踐中對測評標準的理解校準弱。學習者據此評分方式無法從多元視角關注到自身能力的發展,自評的結果較為粗糙,對語言學習的積極反撥和促學效用弱。此外,部分研究對自評題項直接采用等值計分,少部分研究基于研究者理念對不同自評題項進行權重賦值,或設立閾值,但遺憾的是權重賦值或閾值設定主觀性強,未能予以清晰的闡明。
基于《量表》的評分模型在選擇上需兼具考量數據結構、超參數、模型預測精度及測評標準的表征。故推薦使用監督性學習多元分類模型進行建模。這類模型多用于解決多類別、多層級參數指標的運算,能有效簡化系統結構,探討系統內核。同時模型對收集的大規模特征數據進行分類,構造預測模型。這類模型較好地契合了基于《量表》研發自評工具中構建評分系統的需求,模型數據結構上滿足了特征參數分層多維的表征形式。此外,對核心參數組合進行建模,通過創建多個預測變量組合,探索各核心參數下多項區別性特征參數與不同語言能力層級的關系,預測英語學習者的水平能力,評估各區別性特征參數對不同水平力學習者的區分強度與難度。基于此,學習者可從多維視角挖掘自身語言能力各方面的診斷信息,在后續的學習中進行修正,真正發揮自我評估工具“以評促學”的效用。需注意的是,部分模型在建模過程中,會把數據分為建模實驗數據集及與驗證集。在建模方法選定的時候,模型只有在試驗集與驗證機模型擬合度都較好的情況才能被判定為最優模型。
文章在回顧現有自我評估工具和語言能力等級量表文獻的基礎上,對基于《中國英語能力等級量表》的自我評估工具的研發路徑及步驟提出一些建議(如圖1所示)。基于《量表》研發自我評估工具,研究者首先需明確工具開發在真實語言環境應用的目的。在工具測評標準的類別與表征方面,建議研究者以量表為框架,將描述性評估標準拆解為最能反映測評語言能力構念的多維、典型性能力要素組件,形成具有層級的多維區分性測評指標體系,有效規避由于使用者對測評標準理解偏差而導致的測評結果誤差。構建自我評估評價項目時,需著重關注特征參數的明確性、典型性、區分強度、獨立性及可操作性。此外,工具的外部表征選擇與評分模型構建時需綜合考量數據結構、超參數問題、模型預測精度及測評標準的表征。

圖1 基于《量表》的自我評估工具研制步驟
目前,基于《量表》研發自我評估工具還處于初始階段,未來期望有更多的研究基于《量表》研發實踐中效用性強的自我評估工具以橋接我國英語統一度量標準與其在實際教育環境中的實踐。工具的研發期望能為使用者提供有價值的能力反饋信息,幫助其清晰定位、認知不同學段對語言技能的要求,結合在不同情境中的具體實踐進行反思,有助于全面審視自身語言能力的發展。在教學與課程設計方面,教師可將基于《量表》研發的自我評估工具中具體特征參數指標與課程中語言運用的實際需求進行有機結合,有針對性設置與規劃教學要點與內容。同時,教師可以進一步將其融入情境化教學中,設計更加貼近語言能力運用的真實場景的活動任務。測評方面,基于《量表》研發的自我評估工具可促進教學中形成性評價的有效開展,制定學習者個性化的課程形成性評估檔案袋。自評實踐中,學習者處于測評主導地位,逐漸提升學習責任感,培養了自主學習的機制,提高學習動機,從而達到以評促學的效用。