大學英語課程測評體系使用論證

2018-05-06 18:07:42李廉戴瑜

文教資料 2018年2期

李廉戴瑜

摘要：基于6所高校大學英語課程測評的數據記錄，在測評使用論證框架（AUA）下，對課程測評的質量和使用進行論證。以數據為起點、圖爾敏邏輯模型為形式，依次論證測評記錄、測評解釋意義、測評決策和測評后效的主張及反駁理據。論證結果發現，課程測評解釋在構念效度這個核心問題上的主張成立，但在分數內部一致性、評分員一致性、決策依據邏輯性和后效等方面形成了較強的反駁。在分析數據和反駁的基礎上，提出提高課程測評質量和使用邏輯的建議。

關鍵詞：測評使用論證大學英語期末考試過程評價

一、引言

教育部高教司頒布的《大學英語教學指南》（2017）把目前全國的大學英語課程定位為“目標課程”，其課程目標全面涵蓋了語言能力的構成和目標，并指出應構建大學英語課程“校本評價與其他多樣化評價相結合”的綜合評價體系和“共同基礎測試與其他多樣化測試相結合”的綜合測試體系。劉建達（2015；2016）主張在《中國英語等級量表》的標準體系下，大學英語的測評應綜合課程內評價和外部評價，校本英語測評和共同測試共同構成完整的大學英語評價體系；建立一個準確、公平、高效的大學英語測評體系非常重要。

目前我國大學英語課程測評體系主要由期末考試、過程評價兩部分組成。大學英語課程測評具有大規模、高利害測評的特征，其結果影響到畢業、推免研究生、評優/獎、反饋學科發展信息、篩選學科人才等諸多工作，如果其本身設計合理、穩定、權威，則有助于促進上述工作進入良性循環。若其設計不合理，自身質量不過關，則測評結果不足以準確、全面地反映學科建設和人才培養的質量，難以為學科建設中的決策提供信息支持。對當前大學英語測評的質量進行論證，對于教師和教學管理人員認識、改進測評體系，促進教學改革尤為重要。

二、文獻綜述

1.測評使用論證

Bachman和Palmer（2010）在《語言測評實踐：現實世界中語言測評的開發與使用論證》一書中以效度理論家Kane（2002；2006）的效度論證模型為藍本，提出測評使用論證（AUA）框架，論證語言測評質量與使用的合理性（justification）。在AUA框架中，對測評的使用論證包括五個環節：受試者的測評表現、測評記錄、測評解釋、決策和后效，諸環節的合理性是逐層推理的過程，每一次推理都需要論證，全部環節的論證結果匯總為測評的論證結論。

AUA框架對的論證模式為“用事實推導結論”：對每個環節的合理性設定一個“主張”，作為推導結論。該主張要有理據（warrant）做支撐，理據的成立需要“驗證”（backing）為支撐，驗證的基礎是測試中的“數據”（data）。主張是否成立取決于以上推理過程的完整性與可靠性。與此同時，論證人員基于證據對主張進行反駁論證（rebuttal）。反駁與理據是主張的正反兩面，用于否定主張。如果反駁成立，則影響主張的合理性。因此，在測評的開發和完善工作中，開發人員需要盡可能削弱反駁及其證據的發生。

具體地說，測評記錄環節的主張最關注測評記錄的一致性，其論證理據和驗證過程主要涉及分數的內部一致性、組間一致性、測試及分數收集環境、評分信度等問題；解釋環節是論證的核心環節，主要論證分數的解釋意義是否與測試構念相符，這也是傳統效度驗證的核心問題（李筱菊 2001；Fulcher，2012），本環節同時關注分數無偏性、任務特征、解釋的充分性等；在決策和后效兩個環節，AUA框架把決策和測評利益相關人員聯系起來，闡明決策的價值觀和公平性，同時對決策如何影響利益相關者進行論證。考生的測評表現僅作為初始數據，不參與論證。

2.語言測評的效度和信度

測評的論證過程中必然涉及其效度和信度屬性。效度問題是語言測評的核心問題，對效度的研究即從測評結果取得證據，以此推斷被試的語言能力及其差異的過程。根據獲取證據的途徑不同，效度可以分為內容效度、效標關聯效度和構念效度三大類，其中以構念效度為核心。

構念效度是由美國心理學協會（1954；1985）在《心理測量與診斷技術的技術建議》中首次提出，并于1985年明確認定構念效度是測評的效度三種證據來源之一。“構念”指語言能力的心理結構，是對人的被測試語言能力的虛擬闡述，用來描述或預測人的語言能力的組成結構。Messick（1989）的效度整體觀認為，構念效度揭示了效度的實質，是效度的核心內容，此理論被眾多知名語言測試學家（Kane，2002；Mcnamara，2006；Weir，2010）所公認。

判斷一個語言測評的質量，信度也是一個重要指標，主要用來衡量測評記錄的穩定性、一致性的情況。一個高信度的語言測評，對于同一組被試反復測量，其結果應該基本不變。內部信度一致性是一種常見的測評信度指標，一般使用克隆巴赫α系數計算。

三、大學英語課程測評使用論證

本研究組于2013年-2017年對江蘇省6所普通本科高校29次大學英語學業期末考試、過程評價、測評決策及后效反饋進行調研，采集分數記錄，利用問卷和訪談對學生、教師和系部主任收集后效反饋。每所高校有效學生樣本組數為997至5256不等，教師評分員樣本數164人次。在AUA理論框架下，對調研對象的大學英語課程測評進行使用論證，從測評記錄、意義解釋、決策及其后效等環節對其“合理性”進行論證，對各環節的主張及構成要件同時進行正面論證和反駁論證，分析該學業測試的使用是否合理，對被試學生是否公平，對利益相關者是否提供充分的善益性。

1.測評記錄論證

在AUA理論框架中測評記錄的主張為：在不同的測評任務、流程和對象中的記錄穩定、一致。理據主要包括：對所有考生執行標準化的測評程序；測評項目之間分數內部一致；同一評分員的評分結果內部一致；評分員之間評分內部一致。

在6所高校師生中通過問卷和訪談調研測評程序，結果發現：在期末考試環節，6所高校對所有學生均執行學校統一的測試時間、環境、評分流程和標準，無明顯偏差，學期之間保持連續一致。過程評價的評價方式和內容表現出明顯差異：4所高校以課堂評價和網絡自主學習測驗為主要形式，1所高校以課堂評價和階段測驗為主要形式，1所高校僅使用課堂評價。在課堂評價內容上，所有高校均由教學大綱統一規定評價項目，但無高校采用統一的評分標準。

采用克隆巴赫α系數對調研范圍內29次期末筆試得分數據的內部一致性逐一檢驗，結果表明6次考試的內部一致性系數介于0.6-0.8，屬于正常教育測量標準范圍（王孝玲 2015）；23次筆試部分內部一致性系數介于0.35-0.6，對本論證環節的主張構成明顯的反駁證據。

對評分員一致性的論證：在受調研的每次測評中隨機抽取8名評分員，選取每名評分員的100個評分記錄，用皮爾遜積差相關系數計算其一致性。結果如下：以0.7為信度系數合格閾值，在口語測試中，評分員一致性達標組數為22組，合格率22%；寫作測試達標81組，合格率70%；過程評價達標34組，合格率29%。數據統計結果對測試記錄主張構成強反駁論證。從評分過程和評分員的調研中可知，反駁理由主要包括：評分量表操作性不強、缺乏統一的評分員培訓、沒有高校設置試評分驗證和等值機制。

2.測評解釋論證

AUA框架中測評解釋的論證主張為：對考生的能力解釋有意義、無偏、概化、相關、充分。其主要理據包括：測評記錄在統計學意義上充分符合測評的構念目標；測評的任務特征符合測評真實性原則；測評解釋意義與決策邏輯相符。

對測評分數意義的解析主要從內容效度和構念效度兩個方面實現。在內容效度上，對測評任務特征和考點進行分析和專家判斷，衡量其是否符合測評目標。在構念效度上，使用因子分析等統計手段對測試構念進行降維提取。

對29次期末考試的91篇閱讀理解測試進行統計分析，其語篇長度范圍在270個-360個單詞，話題涵蓋社會、文化、科技、教育等，體裁包括說明、議論和記敘三種，符合《大學英語教學指南》的要求，亦與所在高校的教學大綱相符。符合本環節論證理據。但對于具體專業（如消防工程專業）的學生來說，統一的、偏人文類的測評任務并不能反映其目標語言使用域（Bachman，2010），構成了一定程度上的反駁論證。

對調研范圍內的全部115篇閱讀測試（包括閱讀理解和長篇閱讀）的考點和試題內容進行統計分析，發現其內容效度參數（文體、語言復雜度、內部信息關系、文化特征）比較全面地覆蓋了閱讀的策略能力、語言能力、語篇能力和社會語言能力四個構念維度（Alderson，134-136）。雖然每個學期的考試題數量有限，不能包含所有閱讀構念，但從四個學期的完整教學周期統計，較好地實現了測試構念全面覆蓋。對得分明細進行探索性因子分析，提取公因子并參照閱讀構念的內容逐一認定試題的測量目標，分析結果與上述分析吻合，支持解釋意義的主張和理據。

Buck（2001）從語言知識（語法、語篇、語用、社會語言）和策略能力（認知、元認知）兩個維度定義聽力構念，并具體解釋為語音知識、信息定位、局部/整體理解和推斷能力。依照此標準對全部88個聽力測試分項進行上述相同的驗證，內容統計和因子分析結果均顯示聽力上的解釋主張和理據得到全面的支持。

在論證分數的解釋意義與決策的邏輯關系時，受調研的課程測評表現出非常明顯的反駁證據。課程測評的使用者為教師和教學管理人員，他們把學生的期末考試和過程評價分數合成一個總分數，基于這個分數和學生的排序情況做出不同類別的決策。但在統計和論證中發現，全部29次過程評價的內容均包括出勤、課堂參與等學習策略因素，這與期末考試的測試構念屬于不同類型，兩者得分的皮爾遜積差相關系數僅為0.14-0.34，屬于極低水平。教師和管理人員把兩部分成績簡單加權合成，各自污染了對方的測試效度，不符合測量統計邏輯。此外，閱讀、聽力、寫作和聽力各項屬于不同的語言能力特質，使用絕對分值簡單相加，計算出的考生排名也受到了類似的干擾（張厚璨，2004），不符合決策需要。

3.測評決策和后效論證

AUA框架對測評的決策主張：基于測評解釋結果做出合理公平的決策。其主要理據為：決策謹慎、符合社會價值觀；設置分數線；分數是相關決策唯一的依據。

后效主張為測評的后效對于利益相關者是善益的。其主要理據為：測評結果表達及時、清晰易懂；測評讓利益相關者均受益。

受調研高校均以60分為明確的分數線，高于60分即為合格，低于60分為不合格。相應的決策為不及格的學生要補考或重修，不及格成績將對其獎學金和畢業有直接影響。在對67名教師、12名教研室負責人的訪談和問卷調查中得知，絕大多數教師和所有教學管理人員都認為自己主要從學生的最終成績單上判斷其英語水平。但基于測評解釋論證的結果可知，在受調研的29次課程測評中，其分數解釋意義均增加了出勤、課堂參與等態度、學習策略內容，形成了“分數是相關決策唯一依據”的反駁論證。

課程測評的一個重要功能是為教學提供反撥作用（亓魯霞，2006），針對教師的67份有效調查問卷結果顯示，全部受調研的教師認為自己“未能依據課程測評成績中有效改變未來的教學計劃和內容”，12名受訪的教研室主任中10名也肯定了這一結果。受調查的418名學生中233人認為“課程測評不能促進我更加努力地學習英語”，占比56%，持肯定態度的僅為80人，占比19%。96%的學生表示希望得到各分項測評分數及其意義描述。以上結果在決策和后效論證上形成了較強的反駁證據。

四、總結和建議

在AUA框架下，對6所高校的29次大學英語課程測評在測評記錄、解釋、決策和后效層面進行使用論證，結果表明：由于課程測評較多使用了信效度較高的CET測試題，使得在構念效度這個核心問題上的主張成立，保障了測評內容質量。此外，在測試流程標準化上得到了積極性的論證結果。但在期末考試內部一致性、評分員一致性、決策依據邏輯性和決策對教學、學習的后效等方面，反駁證據明顯強于理據，主張被大幅度削弱，主要原因分別為測評結構缺乏統一規劃；考試與評價不同質；測評決策邏輯性弱。測評開發者和使用者有必要做出相應的改進，因此對大學英語課程測評的開發和使用提出如下建議：

1.基于全面、標準的英語能力等級量表作為測評規劃和開發的依據，在整體教學大綱的框架下，合理規劃考點，使用學業水平測試代替語言知識為主的結構主義測試方法。《歐洲共同語言框架》（CEFR）和教育部高教司即將頒布的《中國英語等級量表》可以為效度設計和實現提供內容和等級基準；在能力量表框架內開發主觀測評項目等級制評分標準，進行統一連續的評分員培訓，在測評內容和評分標準層面上保障主觀評分項目的效度，同時進行必要的主觀題評分驗證和等值處理，確保評分的公平穩定。

2.以構念效度為出發點，設計與期末考試同軌、通衡、互補的過程評價內容，區分測評體系中語言能力因素與學習策略因素，從而在分數解釋和決策中區分對待，防止效度污染。改進分數計算和使用方法，使用分項標準分計算測評總分，可以減少測評項目異質性帶來的計算誤差。

3.建議成立專門的測評分析部門，分項報道成績，以質量報告形式解讀分數分布、對比和發展趨勢，發布教學使用建議，使測評結果提供更加充分的解釋信息和決策數據，成為教學方法和教學管理中的重要依據。同時建議增強測評的權威性和決策邏輯性，調動學習積極性。

參考文獻：

[1]American Psychological Association. Technical Recommendations for Psychological Testing and Diagnostic Techniques[J]. Psychological Bulletin，1954，51（2：2）：1-38.

[2]American Psychological Association. Standards for Educational and Psychological Testing[M]. Washington， DC：APA，1985.

[3]Alderson，J.Charles. Assessing reading閱讀評價[M].北京：外語教學與研究出版社，2011.

[4]Bachman， L.& A. Palmer. Language Assessment in Practice： Developing Language Assessments and Justifying Their Use in the Real World[M].Oxford：OUP，2010.

[5]Buck G. Assessing listening[M]. Cambridge： Cambridge University Press， 2001.

[6]Hughes， Arthur. Testing for Language Teachers[M]. Cambridge： Cambridge University Press， 2000.

[7]Kane M. Validation. In： Brennan RL， ed. Educational Measurement， 4th edn[M]. Westport， CT： American Council on Education/Praeger，2006：17-64.

[8]Kane M. Validating High-Stakes Testing Programs[J]. Educational Measurement Issues & Practice， 2010， 21（1）：31-41.

[9]Kane， M. Validating score interpretations and uses[J]. Language Testing 2012， 29： 3-17.

[10]Messick， S.Validity[A]. In R. Linn （ed.）. Educational Measurement （3rd edition） [C]. Washington， D.C.： American Council on Education， 1989.

[11]McNamara， Tim. Validity in Language Testing： The Challenge of Sam Messicks Legacy[J]. Language Assessment Quarterly， 2006， 3（1）：31-51.

[12]李筱菊. 語言測試科學與藝術[M]. 長沙：湖南教育出版社， 2001.

[13]劉建達. 中國英語能力等級量表研究成果報告[C]. 廣州：第一屆語言測試與評價國際研討會，2015.

[14]劉建達. 中國英語能力等級量表研究成果報告[C].杭州：第二屆語言測試與評價國際研討會，2016.

[15]亓魯霞. 論考試后效[J]. 外語與外語教學， 2006（8）：29-32.

[16]王孝玲. 教育測量[M]. 上海：華東師范大學出版社， 2005.

[17]張厚粲，徐建平. 現代心理與教育統計學·第2版[M]. 北京：北京師范大學出版社， 2004.

[18]教育部高等教育司.大學英語課程教學指南[Z]. 上海：上海外語教育出版社，2017.

基金項目：中國外語教育基金項目“基于iTEST 的大學英語‘同軌測評體系構建與使用論證（項目編號：ZGWYJYJJ2016A14）；中國礦業大學教學成果培育項目“標準化、交際型大學英語測試方法改革研究”（項目編號：2015YB39）。