戴 瑜,李 廉
(1.中國礦業大學徐海學院,江蘇徐州221008;2.中國礦業大學外文學院,江蘇徐州220016)
基于標準的評價主要是根據課程標準設定的學習要求,考查學生對要求的學習內容的掌握情況及其能力水平。這種評價依據一系列預先設定的、描述不同階段的評估標準來評價學生的學習,給出學生的成績。這種評價可以幫助學校確認什么是重要的學習內容,并協助教師和學生專注于重要的學習內容,最終促進學生的發展。按照這種定義,我國目前高校的大學英語學業測試普遍采用的是基于標準的評價模式。為了給學生提供及時有針對性的有益反饋,從而促進學習,大學英語學業測試按照學生的具體能力水平是否達到課程標準,將學生分為合格/不合格兩大類,進而對不同的學生實施對應的教學活動。
我國高校普遍把期末考試作為主要的學業評估方式,目前各高校所使用的大學英語學業測試試題,主要采用教師自編測驗方式。從命題內容來看,這類測驗大多以教材為中心或者依據主觀經驗進行命題,考試往往缺乏合理的理論效度規劃,在難度和區分度上也通常缺乏明確的設計。從評分和分數解釋來看,尤其是主觀測試項目上,存在評分標準籠統、測評結果穩定性差、評分員差異大等問題。對于一份試卷來說,需要通過考察哪些特定的知識和技能、考生需要有怎樣的具體表現,才能判斷出該考生達到這些知識和技能的臨界水平,能夠獲得多少分數。在此過程中,對具體標準的描寫和分數的判定的過程即基于標準的測試中的“標準設定”環節。這些標準制定的是否合理、科學和明確,會影響到試卷的編制、分數的解釋等,關系到測試效度的問題。
Bachman認為,考試與教學內容的相關性和對教學內容的覆蓋面是學業考試的要素,它能賦予分數具體的意義,激勵學生更主動地參與日常的學習活動,并對教與學產生有利的反撥效應。多數研究顯示,基于標準的評價對學生的學習和成績有積極作用。
本文在Bachman和Palmer的“測試使用論證”的語言測評開發與使用過程指導下,以中國礦業大學徐海學院為例,結合該院的《大學英語課程教學大綱》(以下簡稱《大綱》)的要求,探討開發編制適用于獨立學院的學生英語水平的大學英語學業測試需要關注和考慮的相關問題,使其有助于對學生英語水平進行科學的客觀評估。
“測試使用論證”的語言測評開發與使用過程涉及一系列活動,包括初劃、構建測試使用論證、選擇或開發一項測試、收集用于測試修訂的反饋信息、獲得測試記錄、依照測試記錄解釋考生的語言能力、參照有關語言能力的解釋作決策等。這些活動大致可歸入五個階段:初步規劃(initial planning)、設計(design)、實施(operationalization)、試測(trialing)和測評使用(assessment use)。測評開發的第一階段是初始規劃,決策者初步考慮其是否需要使用測評為預期決策提供信息。若決策是使用一項測試,那么初劃的活動會產生測試可行性的初步評估。若決策是選擇某一測試,那么測試開發者需要論述主張及理據,以證明現有測試可以使用,然后測試開發者開始試測和測試使用,為理據提供支撐依據,為測試使用者提供真實的評估、評估記錄及解釋信息。若決策是開發一項測試,那么測試開發者開始第二階段,即設計階段。本階段實施的活動會產生設計方案(design statement),以及“測試使用論證”的理據。第三階段的實施活動產生測試藍圖(blueprint),一個以上的“評估”以及為測試使用者提供解釋信息,并產生“測試使用論證”的附加理據。第四階段是試測,會產生反饋信息,為理據提供支撐依據,為測試使用者提供測評任務檔案和其他的解釋信息。第五階段的測試使用活動產生測評記錄,為測評使用者提供其他的解釋信息、語言能力解釋,以進行決策。
在整個過程中產生的解釋性信息,包括需要評估的構念說明,并伴有測試任務說明,以及測試記錄如何產生的說明。這個信息由測試開發者以條款表格的形式向測試參與者和其他利益相關者提供。基于解釋的決定會在現實世界中產生后效,該后效也由真實世界條件決定。測試開發者的首要產品是“測試使用論證”本身,因為不同具體的理據要說明論述,在測試開發和使用不同階段要搜集支撐依據。
當“測試使用論證”指導測評開發和使用時,“測試使用論證”本身也在整個過程中得到詳細說明及修訂。同樣的,當真實世界的條件影響測評開發使用中所形成的某些決策時,這些條件會隨著測試開發者對這些活動做的改變和調整而演變。因此,驗證和真實世界的條件會引導并通知所有測試開發使用中的決定和流程,也會確保有目的測試使用可以驗證,并具有實用性。
按照我國《民辦教育促進法》及相關規定要求,民辦高校以培養應用型人才為目標。對于培養應用型人才為目標的中國礦業大學徐海學院,其學生的英語應用能力不容忽視,尤其在我國步入世界性經濟、政治和文化的大流后,學生英語的實踐能力和綜合應用能力是最為關鍵的。該院根據國家對民辦高校的指導性規定,制定了相應的大學英語的教學大綱,確定了大學英語的課程性質、教學目的及任務。即《大學英語》課是一門既發展語言能力,又發展交際能力的實踐課,培養學生較強的聽、說、讀和一定的寫作、翻譯能力,能夠用英語進行日常交流。大學英語教學應幫助學生打下扎實的語言基礎,掌握良好的語言學習方法,提高文化素養,以適應社會發展和經濟建設的需要。
基于標準的學業測試開發,以該院制定的《大綱》為基礎設定測試的評價標準,按大綱要求對所要掌握的知識、技能和理解方面進行有效測量并提供可信的測量結果。在AUA框架下和基于標準的理論下,開發大學英語學業測試需要經過初步規劃、設計、實施、試測和測評使用這五個階段,并且在所有階段中需要體現《大綱》設定的要求標準。
初劃是測試開發和使用的初始階段,在是否需要進行測試開發的決策作出之前完成。決策者和測試開發者要回答一系列的問題,以決定是否需要測試,是否需要開發新的測試,以及考慮測試開發所需的資源。為了回答上述問題,在初步規劃學業測試時,與《大綱》要求對應,在以下幾個方面設定標準:
作為大學英語教學中重要組成部分的學業測試,其試卷設計要保證質量,能夠客觀準確地測量大學英語教與學的實際水平,科學解釋成績并及時反饋于教學中,對教學起正面把握作用。參考Bachman所列初劃階段需要關注的若干問題,該院大學英語學業測試開發和使用有如下幾點考慮。首先,直接受測試使用影響的相關利益群體包括大學一年級和二年級的非英語專業的本科生以及大學英語各年級的授課教師和學校的教學管理部門。其次,以大學英語學業測試依據,所需要作出的決策是判定參加考試的學生通過或未通過大學英語一、二年級四個階段的學期學業測試。再者,為了決定學生是否通過階段性學業測試,教師可以利用的資源有:學生的自我評估、作業、對學生語言能力方面的印象或測試。其中,自我評估有可能會超過真實水平,家庭作業未必由學生自己完成,而教師對學生的印象不一定保持一致并會存在偏差,所以進行測試是必要的。該院現有的大學英語學業測試,缺乏合理的理論效度設計、合理的難度和區分度,測評內容和教學目標不一致,評分標準籠統、測評結果不穩定等問題。判定學生是否可以通過該階段的大學英語學業測試,需要了解并收集與決策相關的學生語言能力方面的信息,而相應階段的大學英語課程教學大綱是參考的標準。
在測試開發設計階段,測試開發者將實施具體的活動,主要的活動就是編制設計方案。設計方案是說明在設計一項測試之前所需的內容,可以引導測試開發和使用過程的最后三個階段——實施、試測和使用,同時也會為“測試使用論證”的幾個理據的支撐材料提供信息,為測試使用者及其他相關利益者提供他們能理解的測試解釋信息。設計方案包括的內容較廣泛,本文對以下幾下重要問題進行闡述討論:
1.考生錯誤分類的嚴重性和政策性決策的標準
(1)錯誤分類的嚴重性:錯誤的積極分類決策比錯誤的消極分類決策相對要嚴重。

表1 相關利益者及大學英語學業測試所作決策產生的后效
(2)設立標準的政策性程序:通過大學英語課程的標準由大學英語課程負責人與該課程的授課教師協商共同制定標準并在學校網站公開發布。
(3)通過大學英語考試的標準:標準分線是60分,參照該院《大綱》要求測量學生的語言知識。
2.構念的定義
構念即一項測試要測的內容,既是測試任務編制的基礎,也是分數解釋的依據。大學英語學業測試用于診斷教學背景下具體的教學目標的完成情況,其構念主要依據課程教學大綱中所包括的語言能力要素。結合該院《大綱》中的教學目標和基本要求,學生的英語綜合應用能力是主要的培養目標,以幫助學生實現用英語進行日常交流的需要,對詞匯、聽力理解能力、口語表達能力、閱讀理解能力、書面表達能力和翻譯能力在四個學期有不同等級要求。包含的語言能力要素有兩方面:(1)策略能力方面的掌握大意、抓住要點、領會觀點和態度、一般性交流及描述等;(2)話題知識方面的日常話題、一般性題材、個人經歷、事件、觀感、情感等。
3.描述目標語言使用域
語言測試任務是構成語言測試的基本要素,是能夠誘發考生作答的“程序”,通常要以目標語言使用域的任務為參照進行改造、設計。人們正是通過考生完成測試任務的具體表現,來推測考生完成目標語言使用域任務的表現,據此對其語言能力做出解釋。根據Bachman的觀點,在大學階段所施行的這種學業測試,很難去明確其具體的目標語言使用域,因此在這類測試中,可以依據考生的相關屬性和受測的構念,定義所需概化的目標語言使用域。根據上述分析,大學英語學業測試的語言構念要以該院制定的《大綱》為指導,按照大綱在四個學期的不同等級要求,開發體現考生聽力理解能力、口語表達能力、閱讀理解能力、書面表達能力和翻譯能力的測試任務。
實施包括開發藍圖、開發實際的測試任務,然后按照藍圖把測試任務組織到整個測試。設計藍圖是整個測試以及測試中的單個任務的一組說明文件,用以指導測試開發者建立測試任務,并為測試使用者和其他利益相關者提供信息。該院大學英語學業測試的藍圖編寫,要注意到測驗與課程標準之間的一致性,并結合該院學生的培養方案,參考以下兩個原則:(1)交際測試原則:根據該院《大綱》的課程性質,測試主要衡量學生的英語交際能力,著重考查聽說能力和交際閱讀能力,在測試內容和考點設置上以《大綱》為基礎,參考雅思和托福考試構念效度,借鑒全國大學英語考試四六級的信度機制。這將使該院大學英語學業測試明顯區別于大學英語四六級考試,后者主要用來測試考生的語言綜合結構能力和應用能力,是對語言基礎的標準化反映,而非交際能力;(2)泛校本原則:該院的大學英語學業測試兼具有本校特色。開發學業測試,要根據該院學生專業特點和學校發展方向定位,測試內容多采用與該院設置的不同專業類型領域相關的素材,而非大學英語四六級考試中的泛人文類素材。根據該院學生出國交流、攻讀研究生和畢業后工作等需求,部分測試內容增加實用場景對話和學術場景素材。
該院大學英語學業測試的編制遵循布盧姆認知目標劃分法,在測量各級別教學目標的實現情況時,在每份試卷中以知識占15%、理解占25%、應用占30%、分析占15%、綜合占10%的分配組成。測試包括聽力、閱讀、寫作和口試四項,總時長120分鐘(見附表1)。
測試的試測階段包括在一組人中試用該測試,搜集信息,以及為了改進測試分析信息。這些活動產品包括反饋、支撐信息,測試任務的記錄,其他的測試使用者的解釋性信息。測試開發者使用試測中收集的信息提供支撐依據支持AUA中的理所,或是修訂AUA中具體的理據。她也可以用這些信息指導其在測試任務或整個測試的修正中,這樣她能為AUA的理所提供更強的支撐依據。依據試測所獲得反饋所做的修正可能相對本地化,由少量的校訂組成。測試結果的分析可能會顯示要求有更廣泛的修訂,可能涉及到回歸到或再次思考AUA的設計方案或理所中的一些元素。在主要的測試努力中,測試或測試任務總是需要在使用前試用。涉及到管理測試,去收集關于測試使用者“語言能力”的信息,以用于作出決策。測試使用者解釋測試記錄作為想要測評的能力指示器,并用于決策。此外,測試使用將用于繼續收集作為測評論證過程部分的信息,為測試使用者提供額外信息。
開發基于標準的大學英語學業測評體系,設計要以學校的課程教學大綱為依據,并結合學校的實際情況,制定開發科學的、客觀的、系統的評估體系,這對于實現課程目標至關重要。為保證學業測試的質量,有必要成立專門的大學英語試題庫建設小組,負責測試的設計、分析和研究,收集和保存每次考試的試卷和數據,將優秀的題目存入電腦,這樣才能逐步提高試題的質量,實現測試的標準化,保持同一級考試的穩定性。用同一尺度衡量不同屆的學生,才能使考試有縱向的可比性,更準確地評估各屆學生的水平和教學質量。加強試題質量控制,在沒有條件試測的情況下,可采取試做的方法,以預測試卷的效度。例如,可以由其他級別未參加本級別學業測試命題的老師將整套試題按照考試要求做一遍,這樣常常可以發現不少問題,如題目語言上的錯誤、多種答案、答案給錯、時間不夠等。
參考文獻:
[1]汪賢澤.基于標準的評價研究[J].當代教育科學,2008(10):11-14.
[2]Cuyneth Hughes.Towards a Personal Best:A Case for Introducing Ipsative Assessment in Higher Education[J].Studies in Higher Eudcation,2011(5):353-367.
[3]Bachman L F,Palmer A S.Language Assessment in Practice[M].Oxford:Oxford University Press,2010.
[4]戴瑜,李廉.基于測試使用論證理論的大學英語學業測試體系建設[J].煤炭高等教育,2017(4):68-72.
[5]丁秀峰.心理測量學[M].北京:光明日報出版社,2001.

附表1 各部分測試內容、題型和所占分值比例