【摘 要】綜合各種關于測試真實性的觀點,以典型的半直接法測試——新托福網絡口語考試為例,從測試文本、測試任務和情景、受試者與測試任務互動、評價標準及評分過程,客觀地分析半直接法測試的真實性,并得出結論。
【關鍵詞】半直接測試 真實性 新托福 網絡口語
【中圖分類號】G 【文獻標識碼】A
【文章編號】0450-9889(2012)02C-
0108-03
語言測試的真實性是一個復雜的問題。人們把真實的語言測試等同于表面效度較高的直接測試。而半直接測試由于缺乏逼真的交際情景和互動,其真實性備受質疑。對半直接測試真實性進行研究,有利于了解語言測試真實性的本質,在實踐中運用真實性的研究成果指導語言測試體系的構建和語言教學。
一、什么是半直接測試
語言測試可以劃分為間接、半直接和直接測試。
(一)間接法(indirect)
間接法是建立在語言運用能力可分性的基礎上,即通過測量受測試者對語言結構各個層面(如語音、詞匯及語法等)的掌握情況來衡量他們的整體語言能力。其特點是:一是不追求測試形式與真實交際的密切相關,是一種不具備表面效度測試。由于不受語用條件或語用環境的制約,可以采用的多種測試形式來測試廣泛的語言項目。二是題型屬于標準化類型,答案一般是唯一的。三是測試和評分過程不同時進行,比較容易保證評分者的信度。
(二)直接法(direct)
直接法的理論基礎是交際理論,強調語言在真實的交際過程中的運用,也就是測試要盡可能多地重現實際語言運用情景和過程。其特點是:一是測試任務與真實的語境密切相關,表面效度較高。二是由于交際活動的不可預測性,測試的答案是開發式(open-ended)。同時直接法面臨的問題是如何制定客觀、公正的評分標準,如何保證評分者信度,如何保證測試手段的有效性,以及測試規模受限的問題。
(三)半直接法(semi-direct)
半直接測試綜合了上述兩種測試方法的長處,吸收了間接法的公正性和標準化的優點,保留了直接法在特定語境下交際的特點,通過聲音和圖像模擬交際語境,呈現的內容與真實生活的交際活動相關,受測試者按要求完成測試任務,采用錄音或錄像的方式收集受測試者的樣本,由評分員根據評分標準進行評分。半直接測試的特點是:一是能在短時間內測試許多考生,節省人力和物力;二是考官情緒或水平差異的影響小;三是評分可以由經過培訓的專業人員統一在合適的時間和舒適的地點進行;四是考官可以反復聽錄音,有利于提高評分的準確性。
二、半直接測試的真實性
半直接測試是一種折中的測試方法,在實踐中被廣泛地使用。盡管半直接測試的操作性很強,但其真實性受到各方的質疑。Valette曾指出半直接測試無法提供逼真的交際情景;Beardsmore曾提及在半直接測試中考生的單向回答不符合真實的交際形式,越來越多的證據削弱了半直接測試的真實性,半直接測試的真實性問題首先要從語言測試真實性的本質著手。
(一)語言測試的真實性
在語言習得理論和語言測試理論發展歷史上,關于語言測試真實性的觀點有以下這些:
早期的觀點:20世紀60年代中期,真實性概念的提出主要用于區分“現實生活”的語言素材和為教學目的而編寫的文本。真實性最初只是一個簡單的概念,它強調的只是文本材料的真實性,它要求測試的文本來自真實情景未被改動的原始文本。這種觀點存在的問題是:測試的真實性會因為交際對象和交際情景的變化而降低,而且受客觀條件的限制,在實際的操作過程中不可能不對原始文本作任何修改。
真實生活觀(Real-Life approach,簡稱RL):測試真實性是“形式和過程盡可能多地重現實際語言運用情景及其過程”。要求測試任務的情景和內容與真實生活中目標語的使用情景和內容一致,強調測試任務的真實性,主張使用直接測試(direct test)和行為測試(performance test),關注的是測試的表面效度、內容效度和預測效度。這種觀點存在的問題是:真實生活如果是目的語使用者的真實生活,對于二語學習者來說,測試任務已經失去了真實性。另一個問題是測試任務無法完全重現現實生活中的語言任務。
交互能力觀(interactional ability approach,簡稱IA觀):真實性存在受測試者、測試任務和測試情景之間的相互作用,認為互動程度越強,測試的真實性就越高。這種觀點強調真實性的描述應注重交際語言使用的區別性特征,即語言使用者、語境和語篇之間的交互作用,而不是去獲取整個語言使用情景,這種觀點關注的是測試的結構效度。
一致觀:Bachman和Palmer把交互性從真實性的復雜概念中分離出來,對真實性作了區分:情景真實性(situational authenticity)和交際真實性(interactional authenticity)。前者指測試任務特征與目標語使用任務特征的對應,后者指考生與測試任務之間的互動。把真實性定義為“特定測試任務的特征與目標語使用任務特征的一致性程度”,也就是只要測試任務具有目的語使用的主要特征,不必要將非測試情景中的任務原封不動地復制到測試情景中。為匹配目標使用任務特征和測試任務特征,Bachman和Palmer提出了任務特征研究框架,增強了真實性在測試中的可操作性。一致觀的“真實性”是一個相對的、動態的概念,語言測試不可能達到百分之百的真實性。
最近的觀點:Spence-Brown對測試真實性的內涵進行了擴展和豐富,認為主要包括四個方面:測試任務的真實性;考生與測試任務之間互動的真實性;考生與其他參與者之間互動的真實性;評分過程及其標準的真實性。這一觀點包括了真實生活觀和交互能力觀的內容,同時考慮到測試的互動的社會維度特性,包括考生、測試者以及其他參與者之間的互動。語言測試實踐已證明其他的參與者(如搭檔或考官)的表現能夠極大地影響考生的語言行為。評分標準和評分過程的真實性確保了評價結果的公平性和準確性,確定評分標準時,要考慮到目標語使用域和測試目的,例如Spence-Brown指出了一種確保評分標準真實性的方法,就是讓目標語使用域的專家(非語言教師或語言學家)參與到測試開發過程中。在制定評分標準時,應注重考試的語言展示和語言運用的平衡,真實性評分應該側重學生的語言運用能力,也就是側重考查學生作答的社會得體性、可理解性、是否完成任務等方面。
(二)半直接測試的真實性問題
和直接測試相比,半直接測試沒有考官和其他考生的參與,但這并不意味這類測試的真實性不高。雖然缺乏這類互動,與真實生活中的交際活動情景相差較遠,也就是表面效度不高,但表面效度不再是判斷測試真實性高低的唯一衡量標準,測試的構想效度同樣影響測試的真實性。
測試的構想效度就是“測試中的表現與我們根據能力(ability)或構想(construct)理論所做出的預測在多大程度上相一致”。測試的構想效度不僅是測試分數解釋的基礎,而且“對考試真實性的論證具有同等甚至更重要的地位”。Hughes是這樣解釋測試的構想效度:“一項測試、一項測試的一部分,或者一項測試技巧,如果被證明它所測量的就是它被期望測量的能力,那么它就可以說是具有構想效度。”也就是只要證明測試具有合理的理論框架,而且設計的測試任務能體現這個理論框架,就可確定測試的真實性的高低。
三、半直接測試的真實性分析
根據上述關于測試真實性的研究結果來看,真實性是一個復雜的概念,真實性的理論構成及其在測試實踐中的實現方式是多元的,從后方法(post-method)
的角度出發,Spence-Brown關于真實性的定義更為豐富,可操作性更強。因此,在實踐中可以從測試文本、測試任務和情景、受試者與測試任務互動以及評分標準和過程的真實性來判斷一個測試體系的真實性的高低,以下以新托福網絡口試為例,分析半直接測試的真實性。
ETS公司推出的新托福口語考試是基于互聯網的人機對話口語測試模式,由計算機展示測試的任務和要求,新托福口語考試的最大特點是考生的回答經過數字錄音并被發送到ETS在線評估網絡。每個考生的考試錄音都至少有三個以上的評分員進行評估,而且有的時候一個考生的同一個部分的評估也由兩個評分員評估,這樣來保證學生分數的公正性。這是典型的半直接測試方法,以下從與測試真實性相關的四個方面來分析其真實性。
(一)測試文本的真實性
真實的材料是任何交際語言能力測試必不可少的部分,新托福考試的素材全部取自真實的學術語言環境,內容都與北美大學校園生活有關,是北美學習和生活中所接觸到的語言。由于托福是為非英語國家考生設計的考試,考慮到非英語國家考生與本族語者的在語言運用方面的差異,對真實材料的加工處理,使其難度與真實的交際情景相當,這樣的處理本身就削弱了文本的真實性,盡管如此,測試文本雖不具備絕對的真實性,但卻具有較高的真實性。
(二)測試任務的真實性
新托福模擬了北美大學課堂的學術氣氛和學生的校園生活,以下以口語考試任務的特征描述來加以說明:Task1要求考生表達個人喜好和個人經歷;Task2要求對其選擇的問題進行闡述并說明原因。Task3和Task4:先閱讀一段文字,然后聽一段與閱讀材料相關的聽力材料,聽力材料的形式可以是對話、演講或其他形式,考生需要在聽錄音的過程中通過做筆記,并結合閱讀材料中隱含的說話者的觀點地答題。Task5和Task6:以聽力材料為基礎,要求考生回答相關問題,聽力材料包括對話情景題和課堂講解學術題,考生在聽錄音的過程中做筆記可以幫助其更好的答題。從測試任務特征描述來看,新托福測試任務符合Bachman關于測試任務真實性的標準,測試的任務是考生需要在校園情景、課堂情景中用英語完成的典型任務。
測試情景的真實性是指測試任務的情景與現實生活中完成類似交際任務的場景的相似程度。新托福口試測試和綜合測試中情景設置包括日常校園生活情景和學術情景,基本反映了將來考生在北美學習和生活的類似情景的特點,所以具有很高的真實性。
(三)考生和測試任務的互動的真實性
新托福考試屬于非直接測試,而且受測試者的個人特征、情感圖式、背景知識都會影響其語言運用能力的發揮,由于沒有與考官和其他考生直接得交際活動,受試者與測試任務互動的真實性對于整個測試的真實性來說顯得至關重要。
受試者與測試任務互動的真實性主要體現在每項任務都有準確的測試指令、真實的任務要求和說話時間的限制,在測試中,考生需要運用口語交際能力、聽力、閱讀能力、文字記錄能力和背景知識來完成各項任務,與真實的北美大學環境下本族語者與相同或類似任務的互動基本一致,具有較高的真實性。
(四)評分標準和過程的真實性
新托福考試的評分采用的是整體評分法,評分的標準包括以下幾個維度:考生對話題的展開程度、口語的流利程度與發音的清晰程度,以及回答內容與話題的切合程度。這種方式注重語言能力的總體質量的高低,而對特定語法知識的掌握和不是評判的重心。為彌補整體評分法由于主觀因素造成的誤差,采用兩名以上的評分員進行評價,同時托福考試還提供分析性的反饋報告,說明考生的語言整體水平和各項語言技能的水平,確保分數能真實反映學生在校園情景和學術語境下的口語交際能力。
從上述的四個方面對新托福網絡測試的真實性分析可看出,雖然這是屬于半直接測試,但由于托福口語測試的構念所包含的內容在測試的輸入、情景、評分、受試者與測試任務互動方面得到了較高程度的實現,使得其測試的結果能反映在北美地區的校園生活和學術背景下的語言運用能力,是一種具有較高的真實性的半直接測試模式。
半直接測試法雖然缺乏真實的交際背景和受測試者和考官的互動,從測試真實性的本質來看,仍然可以具有很高的真實性,因為測試的表面效度不是唯一的評判標準,測試的構想效度才是測試真實性的保證,半直接法測試真實性的高低主要看其是否具有合理的構想效度,即具有一個合理的理論框架,測試任務是否能實現測試的構想,而不是僅僅局限于交際情景的真實性,這也是真實性理論多元化的趨勢。
【參考文獻】
[1]Valette R M. Modern Language Testing[M].Harcourt Brace Jovanovich,Inc.,
1977:39
[2]Beardsmore H. Testing oral fluency[J].IRAL,1974(4)
[3]Bachman L F. and Palmer A S. Language Testing in Practice[M].Oxford:Oxford University Press,1996:24
[4]Spence-Brown,R. The eye of the beholder:authenticity in an embedded assessment task[J].Language testing,2001(4)
[5]Bachman L F ,Fundamental Considerations in Language Testing [M].Oxford:OUP,1990:255
[6]鄒申.試論口語測試的真實性[J].外語界,2001(3)
[7]Hughes A.Testing for Language Teachers [M].北京:外語教學與研究出版社,2000:26
【基金項目】廣西教育科學“十二五”規劃2011年度高校大學英語教學研究專項課題(2011ZY028)
【作者簡介】蔣曼貞(1964- ),女,廣西全州人,柳州職業技術學院副教授;韋鴻發(1969- ),男,廣西柳州人,柳州職業技術學院講師,研究生學歷。
(責編 黎 原)