王躍龍
(華僑大學 文學院, 福建 泉州 362021)
與口語交際能力研究緊密相關的就是口語測試,口語測試是語言測試的重要內容之一。語言測試作為一種測量活動,是隨著語言教學發展而來的,其主要目的是評價學習者的語言水平,同時能對教學起到反撥作用。有時候語言測試也被用作工具使用來達到其他不同的目的,如用于鑒別身份,用于控制移民,用于資格授予等。
大體來說,語言測試界占支配地位的研究范式為實證主義。實證主義的研究是實驗性和控制性的,強調通過大量樣本,嚴格地量化觀察,謹慎地控制變量并用統計方法分析得到結論。要全面測量語言能力,還必須測量它的社會維度,這對語言測試是一個巨大的挑戰(1)McNamara,T & Carsten Roever.Language Testing:The Social Dimension[M].Malden,MA:Blackwell.2006.。
口語能力測試是語言測試重要的方面,按測試對象來分,可以分為兩類:一類是針對外語學習者的,一類是針對母語學習者的。從次序上來說,最早開始的是針對第二語言學習者的口語測試。測試的結果即是對口語能力的分級。
總體上來看,在語言測試界,大規模的口語測試并不占優勢。并非是人們不知道口語測試的重要性,而是因為口語測試是語言測試當中主觀性最強的部分。相對于其他測試,口語測試可能是更難以測定和把握的成分。具體來說,就是口語測試評分標準的主觀性較強,在操作上的難度較大。
語言測試的總體趨勢是由重視語言知識轉向重視語言技能,再轉向重視語言能力的實際運用(2)韓寶成.語言測試:理論、實踐與發展[J].外語教學與研究,2000,(1).。張凱指出,語言測試相當于測量人體的表面溫度,因為我們現在還不能深入人腦的內部,不清楚人在進行語言活動時大腦處于什么樣的狀態(3)張凱.語言測試概論[M].北京:商務印書館,2013.。這實際上是在告訴我們,盡管有的測試以能力測試命名,但實際上現有的測試都是對現象的測試,通過現象來猜測能力。
口語測試的形式經歷過幾次變革。最初的口語測試是受結構主義測試學的影響。結構主義語言學認為,語言是由語音、詞匯和語法等不同層次的成分構成的系統,因此測試是可以分項進行的。這種測試體系以測試口語當中“說”的技能以及與“說”相關的分項技能為宗旨,強調口語形式的準確性和口語技能的熟練性。測試題型包括朗讀、復述、補全對話、看圖說話、口頭報告、問答等。分項測試的做法對學界影響較大,一度成為范式。但是,結構主義的測試主要檢測的是知識掌握的情況,很難對學生語言運用和交際能力做出判斷。
20世紀80年代開始,受交際教學法的影響,以測試語言運用能力為目標的交際語言測試開始流行,美國OPI(Oral Proficiency Interview)作為當時最有效的口語能力測試工具被廣泛推廣。OPI是一種綜合性的測試程序,并不衡量受試者對語言的各個孤立方面的運用或對這種語言知識的掌握程度。其核心是測試員靈活運用會話技巧刺激被試者完成不同難度的語言輸出任務,從而確定其口語能力。
Clark把口試分為直接口試和間接口試兩類(4)Clark,J.L.D.Theoretical and technical considerations in oral proficiency testing [A].Randall L J.Spolsky B.Testing language proficiency[C].Bern:Verlag Peter D.Lang,1981.,其中面試型口試即是直接口試的代表。其目的是盡可能多地重現語言實際運用的場景及應用過程。直接口語匯總考官要參與到與考生的互動交談中,這樣一方面可以觀察非語言行為,另一方面可以控制整個考試過程,分配考試時間,靈活處理突發情況(5)徐海銘,謝忠明.我國英語專業口語測試現狀的理論分析[J].南京師大學報(社會科學版),2006,(2).。90年代以后,這種測試方式在真實性、參與者、測試形式等方面都遇到了不同程度的質疑。Shohamy et al 指出,直接口語測試雖然有較高的表面效度,但評分的信度比較低。原因之一是評分人員的專業素質參差不齊,其二是評分時間較短,很難做到公正和客觀,其三是直接口試的標準化問題(6)Schohamy E.et al.Introducing a new comprehensive test of oral proficiency [J].ELT Journal,1986,40(3).。
90年代,受基于任務的外語教學的影響,基于任務的語言測試方式開始占據主流地位。任務教學法是交際教學法的擴展和延伸,特別強調學習的社會性。基于任務的語言教學吸收了二語習得研究的成果,也繼承了部分交際教學法的思想。這種教學方式能更快更有效地提高學生綜合運用語言的能力,在教學中得到廣泛的應用。這種測試不考核應試者對語言知識的掌握程度,也不對其語言水平評定等級,而是考慮他們是否使用語言完成目標任務,代表了語言測試新的發展方向(7)韓寶成.語言測試的新進展:基于任務的語言測試[J].外語教學與研究,2003,(5).。其中影響最大的是《歐洲語言共同參考框架》。《歐洲語言共同參考框架》是歐洲理事會制定的關于語言教學、學習及評估的整體指導方針與行動綱領。
傳統的語言測試多以檢測知識掌握情況為主要目的,《歐洲語言共同參考框架》明確指出以評定交際能力作為主要目的和形式,是語言評估歷史上的重大變革(8)白樂桑,張麗.《歐洲語言共同參考框架》新理念對漢語教學的啟示與推動——處于抉擇關頭的漢語教學[J].世界漢語教學,2008,(3).。《框架》以行動為導向,在綜合前人測試研究的基礎上增加了任務復雜度的分級,設置了口語互動的分級標準,把口語互動分為三大類六個小類的等級(分A、B、C三大類,又細分為A1基礎級、A2初級、B1中級、B2中高級、C1高級、C2精通級六個小類)。《框架》提出的交際語言能力包括語言能力、社會語言能力和語用能力三部分。每個部分又由知識、技能和應變構成。
韓寶成指出,基于任務的語言測試必須解決兩個問題。第一是如何精確地確定、選擇和描繪現實中的任務;第二是如何解釋測試中使用的任務和現實中的任務之間的相關關系。這兩個問題影響到測試的準確性和根據測試所做推論的有效性。我們認為,還有第三個問題必須解決,即是對任務復雜程度的區分。任務復雜度的概念基于這樣一個假設,即復雜的概念要求使用復雜的句法結構。因此任務復雜度可以反映概念的復雜度。但實際上“復雜”是個相對概念,針對不同的個體可能是不同的復雜度。羅少茜也指出,學生由于家庭社區和社會文化背景的不同,對同一個任務會有不同的解釋。任務難度產生的原因并不局限于語言知識和認知水平,還有社會文化的差異(9)羅少茜.影響任務型語言教學中任務難度的社會文化因素[J].中國外語教育(季刊),2010,(2).。
怎樣確定任務的復雜度則是個難題,如《框架》中A1水平的任務為日常生活和個人細節的表達,C1水平為能夠在社交、學術及專業領域自我表達,也就是說默認C1的任務在復雜度上強過A1的復雜度。但實際上,這樣的假定并沒有明確的判斷標準,是存疑的。現實中,我們經常看到某些人能對感興趣的學術領域進行表達,但對日常生活的互動卻不甚成功的現象。這說明很可能主要是語言知識影響了交際的成功,因此任務復雜度并不是適當的評價交際能力的標準。
劍橋商務英語考試(Business English Certificate 簡稱BEC)口試也具有一定的代表性。BEC口試大體分兩個階段,第一階段為真實場景下面試官就日常問題詢問考生,與考生互動。第二階段讓考試就某一議題展開討論。這種形式交際目的明確,交互性強,是典型的交際活動。BEC口試評分圍繞語法與詞匯、語音語調、話語運用和互動交際四個要素進行,前兩個是對語言能力的評價,后兩個是對語言的交際特點和技巧的評價(10)李傳芳.從話語運用和交際策略談口語交際能力——BEC交際口語測試淺析[J].外語教學,2003,(1).。
國內的外語口語測試起步較晚,是隨著經濟的發展和對外交流的增多才被提到議事日程上來的(11)徐海銘 謝忠明.我國英語專業口語測試現狀的理論分析[J].南京師大學報(社會科學版),2006,(2).。目前針對英語的口語測試影響最大的有大學四、六級口試(12)文秋芳.英語口語測試與教學[M].上海:上海外語教育出版社,1999.。四六級考試要求考生參與不同形式的口頭交際,考官參與到口語交際之中,其語言能力將根據其在考試中的表現予以測量。四六級口試采用四個等級(A、B、C、D)的劃分形式,A級最高,D級最低。等級描述上也采用任務復雜度進行區分。在評分上看重的指標包括準確性、語言范圍、話語長度、連貫性、靈活性和適切性,可以看出,重點還是偏重語言知識。
目前已經進行大學英語大規模錄音口語測試的實驗和計算機口語測試的實驗。也就是說,形式上除了傳統的人際對話,還出現了機助測試的新形式。但是,也有學者對這種新形式提出質疑,如錄音口試很難讓被試表現其口語能力,難以產生口語交際性和互動性的感覺(13)文渤燕.大學英語口語測試探討[J].外語界,2003,(3).。而且,新形式的發展并沒有改變傳統的問題。
與四六級考試不同,大學英語專業四、八級考試采用常模評分法,等級或者分數表示的是考生在隨機組里的排名,而不是實際的交際能力水平的反映,因此違背了測試的目的(14)徐海銘,謝忠明.我國英語專業口語測試現狀的理論分析[J].南京師大學報(社會科學版),2006,(2).。另外,外語的測試有托福和雅思等。
總體來看,基于任務的測試多為整體測試,也有學者嘗試從分項的角度來評定口語水平。如劉頌浩等探討了從交際策略評定口語水平的可行性(15)劉頌浩,錢旭菁,汪燕.交際策略與口語測試[J].世界漢語教學,2002,(2).。交際策略的特點是針對某一問題的,是有意識的。交際策略分為兩種,一種是減縮策略,一種是成就策略。一般來說,語言水平有限的學習者會優先使用減縮策略或者以母語為基礎的策略,而高水平的學習者則傾向于使用以目的語為基礎的策略(16)Ellis,R.Communicative strategies and the evaluation of communicative performance[J].ELT Journal,1984,38(1):39~44.。采用圖片描述任務來比較信息點上的表現差異,這是一個不錯的嘗試角度,但是圖片描述屬于單向的輸出,與互動的關系不大。分項指標對于單項能力的分級是有意義的,但是能否代表整體口語能力的情況是存疑的,因為個體之間在不同的能力方面可能會存在較大差異,由單一指標斷定整體口語能力分級的做法可能存在差錯。
總體來看,目前的口語測試主要還是側重語言知識方面,要全方位考察學習者的口語能力,必須開發包含非言語交際行為維度的評分量表。值得關注的是,潘鳴威開始探討如何在口語測試中對非言語交際行為進行評價,開發相關的評分量表并進行效度驗證(17)潘鳴威.多模態視角下的口語交際能力:重構與探究[D].上海外國語大學博士學位論文,2011.,具有一定的開創意義。將目光交流、手勢、頭部動作作為主要考察對象,探究非言語交際行為和策略能力之間的關系,把非言語交際嵌入到口語測試體系當中。
評分方法對于口語測試這種主觀性考試十分重要。如果評分方法不能做到科學、客觀和具有可操作性,就很難保證考試的信度和效度。
口語測試的評分通常有三種方式,一種是分析法,也叫作分解評分,一種是綜合法,也叫作整體評分。第三種是任務分項評分。
分析法是指把口語分解為語法、詞匯、內容、語音語調、流利程度、準確度等若干要素,評分人員根據一定標準對各要素分別評分,各要素得分的總和即為總分。分析法注重各個組成要素,相對客觀,信度較高。
綜合法是評分人員憑總體印象給考生打分。一般認為,綜合法從整體上把握考生的口語表現,效度比較高。雖然在操作上簡單易行,不過對評分員的要求較高。也有學者如Oller認為綜合評分在等級劃分上主觀隨意性較大,評分信度難以保證(18)Oller,J.W.Language tests at school [M].London:Longman,1979.。
早期結構主義的口語測試多為分析法,后期多為綜合法。這是伴隨著對口語評價的認識改變而產生的變化,口語評價不完全是看語音、語法等語言知識,而是要看交際效果和交際效率。一些大規模口語測試后來都采用分析法和綜合法相結合的方法來評分,既可以保持總體評分的效度,也可以兼顧分項評分的信度。如劍橋大學考試委員會的口語測試有兩位評分人員獨立評分,一名負責總體印象分,另一名負責用分析法評分,考官之間不相互商議,這樣可以增加評分的客觀性。
第三種評分方法為任務分項評分,就是考生對每項口試任務的完成情況分別評分,然后根據每個任務得分的情況算出口試總分。
呂長、宋冰等人對三種評分標準進行對比研究發現,三種評分標準在結果上沒有實質性區別。分解評分標準是經過嚴格訓練的授權考官使用效度和信度最高的標準,整體評分是經過初步培訓的非授權考官使用效度和信度最佳的標準。三種評分方式共同存在的問題在于標準的主觀性。分數的把握主要靠考官的個人判斷,缺乏客觀的量化標準(19)呂長,宋冰,王焰,等.口語測試評分標準比較研究[J].外語教學與研究,2008,(6).。例如英語四級考試的標準描述中關于語言準確性的描述,4分為“語法和詞匯有一些錯誤,但未嚴重影響交際”,3分為“語法和詞匯有錯誤,且有時會影響交際”。在具體評分時,怎樣把握何為“有一些錯誤”,何為“有錯誤”,何為“未嚴重影響交際”,何為“有時會影響交際”,這都要靠評分者自己判斷,帶有極大的主觀性。
針對這種情況,張文忠、郭晶晶提出了“模糊評分”的概念,將模糊數學的原理應用于口語測試的評分實踐(20)張文忠,郭晶晶.模糊評分:外語口語測試評分新思路[J].現代外語,2002,(1).,有一定的科學性和可行性。這是一個有趣的嘗試,有助于評分方式的改進。
值得指出的是,傳統的語言評估以“找錯”為主要形式,以檢測知識掌握情況為主要目的,《框架》對語言能力的描述使用了積極正面的描述詞匯,如“能夠……可以……”等,是對學習者語言能力的正面肯定,是對傳統糾錯評估的徹底變革(21)白樂桑,張麗.《歐洲語言共同參考框架》新理念對漢語教學的啟示與推動——處于抉擇關頭的漢語教學[J].世界漢語教學,2008,(3).。另外提出培養學生自我評估意識的重要。
針對漢語的口語測試主要有兩種,一種是針對母語者的口語測試,一種是針對漢語學習者的口語測試。
針對母語者的口語測試主要代表是普通話水平測試和漢語能力測試。普通話水平測試(Putonghua Shuiping Ceshi,簡稱PSC)是由國家語言文字工作委員會、國家教育委員會和廣播電影電視部三部委于1994年10月發布的一項語言考試制度。其目的是測查應試人的普通話規范程度和熟練程度,以認定其普通話水平等級,屬于標準參照性考試。
普通話水平測試的設計有幾個前提:第一,應試人的母語(第一語言)是漢語;第二,應試人一般通曉漢語書面語;第三,應試人不僅能聽、會說普通話,而且他們所從事的職業要求他們必須能說標準的或比較標準的普通話。母語者由于已經通曉了漢語書面語,跟第二語言學習者在各個方面都不同。因此,普通話水平測試與學習、掌握第二語言的測試有所不同(22)劉照雄.推廣普通話的重要舉措——普通話水平測試簡論[J].語言文字應用,1994,(4).。
普通話水平測試的內容包括語音、詞匯和語法,測試對詞語的聽辨、理解和語言的組織能力。在等級劃分上,普通話水平分為三個級別,每個級別內又劃分為兩個等次。(23)國家語言文字工作委員會普通話培訓測試中心編制.普通話水平測試實施綱要[M].北京:商務印書館,2004.可以看出,受結構主義測試學的影響,普通話水平的測試主要是語言知識,特別注重語音方面,基本沒有考慮非語言層面的使用情況,與口語互動有關的指標幾乎都沒有涉及。但是,普通話水平測試針對母語者的一些測試思路可以提供借鑒,如在語言運用中對語言能力進行考查。
與母語者口語有關的另一個測試是新興的,由教育部、國家語言文字工作委員會推出,教育部考試中心實施的漢語能力測試(HANYU NENGLI CESHI,簡稱HNC),這是中國首個以漢語綜合應用能力測試冠名的項目。這項考試主要針對國民,該測試強調鑒定參測者的漢語綜合應用能力,以達到幫助應試者了解并提高自己的漢語應用能力,為相關用人機構了解員工的漢語水平提供參照,為各級各類教育機構開展漢語教育和培訓提供參考的作用。
漢語能力測試是第一個全面考查聽、說、讀、寫能力的漢語母語語言評價系統。測試可以分為口語理解、書面語理解、書面語表達和口語表達四個項目,分別從聽、說、讀、寫四個方面考查參測者的漢語應用能力。測試將成績從低到高設為六個等級,分別為入門級、基礎級、普及級、通用級、提高級、專業級。但是,這種測試也存在明顯的不足,如依舊采用分項的測試,在口語的測試上采用的是獨白形式,缺乏人際互動的形式等,因此總體上還是重在語言知識方面。該測試的亮點在對能力要求的描述上,使用的是基于任務的綜合標準,與《框架》的描述形式接近。漢語能力測試盡管有很強的模仿痕跡,但其主張的綜合能力測試代表著最新的測試方向。
針對漢語學習者的測試,其代表性測試是中國漢語水平考試(簡稱HSK)。HSK是為測試母語非漢語者(包括外國人、華僑和中國少數民族考生)的漢語水平而設立的一項國際漢語能力準化考試,2009年推出了新HSK。新HSK分為筆試和口試兩部分。筆試分為六級,包括HSK(一級)、HSK(二級)、HSK(三級)、HSK(四級)、HSK(五級)和HSK(六級),與《歐洲語言共同參考框架》的分級形成對應關系。口試包括HSK(初級)、HSK(中級)和HSK(高級)三個級別,口試采用錄音形式。在題型設計上避免考查語言知識、應試能力,目的是以考試成績反映考生實際漢語交際能力(24)羅民,張晉軍,謝歐航,等.新漢語水平考試(HSK)海外實施報告[J].中國考試,2011,(4).。近年來,有學者提出把海外華人華僑從新HSK的目標群體中獨立出來的建議(25)王漢衛.華文水平測試的設計與初步驗證[J].世界漢語教學,2018,(4).。
但實際上,這些測試對漢語交際能力的考察是有限的,并且具有很大的主觀性。例如,HSK對口語的考試內容是聽力部分。評分標準雖有一些規定,但評分標準多是非客觀的,大多是主觀性的論述。如HSK口試5級的標準“內容充實,能用語音語調較純正的普通話得體流利地表達思想。詞匯豐富,使用恰當,能比較形象生動地描述事物,語氣自然……”其中“充實、較純正、得體流利、豐富、恰當、形象生動、自然”等修飾語的判斷都缺乏可操作性。因此,基本上仍是以總體印象評價為主,帶有極大的主觀性,而且對非語言特征基本沒有涉及。
另一個具有代表性的測試是漢語口語水平測試(HANYU KOUYU SHUIPING CESHI,縮寫為HKC),這是由中華人民共和國教育部、國家語言文字委員會組織實施的一項語言類標準化水平測試。測試對象為母語非漢語人群及華人華裔。測試方式為計算機輔助人工測試。測試內容以考查應試人漢語口語交際的語音水平、理解水平、表達水平為主,涉及漢語口語語音、詞匯、語法等。此測試把漢語口語水平分為三等九級(初、中、高三等,每等分為三級:初等一、二、三級,中等四、五、六級,高等七、八、九級)。分級標準上也是以任務復雜程度作為分級的基本依據,同時增加了對語音、詞匯和語法使用情況的描述。
總之,與英語的口語測試存在的問題相似,漢語的口語測試同樣存在側重語言知識,對非言語行為缺少關注的問題。因此,很難達到對交際能力的測試目標。
任務復雜程度的預測是任務型語言測試的重要研究課題,也是難點問題。任務的難度判斷大多是經驗性的,如何評估還處于探索階段(26)楊莉芳.近二十年口語測試研究中存在的主要問題[J].外語教學,2006,(1).。我們知道,直覺是不盡可靠的,對任務難度的認知因任務不同和考生特點而異,這些特點之間的交互關系尚不清楚,且有很大的主觀性。因此,基于任務復雜度的測試不能反映學生真實的能力水平,基于測試結果所做的選擇會影響到教育和學習的公平性。目前來看,對基于任務復雜度的分級有兩個可能的改進角度:
第一,會話分析指標的角度
王躍龍指出,任務復雜程度屬于語言外部的觀察,而且缺乏明確的評判標準。既然是口語互動的分級,必須從口語互動本身出發。如果僅靠任務復雜程度而缺乏語言內部結構的分析,并非一個完善的標準。因此,需要引入會話分析的內部指標來分析互動。外部與內部標準相結合,才是合理的口語互動分級原則(27)Wang Yuelong.The Construction Scheme of a Graded Spoken Interaction Corpus for Mandarin Chinese [C].LNAI10085,Springer,2016.。會話分析是用來分析會話內部結構的一套方法,用有序結構(sequences)、話輪交接(turn-taking)、相鄰對(adjacency pair)和糾正(repair)等術語描寫會話的結構,發現會話中的互動特點。既包括語言特征,也包括非語言特征,能從較細的顆粒度上描寫互動的過程。
第二,完成任務量的角度
鑒于任務復雜度的主觀性,另一個可以考慮的分級角度則是完成任務的數量。如果一個人能夠完成更多類型的任務,就可以說他的口語互動能力較高。如果把任務復雜度看成是對任務在質方面的分類,那么完成任務的數量則是量方面的分類。
另外,口語交際能力的培養不只是第二語言學習者關注的內容,也是母語者需要關注的。目前漢語口語互動能力的培養在中小學中已經引起重視,并且有一些相關教材的出版和研究文章的發表。如李明潔區分了日常口語與進入教學的口語交際之間的區別,認為進入教學的口語交際內容具有全面性、反思性和思辨性的特點(28)李明潔.進入教學的口語交際及其特點[J].語文建設,2005,(8).。但總體上來看,發表論文的刊物級別普遍不高,說明研究不夠深入,關注程度不夠。對基本問題如關于口語交際能力教學包括哪些方面尚無定論。相應地,口語互動能力的測試標準也缺失,針對母語者的口語互動能力測試缺乏科學性和系統性,教學上處于教師自發地、分散地隨意組織的狀態,因此,測試的效度和信度都不理想。這是當前亟待解決的問題。
隨著母語教學中對口語的重視,明確口語互動不同階段的區別,具有重要的意義。這樣的研究可以反映口語互動的發展過程,對于提高母語教學的針對性,提高學生口語互動能力,具有重要意義。