許津彰, 馬思宇
(1.北京師范大學 漢語文化學院,北京 100875;2.首都師范大學 國際文化學院,100089)
中文教育要走向國際化,前提是與其他語言在同一個平臺上發展。漢語口語測試,作為一種外語測試,要躋身國際語言測試之林,就不能不關注國際上外語測試發展的動態與趨勢。隨著交際能力培養目標逐漸成為世界各國語言教育的主要目標,口語測試也逐漸由僅僅測量語言知識和技能,轉向測量交際時運用語言知識和技能的能力,將涉及交際的各種因素綜合成一個整體來加以測量(1)Widdowson,H.G.Teaching Language As Communication:Oxford:Oxford University Press,1978.,進而更加關注交際表達的可理解性。近十年,漢語作為外語教育走進越來越多國家的國民教育體系,學習者低齡化日益明顯,漢語逐漸從大學走進高中、初中、小學,甚至幼兒園(2)李宇明.海外漢語學習者低齡化的思考[J].世界漢語教學,2018,(3).。那么,在中小學的外語教育中,漢語作為外語的測試,特別是口語測試的取向是什么?這是本文所關注的。
IBDP(International Baccalaureate Diploma Programme)是國際文憑組織(International Baccalaureate Organization,簡稱IBO)針對高中學生所設置的一種大學預科教育課程,涉及不同學科,也包括漢語作為外語的課程與測試。IB課程(International Baccalaureate)近年來已經成為歐洲、大洋洲等不少國家在中小學致力開發的課程,一定程度上已經對亞洲一些國家產生影響,因此,IBDP測試評價體系也在對各國國民教育中的外語測試取向產生著不同程度的影響。這也是值得國際中文教育關注的。
英國自21世紀以來,逐漸將漢語納入基礎教育中的現代外語課程(Modern Foreign Language)。2005年,全英開設中文課程的中學只占7~8%,到2016年的10年間這一比例上升到了13%(3)http://bacsuk.org.uk/chinese-in-uk-schools,增長近1倍。(許津彰、王琛等,2021(4)許津彰,王琛,宋繼華,等.英語母語者漢語口語語料的采集分析與語料庫構建[J].云南師范大學學報(對外漢語教學與研究版),2021,(1).)不少在高中階段修學漢語課程的學生,實際上早在初中甚至高小就已經開始學習漢語,本文所研究的學習人群即屬于這種情況。那么,經過5~6年中學漢語課程的學習,這些學生的漢語口語水平如何?也是本文所關注的。
本文收集了英國Dartford Grammar School高中生在IBDP初級中文口語測試(5)IBDP初級中文口語測試屬于IBDP初級語言測試的一種。中的語料及其對應的考官評價和測試成績,通過語料抽樣分析、語料與成績對應分析,對照IBDP初級中文口語衡量標準,以期通過對口語測試真實語料的分析,探究交際能力培養目標推動下漢語口語測試的取向問題。
本文研究語料全部來自英國Dartford Grammar School高中13年級的46名學生。由英國本土考官對這46名學生IBDP口試錄音備份,共計46段錄音,每段錄音時長10分鐘左右,總時長409.05分鐘。經過本文作者對錄音文件的轉寫與標注,獲得口語語料文本共計65568字。
為了向讀者展示IBDP口語測試實際過程,細致分析語料內容與被試口語測試成績的對應關系,探究口語評估的衡量權重,本文采用抽樣的方法對46段口語測試語料進行分析。
本文采用隨機與分層相結合的方式,將46名考生的姓名替換成1~46的數字編號,并制作號簽,匹配分數,使之均勻分布。
在分析標注全部語料的基礎上,結合考官評分,本文從高頻分數、最高分數和最低分數中各抽取1名考生的語料進行對照分析,再對高頻分數樣本的語料進行語言要素的個案分析。口語測試滿分為30分,46名考生成績最高的為滿分30分,有3人獲得滿分;最低的為15分,僅1人。從得分頻次看,24、25、26、27分是高分段,46人中有29人處在這4個分數段,其中獲得26分的有9人。成績分布如圖(圖1)所示:

圖1 Dartford Grammar School 高中生IBDP口語測試成績分布圖
通過分層與隨機抽樣的方式,本文從高頻分數(26分)中抽取7號,從最高分(30分)中抽取33號,從最低分(15分)中抽取27號,對這3份語料進行重點分析。
此處采用通用的評價指標,以便對照IBDP口語測試的評價取向,并由此觀察IBDP口語測試體系與學術界、語言教學界通用的測評體系之間的差異。在關注口語流利方面,測量指標較為普遍接受的有3類,分別為“時間性指標”“準確性指標”和“表述性指標”。Lennon列出了12項可量化指標,最能說明流利性的有語速、停頓次數等(6)Paul Lennon.Investigating Fluency in EFL:A Quantitative Approach*[J].Language Learning,1990,(3).。Towell 等采用了語速、發音時間比等4項指標(7)R.TOWELL and R.HAWKINS and N.BAZERGUI.The Development of Fluency in Advanced Learners of French[J].Applied Linguistics,1996,(1).。郭修敏在口語流利性的量化研究中確定了時間性、準確性和表述性三大類共11項指標(8)郭修敏.漢語作為第二語言的口語流利性量化測評[J].湘潭師范學院學報(社會科學版),2007,(4).。結合本研究目的,我們在3類指標下選定了6項,以測評樣本在表達連貫性和準確性方面的程度。如下所示:
指標1 語速:音節總數/總時間*60s
指標2 發音時間比:發音時間/總時間
指標3 發音模糊:詞語無法通過發音聽辨,需結合語境推測意思(單位:處)
指標4 非正常停頓:在交流中可從聽覺上分辨的非正常停頓(單位:處)
指標5 詞匯量:發音全程中,不計重復的詞匯量/詞匯總量
指標6 語法偏誤:不符合漢語表達規范的詞句(單位:處)
本文使用WavePad音頻編輯軟件處理錄音樣本,以人工轉寫文本為依據計算音節總數,統計考試錄音時長、發音時間,計算語速和發音時間比。根據波紋曲線變化和聲音強度(單位:dB)測算考生在考試過程中的沉默時間,從而反向計算出發音時間比(如圖2)。

圖2 WavePad統計測算界面
本研究同時借助教育部語言文字應用研究所搭建的“語料庫在線”(9)教育部語言文字應用研究所計算語言學研究室.語料庫在線:[DB/OL]http://corpus.zhonghuayuwen.org,2019-09-29.平臺對語料進行了詞匯量和詞頻的計算與分析。對于發音模糊、非正常停頓和語法偏誤則主要通過人工標注統計。
根據選定的6項指標,我們對3份典型樣本(7號、33號、27號)分別進行了測算統計。結果見表1:

表1 典型樣本各項指標數據統計
從表1可見,33號樣本(最高分)在相近時段內產出音節總數更多,語速更快,發音時間比更高,詞匯量更大;7號樣本(高頻分數代表)次之;27號樣本(最低分)沉默時間更長,發音時間比低,詞匯量相對少。語速、發音時間比、詞匯量與分數呈正相關。不過,高分樣本發音模糊不清的總次數是多于另外兩個樣本的,出現的語法偏誤也相對更多,但得分卻是滿分。這表明考官并沒有因為這兩個問題而扣減任何分數,該考生的口試成績并未因本文測量到的不滿足指標3和指標6而受到顯著影響。這個現象不能不引起我們的關注。
對比以上3個樣本,滿分樣本總體上是突出的,不但優于低分樣本,也優于高頻樣本。這說明前人既定的評價指標的有效性。但是也出現了意外,即滿分樣本在指標3和指標6表現并不完美,更重要的是最終成績卻并沒有受到影響。因此我們就得出兩個假設。假設1:假設滿分樣本是個例外,其發音模糊與語法偏誤的問題被考官忽略了;假設2:假設滿分樣本是新的測評理念的產物,即考官基于口語表達的交際性和可理解性有意忽略了這兩處本該扣分的地方。為驗證假設,我們需要對高頻分數樣本做一個個案分析,以及高頻分數段與低頻分數段的群案對照分析。
基于語音撰寫的文本,此處在前文6個指標的基礎上討論分析兩個指標不完美的問題。
關于高頻分數個案的文本分析,我們主要基于7號考生的轉錄文本,重點分析該考生指標3與指標6的問題。
首先,在指標3發音模糊方面,7號考生在口語測試中有5處發音模糊的情況,已無法僅從語音聽辨其所使用的詞語。我們運用語篇理論一一分析,看是否能夠通過上下文語境實現理解,舉例分析如下:
①照片的中面有henzi(孩子)。
結合考生所描述圖片中學習漢語的場景,可以判斷考生所說的henzi有可能在指稱圖中的幾名學生。
②我認為學中文非常難。雖然很難,但是我覺得學中文有意思又siji(刺激),因為中國有很長的歷史。
“有意思又刺激”是考生課程學習內容中出現過的一項固定搭配,結合上文,可以推斷為學習漢語既有趣味,又有挑戰。再結合整個文段的前半部“我認為學中文非常難。雖然很難,但是……”所以此處的“siji”可以推測為“刺激”的不準確發音。
類似情況共4處,可通過上下文判斷意思。但第5處難以確認,只能用拼音字母將考生的發音模擬出來。如下:
③我將來xueshang喜歡看中國,因為中國有很多很好的文化。
從語法結構和整句意思來看,難以推斷考生7所說的“xueshang”所指為何。不過,整句意義并未因為這個詞語的不清晰受到很大的影響。可以說,考生7的幾處發音模糊的地方,基本上都可以結合上下文語境來推測意思,對理解的影響不大,這可能是考官給分的基礎。
其次,在指標6語法偏誤對理解的影響方面,我們集中分析兩個問題:一是詞匯的話題分布,主要考查詞匯使用的豐富度與復雜度;二是句法結構使用情況。
在詞匯方面,7號考生在10分鐘的口語測試中使用詞語共計573個,共使用165個不同詞語。在詞義覆蓋話題的廣度上,涉及日常生活交際諸多方面,如家人、興趣愛好、學習、旅行等,圖3為7號考生詞匯的話題分布情況:

圖3 7號考生詞匯的話題分布情況
根據《歐洲語言共同參考框架》口語能力量表對中級B1(Threshold)水平在廣度上的界定:“掌握足夠的語言手段和詞匯量,能談論家庭、休閑、興趣愛好、工作、旅游和時事等話題,但表達時有遲疑或用迂回法”(10)歐洲理事會文化合作教育委員會.歐洲語言共同參考框架:學習、教學、評估[M].劉駿,傅榮,等,譯.北京:外語教學與研究出版社,2008:28~29.,可以看到,7號考生話題分布廣度是符合要求的,表達中詞匯發音偶有不準確的地方,但能夠結合語境判斷出所表達的意思,可以將其漢語詞匯的豐富度判定為接近中級B1水平。
在句法結構上,7號考生在測試全程中使用了約37個自然句,其中單句22例,復句15例,涉及9類主要句型,還使用了其他一些漢語中的固定搭配,句型使用的類型比較集中。語法掌握尚好,使用中的偏誤主要受母語影響,但基本意思清楚,能夠比較正確地表達。
從7號考生的語料文本分析可見,語言越豐富,相應偏誤也會增多。如果偏誤不導致理解上的問題,在交際中可以被忽略。相對于語言偏誤等指標,測試時的交際方(考官)更加重視交際中的信息溝通的可理解性,在口語交際可理解的情況下,偏誤的重要性被大大降低了。這應當就是IBDP口語測試體現的新理念。
7號考生的個案分析表明,語音和語法偏誤在不影響交際理解的前提下,并未對考生的成績產生顯著影響。為了驗證這一現象是否僅為個別現象,我們有必要對多個高頻分數樣本的轉錄文本進行群案分析。我們在高頻分數樣本中,選取了“高分段”(27分)和“低分段”(24分)兩個部分共12名考生,選定指標3和指標6,針對考生的發音模糊和語法偏誤的情況進行了統計,結果如表2所示:

表2 高頻分數考生指標3、指標6統計(11) 高分段和低分段考生在指標1、2、4、5沒有顯著差異。
分析表中統計數據,我們可以發現這樣幾個問題:一是高分段和低分段考生總體都存在發音模糊和語法偏誤較多的現象;二是高分段考生的語法偏誤數量(112處)總體上多于低分段考生(73處);三是高分段考生的音節總數普遍多于低分段考生,這表明高分段考生的表達內容更加豐富;四是音節總數越多的考生,出現發音模糊和語法偏誤的地方也更多。
結合高頻分數樣本關于指標3和指標6的統計數據,并對照前面7號考生的個案分析,可見發音模糊和語法偏誤較多的現象不僅存在于高分考生(7號)的口語中,也表現在更多高頻分數考生口語中,并非個別現象。盡管音節總數越多,語音和語法偏誤也會增多,但考官并未因此而降低考生分數。
既然語音和語法偏誤對考生的口語成績評定并未造成顯著的影響,那么IBDP口語測試評分的取向究竟是什么,我們還要結合IBDP口語評估的原則與方法進一步討論。
作為一門語言課程,《IBDP初級語言課程指南》將該指南的制定目標定在“專門為以前從未接觸過,或僅稍微接觸過所學語言的學生設計的”(12)International Baccalaureate.Diploma Programme Language ab initio guide (First Assessment 2020).International Baccalaureate Organization,2018.。參照《歐洲語言共同參考框架》對語言能力的分級和描述(13)歐洲理事會文化合作教育委員會.歐洲語言共同參考框架:學習、教學、評估[M].劉駿,傅榮,等,譯.北京:外語教學與研究出版社,2008:23~24.(如圖4),IBDP初級中文課程培養目標相當于A2(Waystage)水平。

圖4 《歐框》語言能力分級樹形圖
在評估參照方面,IBDP初級語言評估同樣采用的方法是標準參照評估法,也就是依據已經確認的成績水平標準對考生的考試作答表現進行評判,不采用對比參照評估法,故一名考生的成績與其他考生的考試表現沒有關系。測評的目的是考查學生運用所學語言進行理解和交流,并展開互動的能力,主要評估學生以下幾方面的能力水平:
(1)在一系列情景中,出于各種各樣的目的清晰而有效地溝通交流。
(2)面對各種不同的人際和/或跨文化情境和受眾,理解和應用適當的語言。
(3)理解并運用語言流利、準確地表達和回應各種不同的思想觀點。
(4)針對一系列主題,識別、組織和表達各種思想觀點。
(5)在表達和對話情境中進行理解、分析和反思。
為了有效檢測以上幾個方面能力水平,IBDP口語測試設置了3項評估指標,分別是A語言、B訊息和C互動交流,其中B訊息根據圖片描述任務和對話分成了B1和B2兩個子項指標。如圖5和表3所示:

圖5 IBDP初級語言口語評估指標

表3 IBDP初級語言口語評分分檔描述
從圖5可見,在3項4檔的評估標準中,語言只占其一,只是基準,另外3檔均與語言的交流與表達關聯,高于語言標準。
分析表3,我們會進一步發現幾個關鍵詞,標準A的關鍵詞是“掌握所學語言”,標準B1的關鍵詞是“與圖片內容關聯”,標準B2的關鍵詞可以提煉為“回答與問題相關并涉及細節”,標準C的關鍵詞是“理解并互動交流”。這些關鍵詞組成了IBDP評估標準的階梯:第一階,掌握目的語;第二階,根據圖片提示談論相關話題;第三階,答為所問,而不是答非所問;第四階,能在理解的前提下主動交流。
根據對IBDP評估標準的解讀,我們回溯一下考官的給分點。
為了探求考官在評價考生口語表現時的給分點,本研究對同組考生的各項評價指標得分、考官評語以及考生的口語輸出內容進行了對應分析。按照IBDP口語測評的指標,抽取了考官對考生的評語,分析其給分點及給分差異。
(1)標準A的給分點(滿分12分)
表4抽取了考官對考生1和考生4在標準A方面的考評:

表4 標準A考官評語示例
評語表明,考官關注的是考生的整體語言表現,即從語言知識層面看考生多大程度上掌握了漢語口語,特別關注考生口語表達時詞匯、語法的豐富性和準確度,同時也會考慮發音、語法等失誤對整體溝通交流的影響程度。
(2)標準B1的給分點(滿分6分)
表5抽取了考官對考生2和考生6在標準B1方面的考評:

表5 標準B1考官評語
可以看出,考官從訊息角度對考生的圖片介紹進行評估,在評價考生口語表述與圖片內容關聯程度時,主要關注3個方面的表現,這也展示了考官的給分點:一是考生對圖片的認知理解,二是描述的細節和準確程度,三是是否與中國文化進行了連接。
(3)標準B2的給分點分析(滿分6分)
表6抽取了考官對考生6和考生4在標準B2方面的考評:

表6 標準B2考官評語示例
考官在標準B2關注評估考生表達內容在訊息上的關聯程度。不同于標準B1關注考生圖片介紹與圖片內容的關聯度,考官在標準B2關注的是考生的回答與問題的相關程度。主要集中在兩個方面:一是考生回答內容與問題的相關性,二是考生在回答時是否有所展開并給出細節。
(4)標準C的給分點分析(滿分6分)
表7抽取了考官對考生12、考生1和考生10在標準C方面的考評:

表7 標準C考官評語示例
從表7可知,考官在標準C的評分上,注重的是通過考生的表達看考生對考官提出的問題是否理解了,理解后進行應答的情況,以及在交流中是否只是被動接受提問,是否能夠主動地回問問題,與考官進行互動對話。從中我們可以提取出兩個給分點:一個是考生對問題的理解程度,這反映在考生的表述內容當中;一個是考生互動交流的主動性,這表現在考生是否主動地回問考官問題,以及就考官提出的問題探討的深度。
綜上,IBDP口語測試的考官在各標準下所給出分數其評分點分析如表8:

表8 IBDP口語測試主要評分點
可以看到,標準A是一個成績基準,這個基準涵蓋了過往口語測評的主要標準。從標準B1開始,測評標準邁上了第二個臺階,這就是基于詞匯、語法的豐富與準確,要求學習者知識面的廣博,考查語言表達中對細節的表述能力與對文化的關注程度。標準B2明顯是在考查使用目的語交談的能力,而標準C則是要考查主導交談的能力。四項標準形成不同的臺階,后3項明顯地在向語言交流中溝通能力的方面發展。
根據IBDP的評估原則與方法,結合前述分析可以發現:標準A屬于對考生語言整體掌握情況的考查;標準B1、B2和C則考查語言交流過程中的訊息傳遞、文化關聯、互動技能等交際層面。IBDP口語評分標準總體偏向交際層面。
從分數權重分析來看,IBDP口語測評總分30分,關于語言層面(標準A)的考查共計12分,交際層面(標準B1、B2、C)的考查共計18分,分數權重如圖6所示。從分數權重上看,IBDP口語測評更看重語言綜合運用和交際能力的評估,屬于交際語言測試。

圖6 IBDP口語測評分數權重
從表面上看,對語言層面的考查權重的壓縮,使得測試標準呈現出簡易化的趨勢,而從標準A到標準C階梯式的對溝通能力的要求提升可以看到,測試的標準不是下降而是上升了,這是一個值得我們關注的測試取向。
這種口語測試取向與此前國際漢語教學領域主流的基于心理測量-結構主義語言測試模式的分項測試有著顯著不同。后者以結構主義的語言觀和行為主義的語言學習觀為理論基礎(14)毛忠明,黃自然.口語測試理論與實踐[M].北京:中國書籍出版社,2013:3~6.,一般是對特定語言要素的掌握情況進行評估的測試,分別檢測學習者的某一類技能或某一項知識,例如詞語發音的準確性、語法結構使用的正確性、語言表達的流利性等。但對語言知識水平的測試僅僅面向考查學習者的正確性是不夠的,“交際能力不應只強調語言的正確性,還應強調在特定場景和語境下有效發揮語言功能的能力”。(15)Porter,D.Assessing communicative proficiency:the search for validity.In K.Johson& D.Porter (eds.).Perspectives in Communicative Language Teaching[C].London:Academic Press Inc.Led,1983:64~74.這就需要對學習者的交際能力進行綜合性的評估,即采用交際性測試的方式。
分項測試與綜合測試的二分、心理測量-結構主義語言測試模式與交際語言測試模式的差異,實質上反映了兩種不同的語言觀、語言能力觀。前者是結構主義的,把語言當成規則,認為語言能力取決于語言要素的掌握程度;后者是功能主義的,把語言視作資源,更重視語言知識的運用(use),而不是語言的用法(usage),進而在海姆斯語言能力的基礎上發展出了交際語言能力(communicative language ability ,CLA)模型(16)Bachman,L.F.Fundamental Consideration in Language Testing[M].Oxford:Oxford University Press,1998:84~87.。
分項測試在結構主義的影響下,曾一度占據了國內外口語測試的主流,如口語測試中常見的朗讀、復述、完成對話等就是分項測試的典型題型。在大規模的水平測試中,分項測試可以充分體現目的語水平評估的公平性和公正性。
然而,隨著中文教育在越來越多國家的國民教育體系中展開,分項測試會面臨著以下困難:首先,交際能力培養是目前多數國家中小學外語教學共同提倡的,因此,學生的目的語口語表達是否能實現交際目的,達成有效溝通成為目的語水平測評的首要條件;其次,中小學生往往是在發展母語的同時發展外語的,過于嚴格的語言知識測評或者技能測評往往會使學習者望而卻步;第三,在非漢語環境下,由于缺乏足夠的目的語輸入,學習者目的語口語的表達往往是碎片化的,難以用嚴整的知識分項去多維地衡量。
因而,以海外IBDP口語測試為代表反映出的交際能力取向,是一種新的測試理念,這種交際語言測試在英語等一些外語教育中已經踐行,但在漢語外語教學中尚未完全普及。我們認為,在交際能力培養目標逐漸成為世界各國語言教育的主要目標的外語教育時代共識的背景下,IBDP口語測試所采用的基于綜合性評價的交際語言測試模式對漢語測試的國際化推廣有重要的借鑒意義。進一步地,我們還要積極發揮口語測試對漢語教學的反撥作用,不僅推動漢語語言測試從“assessment of learning”向“assessment for learning”轉變,也以此為基礎,推動漢語國際教育走上以全面培養學習者交際能力為目標的道路上來。