朱麗紅
(教育部 語言文字應用研究所,北京 100010)
《普通話水平測試大綱》①教育部、國家語委發教語用[2003]2號文件。(以下簡稱“《大綱》”)規定:普通話水平測試的內容包括普通話語音、詞匯和語法,試卷包括5個組成部分,滿分為100分:讀單音節字、讀多音節詞語、選擇判斷、朗讀短文、命題說話。每個測試項分值不同,有各自不同的檢測目的(表1):

表1 普通話水平測試項目、分值及檢測目的
同時并說明:“各省、自治區、直轄市語言文字工作部門可以根據測試對象或本地區的實際情況,決定是否免測‘選擇判斷’測試項。”[1]
從各地區開展測試的實際情況看,除了內地個別省份、港澳臺地區及海外測試還保留“選擇判斷”測試項,其他地區都采取免測“選擇判斷”測試項的做法。可以說,不論是在區域上還是在測試人數上,免測“選擇判斷”測試項的四項測試都是主流。
“普通話水平測試不是一般的學術性的測試,不是可有可無的,而是關系到推普大業的一項測試”[2],《中華人民共和國國家通用語言文字法》對應當接受測試的人群有明確的規定,普通話水平測試的成績成為資格準入的條件。免測“選擇判斷”測試項,直接改變了測試項目和評分標準,這種變化對測試成績會產生怎樣的影響?《大綱》為什么允許“選擇判斷”測試項的免測與不免測并存?基于對母語的經驗性認識和判斷,免測“選擇判斷”測試項的大局早在普通話水平測試開始實施的階段就已經形成,而實證研究一直比較缺乏。
關于免測“選擇判斷”(不免測“選擇判斷”的下文稱“五項測試”,免測“選擇判斷”的下文稱“四項測試”)對應試人成績的影響,陶昱霖曾經做過一個小樣本研究。[3]這一研究選擇了28個樣本,測試員先后根據《大綱》五項測試的評分標準和某省《評分細則》評分,通過應試人成績的變化比較《大綱》的評分標準與某省的《評分細則》的差異。在這個小樣本研究中,使用的評分標準并不完全相同,測試員先后兩次評分也會存在差異,這些都是可以改進的地方。本研究擬擴大樣本量,以《大綱》的評分標準為唯一依據,同時避免測試員重復評分時主客觀條件變化帶來的影響,再進行統計分析。
限于語音樣本選擇條件,本研究隨機選取88位香港應試人參加電腦錄音測試的語音數據和評分數據進行分析。香港采用的是五項測試,本研究采用的方法是:先根據《大綱》五項測試的評分標準進行評分,語音數據不變、測試員不變、也不做重復評分,只是根據《大綱》對四項測試的評分標準調整評分,然后進行對比分析,借以觀察免測“選擇判斷”后應試人成績的變化情況。數據采用SPSS13.0統計工具進行統計。
《大綱》規定,如果免測“選擇判斷”項,單音節詞、多音節詞語、朗讀短文的分值和評分標準都不變,只是“命題說話”測試項的分值由原來的30分調整為40分。具體來說,原來賦予“選擇判斷”的10分重新分配給“命題說話”項的“語音標準程度”和“詞匯語法規范程度”兩個評分項,“語音標準程度的分值由20分調整為25分”,“詞匯語法規范程度的分值由5分調整為10分”。分值的調整存在以下規律(表2):

表2 免測“選擇判斷”后的分值調整
劉照雄先生曾預測,“免測‘選擇判斷’項相對提高了測試的難度。如果確定得不恰當,會在一定程度上影響測試的信度。”[4]應試人參加五項測試和四項測試最后分數的分布曲線的偏態系數和峰度系數都在±1之內,基本符合正態分布。五項測試的平均分為75.99分,四項測試的平均分為75.13分,五項測試比四項測試的平均分高0.86分。經配對樣本T檢驗,在95%置信度下,雙尾檢驗的顯著性為0.000,小于0.05,五項測試與四項測試的平均分存在顯著性差異,證明四項測試的難度確實大于五項測試。
同時,統計表明,五項測試與四項測試的分數的皮爾森相關系數(Pearson correlation)達到0.996,顯著性為0.000,五項測試與四項測試的分數存在顯著相關,證明四項測試與五項測試具有同樣的信度和效度水平。
免測“選擇判斷”后分數變化的三種情況分別為(表3):

表3 免測“選擇判斷”后分數的變化情況
考察發現,總分提高的樣本在“選擇判斷”測試項的平均失分為3.69分,而總分降低的68個樣本在“選擇判斷”測試項的平均失分為1.16分,相差明顯。如果不考慮語音失分,總分提高的應試人在“判斷”中的平均失分達到2.17分,遠遠高于0.9分的平均失分。取消“選擇判斷”項以后,雖然在“命題說話”中“語音標準程度”和“詞匯語法規范程度”的失分都會增加,但語音失分最多增加2分,詞匯語法失分最多增加1分,再加上“選擇判斷”項中的語音失分失而復得,這部分應試人的最后成績反而提高了。“選擇判斷”失分越多,免測“選擇判斷”項以后分數的補償作用越明顯,而那些在“選擇判斷”中本來失分很少或根本不失分的應試人只能眼睜睜地看著“命題說話”中的失分增加。
相對于分數,應試人更關注等級,因為行業準入標準一般是以等級來劃定的。統計顯示,五項測試與四項測試在等級上分布基本符合正態分布,等級分布的具體變化如下表(表4):

表4 免測“選擇判斷”后等級分布的變化情況
經統計,在95%置信度下,雙尾檢驗的差異顯著性為0.000,小于0.05,說明五項測試與四項測試的等級存在顯著性差異。五項測試與四項測試的等級的斯皮爾曼相關系數(Spearman correlation)達到0.915,顯著性水平為0.000,五項測試的等級與四項測試的等級顯著相關,證明從等級的角度看,五項測試與四項測試也具有同樣的信度和效度水平。
五項測試與四項測試的等級分布情況說明,雖然本研究語音樣本的地域來源比較單一,但測試等級分布也與全國的分布形勢大體相同,也就是“二級乙等數量最多,二級甲等和三級甲等數量其次,一級乙等和三級乙等再次,一級甲等和不入級最少”。[5]免測“選擇判斷”項以后,在等級分布上,一級乙等、二級乙等減少,主要向三級甲等集中,但二級乙等和三級甲等占主要的總趨勢沒有改變,也比較符合香港的實際情況。
免測“選擇判斷”后等級變化的三種情況分別為(表5):

表5 免測“選擇判斷”后等級變化的情況
數據表明,免測“選擇判斷”之后,測試項目、評分標準發生變化,幾乎100%的應試人分數都發生了變化,但仍然有82%的應試人可以維持在原來的等級,原來是三級水平的樣本都沒有發生等級變化。考察等級發生變化的16個樣本,發現應試人的分數有明顯的共性:不論是等級提高還是等級降低,這些分數都是某一等級的臨界分數(一般為±1分,不超過2分),等級變化之后的分數仍然屬于臨界分數。這主要是因為普通話水平測試的三級六等各有一定的分數范圍,等級越低,分數范圍越大,如果原來的分數處在邊緣地帶,調整以后很容易引起等級的變化。
我們一直認為“選擇判斷”項存在難度低、區分度也低。“選擇判斷”測試項平均失分1.6分,其中“語音”平均失分0.7分,只有4人沒有出現語音錯誤;②《大綱》規定在“選擇判斷”測試項中“答題時語音錯誤,每個錯誤音節扣0.1分;如判斷錯誤已經扣分,不重復扣分”。“判斷”平均失分0.9分,只有25人(28%)沒有出現判斷錯誤。除去語音因素,“判斷”的平均失分僅為0.8分。以得分率計算,“選擇判斷”測試項總體的難度系數為0.84,不考慮語音因素,則達到0.92,得分系數偏高,說明“選擇判斷”測試項試題的難度偏低。
在經典測試理論中,區分度常常以某測試項高分組與低分組平均分數的差異或某測試項的得分與測驗總分之間的相關程度來表示,差異越大或相關系數越高,試題的區分度越好。將應試人的“選擇判斷”成績進行分組統計,有23人在高分組,65人在低分組,高分組平均失分3.49分,低分組平均失分0.96分,采用獨立樣本T檢驗的結果為,在95%置信度下,雙尾檢驗的顯著性水平為0.000,差異非常顯著。同時,統計表明,“選擇判斷”與五項測試的總成績之間的相關系數為0.863,在99%置信度下的顯著性水平為0.000,相關性非常顯著,說明“選擇判斷”的區分度良好。數據同時也能證明“選擇判斷”在普通話水平測試中也有效度和信度上的價值和貢獻。但是,在“選擇判斷”測試項的失分中如果不考慮答題方式錯誤(比如照念題干和選項)有近50%來自語音失分,該測試項測查詞匯語法規范程度的效度要打一些折扣。除去語音因素,“判斷”與“命題說話”項中“詞匯語法”小項失分情況對照(表6):

表6 “判斷”與“命題說話”項中“詞匯語法”小項失分情況對照
“選擇判斷”中“判斷”與“命題說話”中的“詞匯語法規范程度”的相關系數僅為0.035,雙尾檢驗顯著性水平為0.749,大于0.05,沒有顯著性相關,不能簡單類推。
本研究中的應試人在有文字憑借的“選擇判斷”項中,有72%的應試人出現了判斷失誤,在無文字憑借的“命題說話”項中,78%的應試人出現了詞匯語法錯誤。“普通話的語序及表達方式,粵方言口語雖然不這么用,但應試者在學習書面語時已掌握,有一定的語感,在測試中基本都有正確的選擇”,但在實際的口語運用中還是不能運用自如。[6]
(1)由于五項測試與四項測試的分數和等級都存在統計學意義上的顯著差異,為保證普通話水平測試的公平性,應盡量避免五項測試與四項測試兩種測試模式同時存在。
(2)由于五項測試與四項測試在分數和等級上都存在統計學意義上的顯著相關,五項測試與四項測試具有同等的信度和效度水平,采取五項測試或四項測試都是可以接受的,從工作實際來看,四項測試被廣泛采用,也可以說四項測試是未來的發展趨勢。
(3)“選擇判斷”項對某些特定人群來說仍有一定的價值。香港地區的語言生活與內地不同,對多數香港應試人來說,這一項的保留在超考試效度層面能夠提醒應試人在普通話學習過程中詞匯語法規范程度仍是需要注意的問題。
(4)由于事實上目前五項測試與四項測試仍是并存的局面,考慮到影響的主要是臨界分數以及由此引起的等級的變化,應當加強對等級臨界分數的復審。
本研究在語音樣本的選擇及數量上存在一定的局限性,但對于免測“選擇判斷”項的研究有一定的啟發。鑒于普通話水平測試的測試量已達3 300余萬[7],是大規模國家級測試,本研究的樣本量仍然偏小,下一步的研究中可以考慮將樣本量擴大到1 000個以上,并考慮樣本地域分布、等級分布等相關因素。
“選擇判斷”測試的目的是測查應試人詞匯、語法的規范程度,它的存在直接體現了普通話水平測試的語言觀和語言測試觀——語音、詞匯、語法是普通話不可缺少的要素,也是普通話水平測試不可或缺的內容。免測“選擇判斷”項被廣泛采用和接受,與普通話水平測試的性質、應試人群以及“選擇判斷”測試項本身的試題形式有直接的關系。
“普通話水平測試主要考查應試人的語音規范程度,同時兼顧詞匯和語法等非語音要素。”[8]語音是語言的物質外殼,普通話水平測試是面向漢語母語人的口語測試,在方言與普通話的差異中,最容易感受到的是語音的差異,普通話水平測試以語音規范程度、標準程度為檢測重點是非常合理的。
從現階段主要的應試人群構成情況分析,按照有關法律和規定的要求,目前應接受測試的人員為:教師和申請教師資格的人員;廣播電臺、電視臺的播音員、節目主持人;影視話劇演員;國家機關工作人員;師范類專業、播音與主持藝術專業、影視話劇表演專業以及其他與口語表達密切相關專業的學生;行業主管部門規定的其他應該接受測試的人員。普通話既是學校母語教育的目的語,也是母語教育的工具,這些人群已接受比較系統的母語基礎教育,達到中等文化程度,在長期的書面語學習過程中已基本掌握普通話詞匯、語法,在從方言到普通話的轉變過程中,普通話水平的高低主要體現為語音規范程度和熟練程度的差異。
“選擇判斷”的試題形式為多項選擇和搭配組合,這兩種題型客觀性高,能實現較高的信度,但是不夠真實,實驗數據也證明“選擇判斷”與“命題說話”的相關性不顯著。多項選擇和搭配組合題型都很難排除答題時的猜測因素,選項越少,猜對概率越高。有些試題本身還有提示正確答案的作用,比如有的干擾項中用到“、”等字,這些字屬于方言用字,該方言區的應試人和其他方言區的應試人看到這樣的字都不會選擇這個選項,這樣干擾項就失去了干擾作用。這些因素都進一步降低了測試的難度,使“選擇判斷”幾乎成了送分題。此外,“選擇判斷”現有題庫中有些試題本身的典型性還值得商榷,用來作為試題未必是合適的。這些因素也是大部分地區選擇免測“選擇判斷”項的原因。
另外,普通話水平測試的等級有一定的分數范圍,越是高等級,分數的浮動范圍越小,對評分標準的調整越敏感,最典型的應該是一級甲等。免測“選擇判斷”項對自我目標為一級甲等的應試人有什么影響也有待進一步探討。
為體現詞匯、語法規范程度在普通話中的重要地位,同時保證普通話水平測試的全面性,《大綱》對免測“選擇判斷”測試項以后的分值做了重新分配。從實驗數據來看,由于免測“選擇判斷”測試項,應試人在“命題說話”測試項中的“語音標準程度”扣分平均增加了2分(約27%),在“詞匯語法規范程度”上的扣分數值上雖然很少,但比例上平均增加了1倍(100%),扣分更為嚴格。這種調整是對免測“選擇判斷”以后對詞匯語法規范程度檢測的一種補償,“使得詞匯、語法與語音的分值權重比例保持了相對均衡”。[9]普通話學習者應清楚地認識到,免測“選擇判斷”項并不意味著免檢詞匯、語法的規范程度。在注重語音標準、規范的同時,不能忽略詞匯、語法的規范程度的提高。相對于語音,普通話水平測試中詞匯、語法的研究仍顯不足,如何有效檢測應試人詞匯、語法的規范程度仍在探討之中。在既有形勢下,普通話水平測試員應按照評分標準對應試人的詞匯、語法規范程度進行評測。至于在具體評測時如何把握尺度,已有很多專題研究,本文不再贅述。
[1]國家語委普通話培訓測試中心編制.普通話水平測試實施綱要[Z].北京:商務印書館,2004:5.
[2]姚喜雙.推普工作的重要抓手——談依法推進的普通話水平測試[J].語言文字應用,2010(3):26-34.
[3]陶昱霖.《普通話水平測試大綱》與江蘇省《評分細則》的比較分析[J].語言文字應用,2007,增刊:126-130.
[4]劉照雄.《普通話水平測試實施綱要》概述[J].語言文字應用,2004(3):10-14.
[5]韓玉華.普通話水平測試等級標準樣本庫采集方案初探[J].語言文字應用,2010(4):98-104.
[6]劉慧.對“選擇判斷”中“語序及表達形式判斷”項的一些建議[J].語言文字應用.2007(增刊):117-120.
[7][8]姚喜雙.普通話水平測試概論[M].北京:高等教育出版社,2011:1,66.
[9]王暉.普通話水平測試中的詞匯、語法問題[A]//第二屆全國普通話水平測試學術研討會論文集.北京:商務印書館,2006:166-174.
【責任編輯 曹 萌】