□ 朱麗紅 韓世梅
隨著計算機網絡技術的飛速發展,各個領域都在探索如何利用信息技術解決所面臨的問題,尋求新的發展機遇。語言測試也不例外。從20世紀60年代開始,就使用計算機對大規模測試數據進行分析、保存測試題庫和提供測試結果報告。80年代以后,傳統的基于紙筆的語言測試(Paper-and-Pencil Based Language Testing,PBLT)逐步發展為基于計算機的語言測試,并向基于網絡的個性化自適應性語言測試(Web-Based Individualized Self Adaptive Language Testing)邁進[1]。美國教育考試服務中心(Educational Testing Service,ETS)于2005年正式推出了網絡版托福(Test of English as a Foreign Language,TOEFL)測量模式TOEFL iBT[2];全國大學英語考試(College English Test,CET,下文采用“大學英語四、六級考試”)委員會也從2008年開始了多次遠程網絡考試的實驗研究,為全面實現遠程化、網絡化和自適應性考試模式奠定了基礎。針對計算機自適應性語言測試的理論和實踐問題正在成為遠程教育測量模式研究的熱點[3]。
普通話水平測試(Putonghua Shuiping Ceshi,PSC)作為我國唯一一項面向漢語母語人的口語測試,也必然順應時代的需要,利用網絡實現管理、測試、培訓和研究的現代化。但尚存在一些值得深入研究的問題。
作為語言測試的一種,普通話水平測試具有語言測試的共同屬性,但其自身存在著一定的獨特性,需要探求獨特的問題解決方案。
《中華人民共和國國家通用語言文字法》明確規定:“凡以普通話作為工作語言的崗位,其工作人員應當具備說普通話的能力。以普通話作為工作語言的播音員、節目主持人和影視話劇演員、教師、國家機關工作人員的普通話水平,應當分別達到國家規定的等級標準;對尚未達到國家規定的普通話等級標準的,分別情況進行培訓。”這為普通話水平測試奠定了法治基礎,也確立了普通話水平測試的高級別特性。現任教育部語言文字應用管理司司長姚喜雙指出,“普通話水平測試不是一般的學術性測試,不是可有可無的,而是關系到推普大業的一項測試”[4]。從社會維度來看,“當一項考試的結果用于考試以外的目的時,該考試結果(分數或證書)就獲得了社會權重,這項考試就變成了高風險考試”[5]。
普通話水平測試等級證書已經成為我國教師、播音員、主持人、影視從業人員、公務員等行業的準入條件;香港的招聘廣告也有60-70%會提出對普通話水平的要求[6]。這些因素推動普通話水平測試的規模不斷擴大。自1995年實施以來,全國已有約4000萬人次參加了普通話水平測試,近幾年的年測試量保持在300萬人次左右。與托福(TOEFL)、雅思(IELTS)等大規模語言測試相比,普通話水平測試已經是不折不扣的大規模語言測試。為滿足應試需要和保證評測的信度,國家及各省級普通話培訓測試機構已經培訓了5萬余名測試員。但是,不管這支測試員隊伍如何勤勉敬業、甘于奉獻,遠距離、長時間的人員調配對測試組織方來說仍然是一個難題。
托福(TOEFL)、雅思(IELTS)和大學英語四、六級考試(CET-4,CET-6)等語言測試,無論是從作答內容還是作答方式來看,都以筆試為主,形成了一套較為完整的理論系統和測試方法,而且相互之間參考價值很高。普通話水平測試與這些測試的主要區別在于它是完全的口語測試,對測試成績的評判主要取決于測試者對應試者發出的語音信號及其表達的內容信息的評價[7]。普通話水平測試完全口試的測試形式使得成績的評判常常面臨準確性的挑戰。
雖然有研究者指出,口語測試的重要性體現在對被試口語交際能力的評價上,通常認為面試型口語考試(Oral Proficiency Interview,OPI)是最具真實性的口語考試方式[8],但是,由于是一種主觀性的語言測試,許多教師和測試專家都承認口語測試很難做到客觀公正,其信度往往較低[9]。菲利普·利文斯(Filip Lievens)指出,對被試口語水平的最終評價始終無法擺脫評分員主觀判斷誤差的影響[10]。
另外,純口語形式一般采用人工測試,費時費力,增加了人力財力投入。根據趙昌漢對大學英語四、六級考試中面對面口語測試實考情況的調查,兩名測試員在每天工作8小時的情況下最多能測試64名考生;雅思口語考試的面試員每人每天最多只能測試16人[11]。同樣,在普通話水平測試的考場,兩名測試員一天的測試量也只能是15-20人,否則就很難保證質量。而且,測試員的動作、表情、語氣語調、施測態度和綜合印象等,都是應試者產生焦慮情緒的影響因素,都會影響應試者測試水平的發揮[12]。
普通話水平測試是在現代信息網絡技術和大規模計算機語言測試學科發展背景下醞釀、誕生和發展起來的,其信息化建設受到高度重視和不斷加強。
2004年9月,普通話水平測試國家題庫系統通過鑒定;2005年8月,國家普通話水平測試管理信息系統上線,逐步實現了信息管理的遠程化、自動化和無紙化。目前采用的“普通話水平智能測試系統”,以《普通話水平測試大綱》(以下簡稱“《大綱》”)為基礎,可準確地對“命題說話”之外的所有測試題型實現自動評測,并可以自動檢測發音者存在的語音錯誤和缺陷,對使用者高效提升普通話口語水平具有積極的指導意義[13]。據報告,2007年開展“普通話水平智能測試系統”試點當年,就有27萬人參加了計算機輔助測試;截止到2011年年底,全國累計參加計算機輔助測試的考生總數達到589萬人次。計算機輔助普通話水平測試系統的應用,一定程度上緩解了人工測試所面臨的問題,主要體現在:
與人工測試相比,“機測”優化了測試手段,規范了測試程序,統一了測試標準,降低了測試成本,提高了測試效率,體現了國家級測試的客觀性和公平性[14]。試點單位也普遍認可計算機輔助測試具有“測試效率高、組織難度降低、管理更加規范、客觀性強、公平公正”等優點[15]。
對使用Skype網絡語音電話進行英語口語測試的實證研究表明:考生對遠程口語測試表現出很高的積極性,在“語言輸出的真實性”、“內容效度”和“焦慮程度”等方面,普遍認為遠程條件下的表現更令人滿意[16]。實施基于網絡的遠程計算機輔助普通話水平測試,也可以有效緩解應試人員面對面測試時的心理壓力。
普通話水平智能測試系統實現了對前三項測試內容的自動評分,應試人完成測試后立即生成評分結果,測試員只需要對第四項進行評測,該項內容測試時間為3分鐘,大大提高了整體評測效率。有的測試站一天可以完成幾百人次的測試,這是人工測試難以實現的。
計算機輔助普通話水平測試系統的實施,一定程度上解決了考試的客觀性,緩解了應試者的心理壓力,節約了大量人力物力資源的投入。但是,有研究者認為,該系統能夠解決的問題有限,其準確性與可操作性有待于進一步提高[17]。普通話水平智能測試系統將前三項作為整體進行匯總的綜合評分方式,會使第一項“讀單音節字詞”和第二項“讀多音節詞匯”的測試意義不明顯。有研究者指出,該系統對高分段(如一級甲等)以及低分段(如三級乙等)甚至以下的成績判定和人工測試的誤差較大[18]。鑒于此,本研究提出如下改進策略:
《大綱》規定,計算機輔助普通話水平測試中采用的是四種題型[19]:①讀單音節字詞(不含輕聲、兒化音節),測查應試人聲母、韻母、聲調讀音的標準程度;②讀多音節詞語,測查應試人聲母、韻母、聲調和變調、輕聲、兒化讀音的標準程度;③朗讀短文,測查應試人使用普通話朗讀書面作品的水平,在測查聲母、韻母、聲調讀音標準程度的同時,重點測查連續音變、停連、語調以及流暢程度;④命題說話,測查應試人在無文字憑借的情況下說普通話的水平,重點測查語音標準程度、詞匯語法規范程度和自然流暢程度。
按《大綱》的設計,每種題型有著不同的目的,也有著不同的評分標準,人工測試時會分別給出每一種題型的成績,從中能夠清晰地分析應試人在各個題型上的表現。而當前的普通話水平智能測試系統,將前三項作為整體進行綜合評分,體現不出《大綱》的設計精神,給應試人的反饋信息不夠充分和具體。
1.合理利用技術,改善第一、二項測試內容的呈現方式
從第一項“讀單音節字詞”和第二項“讀多音節詞語”的試題呈現方式來看,當前的普通話水平智能測試系統只是“人測”的“平移”(如圖1所示)。
雖然采取分色的方式提示不同的文字行,但對有些人來說,“由于不習慣前兩題計算機視頻顯示的藍黑相間字體,導致應試者漏字、漏行現象存在”[20]。要避免這些情況,應當在設計時充分考慮到屏幕閱讀與書籍閱讀的區別。

圖1“讀單音節字詞”題項的呈現方式
(1)依靠詳細的受試者分析,提供友好的用戶界面
以現有的呈現方式,就是在平時也難免出現“漏字”、“串行”現象,更何況是在參加具有“高風險”性質的國家級考試現場。而右下角的“下一題”按鈕,不管在什么情況下,只要點擊,都會自動結束當前題目的測試,直接進入“下一題”。如果應試者在考試過程中出現誤操作,除了取得低等級或不合格之外,“重考”往往是唯一的結局。作為一套高質量的系統,除了要提供必備的功能(如這里的試題呈現、時間提醒、音量提示等)之外,還應該考慮到以什么樣的方式避免用戶出現誤操作,以及在出現誤操作時的急救措施。
(2)發揮技術支持能力,提高測試目的的契合度
以第一項“讀單音節字詞”為例,試卷的編排有一定的規定性,在順序上,音節的排列要避免同一測試要素連續出現,以此來考查應試人對普通話音節的聲母、韻母、聲調等要素的掌握情況。人工施測時,如果出現不按順序朗讀的情況,測試員會進行干預。在機輔測試中沒有測試員干預,應試人的隨意朗讀就違背了試題的設計理念。另外,對讀錯但沒有讀出下一個字詞前以第2次讀音為準的規則、字詞讀音缺陷和錯誤的扣分規則,測試軟件不能詳細反映出來[21]。如果不以“屏”為單位來呈現試題,就可以擺脫這樣的“順序”關系依賴,準確地建立試題與應答之間的映射關系,不僅提高了評測的信度,對于測試題目的重現和結果的復審,也提供了基礎和便利。
(3)合理規劃各測試項的原子單位,提高真正意義上的自動化
當前系統采用的是固定的試卷組合方式,使得試卷的曝光率很高。以河北省為例,目前采用的是十套試題,經過幾年的測試,所有內容已成為公開的秘密。有研究者建議,題庫內的單音節字詞、雙音節詞語、短文及說話題目應各有足夠數量,每一套試題的形成應由題庫內不同類型的題隨機搭配組成[22]。這種在四項測試類別之間進行隨機搭配的方式,在一定程度上降低了試卷的曝光率,但效果有限。要實現目前主流的計算機自適應測試,尚需時日。
其他單位研發過的“計算機輔助普通話水平測試評分系統”,以實驗語音學和計算機語音信息處理為基礎,建立了集圖形、音頻、文字為一體的“普通話水平測試各等級標準數據庫”,通過不同等級樣本音波圖、語圖、音高圖、音強圖、audio音頻的對比,客觀地展現出普通話水平測試不同等級的語言面貌和各種數據,為《普通話水平測試等級標準》提供言語聲學的數據支持[23],是一種有效的探索。
2.嘗試引入遠程服務呼叫改善第三、四項測試內容的實施方式
現有普通話水平智能測試系統對第三項“朗讀短文”采取了全面的自動評判,而作為分值最重的“命題說話”,則是唯一還在采用人工評分的測試項目。有研究者指出,朗讀中根據回讀次數扣分,增、漏、錯讀字音每一個音節0.1分的扣分要求,朗讀中自然流暢,語調偏誤等重點考查項目上的評分細則,測試軟件不能詳細反映出來[24]。口語交際中的說話和書面交際中的寫作都很難采用純客觀題的形式加以考查,對這類綜合性主觀題進行計算機自動評分是個難題。計算機口語考試(Computerized Oral Proficiency Interview,COPI)是以犧牲部分交際真實性為代價來提高測試的可行性與評分的可靠性的[25]。Versant英語口語測試(The Versant English Test)號稱“世界上第一個使用語音識別和處理技術的全自動口語考試”,能對跟讀單詞的準確性、發音、朗讀流暢性進行評分,全球多個學術、商業和政府組織都用來對求職者、雇員、學生或國際助教的英語口語能力進行評估。但研究表明,Versant英語口語測試的六類試題中,能夠考查到語篇運用能力的復述故事和開放問答題并不參與評分,但考生的作答會被保留下來“供相關授權人員審核”[26]。為盡量保證測試評分的準確性和一致性,托福目前采用人工評分和自動評分相結合的辦法,人工評分主要評測作文的內容和意義,自動評分主要對語言特征進行評分[27]。可見,對同一測試內容采用人工評分和自動評分相結合的方法,得到較廣泛的認可。因此,本文提出對第三項“朗讀短文”采用自動評分和遠程實時人工評分相結合的辦法,而對第四項“命題說話”采用遠程實時人工評分的辦法,這需要通過遠程呼叫中心服務的形式來實現。
當前,在遠程教育中,已經采用并在不斷強化呼叫中心式(Call Center)的實時學習支持服務功能,它所提供的服務主要包括:將Web服務系統和語音服務系統相結合,提供教學信息和資源的全方位教學服務;建立基于互聯網的CC,提供教與學雙向交互服務,如文本交談、語音電話、網上協作等;利用遠程坐席服務建立專家答疑系統等[28]。
借鑒這一研究成果,本文對現有省中心拓撲結構進行改造,將連接測試員的評測機(目前只用來調取第四項“命題說話”的考試錄音,并進行評測),改為基于遠程網絡呼叫的“普通話水平測試呼叫中心”,其拓撲結構如圖2所示:

圖2采用遠程網絡呼叫的計算機輔助普通話水平測試系統拓撲圖
其業務流程相應的更改如下:
①當考生開始應答第三、四題時,通過呼叫中心與在線的測試員發出服務請求;
②測試員接受測試任務后,建立單向語音連接,并在測試員端啟動相應的評分系統;
③考生回答完該測試題目后,測試員回傳其評分數據,斷開本次呼叫連接;
④管理系統獲取各測試員(2-3位)對該考生本次測試的成績,進行評分匯總,生成結果報告;
⑤考試結束。
引入遠程實時在線測試服務有著重要的意義。首先,對于第三項“朗讀短文”,可以改善當前采用完全自動評分帶來的不確定性;其次,實現了對第四項“命題說話”的實時測試,使得考生在測試結束后幾分鐘之內就可以得到最終結果,進一步提高反饋效果;再次,實現測試員的遠程接入,減少測試員的遠距離移動,提高了靈活性;最后,可以實現全國范圍內測試員的整體調配。
語言測試與語言教學密不可分,測試的終極目的是促進學習,開展普通話水平測試的目的就是為了“以測促訓”,促進普通話的普及和水平的提高。信息技術作為影響學生學習的重要因素,以一種具有時代特征的物化文明為實體而“無縫嵌入”現代學習活動之中,是人類技術的外在表現,使現代學習的外在表現形態發生了不同以往的變化[29]。基于網絡的普通話水平測試系統本身應該為遠程學習者提供學習和培訓支持服務。通過參加測試,讓學習者得到反饋信息,從而發現問題,有針對性地改進學習。在國外的第二語言測試領域,以歐洲語言共同框架(the Common European Framework of Reference,CEFR)為基礎開發的、由計算機傳輸的大規模自我評估和診斷性測試系統(DIALANG),能為語言學習者提供歐盟39種語言學習的自我評估和診斷結果[30]。目前的普通話水平智能測試系統只能提供針對前三項總體的得分評測,沒有細化到各測試項,關于語調和流暢程度等要素的評測也是缺失的,對應試人準備下一次測試和真正改善學習情況來說,這些信息就顯得非常有限了。利用現有的網絡技術,實現與人工測試相似的分離式評分,對各個項目分別評分,這樣的結果能夠反映應試人究竟在哪些評分項目上存在不足。如果應試人在參加完測試之后不僅拿到等級證書,還能拿到一份診斷說明,接下去的學習就有了更明確的方向,對學習者來說真是功莫大焉。因此,計算機輔助測試帶來的改變不僅是測試手段的現代化,還包括對語言能力的認識和學習普通話的方式的改變。
在第二屆全國普通話水平測試學術研討會上,時任教育部語言文字信息管理司司長的李宇明教授曾描繪了普通話培訓測試現代化建設的藍圖,“普通話培訓測試手段的現代化,就是利用計算機、互聯網及相關的現代技術設備,使普通話培訓測試工作從管理、測試、培訓到研究都實現現代化”[31]。前兩個方面已經基本實現,多媒體的遠程培訓課程還主要是自發的探索和小范圍的應用,利用計算機建立關于普通話培訓測試的知識庫和用于普通話培訓測試研究的語音數據庫,以及對這些數據庫的開發利用等,更是有待加緊進行。本文針對現有普通話水平測試系統對第一、二項內容呈現方式的改善,對前三項采取綜合評分所導致的準確度問題,提供了解決思路。以“字”、“詞語”為單位,更有利于不斷積累數據,為后續研究提供數據支持。就可否精簡現有測試內容,以縮短測試時間、降低測試成本,以及能否只采用必要的測試內容對應試人的普通話標準程度和規范程度做出準確的評測等問題,已經催生了計算機自適應性測試(Computer Adaptive Testing,CAT)這種形式。但是,現有計算機輔助普通話水平測試系統要實現自適應性測試尚有很遠的路要走。
本研究提出的改進策略,也存在著一些不足,也可能引發相應的問題。
1.對以字、詞為單位進行屏幕呈現,上百個字、詞,其操作所需的時間、可能引發的誤操作等,目前還沒有進行大規模的試驗研究;是否具備與印刷版測試材料具備同等的效度等問題也需要進一步開展研究。
2.引入遠程呼叫服務后,如何實現全國范圍內測試員的資源配置,使之公平地服務于普通話水平測試業務,如何公平地對其進行評價,需要一整套改革方案。
3.采用人工評分和自動評分相結合的辦法,并沒有改變“命題說話”項人工評分的現狀,如何部分地實現“命題說話”項的自動評測,非常值得探討。
4.提供的改進策略,基本上還是以測試站、測試中心為基礎施測的,尚不能實現“時時、處處”的網絡語言測試服務。尤其是對高風險、高級別的測試而言,遠程呼叫服務為實現“時時、處處”的網絡語言測試服務,提供了基礎設施方面的支撐,但是,如何識別應試者的身份、防止考試過程中的舞弊行為等,這也是目前各語言測試都采用“考場”制的原因之一,還需要進一步探討。
]
[1]孔文,李清華.基于計算機的語言測試及其效度驗證[J].外語界,2009,(3):66-73.
[2]Fulcher G.Practical Language Testing[M].London:Hodder Education,2010.
[3]柴省三.中國漢語水平考試(HSK)遠程CAT閱讀測試模式研究[J].中國遠程教育,2013,(6):81-87.
[4]姚喜雙.推普工作的重要抓手——談依法推進的普通話水平測試[J].語言文字應用,2010,(3):26-34.
[5]楊惠中,桂詩春.語言測試的社會學思考[J].現代外語,2007,(4):368-374.
[6]宋欣橋.普通話水平測試在香港的基本屬性及未來發展[J].語言文字應用,2008,(1):100-105.
[7][17][23]王渝光,姚一斌,楊瑞鯤等.計算機輔助普通話水平測試評分系統研究[A].第三屆全國普通話水平測試學術研討會論文集[C].北京:語文出版社,2009:215-222.
[8]金艷.大學英語四、六級考試改革思路與未來展望——解讀《全國大學英語四、六級考試改革方案(試行)》[J].中國大學教學,2005,(5):49-53.
[9]Shohamy,E.,Reves,T.,and Bejarano,Y.Introducing a new comprehensive test of oral proficiency[J].ELT Journal,1986,40(3):212-220.
[10]Lievens,F.Assessor Training Strategies and Their Effects on Accuracy,Interrater Reliability,and Discriminant Validity[J].Journal of Applied Psychology,2001,86(2):255-264.
[11]趙昌漢.高校英語大規模網絡化口語測試的可行性與技術設計[J].外語電化教學,2012,(7):39-44.
[12]馬紅英,劉春玲.PSC過程中測試員對應試者焦慮情緒的影響研究[A].第二屆全國普通話水平測試學術研討會論文集[C].北京:商務印書館,2006:217-232.
[13][22]黃謙,張小俊,趙秀宏.計算機輔助普通話水平測試存在的問題及對策[J].廊坊師范學院學報(自然科學版),2011,11(4):122-124.
[14][20]韋素玲,黃令,楊樹喆.淺析提高計算機輔助普通話水平測試質量的策略[J].高教論壇,2009,(12):37-40.
[15]韓玉華.計算機輔助普通話水平測試試點地區的調查研究[J].首都師范大學學報(社會科學版),2009,(S3):29-33.
[16]趙春榮,劉永權.遠程條件下英語口語測試新探索——一項基于Skype網絡語音電話進行英語口語測試的實證研究[J].現代教育技術,2012,22(2):95-98.
[18][21][24]雷峻.計算機輔助普通話測試的問題思考及技術對策[J].武漢理工大學學報,2010,(13):160-163.
[19]國家語言文字工作委員會普通話培訓測試中心編制.普通話水平測試實施綱要[Z].北京:商務印書館,2004.
[25]戴朝暉.計算機口語考試信度研究[J].外語電化教學,2011,(3):45-50.
[26]程蒙蒙.Versant英語口語測試:特點分析及其啟示[J].中國考試,2012,(8):52-57.
[27]TOEFL官方網站.TOEFL iBT:About the Test[EB/OL].[2013-05-24].http://www.ets.org/toefl.
[28]潘國清.用呼叫中心技術構建學習支持平臺研究[J].中國遠程教育,2013,(10):84-89.
[29]李芒.學習生存性視域中的信息化學習方式[J].北京師范大學學報(社會科學版),2007,(5):38-43.
[30]Council of Europe.Common European Framework of Reference for Languages:Learning,Teaching,Assessment(CEFR)[EB/OL].[2013-05-24].http://www.coe.int/t/dg4/linguistic/CADRE1_EN.asp.
[31]李宇明.論普通話培訓測試手段的現代化[A].第二屆全國普通話水平測試學術研討會論文集[C].北京:商務印書館,2006:1-8.