周曉蘭
(湖南科技大學 計算機科學與工程學院,湖南 湘潭 411201)
?
計算機輔助普通話水平測試系統的優化
周曉蘭
(湖南科技大學 計算機科學與工程學院,湖南 湘潭 411201)
計算機輔助普通話水平測試是一種新型的普通話水平測試手段,目前湖南省的普通話水平測試采用科大訊飛的計算機輔助普通話水平測試系統,該系統基本上能適應普通話水平測試,但還存在某些不足之處。為更好地推動此項技術的發展,應優化語音評判系統,加強建設和搜集高分段錄音樣本,優化評分系統的評價模型,改進抽題策略,設計更加人性化的測試系統的交互信息,同時,設置一套有效防范作弊的措施,改進命題說話題的人工打分方式,設計智能的評判模式。
計算機輔助;普通話水平測試;系統優化
計算機輔助普通話水平測試系統(Computer Assisted Mandarin Evaluation System)是針對全國普通話水平測試(PSC),以計算機作為輔助手段,進行無紙化、電子化的高效率測評的系統,由考務信息管理、仿真考試和錄音以及機器輔助評分構成,具有考生信息數據庫管理、考生語音數據采集、考試流程控制、計算機自動評測打分等功能,實現了考試過程、數據收集的自動化等功能。計算機輔助普通話水平測試作為一種利用現代信息技術新型普通話水平測試手段,在全國多個省市推廣,給普通話教學與測試帶來了巨大的變化。測前的準備工作相對減少,大大提高了靈活程度和工作效率,并降低了組織的難度和測試成本。但計算機輔助普通話水平測試中語音評判的準確度問題還存在一定的局限性。雷峻認為應進一步擴充豐富全國各地的錄音樣本,尤其是對高分段(一甲樣本)的搜集,從而對高分段的測試更加準確。韋素玲以廣西師范大學為例探討了高校“機輔測試”普通話規范化管理的相關問題,提出應做好考前、考中、考后的規范化管理,重點提出實現“機輔測試”走向制度化、規范化和科學化。王苓、傅江宏提出一種新的測試模式,幫助測試管理機構有效監控測試員測評的整個過程,以便得到更加準確的測試成績。何勇等利用遺傳算子和遺傳算法,依據遺傳算法的編碼、選擇、交叉和變異等步驟,提出自動組卷算法。曾玲基于三明學院普通話測試改革,分析了計算機輔助普通話測試在高校實際運行過程中信息管理系統不夠完善、硬件的兼容性較差等問題,提出優化軟件平臺,提高系統管理人性化自動化水平,充實提高機測題庫容量與質量,實現計算機輔助普通話測試的規范化、科學化管理。為使系統能更加準確地評測前三題,給出更加客觀的分數,對該測試系統進行優化,使之能對所有被測人員做出準確的評價,是研究普通話水平測試系統的重要任務。
計算機輔助普通話測試的語音評判具有可行性、信度及經濟效率,能有效解決人工測試的弊端,并提高測試的公信度、公正性和精確度。
科大訊飛股份有限公司開發出來的計算機輔助普通話水平測試系統是國家語委鑒定為當前唯一的,并在普通話水平正式測試中應用的測試系統,基本能夠滿足當前高校計算機輔助普通話水平測試的要求。科大訊飛測試系統基于教育部和國家語言文字工作委員會頒布的《普通話水平測試大綱》,以先進的語音合成技術和中文語音評測技術為核心技術,通過對語料庫補充完善、合成器的研發和語音參數的優化,以及對區域性語言的分析和研究,可準確地對朗讀單音節詞、朗讀多音節詞和朗讀短文等三種測試題型實現自動評測。
科大訊飛系統為了滿足不同的用戶需求,開發了單機版和網絡版兩種版本。可以更加靈活地應用于計算機輔助普通話水平測試系統[1]。網絡版架構設計是監考機對考生測試過程進行管理監控。目前在大批量的測試中,普遍采用設置每批次20臺測試機,輔助學生完成考試。每一批次進行考試時都由監考老師從監考機上發出考試指令(監考機能夠隨時監控考試機),考生根據監考老師在監考機發出的指令(指令有時是語音提示,有時是顯示在考試機的屏幕上的文字信息)進行不同的操作。考生分步依次的操作是:準考證號輸入,身份信息核對,試音以及單音節詞、多音節詞、朗讀短文、說話等題型的考試。由測試系統自動完成考生的朗讀單音節詞、朗讀多音節詞和朗讀短文的評測,最后一題說話題由測試站將測試數據上傳至省中心服務器上并分配測試員后,由測試員根據錄音進行網上評分。

科大訊飛的計算機輔助普通話測試系統在成績評定上,對二級甲等到三級甲等成績的判定基本上與人工測試的結果比對一致,大部分考生的成績集中在二級甲等到三級甲等這個范圍內,從而系統能滿足高校普通話水平測試的要求。系統對高分段(比如一級甲等)和低分段(比如三級乙等及以下等級)的成績判定與人工測試的誤差大,特別是測試系統對一級甲等的成績認定一般不能做出很好的評價。據國家語委測試數據顯示,在實際測試以及測試環境完全一致的情況下,讓性別不同、年齡不同以及獲得證書時間不同的已獲得國家語委普通話培訓測試中心認定的一級甲等成績的人員進行試驗測試,最終成績都達不到一級甲等。目前各地區在送審一甲樣本時,仍舊采用人工測試。系統中最重要也是最關鍵的環節——語音評判、語音分析處理技術還是一個比較難解決的問題,對于全部自動化閱卷和對所有分數段的考生做出準確的評判還有待進一步改進。到目前為止還沒有系統提出改進措施,特別是考生語音數據采集和計算機自動評測打分功能優化問題沒有系統研究,另外尚未建立對考生在沒有文字憑借情況下的命題說話題進行語音評判的模式。
測試系統的可靠性有待進一步加強[2]。軟件可靠性(software reliability)是軟件產品能否在規定的時間和條件下滿足規定的功能的能力,是國際標準化組織頒布的ISO9001制定的軟件評價技術中的質量標準之一,是用戶對軟件產品的正常質量訴求。在使用過程中,科大訊飛測試系統隨機偶發一些故障。比如:有時考生明明點擊了“下一題”按鈕,但就是無法結束本題考試;有時考試機試音成功后,第一題測試時麥克風無法拾音,提示框顯示的提示信息為“失敗原因: 無輸入信號”;有時考生參加了測試但從考試機導出的考試數據trd 壓縮包中沒有以該考生準考證號命名的oef文件,從而信息管理系統中沒有該考生的數據[3]。
測試系統出現的有些交互信息不易被理解。測試系統在運行過程中經常出現用來提示發生錯誤原因的“試音失敗、評測失敗、操作失敗”等信息,特別對于出現較多的“失敗原因: 截幅”,截幅是什么、導致截幅原因是什么以及如何克服截幅,系統沒有提供任何的解決方法。軟件說明書中也查找不到截幅相關的說明。非專業的測試站工作人員無法理解這些信息,更談不上去指導考生了。
測試系統對于考生本身作弊行為或者內外勾結重復考試的作弊行為基本上不能防范。普通話水平測試是國家級的口語測試,各測試站采取了各種各樣的措施加強考場監督,但不能徹底杜絕測試中的作弊行為,特別是對于交叉替考作弊方式沒有任何的防范措施。
基于計算機輔助普通話水平測試現狀,進一步研究計算機輔助普通話水平測試系統的優化,實現優化測試手段、規范測試程序、統一測試標準、降低測試成本、提高測試效率等,真正達到計算機智能普通話水平測試。結合計算機輔助普通話水平測試實際應用現狀提出計算機輔助普通話水平測試中對現有普通話中語音評判進行優化的方案,并建立對于考生在沒有文字憑借情況下的命題說話題進行語音初步評判的模式。以系統思考的方法和開拓創新的精神,積極探索改進計算機輔助普通話水平測試系統的不足之處。
第一,優化計算機輔助普通話測試的語音評判系統。針對系統對高分段(比如一級甲等)和低分段(比如三級乙及以下等級)的成績判定與人工測試誤差大的情況,可以對計算機輔助普通話水平測試的評價模式進行修改。系統可以對被測樣本進行分析和成績評判,如果被測樣本出屬于普通段,則按照原有模式進行評判;如果被測樣本屬于高分段(或低分段)馬上轉入高分段(或低分段)處理模塊進行處理(專門為高分段或低分段的樣本設計一個處理模塊)。另外,優化系統應考慮硬件的兼容性和大批量考生的管理需求,提高系統管理人性化自動化水平,確保省中心和測試站兩級管理模式的有序協調。
第二,加強高分段錄音樣本的建設和搜集。目前測試系統利用了一種智能語音處理技術,即計算機輔助語言學習技術(Computer Assisted Language Learning,通過機器自動對發音進行評分、檢錯并給出矯正指導的技術)進行評分。測評系統利用大量的錄音樣本進行分析處理,并產生標準模型,再把被測者的測試樣本與標準模型進行比對評判[4]。盡管系統從全國各地搜集整理了許許多多的樣本,但目前對高分段(一級甲等)的錄音樣本采集還很不足。為了豐富高分段的樣本,可以將國家級的廣播電視媒體和社會上影響力大的播音員、主持人的錄音樣本采集到系統語音庫中,也可以將影視話劇等單位公認的普通話水平很標準的演員的錄音樣本大量地采集到系統語音庫中。樣本比較豐富了,評價系統在對比考生的語音面貌時,將更加客觀。
第三,探索優化評分系統的評價模型的新算法。蟻群算法可以準確地估計評價模型向量并且不會產生局部相位的波形惡化,使得各處向量的功率譜有明顯的增益[5]。改進后的評價模型能對語音信號進行良好的識別,具有良好的通用性和全局性。使用蟻群算法對評分系統里評價模型進行優化的方法。利用計算機技術蟻群算法對評分系統中的評價模型進行優化,并建立對于考生在沒有文字憑借情況下的命題說話題進行語音評判的模式。
第四,改進當前的抽題策略,并進一步建設測試試卷的題庫。目前湖南省測試中心使用50套試題,每個考場從50套中抽取20套,每臺考試機上固定一套試題。按照這種抽題策略,雖然是每個考生一套,但是坐在同一個位置上的考生總是做同一套試題,這樣就可能出現考生作弊的行為。為了防止同一位置做相同的試題,可以每個座位上抽取不同的試題,另外每一套試題的組織應該由題庫中不同類型的題目隨機搭配組成。在被測室選取的試卷號,這個試卷號可以由監考老師輸入測試系統。另外這50套測試卷的所有內容已成為公開的秘密,特別是命題說話題,已經被人做出不同的標準答案,上傳到網絡之上或者輯印成冊。測試員在評分中經常反復聽到同一個話題的同一內容的標準答案,就是因為考生背熟了千篇一律的小文章[1]。為了減少此類現象的發生,普通話水平測試題庫必須進行修改和更新。題庫的題目不應局限于已經存在的幾十套單音節字詞、雙音節字詞、短文及說話題目,應增加與考生生活、學習等方面相關的更加豐富的內容。在每次組織考試前,應由省測試中心或測試站負責組卷,這樣考生就不會在考試前準備好標準答案。
第五,廣泛協調,多方組織合作,大力開展技術改進,進行科研攻關。計算機輔助測試系統技術難度高,一般計算機輔助測試系統的研發人員是一些懂計算機技術的科研人員,這些人員一般不是普通話水平測試的一線測試員,更加不是語言教學、普通話理論研究專家。計算機技術人員不能準確把握普通話水平測試的用戶的各種需求,所開發的軟件自然就會出現這樣那樣的不合理之處。基于此,可以由教育部和國家語言文字工作委員會牽頭,在全國范圍內不定時地組織一些學術研討會或者成立一些專門的研究機構,把語音處理技術上頂尖的專家、既懂計算機技術又十分熟悉普通話理論以及測試的復合型人才以及長期從事普通話教學和測試的骨干組織起來,大家聯合攻關[6]。使普通話測試工作從管理、測試、培訓到研究真正成為與國際上著名的語言考試比肩的國家品牌。
第六,設計更加人性化的測試系統的交互信息。為了測試站工作人員、監考人員和考生都能準確理解提示信息,測試系統的提示信息一般應該做到考生和監考老師都能理解出現信息的含義,不能出現監考老師和考生都不理解的信息。
第七,測試系統中可以設置一套有效防范作弊的措施。對于考生本身作弊行為中的請人代考的防止措施,可以在系統中增加現在市面上已經應用廣泛的指紋識別系統或者面部識別系統。在考生報名時采集其指紋信息或者面部圖像,考試時指紋、面部識別系統將正在測試的考生的生物特征與報名采集的信息比對,并將結果反饋到監考機屏幕上,監考老師根據結果確定考生是否舞弊[3]。筆者認為用聲紋識別技術更方便,考試系統不要配置額外的硬件,只要在考生報名時采集一段考生的聲音,考試時候直接把報名時采集的聲紋與考生當場考試的聲紋進行比對即可分清是否替考。對于內外勾結重復考試的作弊行為,應由測試工作站的工作人員監視整個考場,防止發生這種情況。
第八,改進命題說話題的人工打分方式,設計智能的評判模式。測試系統對于考生在沒有文字憑借情況下的命題說話題的處理還處在人工方式階段。系統只能把考生的測試數據保存下來,而后上傳至省中心服務器上,由測試系統把測試數據分發給普通話測試員,測試員根據錄音進行人工打分、網上評分。基于現在語音評測技術的限制,不能完全由測試系統對命題說話題進行精確的判分,但可對當前的命題說話題進行簡單的預評判,把一些沒有說話的、亂說話的、完全不符合題意的剔除掉,減輕測試員的工作。
在計算機輔助普通話水平測試應用過程中,雖然各個測試中心遇到了這樣或者那樣的問題,但是在教育部和國家語言文字工作委員會的指導下測試系統會不斷完善。將來計算機輔助普通話水平測試系統肯定會向著智能化的方向發展,會有更加廣闊的應用前景。
[1] 黃謙,張小俊,趙秀宏.計算機輔助普通話水平測試存在的問題及對策[J].廊坊師范學院學報(自然科學版),2011(8):122-124.
[2] 楊康.國家普通話水平智能測試系統的改進分析[J].考試研究,2015(4):98-101.
[3] 楊康.ISO9001標準下的國家普通話水平智能測試系統(2.8版)改進建議[J].鎮江高專學報,2015,10(4):39-40.
[4] 雷峻.計算機輔助普通話測試的問題思考及技術對策[J].武漢理工大學學報,2010(7):160-162.
[5] 李超,劉濤.基于蟻群算法的普通話測試系統評分機制改進[J].玉溪師范學院學報,2011(8):59-62.
[6]楊月君,王東波.計算機輔助普通話水平測試運行實踐研究[J].教育教學論壇,2014(6):267-268.
(責任編校莫秀珍)
10.13582/j.cnki.1674-5884.2016.09.037
20160516
湖南省教育廳重點課題(2014ZD-003)
周曉蘭(1974-),女,湖南洞口人,高級實驗師,碩士,主要從事計算機科學技術及計算機實驗教學研究。
H102
A
1674-5884(2016)09-0116-04