計算機輔助普通話水平測試評分問題的研究
——以二級甲等“機測”成績為中心的調查分析

2017-06-19 17:57:08童效杰

韓山師范學院學報 2017年2期

童效杰

（韓山師范學院文學與新聞傳播學院，廣東潮州 521041）

童效杰

（韓山師范學院文學與新聞傳播學院，廣東潮州 521041）

計算機輔助普通話水平測試將測試環境形式由人工轉變為計算機，其突出作用是減少了人為因素干擾、增強了測試的客觀性和公正性，進而提高了測試的規范性和權威性。然而通過對測試最終成績進行分析和比較發現：計算機輔助普通話水平測試評判中，存在對應試者的“特殊發音錯誤”和發音缺陷“測不準”、對連讀和語流“不評測”等問題。這一現象必須引起重視并加以糾正，否則不僅會失去普通話水平測試的嚴肅性、科學性和權威性，而且也會對普通話學習和訓練帶來錯誤的導向，進而嚴重偏離推廣普通話工作的目標。要進一步加強對計算機輔助普通話水平測試的研究，擴大語音樣本數據庫語音樣本類型和數量，以提高計算機網上評分的分辨識別能力，并通過加強人工復評來糾正部分計算機網上評分的偏差。

“機測”；特殊發音錯誤；發音缺陷；連讀；語流；“測不準”；“不評測”

1994年10月30日，國家語言文字工作委員會、國家教育委員會、國家廣播電影電視部聯合頒發了《關于開展普通話水平測試工作的決定》（國語〔1994〕43號，下文簡稱《決定》），決定在全國正式啟動普通話水平測試工作，這是保證推廣普及普通話工作走向制度化、規范化、科學化的一項重要措施。在《決定》的指導下，全國各省從1995年開始陸續開展了針對在職教師、師范類專業畢業生、廣播電視播音員、公務員等的普通話水平測試工作，大大推動了語言文字規范化工作的進程。到2014年，普通話水平測試工作已整整經歷了20年。在這20年里，無論是對測試的宏觀管理還是測試的細節操作，都取得了重大成果，獲得了良好的社會聲譽。特別是現代科學技術在測試中的運用，由中國科大訊飛承擔的研究課題“計算機輔助普通話水平測試”成果得到專家的鑒定，并在全國范圍內的實際測試當中全面實施，將測試環境形式由人工轉變為計算機，這不僅把測試員從繁重的勞動中解脫出來，更重要的是大大減少了人為因素的干擾、增強了測試的客觀性和公正性，也大大提高了普通話水平測試的規范性和權威性。2014年1月22日，時任教育部副部長、國家語言文字工作委員會主任李衛紅在全國語言文字信息化工作視頻會議上的講話中講到：“計算機輔助普通話水平測試快速發展，截至2012年底，全國共有30個省（區、市）已經試點和實施了計算機輔助普通話水平測試，當年使用計算機輔助測試的考生已達290萬人次，累計達887萬人次。”這樣一個層次高、覆蓋面廣的國家級考試，評測標準和結果理應客觀、全面、精細，可在實際測試中情況又怎樣呢？

一、問題的提出

計算機輔助普通話水平測試（以下簡稱為“機測”）評分中，應試者的成績前三項（即讀單字詞、讀詞語、朗讀，共60分）測試結果由計算機自動評分，第四項“命題說話”（共40分）測試結果則由測試員通過在網上聽應試者的錄音進行人工評分，最后兩部分分數合計即為應試者取得的測試總成績，并以此確定應試者的普通話等級。

韓山師范學院自2009年3月開展“機測”試點工作，為了積累經驗和平穩過渡，起初我們只是對少部分考生進行“機測”，對其他大部分考生仍進行傳統的人工評測（以下簡稱“人測”），采用“機測”和“人測”并行的方式開展全校的普通話水平測試工作。通過近兩年時間的試行，到2011年1月，全校的普通話水平測試工作就全部實行了“機測”。至今，“機測”已在我校實行了八個年頭。八年中，我們一直關注著“機測”的運行情況和結果。實行“機測”后，普通話水平測試工作總體運行平穩、順利、正常，大大減輕了測試員的工作負擔，提高了測試工作的效率。從測試結果看，在“機測”與“人測”并行的頭兩年（2009年和2010年）里，兩種測試方式下的應試者成績相比較，其在各等級的分布比例就有了一些變化，“機測”方式下獲得二級甲等成績應試者的比例（占15%左右）比“人測”方式下獲得二級甲等成績應試者的比例（占5%左右）有明顯提高，而獲得二級乙等成績應試者的比例（占70%左右）比“人測”方式下的（占80%左右）有明顯降低，在其他等級上的人數分布比例變化不明顯。但由于試行“機測”階段參加“機測”的應試者人數比較少，絕大多數應試者參加的仍然是“人測”，對該兩年度的全體應試者測試成績整體分布比例沒有造成太大的影響，因此這種情況沒有引起我們足夠的重視。2011年“機測”在我校全面實行后，我們更加關心“機測”結果的變化情況，發現幾年來的測試成績分布跟以往的“人測”相比有了一些明顯的不同和變化：每年度的全體應試者中，獲得一級乙等以上（≥92分）成績者的比例與以往相比保持了相對穩定，跟以往相當，保持在0.1%以下；獲得二級甲等成績者的比例明顯上升，由以往“人測”的5%左右大幅上升到現在“機測”的35%左右；獲得二級乙等成績者的比例明顯下降，由以往“人測”的80%左右大幅下降到現在“機測”的55%左右；獲得二級乙等以下（＜80分）成績者的比例也有下降，由以往“人測”的15%以上下降到現在“機測”的10%以下。

我們對我校“機測”方式下應試者測試成績明顯提高的現象進行了調研分析，認為這其中原因之一是學校加強了普通話教學培訓和學生重視并強化了普通話訓練學習的結果，但這個原因只能引起成績的緩慢提高，不能完全充分合理地解釋為何現行的“機測”成績比以往的“人測”成績會突然大幅變化（提高）。而且，一個現象更引起了我們的注意：有些“機測”應試者在第四項“命題說話”得分并不高（日常實際說話也的確存在突出問題）的情況下，總成績分數卻很高；尤其是有些“機測”應試者第四項“命題說話”得分在32分左右的情況下，總成績仍然能夠獲得二級甲等（≥87分）的等級。通過進一步大量調查了解，我們發現這種情況還不在少數，而監控也沒有發現舞弊現象，不存在作弊行為。這引起了我們的嚴重關切，為了弄清楚具體情況，了解產生這種情況的原因，我們對“機測”的評分過程和結果進行了調查和分析。

二、調查及分析

（一）分層抽樣的調查分析

普通話水平測試是對應試者普通話標準程度的檢測和評估，包括語音、詞匯和語法三個方面。眾所周知，語音是語言的外化形式，不同語言之間差別最大的是語音。因此，語音是否標準便是評判普通話水平的首要標準，普通話水平測試的評分標準也映證了這一點。可是為什么會出現上述現象呢？我們采用分層抽樣的方法選取學校普通話水平測試站同一個測試任務（任務編號：130451）中獲各個級別成績應試者共112人（樣本成績全為“機測”結果，為了使樣本更具代表性，其中一級乙等以上成績者只有2人，全取；二級甲等成績者中隨機取30人；二級乙等成績者中隨機取50人；三級甲等成績者人數較少，但也隨機取30人）的測試原始錄音，請資深的國家級普通話水平測試員進行人工復評，將其結果與“機測”成績從不同角度進行比較，調查其變化情況。情況如下：

表1 對“機測”結果進行人工復評后的等級變化情況

表2 對“機測”結果進行人工復評后的總成績分布變化情況

表3 對“機測”結果進行人工復評后的前三項成績分布變化情況

表4 人工復評后的第四項成績分布變化情況

通過對112個“機測”樣本成績的人工復評發現，“機測”樣本成績中有相當一部分與人工復評成績存在不小的出入，而且，“機測”樣本成績普遍比人工復評成績要高。對表1的分析顯示，從等級上看，2個一級乙等“機測”成績與人工復評成績完全吻合；30個二級甲等“機測”成績中，只有10個成績與人工復評成績吻合，其他20個成績發生錯檔現象，其人工復評結果全部為二級乙等成績，錯檔比例竟然高達66.67%，令人十分吃驚；50個二級乙等“機測”成績中，有44個成績與人工復評成績吻合，其他6個成績發生錯檔現象，其人工復評結果全部為三級甲等成績，錯檔比例為12%；30個三級甲等成績中，有28個成績與人工復評成績吻合，其他2個成績發生錯檔現象，其人工復評結果全部為三級乙等成績，錯檔比例為6.67%。

對表2的分析顯示，從總成績上看，一級乙等、二級乙等和三級甲等的“機測”成績與人工復評成績都不盡相同，但其與人工復評成績還是很接近的，誤差都比較小（相差都沒有超過3分的；即便是二級乙等中錯檔的6個成績和三級甲等中錯檔的2個成績，其誤差也在3分以內；特別是一級乙等的2個成績，其誤差更是在0.5分以下）。可是二級甲等的“機測”成績與人工復評成績卻出現大部分分數懸殊的情況，不僅誤差發生的面比較大，而且有些誤差還比較大，最大誤差竟然達到了7分以上。

對表3的分析顯示，從前三項成績上看，2個一級乙等的“機測”成績與人工復評的成績基本吻合，其誤差僅為0.1分和0.6分，屬于允許的誤差范圍，可以忽略不計。而二級甲等、二級乙等、三級甲等等三個級別的“機測”成績與人工復評成績比較，相當一部分樣本存在較大誤差；尤其是二級甲等“機測”成績樣本，其與人工復評成績相比較，不僅誤差面大，而且有些樣本誤差幅度很大，最大誤差幅度超過了6.5分。

對表4的分析顯示，從對第四項“命題說話”成績的人工復評結果來看，所有樣本成績與人工復評成績之間的誤差都比較小或沒有誤差，其誤差都在合理的范圍內。

（二）對二級甲等“機測”成績的隨機抽樣調查分析

上述情況是怎么發生的？它說明什么問題？為什么二級甲等“機測”成績樣本與人工復評成績結果產生如此大的出入？為什么這種誤差突出地發生在二級甲等“機測”成績中？為了進一步弄清情況，我們以二級甲等“機測”成績為中心，專門針對二級甲等“機測”成績重新抽樣進行分析，將上述測試任務（任務編號：130451）中“機測”成績為“二級甲等”的測試錄音材料重新隨機抽取86份，請前述同一資深的國家級普通話水平測試員進行人工復評，并將“機測”成績與人工復評成績進行比較。

1．“機測”成績與人工復評成績的前三項得分總分差距比較

把“機測”成績與人工復評成績的前三項得分的總分進行比較，觀察兩者的差距情況，結果如下（見表5）。

表5 “機測”成績與人工復評成績的前三項得分總分差距比較

表5顯示，人工復評成績和“機測”成績兩者的分數差在3分以內的樣本共有59個，占68.6%，其中分數差在1分以內的樣本只占22.1%；而兩者分數差在3分以上的樣本達到了27個，占到了31.4%。而且，“機測”成績普遍高于人工復評成績，86個樣本中只有3個樣本“機測”成績低于人工復評成績，僅占3.5%。

2．“機測”成績與人工復評成績的前三項得分分數段分布比較

把前三項得分的總分分為9個分數段，將“機測”成績獲得者與人工復評成績獲得者的人數分布進行比較，觀察兩者在各分數段的人數分布情況，結果如下（見表6）。

表6 “機測”成績與人工復評成績的前三項得分分數段分布比較

表6顯示，人工復評成績和“機測”成績的前三項得分總分所集中的分數段是不同的，人工復評成績集中在54分以下，共有68個樣本，其中還有7個樣本的得分低于50分，占總樣本數的8.1%；而“機測”成績則集中在53-56分之間，共有69個樣本，沒有53分以下的，57分以上的樣本有7個，占總樣本數的8.1%。

3．第四項“命題說話”“機測”成績與人工復評成績比較

第四項“命題說話”成績，無論是“機測”還是人工復評，都是由測試員根據統一標準進行評判所得，理應不會有較大出入，但為了全面準確地掌握情況和分析問題，還是有必要將兩者之間的差距情況進行比較，結果如下（見表7）。

表7 “命題說話”“機測”成績與人工復評成績差距比較

表7顯示，第四項“命題說話”“機測”成績與人工復評成績完全相同的樣本有9個，分數差距在0.1-0.5分之間的樣本有21個，分數差距在0.6-1.0分之間的樣本有33個，分數差距在1.1-1.5分之間的樣本有11個。也就是說，兩者分數差距在1.5分之內的樣本共有74個，占總樣本數的86.1%；而分數差距在2.0分以上的樣本只有5個，僅占總樣本數的5.8%，而且最大分數差距也在3分以內。

4．“機測”與人工復評的四項總成績得分分布比較

把樣本的“機測”和人工復評總成績得分分為13個分數段，將“機測”成績獲得者與人工復評成績獲得者的人數分布進行比較，觀察兩者在各分數段的人數分布情況，結果如下（見表8）。

樣本的“機測”總成績均為二級甲等，表8顯示，其中87-87.99分的樣本有53個，占總樣本數的61.6%；88-88.99分的樣本有19個，占總樣本數的22.1%；89-89.99分的樣本有9個，占總樣本數的10.5%；90分以上的樣本有5個，占總樣本數的5.8%。而經人工復評，成績為二級甲等以上的樣本僅有23個，僅占總樣本數的26.7%，絕大多數樣本（有63個，占總樣本數的73.3%）的人工復評成績只有二級乙等；即使考慮到可能存在的可接受性誤差因素，將人工復評成績中86分以上的樣本都記為二級甲等，二級甲等成績者也只有37個，僅占總樣本數的43.0%，仍未達到總樣本數的一半。同時，還應看到，人工復評成績中有38個樣本（占總樣本數的44.2%）的得分是低于85分的，甚至有9個樣本（占總樣本數的10.5%）的得分低于82分，只是剛過二級乙等。

表8 “機測”與人工復評的四項總成績得分分布比較

值得注意的是，樣本中，在第四項“命題說話”項目上扣分高達7.5分以上的情況下，“機測”總成績也能達到二級甲等（即得分在87分以上）者竟然有31個，占總樣本數的36.0%；最為突出的是，在該項扣分高達8.5分的情況下，竟有樣本的“機測”總成績仍然達到了88.6分。

對上述二級甲等“機測”成績和人工復評成績的比較和分析結果表明：“機測”總成績和人工復評總成績在第四項“命題說話”項目上的得分差異不大，其差異都在合理和可接受的范圍內；兩者之間的差異主要來自前三項的得分，而“機測”成績的前三項評分是由計算機在網上進行的，也就是說，“機測”成績的前三項計算機網上評分是有問題的，計算機網上評分存在“測不準”的問題。那么，計算機網上評分在哪些方面“測不準”呢？

三、實驗分析

通過進一步的細致觀察和分析，我們發現：“機測”中計算機網上評分對普通話語音的“對”和“普通發音錯誤”①為了研究的方便，根據實際教學和測試工作中掌握的情況，我們把普通話語音問題分為發音錯誤、發音缺陷、連讀和語流問題。發音錯誤是指把一個字的普通話讀音發成另一個字的讀音，又分為普通發音錯誤和特殊發音錯誤。其中，普通發音錯誤是指由于認字錯誤而導致的發音錯誤，比如把“帥”認成和讀成“師”、把“瘸”認成和讀成“腐”等；特殊發音錯誤一般是受方言發音影響而與方言發音關系較大的發音錯誤，比如常見的特殊發音錯誤有把翹舌音讀成平舌音、把后鼻音讀成前鼻音、把鼻音讀成邊音等。發音缺陷是指普通話發音不到位的現象，比如翹舌靠前（即發音時舌尖放在上齒齦處）、尖音、聲調調值忽高忽低等。的判斷識別率高，計算機網上評分能客觀準確地評判普通話語音的“對”和“普通發音錯誤”；對于標準規范的普通話，計算機在網上能準確地判別，計算機網上評測能達到很好的效果，因此，“機測”評分在高等級（一級乙等以上）上錯誤率低、正確率高，“機測”成績能客觀地反映應試者的普通話水平。但是，普通話水平測試不僅要考查應試者發音的“對”和“普通發音錯誤”，對于應試者的“特殊發音錯誤”、發音缺陷、連讀、語流等也要進行考查。我們推測，“機測”評分“測不準”的問題就出在計算機網上評分對“特殊發音錯誤”、發音缺陷、連讀、語流的評判上，普通話水平一級以下的應試者，其發音不僅存在“對”和“普通發音錯誤”的問題，而且還在“特殊發音錯誤”、發音缺陷、連讀或語流上存在問題，由于計算機網上評分對這些方面不能有效判別，評判存在錯誤，評分也就不準確了，從而影響了“機測”成績的客觀準確性，導致“機測”成績不能客觀如實地反映應試者的普通話水平。事實果真如此嗎？為了檢驗上述推測的正確性，我們進行了一個有針對性的初步實驗：選擇一份試卷（試卷編號：I-20071216）中的前三項（即讀單字詞、讀詞語、朗讀）為實驗材料，請普通話規范標準、嫻熟地道（普通話水平為一級甲等）、經驗豐富、語言模仿能力強的國家級測試員作為應試者，故意分全部平舌、后鼻音讀成前鼻音、前鼻音讀成后鼻音、翹舌音靠前、尖音、上聲調值為21、聲調調值忽高忽低、明顯一字一頓讀詞語和文章、豎著讀等9種常見“特殊發音錯誤”、發音缺陷、連讀、語流問題進行模擬朗讀，模擬朗讀共分9次（每次只單獨出現上述某一類語音問題，其他全為標準規范的普通話讀音），分別對其進行“機測”評分和“人測”評分（“人測”評分仍由前述資深國家級普通話水平測試員進行），比較9種模擬問題讀音情況下“機測”評分和“人測”評分的得分差異，結果如下（見表9）。

表9 模擬9種問題讀音情況下“機測”和“人測”的得分差距比較

表9顯示，9類模擬實驗證明：（1）全部平舌、后鼻音讀成前鼻音、前鼻音讀成后鼻音是常見的“特殊發音錯誤”，從“機測”評分和“人測”評分結果看，兩者在“全部平舌”讀音項上的得分差異較大，“機測”得分明顯高于“人測”得分，其差異達到了3.4分，說明“機測”對平翹舌音的分辨識別存在不準的問題；而在“后鼻音讀成前鼻音”和“前鼻音讀成后鼻音”兩項上的得分幾乎沒有差異，說明“機測”對前鼻音和后鼻音的分辨識別是準確的。（2）翹舌音靠前、尖音、上聲調值為21、聲調調值忽高忽低是常見的發音缺陷，從“機測”評分和“人測”評分結果看，兩者在這四個方面的得分都存在差異，“機測”得分均高于“人測”得分，每個方面的得分差異在1.5分左右，在四個方面的得分差異總計達到了6.25分，說明“機測”對發音缺陷的分辨識別也存在不準的問題。（3）明顯一字一頓讀詞語和文章是典型的連讀和語流問題，從“機測”評分和“人測”評分結果看，“人測”不評測、應試者不得分，而“機測”情況下應試者不僅得分，而且還得分很高，說明“機測”對應試者的連讀和語流問題沒有約束和要求。（4）“豎著讀”是應試者對測試規則的嚴重和明顯違反，“機測”和“人測”對其都不予以評分。

通過上述實驗分析，我們可以發現“機測”中存在以下一些問題：第一，由于“特殊發音錯誤”和發音缺陷是與方言發音相聯系或關系較大的一類語音錯誤和語音缺陷，而各地方言彼此各不相同、千差萬別，語音缺陷更是繁雜多樣，“機測”要準確精準地對其進行分辨識別比較困難，因此“機測”對應試者的部分發音錯誤和發音到位情況“測不準”的現象就出現了。第二，“機測”評分中對連讀和語流沒有約束和要求，應試者只要單個字的發音正確，即使把詞語和文章一字一頓地都讀成單個兒單個兒的字，照樣可以得高分。也就是說，計算機網上評分根本就不把連讀和語流作為考查的內容和范圍，不考慮應試者普通話的連讀和語流情況，存在“機測”“不評測”的問題，不能全面客觀地反映應試者的普通話情況。這些問題是造成“機測”成績不能準確反映應試者普通話實際水平的原因所在，因此，出現哪怕第四項“命題說話”得分只有31分、32分“機測”總成績也能夠上二級甲等的現象就不奇怪了。

四、總結和建議

普通話水平測試內容有四項，是按照語言學習的自身規律（即字——詞——句）進行排列的：第一項讀單音節字詞，第二項讀詞語，第三項朗讀短文，第四項命題說話。其測試語音由單一到綜合、測試內容由認讀到應用、測試形式從有文字憑借到無文字憑借，目的在于全面準確地考查應試者的普通話水平。在普通話水平測試的四個測試項中，每個測試項的評判標準不同，也就是說每個測試項的要求各不相同，各有側重，其難度逐一加大。第一項考查的是普通話21個聲母、39個韻母和4個聲調發音的到位度。第二項是在發音到位的基礎上，側重考查詞語的連讀、輕重格式、音變等的準確度。這兩項可以說都是純粹地檢測應試者讀字和詞語的發音準確度。而第三項和第四項才是進入考查應試者普通話的表情達意、自如交流情況的階段，是以句子為單位，根據其“讀”和“說”兩種表達形式呈現的情況，除了考查其語音的標準度之外，還要考查其語氣詞“啊”的音變和“一、不”變調等音變現象的發音標準度、自然流暢度（第四項還要考查其普通話詞匯、語法的規范度）。

“機測”評分是指普通話水平測試的前三項由計算機進行網上評分，其具體評判標準不得而知，但是從調查分析結果來看，顯然沒有達到上述目的和要求。其對“特殊發音錯誤”和發音缺陷分辨識別不準確，存在對應試者的部分發音錯誤和發音到位情況“測不準”的現象；而對連讀和語流又不作考查要求，存在“不評測”的現象，把讀詞語、讀句子等同于讀單字（尤其是第三項朗讀），不能全面客觀地反映應試者的普通話情況。“機測”“測不準”和“不評測”問題的存在，導致其評分結果不能客觀地反映應試者的普通話實際水平，這一點在二級甲等上表現得尤為突出。

為了加強對測試工作的宏觀管理，使其更加規范、健康地發展，20年里，教育部、國家語委等部委有針對性地頒布了多部法律規章，這些法律規章的制定和實施，都在告訴我們：普通話水平測試是國家級測試，是推廣全國通用的普通話的重要舉措之一，理應具有高度的科學性和權威性。而且，我們普通話教學和推廣的目的，是培養和訓練人們能說一口標準流利的普通話，從而提高其語言表達能力和語言交際能力，而不僅僅只是使其普通話發音準確無誤。教育部、國家語委教語用【2003】2號文明確指出，“普通話水平測試測查應試人的普通話規范程度、熟練程度，認定其普通話水平等級，是標準參照性考試”[1]。普通話水平測試的目的是考查和促進應試者熟練地運用規范的普通話進行交際的能力，使應試者能夠運用普通話正確而自然流暢地交流。

“學習一種語言，如果只是能把每個音素或音位的音發得很準確，是不行的。”[2]有聲語言的運動狀態稱為“語流”，口語交際過程一定是有一連串發音的，一個音接著一個音，連續不斷，從而形成意思相對完整的語流。而這種語流所呈現出來的最小單位是句子，口語外化就是“讀”和“說”，即“讀句子”和“說句子”，而不是“讀字詞”和“說字詞”。我們知道，“清晰、準確、流暢，一直是衡量一個人口語表達能力的三個基本維度”[3]，朗讀是把文字作品轉化為規范的有聲語言的再創作活動，其基本要求就是語音清晰、標準，語流流暢。語流所包含的基調、停連、重音、語速、語調等方面都是通過語音外化出來的，所以，在學習和訓練普通話時，不僅要發音清晰準確標準，同時也必須做到語流流暢，要幫助學生在學好語音、學好聲韻調的同時，學好語流的停連、輕重、抑揚、長短、語調、節奏等等，“要提高PSC（普通話水平測試，筆者注）的成績，使學生的普通話水平能有一個質的提高，讓學生說一口純正流利的普通話，教師必須要重視和加強普通話的語流教學”[4]，普通話水平測試必須體現對語流的評判。

而上述“機測”“測不準”和“不評測”問題的存在卻違礙了這些要求的實現，對“特殊發音錯誤”和發音缺陷“測不準”，對連讀、語流問題“不評測”，應試者的普通話實際水平得不到真實的考查和體現，“機測”成績不能準確有效地反映應試者普通話的真實狀況，“機測”的鑒別和導向功能負向作用，長此以往，不僅對普通話水平測試的可信度、嚴謹性、科學性和權威性造成負面影響，而且也會對普通話學習和訓練帶來錯誤的導向，進而偏離推廣普通話工作的目標，對推普工作帶來嚴重的消極后果。因此，對“機測”“測不準”和“不評測”的問題必須高度重視，要對其加強研究，盡快采取措施加以解決。

首先，要按照普通話水平測試的性質和要求，盡可能加大對各種“特殊發音錯誤”和發音缺陷樣本的采集數量，使“機測”語音樣本庫能最大限度涵蓋“特殊發音錯誤”和發音缺陷的各種語音表現情況，以增強計算機網上評分對應試者語音的分辨識別能力，從而使“機測”評分能準確地評判應試者的“特殊發音錯誤”和發音缺陷。其次，要加強機器對連讀及語流的判斷和分析能力的研究，“機測”語音樣本庫的建設要在采集大量單字詞語音的基礎上，增加以雙音節詞、多音節詞、句子為單位的語音樣本數據采集，把連讀和語流作為“機測”考查的內容和范圍，以便“機測”評分能分辨識別應試者語音的連讀和語流情況，讓語音識別做到精細、準確和客觀，能全面客觀地反映應試者的語音面貌和普通話語言水平。再次，現行的“機測”評分采用的是對前三項進行總體評價，給一個總的分數，沒有對每一項單獨進行評分，不便監測和掌握“機測”評分中存在的問題，不利于對“機測”的科學研究和進一步完善，建議采用適當的技術手段使“機測”評分能針對前三項的每一項進行單獨評分。最后，在“機測”技術還沒有完全達到前兩者要求時，可以采用一些補救性措施來彌補和糾正“機測”的不足，以防范“機測”負面作用的進一步擴大。可以采用加大人工復評面的方式，來糾正部分“機測”成績失真的問題。按規定，現行的人工復評只針對“機測”成績為一級的應試者進行；今后，我們可以擴大人工復評的覆蓋面，不僅對“機測”成績一級獲得者的測試錄音全部進行人工復評，對其他等級“機測”成績獲得者也按一定比例或按某一分數范圍抽取其測試錄音進行人工復評，以便掌握“機測”評分的精準情況、監測“機測”評分中存在的問題、糾正部分“機測”評分偏差。

隨著現代科學技術的飛速發展，我們有理由相信：“機測”技術也一定會不斷提高、完善，“機測”結果一定會越來越客觀、準確，“機測”一定會達到科學化和具有權威性。

[1]國家語言文字工作委員會普通話培訓測試中心．普通話水平測試實施綱要[M]．北京：商務印書館，2004：1．

[2]吳弘毅．實用播音教程·普通話語音和播音發聲[M]．北京：中國傳媒大學出版社，2002：88．

[3]劉傳清，戴子卉．基于普通候車室的大學生口語表達流暢度研究[J]．三峽論壇，2015（6）：64．

[4]張建強．PSC與語流教學[J]．賀州學院學報，2007（2）：61．

A Study of the Problem sof Com puter-Aided Scoring in the Putonghua Proficiency Test——An Instigation into Grade A Level2“Computer-Measured”Scores

TONG Xiao-jie
（College of Literatureand Journalism,Hanshan NormalUniversity,Chaozhou,Guangdong,521041）

Computer-aided Putonghua proficiency test converts the test environment from manualwork into computers,the prominent role ofwhich is to reduce human interference and enhance the objectivity and justice of the testso as to increase its normativity and authority.However,through the analysis and contrastof the final scores of tests,it is found that computer-aided Putonghua proficiency testhas problems like incorrect measurementofexaminees’“unique errors in pronunciation”and defects in pronunciation,nomeasurementof sound-linking and speech flow.Such problems can’t be ignored.Otherwise,not only would the seriousness, science and authority of the test be undermined,but alsomisleadingmight arise in Putonghua learning and training.Studies of computer-aided Putonghua proficiency tests should be enhanced,and the categories and quantities of the database of phonetic samples should be enlarged so that the capacity of discernment of com?puter network scoring could be improved.Besides,the errorsof computer network scoring can be partly correct?ed throughmanual reassessment.

computer-measured；unique errors in pronunciation；defects in pronunciation；sound-link?ing；speech flow；“incorrectmeasurement”；“nomeasurement”

H 01

1007-6883（2017）02-0065-08

責任編輯溫優華

2016-07-21

童效杰（1966-），女，湖北通城人，韓山師范學院文學與新聞傳播學院副教授。

韓山師范學院學報2017年2期

韓山師范學院學報的其它文章: 周錄祥教授; 清末潮州的屠戶與地方社會; 新生代員工參與對離職傾向影響的實證研究; 郭篤士; 大學生幸福體驗與不同戀愛關系狀態的相關研究
——以韓山師范學院本科生為調查對象; 潮州木雕與潮州旅游業融合發展現狀及策略探究

計算機輔助普通話水平測試評分問題的研究——以二級甲等“機測”成績為中心的調查分析

一、問題的提出

二、調查及分析

三、實驗分析

四、總結和建議

計算機輔助普通話水平測試評分問題的研究
——以二級甲等“機測”成績為中心的調查分析