上聲變調在語音識別中的實證研究*

2021-06-11 05:39:10楊靜

科學與信息化 2021年15期

楊靜

華中師范大學文學院湖北武漢 430079

引言

在語流中，音節與音節相連時有些音節的聲調發生改變，與單念時調值不同，這種變化稱為變調。在眾多的變調現象中，上聲變調最常見，也最容易出現語音缺陷和語音錯誤現象（宋揚，2015）。上聲連讀變調受語言學界廣泛關注，主要集中在對變調調值、調類的探討。

上聲調只在單念、詞句末尾念全上調值214度。當兩個上聲相連時，前一個上聲是否與陽平為同一個調類，也有學者就此展開爭議。趙元任（1948）認為“要是一個上聲字后頭跟著另一個上聲字，第一個字就變成陽平”。但有學者指出前一個音節只是近似陽平，應視為直上（安英姬，1981）。三個上聲相連時，吳宗濟（1985）指出在單雙格中，中間字一般變為陽平，首字變為半上；雙單格中，首字變為陽平而中間字成中降的過渡調，過渡調的調值為42，末字則維持本調，調值比原先低。

目前對上聲變調的研究主要有聲學實驗與感知實驗兩種形式，前者采用精確儀器進行測量，后者注重母語者的聽辨感知，語音識別既不同于儀器測量，也不同于聽辨感知，它是人機交互的重要形式，通過用戶輸入聲音，系統在集合中選擇最佳匹配項進行文字輸出。本文以科大訊飛公司開發的訊飛輸入法為工具，探求上聲變調在語音識別中的錯誤類型與錯誤成因，并進行適當的對策分析。

1 研究方法與過程

1.1 發音合作人

合作人一名，性別女，21歲，本科學歷，普通話等級一乙。

1.2 實驗材料

本文的上聲字組材料來源于《現代漢語詞典》（第七版），選取所有A～H開頭的上聲字組，其中雙音節上聲字組共360個，將其按照使用頻率、使用范圍分為常用字組與生僻字組。三音節上聲字組9個。

1.3 過程方法

發音合作人在安靜的自然環境中對著手機麥克風使用訊飛輸入法進行語音輸入，同時利用錄音筆進行錄音。由于訊飛輸入法的輸入結果會受到上下文環境的影響，因此在測試時，要求發音合作人以自然語速讀出字組，且每個字組都要有4秒的間隔[1]。

2 實驗結果與分析

2.1 雙音節字組

雙音節字組共360個，識別結果完全正確（識別結果與預期結果一致）的有234個，識別結果錯誤的有126個，其中部分錯誤（音完全相同但字不同，如管?！茱枺┑挠?0個，完全錯誤的有36個。由于本文不涉及同音字組，因此排除部分錯誤字組情況，對36個完全錯誤字組進行錯因的類別整理[2]。

2.1.1 按照錯誤類型分類。雙音節上聲字組中識別錯誤的字組占35%，識別結果完全錯誤的上聲字組占總數的10%。訊飛輸入法對上聲語流音變的識別結果大致理想，但也存在較為普遍的問題。

對36個完全錯誤的字組進行錯因分析，前字錯誤的比例遠大于后字錯誤，而且聲調錯誤均為前字錯誤與后字錯誤的主要原因，由于發音合作人的發音標準無方言口音，可以排除發音合作者的口音因素。同時，在上聲變調的語音識別中，前字錯誤的主要問題為上聲變陽平，而后字錯誤則主要為上聲變去聲。由此可知，雙音節上聲字最主要識別錯誤類型是前字聲調變陽平，其次是后字聲調變去聲。

2.1.2 按照常用字組與生僻字組分類。完全錯誤常用字組在總常用字組中占比較小，僅7.88%，而完全錯誤生僻字組在總生僻字組中占比33.33%?？傮w來看，生僻字組的錯誤率遠高于常用字組。

2.2 三音節字組

三音節上聲字組共9個，正確率100%。

3 Praat實證分析

對照組結果顯示訊飛輸入法對“上聲＋上聲”與“陽平＋上聲”的識別正確率極低，同時發音合作人反饋，在朗讀的過程中并沒有很明顯地感受到對照組的區別，這一定程度上說明雙音節上聲前字的變調與陽平具有極大的相似度。為了更加精準地顯示二者存在的異同，筆者利用Praat對“凡響”與“反響”的音高進行分析[3]。

圖1 “凡響”與“反響”的音高變化對比（實線為“凡響”音高，虛線為“反響”音高）

“反響”與“凡響”的前字調型為凹調，音高曲線走向基本一致，前字音高經歷了先降后升再降的趨勢，后字音高為先降后升?！胺病迸c“反”經歷了明顯的先降后升再降過程，與“凡”相比，“反”的調域更小，持續時間較“凡”長。響凡與響反也有先升后降的變化趨勢，響凡的上升持續時間更久，整體基頻值也比響反高。

4 影響因素

4.1 語流音變中的上聲變調

兩個上聲連讀在語音識別中的主要錯誤類型包括前字被識別為陽平與后字被識別為去聲，且前一種情況導致的錯誤率極高，可以看作是語音識別中的難點，需要了解上聲變調的原因.國內外學者也展開廣泛的探討，其中自主音段理論與優選論較有啟發性。自主音段理論認為語音的各類音段有各自的獨立性，聲調是能獨立于音段的“自主音段”，也就是聲調與音段分屬于兩個不同的層面，將聲調獨立出來后就其內部構成展開探討，發現調素脫落的物理實質是語流中相對時長的限制。優選論則以制約條件的交互作用處理音系現象，通過把普遍趨向的制約條件進行不同層級排列來分析解釋[4]。（陳佩娟，2013）

因此，若是能夠對音調內部的制約條件進行有效的歸納、分析，將有利于進一步提高語音識別的正確率。

4.2 同一音節中上聲與陽平并存

由于前字被識別為陽平是導致高錯誤率的主要原因，若是前字的音節既存在陽平形式又存在上聲形式，那么被識別錯的概率將會更大。只存在上聲形式而不存在陽平形式的音節在語音識別中的錯誤率極低，由此可以進一步縮小研究對象范圍，重點針對既存在陽平形式又存在上聲形式且合成的字組為常用詞的音節。

4.3 字組的使用頻率與使用范圍

生僻字組與常用字組識別正確率的差異說明字組的使用頻率與使用范圍也會影響識別的正確率，由于語音識別基于大量的語料，因此往往更偏向由構詞能力強的字所構成的使用次數多且使用范圍廣的字組，導致大量生僻字組在發音完全正確的情況下被替換為更加符合日常場合的字組。進一步完善統計方法、擴大語料庫將有效提高識別的正確率。

由于此次研究對象為非連續性文本，因此沒有考慮上下文語境的影響，客觀來說，生僻字組如果放在合理的語境中，將降低識別錯誤率[5]。

5 結束語

本文就上聲變調的語音識別進行實證研究，選取《現代漢語詞典》中兩個上聲相連與三個上聲音節相連的詞，通過發音合作人獲取訊飛輸入法識別結果與錄音。通過統計與語圖分析發現影響其識別正確率的因素包括語流音變，尤其是前字上聲被識別為陽平；音節形式；使用頻率與范圍。對以上幾種原因都提出相關對策，但根本措施應該是有效提高聲學模型精度，這就需要進一步研究上聲變調前字的發音類型。

科學與信息化2021年15期

科學與信息化的其它文章: 沙仔島土地綜合整治生態修復實踐與成效淺析; 淺析廣播電視播控技術及維護管理工作; 淺析信息時代背景下的企業數字化轉型; 《數據庫技術及應用》課程的診改分析
——以寧波職業技術學院為例; 我國科技評估標準化建設路徑分析; EDA技術在電工電子技術教學中的應用研究