無標注的含噪中文長篇幅語音文本的文語對齊研究*

2015-12-02 03:51:04王永遠賈曉茹李傳越

中國海洋大學學報(自然科學版) 2015年10期

張巍，王永遠，賈曉茹，李傳越

（中國海洋大學信息科學與工程學院，山東青島 266100）

近年來，隨著互聯網的飛速發展，網絡上各種多媒體資源越來越多，可以直接在網絡上獲得大量的語音及其對應文本的資源。但是，這些資源中的文本和語音往往不是一一對應的，語音中有時會摻雜一些噪音，如背景音樂、掌聲等；而文本中也會存在一些單詞冗余或者缺失的現象，將這樣的數據稱為含有噪音的語音和文本。如何利用網絡上大量的含噪文本與語音數據，盡可能多的找出其中能夠一一對齊的部分，即文語對齊技術是有效利用這類資源的關鍵問題。隨著網絡上可用多媒體資源的爆炸性增長，這一思路引起了越來越多研究人員的興趣。

文語對齊是語音識別中的一項重要技術，它主要是指將語音與其對應的含噪文本在時間上進行對齊的過程。對齊后的文本語音可用于聲學模型的訓練，語料庫的自動構建和多媒體檢索等領域［1－2］。

文語對齊的傳統方法是利用一個已經訓練好的聲學模型，對要對齊的語音進行識別，產生包含識別結果的文本文件，然后利用該文本文件和原始文本進行比對，找出他們的共同部分。這樣，文語對齊問題就轉換成了文本與文本的對齊問題［3］，語音識別模塊是該技術的核心部分，識別器性能的好壞將直接影響到文語對齊的正確率。目前，大多數的文語對齊技術多依賴于一個經過大量數據訓練的識別器，如在Braunschweiler［4］中用于執行語音識別的聲學模型是利用了150h的語音進行訓練得到的，Hazen T J［5］中同樣使用了一個經過充分訓練的聲學模型來執行文語對齊的算法。而為了得到一個識別效果好的聲學模型需要至少幾十個小時甚至上百個小時正確語料進行訓練，為了獲該部分的數據，不管是通過人工錄音還是直接從別處購買其成本都是昂貴的。而且人工錄音產生的語音數據因為錄音環境和麥克風本身的限制，不能很好的兼顧到各種實際中存在的語音環境和麥克風采集聲音的不同角度，在實際的識別中也就沒有了很好的魯棒性。因此有必要找到一種方法能盡可能的擺脫對預先訓練的，只適應特定環境的聲學模型的依賴。

本文提出一種基于網上開放語音識別引擎來自動的獲得語音和文本一一對應的數據的算法，以開放的識別器來替代需要大量有標注數據預先訓練的識別器，從而擺脫了對需要大量有標注數據訓練的聲學模型的依賴。并接著利用得到的數據來訓練一個面向識別領域的聲學模型，接著以此聲學模型為核心改進了傳統的文語對齊SailAlign算法，對語音和文本重新進行迭代的、自適應的文語對齊。

1 基于開放識別引擎及有限狀態機語言模型的文語對齊算法

在傳統的文語對齊算法中，原始的語音經過預先訓練的識別器識別后會產生帶有時間信息的文本，該時間即為文本在音頻文件中的位置信息。將該部分文本與原始的文本進行文本對齊后，將會得到二者的公共部分，也即語音中一定含有的部分，然后根據文本的時間信息，即可找到與之對應的的語音。

為了擺脫對預先訓練的聲學模型的依賴，考慮利用谷歌的開放語音識別引擎（Google voice recogni-tion，簡記為GVR）來代替傳統文語對齊技術中的語音識別器，對含噪的語音和文本進行識別。但是在利用GVR對語音進行識別產生的文本文件中并不包含時間信息，沒有了時間信息也就無法正確找出文本所對應的語音。為此，提出了一種基于有限狀態機（Finite State Automaton，簡記為FSA）的語言模型識別算法來得到需要的時間信息，進而得到文本所對應的語音，稱該算法為GVR-FSA算法。

1.1 GVR-FSA文語對齊算法

該算法首先利用GVR對原始的語音進行識別得到識別結果，接下里將該部分結果與原始的文本進行文本對齊，在對齊的結果文件中包含2個部分，即兩者共同含有的部分和不一致的部分。共同的部分為語音中一定包含的部分，而另一部分是否包含并不確定，本文利用基于有限狀態機的語言模型來描述文本的這一特性。然后再經過利用原始的含噪語音和文本進行訓練的語音識別器（下文中將稱該識別器為含噪識別器）對語音進行第二次識別，在本次識別過程中結合由上面得到基于有限狀態機的語言模型來得到文本所對應的準確的時間信息。由于有限狀態機對文本的結構做了進一步的規定，使得它比普通的、單純統計概率的語言模型對文本的限制更加的嚴格［10］，所以即使是利用含噪識別器對語音進行重識別的情況下仍能找出文本所對應的正確時間信息。實驗數據表明由該算法得到的文本和語音不對應的時間誤差在0.1%左右，大大低于在人工錄音過程中對該誤差的要求。

該算法的主要模塊，流程圖見圖1。

圖1 GVR-FSA文語對齊算法的流程圖Fig.1 The flow chart for the algorithm of the GVR speech-text alignment

1.2 各功能模塊的功能描述

下面分別介紹上述算法流程圖中各個模塊的功能。

1.2.1 文本的正則化在由網絡得到的文本中常會含有一些亂碼如“＆nbsp”和“strong”等，還有一些和讀音不一致的常用的符號如“%”，以及數字符號如“1984年”、“200多公里”等，這些都需要根據語音中的讀音時進行轉換，即將“＆nbsp”和“strong”部分刪除、將“%”轉換成“百分之”、將“1984年”轉換為“一九八四年”、將“200多公里”轉換為“二百多公里”等。即將文本進行正則化處理，以得到較為規整的文本來提高文本與文本對齊的正確率。

1.2.2 含噪識別器的訓練將經過文本正則化處理的文本和原始的語音作為訓練數據，來訓練一個語音識別器，以執行GVR算法中的第二次語音識別。

由于語音和文本中含有噪聲，不能保證語音和文本的一一對應，會有大量文本和語音對應不上的數據，由此訓練的隱馬爾科夫模型與準確的模型間會存在較大的誤差。而如果我們識別器中的隱馬爾可夫模型的數目越少，其受該部分錯誤數據的影響也就會越少。因此在這里我們訓練了一個基于聲韻母的單音素語音識別器。

1.2.3 原始語音文件切分在網絡上直接獲得的語音一般都比較長，直接將其用GVR進行識別的識別正確率低；同時由于語音在通過網絡提交給GVR時會受限于網絡帶寬，在網速不佳時識別速度也比較慢；經常會導致在返回的識別結果的文本文件中有大量的空文件，識別效果很不理想。

經過分析各種時長下語音的識別效果，我們發現GVR對時長為10～20s的語音識別效果最好。故我們對長語音首先進行了切分，以得到適合GVR識別的音頻文件。然后將該部分短的音頻文件提交至GVR進行識別。

1.2.4 GVR識別得到文本谷歌語音識別引擎是開放的識別工具，在用戶把音頻文件按照要求的格式提交后，它會返回一個個包含識別結果的文本文件。為了在下面執行文本與文本對齊的方便，我們該部分得到的小的文本文件按照原始的語音數據匯總成一個較大的文本文件。

1.2.5 文本過濾由GVR識別返回的文本結果中會含有一些噪音，如一般會有英文單詞、數字和單個的字母等垃圾信息，為了提高在接下來文本與文本對齊的準確性，這里對該部分垃圾信息進行過濾。只保留返回結果中的漢字部分。

1.2.6 基于FSA的重識別在得到文本過濾后的文本（下文中用識別文本來代表該部分文本）后，下一步的工作就是找出文本中正確識別的部分。為此將原始文本和識別文本進行文本對齊，對齊后兩者同時含有的共同部分即為正確識別的文本。

在GVR返回的文本中，只有識別結果而無時間信息，無法得到該部分文本所對應的語音部分。為了得到所需要的時間信息，我們利用上面訓練的含噪識別器，并結合基于有限狀態機的語言模型［4］對語音進行第二次識別，以將該正確部分文本對應的語音找出，形成文本與語音一一對應的數據。

基于有限狀態機的語言模型由兩部分組成，一部分為正確文本，指的是在文本對齊中產生的正確識別部分的文本，即為識別文本與原始文本都含有的部分；另一部分為剩余文本，指的是原始文本中除去已正確識別出的文本外剩下的未對齊的部分。對于該部分文本不能確定它在原始的語音是否存在。因此，在構造該語言模型時將正確文本在語言模型中視為必會出現的狀態，而將剩余文本作為可選的狀態來完成有限狀態自動機的構建。原理見圖2。

圖2 有限狀態機圖示，W1和W3為正確部分，W2和W4為可選部分Fig.2 The diagram of the finite state automata，W1and W3are the right part，W1and W3are the optional part

2 改進的SailAlign文語對齊算法［6］

通過分析GVR-FSA算法的識別過程，發現在網絡不穩定時，經常會得到許多空的返回文件，使得整個識別過程對網絡的依賴性很大，算法的穩定性不好。在返回的非空文本中能夠正確識別的文本約為50%（見實驗部分），識別的正確率也比較低；而接下來還需要重新訓練含噪識別器對語音進行二次識別，以獲得時間信息，這又進一步增加了整個算法的時間復雜。

為了克服上述缺點，我們在利用GVR-FSA算法得到了語音文本一一對應的部分數據后，接著利用該部分數據訓練了一個基于三音素的漢語連續語音的聲學模型，以該模型作為語音識別器，并參考了傳統的文語對齊算法SailAlign的架構來重新執行文語對齊。由于該識別器返回的識別結果中就包含了時間信息，因此也就不需要在GVR-FSA算法中所需要的重識別過程，整個算法的時間復雜度得到了降低，同時該語音識別器是通過要識別領域的文本和語音訓練得到的，也能保證其較高的識別率。同時SailAlign算法在執行文語對齊得到了語音和文本一一對齊的數據后，接著利用該部分數據對聲學模型進行了加強訓練，然后利用新的聲學模型對接下來的數據進行識別。整個過程是一個迭代的過程，與GVR-FSA算法相比，其識別器的識別率是在不斷的提高的。SailAlign算法已在Black M P和Lee C C［7］中提到的關于對齊含有噪音的交互語音數據領域得到了成功的應用。

該算法的流程見圖3。

圖3 SailAlign算法的流程Fig.3 The process of the algorithm of the SailAlign

同時為了進一步提高該算法中語音識別器的識別率，對SailAlign算法中的語言模型部分進行了改進。SailAlign算法中的語言模型是基于要識別文本所建立的語言模型，在識別文本中的錯誤率不是很高的情況下，該算法能獲得很好的效果。但隨著文本錯誤率的升高，錯誤部分對整個語言模型的影響也越來越大，使得識別的準確率降低。為此我們使用了融合的語言模型來避免文本錯誤率升高對語音識別正確率的影響。具體是首先我們基于大量文本訓練了一個通用的語言模型，將待識別的文本訓練了一個特定的語言模型；在實際的語音識別中使用的語言模型是將上述兩個語言模型進行融合得到的（融合的比例為通用的模型為0.2，特定的模型為0.8），以此來削弱文本錯誤率對識別結果的影響，同時又保證了識別結果向原文本的偏置。實驗結果表明，融合的語言模型在文本噪音較大時仍能取得較高的識別正確率。但在識別過程中，由于使用了通用的語言模型與特定的語言模型融合的技術，使得每次的識別過程中的語言模型都比較大，識別的時間相對于原算法來說延長了很多。

2.1 語音數據的預處理

首先對音頻文件進行切分，將長語音文件切分成較小的語音片段。（本文中約為10～15s）。與GVR部分不同的是，這里我們是在聲學特征領域對音頻文件進行切分，即首先對音頻文件進行聲學特征的抽取，然后直接在聲學特征域內對音頻進行切分，這樣在以后的迭代識別中就不需要再進行聲學特征的抽取了，使得整個算法過程更加高效［6］。

2.2 語音識別，文本與文本的對齊

與GVR文語對齊算法過程類似，接下來對切分成小音頻段的語音進行識別，并將識別后的結果匯總成1個文本文件，并將該文本文件與原始文本進行對齊，找出正確識別的部分，并將剩下的文本和語音視為未對齊的部分，利用SailAlign進行重新對齊，即迭代的進行識別與對齊。

2.3 聲學模型與語言模型的自適應

為了提高對噪音的魯棒性，對每次迭代的識別和對齊后，我們都要用已經對齊的好的語音和文本來更新聲學模型，而對于語言模型則是是在每次迭代后都再基于未對齊語音部分來重新建立。該過程將迭代進行3次，在最后的2次迭代過程中，聲學模型將不在更新，只是對語言模型進行自適應。

3 實驗結果及數據分析

使用開源的工具sox來對在GVR-FSA算法中的長語音進行切分；而在SailAlign算法中對音頻進行切割的工具，使用的是Ghosh P K［9］描述的工具；語言模型的訓練是使用的SRILM工具［8］；文本與文本的對齊使用的動態規劃的算法，利用的開源工具Sclite來實現的。

原始的語音和文本數據使用的是網上免費的新聞聯播數據，約為20h，利用該部分數據，首先分別對GVR-FSA和SailAlign兩種文語對齊算法的性能進行測試和比較；接著對改進前后的SailAlign算法中文本錯誤率對它的影響做了比對和分析；最后測試了2種文語對齊算法得到的對齊后數據的錯誤距離（error margin），以此來衡量兩種文語對齊算法產生的數據的準確性，并對此進行了分析。錯誤距離即為算法得到的語音及其時間和實際語音所對應時間之間的誤差所允許的時間間隔，本文將該間隔設為50ms，error margin大于50ms的數據被認為是對齊錯誤的數據。需要說明的是在實際測試算法對齊后數據的準確性時，我們統計的是error margin大于50ms的字的個數占原始文本中正確字的個數的百分比，即字錯誤率（Word error rate）。

初始的20h左右的含噪新聞聯播數據經過GVRFSA算法對齊后，得到了文本和語音一一對齊的數據約為10h。然后利用該部分數據訓練出一個基于三音素的連續語音聲學模型，以用于實現SailAlign算法。SailAlign算法中的通用語言模型是用了搜狗實驗室的新聞文本進行訓練的。測試數據我們用的是1h的含噪語音和文本。

測試的結果見圖4、5和6。

圖4給出基于測試數據的GVR-FSA和SailAlign 2個算法中的正確率比較。在這里的正確率是指2種算法得到的準確文本中漢字的個數占原文本中漢字的總個數的百分比。

圖4 SailAlign和GVR的性能比較Fig.4 The comparison of performance between the SailAlign and the GVR

從圖中可以看出，由于SailAlign算法中使用了面向原始的語音和文本的數據來訓練聲學模型和語言模型，識別的性能有了顯著的提高，同時該算法的魯棒性也很高，在噪聲達到10%時仍然有著較高的正確率。而GVR-FSA的魯棒性雖然也較高，在各種噪音情況下基本保持了同樣的識別正確率，但是其識別率較低，同時由于其對網絡的依賴性，使得它穩定性和時間效率較低。

接下來對改進前后的SailAlign算法的識別性能進行了測試（見圖5）。

圖5 改進前后的SailAlign性能比較Fig.5 The performance comparison of the SailAlign

從圖5中可以看出，文本中的噪音對只通過單文本訓練的語言模型的識別性能影響比較明顯，而通過加入通用的語言模型后，在噪聲達到10%時仍能達到94.5%的識別率，這里94.5%指的是正確識別出的文本占原文本中正確文本的概率。SailAlign的魯棒性得到了提高，在利用兩種算法得到的語音和文本對應的數據中會存在有的語音和文本對應錯誤的情況，一般來說是指在文本開頭或結尾的部分會存在多字或少字的現象，即該部分語音的時間與實際正確時間的前后時間誤差超過了本文對error margin 50ms的要求，這里用WER來表示不匹配的概率。

圖6給出的是在2種算法的WER比較。

圖6 SailAlign和GVR的字錯誤率能比較Fig.6 The comparison of WER between the SailAlign and the GVR

從圖中發現2種算法的WER都比較低，低于人工標注語音文本數據中所允許的0.1%的錯誤率。由算法得到的數據可直接應用于語料庫的構建和多媒體的檢索等領域。

4 總結展望

本文介紹了一種不依賴于預先訓練好的聲學模型的文語對齊的算法，實驗表明，該算法在噪音比較高的情況下，仍然可以達到比較高的性能。SailAlign算法中用的聲學模型是用了10h的語音文本數據訓練得到的，增多訓練的數據量將會進一步的減小WER。

接下來的研究工作主要是進一步擺脫對開放識別器的依賴，研究如何在沒有開放語音識別器的情況下，也沒有可用于訓練聲學模型的語音與文本數據情況下來進行文語對齊算法的技術。具體來說就是繼續加強對語言模型的限制，利用本文中提到的基于有限狀態機的語言模型方法對原始的文本進行處理，考慮到各種可能文本字符間的狀態轉移路徑，然后將語音對各種路徑進行一個打分，找到其中概率最大的路徑，即為語音所對應的文本。而如何對轉移路徑進行打分將是該算法的關鍵。

［1］Moreno P J，Alberti C.A factor automaton approach for the forced alignment of long speech recordings［C］.Proc of the IEEE International Conference on Acoustics，Speech，and Signal Processing，Taipei：ICASSP，2009：4869-4872.

［2］Caseiro D，Meinedo H，Serralheiro A，et al.Spoken book alignment using WFSTs［C］.Proc of the second international conference on Human Language Technology Research.San Francisco：ACM，2002：194-196.

［3］Moreno P，Joerg C，van Thong J M，et al.A recursive algorithm for the forced alignment of very long audio segments［C］.Proc of the Int’l Conf on Spoken Language Processing，Sydney：IEEE press，1998：2711-2714.

［4］Braunschweiler N，Gales M J F，Buchholz S.Lightly supervised recognition for automatic alignment of large coherent speech recordings［C］.Proc of the Interspeech，Chiba：INTERSPEECH，2010：2222-2225.

［5］Hazen T J.Automatic alignment and error correction of human generated transcripts for long speech recordings［C］.Proc of Interspeech，Pittsburgh：INTERSPEECH，2006：1606-1609.

［6］Katsamanis A，Black M P，Georgiou P G，et al.SailAlign：Robust long speech-text alignment［J］.Proc of Workshop on New Tools and Methods for Very Large Scale Research in Phonetic Sciences，2011，1：28-31.

［7］Black M P，Katsamanis A，Lee C C，et al.Auto-matic classification of married couples’behavior using audio features［C］.Proc of the Interspeech，Chiba：INTERSPEECH-2010，2010：2230-2033.

［8］Stolcke A.SRILM-an extensible language modeling toolkit［C］.Proc Int’l Conf on Spoken Language Processing，Colorado：ICSLP，2002：269-273.

［9］Ghosh P K，Tsiartas A，Narayanan S S.Robust voice activity detection using long-term signal variability［J］.IEEE Trans Audio Speech and Language Processing，2010：19：600-613.

［10］Stan A，Bell P，King S.A grapheme-based method for automatic alignment of speech and text data［J］.IEEE Workshop on Spoken Language Technology，2012，1：286-290.