雒瑞森,任品,曠昊恒
(四川大學電氣信息學院,四川成都,610065)
該項新技術在設計和實現上主要分為三個部分:廣播聲學模型設計、語音-關鍵詞轉換和非法廣播判定。其中,廣播聲學模型設計即基于廣播錄音的自動語音識別(automatic speech recognition)中聲學模型(acoustic model)的設計;語音-關鍵詞轉換的目的是基于上一步聲學模型,設計語言模型(language model)及詞典(dictionary),將所需要的關鍵詞提取出來;而非法廣播判定則是根據所提取的關鍵詞,結合領域的專家知識,進行是否為非法廣播的判定。
對于聲學模型,在本研究中,我們使用改進語音識別基底模型的方法,結合廣播信號的特點,進行了模型的設計。具體的,我們首先采用了某語音識別的基礎中文模型,作為我們模型的基底;然后,我們錄制了具有所需識別的廣播信號特點的樣本信號,通過逐句分音節標注的方法,基于最大后驗概率(MAP)技術,對聲學模型進行了參數自適應的操作。這樣,進行了參數自適應后的聲學模型,既保留了原模型中大量中文詞匯的聲學模型識別能力,又特別的增強了針對特定的無線電廣播環境進行特定識別功能。
對于語音-關鍵詞轉換,由于廣播錄音噪聲較大,如果我們采用標準的中文語言模型,則會產生關鍵詞無法識別、而許多不相關的詞匯被錯誤的“識別”的現象。所以,為了準確的識別關鍵詞,我們通過僅使用少許關鍵詞加入詞典的方法,進行語音-關鍵詞的準確識別。同時,由于我們并不需要完整的、具備意義的句子,所以設計的語言模型(language model)的容錯率顯得相對高很多。
在獲取關鍵詞后,對于非法廣播判定的技術,我們采用專家系統(expert system)的方法。所謂專家系統,就是根據相關領域專家的經驗,將相關知識提取為表達式,從而得到根據關鍵詞自動判定非法廣播的方法。例如,我們有三個備選的關鍵詞,我們可以根據專家經驗,設置關鍵詞1+關鍵詞2為非法廣播,而關鍵詞1+關鍵詞3為正常廣播。需要注意的是,在實踐的判定中,我們可以加入模糊邏輯(fuzzy logic),使得產品不僅可以輸出是否為非法廣播的判定,也可以輸出其置信度(confident level)。在置信度較低的時候,我們可以請求人工干預,來判定是否為非法廣播。
高斯混合模型使用多個高斯分布的聯合表達,具有多個分布中心,非常適合進行聲學模型的模擬。它的基本表達公式如下:

從公式中,我們可以看出,這個概率密度函數可以視為多個高斯的組合。由于聲音信號往往呈多中心方差衰減分布,故而高斯混合模型非常適合作為聲學模型的建模。高斯混合模型具有很強的表達能力,但是其模型訓練并不是一件簡單的事情。對于概率分布函數,我們在訓練時常常使用最大化對數似然函數(Maximum log-likelihood)的方法。但是,由于高斯混合模型的對數似然函數并不連續可導,故而需要我們使用啟發式算法進行訓練。較為常用的啟發式算法為E-M算法,它可以自然的可以保證概率相加/積分為1的特點,使得其在求解概率密度函數極值問題時有廣泛的采用。計算機科學家已經證明,E-M算法可以實現超線性收斂,故而從數值優化的角度講,這也是一個較為理想的選擇。
E-M算法可以表述如下:假設待學習的參數為θ,混合模型隱變量為Z(高斯混合模型中即 P (m ),各高斯分布系數),單一模型變量為X(高斯混合模型中即各高斯模型的均值和方差),對數損失函數為[logL(θ;X,Z)],則E-M算法可以表述為:

通過循環上述步驟的操作,我們可以使得參數θ逐漸收斂到最優值。
完整的聲學模型,是基于高斯混合模型-馬爾可夫鏈而設計的。具體的來說,在語音識別中,語音信號由音節組成;而音節之間相互聯系,最終組成了語言。而由于馬爾可夫鏈可以學習系統的時變特性并捕獲各音節時間之間的相互影響關系,故而被廣泛的應用于語音識別的聲學建模。
隱馬爾可夫模型由顯狀態(觀測)和隱狀態(隱變量)兩部分組成,其中顯狀態是我們直接觀測到的部分,如語音信號中的數據;隱狀態是我們模型假設有、但是對我們不可見的變量。在馬爾可夫模型中,狀態之間的轉換是在隱狀態中完成的,但是每個隱狀態都需要一個分布來轉換為顯狀態的觀測:這也是其稱為“隱”馬爾可夫模型的原因。值得注意的是,在隱馬爾可夫模型中,對于隱變量s,其當前時刻的值之與上一時刻有關;同時,對于當前的觀測值,其只與本時刻的隱變量有關。我們稱這種性質為馬爾可夫性,而由于這種性質的算法繪制成圖片會呈現“鏈狀”,故而我們又可以稱其為“隱馬爾可夫鏈”。隱馬爾可夫鏈牽扯到如下兩個重要的公式:

其中,第二個公式為對各幀的特征信號進行建模的概率密度函數,即有時我們所說的“發射函數(emission function)”。在聲學信號建模中,我們令這個函數遵從高斯混合模型,從而得到我們的HMM-GMM總體模型;而第一個公式則反映的是隱狀態之間的變化,狀態之間的轉移可以使用動態規劃(Dynamic Programming)的方法計算。
從統計學上講,最大后驗概率模型可使用如下模型表示:

其中,P (λ) 為先驗概率(prior),而 P (O|λ)為似然函數,即表征數據在特定的模型設定下似然程度的度量。在聲學模型參數適應改進中,我們的 P (λ)即語音識別模型中中文基本聲學模型的參數,而 P (O|λ)則應為我們新加入的數據的似然函數。假設在已有的模型中,多個高斯分布的均值符合如下分布:

不過,一般而言,對于最大后驗概率的模型參數調整,我們會傾向于改變各高斯模型的權重,而非高斯分布本身。假設我們現有的模型可以被一個超參數為{, ημ}的狄利克雷分布和一個超參數為{,, ,αβμτ}的Gamma-Gaussian分布所表示,則參數的更新可以表示為:

該技術在呈現給用戶的軟件中,將擁有一個自適應完成的模型,并擁有一個易于操作的接口,可以使用戶方便的進行無線電廣播內容的識別。具體的操作中,我們使軟件支持載入錄音文件及錄音兩種格式。同時,由于我們的API對于文件讀取有壓縮格式的需求,故而在軟件中我們也會加入自動對錄音進行轉碼的內容。
對于定制產品的提供,我們采用兩種版本:一是由用戶提出需求并提供相應數據,這樣我們可以根據數據的特殊情況提供定制的產品。改方案可以直接在現有的模型基礎上提供軟件,也比較適合一般的用戶;二是我們可以提供一個帶有DIY接口的產品,使得用戶可以自行進行產品的定制化。方案二需要我們開發相應的可視化參數調整接口,也更適用于有特殊開發需求的用戶。
對于產品的跨平臺、可移植性和軟件穩定性,我們當前提供pc操作平臺的版本,包括windows/mac/linux。在后續的版本中,我們可以加入手機平臺版本android/IOS,以及更多的單片機/嵌入式系統版本。
本研究根據廣播信號管控的具體問題,設計了特定的語音識別模型,從而實現了針對特定問題的最優化表現。最后,目前市面上流行的模型中,大部分只提供線上使用功能,無法嵌入到類似于無線電頻譜管控類的產品中;且無法離線使用,可以移植性差;而本研究采用將模型存儲在軟件中的方式,允許軟件離線使用,極大的提升了技術的可移植性。同時,使用語音識別技術結合專家系統進行廣播信號頻譜管控,也是一種非常新穎的思路。該技術的研發為后續類似的產品提供了具體的思路,并且其優良的效果及可移植、可離線使用的特性,也體現了該產品新穎的特征。