楊雪祎


摘 要:隨著時代的快速發展,有關帶有對情感分辨的語音識別馬上就將進入人們的視線。現在已經有了對情感分辨的初級應用,比如微信的語音會通過特殊詞以及說話人的語氣在翻譯中給出小表情。本文淺寫了帶有情感的語音識別以及對于語音評分給出的不同思路。
關鍵詞:語音評分;語音識別;情感分辨
現今,隨著我國旅游產業發展越來越快,導游行業出現人才供應不足的現狀,在這樣的大環境下,出現一款有關情緒,有關講解的評分的語音評分系統是勢在必行的趨勢。
語音情感識別是指計算機可以自動識別語音信號的情感狀態。語音作為人類的主要交流媒介之一,不僅承載了語義信息,還包含了說話者的情感信息。讓機器感知人類的情感,將有助于在人機交互中進行更自然的、更和諧的對話。語音情感識別在人機交互中的重要作用,目前已經成為模式識別、多媒體信息處理和人工智能等領域的研究熱點。賦予機器識別語音情感的能力,可以進一步提高語音識別和說話人識別的性能,是實現自然人機交互的關鍵。
1 語音識別
在相同的情感語言信息中共享相似的聲學特征,也涉及不同說話人的個體風格。因此,成熟的語言情感識別系統具有良好的泛化性能,需要訓練才能獲得魯棒的語義特征。情緒的出現不是瞬間的,而是通過暫時的積累來表現的。因此,如何從時間維度思考情感的發展是語言情感識別的一個重要突破。在以往的許多操作中,基于幀級音頻特征提出了不同的處理方法,希望能夠捕捉到連續幀特征中包含的時序信息,并學習情感上相關的語義特征。該方法不局限于均衡、最大庫、卷積神經網絡、循環神經網絡和長度記憶單元。
情感特征提取作為語音情感識別的重要組成部分,引起了眾多研究者的廣泛關注。這些研究大多致力于設計一些最具特色的手工特征進行情感識別。更具體地說,特征提取包括兩個階段。首先,從每一幀語音信號中提取一些聲學特征,通常包括韻律學特征、基于譜的相關特征、聲音質量特征和非線性特征等,還有一些通過改變算法提取的情感特征。然后,將不同的統計函數(均值、最大值、方差等)應用于每個話語的聲學特征得到統計特征。通過大量精心準備的實驗,尋找表現出與情感高度相關的特征,這是一項耗時耗力的工作。此外,所選特征的有效性在很大程度上仍然依賴于所實現的模式識別模型,導致其通用性較低。
2 語音評分準則
2.1 完整性
對于這個方面,最重要的是開始的語言和結束的語言,以及是否能將景物,景點的重要點都講出來。
2.2 流利性
上下的連貫,整體的流利性作為評分的重點一環。停頓是衡量語言流暢性的一個重要指標。1)在適當的詞匯量中,語義組之間的間隔適當的長度;2)連續詞匯量之間不應停止。僅僅通過話語的流動性來衡量句子的流暢性是遠遠不夠的。該方法的目的是通過計算句子的表達流來獲得句子流暢性模型。判斷句子流利程度的方法也適用于句子的等級劃分。
2.3 發音正確性
發音的正確性的權重比較低,由于導游的證書里會對普通話有所要求,一般不會有很多的發音不正確,所以它的比重相對較小。但是,要求導游盡量降低俚語的使用程度。俚語的使用情況會酌情扣分。即用SER和WER作為識別和評分的重要部分。
2.4 韻律性及情感性
這個方面會作為比重很大的一個方面,由于導游的職業性質、韻律性和情感性一定是吸引游客的重要方面,所以這一定是評分重點,這方面的評分我在前面語音識別的位置有提及,主要還是以大環境為基本基調,再加上語音語調等多種情感辨別的路線,大體得到導游在測試中得到的情感基調,再加上語言的韻律性,給出權重的成績。
3 語音評分算法研究
3.1 語音測評系統設計
首先用傅里葉變換、頻譜圖、加窗、降噪、切割等預處理步驟,然后利用聲學模型和語言模型的文字識別,接著用WER語音識別標準以及基于情感分析和語調詞典的評分標準的預處理,處理完之后將結果和大數據對接,得出盡可能精準的評判。接著再進行情感分析和句詞詞典的評分標準,最后得出權重得分,具體設計如圖1所示。
3.2 語音評測系統架構
綜合語音評測系統包括需求分析和現有的語音識別技術三個部分,綜合語音評價系統的體系結構:標準模板庫的建立、用戶語音預處理和特征提取、模態匹配。
(1)標準模板庫的構建是基于閱讀評價系統的用戶特點,兒童發音與成人發音差異較大,需要尋找更符合閱讀標準的閱讀聲音,并進行預處理和特征提取,構建標準模板庫。(2)用戶的預處理和特征提取由用戶的閱讀語音輸入和存儲,并提取預處理和語音特征。(3)在模式匹配中,模式匹配與對應標準模板庫的語音特征進行匹配,并度量相似度。
3.3 語音特性分析
語言是信息交流的工具,語言是話語的組合體。時域閾值是周期性的。在頻域中存在共振峰結構。大部分能量集中在低頻段。它在頻域和時域上具有明顯的負序特性,類似于白噪聲。人類語言系統的生理結構變化率有限,第一次(10~30ms)的變化率,聲帶通道的形狀和相對穩定性,由于相同的恒定功能,短期的音頻音樂分析和相對穩定的短期wea。通過聲音,常數的頻譜可以增強。音頻信號穩定,但不慢且穩定,適合短時處理技術。語音信號參數的區域特征、短時能量、短時能量和短時能量比均為零。時域分析,計算簡單,計算量小,物理意義明確。時域特征提取方法簡單,但不能壓縮維數,不能用來征服分數表。應用于傅里葉變換和短時區域的短期頻率分析。短時間內的頻譜稱為“對應頻譜”。頻域參數對語音識別系統的識別效果更好。該譜從頻域特征參數、頻譜包絡、逆共振峰值因子得分等不同方面反映了振幅分數的特性。
3.4 關鍵字詞評分
通過關鍵的字詞,為了讓識別出來的字詞序列和標準的字詞序列之間保持相同,需要進行詞句的替換,刪除,或者插入。這些替換,刪除,插入的字詞的總個數,除以標準的詞序列中詞的個數的百分比,即為WER,其計算公式如下所示:
需要注意的是,因為有插入詞,所以WER有可能大于100%。需要注意的是,由于括號,我們WER可能大于100%。
在語音識別中,除了WER外,還有一個非常重要的句子識別錯誤率指標,即SER。SER可以理解為一個句子中有一個非常重要的單詞識別錯誤是不可替代的,那么這個句子就被認為是一個識別錯誤,即句子識別錯誤數除以句子總數就是SER。
3.5 語音情緒識別分類算法
(1)高斯混合模型GMM。作為音頻信號的一個基本特征,語音特征向量經過特征提取后,實際上是一個概率密度函數,該特征向量可以看作是一個狀態數連續分布的隱馬爾可夫模型。相應的高斯混合模型可以看作是一個狀態下的大量概率密度函數。同時,每種語音情感產生的概率密度分布具有模型和參數相對穩定等相對簡單的優點,能夠體現聲學的基本特征。高斯混合模型比馬爾可夫模型更有效。
(2)使用GMM識別流程。①提取語音情感數據的特征;②聚類方法可以是常用的聚類方法,如k-means、AP聚類等;③同時計算高斯分布函數的均值、協方差矩陣和概率值,得到訓練模板用于訓練各種語音情感;④將每個語音情感測試數據輸入到訓練模板中,得到語音屬于每種情感的后驗概率。后驗概率最大的訓練模板是語音情感數據的輸出結果。
最后用一個sum加和語句得到最后的成績,用戶在通過這個成績,以及每個板塊得到的分數,除每個板塊的總分,得要一個相對應的比值分,在通過這個比值分得知自己哪方面的不足,進而去提升練習。
4 結語
在導游服務系統中,機器不僅要有聽懂人的聲音的能力,而且要有識別說話人情緒的能力。提出了一種改進的基于高斯混合模型(GMM)的序列分類與識別方法,并將該方法引入到語音情感識別的研究中。該方法有效地提高了語音情感識別的準確率,改善了導游服務語音系統。
參考文獻:
[1]劉慶升,魏思,胡郁.基于語言學知識的發音質量評價算法改進[J].中文信息學報,2017,21(4):92-96.
[2]張茹,韓紀慶.一種基于音素模型感知度的發音質量評價方法[J].聲學學報,2015(2):201-207.
[3]嚴可,魏思,戴禮榮.針對發音質量評測的聲學模型優化算法[J].中文信息學報,2016,27(1):98-108.
[4]于俊婷,劉伍穎,易綿竹,李雪,李娜.國內語音識別研究綜述[J].計算機光盤軟件與應用,2015,17(10):76-78.
[5]李超雷.交互式語言學習系統中的發音質量客觀評價方法研究[D].中國科學院研究生院(電子學研究所),2017.
[6]Martin R.Spectral Subtraction Based on Minimum Statistics[J].in Proc.Eur.Signal Processing Conf,2014,6(11):1182-1185.