基于隱馬爾可夫模型的物聯網終端語音身份動態識別方法

2021-12-30 01:55:42郭霏霏

上海電機學院學報 2021年6期

郭霏霏

（泉州職業技術大學智能制造學院，福建泉州362000）

計算機和人工智能的迅速發展為實現語音身份識別提供了可能。當下的智能設備能夠迅速捕捉并提取語音信息，將對應的身份信息以代碼的形式輸入計算機，使計算機能夠依照人類的思維方式，對捕捉到的語音進行計算和分析［1-2］。如出現不同的語音控制指令時，通過計算機的對比、思考及推斷，可以劃分、辨認出指令人的身份，再判斷是否執行指令［3］。物聯網終端語音身份識別技術的實現是多個領域共同努力研究的成果，其中包括計算機科學、聲學等多個領域［4-5］。計算機等硬件設備的發展，對人們的生活產生潛移默化的影響，越來越多的智能工具進入大家的工作生活中，并成為生活中不可或缺的一部分。語音身份識別技術作為一種具有先進性、創新性的技術，在多模式人機交互等方面具有廣闊的發展前景［6］。為此，有學者提出相關的研究成果。余玲飛等［7］提出一種基于卷積神經網絡和深度循環網絡的聲紋識別方法，但該方法存在訓練和識別時間較長等問題。隱馬爾可夫模型是一種統計模型，用來描述一個含有隱含未知參數的馬爾可夫過程。隱馬爾可夫模型存在從可觀察的參數中確定隱含參數，然后利用這些參數進行下一步分析的復雜性，但對過程的狀態預測效果良好，能以較快的速度計算出具有維修能力和多重降級狀態的系統概率，實現物聯網終端語音身份動態識別，從而解決以往方法存在識別時間較長的問題。目前，隱馬爾可夫模型已應用于生物信息科學、故障診斷以及計算機文字識別等眾多領域。基于此，提出了一種基于隱馬爾可夫模型的物聯網終端語音身份動態識別方法，構建隱馬爾可夫模型進行語音采集，并對身份特征信號數據進行分類識別，最終完成物聯網終端語音身份的動態識別。

1 隱馬爾可夫建模

1.1 隱馬爾可夫特征

隱馬爾可夫模型具有對語音的文本、紋理建模的功能，能準確高效地定位語音特征點，已被廣泛應用于語音身份特征點定位。運用隱馬爾可夫模型時，紋理需要通過仿射變換的形式映射到對應的文本實例中，得到當前對象的描述模型，從而實現表觀建模。

1.2 文本建模

設Ps為一個物聯網終端語音序列，Pt為物聯網終端端點語音序列，θ為混合均值，Ps+i為s點到端點i的物聯網終端語音序列的差值，若特征均值E(Ps)=θ，語音方差V(Ps)=E(Ps-θ)2=τ2，且V(Ps，Pt)僅是特征差|t-s|的函數，則稱物聯網終端語音序列是一個穩定過程。

穩定過程Ps與Ps+i之間的方差為

作為i的函數，隱馬爾可夫只與文本特征i有關，與文本序列e沒有關系。i點的物聯網終端語音序列為

式中：Zs+i為s到i點的標準化功率譜曲線。

對于給定的物聯網終端語音序列P1，P2，…，Pn，-e為文本序列e的平均值，si+t為i點到端點t的文本序列，物聯網終端語音序列的隱馬爾可夫模型為

1.3 紋理建模

從空間域來看，需要利用功率譜空間頻率對終端語音身份進行驗證。由于識別的語音均存在相似的功率譜分布特征，因此可得到語音紋理空間頻率的標準化功率譜曲線如下：

式中：j為語音紋理空間頻率；m為語音紋理指數，且m∈（0，1）。

m值與功率譜曲線衰減速度呈正相關關系，且兩者越大，紋理越模糊；相反，m值越小，功率譜曲線衰減越慢，識別語音的高頻分量越多，紋理越清楚。

由于語音的紋理自相關函數和功率譜是傅里葉變換對，因此可得到語音紋理的隱馬爾可夫模型為

式中：f為傅里葉變換的功率信號；τ為語音紋理功率譜指數。

結合文本模型及紋理模型，完成隱馬爾可夫特征的構建。對訓練語音自動標記N個特征點，并將這些點的位置構成集合N=｛(x1，y1)，(x2，y2)，…，（xn，yn）｝。

對訓練語音對應的標記點進行歸一化處理，以某個標記點為基準，對其他標記點進行歸一化處理，使得其盡可能地接近基準標記點的整體位置。采用主成分分析法處理數據，得到平均數據特征-A以及按特征值大小排序后的n個特征向量，隱馬爾可夫模型中標記點特征方程為

式中：t0為初始給定的語音參數；Qi為語音特征量。

在初始給定一組語音參數后，得到語音中心標記點，再根據訓練語音的標記點，得到平均數據特征和標記點特征向量，完成隱馬爾可夫特征模型的建模。

2 物聯網終端語音身份動態識別

物聯網終端語音身份動態識別是輸入一組或多組語音身份識別的數據后［8-9］，對采集數據進行預處理、特征提取以及識別分類，最終完成語音身份識別的過程［10］。

2.1 語音數據的采集

在隱馬爾可夫特征模型的基礎上，構建由語音變化參考模塊和1臺計算機組成的語音捕捉平臺，其能夠對語音進行文本和特征捕捉。當平臺開始工作時，語音變化參考模塊通過無線網絡以30 Hz的頻率上傳語音變化的數據，通過計算機接收數據，并采用地址查詢方式接收語音變化參考模塊發送的數據［11-12］。為減小體積和電磁波干擾，需要增強平臺獨立性，采用隱馬爾可夫特征模型，對數據進行實時采集，經去噪處理進行數據融合，實時捕捉語音特征，再通過無線網絡模塊將數據發送到上位機，由上位機中的程序對數據進行處理，最終轉變為信號形式。

2.2 語音預處理

語音質量受很多因素的影響，例如，當語音采集設備的質量不達標時，采集到的語音會產生噪聲，影響語音質量及語音身份識別率［13］。為解決此類問題，需采取必要的預處理操作以消除噪聲，使特征表達更有效，為后面的分類打好基礎。需要說明的是，人的語言表達為不連續性，包含語音片段與空白語音片段，而不含語音的片段對語音身份識別的影響較小，因此實驗中去除了空白語音片段［14-15］。

本文采用隱馬爾可夫特征模型可對每個語音進行數據樣本采集。選取目標語音數據作為原始信號，由于該信號存在噪聲，因此需要提高語音身份識別效果。為此，在提取原始信號特征前，對其進行預處理，選取隱馬爾可夫特征模型對原始信號進行濾波處理，利用加窗方法分割原始信號，此時單個信號包含了1 024個樣本。設信號采樣頻率為100 Hz，經過加窗處理后的信號時間跨度為10.24 s，以完成單個行為動作。若矩形窗過短，則不能包含足夠用于識別不同語音的識別信息；反之，隱馬爾可夫特征模型濾波處理則會出現延遲的現象。

2.3 語音身份特征提取

利用加窗方法對處理后的語音身份信號進行身份特征提取，即

式中：Y為樣本數；Ai為i點的樣本值。

根據X軸偏度進行語音身份識別，有

相關系數可對變量之間線性相關程度指標進行衡量，變量A、B的相關系數為

式中：Bi為i點的的相關系數為相關系數的平均值。

2.4 分類識別

根據提取的語音身份特征，對其數據進行采集與處理，具體設計流程如下：

（1）根據傳感器特性對獲取的語音身份特征信號進行信號空間初始化處理，使其賦予四階單位矩陣；

（2）語音傳感器遵循離散數據采集，形成四維矢量數據，可將該數據全部輸出；

（3）利用隱馬爾可夫特征模型可處理數據空間矢量值，并獲取優化估計結果；

（4）依據傳感器數據信噪比以及噪聲方差矩陣，對數據進行修正處理；

（5）依據各個傳感器信任級別進行語音身份識別。

初始化處理語音傳感器，采集語音信號的全部數據；對身份信息進行初始化處理，獲取身份數據。將這兩部分數據全部集中到四維狀態數據空間，并對其進行濾波處理，獲取最優特征數據，經自適應修正，在信任級別條件下動態識別物聯網終端語音的身份。

3 實驗與分析

選擇20人，在同一環境下采集每個人的20組控制命令語音，每段語音3~5 s，組成包含400段語音的測試數據集。設置語音信號采樣率為16 kHz，16位單聲道，采集幀長為60，在Matlab仿真平臺上進行模擬實驗，得到語音信號波形如圖1所示。

圖1 語音信號波形圖

實驗中選取識別率及識別所需時間兩個指標，對本文方法和文獻方法進行對比。將選用的樣本分為3種：噪聲環境、慢語速和快語速。表1為兩種方法在不同條件下的識別率及識別所用時間的對比。

表1 不同條件下的識別率與識別時間

由表1可知，在慢語速下兩種方法的識別率都達到了100%，證明了兩種方法的語音身份識別的有效性；但對于快語速下的識別率受到較大的影響，而本文方法的識別率下降較小。這是由于本文方法在語音身份識別時考慮到了語音身份的類內差別和類間差別，且使用了語音特征空間；而文獻方法只考慮了不同語音身份之間的差別，所以導致識別率下降較大。在噪聲環境下的識別率，兩種方法都有所下降，但本文方法的識別率明顯高于文獻方法，表明本文方法的去噪性能較好。

隨著識別條件的增加，兩種方法的識別所用時間都隨之增加。但相較于文獻方法，本文方法在3種不同條件下識別所用的時間都要少于文獻方法。這是因為本文方法使用的隱馬爾可夫模型能以較快的速度計算出具有維修能力和多重降級狀態的系統概率，從而實現物聯網終端語音身份動態識別；文獻方法則因為將卷積神經網絡與循環神經網絡相結合，雖然可以提升識別率，但兩種方法疊加使用，增加了識別時間。

根據上述3種不同條件的語音身份識別，對兩種方法的穩定性進行對比。分別從每種條件數據中選取100組數據進行識別穩定性實驗，并將文獻［7］中的識別方法與本文方法進行對比分析，結果如圖2所示。

由圖2（a）可知，兩種方法識別慢語速語音時，均接近于標準值，穩定性相差不大。但隨著識別條件的增加，由圖2（b）、（c）可知，相較于文獻方法，本文方法更加趨近于標準值，說明本文方法的識別穩定性更好。

圖2 不同條件下的語音身份識別穩定性

4 結論

本文提出了一種基于隱馬爾可夫模型的物聯網終端語音身份動態識別方法，通過隱馬爾可夫特征建模，在此基礎上構建語音捕捉平臺；構建隱馬爾可夫模型進行語音采集，并對身份特征信號數據進行分類識別，最終完成物聯網終端語音身份的動態識別。實驗結果表明，本文方法識別精準度較高，識別用時較短，且穩定性較好，以期為語音身份的精準識別提供一定技術支持。