融合語音技術與聲紋認證的電力通信設備管理系統

2023-12-29 00:00:00鄭旭琪

自動化與信息工程 2023年6期

摘要：隨著電網設備規模的不斷擴大，設備管理系統應用需求也不斷地增長。針對傳統人工管理效率低的問題，提出融合語音技術與聲紋認證的電力通信設備管理系統。首先，構建面向電力通信設備詞匯的語音語料庫和聲學詞表；然后，采用深度神經網絡——隱馬爾可夫模型（DNN-HMM）識別語音；最后，結合聲紋認證技術，對操作人員的身份進行識別。該系統實現了從手動向語音智能交互操作的轉變，使設備管理系統更加高效安全。

關鍵詞：智能電網；設備管理系統；語音交互；聲紋認證；語音語料庫；聲學詞表；DNN-HMM

中圖分類號：TN912.3文獻標志碼：A 文章編號：1674-2605（2023）06-0008-06

DOI：10.3969/j.issn.1674-2605.2023.06.008

Power Communication Equipment Management System Integrating Voice Technology and Voiceprint Authentication

ZHENG Xuqi

（Jieyang Power Supply Bureau of Guangdong Power Grid Corporation， Jieyang 522000， China）

Abstract： With the continuous expansion of power grid equipment， the demand for equipment management system applications is also constantly increasing. Aiming at the problem of low efficiency in traditional manual management， a power communication equipment management system integrating voice technology and voiceprint authentication is proposed. Firstly， build a voice corpus and acoustic vocabulary for power communication equipment vocabulary; Then， deep neural network-hidden Markov model （DNN-HMM） is used to recognize voice; Finally， combined with voiceprint authentication technology， the operator's identity is identified. The system has achieved a transition from manual to voice intelligent interactive operations， making the device management system more efficient and secure.

Keywords：smart grid; equipment management system; voice interaction; voiceprint certification; voice corpus; acoustic vocabulary; DNN-HMM

0 引言

隨著中國經濟的快速發展，電力資源的需求也日益增長，建設統一而高效的智能電網成為中國電網發展的重要方向[1-3]。電力通信設備管理系統是智能電網的核心，現有的管理方式依賴于人工記錄和手動操作。在面對龐大的設備數量和復雜的操作流程時，人工管理方式存在效率低和耗時長等問題。隨著電網安全化和智能化的需求越來越高，語音人機交互成為關鍵技術之一[4]。

目前，深度學習在語音識別領域已取得顯著成果，使語音識別系統的性能不斷提升，為人機交互、自然語言處理等技術帶來許多創新應用[5-7]。文獻[8]提出一種基于深度神經網絡（deep neural networks，DNN）的電力系統調控語音識別方法，并能對四川方言進行訓練優化。文獻[9]提出一種基于DNN的電力調度語音識別方法，針對電力調度領域建立語音語料庫，應用DNN和隱馬爾可夫模型（hidden Markov model，HMM）進行聲學模型訓練，實現端點檢測、語音轉文字等功能。文獻[10]探討了基于長短時記憶（long short-term memory， LSTM）神經網絡的聲紋識別方法，將語譜圖作為聲紋特征表達形式輸入到LSTM模型進行訓練，實現聲紋個性特征的識別。目前相關研究主要集中在電力調度領域的語音識別方法，而將這些方法應用于電力通信設備管理系統的研究較少。考慮到電力通信設備管理系統信息的安全性，需要構建電力通信設備詞匯的語料庫，建立與系統相應的語言模型，并融合聲紋認證技術提高系統的安全性。

因此，本文提出一種融合語音技術與聲紋認證的電力通信設備管理系統。通過構建DNN-HMM，實現電力通信設備詞匯以及設備操作指令的準確識別；結合聲紋認證技術，采用梅爾頻率倒譜系數（Mel-frequency cepstral coefficients，MFCC）特征提取和高斯混合模型（Gaussian mixture model， GMM），實現用戶身份的驗證，避免非授權人員誤操作，提高系統的效率和安全性。

1 系統框架

融合語音技術與聲紋認證的電力通信設備管理系統主要包括語音識別子系統、聲紋識別子系統和系統交互過程，系統框圖如圖1所示。

語音識別子系統負責識別語音指令；聲紋識別子系統用于識別操作人員的身份；在系統交互過程中，管理員通過聲紋驗證登錄系統，利用語音識別技術對設備進行管理，兩個子系統相互協作，提高了電力通信設備管理系統的智能化和安全性。

1.1 語音識別子系統

語音識別子系統主要包括信號預處理、特征提取、模型網絡（包括聲學模型、語言模型和聲學詞表）、解碼與后處理4個部分。

信號預處理：去除語音信號中的噪音和干擾，并將語音信號分割成小幀，以便后續處理。

特征提取：利用MFCC從語音信號中提取數值特征，用于捕捉頻譜特征，區分不同的音素。

模型網絡：聲學模型將語音特征與語音單元關聯；語言模型建模語言結構；聲學詞表提供唯一標識符。

解碼與后處理：結合聲學模型和語言模型的輸出，選擇最可能的識別結果，進行后處理以提高系統識別的準確性。

語音識別原理如圖2所示。

1.2 聲紋識別子系統

聲紋識別子系統主要包括語音預處理、特征提取、模型訓練和聲紋匹配，其基本原理是通過提取語音信號的聲學特征，建立特征數據庫，再通過匹配算法對語音進行識別。

語音預處理：對語音樣本進行濾波、去噪、剪切語音片段等處理，提高語音信號的質量。

特征提取：利用線性預測系數（linear prediction coefficients，LPC）、倒譜系數（Cepstrum）、MFCC等方法從預處理后的語音樣本中提取能夠代表個人聲音特點的聲紋特征參數。

模型訓練：利用提取的聲紋特征參數，訓練GMM聲紋模型。假設一個人的語音由M個高斯分布混合生成，其概率密度函數為

通過以上步驟，聲紋識別子系統可以識別說話人的身份。

2 語音識別子系統模型網絡構建

2.1" 語料庫建立

語料庫對提升語音識別準確性和語義理解至關重要[11]。語音識別子系統中的聲學模型和語言模型訓練都基于語料庫。語料庫構成圖如圖3所示。

電力通信設備管理系統的語料庫通過5位（2男3女）專業語音錄入人員錄入，每位人員錄入音頻數據1 000段，共錄入5 000段。將這些音頻數據劃分為訓練集、驗證集和測試集。其中，訓練集包括3 500段音頻數據，用于訓練聲學模型；驗證集包括750段音頻數據，用于評估DNN-HMM的訓練效果和調整參數；測試集包括750段音頻數據，用于測試DNN-HMM的語音識別性能。音頻數據參數設置如表1所示。

2.2" 聲學詞表建立

待測音頻數據輸入聲學模型會將聲音信號轉為音素，輸入語言模型會將音素轉為文本。聲學詞表是連接聲學模型和語言模型的橋梁，它包含了一系列音素與文本之間的映射，使聲學模型能夠將聲音信息轉化為可被語言模型理解的文本形式。如當輸入音頻數據“你好”時，其中文拼音是“ni3 hao3”，經聲學模型處理后其音素為“‘n’ ‘i3’‘h’ ‘ao3’”，通過聲學詞表對應的音素轉化為語言模型文本，即識別出“你好”，而不是同音詞“擬好”。聲學詞表確保了聲學模型和語言模型之間的有效溝通，實現語音識別的準確性和可靠性。

為了滿足電力通信設備管理系統的語言搜索功能，需要創建一個專用的聲學詞表，以確保系統能夠準確理解用戶的需求。首先，準備與電力通信設備管理系統相關的查詢操作語句，并根據語法結構進行分詞；然后，根據清華音素集數據庫，獲得每個詞的音素和拼音信息；最后，將音素與拼音相匹配，構建完整的聲學詞表。聲學詞表文本格式如圖4所示。

2.3 DNN-HMM構建

DNN是典型的前饋神經網絡，通常包括輸入層、隱藏層和輸出層3部分[12]。在DNN-HMM中，輸入層輸入的聲學特征（如MFCC或聲譜圖）表示為向量x；隱藏層包含多個神經元，其輸出可以表示為隱藏層的激活向量h：

DNN-HMM建模流程如下：

1）采用基于FFT的濾波器組提取39維的MFCC特征，輸入到DNN模型的特征維度為39×11=429；

2） DNN模型包含1個輸入層，3個隱藏層和1個輸出層，輸入層節點數為429個，對應語音特征向量的維度；3個隱藏層節點數均為1024個；輸出層節點數為1592個，對應HMM的狀態數；

3） DNN采用ReLU激活函數，結合自適應矩估計（adaptive moment estimation，Adam）優化算法，提高模型的訓練效率，訓練過程利用dropout正則化，并采用“早停法”防止過擬合；

4） DNN預訓練迭代100輪后，將參數轉移到DNN-HMM，采用Baum-Welch算法估計HMM參數，再使用EM算法優化，再迭代300輪獲得最終DNN-HMM。

2.4 結果分析

利用詞錯率（word error rate， WER）來評估DNN-HMM的性能。DNN、HMM、DNN-HMM 3種模型的詞錯率對比如表2所示。

在測試集上，DNN-HMM的WER為19.23%，優于DNN模型（22.31%）和HMM（32.05%），表明DNN-HMM能有效提取語音特征；利用HMM對語言時間序列進行建模，不僅提高了對電力通信設備名稱的識別準確率，還能識別各種設備操作指令，實現了語音交互控制。

3 聲紋識別子系統模型構建

3.1" 聲紋識別建模

聲紋識別可以分為說話人辨認和說話人確認2種類型。說話人辨認是從一群人中確定某個測試語音屬于某個人，說話人確認則是驗證測試語音是否屬于某一特定人[13]。

實驗中，從50位用戶中隨機選取10位作為管理員進行注冊。這10位管理員錄制20個語音樣本，用于Enrollment模型訓練。聲紋識別子系統模型構建流程圖如圖6所示。

聲紋識別子系統模型構建主要分為4個步驟：

1）語音預處理：對錄入的語音樣本進行預處理，包括降噪/去直流等，提高后續處理效果；

2）聲學特征提取：通過對語音樣本進行預加重、分幀、加窗、FFT等處理提取MFCC特征；

3） GMM訓練：使用提取的MFCC特征，利用EM算法訓練GMM，提取聲紋信息，獲得GMM聲紋模型，假設一個人的語音由M個高斯分布混合生成，其概率密度函數如公式（1）所示；

4）聲紋驗證：輸入測試語音的MFCC特征，計算與訓練集中Enrollment模型的似然值評分，如公式（2）所示，若評分高于設定閾值，則表明測試語音與指定用戶吻合，實現聲紋驗證。

通過聲紋識別后，系統接受來自該用戶的設備操作指令，從而保證系統操作的安全性。

3.2" 測試結果及分析

在測試階段，隨機選取5位管理員，各采集10段語音樣本進行測試。對于10位測試用戶的語音樣本，系統能夠正確識別出所有的管理員，假冒用戶的誤識別率為8%。管理員的平均識別準確率達到96%，驗證了基于MFCC和GMM的聲紋識別技術的有效性。管理員的語音樣本驗證評分明顯高于閾值，而假冒用戶的語音樣本驗證評分低于閾值，對于少量邊界樣本會出現誤識別的情況。測試驗證了基于MFCC特征和GMM的聲紋識別技術，能夠有效提取個人聲紋信息，進行用戶識別和驗證，提高系統的安全性。

4 系統功能實現與測試

4.1" 系統總體實現技術

電力通信設備管理系統界面如圖7所示。

在設備管理界面，用戶可通過鍵盤輸入設備信息，如設備名稱、單號和管理員，查找設備的運行情況；還可通過語音搜索功能，直接使用麥克風錄入語音指令，查詢某設備的信息狀態，系統通過語音識別技術將語音指令轉化為文本，然后根據文本內容進行相關設備查詢。

系統可以通過聲紋識別進行登錄，如圖8所示。

用戶使用聲紋識別登錄時，只需點擊語音登錄按鈕，根據界面的提示，需要跟讀特定的信息內容（本文采用一串數字信息）。系統通過聲紋識別技術驗證用戶的聲音特征，并將其與預先注冊的聲紋特征進行比對，判斷該語音是否與系統錄入的身份一致。若驗證成功，則用戶可進入設備管理系統界面。

4.2 語音搜索功能

在設備管理系統界面點擊“語音搜索”，即可實現語音交互效果。用戶說出具體指令，如“查詢單號0089整流屏”，麥克風采集語音信號后，通過語言模型識別成指令，根據文本查詢語句，系統會匹配關鍵信息“單號”“0089”“整流屏”，通過設備數據庫查找對應的設備，獲取設備信息界面。語音搜索界面和搜索結果分別如圖9和圖10所示。

5 結論

本文研究了語音識別技術及聲紋識別技術在電力通信設備管理系統中的應用。在語音識別部分，構建了針對電力通信行業詞匯的語料庫和聲學模型，實現了語音指令的識別轉換。在聲紋識別部分，采用MFCC特征提取和GMM訓練，實現了對指定用戶的聲紋驗證，提高系統操作的安全性。

測試結果顯示：語言識別模型能夠理解語音指令，實現設備搜索功能，提高設備管理的效率；聲紋驗證能有效識別注冊用戶，為系統訪問提供安全保障。

參考文獻

[1] 張瑤，王傲寒，張宏.中國智能電網發展綜述[J].電力系統保護與控制，2021，49（5）：180187.

[2] 潘磊，沈雪晴，黃文雯，等.基于云網協同的智能電網管理體系及應用分析[J].中國測試，2022，48（S1）：211-217.

[3] 戴誠，梁詩晨，肖靜薇，等.多徑成型因子在智能電網認知無線電信道干擾分析中的應用（英文）[J].機床與液壓，2018，46（6）：60-66.

[4]張四維，武永泉，秦濤，等.面向電力線路巡檢的語音指令識別系統研究和應用[J].信息化研究，2021，47（5）：6-12.

[5]劉文舉，聶帥，梁山，等.基于深度學習語音分離技術的研究現狀與進展[J].自動化學報，2016，42（6）：819-833.

[6]顧亞文.人工智能深度學習背景下語音識別方法研究[J].軟件，2022，43（5）：122-124.

[7]王家，龍冬梅.深度學習在語音識別中的應用綜述[J].電腦知識與技術，2020，16（34）：191-192;197.

[8]胡翔，楊洋，蔣長江，等.一種基于深度神經網絡的電力系統調度控制語音識別模型[J].電子器件，2023，46（1）：90-95.

[9]竇建中，羅深增，金勇，等.基于深度神經網絡的電力調度語音識別研究及應用[J].湖北電力，2019，43（3）：16-22.

[10]劉曉璇，季怡，劉純平.基于LSTM神經網絡的聲紋識別[J].計算機科學，2021，48（S2）：270-274.

[11]單連飛，張越.電網調度專業語料庫構建方法研究及應用[J].機械與電子，2022，40（4）：73-76;80.

[12]賈嘉敏，程振，潘文林，等.基于DNN-HMM的佤語語音聲學建模[J].計算機時代，2022（8）：61-64;68.

[13]張振國.面向個性化隱私保護的聲紋生成方法研究[D].廣州：廣州大學，2023.

作者簡介：

鄭旭琪，男，1987年生，研究生，工程師，主要研究方向：電力通信。E-mail：zxq20060909@163.com

自動化與信息工程2023年6期

自動化與信息工程的其它文章: 高校統一身份認證平臺的單點登錄技術探究; 城市辦公樓光儲系統控制策略分析及應用; 基于梅爾頻譜的電磁繼電器內部異響特征提取; 基于高光譜成像的當歸與獨活分類; 一種用于干擾試驗的高壓脈沖模擬器設計; 基于暫態信號的配電網單相接地故障區段自動定位方法