關鍵詞:語音識別;卷積神經網絡;會商系統中圖分類號:TP391 文獻標志碼:ADOI:10.19968/j.cnki.hnkj.1003-5168.2025.14.008文章編號:1003-5168(2025)14-0041-04
Application Research of Voice Recognition Technologyin Conference Systems
LI Jiao (Henan Provincial Meteorological Observation Data Center,Zhengzhou 45ooo3,China)
Abstract: [Purposes] To achieve the real-time subtitle function in the meteorological consultation system with a certain recognition accuracy rate,we propose applying convolutional neural network-based voice recognition technology to the conference systems.[Methods] The article conducts an in-depth research on the convolutional neural network voice recognition technology.It adopts the method of dataset distribution processing and feature analysis to design a real-time subtitle implementation process of voice set. The system architecture includes MCU,SMC, ASR server,and recording server, forming a voice recognition platform for the conference system.Next,the Mel-Scale Frequency Cepstral Coeficients (MFCC)are used to describe and extract features from the voice signal.Finally,without compromising the recognition accuracy of the convolutional neural network,the nonlinear Sigmoid function is introduced to optimize the convolutional neural network's convergence speed.Additionally,an end-to-end Connectionist Temporal Clasification (CTC) voice algorithm optimization model isapplied to improve the accuracy of input voice recognition.[Findings] In the conference system,this trained model can accurately recognize the audio entered by the terminal input in the practical applications,achieving a recognition accuracy rate of up to 90% .[Conclusions] When applied to the conference system, this voice recognition algorithm model demonstrates excellent recognition speed and quality, providing strong support for intelligent meteorological business services.
Keywords: voice recognition; convolutional neural network; conference system
0 引言
語音識別技術的出現使得設備能夠識別并理解人類的語音指令[。該技術將語音信號轉變為相應的文本或命令,使機器通過識別與理解來執行人類語言命令,提升了工作生活的便捷性和智能化水平[2]。目前,語音識別技術已取得飛躍性進展,包括卷積神經網絡(CNN)、LSTM、RNN等[3]。作為當前神經網絡的主流框架之一,語音信號的頻譜特征類似于一張圖像,以不同算法特定的計算因子對輸入的語音數字矩陣進行運算。其核心要義是網絡利用卷積核進行卷積運算,相當于以一定的步幅在整個輸入圖像上滑動,并逐漸覆蓋畫面各部分,從而提取輸人音頻信號等特征,從而進行模型訓練及識別處理。因此,本研究在河南氣象會商系統中,利用深度學習和語音識別技術,實現語音識別的實時字幕功能,并結合錄播服務器,對識別出的文本進行存儲,提高各類會商會議的智能化水平。
1語音識別技術研究
1.1卷積神經網絡框架
卷積神經網絡(CNN在識別語音時,可以將語音信號轉換成類似圖像的頻譜圖,并從這些圖像中準確識別出語音節奏、強度和音調[4]。卷積神經網絡包括輸入層、卷積層、池化層、全連接層、輸出層,是一個包含多個神經元的結構。輸入層和多個卷積層交替連接,構成語音識別特征提取階段;隱藏層包括卷積層、池化層、全連接層,每層由多個獨立神經元構成的二維平面組成。神經元是由多個連接構成的神經網絡的基本組成單元,每一個連接都有一個對應權重5。卷積神經網絡具有較強的自我調節能力和適應能力,通過模型訓練不僅可以對信息快速處理,而且可以不斷地調整權值,以適應環境需要和系統優化。卷積神經網絡語音識別框架如圖1所示。
1.2深度卷積神經網絡端到端算法模型
本研究采用端到端結構中的鏈接時序分類準則(ClassificationTimeCriteria,CTC)卷積神經網絡模型,CTC能對輸人語音的同音字及近似詞進行更為精準的處理,提高模型的識別準確率。將端到端算法模型CTC應用于聲學模型中,不僅可以優化輸出序列和識別過程,還能減少模型訓練過程,提升模型的魯棒性。將CTC的語音幀長度設置為 T,I σ=(x1,x2,?,xT) ,經過CTC后的路徑 π 的概率見式(1)。

式中: χt 表示時刻; qπ(t)t 表示 χt 時刻路徑 π 未經過CTC的概率。
多路徑概率之和的表示見式(2)。

將前后向算法應用于CTC中,前向概率值α(t,d) 的計算見式(3)。


式中: ylt 表示 Φt 時刻輸出為l的概率。
若前向變量設置為 χt ,當節點為 d 時,輸出路徑概率見式(4),同樣可推理出后向概率見式(5)。


式中: y1t+1 表示 t+1 時刻輸出為 l 的概率。
與之相對應的輸出路徑見式(6)。

端對端損失函數的計算見式(7)至式(9)。



結合式(7)至式(9),端對端CTC函數綜合表式見式(10)。

式中:
表示訓練集為 s 時,給定 x 的情況下,輸出序列 z 的概率。
1.3語音識別模型訓練與評估
對模型進行訓練與評估,從準確率A(Accu-racy)、召回率 R(Recall) 兩方面來判斷算法模型的性能。經過訓練,該算法模型性能可靠穩定,滿足會商系統語音識別的應用需求,實現了同步語音識別的功能,并達到預期的識別準確率,符合設計的總體要求。即使存在輕微噪聲,該算法模型也可以自適應調整,以保證穩定的識別效果。
2會商系統語音識別的設計與實現
2.1 設計原則
會商語音識別系統的開發以現有的氣象會商業務需求為導向,與實際會商業務相結合,旨在實現語音識別的實時字幕功能,并能將文檔進行存儲,方便隨時調用。通過會議控制系統(SMC)進行組會,利用視頻終端對語音信號進行采集,通過智能語音服務器(ASR)對采集的語音信號進行數字化處理與識別,經識別的文字返回字幕并實時顯示。錄播服務器可用來存儲智能語音服務器識別的文字,方便會議記錄的隨時調用。該設計有效地推進了智能化在氣象會商業務中的應用,體現了安全性、智能性、可靠性的原則。系統總體結構如圖2所示。

2.2 語音識別流程
系統將語音信號識別轉化為文字的基本流程為采集語音信號、預處理、特征提取、建模和后處理。首先,視頻終端采集語音信號,并將訓練好的語音識別模型嵌入到智能語音服務器(ASR)中;其次,對采集的語音信號進行數字化處理,通過梅爾倒譜系數MFCC對語音信號進行描述,并將預處理后的語音信號進行特征提取。梅爾頻譜屬于短期音頻頻譜,可以將語音信號轉化為梅爾頻譜,并作倒譜分析,從而確定非線性頻率刻度。這樣可以提高輸人信號的可識別性與純凈度,將原來的語音信號輸入轉換為更適應后續處理的形式;最后,將前面提取出的語音特征作為依據,利用訓練好的聲學模型和語言模型進行解碼和識別[7]。語音識別流程如圖3所示。
2.3會商系統語音識別實現
語音識別會商系統平臺由視頻終端、會議控制系統(SMC)多點控制單元(MCU)、錄播服務器、智能語音服務器(ASR)搭建構成。其中,SMC采用分布式架構管理,在實現資源共享與負載均衡的同時,可以管理多點會議,提高了系統的可靠性與擴展性。該系統采用了雙MCU備份機制,MCU是會商系統核心設備,能夠接收來自各個終端的音視頻流,并將其混合、轉發給其他終端,實現多點通信。

系統在采集視頻終端的語音輸人后,對數據進行集中處理。語音識別系統通過測試集數據驗證識別效果后,對訓練集和驗證集數據進行訓練和學習。以Pytorch深度學習框架8為平臺,其是一個開源的Python深度學習框架,支持生產就緒、分布式訓練,內部集成封裝較多深度學習領域的功能函數包,更容易對底層函數進行操作。訓練參數設置如下:語音信號預處理的幀長為 30ms 、幀移為 15ms 。模型選擇適應性動態估量算法對識別的數據集進行分布,總時長約 28h ,共分為3部分,分別為訓練集、驗證集和測試集。采樣大小為 12bis ,音頻采樣頻率為 18kHz 。數據集分布見表1。

對算法模型經過訓練,將語音識別模型算法嵌人到ASR服務器中,通過自動語音識別(ASR)服務器和多點控制單元(MCU)實現實時字幕功能和會議記錄功能。實時字幕功能可以將各會場終端的語音輸入轉換成文字,在屏幕上實時以字幕方式進行顯示,使參會人員能更加清楚會議內容;會議記錄功能可以在會后輸出基于角色區分的會議記錄,方便用戶修改會議內容。語音識別實時字幕流程如圖4所示。

3結語
本研究通過將卷積神經網絡語音識別技術應用于會商系統中,給會商會議工作帶來更加直觀便捷的體驗,顯著提高了工作效率。未來,應更加重視核心技術和關鍵技術的研究,持續提升智能化水平,從而更好地服務社會發展。
參考文獻:
[1]張建華.基于深度學習的語音識別應用研究[D].北京:北京郵電大學,2015.
[2]張效榮.基于卷積神經網絡的深度學習算法與應用
研究[D].西安:西安電子科技大學,2015
[3]李雪瑩.基于深度學習的語音識別技術研究[D].北京:北方工業大學,2024.
[4]張俊.人工智能在語音識別中的應用[J].電腦知識與技術,2024,20(17):46-48.
[5]劉長征,張磊.語音識別中卷積神經網絡優化算法[J].哈爾濱理工大學學報,2016,21(3):34-38.
[6]劉宗源,高敏,王毅,等.二維彈道修正引信滾轉角專家系統PID控制算法[J].現代防御技術,2019,47(2):24-29.
[7]張緒德,張云云,胡慧迪,等.基于深度學習的語音識別技術研究[J].電子制作,2024,32(16):63-65.
[8張昱.基于深度卷積神經網絡的中文語音識別D]太原:太原理工大學,2022.
(欄目編輯:孫焱)