基于智能語音的通信視頻會議設計

2019-02-02 03:58:00楊鴻珍陳是同董媛媛浦正國

數字技術與應用 2019年11期

楊鴻珍陳是同董媛媛浦正國

摘要：隨著通信視頻會議的推廣應用，會議記錄整理需求涌現，而傳統的視頻會議系統無法解決會議記錄編輯耗時長，強度大，重復性強等問題。本文設計了基于智能語音技術的通信視頻會議方案，在傳統的通信視頻會議引入語音識別技術方案，實現會議發言實時上墻和會議記錄自動整理，提高了浙江電力信通分公司視頻會議的智能化水平。

關鍵詞：語音識別;會議;通信

中圖分類號：TN912.3 文獻標識碼：A 文章編號：1007-9416（2019）11-0019-02

0 引言

隨著信息時代的到來，包括視頻電話會議、專題辦公會、匯報演講會在內的會議頻次多達數千場次，這蘊含了大量的會議紀要整理與輸出的需求。當前根據會議錄音整理的方式，存在編輯耗時長、強度大、重復性強的缺陷。然而很多重要會議具備時間長、信息量大、紀要輸出嚴等特點，對會議記錄人員提出更高要求，且仍可能存在信息遺漏或會議思想理解偏差等問題，亟需得到解決。針對上述問題，本文在傳統通信視頻會議引入智能語音技術，設計出智能會議方案，實現會議記錄的實時記錄和上墻，提高會議人員的工作效率。

1 關鍵技術

1.1 基于深度全序列卷積神經網絡（DFCNN）構建聲學模型

DFCNN使用大量的卷積層直接對整句語音信號進行建模。首先，類似圖像處理的方式，在輸入端以語譜圖作為代替語音輸入，相比其他以傳統語音特征作為輸入的語音識別框架相比具有天然的優勢。其次，在模型結構上，也借鑒了圖像識別的網絡架構，充分利用語音數據的歷史和未來信息，從而保障了語音處理的長時相關性，相比RNN網絡結構在魯棒性上更加出色，同時可以實現短延時的準在線解碼，從而可用于會議系統中。

1.2 口語化和篇章級語言模型處理技術

首先，收集部分口語文本和書面文本語料對;其次，使用基于Encoder-Decoder的神經網絡框架建模書面語文本與口語文本之間的對應關系，從而實現了口語文本的自動生成。另外，上下文信息可以較大程度幫助人類對語言的理解，對于機器轉錄也是同樣的道理。基于上述的思路提出篇章級語言模型的方案，該方案根據語音識別的解碼結果自動進行關鍵信息抽取，實時進行語料搜索和后處理，用解碼結果和搜索到的語料形成特定語音相關的語言模型，從而進一步提高語音轉寫的準確率。

1.3 噪聲和遠場識別技術

單麥克降噪、解混響。對采集到的有損失語音，使用混合訓練和基于深度回歸神經網絡降噪解混響結合的方法。使用基于深度回歸神經網絡進行降噪和解混響，進一步提高帶噪、遠場語音的識別正確率。

麥克風陣列降噪、解混響。使用多個麥克風采集多路時頻信號，利用卷積神經網絡學習波束形成，從而在目標信號的方向形成一個拾音波束，并衰減來自其他方向的反射聲。該方法與上述單麥克降噪和解混響的結合，可以進一步顯著的提高帶噪、遠場語音的識別正確率。

2 方案設計

系統采用分層的方式設計，總體架構上共分為三層：基礎設施層、平臺層、應用層。基礎設施層提供基礎計算能力、存儲能力、網絡支撐能力，保障整個系統安全、穩定、高效運行。平臺層提供中文語音轉寫、全文檢索等智能語音與基礎業務能力。應用層針對中文語音轉寫提供控制管理終端實現對系統以及業務的管理，屏幕顯示終端實現會議過程中結果展現給參會人員的功能;音頻采集服務通過聲卡、麥克風等硬件設備完成音頻的實時采集。

2.1 技術架構

本文設計方案的技術架構按照音頻數據分析的技術流程，從前端處理到后臺識別，在都按內容展示，主要包括：前端語音處理、后端識別處理和語法功能。其中語法功能包括語法識別系統、編譯系統、動態加載系統、激活系統和緩存系統等等。

2.2 功能架構

智能語音識別技術可以實現在會議、教學、演講等場景下的實時音頻或錄音采集，并通過語音識別技術實時轉化為文字。具體功能設計如下：

（1）用戶管理：對不同用戶進行管理和維護。（2）音頻采集處理：對音頻信號從獲取到內容展示進行全過程展示，供后續的轉寫文字等功能使用，同時保存到內容管理模塊中。（3）實時語音轉寫：對進入系統的實時語音流進行語音識別操作，并持續進行轉寫結果文本內容的輸出。（4）歷史語音轉寫：主要支持離線語音上傳與識別結果的下載與編輯。（5）角色分離：支持對多角色語音的識別與說話人識別。（6）內容編輯：對轉寫后的文本進行編輯。（7）效果優化：自動或者手動的對轉寫的文本進行優化。（8）內容展示：系統通過提供展板上屏等形式進行實時語音轉寫結果的展示。（9）內容管理：對轉寫后的文本進行內容管理，支持用戶的全文檢索、快速導出等方便快捷。（10）全文檢索：支持對海量語音數據的檢索。

2.3 物理架構

由多個服務端集群和部署在不同場所的終端設備構成。中文轉寫引擎服務集群用于部署中文轉寫引擎，提供中文語音轉寫能力;分布式文件存儲集群主要用于音頻文件的存儲;全文檢索服務集群用于部署全文檢索服務，提供全文檢索的能力。

3 效益分析

（1）提升會議效果：本技術方案的實現將會議中每個人的發言都實時、完整、有序的轉成文字，并且在會場實時上屏，提升了會議效果。（2）降低人工成本：本文設計的智能會議系統，可提高會議記錄的準確性和會議紀要的生成速度，并減少記錄員的工作量，降低人工成本。（3）提高公司智能化水平，打造公司品牌效應：將人工智能、語音識別等先進的技術引入公司進行研究及應用，提高了公司的智能化水平。

4 結語

本文探究了智能語音識別技術在會議、演講等場景的應用技術方案，從技術研究出發給出了技術方案，最后制定了切實可行的智能語音識別技術在會議中的應用方案，實現智能語音技術與視頻會議系統結合使用，通過語音識別可以將會議發言實時轉寫成結構化數據，讓會議發言實時上墻，實現會議記錄自動整理，輔助整理會議紀要和會議討論重點問題，降低會議記錄人員的工作強度，提高會議的智能會水平。

參考文獻

[1] 周志平.基于深度學習的小尺度單元拼接語音合成方法研究[D].中國科學技術大學，2017.

[2] 顧亞平.基于智能語音交互技術的智慧語音助理系統實現[D].南京郵電大學，2015.

[3] 薛少飛.DNN-HMM語音識別聲學模型的說話人自適應[D].中國科學技術大學，2015.

[4] 王山海，景新幸，楊海燕.基于深度學習神經網絡的孤立詞語音識別的研究[J].計算機應用研究，2015，32（08）：2289-2291+2298.

[5] 陳偉.語音識別聲學建模中的主動學習研究[D].北京郵電大學，2011.

數字技術與應用2019年11期

數字技術與應用的其它文章: 多功能報告廳聲光電系統數字化建設; 基于射頻技術的醫院導診儀的設計與研究; 多分辨率分形維數字圖像分析軟件設計與實現; 電氣自動化在電氣工程中的應用研究; 物聯網及5G通信系統綜述; 基于信息化的精益生產管控體系在唐鋼的創建和應用