袁方

摘要:目前,視頻會議系統在各大公司均得到了廣泛應用,5G網絡時代的到來,各公司對視頻會議的服務效率要求也越來越高。但現有的視頻會議系統還存在智能化程度不高、延時較大、操作不靈活等狀況。本課題通過開發運用智能語音識別系統設備,實現與既有視頻會議系統人性化交互,優化會議控制功能,進一步提升了視頻會議系統的服務效率和運用質量。
關鍵詞:智能語音識別;視頻會議;高效
中圖分類號:TN912.34 文獻標識碼:A 文章編號:1007-9416(2020)05-0049-02
1概述
1.1背景
近年來,隨著大規模通信網絡建設和既有通信網絡的更新改造,視頻會議系統已逐步建成并陸續擴大。但現有的會議系統網管對于已組會的會議控制方式仍然是以文字界面為主,對會議的控制尤其是根據需要對于特定會場進行點名是非常不便的,嚴重影響了會議進行的效率。如何更有效地組織管理規模較大的視頻會議、提高會議系統服務效率,已經成為了亟需解決的難題。
1.2目標
(1)開發運用語音識別系統設備,實現會場語音的智能識別;
(2)實現語音識別系統與既有視頻會議系統的對接,進而實現通過語音識別來智能地切換會場畫面,加快會議點名的效率。
通過以上改進,優化視頻會議系統的會議控制功能,滿足視頻會議召開時的會場點名時間要求,并方便網管操作人員的實際操作,提高視頻會議系統的服務質量和開會效率。
2研究內容及技術方案
2.1研究內容
(1)語音采集:通過在終端設備上增加語音采集設備,采用端點檢測、語音增強和維納濾波技術,消除噪聲和不同說話人帶來的影響,使處理后的信號更能反映語音的本質特征。
(2)語音實時識別:應用先進的深度學習算法,實時的把各角色的發言的語音做識別處理。
(3)關鍵詞檢索及關聯:在處理各角色的發言語音中過濾、篩選出相關的關鍵詞。
(4)實現與既有視頻會議系統的交互:在處理各角色的發言語音時,通過過濾、篩選出相關的關鍵詞,針對不同的關鍵詞設計相關的交互動作。
(5)開發新會議點名控制界面:優化操作,固定網管系統會議會場列表中各會場的排列方式,并根據會場終端的連接狀態確定網管上終端的顯示方式,便于網管系統操作人員進行操作。
2.2技術方案
業務流程:語音識別系統一般包括預處理、特征提取、語音識別模型訓練、模式匹配以及后語音處理等主要處理流程,這幾個主要處理流程分別介紹如下:
(1)預處理。待識別的原始語音信號一般在所有處理之前需要先進行預處理,并對其實施預加重和分幀等處理,預處理的目的是為了提高語音信號的質量,將原始信號處理成適合計算機處理的信號,以便為后續的處理工作做準備。
(2)特征提取。該過程先將通過分析預處理后的語音信號,得到反映該信號的一些特征,然后利用這些特征,得到對應的特征參數,即獲得可以表示該語音信號實質的參數。
(3)語音識別模型訓練。從語音樣本數據庫中提取每條樣本語音的特征參數,通過學習算法,利用樣本語音的特征參數在學習過程中不斷優化模型進而形成較為完善的語音識別模型。
(4)模式匹配。將從待識別語音信號中提取出的特征參數與已訓練好的模板庫中的參考模板進行匹配,得到最佳匹配結果,即獲得識別結果。
(5)后語音處理。利用語言學和機器學習等有關技術和知識,從語法和語義層面,對識別結果進行分析,使識別結果更加準確,從而提高語音識別系統的性能。
本系統在原有的流程上增加交互設計,具體的業務流程操作如下:
(1)通過在原來的會議系統的調音臺上分出其中一路音頻接入到語音識別交互系統中,完成整個語音的接入。
(2)通過對原會議系統實時語音和歷史語音數據進行多場景模型訓練,原始語音采樣量化、信號處理和特征提取及標注后,完成具有聲學與語言模型訓練針對性的語音識別模型、語義理解模型和會議專業知識庫。
(3)現場語音識別交互系統對接入的實時語音數據完成相應的識別、關聯及理解,并將語音流所屬會議信息入庫。
(4)根據實時語音會議分析結果向原會議系統發送控制交互請求,原會議系統根據已經定義的接口數據內容自動完成交互動作,如圖像界面的切換等。
(5)也可以使用人工模式,采用新版本的模塊化設計控制界面和點面界面,實現會議控制和點名等操作的高效性。
3設計方案
3.1設計原則
(1)系統安全性原則:系統安全性是信息系統建設的基礎,因此需要通過使用必要的安全機制,如:PKI身份認證、數字簽名(CA)、用戶訪問控制、身份鑒別、收發確認、數據過濾、業務流量分析、權限控制等手段,提供可靠的安全管理措施以便保護系統安全。
(2)標準化原則:遵守國際和國內的有關系統建設方面的標準,按照規范的開發流程進行系統設計、開發。
(3)耦合性原則:耦合性是度量一個程序結構中各個模塊之間相互聯系的程度,它是影響軟件復雜程度的一個重要因素。系統在設計中要充分考慮與其它系統之間的數據交換,達到資源共享。要求系統采用符合業界標準的數據傳輸格式,進行數據交換。
(4)易用性原則:依據全面的用戶需求調研和專家分析結果,開發瀏覽器版系統,具有強大的數據處理以及業務管理功能。采用靈活的互動式的功能設計和界面設計,既體現了現有的業務流程又方便使用人員的操作,又實現了功能性和易用性的統一。
(5)開放性原則:系統開放程度直接影響到系統的生命周期。系統真正符合三層瀏覽器/服務器(B/s)體系結構,考慮到良好的擴充性。根據未來業務的增長和變化,要求系統可以平滑地擴展和升級,無需變動系統架構和現有設備。
(6)先進陛原則:采用目前成熟、先進的軟硬件技術,在滿足性能指標的前提下,選擇目前世界上知名廠家的成熟產品,提供最佳的解決方案。
3.2網絡系統設計及思路(如圖1)
4項目總結
本項目在原有的會議系統上增加了基于智能語音識別功能,在處理各會議角色的發言語音中過濾、篩選出相關的關鍵詞,實現了針對不同的關鍵詞設計相關的交互動作的目的。
在語音識別自動控制的功能上兼顧手動模式,開發利用視頻會議系統網管軟件,設計新會議點名控制界面,增加會場列表圖形化會議控制功能模塊,并固定網管系統會議會場列表中各會場的排列方式,并根據會場終端的連接狀態確定網管上終端的顯示方式,實現利用網管系統對正在召開的會議進行圖形化界面控制,便于網管系統操作人員進行操作,切換等待時間由原來的8-12秒縮短為2-4秒。