顧克明 顧锃
【摘 要】 介紹全新的數字會議系統即自適應語控智能會議系統,并實現“一線通、一聲控、一云端”理念。
【關鍵詞】 智能會議系統;自適應性;抗噪聲傳聲器;語音文字化;語控系統
文章編號: 10.3969/j.issn.1674-8239.2017.10.010
【Abstract】The author introduces a new digital conference system, namely adaptive speech control intelligent conference system, and implements the concept of "one line connection, one voice control, one cloud".
【Key Words】intelligent conference system; adaptive; anti noise microphone; voice and text; speech control system
會議的擴聲效果千差萬別,甚至有時會出現聽不見、聽不清的窘況。因此,對于會議系統,通常在前期需要對系統設備及會場環境進行專門的設計調試;開會發言時需要現場操作擴聲系統,隨時調節音量等參數;會上還要指定專人進行會議記錄;會后還要加班加點整理會議紀要……
以上繁雜的工作能否化繁為簡,形成一個高度智能化的自適應系統,這是筆者想討論的內容。
1 自適應語控智能會議系統及功能
自適應語控智能會議系統能夠按照設定的標準工作,并根據會場的各種條件,自動適應地選擇各種會議功能,同時對自身工作特性進行智能調節,從而獲得語言清晰、音樂豐滿、聲像一致的會場效果。其可以將繁瑣、復雜的會議步驟高度簡化,為與會人員提供自然舒適、高效順暢的會議體驗。
自適應語控智能會議系統包含會議拾聲自適應、會議設備智能語控、會議發言實時轉寫三大模塊,為各類會議提供系統解決方案。 其具體的三項功能如下。
(1)會議拾聲自適應。會議系統能夠根據說話人的聲音大小、環境噪聲強弱來自動調節自身特性、自動匹配聲音處理策略,使系統處于適配的工作狀態,盡可能地提高拾取音源的聲音質量,從而獲得高語言清晰度的聽音效果,擺脫由操作人員調整控制傳聲器等設備的傳統會議模式。
(2)會議設備智能操控。系統通過人機語音交互完成投影儀、幕布、窗簾、燈光、音響、空調等會場設備的應用操作,為與會人員提供便捷、智能、個性化的會議體驗。
(3)會議發言實時轉寫。基于語音轉寫技術,能夠將會議發言實時轉換成文字,還具有實時編輯修改、關鍵詞優化、敏感詞屏蔽等實用功能,會議結束即可同步提供會議紀要。
2 系統設備
2.1 抗噪聲傳聲器
抗噪聲指向性傳聲器(專利第55 32871號)如圖1所示,其抗噪性能可在各類會場條件下提供自適應的解決辦法。
2.1.1 主要性能
(1)抗噪聲傳聲器配備了具有聲干涉管的¢14 mm專業數字音頭,采用指向性結構與DSP(數字信號處理)技術相結合的原理,在增加指向性與降低環境噪聲的基礎上達到遠距離拾音的目的。
(2)為了減少干擾和噪聲,內置聲學DSP芯片,通過短音節收斂算法達到穩態噪聲抑制效果,在每次開機時,可針對傳聲器當時所處環境的情況自動校準以實現消噪功能;支持廣泛的采樣率范圍,從8 kHz、16 kHz(寬帶語音)到48 kHz。
(3)采用AGC(自動增益控制)與高低頻帶寬抑制技術,實現較高的拾音信噪比指標,獲得清晰的音質。只要人在5 m范圍內說話,不論遠近,聲音能一直維持相同的輸出音量。
2.1.2 主要指標
(1)強指向性。接收角度小于30°,定向拾音有效地排除周圍噪聲拾取量,保證會議質量。
(2)AGC自動增益。做到0.2 m~5 m范圍內拾音輸出保持相同音量,為多種場合使用提供方便。
(3)語言清晰度。通過STIPA測試對比,抗噪聲指向性傳聲器比普遍傳聲器提高0.05以上,語言清晰度得到提高。
(4)傳聲器配備PDM數字輸入,針對環境自動校準,對穩態噪聲具有降噪功能,經實測降噪值達14 dB以上,如圖2所示,圖中淺紅色為噪聲原信號,深紅色為降噪后信號。
經降噪處理后的會議擴聲系統,其會場環境噪聲相對降低14 dB以上,信噪比得到很大改善,會議發言的語言清晰度得到顯著提高,特別是應用于聲場環境不太好的會議室會更為有效。
2.1.3 主要用途
抗噪聲傳聲器廣泛適用于會議采訪、電化教學、安防系統等場合。抗噪聲傳聲器尤其適用于教學系統,滿足了“要把師生的手解放出來”的學校需求,解決了有些老師不愿配帶無線傳聲器或手持傳聲器的問題。只要將傳聲器吊裝于教室頂棚之上,充分發揮抗噪聲傳聲器遠距離拾音的特性,即可方便自如地進行互動教學,如圖3。
2.2 數字自動混音臺
數字自動混音器是近年會議系統中使用的常規設備,其特點是連接容易、使用簡便、防嘯叫效果好。數字自動混音器不同于調音臺,其在抑制聲反饋方面完成了“人+調音臺”的自適應工作。
新近的數字自動混音器,采用 “自動傳聲器開關管理”控制技術,在標準工作模式下,雖然有多支傳聲器同時收到同一個人的講話聲,但只有音量最大的傳聲器的通道才能被自動打開。由于其他傳聲器不被打開,從而避免了反射聲、背景噪聲等激勵信號的迭加,拾音質量得到保障。另外一項技術是“自動傳聲增益控制”,傳聲器切換速度達到毫秒級,開/關無轉換痕跡,達到信號平滑過渡,不會發生講話時第一音節丟失的現象。endprint
2.3 強指向性揚聲器
強指向性揚聲器能夠以窄的波束向指定方向傳播聲音,波束內的聲音較強,波束外的聲音較弱,如圖4。目前,市場上出現了多種會議系統專用揚聲器,大部分為條狀揚聲器系統,即音柱。音柱即強指向性揚聲器系統,但僅指垂直方向,其水平方向仍是較寬的,指向性圖呈扇形。現有一款磁磚揚聲器系統,在垂直方向與水平方向兩個方向上,指向性都很窄,指向性圖呈銳形,能將聲音更集中地傳輸到聽眾區,更大程度地減弱反射聲對會場的影響。如果能很好地控制揚聲器垂直/水平指向性,使波束區內聽眾得到更多的直達聲,就能獲得比普通揚聲器系統更高的語言清晰度。
選用強指向性揚聲器系統相當于起到縮短混響時間的效果,這是“有效混響時間”的概念,對于混響時間較長的會議室更有選擇的必要。抗噪聲強指向傳聲器結合強指向性揚聲器,是對抗長混響環境行之有效的方法。
2.4 功率放大器的擴聲電平控制
從圖5中可以清晰地看到語言傳輸指數(選自IEC 60268-16(4.0版.2011.6)規范)與聲壓級的關系,見表1。
經過反復驗證,在工程實際中多次證實了以下規律:同等條件下,聲壓級50 dB~80 dB 時語言傳輸指數(STI)的一種簡化形式STIPA(擴聲系統語言傳輸指數)基本不變,而聲壓級升高到80 dB后,STIPA急劇下降。由此可見,為了使會議系統獲得較高的語言傳輸指數,保證較好的語言清晰度,建議擴聲的聲壓級控制在75 dB±3 dB,大型會場控制在85 dB±3 dB為宜。
例如,昆明滇池國際會展中心萬人會場的擴聲系統設計[3]中,如圖6,在實測混響時間高達10.58 s的嚴峻現實下,運用以上原理展開設計施工,最終語言清晰度仍達到GB/T 28049-2011《廳堂、體育場館擴聲系統設計標準》會議類擴聲系統聲學特性指標一級標準(STIPA≥0.5)。
由此想到,倘若在數字功率放大器輸入端設有三段壓限器,設定75 dB前為線性增益、75 dB~78 dB為斜率增益、78 dB以上為0增益,這將自動適應講話人聲音大小,為會議系統管理帶來極大便利。
3 語音控制技術
引入人機交互理念,集成了包括雙全工技術、傳聲器技術、聲紋識別技術、方言識別、語義理解技術和內容服務等技術,通過繼電器、遠紅外等控制音頻、視頻、燈光、小型機械、窗簾、空調等會議室相關設備,可根據邏輯關系進行聯動編程,達到智能控制、一鍵聯動等。操作設備采用有線或無線觸摸屏、電腦、墻裝按鍵面板等。
通過AIUI(科大訊飛人工智能交互界面)前端語音交互入口,進行高保真拾音及語音轉寫,轉寫的結果是利用其語義理解平臺所提供的語音交互、上下文理解能力,快速關聯相應的設備應用場景,快速抽取語義、提取意圖和關鍵信息,形成結構化的語義理解結果指令,經中央控制器輸出到已連接的相應設備,從而達到控制設備的效果。還可預設多個設備的組合控制模式,達到一句話控制所有設備的便捷效果。
語義理解平臺是一種實現人機間自然語言通信的軟件系統。從形式上看,中文文本是由漢字(包括標點符號等)組成的一個字符串。由字可組成詞,由詞可組成詞組,由詞組可組成句子,進而由一些句子組成段、節、章、篇。但在不同的場景或不同的語境下,可以理解成不同的詞串、詞組串等,并有不同的意義。一般情況下,它們中的大多數都是可以根據相應的語境和場景的規定而得到解決的。但是,為了消解歧義,是需要大量的知識并進行推理。語義理解平臺就是將這些知識較完整地加以收集和整理,以合適的形式將它們存入計算機系統中,有效地利用它們來消除歧義,實現準確識別、理解自然語言含義的功能。
4 語音文字化功能
在會議系統中整合語音文字化產品,以符合安全要求的離線方式,將會議場景下的發言語音內容實時轉換成文字,方便有效地解決了語言與文字的互換關系,從而有效提高會議系統的智能化程度。
如果要真正實現語音轉寫在會議場景下的應用能力,需要提升語音轉寫結果的可讀性,提高智能語音轉寫系統的易用性,就需要開展轉寫結果可讀性提升、段落劃分、摘要及意圖檢測方面的研究工作。
(1)語音轉寫結果的可讀性提升:使用基于多信息融合及基于聲學屬性識別的聲學置信度技術,并結合語義信息,進一步提升異常語音的檢測能力;基于CRF(Conditional Random Field)模型的標點技術、基于CRF模型的句子順滑及基于最大熵模型的關鍵信息抽取等技術,通過這些技術的組合,進一步改善轉寫內容的可閱讀性。
(2)語義段落的自動劃分:基于句子級別語義聚類和關聯邏輯關系的分析以及一些特殊的提示型詞匯、停頓長度等額外信息,自動將較長的內容轉寫結果切分為語義相對獨立的若干個段落,為關鍵信息和摘要做準備。
(3)語義摘要:借鑒傳統的文本自動摘要,并根據語音中說話人、語氣強調重復等信息,自動對每一段語音進行關鍵信息的抽取和自動摘要,以便快速地從長時語音中找到所需轉寫的內容,進一步提升人機結合方式的語音轉寫的投入產出比。
會議語音轉寫的核心價值在于語音轉寫的實時性和準確率,采用的智能會議系統可達到實時語音轉寫效率≤500 ms,基本達到零延遲的出材效果感知。而基于“即聽即所見”的核心技術,其對標準普通話的轉寫準確率超過95%,達到無紙化記錄水平。
目前,國內相關的前沿技術主要為采用13 000小時以上連續語流數據訓練而成的聲學模型及二遍解碼技術,其獨有的文本順滑、標點識別、英文數字后處理等自然語言處理能力,使識別結果更加準確、規范。
5 工程案例
某會議室尺寸為長9.5 m、寬4.5 m、高3.4 m,如圖7所示。經建聲專業裝修后混響時間T60=0.4 s;系統配置包括降噪傳聲器系統、會議音響系統、視頻顯示系統、智能照明系統、語音控制系統、語言轉寫系統,視頻會議系統、電動窗簾系統、中央空調系統、集中控制系統,系統原理圖如圖8所示。
6 結束語
綜上所述,自適應語控智能會議系統以數字處理為核心技術,形成由數字傳聲器-數字處理器-數字有源揚聲器組成的智能會議系統,有利于提高會場系統工程質量;以降噪技術為手段,體現在會場語言清晰度的提高從聲源上解決問題; “即聽即所見”技術實現了語音文字化,對會議紀要整理、資料保存以及無紙化辦公具有實際應用價值。
參考文獻:
[1] 顧克明,彭妙顏,周錫韜等. 會場系統工程[M]. 北京:中國電力出版社,2013.
[2] 高玉龍. 小房間聲學設計及建筑聲學處理[M]. 北京:國防工業出版社, 2014.
[3] 顧克明,陳敏,顧 锃. 昆明滇池國際會展中心萬人會場的擴聲系統設計[J]. 電聲技術,2015(8).endprint