曾誰飛,王仁波
(東華理工大學信息與電子工程學院 撫州344000)
語音合成技術在電信、交通運輸以及銀行等領域的語音廣播中得到了廣泛的應用,如電信營業廳的排隊叫號系統、CRM(客戶關系管理)系統、計費系統等,交通運輸行業的候車大廳廣播系統以及銀行的客戶營業廳排隊叫號系統。隨著語音與信號處理技術的迅速發展,語音播報應用在各個行業得到了充分的展示。隨著各行業服務質量的競爭日益加劇,行業對智能語音播報的需求也越來越強烈。如在通信行業,我國已進入3G網絡的加速建設階段,人們對服務質量的要求也愈來愈高,傳統的人工語音廣播已不能滿足用戶的需要。目前電信運營商也把提升整體服務水平作為吸引客戶的重要手段之一,并且投入了很大精力和財力。如在話費查詢、票務預訂、信息資訊、語音信息播報等服務方面,投入較多,但收效并不明確。如何打造高效有特色和專業化的智能語音播報系統仍然是一個極大的挑戰。
一般來講,傳統人工語音廣播存在以下幾個方面的問題。
· 發音朗讀不規范。如地方話、普通話相混雜,抑揚頓挫不規則。
·易出錯。比如在營業廳和候車/機廳等每日需播報大量的用戶須知、車次到達和出發信息以及找人尋物等臨時信息,看錯、念錯、漏播、錯播等現象在所難免。
·狀態不佳。天天大量重復性的工作,使得播音員精神狀態不佳,無精打采。
·浪費人力。需要安排多人專職輪流播音,耗費管理成本。
智能語音播報系統則完全解決了這些問題。本文采用國際領先的語音合成技術為業內用戶提出了智能語音播報的解決方案,不僅降低了建設成本,而且提高了服務效率。
基于語音合成技術的智能語音播報系統,其組網架構主要由服務/營業大廳和智能語音播報兩大區域組成,主要服務器有合成平臺管理服務器、TTS合成服務器、詞庫維護服務器、定制音庫管理服務器和語音合成監控服務器,如圖1所示。基于該架構,智能語音播報系統能夠方便輕松地實現對廣播的音效管理和維護。每種服務器的具體功能簡要說明如下。

合成平臺管理服務器:提供在線演示Demo和設置各項參數進行試聽功能。
TTS合成服務器:完成文本轉換處理功能,將文本內容轉換成語音流或語音文件。
詞庫維護服務器:對傳入文本詞條進行優化和修改。定制音庫管理服務器:對定制文本修改和添加。
語音合成監控服務器:對語音合成服務進行檢測和檢查。
以上多臺服務器所承載的應用服務可以合并到一臺或兩臺服務器來加載運行。
根據語音合成技術的特點,智能語音播報系統的體系結構如圖2所示,具體描述如下。
·應用層:是智能語音播報系統的操作系統,用戶可以直接在該操作系統中實現業務操作以及平臺管理。
·接口層:提供各種業務的服務,如語音合成服務,ActiveX接口控件服務,版本、信息服務等。
· 核心層:通過核心控制系統提供的各種引擎、模塊,實現各種業務進程處理。
· 基礎層:由基礎音庫和行業領域音庫組成,為智能語音播報系統提供語音數據。
系統采用多線程多任務程序設計思想,語音合成引擎采用北京捷通華聲公司jTTS5.0產品。為了兼容多種語言,且使產品具備版本升級的可操作性,系統分為三層:應用層、核心層和底層,如圖3所示。每層的作用如下。
應用層:位于最高層,實現智能語音播報系統的業務應用。可以直接與核心層的API通信;可以使用VB、Web等工具二次開發后,通過OCX控件,再與核心層API通信。
核心層:提供應用程序需要的相關接口和實現語音播放、系統管理等功能的引擎。
底層:語音庫,為應用程序提供基本語音數據來源。


根據業務的運營經驗,為了同時兼顧界面應用層的靈活度、平臺層和接口層的穩定性,系統從整體上劃分為基礎功能、核心功能和擴展功能,可以支撐產品的快速創新和深度運營能力,如圖4所示。

創建與設置語音播報流程如圖5所示,具體如下。

(1)選擇發音人(例如:zhangnan),后臺系統將播音員設置為“zhangnan”,其他相關選項設置為默認。
(2)選擇播報的行業領域音庫,如電信運營商、鐵路、航空行業。
(3)操作員可以通過鍵盤等輸入設備輸入播音的內容,也可以直接導入TXT文本文件。
(4)操作員可以通過音量、音頻、符號讀法、英文讀法、數字讀法等控制選項,對播音的內容進行編輯。
(5)根據需要,可以插入預錄音(播音正式內容開始前插入的音效、音樂)和背景音(與播音正式內容同步播報的音效、音樂)。
(6)根據需要,可以選擇播音的發音風格,如:抑揚頓挫(適用小說、評述等)和平穩端重(適用新聞、講解等)。
(7)編輯完畢之后,可以選擇播音(play),將本次播音通過音頻設備(音響系統)輸出。
(8)操作員可以保存該播音項目,即選擇以文件輸出,下次播音相同內容時,可以調用。
打開語音播報流程如圖6所示,具體如下。

(1)選擇打開語音文件,將已保存的語音提取到平臺。
(2)選擇播報(play),即可將保存好的文件播報至設備。
預約語音播報流程如圖7所示,具體如下。
(1)選擇“預約”,系統自動轉到預約語音播報菜單。
(2)在預約語音播報菜單中,打開文件。
(3)選擇預約時間,可以特指某時間,也可以選擇每天的固定時間。
(4)保存該預約語音播報。
(5)操作完畢,當系統時間至預約時間時,系統將自動啟動該語音播報任務。


為了滿足不同行業的應用,在有通用語音庫(基礎音庫)的基礎上首先必須進行語音合成領域庫的制作與優化,其步驟說明如下(具體流程如圖8所示)。
(1)獲取領域語料。
(2)基于自然語言處理技術對領域語料進行分析,生成錄音語料、標注信息和最佳顆粒度的詞條列表。
(3)基于分析結果,對標注信息進行人工校對。
(4)基于分析結果或者聽音測試結果,對文本分析模塊及數據字典進行領域改進,預生成優化引擎。
(5)錄音。
(6)切音。
(7)領域庫預生成。
(8)聽音測試,根據結果重復步驟(4)~(7)。
(9)完成最終的優化引擎和領域庫。
(1)語音合成引擎中的行業發音特點
每一個行業均有其語音應用特點,尤其是涉及眾多老百姓用戶的電信營業廳、鐵路與醫院服務大廳的語音廣播,對語音播報的感情要求、節奏要求、變量(比如時間、服務柜臺號、檢票口、站臺)等信息的清晰性要求各有不同。
(2)語音合成引擎中的音色(發音人)問題
需要對語音合成引擎中的音色或者發音人進行篩選及制定發音人的挑選標準,為所在的行業創造“聲音品牌”服務效應。
(3)語音合成引擎的擴展與版本管理問題
根據各行業語音播報的發音風格特征,建立一套易擴展的TTS標記規則以滿足該行業的應用,達到最佳的合成效果,同時要注意版本管理的問題。
(4)語音合成標記語言和語音合成引擎API的擴充性問題
根據現有不同的電信運營商服務特點和要求,必須充分考慮到語音合成引擎的標記語言擴展性,才能靈活地滿足該行業不同業務平臺各種功能二次開發的要求,并且語音合成引擎必須提供豐富和功能強大的API函數,才能有效地融入電信運營商的系統信息化建設中。
TTS技術在語音播報應用中具有很多優勢,如開發形式簡單、語音庫具有通行性等,并且在TTS語音庫的基礎語料上補充了相應行業廣播人員的錄音制作成的領域庫,這樣的TTS語音引擎模式可以應用到電信、鐵路、銀行等行業領域,使智能語音播報服務具有廣泛的應用需求和良好的發展前景,為目前競爭激烈的各個電信運營商提升自己營業廳服務水平,創造語音播報品牌提供了很好的選擇。
1 北京捷通華聲語音技術有限公司.jTTS5.0技術白皮書,http://www.sinovoice.com.cn/upload/2008120809091517179667.pdf,2007
2 北京捷通華聲語音技術有限公司.jTTS5.0技術開發手冊,2007