摘 要:在檢察行業信息化中,較為傳統的人機交互方式包括鍵盤、觸屏、手寫筆等,由于屏幕小、鍵盤小,傳統的交互方式相對比較笨拙,對使用者的技能也有較高的要求,效率低下、不夠便捷,尤其是在詢問訊問、文書編寫、會議記錄等對輸入要求高、時效性要求高的場景下,對信息的錄入速度與輸入設備的便攜性都提出了更高的要求。智能語音技術是近年興起的一項新技術,主要通過信息快速錄入、人機智能交互、語音采集識別、語言文字翻譯等關鍵技術,讓設備和系統能聽、會說,重新定義了人機交互方式,是移動網和物聯網的重要入口,近年來廣泛應用于醫療、汽車、教育、金融、軍事、公共安全等領域。
關鍵詞:檢務語音云;語音識別;語音合成;檢務語音輸入法
中圖分類號:TN912.3 文獻標識碼:A 文章編號:2096-4706(2018)06-0013-04
Abstract:In the information of the procuratorial industry,the traditional human-computer interaction methods include keyboard,touch screen,handwriting pen and so on. Because of small screen and small keyboard,the traditional interactive mode is relatively clumsy. It also has high requirements for the user’s skills,low efficiency and inconvenient,especially in the case of interrogating interrogation,writing of documents,meeting record and so on,high requirements and high timeliness requirements are required for the input speed of information and the portability of the input equipment. Intelligent voice technology is a new technology which has been developed in recent years. It mainly solves the key technologies such as information rapid entry,man-machine intelligence interaction,speech acquisition and recognition,language and text translation,so that the equipment and system can be heard and said,redefining the human-computer interaction. It is an important entrance to the mobile network and the internet of things,and has been widely used in recent years. It is applied to medical,automobile,education,finance,military,public safety and other fields.
Keywords:verification voice cloud;speech recognition;speech synthesis;verification speech input method
0 引 言
隨著社會經濟的迅猛發展,社會矛盾日益凸顯,各類違法犯罪案件數量呈現逐年上升的趨勢。檢察機關肩負的責任和承擔的工作任務越來越重。多年來,案多人少、辦案力量不足一直是各級檢察機關比較突出的問題。與此同時,公眾對檢察院執法部門的工作效率、反應和應變能力也提出了更高的要求,執法工作的移動性、突發性和緊急性與傳統工作模式的矛盾正日益凸顯。為了適應新的執法環境和檢察實戰要求,伴隨著物聯網、云計算、移動互聯網的迅猛發展,檢察行業正朝著移動化、物聯化、智能化的理念和形態發展。
檢察機關內外部數據爆發式地增長,檢務工作者通過傳統手段進行繁雜的數據采集錄入與分析處理工作,人力嚴重不足,以上這些成為制約檢務工作的突出問題。從總體上看,智能語音技術在我國檢察系統中的應用處于分散探索階段,一直采取單點突破,單業務方向應用的方式。一方面,這種應用模式沒有能夠從全局角度綜合考慮智能語音技術與應用的結合,影響技術能力和應用價值的發揮;另一方面,分散的投入和隔離的系統造成智能語音技術的進化速度和適應過程加長。因此,檢務智能語音云的引入必須從全局進行統一規劃,為各業務應用系統提供統一的語音處理平臺。
1 設計原則
檢務語音云平臺總體設計遵循以下主要原則。
1.1 實用性和先進性
采用先進成熟的技術滿足系統各種應用的需求,兼顧其他相關的管理需求,在保證滿足各種應用系統業務的同時,也體現出硬件系統和軟件系統的先進性。
1.2 高可靠性
平臺的穩定可靠是應用系統正常運行的關鍵。為保證各項業務的應用,網絡、硬件必須具有高可靠性,盡量避免系統的單點故障,軟件需要支持虛擬化和負載均衡。同時要對網絡結構、網絡設備、存儲等各個方面進行高可靠性地設計和建設。
1.3 標準性與開放性
所選用的設備和軟件技術要支持國際通用的通信協議和標準,采用標準協議進行互連互通,確保本次建設是網絡平臺與原有系統、其他系統能夠無縫互聯,在結構上真正實現開放。堅持統一規范的原則,為未來的發展奠定基礎。
1.4 高安全性
數據涉及社會公眾,具有一定的敏感性和私密性,因此要充分考慮平臺的安全性。采用先進的安全產品和技術,確保平臺的邊界安全、數據云中心安全以及計算機終端的接入安全,并對操作行為進行實時有效的監控和日志記錄。
1.5 高性能
系統用戶包括檢察機關各業務機構工作者,操作過程中會出現多樣的高并發的請求服務,還有各類復雜的使用環境,因此需要系統在基于海量數據的檢索、應用、接口服務等方面均提供高性能、高穩定的服務。
1.6 靈活性及可擴展性
信息化系統是一個不斷發展的系統,平臺不僅需要保持對以前技術的兼容性,還必須具有良好的靈活性和可擴展性,具備支持多種應用系統的能力,具備設備擴容和技術升級的靈活性。
1.7 易操作性和可管理性
平臺具有高度友好的界面和使用性。平臺有非常強的糾錯操作能力,使得在各種可能發生的誤操作下,不會引起系統的混亂。
1.8 采用開放技術兼容原有系統數據
系統采用J2EE多層體系架構設計,支持Windows、Linux系列操作系統,支持Oracle、SqlServer和MySQL等主流成熟大型數據庫。
2 總體設計
本檢務語音云平臺建設方案包括語音服務平臺和智能語音應用兩個方面。
2.1 語音服務平臺
語音服務平臺是智能語音云的基礎平臺,各項語音技術在語音云中,以服務的方式提供給應用系統調用。智能語音服務平臺示意圖如圖1所示,主要包括:
(1)語音識別。將語音轉成文字,具備中文普通話和英語的識別能力;
(2)語音合成。具有將中文和英文的文字轉變為語音的合成能力;
(3)語音接口服務。提供集成開發接口,以便開發人員能夠將其與應用程序進行集成,實現具有完整語音能力的應用。
2.1.1 語音識別服務
語音識別能夠把用戶說的任意語音轉換成對應的文字信息,是移動互聯時代全新的信息錄入方式,可以大大提高在移動終端上的文字輸入速度。主要功能有如下:
(1)端點檢測。端點檢測是對輸入的音頻流進行分析,確定用戶說話的起始和終止的處理過程。一旦檢測到用戶開始說話,語音開始流向識別引擎,直到檢測到用戶說話結束。這種方式使識別引擎在用戶說話的同時即開始進行識別處理。
(2)噪音抑制。在實際應用中,背景噪聲對于語音識別應用是一個現實的挑戰,即便說話人處于安靜的辦公室環境,在電話語音通話的過程中也難以避免一定的噪聲。語音識別系統具有高效的噪音抑制能力,能夠提高用戶在千差萬別的環境中的識別效果。
(3)支持中文常見語句識別。語音識別對于日常使用的對話有著很高的識別準確率,包括短信類、生活、交通、娛樂、科技、數字數值、名人、互聯網熱詞、新聞等領域的對話,這些領域的整句識別正確率可以達到80%~95%,基本可以達到中國人日常生活的要求。
(4)支持中文標點智能預測。語音識別將使用超大規模的語言模型,根據識別結果語句智能預測其對話語境,提供智能斷句和標點符號的預測。
(5)熱詞識別。語音識別服務系統支持應用和用戶自定義熱詞集,并在識別結果中給出是否為自定義熱詞的信息。識別結果應優先從熱詞集中選取。
(6)個性化識別。語音識別服務系統支持應用級個性化和用戶級個性化識別的實施。應用級個性化是面向應用的個性化定制,既包括應用開發者通過熱詞集提升識別效果,又包括應用開發者根據自己應用的定位,選擇不同年齡、性別的用戶群體提取出聲學模型,對識別效果進行優化;用戶級個性化是面向終端用戶的個性化定制,既包括用戶上傳自己的熱詞集來優化識別效果,又包括語音識別引擎針對用戶提取聲學模型,提升識別效果。
2.1.2 語音合成服務
語音合成是將文字轉變為語音的一項技術,用于在業務應用中實現語音播報、信息提醒和遠程呼叫等,采用最先進的中文文本、韻律分析算法和大語料庫的合成方法,合成語音已經接近真人的自然效果。
本項目語音合成服務設計分為構建階段、合成階段何輸出階段三大部分。
(1)構建階段。構建階段的主要工作是為后續階段提供聲學模型和文本處理能力,由于數據準備和處理的前期工作較多,一般訓練階段都是離線完成。
漢語口語前端知識庫:該模塊為語言知識的儲備部分,是在語言學層面指導語音合成的關鍵知識。知識庫包括文本語料、音素集合、發音字典、字音轉換規則、特殊符號處理規則以及韻律屬性標注數據庫等。構建前端知識庫需要大量語言學專家的研究總結,特別是口語化表達特點需要長期性的積累;
音庫錄制:發音人音庫是語音合成的數據基礎,一般由前端知識庫提供錄音文本,采集專業發音人在錄音棚環境下的干凈人聲錄音。口語化音庫的錄音將采用雙人應答試錄音;
音庫標注:音庫標注用來處理錄音數據,將錄音中的字詞邊界、韻律層次、重讀弱化、發音變調等關鍵信息標出,音庫標注一般由具有語音學經驗的標注人員人工操作;
問題集:問題集是對語言學知識的提煉,由語言學專家設計,主要針對語音的異質化特征設計分類問題,加以區分(如漢語聲調、語氣),在聲學模型訓練中體現出表現差異;
聲學模型訓練:訓練聲學模型是語音合成的核心技術之一,帶標注的音庫經過聲學參數提取(包括頻譜、基頻、時長),形成參數化的數據集合。再經過以隱馬爾柯夫模型(Hidden Markov Model,HMM)為代表的統計建模方法,對多種聲學參數進行統計建模,生成聲學模型。音庫的豐富標注結合問題集,完成基于最大似然準則的決策樹構建,為后續階段使用聲學模型進行參數生成和單元挑選提供模型依據。
(2)合成階段。合成階段是處理實時合成請求的內部算法階段,擔負著將每一段待合成文本轉化為符合相應信息的語音信號的任務。
前端文本分析:前端文本分析模塊是合成階段的入口,外來待合成文本在此模塊下被解析成合成系統可以理解的音素序列串,并賦予層次結構、詞性信息等預測信息。前端文本分析模塊也是由前端知識庫提煉的構建,具備口語化特征處理能力;
模型決策:解析后的音素序列串在模型決策模塊中進行多種聲學模型的決策,生成對應的文本決策模型序列,將文本信息實現模型化表達;
文本決策模型序列:由于問題集和前端文本分析向音素序列串提供了和音庫標注相對應的多種高層語言學信息,經過模型決策之后,簡單的音素序列串成為變化更加豐富的模型序列,變得更接近自然發音;
語音參數生成:決策聲學模型進行語音參數生成,屬于語音合成技術兩大技術路線中的統計參數合成路線。聲學模型序列基于最大似然準則可以生成一系列聲學參數,模型化將待合成文本實現參數化;
語音聲碼器:聲碼器可以將聲學參數序列解碼成語音波形信號,在此實現待合成文本的語音化;
樣本單元挑選:決策聲學模型指導樣本單元挑選技術,屬于語音合成技術兩大技術路線中的單元挑選波形拼接合成路線。傳統的單元挑選一般基于專家規則和模板匹配技術,基于統計聲學模型的單元挑選技術是訊飛首創的全新挑選算法,它利用聲學統計模型作為單元挑選指導目標,使用KLD距離準則的單元預選和基于最大似然值準則的單元挑選,并通過Viterbi搜索得到最佳的合成單元序列串組合;
樣本單元拼接:樣本單元拼接技術將搜索到的波形單元序列串拼合起來,通過相位對齊和加窗疊加等平滑算法,保證波形單元之間的順暢過渡,形成自然流暢的、完整的合成語音波形信號。
(3)輸出階段。輸出階段承擔著語音后期處理的任務,在此階段可以通過規則定制手段滿足個性化合成需求。
定制模塊:定制模塊提供開放性的定制服務,有針對性地提升合成效果。用戶可以在此模塊中設計個性化的詞條(如添加方言俚語)、發音規則(如多音字發音),進行合成模板(如應用較多的固定句式)和特殊符號規則等多樣化處理;
音效處理:音效處理模塊是對原始語音的處理加工,可以根據用戶設計調整語音的語速、能量和音調等,還可以根據使用目的的不同,實現語音的身份隱藏、疊加回聲、混響、背景音等豐富的效果。
2.1.3 語音接口服務
檢務語音云作為一個語音的基礎平臺,其重點是向上層的應用提供豐富的擴展服務支持。平臺應提供豐富的應用開發接口,可由業務系統整合。還要提供應用開發接口(SDK),向第三方提供合成、識別等相關語音業務功能。同時也可以將其他系統作為數據資源接入智能語音云平臺,實現語音檢索功能。在檢務語音云發展到一定規模時,可以通過擴充軟、硬件資源的方式,提升云服務的數據存儲量和運算吞吐量。
2.2 智能語音應用
2.2.1 檢務語音輸入法
較為傳統的人機交互方式包括鍵盤、觸屏、手寫筆等,由于移動終端屏幕小、鍵盤小,傳統的交互方式相對比較笨拙,對使用者的技能也有較高的要求。在智能語音云平臺服務的基礎上,提供語音輸入法,適用于智能手機、平板電腦、筆記本等設備,實現語音識別輸入、手寫輸入、拼音輸入等全方位的文字輸入功能。語音輸入結合智能語音技術,將用戶口述內容自動轉為與語音對應的文本,改變現有的信息采錄方式,比傳統方式快3~5倍,可以大大降低對技能的要求,讓打字慢的用戶在采錄工作中也可以提高速度,提高工作效率。
2.2.2 網絡版智能會議系統
在智能語音云平臺服務的基礎上,提供引擎后置的網絡版智能會議系統,部署覆蓋所有會議室的網絡版智能會議系統,提供各級檢察機關的會議內容轉寫應用,實現在會議場景下的實時音頻或錄音采集,并通過語音識別技術實時轉化為文字。系統具備會議音頻管理、即時校對編輯、敏感詞屏蔽、轉寫文字實時直播等基本功能。系統提供延時播放、按句回聽、重點標記等功能,方便快速整理出會議材料;提供語氣詞過濾、自動分段等功能,自動優化文字結果;提供全文檢索功能,方便檢索歷史音頻。
2.2.3 訊(詢)問筆錄系統
部署覆蓋所有審訊室的網絡版訊(詢)問筆錄系統,提供各級檢察機關的審訊筆錄應用。系統設計如下:
(1)基于麥克風陣列技術的語音采集設備。審訊應用環境中,說話人離話筒的距離不可控、問答雙方聲音在不同話筒間相互干擾以及封閉環境的回聲和混響等一系列問題造成審訊收音效果較差。為解決收音效果的問題,系統在音頻采音方面,通過八路麥克風陣列的硬件方案來降低噪聲和混響水平,提升信噪比;在音頻處理方面,通過基于自適應濾波的噪聲消除、多通道線性預測、干音提取等方法進一步減少噪聲,提取有效音頻。
(2)自動化審訊語音轉寫筆錄系統。首先,本系統基于VAD語音端點檢測技術,將每個人的語音進行自動分段,基于說話人自動分離技術,采用微信的對話方式,更好地展現雙方的對話內容。用戶可對審訊筆錄進行按句回聽、排版布局、快速編輯以及快速出材;其次,利用語義理解相關技術,對審訊錄音進行語義分析,并構建語義索引,開發語義檢索服務,實現面向審訊筆錄的語義檢索;最后基于內容識別和后處理技術,顯示同步文字、標點,支持邊點邊聽,針對可懂度較好的,可以直接跳聽。紅色高亮顯示用戶預設、自動抽取的關鍵詞,快速了解關鍵信息,提供快速聽音功能,可以通過文字定位語音片段,從而實現精準回溯。
(3)中文語音識別轉寫引擎。基于長短時記憶的循環神經網絡的聲學建模和語言模型建模技術,同時考慮后續智能審訊巡查監督技術的應用需求,研發基于識別結果的分段、分詞、順滑、置信度評估等后處理技術,實現審訊語音數據的自動筆錄、關鍵信息抽取、結構化存儲、信息檢索、智能分析及語速檢測等技術。
(4)數據交換平臺。可以為第三方系統(如:辦案系統、同步錄音錄像系統)提供相關業務信息查詢等外部接口,方便與其他業務系統進行數據交換。
檢務智能語音云平臺建設完成后,能夠為檢察信息化提供一個基礎語音服務平臺,通過云端服務方式與檢察信息化應用相融合,為移動應用提供低成本、高可用的綜合語音技術服務,可以廣泛應用于信息采集、播報等領域,解放民警雙手,降低語音技術的應用門檻,從而大大提高工作效率。
參考文獻:
[1] 楊行峻,遲惠生,等.語音信號數字處理 [M].北京:電子工業出版社,1995.
[2] 趙力.語音信號處理 [M].北京:機械工業出版社,2009.
作者簡介:侯彬鋒(1979.04-),男,河北石家莊人,高級設計師,中級工程師,學士。研究方向:互聯網技術。