占善華 張永平
(廣東司法警官職業學院信息管理系 廣東省廣州市 510520)
公共法律服務是政府公共服務體系的重要組成部分,是司法行政機關的基本職責任務。近年來隨著公共法律服務平臺建設,語音數據快速增長,但這些數據并未進行深入的數據分析和挖掘,因此,為了更精確地分析人民群眾的法律服務需求,提高法律服務的質量以及輿情數據的分析,擬引入智能語音技術對語音數據進行轉寫以及對轉寫后的內容進行分析、挖掘,提供可融入日常工作的公共法律服務智能語言數據管理系統,實現對語音數據價值最大化。
在智能語音領域,對于如何將利用好司法行政系統內的法律服務平臺的海量語音數據,如何做到識別和轉換后的語義分析,國內外研究和實現很少,語音識別的聲學建模主要用于建模語音信號與音素之間的關系,業界相繼提出了前饋型序列記憶網絡(FSMN,Feed-forwardSequential Memory Network)[1]作為聲學建模框架以及深度全序列卷積神經網絡(DFCNN,Deep Fully Convolutional Neural Network)[2][3]。針對目前最好的語音識別系統采用雙向長短時記憶網絡(LSTM,Long Short Term Memory)[4-7]訓練復雜度高、解碼延時高等缺陷,一般來說可以使用深度全序列卷積神經網絡來克服雙向 LSTM 的缺陷,從而提高識別正確率。
公共法律服務平臺包括電話,網絡平臺,實體大廳,數據分散,需要建立一個統一的語音數據管理系統,對語音數據和文本數據以及業務關聯數據進行統一存儲、管理、應用,并建設可視化數據管理平臺,開放接口。
語音聽寫能夠把用戶說的任意語音轉換成對應的文字信息,配合語義理解后,語音聽寫就能夠聽懂人說話,和語音合成構成“能聽會說” 的語音交互模式。圖1為系統的整體技術架構圖,其主要包括以下一些功能點。
3.2.1 端點檢測

圖1:公共法律服務智能語音數據管理系統技術架構圖
端點檢測,業界也稱之為語音活動檢測,即Voice Activity Detection,簡稱VAD[8-10],VAD 的目的就是為了對一段數據進行語音和非語音的分離判別。簡單來說,就是如果給定有一段語音,該語音具有一定的噪聲污染,那么如何對該語音數據進行語音起點、語音結束點進行準確定位和識別,并同時可以去除噪聲的部分,從而完整找到該語音數據真正對我們有效的內容。學術界對端點檢測有準確的定義,即是對輸入的音頻流進行分析,確定用戶說話的起始和終止的處理過程。
常見的技術方法有三種:基于閾值的 VAD、作為分類器的VAD、模型 VAD。在本系統中,可以綜合使用。
3.2.2 噪音抑制
背景噪聲對于語音識別應用是一個現實的挑戰,對于研究者來說,如何對噪聲進行抑制可以追溯到上世紀70年代。其實從字面意義去理解,大家會認為這非常簡單,無非就是對于一段語音數據首先進行嘈雜信號的采取,然后盡可能的去除噪聲,并盡最大程度保留原語音的語義。但最大程度保留語義確是一個大挑戰,需要我們在設計算法的時候非常仔細的調整參數,同時需要進行大量的測試。利用speexdsp 庫[11,12]可以實現一定程度的噪音處理工作,但對整個噪音抑制器效果并不是非常好。本文擬利用深度學習的思想處理,對語音數據設計深度學習模型,該模型可以使用具有數千個神經元和數千萬個權重的層來執行噪聲抑制。該方法可以提高精準度,缺點是對于計算成本要求較高,畢竟這需要存儲數千行代碼以及幾十兆字節的神經元權重,但這對于一個服務于全省的平臺來說,這點投入是值得的。確保系統應具備高效的噪音抑制能力,以提高用戶在千差萬別的環境中識別效果才是首要的。
3.2.3 支持中文常見語句聽寫
語音識別對于日常使用的常用對話有較高的識別率。這利用各大公司開放的SDK 或者開源系統進行中文常見語句的聽寫,需要有意識的加入法律服務領域的專業語句庫,提高準確率。
3.2.4 支持中文標點智能預測
使用超大規模的語言模型,對識別結果語句智能預測其對話語境,提供斷句和標點符號的預測。
3.2.5 熱詞識別
語音識別服務系統支持應用和用戶自定義熱詞集。
3.2.6 個性化識別
應用級個性化是面向應用的個性化定制,既包括應用開發者通過構熱詞集提升識別效果, 又包括應用開發者根據自己應用的定位; 用戶級個性化是面向終端用戶的個性化定制,既包括用戶上傳自己的熱詞集來優化識別效果,又包括語音識別引擎針對用戶提取聲學模型;語音合成服務,采用中文文本、韻律分析和大語料庫的方法合成語音。
3.3.1 服務管理
為 SDK 分配唯一的身份標識 APPID,并通過此標識,控制為第三方開放的服務。
3.3.2 終端管理
從應用終端層面進一步細化管理,為每個終端分配其可訪問的應用。
3.3.3 應用管理
管理各個應用所需的基礎信息資源,如詞庫、快捷短語、翻譯句對、語義資源等,同時,提供應用的升級管理。
3.3.4 運營管理收集用戶的建議反饋;并多維度對客戶、應用、服務的使用情況進行細致的統計分析,指導產品優化
通過上述法律服務數據管理系統的設計,并基于該設計對語音數據進行深入的數據挖掘和分析,可以解決以下問題:
(1)各大法律服務平臺收集的音頻轉寫成文本,通過對文本進行數據分析和挖掘,發現法律服務的熱點問題;
(2)問法律服務的人員配比及制定服務策略提供數據支撐;
(3)為輿情的發現和管控等提供數據支撐;
(4)通過分析文本內容,對法律服務的質量進行檢查,分析法律服務咨詢的內容和目的,挖掘出隱藏的案件。
本文設計了一種公共法律服務智能語音數據管理系統,該系統開源實現音頻語音識別轉寫,將各大法律服務平臺收集的音頻數據利用智能語音技術轉寫成文本,同時開發數據分析功能,對轉寫后的文本進行挖掘,包括服務質量和隱藏案件的挖掘,最后通過對轉寫后的文本內容進行整體挖掘和統計分析,從法律服務分析輿情數據。最終實現對法律服務的熱點問題追蹤,為制定服務策略提供數據支撐,同時也可以為輿情的發現和管控提供數據支撐,實現對語音數據的價值最大化。