于安迎 劉中濤 項鴻雁 高玉領 盧鳳
摘 要:為增強語音識別技術在不同行業的應用,需要針對不同行業建設相應的語料庫。目前,中文語料庫構建尚處于起始階段,以THCHS-30語料庫為代表的大眾新聞語料初步投入應用。本文面向電力行業設計、構建電力行業語音語料,提出電力行業語料庫設計規范并建立電力行業初級語料庫,填補電力行業中文語料庫的空白。本文分別實現語料音頻錄制和文本語料構成規范分析,完成包括發音、錄制及存儲等的錄制和包括語料及詞典的編制規范。采用音頻標注技術,完成長音頻切分以及短語料標注,實現文字和音素的兩層級標注,建立電力音頻標注規范。最后對語料庫進行準確度測試,語料標注平均準確率為99.75%,滿足語料庫應用需求。
關鍵詞:電力行業;語料庫;語音標注;詞庫
中圖分類號:TP391.1 文獻標識碼:A 文章編號:1671-2064(2018)16-0148-03
1 概述
隨著人工智能(AI, Artificial Intelligence)技術[1]的推廣和深入,以帶電作業機器人、AI控制器為代表的一批智能產品已率先進入電力行業,并發揮了極大的效用。因此,將人工智能技術與電力、能源等行業相結合,促進傳統行業的轉型升級,是研究人員重點關注的領域之一。語音作為人類最自然、最有效地交流方式,使得語音識別技術成為當下熱門研究方向。目前,電力行業語音識別應用主要集中在移動作業、語音報警和智能調度等[2]短語音指令交互控制的基礎應用層面,鮮少研究具有電力行業特性的大規模商用級語音識別服務。
運用大規模語料訓練DNN、CNN語音識別模型是現階段實現較高語音識別率的有效方法之一,那么構建足夠大的語音語料庫就至關重要。目前,開源的語音語料庫大多是大眾新聞[3]等語料為主。但該類語料庫幾乎不涉及電力系統相關音頻和專業詞匯,對電力系統的適用性較差,有較大的專業隔閡,語音識別率較低。因此本文研究分析中文語料庫構建現狀和電力行業語料特點,提出面向電力行業的語音語料庫設計方案,構建包含17小時的電力行業音頻語料庫,為電力系統音頻語料的研究提供數據支持。
2 中文語料庫構建分析
如今語音識別技術已經廣泛應用于各行各業,車載語音、語音助手等產品也已較為成熟。但是,絕大部分研究機構尚不具備大規模商用級中文語料庫,這就制約了語音識別技術的深入研究和推廣。目前,中文語料庫構建尚處于起始階段:2016年清華大學語音與語言研究中心開源了THCHS-30語料庫[4],該語料庫由40人完成錄制,時長約30小時;2017年北京希爾貝殼科技有限公司開源了AISHELL -ASR0009-OS1語料庫[5],該語料庫錄制時長178小時,由400名來自中國不同口音區域的發言人參與錄制。
隨著智能家居等系列語音產品的上線,其對應領域語料庫也隨之更新。清華大學的THCHS-30語料庫由大眾新聞語料構成。與THCHS-30語料庫相比,北京希爾貝殼科技有限公司的AISHELL-ASR0009-OS1語料庫行業覆蓋雖然更為廣泛,由50萬條常用語料構成,但是涉及領域也以智能家居、無人駕駛、工業生產等語音識別產品覆蓋領域為主。
因此,現有中文語料庫開源資源較為有限,數據量較少。且語料庫文本大多集中在新聞類語料、經濟、科技等常見語料,對特定專業領域語料覆蓋較少或基本無覆蓋。因此,構建適用于某一特定行業的專用語料庫,對豐富現有中文語料庫具有重要意義。本文面向電力行業,綜合考慮電力行業語料特點,設計、構建電力行業專用語料庫,實現科技進步與傳統行業的有效結合,對促進電力行業語音識別等技術的推廣具有重要的意義。
3 語料庫構建
現有開源中文語料庫基本不包括電力行業通用語料,并且電力行業語料庫研究大多集中在電力客服情感分析以及電力英文語料的構建上[6]。本文提出一套電力行業語料庫設計規范,構建17小時面向電力行業語音識別的語音語料庫,填補了電力行業語料庫的空白。分別從音頻語料錄制、文本語料設計及音頻標注闡述語料庫設計規范。
3.1 音頻語料錄制
3.1.1 錄音規范
面向電力行業的語音語料庫由17小時多通道中文普通話音頻語料構成。由12名來自不同口音區域發音人錄制。其中,男性發音人有7人,女性發音人5人。
錄制過程中保持安靜的室內環境,采用高保真麥克風(44.1kHz,16bit)采集音頻。語音語料庫設定音頻頻率為16kHz,16bit wav格式錄音,滿足音頻識別應用主流設置。發音人和麥克風距離保持在30cm左右,保證語音采集清晰、不失真。
3.1.2 數據集
語料庫數據集有訓練集、開發集和測試集構成。訓練集由8人錄制10511條電力行業語料構成,錄制時長約為13.5小時。開發集由2人錄制1459條語料構成,錄制時長約為2小時。測試集由2人錄制1030條語料構成,測試音頻語料約為1.5小時。語料庫數據結構如表1所示。
3.2 文本語料設計
3.2.1 語料規范
面向電力行業的語料庫文本覆蓋電力發電、電網輸配電及電能消耗等電力生產、應用具體環節,由1.3萬條電力行業各個環節常用語料構成,文本語料信息如表2所示。本語料庫對電力行業中涉及數字、單位、特殊符號等進行了處理,均以漢字進行描述,如“1KV”的漢字表述為“一千伏”。
3.2.2 專用詞庫構建
本文在實現構建電力行業的語料庫基礎上,完成對電力行業語料的自然語言處理實現語料分詞,生成電力行業專用詞典[7]。該詞典由1.3萬條語料分析提取而成,電力詞匯覆蓋發電、輸電、配電和用電等電力系統主要應用場景。
本文首先采用自然語言處理技術實現對1電力語料的分詞處理,得到常用電力詞匯約1.2萬個,基本覆蓋電力行業日常用詞。為保證電力行業專用詞典的通用性、增強對通用音頻詞匯的匹配度,本文對電力行業專用詞庫新增13萬個通用領域常用詞,提高詞庫適用性。同時,本文采用音素標注技術,完成詞語發音音素的標注處理。通過音素標注實現對音頻信號、音素和文字詞匯的準確匹配,為語音識別訓練和解碼[8]提供基礎數據。
3.3 語料庫標注
語音標注是語料庫構建的重要環節。為了有效避免發音人機械式表達,保證電力系統采集音頻表達連續性和發音人狀態自然有效,本語料庫采取對長文本統一錄音,再按語義結構進行切分、標注的方法,保證錄制語料流暢、自然。
本文采用中文拼音和音素[9]相結合的方式,運用開源軟件Praat實現多層級音頻有效標注。最大程度反應發音人講話狀態,保留語氣詞、嘆氣、咳聲等多種錄音信息。
對發音人錄制的長達半小時或一小時以上的長音頻首先運用Praat工具[10],按語義進行語句切分。設置語音標注TextGrid為一層,即標注出每條音頻對應文字內容。然后,通過編寫超長音頻切分腳本,對標注音頻進行批處理切分。最終得到以語句為單位,長度約為3s~10s的標準wav音頻。超長音頻標注結果如圖1所示。
4 測試結果
為保證語料庫的正確性,本文隨機抽取1000條測試語料,對語音切分及標注的準確性進行測試。對測試語料原文利用自然語言處理技術進行分詞處理,以詞語為單位計算語音標注的準確度。通過測試得出電力行業語料庫準確率約為99.75%,滿足語料庫應用需求,如表3所示為部分測試結果。
5 結語
本文面向電力行業完成電力行業語音語料庫的設計和構建,提出電力行業語音標注規范。通過對現有中文語料庫的分析,分析構建電力行業語料庫的必要性。在對電力行業語料特點進行分析后,介紹音頻語料錄制及文本語料錄制和采集規則。從超長音頻切分和短語料標注闡述語音標注實現方法。電力行業語料庫的構建從一定程度上豐富了電力行業音頻數據庫,為電力行業語音識別的深入研究提供了真實數據。在研究過程中發現,本語料庫與其他語料庫相比,錄制音頻相對較少,下一步將繼續豐富電力行業語料庫數據。
參考文獻
[1]鄭南寧.人工智能面臨的挑戰[J].自動化學報,2016,(05):641-642.
[2]楊樸,游大海.電力系統中的語音應用技術研究[J].計算機仿真,2004,21(03):91-93.
[3]蔣泰,張林軍.語音識別自適應算法在智能家居中的應用[J].計算機系統應用,2017,26(03):150-155.
[4]Dong Wang, Xuewei Zhang. THCHS-30: A Free Chinese Speech Corpus[C]. CSLT TECHNICAL REPORT-20150016 2016.02.
[5]Hui Bu, Jiayu Du, Xingyu Na, Bengu Wu, Hao Zheng. Aishell-1: an open-source mandarin soeech corpus and a speech recognition baseline. in Proc. Oriental COCOSDA,2017.
[6]奚雪峰,褚曉敏,孫慶英.漢語篇章微觀話題結構建模與語料庫構建[J].計算機研究與發展,2017,54(08):1833-1852.
[7]楊皓東,江凌,李國俊.國內自然語言處理研究熱點分析——基于共詞分析[J].圖書情報工作,2017.55(10):112-117.
[8]張仕良.基于深度神經網絡的語音識別模型研究[D].合肥: 中國科學技術大學,2017.
[9]魏星,王瑋,陳靜萍.基于發音特征的漢語發音偏誤自動標注[J].北京大學學報(自然科學版),2017,152:1-7.
[10]鄒琳琳.基于PRAAT軟件的陜西學生英語前元音聲學研究[J].自動化與儀器儀表,2017,(02):192-195.