李智誠,張云翔
(深圳供電局有限公司,深圳518001)
隨著人工智能的快速發展,國家相繼出臺了一系列政策支持中國人工智能的發展[1],推動中國人工智能步入新階段,人工智能成為我國新基建之一[2],當前電力行業正在發展壯大人工智能新動能,做大做強人工智能產業集群,實施人工智能發展行動,加強新一代人工智能研發應用,加快“人工智能+”應用[3]。
現場會議是電網公司日常工作中最常用的交流方式之一[4],主要用于日常問題的討論。現場會議一般需要由會務人員負責會前手工簽到,會議過程中需由會務人員負責內容記錄,會后整理成會議紀要整理,耗時耗力、效率不高。會議過程中演示材料也需由手工操作,影響會議流暢度[5]。
目前國內外越來注重語音識別以及語音文字轉換的應用[6],國內的科大訊飛、思必馳等廠商都在致力于研發語音轉換文字的新算法新技術[7],國外谷歌、蘋果、Nuance、微軟,通過研究該技術可以讓機器通過識別和理解,把語音信號轉變為相應的文本或命令[8]。
目前市場上有一些語音轉換文字的功能,如科大訊飛的在線語音轉換等[9]。但是針對電力行業中一些專業術語以及的語音文字轉換鮮有研究[10]。基于此,本文針對電力行業的會議錄音回溯場景,利用人工智能技術構建適應特定行業場景智能會議錄音回溯系統,結合深度學習技術實現回溯系統的自我更新完善,通過電力會議處理流程和具體的應用自適應,達到自適應快速準確的智能會議錄音回溯目的。
智能會議回溯系統中主要用到的人工智能技術包括深度神經網絡和自然語言處理技術。
深度神經網絡。深度神經網絡是由多個單層非線性網絡疊加而成的,常見的單層網絡按照編碼解碼情況分為三類:只包含編碼器部分、只包含解碼器部分、既有編碼器部分也有解碼器部分。編碼器提供從輸入到隱含特征空間的自底向上的映射,解碼器以重建結果盡可能接近原始輸入為目標將隱含特征映射到輸入空間。深度神經網絡分為以下幾類。

圖1 深度神經網絡分類結構
前饋深度網絡,由多個編碼器層疊加而成,如多層感知機、卷積神經網絡等。
反饋深度網絡,由多個解碼器層疊加而成,如反卷積網絡、層次稀疏編碼網絡等。
雙向深度網絡,通過疊加多個編碼器層和解碼器層構成,如深度玻爾茲曼機、深度信念網絡、棧式自編碼器等。
自然語言處理(Natural Language Processing,NLP)是使用自然語言與計算機進行通信的技術,可以利用自然語言來實現人與計算機之間進行通信。自然語言的處理大致包含自然語言生成(NLG)和自然語言理解(NLU)兩部分。
在會議中,NLU 能準確的理解會議中的成員的語音,并試圖理解這是一個名詞還是動詞以及時態,然后利用NLP 系統本身的詞庫和現有的語法規則,通過機器學習和深度學習,將這些規則應用于自然語言,從而最終理解該段語言的含義。針對電力行業一些專業術語可以通過機器學習預先存入數據庫,方便使用。
NLG 的工作就是將翻譯好的機器語言轉換成文字,也就是將計算機的文本語言組織成人可以理解的文本。NLU 的技術要比NLG 的技術相對簡單一些。
基于深度神經網絡、自然語音處理、麥克風降噪及定向收集、攝像頭智能拍攝等技術,設計智能會議助手,為智能會議助手系統提供語音智能采集、人臉拍攝等功能,實現語音識別、聲紋識別、人臉識別、智能控制等功能。基于人工智能的錄音回溯系統處理流程如圖2 所示。

圖2 處理流程
分詞:分詞是處理自然語言步驟中最基本的,單詞是文本的基礎單位。本系統中增加處理電力行業中的一些專業術語詞匯。通過分詞除去冗余信息,分詞算法通常分為統計方法與詞典方法。目前國內常用的分詞工具有Stanford CoreNLP 和Jieba 等。
詞性標注:分詞結束后下一步就是對單詞進行詞性標注,需要定義詞性的類別:專業術語、形容詞、名詞、動詞等。提取影響語音識別的關鍵信息和表達語言含義的特征信息。詞性標注是為了方便信息的抽取、語義的識別、句子的理解。
語法分析:語法分析是用來確定一句話的語法結構,例如動賓、動補、主謂賓等。按照不同語言的各自語法,依照先后順序識別字詞。把前后的意思當做輔助條件,有利于分析和識別。這對于會議中語音識別非常價值。
命名實體識別:命名實體識別是用來處理語句中出現的一些機構單位名稱、電力專業術語、地名以及人名,及聲學模型(包含地區、行業口音、發音特點等)。命名實體是標注的問題的范疇,所以可以采用HMM/CRF 來進行機器學習訓練。鑒于本文主要是針對電力行業的會議語音轉換,因此增強電力行業的專業術語的學習尤其重要。
實體關系抽取:實體關系抽取是對基本信息抽取的關鍵知識,也是自動識別一些非結構化的文本中兩個實體之間的關聯關系。實體關系的抽取分為有監督的學習、無監督的學習以及規則的匹配。
實體關系抽取是自動識別非結構化文檔中兩個實體之間的關聯關系,屬于信息抽取領域的基礎知識之一。實體關系抽取包括規則匹配、有監督學習、無監督學習。
本文選取訊飛轉錄作為對比對象,針對電力行業下某電力新聞報道錄音進行轉換對比,本系統與訊飛轉錄電力新聞結果對比如表1 所示。

表1 本系統與訊飛轉錄電力新聞結果對比
表1 加粗的為語音轉換錯誤的地方,通過分析可以看出訊飛轉錄共出現8 處語音轉換錯誤,本文設計的系統出現3 處語音回轉換錯誤,相比之下本系統在電力新聞語音轉錄方面準確度更高,更具有可行性。
本文設計一種基于語音識別技術的智能會議助手,將會議發言語音實時轉錄為文字和會議記錄,支持對實時轉錄的會議記錄結合錄音進行回溯,并且可通過語音完成演示控制,有效提高會議紀要的整理效率,下一步將繼續優化完善特定電力場景下的語音語料庫,提升系統的準確性。