基于訓練模型改進的語音問句信息抽取方法

2021-08-11 06:50:20劉繼明

科學技術與工程 2021年18期

劉繼明，孫成，袁野

(1.重慶郵電大學經濟管理學院，重慶 400065； 2.重慶市智慧郵政工程技術研究中心，重慶 400065)

為進一步提高智能問答系統中知識圖譜信息鏈接及問答系統的整體性能，針對客戶語音語音問句這類特殊自然語言文本的口語化、中文自然語言字詞多義等特征導致詞性標注結果效率不高、準確性低等問題，通常采用信息抽取、事件抽取、實體抽取等解決方法。其中實體語義詞性標注(part-of-speech tagging， POS tagging)和抽取工作，作為自然語言處理(natural language processing，NLP)中一個重要的基礎任務，是文本以及數據結構化處理最關鍵及最基礎的一步，語義詞性精度直接影響后續任務的整體性能研究，為信息抽取、事件抽取、關系抽取、構建知識圖譜、句法分析等工作打下基礎。在傳統詞性標注方法上，通常使用規則或統計方法比如最大熵[1]、支持向量機[2]、guided learning[3]、隱馬爾可夫(hidden markov model， HMM)[4]等模型對數據進行標注，這些模型大多需要進行人工特征提取。隨著互聯網信息技術的和人機交互技術的飛速發展，使用機器深度學習方法實現語義詞性標注是NLP的主要研究內容。

1 相關研究

近年來，機器深度學習進行詞性標注的在自然語言處理中正逐漸興起。Collobert等[5]首次提出基于深度學習算法的NLP來處理英文詞性標注、命名實體識別等問題，利用由卷積網絡和條件隨機場的CRF(conditional random filed)層組成結合模型，簡稱Conv-CRF。隨后CNN(convolutional neural network)[6-7]、GRN(gated recursive neural network)[8]、LSTM (long short-term memory)[9-10]深度學習模型都被引入到中文詞性標注任務中。2013年Zheng等[11]研究基于機器深度學習詞性標注的方法，提出一種用Perceptron-style算法替代傳統Maximum-likelihood方法。Zhou等[12]提出長短時記憶網絡(long short-term memory,LSTM)模型，利用層次化獲取更大范圍的前后文信息，解決了RNN(recurrent neural network)模型存在的梯度彌散問題。該方法結合分詞與詞性標注任務，相互提供信息加以輔助。經過長時間的自然語言處理研究，LSTM只能利用過去信息學習，無法利用將來信息進行上下文學習。于是Huang 等[13]首次提出BiLSTM-CRF(bidirectional long short-term memory-conditional random filed)模型，除獲取向前記憶上下文信息，還能獲取向后記憶上下文信息，實驗應用于英文、分詞和命名實體識別研究方法中，結果表明融合模型設計使得精度提高且對詞向量依賴較小。隨之，Ma等[14]提出BiLSTM-CNN-CRF模型，基于CNN得到字的語義表示，BiLSTM-CRF模型實現詞性標注。隨著科技的不斷發展，詞性標注逐漸在中文展開研究，但由于中文詞性與英文詞性語法不同，在英文標注相對成熟的技術下，中文詞性標注仍然存在著許多難題問句中更存在如口語化、一字多義、一字多義、一詞多義、一詞多性及語法體系不同等諸多問題。此外，謝逸等[15]將CNN與LSTM模型進行混合，以《人民日報》等語料庫為數據基礎分別對模型進行實驗測試，證明融合模型的標注效果優于傳統單個模型效果。司念文等[16]提出BiLSTM與ATT(adversarial tactics， techniques)融合的中文詞性標注模型研究方法，解決了傳統詞性標注模型對人工規則依賴。徐飛等[17]將BiLSTM和條件隨機場模型兩者結合，體現最優特征的BiLSTM-CRF模型，在未加入任何人工特征的條件下，對食品安全事件文本進行詞性自動標注實驗。王旭陽等[18]提出一種融合多類別基分類器的序列標注算法，可提高小規模數據的標注準確度及提升標注算法適用性，將CRF、 SVM(support vector machine)與最大間隔馬爾科夫網融合進行的標注任務。馬建霞等[19]利用BiLSTM-CRF結合基于特征的命名實體知識庫對脆弱生態治理領域中國知網數據庫中的相關文獻進行脆弱生態治理技術、地名實體、時間實體的自動抽取和標記。武惠等[20]提出遷移學習結合深度學習的TrBiLSTM-CRF (tr-directional long short-term memory-conditional random Filed)模型，對權值及樣本相似度計算，解決深度學習中少量數據學習能力不足的問題。張晗等[21]利用生成式對抗網絡GAN(generative adversarial network)，可以生成數據的特點，將生成式對抗網絡與BiLSTM-ATTENTION-CRF模型相結合，解決領域中數據標注缺少問題。Devlin等[22]提出預訓練BERT(bidirectional encoder representations from transformer)模型可提供強大的上下文相關句子特征表示，通過微調的方式用于目標任務，其中包括本文所需要做的語音問句事件詞性標注。毛瑞彬等[23]研究標準目錄匹配實現段落定位，對BERT型進行改進，并將設置特征增強的自動問答方法以回答審核問題。張柯文等[24]使用BERT字嵌入提取邊界特征結合雙向控制網絡獲取詞長關系，最后結合條件隨機場實現命名實體識別。 Yao 等[25]基于知識圖譜中三元組特點，將元素轉化為序列問題，設計KG-BERT語言模型計算三元組的評分函數命名實體的識別的有效提取，有效地解決自然語言問答處理任務。

在近幾年中外研究的基礎上，綜合考慮自然語言中語音問句的特殊性，在BiLSTM和CRF模型基礎上，嵌入BERT模型得到問句中每個字符的深度上下文，進行語義編碼。此外，提出針對語音問句的特點優化語義標簽對咨詢事件的實體進行識別，有效解決問答系統中語音問句事件的信息提取。

2 模型框架

2.1 BiLSTM雙向長短記憶模型

目前， LSTM模型雖然能夠在信息抽取方法上取得較好的效果，引入記憶單元和門的機制來對文章上下信息進行處理，其中門的設置主要包括輸入控制門(input gate)、輸出控制門(output gate)和遺忘門(forget gate)三種類型，計算函數如下:

(1)

式(1)中：it為模型訓練的t時刻輸入控制門；ot為模型訓練的t時刻輸出控制門；ft為模型訓練的t時刻遺忘門；ct為模型訓練的t時刻細胞狀態單元(memory cell)；xt為當前時刻的輸入；ht為當前時間的狀態；ht-1為前一段時間的狀態；W、U、V均為模型訓練的權重矩陣；b為模型訓練的偏置向量；σ為控制輸入門與遺忘還有記憶單元的記憶程度、遺忘程度以及輸入門保留程度的激活函數sigmoid。

但LSTM層網絡中信息是單向傳遞，只能對過去信息進行記憶分析，僅采用句子之前信息，為使模型能夠通過聯系上下文的方式采用將來信息，在模型基礎上增加一個相同的反向LSTM構成BiLSTM模型，能更好捕捉雙向語義依賴從而提高事件詞性標注的準確性。

2.2 CRF條件隨機場模型

CRF(conditional random filed)條件隨機場是一種應用于有序數據的條件概率模型，在客戶語音問句語料事件詞性的標注中，可以被用來預測客戶語音問句事件的詞匯序列。在語音問句事件詞性自動標注的訓練過程中，假設X=X1，X2，…，Xn這一序列為語音問句事件的詞性標注中被輸入的事件詞匯序列；Y=Y1，Y2，…，Yn表示語音問句事件詞性有限狀態的集合。在線性鏈條件隨機場中，特征函數分為節點特征函數和局部特征函數兩類，基于研究的領域場景主要用局部特征函數Tj，只和當前節點以及前一個節點有關，記為

Tj(yi-1，yi，x，i)，j=1，2，…，J

(2)

式(2)中:y為語音問句狀態；J為局部特征函數的總個數；i為當前節點在序列的位置。

模型中局部特征函數取值分別為1或0， 1表示滿足特征條件的取值，0表示不滿足特征條件的取值。每個特征函數賦予一個權值，值越大，表明越依賴這個特征函數，權值是在模型的訓練過程中通過梯度下降法不斷更新迭代最終得到，訓練過程中線性鏈條件隨機場的參數化形式如下:

(3)

(4)

式中:P(x|y)為概率函數；所涉及的參數tj的權重系數是λj；節點特征函數sk的權重系數是μk；Z(x)為歸一化因子，最后在所有可能輸出的序列上進行求和。

2.3 加入BERT的BiLSTM-CRF模型

雖然BiLSTM模型可以根據上下文以及獲取語音語音問句事件的詞性，但是若詞語之間有緊密的關系反而會收到語義的過分干預，2015年百度研究院首次提出BiLSTM-CRF模型[13]，用于分詞、詞性標注及命名實體識別等，且在當時均取得最佳準確率。因此在此基礎上通過使用BiLSTM網絡可以獲取每個字符左側和右側的前后語義關系，結合CRF模型確保預測的結果是我們想要的標簽。相比于BiLSTM-CRF模型，BERT語言模型得到問句中每個字符的深度上下文，代替了原來的詞嵌入部分，利用BERT來進行語義編碼，最后BiLSTM-CRF進行解碼。構建模型如圖1所示，輸出層的字母含義如表1所示。其中預訓練BERT(bidirectional encoder from transformers)模型[22]可適用于多種自然語言處理任務。采用Transformer語言模型， Encoder-Decoder(編碼器-解碼器)結構。BERT模型總體是一個多層雙向的語言模型，模型的輸入由詞向量、位置向量和分段向量共同組成。另外，句子的首尾分別有兩個特殊標注[CLS](classification pooler output)和[SEP](sequence output)，用以區分句子不同。模型的輸出是每個字經過編碼器后，聯系上下文信息語義來進行表示。為進一步提高問句事件語義信息的準確性，在模型之后嵌入雙向長短記憶模型和條件隨機場模型的結合。

圖1 語音問句事件詞性BERT-BiLSTM-CRF模型圖

表1 語音問句數據分詞預處理

該模型是在所構建的語音問句事件詞性標注輸入BERTBASE層，得到深層解析再次輸入BiLSTM模型的隱藏層，最后一層為CRF線性層，從而解決語音問句事件詞性語義標注模型，輸出語音問句事件詞性。該模型是在所構建的語音問句事件詞性標注輸入BERTBASE層，得到深層解析再次輸入BiLSTM模型的隱藏層，最后加入CRF線性層，從而解決語音問句模型，得出結果為句子事件詞性。語音問句事件語義抽取模型設計共由6層構成，第一層為語音問句事件訓練句子的輸入層，按照BERT需求的字運算。第二層為調用BERT層的詞向量、位置向量、分段向量以及選用基礎的12層Transform對句子進行語義編碼。第三層為BERT模型對語音問句事件輸入的句子進行向量降維的結果。第四層為調用循環神經網絡層，構建中使用BiLSTM模型對句子進行語義解碼。第五層為調用CRF層，解決語義類別序列概率輸出問題。最后一層為語音問句語義最終輸出結果，主要輸出由字符構成可能的問句詞匯實體語義。其中對于所有可能的輸出序列，找出一組序列y使得P(y|x)最大，輸出運用維特比算法，公式為

y*=argmaxP(y|x，θ*)

(5)

式(5)中：y*為語音文具的詞匯序列；θ*為所有節點。

3 數據處理

3.1 停用詞與特殊詞過濾

語音問句自然語言文本中含有大量無用詞，此類詞不僅包含虛詞還有口語詞、停用短語等。除此之外，詞向量中還包含問候語、致謝，例如“你好，我想請問一下”“是嘛”“麻煩你了，謝謝”等，在自然語言語音問句中出現頻率很高，這些詞保留會對模型運行造成嚴重影響，對進一步輸入的數據誤差會越來越大。此外，自然語言出現的同義詞會對事件的識別有一定的影響，因此本文對于自然語言短語中出現的虛詞、介詞等無實際意義的詞通過引入外部辭典利用python自帶的HANLP工具包進行去除。并對同義詞短語進行替換以及文本進行糾錯。

3.2 分詞及依存句法的詞性標注處理

詞性標注處理可減少后續人工標注工作量，在本實驗中對語音問句事件的語料文本進行分詞操作，并對數據分詞結果進行詞性標注，從而實現語音文本中論元提取以及識別，處理結果如表2所示。其中后綴均為詞性。

表2 CPB語義角色標注表

此外由于自然語言語料文本通常是短文本，在上下文參考不大的前提下，依存句法可以更好的幫助分析標注的詞性是否準確，例句結果如圖2所示。采用 python自帶的HANLP中文分詞工具包，調用分詞詞性標注函數將自然語言語料文本轉化為分詞短語，形成多個詞向量，且數據文本進行句法分析，對后續模型需要測試的字符標注有一定輔助作用。結果顯示會出現分詞詞性標注錯誤的情況，需要后續人工參考句法分析樹的結果進一步處理。

圖2 語音問句依存句法分析樹

3.3 人工標注校對

對經過依存句法及分詞詞性標注處理之后的語料，再次進行人工校對，由于中文存在一詞多義和一詞多性，工具包無法完全做到上下文語義的詞性標注，需要對全部初步標記后的語料進行逐字校對以及語義標注，標記成本文模型所需要的訓練和測試對比結構，校正詞性，盡可能保證模型訓練語料數據準確度。具體角色語義根據認知科學計算語言與教育研究中心 Bonial等[26]提出的論元區分方式進行標注。鑒于中文與英文的區別，參考李軍輝等[27]中文名詞性謂詞語義角色標注，動作開始及動作結束合并標注為REL(Relation)，如表2所示。每個字在通過分析篩選的基礎上，以BIOE(B-begin，I-inside，O-outside，E-end)字母標準進行標注，其中B表示語音問句事件中詞匯的初始字，I表示問句事件中詞匯的中間或結束字(此時只有兩個字的情況)，E表示問句事件中詞匯的結束字，O表示問句事件中詞匯不是命名識別所需的實體字。

以下示例是一段訓練語料標注結果: 黃/B-ARG5，色/I-ARG5，網/B-ARGM-DIR，格/I-ARGM-DIR，線/E-ARGM-DIR，停/B-REL，車/I-REL，等/ARGM-PRD，紅/B-ARG2，燈/I-ARG2，扣/B-ARG1，分/I-ARG1。

4 實驗

4.1 實驗環境及性能指標

4.1.1 實驗環境

文本涉及的模型采用的實驗環境服務器為Ubuntu18.02 、顯卡為NVIDA 1080Ti、interi7的CPU、32 G 運行內存、512 G 固態 SSD+1 T 大容量硬盤，實驗工具為Python 3.6.4、Tensorflow-1.13.4。

4.1.2 實驗結果評判標準

基于模型在事件的實體語義研究，在已成熟模型基礎上，本文研究主要對BiLSTM-CRF、加入BERT的BiLETM-CRF兩種模型進行對比實驗，更能體現BERT嵌入模型及語義標簽優化對結果提取的精確度。實驗結果使用準確率(Precision)、召回率(Recall)和F1值來對語音問句事件語義標注的結果進行評估。其中主要是對實體的詞性要素抽取的結果進行評估語音問句事件在自然語言場景下一般是一個詞或者一個短語，即采用與標注詞語直接對比的形式進行評估。計算方式如下:

(6)

(7)

(8)

式中：C為測試集中標注的所有客戶語音語音問句事件詞性語義標注的集合；P為模型預測的語音問句詞性語義標注的集合；p為模型預測的單個語音問句事件的詞性語義標注；c為與p對應的標注實體詞性語義；s.t.(c，p)為約束條件，即標注的實體詞性語義c與模型預測的實體詞性予以p是否完全匹配(完全匹配的意思是句子中的字逐個對應相同)；“|·|”為完全匹配的字數量。實驗語料數據集來源于廈門12328信息咨詢模版中的用戶語音問句，結合問句事件中的不同詞性語義標記，按照9∶1的比例，劃分訓練集和開發集，其中數據集的90%作為訓練集，10%作為測試集。防止神經網絡隨機初始化帶來的偶然性，抽取219條具有代表性的語音問句，其中對3 719條詞性進行數據實驗，最后的結果取不同實體詞性測試值以及所有實體詞性的平均值。需要說明的是，訓練文本和測試文本進行相同的文本處理。使用BiLSTM-CRF、BERT-BiLETM-CRF模型在訓練集上進行訓練并在驗證集上對模型進行調參，最后在測試集上測試。

4.2 實驗結果及分析

實驗中主要在語音問句事件的實體詞性語義標注上對BiLSTM-CRF模型和BERT-BiLSTM-CRF模型進行對比實驗，在具體的實驗中采用交叉訓練，消除偶然誤差的實驗影響，選取部分重要詞性語義的結果，其結果均為交叉實驗之后平均值，所有詞性語義結果平均值(MICRO AVG)分別如表3和表4所示。在BERT嵌入BiLSTM-CRF模型在語音問句事件信息抽取中的實體詞性語義結果中，平均準確率91.99%、召回率91.12%、F1值91.53%，MICRO AVG比BiLSTM-CRF模型提高了4.24%。

表3 BiLSTM-CRF模型事件問句實驗測試結果表

在標記過程的結果將從列表轉換為元組列表，并且每個元組的形式為(單詞，標記)，如表5所示，使用BiLSTM-CRF模型和BERT-BiLSTM-CRF模型對未標注問句數據進行標記測試結果的事例。

表5 語義標注結果事例對比

從以上實驗可以看出，針對語義信息進行優化

并且加入BERT的BiLSTM-CRF準確率、查全率和查準率方面均要高于BiLSTM-CRF模型。同時BiLSTM-CRF標注結果，出現錯誤“(乘/ B-REL)，(坐/I-REL)”，根據這句話語義，主要對“隔離”事件進行咨詢。由于語音問句的語料中“乘坐”表達事件出現概率較高對結果造成了干擾，BERT-BiLSTM-CRF模型的結果為“(乘/B-ARGM-PRD)，(坐/I-ARGM-PRD)”更為準確。其次BiLSTM-CRF模型標注結果中:“(收/ARGM-PRD)，(取/O)”根據詞性“取”是有一定動詞意義的，而這里卻標注成無實際意義詞。雖然BERT-BiLSTM-CRF模型的整體準確性能高，但對于詞性標記中疑問詞類這一詞性標記的難題仍然存在，如“什么、怎么、多少”會標記成“ARGM-MNR”，對于這一詞性標注的難題會在后續聯系自然語言處理情感分析對其進行探究。

5 結論

(1)提出在BiLSTM-CRF的基礎上加入BERT模型，從而使得句子信息抽取的結果更為準確。

(2)針對語音問句信息抽取的方法，利用語義角色標注優化，提高了句子信息準確度，使得語音問句事件中特殊詞性如:施事者、受事者、時間、地點、方向、方式等信息在模型語義標注信息抽取中的準確率均取得較好的結果。

(3)深度學習模型不僅提高了語義信息準確度，結合語義標簽優化，共同解決傳統實體詞性標注模型對人工特征長期依賴的問題。