劉月恒 黃惠 吳迪* 邱顯榮 張青川
1.太和康美(北京)中醫研究院有限公司 北京 102445;2.北京工商大學電商與物流學院 北京 100048
隨著人們生活水平不斷提高,化妝品行業也得到越來越多人的關注。當前化妝品標準中的文本以及關鍵信息分布較為分散,這些信息多是獨立存在的,通過構建化妝品標準知識圖譜可以有效地將這些信息關聯起來,能夠為國家監管部門提供輔助決策支撐。
實體關系抽取是構建知識圖譜的關鍵技術,早期關系抽取任務主要有兩種,一種是基于規則[1-3]的方法,通過人工設計的一些規則來抽取實體關系三元組,主要包括基于觸發詞和基于依存關系的兩種方式;另一種是利用機器學習[4-5]來抽取實體和關系,主要依賴一些工具來提取文本的特征。基于機器學習的方法以數據集標注量又可以劃分為有監督、半監督和無監督的方法。基于規則的方法由于需要進行規則制定,這就導致需要花費大量的人力,并且對于信息量大以及文本結構復雜的信息很難進行有效處理。利用機器學習的方法可以有效解決基于規則的方法存在的不足,并且其應用也更加廣泛,但是該方法需要通過人工來進行特征提取,仍然存在泛化能力不足的缺點。
隨著深度學習的不斷發展,越來越多的學者開始采用深度學習的技術來提取文本中的實體和關系,這有效克服了機器學習的方法需要進行人工特征提取的不足,同時準確率也獲得了進一步的提升。參考文獻[6]中的學者提出一種基于SDP-LSTM的關系抽取模型,該模型可以利用最短的依賴路徑迭代地學習關系分類的特征。同時,利用LSTM單元進行遠程信息傳播和集成。參考文獻[7]中的學者提出了一種基于BERT的醫學關系提取模型,該模型將從預先訓練的語言模型中獲得的整個句子信息與兩個醫療實體的對應信息相結合,完成關系提取任務。丁澤源等[8]提出了一種pipeline的中文生物醫學實體關系抽取系統,并且取得了較好的實驗結果。但是相比于公共的一些數據集,化妝品行業數據就有其獨特性,語料中存在大量的行業術語和專業名詞,這也是進行實體關系抽取的一大難點,基于此本文提出了一種融合注意力機制的BERT-BiLSTM-Attention-CRF的實體關系抽取模型,能夠有效地提取化妝品文本中的實體和關系信息。
針對化妝品標準存在大量專有名詞以及語義稀釋等問題,我們提出了融合注意力機制的BERT-BiLSTM-Attention-CRF化妝品標準實體關系提取模型,模型的整體結構如圖1所示。包含BERT、BiLSTM網絡層、Attention注意力機制和CRF層四部分。

圖1 BERT-BiLSTM-Attention-CRF
BERT[9]預訓練語言模型采用12層Transformer編碼器進行編碼,該模型可以學習到輸入序列的特征表示,然后再把學習到的特征表示應用到不同的下游任務中。BERT的預訓練模型包括兩個訓練任務,Masked LM任務用來捕捉單詞級的特征,Next Sentence Prediction任務用來捕捉句子級的特征。在化妝品標準的實體關系抽取任務中,化妝品標準文本結構更加復雜,語義也較為稀疏,相較于RNN,BERT能夠更好的捕捉上下文的文本特征,所以可以進一步提升實體識別的效果。
LSTM是一種特殊的循環神經網絡模型,允許每個神經單元忘記或保留信息,克服了RNN在自然語言處理任務中容易出現梯度消失和梯度爆炸問題,具有長時記憶功能。但在化妝品標準文本中,一些專有名詞通常包含較多的字符,并且前后文之間有較強的依賴關系,所以本文采用了BiLSTM模型,BiLSTM接收BERT輸出的向量作為輸入,從而獲得更加全面的語義信息。BiLSTM對每個訓練序列應用一個前向和后向LSTM網絡,兩個LSTM網絡連接到同一個輸出層。
LSTM網絡結構包含輸入門、遺忘門和輸出門。模型的計算公式如下所示:
it=σ(Wi·[ht-1,Xt]+bi)
(1)
ft=σ(Wf·[ht-1,Xt]+bf)
(2)
(3)
ot=σ(Wo·[ht-1,Xt]+bo)
(4)
(5)
ht=ot*tanh(Ct)
(6)
其中,Wi、Wf、Wo是加權矩陣,bi、bf、bo是LSTM的偏差。it表示t時刻的輸入門,ft代表t時刻的遺忘門,ot分別代表t時刻的輸出門,Xt表示t時刻的輸入,ht和表示t時刻的輸入向量輸出。
注意力機制就是對輸入的不同元素考慮不同的權重參數,從而更加關注與輸入元素相似的部分,而抑制其他無用的信息。注意力機制可以在資源有限的情況下快速、準確地處理信息。由于在化妝品標準文本中存在語義稀疏的問題,通過引入注意力機制對提取的特征進行分配不同的權重,得到單詞重要性的文本特征表示,可以進一步提升模型的性能,并且能有效解決BiLSTM存在的不足。
條件隨機場(CRF)[10]是一種以指定的隨機變量為輸入,解決隨機輸出變量的條件概率分布的算法。CRF接收BiLSTM和Attention輸出的特征向量作為輸入,進行序列標注。CRF通過學習標簽之間的依賴關系,保證了標簽的有效性,從而得到最優的標簽序列。CRF的基本算法定義如下:
(7)
(8)
其中BiLSTM層的輸出結果定義為Pmn,其中n表示單詞數,m表示標簽類別。其中,Pij表示第i標簽與第j個標簽匹配的概率。對于輸入的句子序列X={x1,x2,…,xn}及其預測的序列Y={y1,y2,…,yn}。
實驗所用的數據集來源于化妝品標準,由于缺少相應的公開數據,本實驗采用爬蟲技術從食品伙伴網以及國家藥品監督管理局等網站采集并通過人工校對,構建了化妝品標準數據集(CSD)。并將該數據集分為訓練集、測試集和驗證集,各子集的數據量見表1。

表1 實驗數據集

表2 實驗參數設置
本文采用三個常見的指標,即精度(P)、召回率(R)和F1來評估我們的模型。計算公式如下:
(9)
其中P代表精確度,TPi表示實際正類,預測也為正類的數量,FPi表示實際負類,預測為正類的數量。
(10)
其中R代表召回率,TPi表示實際正類,預測也為正類的數量,FNi表示實際正類,預測為負類的數量。
(11)
其中P為精確度,R為召回率。
結果表明,在未引入自注意力機制情況下,BERT-BiLSTM-Attention-CRF模型的準確率、召回率、F1值分別為88.94%、90.63%、89.78%。在BiLSTM后面引入注意力機制以后,可以看到實體關系抽取結果有了進一步的提高,準確率、召回率和F1值分別提升了2.67%、2.72%和2.96%,說明我們模型有效提升了實體關系抽取整體效果。相比于BERT模型,BERT-BiLSTM模型在F1值上提升了3.99%,這說明BiLSTM在實體關系抽取中發揮了積極作用。BiLSTM可以將輸入序列的信息向后組合,有助于提高實體識別效率。BERT-BiLSTM-CRF模型的性能高于BERT-BiLSTM模型,證明了CRF模型可以有效解決標簽之間的依賴關系。

本文提出的融合了注意力機制的BERT-BiLSTM-Attention-CRF模型在引入注意力機制以后,可以有效的分配特征權重,排除噪音,提高模型在實體關系抽取中的性能,為構建化妝品標準知識圖譜提供參考。同時在BiLSTM后面融合注意力機制可以有效解決在長文本中存在的語義稀疏的問題,但是本文未考慮到文本中存在的實體重疊的情況,這是我們接下來工作的一個方向。