999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT的化妝品標準實體關系抽取技術研究

2023-03-22 15:06:06劉月恒黃惠吳迪邱顯榮張青川
科技風 2023年7期
關鍵詞:機制文本標準

劉月恒 黃惠 吳迪* 邱顯榮 張青川

1.太和康美(北京)中醫研究院有限公司 北京 102445;2.北京工商大學電商與物流學院 北京 100048

1 概述

隨著人們生活水平不斷提高,化妝品行業也得到越來越多人的關注。當前化妝品標準中的文本以及關鍵信息分布較為分散,這些信息多是獨立存在的,通過構建化妝品標準知識圖譜可以有效地將這些信息關聯起來,能夠為國家監管部門提供輔助決策支撐。

實體關系抽取是構建知識圖譜的關鍵技術,早期關系抽取任務主要有兩種,一種是基于規則[1-3]的方法,通過人工設計的一些規則來抽取實體關系三元組,主要包括基于觸發詞和基于依存關系的兩種方式;另一種是利用機器學習[4-5]來抽取實體和關系,主要依賴一些工具來提取文本的特征。基于機器學習的方法以數據集標注量又可以劃分為有監督、半監督和無監督的方法。基于規則的方法由于需要進行規則制定,這就導致需要花費大量的人力,并且對于信息量大以及文本結構復雜的信息很難進行有效處理。利用機器學習的方法可以有效解決基于規則的方法存在的不足,并且其應用也更加廣泛,但是該方法需要通過人工來進行特征提取,仍然存在泛化能力不足的缺點。

隨著深度學習的不斷發展,越來越多的學者開始采用深度學習的技術來提取文本中的實體和關系,這有效克服了機器學習的方法需要進行人工特征提取的不足,同時準確率也獲得了進一步的提升。參考文獻[6]中的學者提出一種基于SDP-LSTM的關系抽取模型,該模型可以利用最短的依賴路徑迭代地學習關系分類的特征。同時,利用LSTM單元進行遠程信息傳播和集成。參考文獻[7]中的學者提出了一種基于BERT的醫學關系提取模型,該模型將從預先訓練的語言模型中獲得的整個句子信息與兩個醫療實體的對應信息相結合,完成關系提取任務。丁澤源等[8]提出了一種pipeline的中文生物醫學實體關系抽取系統,并且取得了較好的實驗結果。但是相比于公共的一些數據集,化妝品行業數據就有其獨特性,語料中存在大量的行業術語和專業名詞,這也是進行實體關系抽取的一大難點,基于此本文提出了一種融合注意力機制的BERT-BiLSTM-Attention-CRF的實體關系抽取模型,能夠有效地提取化妝品文本中的實體和關系信息。

2 模型

針對化妝品標準存在大量專有名詞以及語義稀釋等問題,我們提出了融合注意力機制的BERT-BiLSTM-Attention-CRF化妝品標準實體關系提取模型,模型的整體結構如圖1所示。包含BERT、BiLSTM網絡層、Attention注意力機制和CRF層四部分。

圖1 BERT-BiLSTM-Attention-CRF

2.1 BERT

BERT[9]預訓練語言模型采用12層Transformer編碼器進行編碼,該模型可以學習到輸入序列的特征表示,然后再把學習到的特征表示應用到不同的下游任務中。BERT的預訓練模型包括兩個訓練任務,Masked LM任務用來捕捉單詞級的特征,Next Sentence Prediction任務用來捕捉句子級的特征。在化妝品標準的實體關系抽取任務中,化妝品標準文本結構更加復雜,語義也較為稀疏,相較于RNN,BERT能夠更好的捕捉上下文的文本特征,所以可以進一步提升實體識別的效果。

2.2 BiLSTM層

LSTM是一種特殊的循環神經網絡模型,允許每個神經單元忘記或保留信息,克服了RNN在自然語言處理任務中容易出現梯度消失和梯度爆炸問題,具有長時記憶功能。但在化妝品標準文本中,一些專有名詞通常包含較多的字符,并且前后文之間有較強的依賴關系,所以本文采用了BiLSTM模型,BiLSTM接收BERT輸出的向量作為輸入,從而獲得更加全面的語義信息。BiLSTM對每個訓練序列應用一個前向和后向LSTM網絡,兩個LSTM網絡連接到同一個輸出層。

LSTM網絡結構包含輸入門、遺忘門和輸出門。模型的計算公式如下所示:

it=σ(Wi·[ht-1,Xt]+bi)

(1)

ft=σ(Wf·[ht-1,Xt]+bf)

(2)

(3)

ot=σ(Wo·[ht-1,Xt]+bo)

(4)

(5)

ht=ot*tanh(Ct)

(6)

其中,Wi、Wf、Wo是加權矩陣,bi、bf、bo是LSTM的偏差。it表示t時刻的輸入門,ft代表t時刻的遺忘門,ot分別代表t時刻的輸出門,Xt表示t時刻的輸入,ht和表示t時刻的輸入向量輸出。

2.3 Attention注意力機制

注意力機制就是對輸入的不同元素考慮不同的權重參數,從而更加關注與輸入元素相似的部分,而抑制其他無用的信息。注意力機制可以在資源有限的情況下快速、準確地處理信息。由于在化妝品標準文本中存在語義稀疏的問題,通過引入注意力機制對提取的特征進行分配不同的權重,得到單詞重要性的文本特征表示,可以進一步提升模型的性能,并且能有效解決BiLSTM存在的不足。

2.4 CRF編碼器

條件隨機場(CRF)[10]是一種以指定的隨機變量為輸入,解決隨機輸出變量的條件概率分布的算法。CRF接收BiLSTM和Attention輸出的特征向量作為輸入,進行序列標注。CRF通過學習標簽之間的依賴關系,保證了標簽的有效性,從而得到最優的標簽序列。CRF的基本算法定義如下:

(7)

(8)

其中BiLSTM層的輸出結果定義為Pmn,其中n表示單詞數,m表示標簽類別。其中,Pij表示第i標簽與第j個標簽匹配的概率。對于輸入的句子序列X={x1,x2,…,xn}及其預測的序列Y={y1,y2,…,yn}。

3 實驗

3.1 數據集與數據預處理

實驗所用的數據集來源于化妝品標準,由于缺少相應的公開數據,本實驗采用爬蟲技術從食品伙伴網以及國家藥品監督管理局等網站采集并通過人工校對,構建了化妝品標準數據集(CSD)。并將該數據集分為訓練集、測試集和驗證集,各子集的數據量見表1。

表1 實驗數據集

表2 實驗參數設置

3.2 實驗參數設置

3.3 評價指標

本文采用三個常見的指標,即精度(P)、召回率(R)和F1來評估我們的模型。計算公式如下:

(9)

其中P代表精確度,TPi表示實際正類,預測也為正類的數量,FPi表示實際負類,預測為正類的數量。

(10)

其中R代表召回率,TPi表示實際正類,預測也為正類的數量,FNi表示實際正類,預測為負類的數量。

(11)

其中P為精確度,R為召回率。

3.4 結果分析

結果表明,在未引入自注意力機制情況下,BERT-BiLSTM-Attention-CRF模型的準確率、召回率、F1值分別為88.94%、90.63%、89.78%。在BiLSTM后面引入注意力機制以后,可以看到實體關系抽取結果有了進一步的提高,準確率、召回率和F1值分別提升了2.67%、2.72%和2.96%,說明我們模型有效提升了實體關系抽取整體效果。相比于BERT模型,BERT-BiLSTM模型在F1值上提升了3.99%,這說明BiLSTM在實體關系抽取中發揮了積極作用。BiLSTM可以將輸入序列的信息向后組合,有助于提高實體識別效率。BERT-BiLSTM-CRF模型的性能高于BERT-BiLSTM模型,證明了CRF模型可以有效解決標簽之間的依賴關系。

結語

本文提出的融合了注意力機制的BERT-BiLSTM-Attention-CRF模型在引入注意力機制以后,可以有效的分配特征權重,排除噪音,提高模型在實體關系抽取中的性能,為構建化妝品標準知識圖譜提供參考。同時在BiLSTM后面融合注意力機制可以有效解決在長文本中存在的語義稀疏的問題,但是本文未考慮到文本中存在的實體重疊的情況,這是我們接下來工作的一個方向。

猜你喜歡
機制文本標準
2022 年3 月實施的工程建設標準
在808DA上文本顯示的改善
忠誠的標準
當代陜西(2019年8期)2019-05-09 02:22:48
美還是丑?
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
一家之言:新標準將解決快遞業“成長中的煩惱”
專用汽車(2016年4期)2016-03-01 04:13:43
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
主站蜘蛛池模板: 91小视频版在线观看www| 国产欧美在线| 国产精品成人AⅤ在线一二三四| 三区在线视频| 欧美亚洲国产日韩电影在线| 热思思久久免费视频| 四虎永久免费网站| 色综合天天视频在线观看| 免费A级毛片无码无遮挡| 精品自窥自偷在线看| 国产精品三级av及在线观看| 亚洲成年人片| 亚洲欧美日韩中文字幕在线| 国产精品欧美激情| 国产内射一区亚洲| 国产成人综合久久| 激情六月丁香婷婷| 国产精品视屏| 国产区精品高清在线观看| 色亚洲成人| 日韩精品专区免费无码aⅴ| 黄色一级视频欧美| 日韩黄色大片免费看| 99手机在线视频| 狠狠亚洲婷婷综合色香| 91丝袜乱伦| 亚洲国产综合精品一区| 99精品一区二区免费视频| 2022国产91精品久久久久久| 亚洲国产成人在线| 欧美一区国产| 国产99免费视频| 久久国产精品嫖妓| 国产成人精品亚洲77美色| 强奷白丝美女在线观看| 国产精品第| 欧美一级一级做性视频| www.亚洲一区| 国产久草视频| 波多野结衣久久高清免费| 日本精品视频一区二区| 免费欧美一级| 国产精品女同一区三区五区| 国产拍在线| 在线a视频免费观看| 91综合色区亚洲熟妇p| 日本人妻一区二区三区不卡影院 | 国产精品三区四区| 国产精品污污在线观看网站| 草草线在成年免费视频2| 亚洲视频欧美不卡| 国产精品成人观看视频国产 | 毛片一区二区在线看| 国产香蕉在线视频| 亚洲成A人V欧美综合天堂| 91美女视频在线| 日韩小视频在线播放| 欧日韩在线不卡视频| 亚洲视频在线观看免费视频| 美女一区二区在线观看| 久久公开视频| a毛片免费观看| 亚洲水蜜桃久久综合网站| 高清无码一本到东京热| 久久亚洲高清国产| 无码不卡的中文字幕视频| 国产女人综合久久精品视| 亚洲日韩精品无码专区97| 91在线国内在线播放老师| 午夜爽爽视频| 午夜国产在线观看| 青青青国产精品国产精品美女| 91精品日韩人妻无码久久| www.亚洲一区二区三区| 国产人在线成免费视频| 四虎永久免费在线| 亚洲资源在线视频| 欧美日韩国产系列在线观看| 天天躁夜夜躁狠狠躁图片| 色135综合网| 在线观看91精品国产剧情免费| 好紧太爽了视频免费无码|