999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT的因果關系抽取

2021-11-26 08:47:46左萬利
吉林大學學報(理學版) 2021年6期
關鍵詞:單詞文本模型

姜 博, 左萬利,2, 王 英,2

(1. 吉林大學 計算機科學與技術學院, 長春 130012; 2. 吉林大學 符號計算與知識工程教育部重點實驗室, 長春 130012)

自然語言處理(natural language processing, NLP)中的關系抽取是人工智能相關領域中的重要研究方向. 其中, 因果關系抽取作為自然語言和人工智能領域中的重要問題目前已得到廣泛關注. 因果關系, 即表示“原因”與“結果”之間的對應關系. 實際應用中存在大量的因果關系, 如新聞報道: 截至2020年9月18日16時01分, 全球〈e1〉新冠肺炎〈/e1〉確診超3 000萬例, 導致943 433人〈e2〉死亡〈/e2〉. 標簽〈e1〉和標簽〈e2〉間的實體存在因果關系.

傳統因果關系抽取方法通常基于模式匹配[1]、機器學習[2]等方法, 文獻[3]提出了一種新型樸素Bayes模型, 可從文本中提取顯式因果關系. 傳統模式下因果關系抽取方法的特征選擇繁瑣復雜、抽取模式較固定, 從文本中抽取的因果關系精確度較低. 近年, 人們開始使用深度學習的方法研究因果關系抽取, 一般從以下3個角度研究: 給定實體對判斷是否包含因果關系, 給定文本判斷是否包含因果關系分類和識別并標記包含因果關系的文本. 文獻[4]通過卷積神經網絡(convolutional neural network, CNN)識別文本中的因果關系并進行了分類; 文獻[5]通過融合對抗對學習對文本中的因果關系對進行抽取; 文獻[6]通過雙向長短期記憶網絡(bidirectional long short-term memory, BiLSTM)標記出文本中的原因、結果, BiLSTM模型能獲取跨度較大的數據特征, 標注數據更準確. 現有的序列標注方法有隱Markov模型(hidden Markov model, HMM)[7]、條件隨機場 (conditional random field, CRF)[8]等. 文獻[9]將BiLSTM+CRF 模型應用到序列標注任務中, 目前已成為序列標注任務中的主流模型; 谷歌基于自然語言的特點, 提出了一個基于注意力機制的Transformer網絡框架[10]; 文獻[11]使用深度學習網絡與self-ATT機制相結合的方式進行序列標注, 取得了比模型BiLSTM+CRF更好的實驗效果; 谷歌基于Transformer框架, 又推出了BERT[12](bidirectional encoder representations from transformers)模型, 將BERT應用到下游任務中, 可得到表征能力更強的預訓練字向量, 使得同一單詞在不同的文本中可具有不同的特征表示. 通過這種方式, 可在一定程度上彌補因果關系領域數據數量不足的缺陷, 使模型訓練的更充分.

本文針對因果關系抽取領域缺少公開數據集, 并且沒有統一標注規則的問題, 從SemEval系列數據集選取5 485條一因一果關系相關數據并制定規則重新標注; 并將BERT應用到因果關系抽取領域. 本文采用BERT+BiLSTM+CRF模型, 以序列標注的方式進行因果關系抽取, 挖掘事件之間引起和被引起的關系, BERT的加入在一定程度上解決了因果關系數據集樣本特征信息不足和語義特征表示不充分的問題.

1 BERT+BiLSTM+CRF模型結構

1.1 BERT

BERT[12]即Transformers[10]的雙向編碼表示, 其模型特點是利用大規模、無標注的語料訓練, 獲得包含文本豐富語義信息的表示. 本文采用BERT作為本文模型的核心部分, 挖掘因果關系特征信息.

1.1.1 Embedding表示

圖1 BERT預訓練語言模型Fig.1 BERT pre-trained language model

由于計算機只能處理由數字0,1組成的序列, 無法直接讀懂文字, 所以需將文字轉化成數字, 這種表達方式稱為詞向量. 傳統的詞向量word2vec[13-14],glove[15]模型不能解決一詞多義的現象, 一個詞語只有一種詞向量表示方式, 如“蘋果公司于今年推出了iphone12”和“煙臺蘋果今年產量大增”中的“蘋果”含義不同, 前者表示公司名稱, 后者表示水果, 但由于傳統詞向量只能表示其中一個意思, 因此使模型準確率下降. BERT[12]模型解決了該問題, 其通過使用三層Embedding表示使得一個詞語可用多個向量形式表示.

BERT結構如圖1所示, 其中E1,E2,……,EN為模型的輸入部分, 通常為單詞. 輸入部分傳入到雙向全連接Transformer層生成詞向量. BERT的Embedding由Token Embedding,Segment Embedding,Position Embedding三部分構成: Token Embeddings表示詞向量; Segment Embeddings對句子進行編碼, 用于刻畫文本的全局語義信息; Position Embeddings 對位置信息進行編碼, 記錄單詞順序這一重要特征, 實現對不同位置的同一個字或詞的區分. 3個向量相加為每個Token的最終向量, 如圖2所示.

圖2 BERT的Embedding表示Fig.2 Embedding representation of BERT

1.1.2 Transformer Encoder

圖3 Transformer結構Fig.3 Structure of Transformer

Transformer是組成BERT的核心模塊, 每個Transformer單元主要由Self-attention組成, 其結構如圖3所示. Transformer使用Self-attention代替了傳統的循環神經網絡(RNN), 將輸入句子中的每個詞和整個句子的全部詞語做Attention, 獲得詞語間的相互關系, 記錄不同詞語間的關聯程度, Attention計算方法為

(1)

其中Q表示索引,K表示鍵,V表示值.

輸入句子經過Self-attention計算后, Transformer增加后續3次操作, 使得任意兩個單詞距離為1. 1) 殘差連接: 將模型輸入輸出相加, 其結果作為最后輸出; 2) 歸一化: 將指定層神經網絡節點進行均值為[0,1]的標準化方差; 3) 線性轉換: 將每個字的增強語義向量進行兩次線性變換, 用于增強整個模型的表達能力. 其中, 變換后的向量和原向量長度相同, 從而解決了傳統神經網絡的長期依賴問題.

1.2 BiLSTM

圖4 LSTM結構Fig.4 Structure of LSTM

在序列標注和命名實體識別任務中, 通常使用循環神經網絡解決標注問題. 但由于神經元之間參數共享, 因此當序列較長時會出現梯度消失等情況. 而長短期記憶網絡(long short-time memory, LSTM)通過引入門結構和記憶單元, 將RNN中反向傳播過程中連乘的求導形式轉換為求和, 最終可以捕捉到長距離的依賴信息, 并避免了梯度彌散等情況. 其整體結構如圖4所示.

1) 在遺忘門的幫助下決定細胞狀態丟棄信息, 用公式表示為

ft=σ(Wf·[ht-1,xt]+bf);

(2)

2) 更新細胞狀態為

3) 確定輸出內容, 輸出為

Ot=σ(Wo·[ht-1,xt]+bo),

(6)

其中:σ表示Sigmoid函數, 輸出[0,1]內的數值; ×符號表示數據間的點乘;ht-1表示上一時刻的輸出;xt表示當前時刻的輸出;Ct-1表示上一時刻的細胞狀態.

1.3 條件隨機場

條件隨機場[8](conditional random field, CRF)是在給定一組隨機輸入變量s的條件下, 輸出一組隨機變量l的條件概率分部模型. CRF通過記錄相鄰單詞的約束關系, 對輸入數據進行預測, 用公式表示為

(7)

(8)

通過上述過程可建立一個條件隨機場. 首先, 通過預先定義特征函數集, 每個函數的參數是整個句子s、當前位置i、i對應的標簽以及i-1對應的標簽; 其次, 為每個函數對應一個權重λi; 最后, 對于每個標注序列l, 先將全部特征函數進行加權求和, 再將其轉化為概率值, 概率值最高的標簽確定為預測結果. 經過上述計算, 即完成了對數據標注因果標簽的預測.

圖5 BERT+BiLSTM+CRF的因果關系抽取模型Fig.5 Causality extraction model of BERT+BiLSTM+CRF

1.4 BERT+BiLSTM+CRF模型

本文提出的BERT+BiLSTM+CRF的因果關系抽取模型結構如圖5所示. 由圖5可見, 模型主要由BERT預訓練層、BiLSTM神經網絡層、CRF分類層三部分構成. 首先, 將BERT置于模型最底層, 輸入包含因果關系的句子, 轉換成單詞序列, 通過BERT將單詞轉換成動態詞向量, 達到一詞多義的效果, 提升詞向量的表示能力; 其次, 通過BiLSTM層記錄文本序列上的依賴關系; 最后, 傳遞到CRF層完成對文本中因果關系的抽取, 為句子中的每個單詞預測因果標簽.

2 數據集

2.1 數據來源

本文實驗數據集為SemEval 2007 Task4,SemEval 2010 Task8和SemEval 2020 Task5, 共選取了SemEval 2007和SemEval 2010中的1 368個句子, SemEval 2020中的2 485個句子, 維基百科中1 632 個句子進行人工標注, 最終得到5 485個一因一果的句子. 本文以5∶1∶1的比例將數據分為訓練集、驗證集和測試集.

2.2 數據標注規則

1) 將原因標注為C, 結果標注為E, 非因果詞和標點符號標記為O;

2) 對于由多個單詞聯合構成的原因或結果, 只選擇一個因果核心詞進行標注.

以句子COVID-19 causes so many people deaths為例, 其對應的標注標簽如表1所示.

表1 標注示例

3 實 驗

3.1 參數設定

實驗優化器選為Adam; 學習率為2×10-5; 迭代次數為100; 詞向量維度為768維.

3.2 實驗評估標準

本文用粗粒度抽取3種標簽“原因”(C)、“結果”(E)、“其他”(O)的精確率P、召回率R和F1值評定模型性能. 以標簽為單位, 實驗判斷單詞屬于“原因”(C)、“結果”(E)還是“其他”(O). 本文重點關注標簽“C”(原因)和“E”(結果)的3種指標得分.

3.3 對比模型

為驗證本文BERT+BiLSTM+CRF模型抽取因果關系的性能, 選擇8個模型做對比實驗, 其中包括4個基準模型: CRF,LSTM,LSTM+CRF,BiLSTM和4個主流模型: BiLSTM+CRF,BiLSTM+self-ATT,BiLSTM+CRF+self-ATT,L-BL. 將每個模型的標簽修改為C,E,O, 與本文提出的模型標注方式保持一致. 采用粗粒度下的P,R,F1值對模型識別3種標簽的效果進行評估.

3.4 實驗結果與分析

粗粒度抽取“C”,“E”,“O”標簽的P,R,F1值列于表2.

表2 不同模型3種標簽的準確率(P)、召回率(R)和F1值評分實驗結果(%)

由于本文重點關注了文本中因果關系的研究, 故分析指標時, 重點關注C(原因)和E(結果)的各項粗粒度指標, 分析本文提出的模型對使用本文定義標注句子中的C(原因)和E(結果)性能的影響. 由表2可見: 本文提出的模型BERT+BiLSTM+CRF在自建的因果關系領域數據集(Semeval-CE)上有較好的識別效果, C(原因)的粗粒度P值達89.77%,R值達89.35%,F1值達89.55%; E(結果)的粗粒度P值達92.23%,R值達89.06%,F1值達到90.61%; 在Semeval-CE數據集上, 對比實驗模型中, BiLSTM+CRF+self-ATT-3模型粗粒度下C,E,O的指標分別取得了最高的分數. 本文在BiLSTM+CRF模型的底層加入BERT預訓練模型, 3項評價指標均較主流模型(BiLSTM+CRF+self-ATT-3)有不同程度的提高, 取得了更優的評分, 實驗結果提高0.054 1, 并且實驗結果遠好于其他對比模型. 表明BERT的加入使模型有更強的表征詞語能力, 更好地學習到了文本中的因果關系特征信息, 證明BERT的加入為標注文本中包含因果關系的實體提供了幫助, 從而有效地提高了對文本中原因和結果的標注性能.

綜上所述, 本文針對現有的大規模公開數據集普遍用于研究所有類型的實體關系, 因果關系標注數量較少且不易識別, 不能很好地研究實體間的因果關系的問題, 以SemEval數據集為基礎, 自建了一個較大規模的因果關系數據集SemEval-CE并重新標注. 基于BERT可以使同一單詞在不同文本中表現為動態變化詞向量的特點, 本文提出了BERT+BiLSTM+CRF的因果序列標注方法, 并在SemEval-CE數據集上進行實驗. 實驗結果表明, BERT的加入使該模型充分學習了因果的特征信息, 使得粗粒度P,R,F1值3項評價指標均有了不同程度的提高, 實驗結果優于主流模型, 從而可以有效抽取文本中的因果關系.

猜你喜歡
單詞文本模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
單詞連一連
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
看圖填單詞
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 日本在线免费网站| 欧美精品二区| 久久精品中文无码资源站| 亚洲午夜福利在线| 黄色三级网站免费| 亚洲国产精品一区二区高清无码久久 | 中文字幕伦视频| 永久免费精品视频| 精品国产污污免费网站| 国产在线视频二区| 国产精品美女免费视频大全 | 国产香蕉97碰碰视频VA碰碰看| 色婷婷在线影院| 国产日韩欧美在线视频免费观看| 亚洲 欧美 日韩综合一区| 国产激情国语对白普通话| 国产精品99在线观看| 在线精品视频成人网| 亚洲三级成人| 亚洲欧洲天堂色AV| 国产幂在线无码精品| 91口爆吞精国产对白第三集| 中日韩一区二区三区中文免费视频| 人妻丰满熟妇AV无码区| 欧美成人手机在线观看网址| 日韩高清无码免费| 欧美 亚洲 日韩 国产| 久久男人资源站| 91av国产在线| 国产打屁股免费区网站| 婷婷五月在线| 精品综合久久久久久97超人| 亚洲无码精品在线播放| 四虎精品国产永久在线观看| 亚洲日韩国产精品综合在线观看| 人人爽人人爽人人片| 国产在线97| 欲色天天综合网| 成人福利在线看| 嫩草国产在线| 精品国产一二三区| 国内精品视频| 精品人妻无码中字系列| 久久黄色影院| 国产精品黄色片| 日韩在线第三页| 精品乱码久久久久久久| 凹凸精品免费精品视频| 毛片视频网| 午夜国产精品视频| 呦女亚洲一区精品| 亚洲欧洲综合| 国产99视频在线| 2021国产精品自产拍在线观看| 国产人碰人摸人爱免费视频| 亚洲无码高清免费视频亚洲 | 亚洲黄色视频在线观看一区| 欧美精品三级在线| 九色在线观看视频| 久久精品这里只有国产中文精品| 在线观看欧美精品二区| 毛片久久网站小视频| 亚洲国产精品不卡在线| 国产va在线| 亚洲精选高清无码| 国产成人精彩在线视频50| 538国产在线| 亚洲成人在线免费观看| 一个色综合久久| 欧美色图第一页| 精品99在线观看| 国产精品无码一区二区桃花视频| 超清无码一区二区三区| 在线五月婷婷| 在线不卡免费视频| 欧美精品v| 国产视频入口| 亚洲福利网址| 女人一级毛片| 一级做a爰片久久免费| 久热这里只有精品6| 国模视频一区二区|