999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于預訓練模型的藥物不良事件抽取方法研究*

2024-03-15 08:01:34李計巧王正瑤王懷玉
醫學信息學雜志 2024年2期
關鍵詞:實驗方法模型

袁 馳 李計巧 王正瑤 王懷玉

(1河海大學計算機與軟件學院 南京 211100 2北京中醫藥大學國家中醫體質與治未病研究院 北京 100029)

1 引言

藥物不良事件(adverse drug event,ADE)是指患者在應用藥物時出現的不良臨床事件,可能會導致住院、殘疾甚至死亡[1]。盡管在臨床試驗階段,藥物研發者試圖發現和減少藥物使用過程中可能出現的各類不良反應,但在藥物上市后仍難免有新的不良反應事件發生[2]。統計數據顯示,ADE每年導致超過350萬次內科就診以及100萬次急診就診[3]。

ADE抽取作為醫學信息抽取的重要任務,一直以來受到廣泛關注。從最早的ADE數據集[4]到2018年n2c2的ADE評測任務[5],豐富的ADE數據集為抽取方法的研究提供了有效支撐。在眾多數據集上,不少研究者積極探索各類方法[6-9]。如 Li F等[6]提出一種基于卷積神經網絡的聯合抽取模型,在ADE數據集上實驗表明其優于流水線方法。實體關系聯合抽取在于充分利用兩個子任務的特性聯合訓練,避免了流水線方法中的錯誤累積,受到不少研究者的關注[10-14]。近年來預訓練模型的引入為此研究提供了新的解決思路[15]。Giorgi J等[16]基于預訓練模型和聯合抽取模型在多個公開數據集上取得了不錯的效果。

2 研究方法

2.1 總體框架

本文設計一種基于預訓練模型的實體關系聯合抽取方法,見圖1。第1步:輸入序列首先經過預訓練語言模型,得到最終隱藏層的向量表示。第2步:經過命名實體識別任務模塊對每個詞(token)分類,輸出對應的token實體標簽,完成實體識別任務。第3步:根據實體識別結果確定句子中實體的邊界位置,通過預訓練語言模型獲得對應token的向量表示,經過關系抽取任務模塊,獲取實體間的關系類別。

圖1 基于預訓練模型的實體關系聯合抽取框架

2.2 實體識別模塊

(1)

圖2 實體識別模塊

實體識別模塊本質上是對輸入序列S的每個token分類,從而得到待識別實體和非實體之間的邊界。為了充分利用實體間的上下文關系,通過將編碼后token的上下文表示hi輸入一個前饋神經網絡,經過一個歸一化操作softmax層,得到每個token的所屬標簽,計算方式如下:

Pi=softmax(FFNN(hi))

(2)

本文采用預訓練BERT模型,在編碼過程中使用了基于WordPiece字典的切分化方法,可能出現輸入序列中的單個單詞被切分成多個token的情況。針對該問題,取首個token的實體標簽代指整個單詞的標簽,避免出現同一個單詞中部分屬于某一實體,而剩余部分屬于另一個實體的情況。在實體識別模塊的訓練中,采用基于交叉熵的損失函數,計算方式如下:

(3)

2.3 關系抽取模塊

2.3.1 實體關系的編碼 在關系抽取模塊中,受R-BERT方法的啟發,以原數據句子序列作為輸入的同時,將命名實體識別結果同時傳入,作為判定實體邊界的依據,見圖3。對每個輸入的句子s,為了提取其中每個實體的表示,在實體識別結果中,選取實體 1 和實體 2 中的末尾 token 作為對應實體的向量表示,再通過激活函數激活,得到實體1和實體2的編碼結果,計算方式如下:

圖3 關系抽取模塊

H′e1=W1(tanh(Hk))+b1

(4)

H′e2=W2(tanh(Hv))+b2

(5)

為了獲得輸入序列的整體表示,與BERT預訓練模型相對應,獲取每個句子序列中的首個token,即[CLS]token在最后一個隱藏層的結果,作為整個序列特征的表示,即圖3中的H0,經過公式(6)中的激活函數激活后得到H′0,用作后續處理中代表整個序列的特征表示。本文采用的序列表示方法,不依賴人工設置特征表示,既不需要通過句法分析或者詞法分析的結果設計特征或者核函數,也不需要設計具體復雜的深度神經網絡,而word embedding[17]、Character Embedding[18]則要通過深度學習方法進行特征表示。

H′0=W0(tanh(H0))+b0

(6)

關系抽取可以轉換為機器學習方法中的分類任務。在獲得成對實體的表示、序列的表示后,通過對3個向量集聯操作,獲得最終用于關系分類的特征表示,計算方式如下:

Hrel=W3(concat(H′0,H′e1,H′e2))+b3

(7)

2.3.2 實體間關系的分類 在獲得關系的上下文表示Hrel后,通過一個多層感知機分類模型和 softmax輸出層得到關系的分類概率,計算方式如下:

Prel=softmax(MLP(Hrel))

(8)

采用基于交叉熵的損失函數作為關系抽取模塊的損失函數,計算方式如下:

(9)

2.4 聯合學習方法

聯合學習過程中,實體識別模塊和關系抽取模塊共享參數,能夠充分利用兩個子任務的關聯性對預訓練模型 BERT 進行調優。整個聯合抽取模型的損失函數Ljoint由兩個子任務的損失函數(公式 (3)和(9))共同決定,最終聯合學習的損失函數定義如下,其中λ為一個用于平衡實體識別模塊損失和關系分類模塊的超參數。

Ljoint=λLner+(1-λ)Lrel

(10)

3 實驗與結果分析

3.1 數據集和評價指標

實驗部分主要采用ADE公開數據集[2],達到與此前研究可對比的效果。該數據集主要由5位獨立的領域專家通過共同討論制定標注指南文件,再由3位專家實際進行數據標注得到,具體統計信息,見表1。評價指標主要由實體識別的評價指標、關系抽取的評價指標和實體關系聯合抽取評價指標3部分組成。采用機器學習領域常用的精準率、召回率和F1指數。為了便于與此前研究方法進行性能對比,通過與此前方法類似的10折交叉驗證來驗證模型效果。

表1 訓練集數據統計信息

3.2 實驗參數設置

為了比較不同預訓練模型在本文設計提出的實體關系聯合抽取框架中的實際效果,測試BERT、BioBERT和ClinicalBERT共3種預訓練模型的表現。實驗中聯合抽取模型使用的具體參數,見表2。

表2 本文實驗中的參數設置

3.3 實驗結果

3.3.1 預訓練模型對比 實驗結果,見表3、表4。基于生物醫學文獻訓練得到的BioBERT模型在面向生物醫學文獻中的ADE實體和關系抽取時F1表現(0.904,0.868)明顯優于基于書籍語料和維基百科語料訓練得到的BERT,以及基于臨床文本訓練得到的ClinicalBERT。但是在端到端任務的驗證結果方面,本文方法結合3種不同模型時F1表現則較為接近,見表5。

表3 本文方法結合不同預訓練模型在實體抽取任務中的實驗結果

表4 本文方法結合不同預訓練模型在關系抽取任務中的實驗結果

表5 本文方法結合不同預訓練模型在端到端抽取任務中的實驗結果

3.3.2 與現有方法對比 本文所設計的基于預訓練模型的實體關系聯合抽取方法在 ADE 數據集上的實體抽取表現和關系抽取表現(0.904,0.868)均優于此前的研究[6-9,16],見表6、表7。實驗數據均來自原作者發表論文。同是基于預訓練模型的方法,本文方法在實體識別和關系抽取上的表現均優于Giorgi J等[16]提出的方法。端到端任務實驗結果,見表8,本文方法(0.878)與Giorgi J等[16]的方法(0.877)表現接近,優于其他現有方法。

表6 本文方法和現有方法在實體識別任務中的實驗結果

表7 本文方法和現有方法在關系抽取任務中的實驗結果

表8 本文方法和現有方法的端到端實驗結果

4 討論

通過實驗分析發現,本文提出的基于預訓練模型的實體關系聯合抽取方法仍存在一定的改進空間,其中包括實體和關系抽取模塊的優化設計、聯合學習的方法等。

4.1 模塊設計

本文在實體識別模塊中采用一種基于預訓練模型和前向神經網絡的結構,雖然也取得不錯的效果,但是對預訓練模型的利用仍存在改進空間。后期可以采用已經在某些數據集上驗證的更優化的神經網絡結構,如Si Y等[19]使用BiLSTM+BERT的方法進行改進。隨著研究者對預訓練模型研究的深入,將提出更多的實體抽取或關系抽取方法,本文提出的聯合抽取框架具有一定的擴展性,即實體抽取和關系抽取模塊能夠被更優化的基于預訓練模型的方法替換。

4.2 預訓練方式

對于預訓練模型本身,本文方法并沒有處理其預訓練過程,而是采用通用方法得到預訓練模型。對于預訓練過程,可以考慮融合多種新的任務或者方法擴展原有基于掩碼的語言模型(masked language model,MLM)和基于下一句預測(next sentence prediction,NSP)的方法,使訓練得到的預訓練模型在端到端實體關系任務上獲得更優表現。現有的預訓練模型對于序列分類任務和序列標注任務都設計了有針對性的訓練方法,從而得到在多項測試集上的優異結果,但尚無針對關系抽取的特定優化或針對端到端方法對預訓練模型本身進行的優化,導致在部分實例上效果不佳。

4.3 聯合學習方法

除了利用聯合抽取框架平衡兩個模塊的方法外,Zheng S等[20]于2017年提出標注方法解決實體關系聯合抽取問題,即將實體關系聯合抽取轉換為與實體識別類似的序列標注任務,以“BIEO-Relation-Entity”的形式,將實體信息和關系信息都包含在每個token標簽中。上述方法雖然存在無法處理實體重疊的問題,但是仍然為研究者打開了一種新的研究思路,多重標注或者多次識別可能彌補上述短板從而衍生出新的實體關系抽取方法。Zheng S等[20]也在 NYT數據集上驗證了其方法的有效性。

5 結語

本文結合醫學自然語言處理領域的最新發展趨勢,面向ADE抽取任務提出了一種基于預訓練模型的實體關系聯合抽取方法。充分利用預訓練模型在特征表示上的優勢,無須人工加入對于實體或者序列的表示特征。實驗結果表明,該方法優于已有聯合抽取方法,能夠應用于ADE的抽取中。

利益聲明:所有作者均聲明不存在利益沖突。

猜你喜歡
實驗方法模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 五月婷婷综合网| 日韩成人高清无码| 在线观看视频一区二区| 91久久偷偷做嫩草影院| 99久久国产综合精品2020| 国模极品一区二区三区| 国产成人超碰无码| 亚洲AⅤ永久无码精品毛片| 国产无码高清视频不卡| 永久在线播放| 国产精品太粉嫩高中在线观看| 国产真实乱人视频| 激情六月丁香婷婷四房播| 免费观看三级毛片| 黄色片中文字幕| 无码有码中文字幕| 国产一级小视频| 国产免费好大好硬视频| 国产男女XX00免费观看| 久久综合色88| 国产不卡在线看| 成人91在线| 国产小视频a在线观看| 国产精品熟女亚洲AV麻豆| 欧美精品伊人久久| 欧美天堂在线| 一本大道无码日韩精品影视| 色爽网免费视频| 三上悠亚在线精品二区| 欧美怡红院视频一区二区三区| 色网站免费在线观看| 国产在线精彩视频二区| 狼友av永久网站免费观看| 人人看人人鲁狠狠高清| 99久久亚洲综合精品TS| 婷婷五月在线视频| a级毛片在线免费观看| 亚洲人成网站在线播放2019| 97精品国产高清久久久久蜜芽| 国产精品女主播| 欧美精品xx| 国产视频资源在线观看| 亚洲天堂精品视频| 一级毛片在线播放免费| 女人毛片a级大学毛片免费| 免费毛片全部不收费的| 国产精品吹潮在线观看中文| 国产黑丝一区| www.精品国产| 免费毛片在线| 成人无码一区二区三区视频在线观看| 色吊丝av中文字幕| 国产日韩欧美黄色片免费观看| 国产成人8x视频一区二区| 99久久精品免费观看国产| 日韩第九页| 亚洲水蜜桃久久综合网站| 啊嗯不日本网站| 丰满的熟女一区二区三区l| 狠狠色婷婷丁香综合久久韩国| 五月天久久综合| 欧美第一页在线| 欧美黑人欧美精品刺激| 国产精品手机在线观看你懂的| 东京热一区二区三区无码视频| 日韩午夜福利在线观看| 久草视频精品| 99久久精品免费看国产免费软件| 亚洲综合色婷婷| 人妻少妇乱子伦精品无码专区毛片| 国产av色站网站| 欧美日韩中文字幕二区三区| 国产欧美日韩另类精彩视频| 国产亚洲视频中文字幕视频| A级毛片高清免费视频就| 国产成人亚洲欧美激情| 久久黄色免费电影| 国产99精品视频| 免费国产无遮挡又黄又爽| 日韩中文精品亚洲第三区| 日韩一级二级三级| 亚洲色欲色欲www网|