基于預訓練模型的藥物不良事件抽取方法研究*

2024-03-15 08:01:34李計巧王正瑤王懷玉

醫學信息學雜志 2024年2期

袁馳李計巧王正瑤王懷玉

(1河海大學計算機與軟件學院南京 211100 2北京中醫藥大學國家中醫體質與治未病研究院北京 100029)

1 引言

藥物不良事件(adverse drug event，ADE)是指患者在應用藥物時出現的不良臨床事件，可能會導致住院、殘疾甚至死亡[1]。盡管在臨床試驗階段，藥物研發者試圖發現和減少藥物使用過程中可能出現的各類不良反應，但在藥物上市后仍難免有新的不良反應事件發生[2]。統計數據顯示，ADE每年導致超過350萬次內科就診以及100萬次急診就診[3]。

ADE抽取作為醫學信息抽取的重要任務，一直以來受到廣泛關注。從最早的ADE數據集[4]到2018年n2c2的ADE評測任務[5]，豐富的ADE數據集為抽取方法的研究提供了有效支撐。在眾多數據集上，不少研究者積極探索各類方法[6-9]。如 Li F等[6]提出一種基于卷積神經網絡的聯合抽取模型，在ADE數據集上實驗表明其優于流水線方法。實體關系聯合抽取在于充分利用兩個子任務的特性聯合訓練，避免了流水線方法中的錯誤累積，受到不少研究者的關注[10-14]。近年來預訓練模型的引入為此研究提供了新的解決思路[15]。Giorgi J等[16]基于預訓練模型和聯合抽取模型在多個公開數據集上取得了不錯的效果。

2 研究方法

2.1 總體框架

本文設計一種基于預訓練模型的實體關系聯合抽取方法，見圖1。第1步：輸入序列首先經過預訓練語言模型，得到最終隱藏層的向量表示。第2步：經過命名實體識別任務模塊對每個詞(token)分類，輸出對應的token實體標簽，完成實體識別任務。第3步：根據實體識別結果確定句子中實體的邊界位置，通過預訓練語言模型獲得對應token的向量表示，經過關系抽取任務模塊，獲取實體間的關系類別。

圖1 基于預訓練模型的實體關系聯合抽取框架

2.2 實體識別模塊

(1)

圖2 實體識別模塊

實體識別模塊本質上是對輸入序列S的每個token分類，從而得到待識別實體和非實體之間的邊界。為了充分利用實體間的上下文關系，通過將編碼后token的上下文表示hi輸入一個前饋神經網絡，經過一個歸一化操作softmax層，得到每個token的所屬標簽，計算方式如下：

Pi=softmax(FFNN(hi))

(2)

本文采用預訓練BERT模型，在編碼過程中使用了基于WordPiece字典的切分化方法，可能出現輸入序列中的單個單詞被切分成多個token的情況。針對該問題，取首個token的實體標簽代指整個單詞的標簽，避免出現同一個單詞中部分屬于某一實體，而剩余部分屬于另一個實體的情況。在實體識別模塊的訓練中，采用基于交叉熵的損失函數，計算方式如下：

(3)

2.3 關系抽取模塊

2.3.1 實體關系的編碼在關系抽取模塊中，受R-BERT方法的啟發，以原數據句子序列作為輸入的同時，將命名實體識別結果同時傳入，作為判定實體邊界的依據，見圖3。對每個輸入的句子s，為了提取其中每個實體的表示，在實體識別結果中，選取實體 1 和實體 2 中的末尾 token 作為對應實體的向量表示，再通過激活函數激活，得到實體1和實體2的編碼結果，計算方式如下：

圖3 關系抽取模塊

H′e1=W1(tanh(Hk))+b1

(4)

H′e2=W2(tanh(Hv))+b2

(5)

為了獲得輸入序列的整體表示，與BERT預訓練模型相對應，獲取每個句子序列中的首個token，即[CLS]token在最后一個隱藏層的結果，作為整個序列特征的表示，即圖3中的H0，經過公式(6)中的激活函數激活后得到H′0，用作后續處理中代表整個序列的特征表示。本文采用的序列表示方法，不依賴人工設置特征表示，既不需要通過句法分析或者詞法分析的結果設計特征或者核函數，也不需要設計具體復雜的深度神經網絡，而word embedding[17]、Character Embedding[18]則要通過深度學習方法進行特征表示。

H′0=W0(tanh(H0))+b0

(6)

關系抽取可以轉換為機器學習方法中的分類任務。在獲得成對實體的表示、序列的表示后，通過對3個向量集聯操作，獲得最終用于關系分類的特征表示，計算方式如下：

Hrel=W3(concat(H′0，H′e1，H′e2))+b3

(7)

2.3.2 實體間關系的分類在獲得關系的上下文表示Hrel后，通過一個多層感知機分類模型和 softmax輸出層得到關系的分類概率，計算方式如下：

Prel=softmax(MLP(Hrel))

(8)

采用基于交叉熵的損失函數作為關系抽取模塊的損失函數，計算方式如下：

(9)

2.4 聯合學習方法

聯合學習過程中，實體識別模塊和關系抽取模塊共享參數，能夠充分利用兩個子任務的關聯性對預訓練模型 BERT 進行調優。整個聯合抽取模型的損失函數Ljoint由兩個子任務的損失函數(公式 (3)和(9))共同決定，最終聯合學習的損失函數定義如下，其中λ為一個用于平衡實體識別模塊損失和關系分類模塊的超參數。

Ljoint=λLner+(1-λ)Lrel

(10)

3 實驗與結果分析

3.1 數據集和評價指標

實驗部分主要采用ADE公開數據集[2]，達到與此前研究可對比的效果。該數據集主要由5位獨立的領域專家通過共同討論制定標注指南文件，再由3位專家實際進行數據標注得到，具體統計信息，見表1。評價指標主要由實體識別的評價指標、關系抽取的評價指標和實體關系聯合抽取評價指標3部分組成。采用機器學習領域常用的精準率、召回率和F1指數。為了便于與此前研究方法進行性能對比，通過與此前方法類似的10折交叉驗證來驗證模型效果。

表1 訓練集數據統計信息

3.2 實驗參數設置

為了比較不同預訓練模型在本文設計提出的實體關系聯合抽取框架中的實際效果，測試BERT、BioBERT和ClinicalBERT共3種預訓練模型的表現。實驗中聯合抽取模型使用的具體參數，見表2。

表2 本文實驗中的參數設置

3.3 實驗結果

3.3.1 預訓練模型對比實驗結果，見表3、表4。基于生物醫學文獻訓練得到的BioBERT模型在面向生物醫學文獻中的ADE實體和關系抽取時F1表現(0.904，0.868)明顯優于基于書籍語料和維基百科語料訓練得到的BERT，以及基于臨床文本訓練得到的ClinicalBERT。但是在端到端任務的驗證結果方面，本文方法結合3種不同模型時F1表現則較為接近，見表5。

表3 本文方法結合不同預訓練模型在實體抽取任務中的實驗結果

表4 本文方法結合不同預訓練模型在關系抽取任務中的實驗結果

表5 本文方法結合不同預訓練模型在端到端抽取任務中的實驗結果

3.3.2 與現有方法對比本文所設計的基于預訓練模型的實體關系聯合抽取方法在 ADE 數據集上的實體抽取表現和關系抽取表現(0.904，0.868)均優于此前的研究[6-9，16]，見表6、表7。實驗數據均來自原作者發表論文。同是基于預訓練模型的方法，本文方法在實體識別和關系抽取上的表現均優于Giorgi J等[16]提出的方法。端到端任務實驗結果，見表8，本文方法(0.878)與Giorgi J等[16]的方法(0.877)表現接近，優于其他現有方法。

表6 本文方法和現有方法在實體識別任務中的實驗結果

表7 本文方法和現有方法在關系抽取任務中的實驗結果

表8 本文方法和現有方法的端到端實驗結果

4 討論

通過實驗分析發現，本文提出的基于預訓練模型的實體關系聯合抽取方法仍存在一定的改進空間，其中包括實體和關系抽取模塊的優化設計、聯合學習的方法等。

4.1 模塊設計

本文在實體識別模塊中采用一種基于預訓練模型和前向神經網絡的結構，雖然也取得不錯的效果，但是對預訓練模型的利用仍存在改進空間。后期可以采用已經在某些數據集上驗證的更優化的神經網絡結構，如Si Y等[19]使用BiLSTM+BERT的方法進行改進。隨著研究者對預訓練模型研究的深入，將提出更多的實體抽取或關系抽取方法，本文提出的聯合抽取框架具有一定的擴展性，即實體抽取和關系抽取模塊能夠被更優化的基于預訓練模型的方法替換。

4.2 預訓練方式

對于預訓練模型本身，本文方法并沒有處理其預訓練過程，而是采用通用方法得到預訓練模型。對于預訓練過程，可以考慮融合多種新的任務或者方法擴展原有基于掩碼的語言模型(masked language model，MLM)和基于下一句預測(next sentence prediction，NSP)的方法，使訓練得到的預訓練模型在端到端實體關系任務上獲得更優表現。現有的預訓練模型對于序列分類任務和序列標注任務都設計了有針對性的訓練方法，從而得到在多項測試集上的優異結果，但尚無針對關系抽取的特定優化或針對端到端方法對預訓練模型本身進行的優化，導致在部分實例上效果不佳。

4.3 聯合學習方法

除了利用聯合抽取框架平衡兩個模塊的方法外，Zheng S等[20]于2017年提出標注方法解決實體關系聯合抽取問題，即將實體關系聯合抽取轉換為與實體識別類似的序列標注任務，以“BIEO-Relation-Entity”的形式，將實體信息和關系信息都包含在每個token標簽中。上述方法雖然存在無法處理實體重疊的問題，但是仍然為研究者打開了一種新的研究思路，多重標注或者多次識別可能彌補上述短板從而衍生出新的實體關系抽取方法。Zheng S等[20]也在 NYT數據集上驗證了其方法的有效性。

5 結語

本文結合醫學自然語言處理領域的最新發展趨勢，面向ADE抽取任務提出了一種基于預訓練模型的實體關系聯合抽取方法。充分利用預訓練模型在特征表示上的優勢，無須人工加入對于實體或者序列的表示特征。實驗結果表明，該方法優于已有聯合抽取方法，能夠應用于ADE的抽取中。

利益聲明：所有作者均聲明不存在利益沖突。