999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

醫學知識增強的腫瘤分期多任務學習模型

2021-09-11 03:13:40張恒何文玢何軍焦增濤劉紅巖
智能系統學報 2021年4期
關鍵詞:文本模型

張恒,何文玢,何軍,焦增濤,劉紅巖

(1.中國人民大學 信息學院,北京 100872;2.醫渡云(北京)技術有限公司,北京 100191;3.清華大學 管理科學與工程系,北京 100084)

腫瘤分期是評價腫瘤生物學行為的最重要指標之一,是根據個體內原發腫瘤數量以及擴散程度來描述腫瘤的嚴重程度和侵及范圍的過程[1]。醫院積累的電子病歷文本(EHR)中蘊含了大量關于腫瘤的知識,運用機器學習和自然語言處理技術進行挖掘與知識提取,繼而自動地給出分期診斷,是一項具有研究和實用價值的工作。目前腫瘤分期的過程尚依賴于醫生的診斷經驗或者一些專家手動編寫的規則,流程復雜并且難以廣泛應用。雖然神經網絡模型已經被廣泛地應用于各種互聯網文本挖掘的任務中并且取得了很好的效果,但是在特定的醫療文本上處理腫瘤分期問題還沒有合適的模型和方法。本文提出一種將深度學習與醫學知識相結合的新方法,既借用了醫療大數據的優勢,又彌補了傳統神經網絡缺乏醫學知識的缺點。

1 腫瘤分期問題概述

腫瘤的TNM 分期分為T(tumor),N(Node),M(Metastasis)3 個維度,T分期用來表征原發腫瘤的部位以及大小,N分期判斷局部淋巴結受累情況,M分期是指遠處轉移情況。醫生參考T、N、M分期的結果制定更有針對性的臨床診療方案。本文采用由美國癌癥聯合委員會(AJCC)開發的第8版癌癥TNM 分期系統[2]作為標準。如表1 所示。

表1 第8 版乳腺癌分期標準(部分)Table 1 8th edition of breast cancer staging criteria (part)

在現實場景中,不同分期的樣本分布嚴重不均衡,以T分期為例,大多數樣本集中在T1、T2兩類,占總量的80%以上,這給運用深度學習方法解決腫瘤分期問題帶來了挑戰。此外,不同于通用領域的文本分類,腫瘤分期任務依賴于從文本中進行一定的醫學推理,需要相當的醫學背景知識,而非僅僅靠上下文就能很好地解決。

Hu 等[3]借助法律條文作為輔助信息,處理智慧司法中的罪名判定問題,受此啟發,我們在本文中首次引入醫生進行診斷時所參考的醫學屬性,并且將其是否能從文本中推斷得到作為一種標注信息。這些特征包括是否侵犯胸壁、是否橘皮樣變、是否侵犯腋窩、是否炎癥型癌癥等。這些標注信息與最終的分期結果存在內在的聯系。

在此基礎上,本文提出了一種多任務學習的機制,同時預測腫瘤分期結果以及上述醫學屬性的存在。我們提出了針對特定醫學問題的機器閱讀理解任務,并使用雙向注意力機制生成問題的表示與電子病歷文本的表示,融合兩方面的表示推斷最終的分期。這些問題可以為腫瘤分期提供額外的知識,更好地對樣本不均衡的類別進行區分,也實現了不同腫瘤分期之間的知識遷移。

2 相關研究工作

2.1 文本分類

Kim 等[4]提出TextCNN 模型,借鑒圖像識別中的卷積網絡捕捉N-gram 信息用于文本分類。Tang 等[5]利用門限循環網絡捕捉文本的序列特征,避免訓練中的梯度爆炸問題。Joulin 等[6]提出FastText 模型,僅使用全聯接層和N-gram 特征就取得了很好的效果。Johnson 等[7]提出DPCNN模型,提出深度堆疊的CNN 模型可以提高單層卷積的效果,具有更強的表征能力。Yao 等[8]提出一種基于圖卷積的模型TexGCN 利用詞與文檔的貢獻信息對文本節點和單詞節點構建圖,將文本分類看作節點分類。Sun 等[9]使用在預訓練模型BERT 的基礎上進行微調用于文本分類任務。

上述研究均是通用領域的文本分類方法,采用的多是樣本分布均勻的數據集。針對腫瘤分期問題的醫療文本數據集及研究較少。醫療文本普遍存在表述不規范、使用大量醫學術語、難以進行語義理解等問題,增加了分類的難度。

2.2 不均衡分類

難度由于醫療電子病歷數據的嚴重不均衡,直接應用深度學習模型效果不佳。不平衡分類問題在機器學習領域受到廣泛關注,由此產生了小樣本學習等研究領域。

不平衡分類的解決辦法中,一種是數據層面的改進,采用過采樣技術與欠采樣技術對數據集進行平衡。通過復制樣本或者消減樣本達到總體平衡。另一種是從模型層面改進,通過引入外部知識,幫助神經網絡對樣本量較少的類別也能夠很好地學習。本文主要探討第2 種。

Hu 等[3]提出一個多任務學習的罪名預測模型,針對法律文書類別不均衡的問題,引入10 個有判別作用的區分性屬性(盈利、死亡情節、暴力行為等)作為判定罪名的中間依據,通過聯合學習罪名預測任務與相關屬性預測任務提升了預測準確率。Elhoseiny 等[10]提出引入類標簽的文本描述在文本特征和視覺特征之間建立一種映射關系,提升了小樣本分類的效果。此類方法可以自動地學習標簽或屬性的向量表示,但是這種向量只從各屬性在文本中的貢獻中學習得到,對分類的增益較弱。

本文借鑒了上述思想,引入醫學屬性對應的文本描述作為啟發信息,并將其作為問題進行機器閱讀理解模型的訓練,模型學習的是多個具有實際意義的醫學屬性與文本的關系,即將腫瘤分期拆解為對多個醫學屬性是否存在的判斷,相當于在文本與分期結果中引入了一層中間映射,且增加了監督信息。即使是樣本較少的類別,也更加容易進行學習,由此減弱了類別不均衡帶來的影響 。

2.3 機器閱讀理解

機器閱讀理解技術是自然語言處理的重要研究領域,其目標是給定一段文本,給出答案或者指出答案的位置。本文借鑒機器閱讀理解的思想,將醫學問題對應結果的預測視作一個多標簽二分類問題。

Cui 等提出了雙向注意力機制[11],計算了問題?上下文(Q2C)和上下文?問題(C2Q)兩個方向的注意力信息,雙向注意力機制為許多機器閱讀理解模型所采用。

Seo 等[12]在BiDAF 模型中提出雙向注意力流,獲取注意力矩陣以后,沒有把上下文和問題編碼為固定大小的向量,而是由后續的編碼模塊繼續處理,減少早期加權求和造成的信息損失。實驗表明雙向注意力對結果的提升尤為重要。本文將雙向注意力引入腫瘤分期任務,來捕捉上下文和問題間的關系,并對注意力的形式做了改進。

3 醫學知識增強的多任務學習腫瘤分期模型

3.1 腫瘤分期相關醫學屬性

本文選取了醫生在推斷腫瘤分期時重點觀察的醫學屬性,如表2 所示,這些醫學屬性與分期結果有一定的對應關系,可以作為腫瘤分期的推斷依據。本文針對每個醫學屬性定義“閱讀理解問題”,然后基于病歷文本回答該問題,即文本中是否蘊含了該屬性及其相關特征,結果要么為“是”,要么為 “否”。所以本文將此任務轉化為一個給定問題的機器閱讀理解問題。

表2 醫學屬性及對應“問題”描述(部分)Table 2 Description of medical attributes and corresponding “questions” (part)

3.2 問題定義

腫瘤分期。給定一個電子病歷文本,記作序列D={w1,w2,…,wN},其中N為文本的長度,wi是文本的第i個元素,腫瘤分期任務的目標是根據D推測其相應的分期結果yT、yN、yM,且yT∈{Tis,T1,T2},yN∈{N0,N1,N2,N3},yM∈{M0,M1}。

機器閱讀理解。將表2 中的每種醫學屬性對應的問題描述當作問題,設每個問題由M個字符組成,假設一共有K個醫學屬性,對應K個問題任務目標是根據D推測每個問題對應的答案p={p1,p2,…,pk},且有pi∈{0,1}。

3.3 模型介紹

本文借鑒Hu 等[3]提出的Attribute-based LSTM 和Seo 等[12]提出的雙向注意力機制,提出醫學知識增強的多任務學習(KEMT)模型,包括輸入層、文本編碼層、雙向注意力層和輸出層,如圖1 所示。

圖1 模型結構Fig.1 Model structure

輸入層。負責將輸入文本D轉化為向量序列。由于醫療文本切詞復雜,模型的效果隨切詞粒度不同存在很大差異。本文使用字符級的表示,能更好地捕捉上下文語義,避免未登錄詞(OOV) 現象。記E∈R|V|×d為輸入層字符嵌入矩陣,|V|為字典的大小,即所有病歷文本中出現的不同字符數,d為輸入層字符向量的維度,N為本段文本的字符數。

經過輸入層后,輸入文本轉化為字符向量序列X={x1,x2,…,xN}。

編碼層。對電子病歷文本和問題文本進行分別編碼,編碼層結構如圖2 所示。

圖2 編碼層Fig.2 Encoder layer

編碼層中,模型借鑒DPCNN[7]中的Region embedding 方式對輸入文本片段進行嵌入表示,在后面的多層卷積中,使用兩層等長卷積代替傳統的窄卷積,使得每一個位置的向量都包含了上下文的信息。在卷積塊的輸入與輸出間使用殘差連接。

式中:z為輸入卷積層的向量;f代表兩層等長卷積;z′為卷積層的輸出向量;編碼層也可以采用其他自然語言處理模型,如BERT,并不限定采用CNN 模型,主要目的是提取文本的基本特征。

注意力層本文將病歷文本經過編碼后獲得的表示記為C,且C∈Rd×N,d為向量的維度,N為病歷文本的長度。每個問題經過編碼后的表示記為Q∈Rd×M,M表示問題Q的長度。首先計算文本表示C與問題Q的注意力分數矩陣S,其第i行第j列的取值Si,j如式(2)所示。

式中:⊙表示逐元素相乘,且S∈RN×M,qj和ci分別表示問題描述的第j個字符向量和病歷文本的第i個字符向量。W0是一個可以訓練的權重。

將病歷文本看作回答問題的上下文信息,將S相似度矩陣每一行經過softmax 層可以得到上下文?問題 (context-to-query)方向的注意力,因為S中每一行表示的病歷文本中第i個字符與問題中每個字符間的相似度。將得到的C2Q 注意力與Q做點積,如式(3)所示:

式中:A為N×d的矩陣,即用Q中的所有詞表示病歷文本的每一個詞。得到A以后與病歷文本表示C進行拼接,得到融合問題信息的文本表示的一行,如式(4)所示:

式中:a為A的一行,將K個Q分別經過注意力機制得到的向量表示做平均池化操作,得到最終的文本表示Cˉ,如式(5)所示:

將S相似度矩陣每一列經過softmax 層可以得到query-to-context (Q2C)方向的注意力,計算的是對每一個問題中的詞,文本中哪些詞和它最相關,計算方法是取相似度矩陣中最大的一列,對其進行 softmax 歸一化然后計算病歷文本向量的加權和,如式(6)所示:

式中:pi是問題i所對應的醫學屬性是否在文中存在的概率,本文把其視作一個二分類問題,Wi和bi是輸出層的權重和偏置。

對于病歷文本的表示使用最大池化獲取全局的表示e=[e1e2···ed],其中d為向量的維度。

這里r是K個問題向量的平均池化,r和e是采用拼接的方式輸入給最終的預測層,Wy和by是分類輸出層的權重和偏置,y為最終在各個分期類別上的概率。

3.4 損失函數

本模型采用聯合學習的方法,損失函數分為兩部分。一部分為腫瘤分期的預測概率與真實值之間的交叉熵損失 Lc:

式中:yi代表腫瘤分期的真實結果;是網絡預測得到的概率分布;C為對應腫瘤分期的種類數(T分期為5,N分期為4,M分期為2)。另外一部分,對于第j個問題的預測結果,利用式(12)計算二分類交叉熵損失 Lq,j:

Lq為所有問題對應的損失加和。模型整體的損失函數由上述兩個損失函數加和而成:

其中 α 是超參數,用來平衡損失函數中兩部分的比重。

4 實驗設置及結果分析

4.1 數據集構建

目前尚未有公開的適用于腫瘤分期數據集,于是我們與醫療AI 公司醫渡云合作構建了實驗數據集,主要來自醫渡云醫學專家基于臨床經驗撰寫的部分病歷內容,包括病人的病理診斷,現病史信息等。針對T分期、N分期、M分期3 種標準構建了3 個數據集詳情如表3 所示。

表3 各數據集信息統計Table 3 Statistics of data sets

在搜集的腫瘤電子病歷數據中,具有顯著的類別分布不均衡的現象,以T分期的數據集為例,如表4 所示共分為5 類,較高的T下標值意味著更大的腫瘤和/或更廣泛地擴散到附近的組織(Tis指沒有更深入地侵入其他組織的原位癌,Tis是Tissue 的縮寫)。可以看到T1、T2類別的樣本較多,T3、T4、Tis樣本較少。所以我們在預處理階段使用上采樣的方法,復制樣本數較少類別的樣本,使各類別的樣本數均與樣本數最多的種類一致。

表4 T 分期數據分布Table 4 Data distribution of T stage

4.2 評價指標與基準模型

本文采用文本分類中常用的精確率(Precision),召回率(Recall),F1值作為模型評價指標。

本文選取多種經典的文本分類模型作為基準模型,分別是:

TextCNN:Kim 等[4]提出的TextCNN;

BLSTM:雙向的LSTM 加max-pooling;

FastText:Joulin 等[6]提出的淺層模型;

DPCNN:Johnson 等[7]提出的多層卷積網絡。

4.3 實驗參數設置

本文使用PyTorch[13]實現了所有的模型,設置最大訓練輪次為100 輪。使用Adam[14]作為模型優化算法,初始學習率設置為0.001,Dropout[15]的大小設置為0.5,batch 的大小設置為64,損失函數里的權重參數 α 設置為0.5。輸入向量的維度設置為128 維,采用標準正態分布隨機初始化,文本最大長度設置為512。對基準模型中的TextCNN模型,卷積核大小設置為(3、4、5),BLSTM 的隱藏層大小設置為128 維。

4.4 實驗結果與分析

改進后的KEMT 模型與上述基準模型對比如表5 所示。

表5 T 分期實驗結果Table 5 Results of T stage experiment %

從表5 可以看出,本文提出的KEMT 模型的各指標均超過了基準模型,比基準模型的最好結果分別提升了5.8%、1.7%、3.5%。為了說明我們的模型在小樣本類別上的有效性,圖3 展示了各個類別上的效果對比。

圖3 KEMT 與DPCNN 的F1 對比Fig.3 F1-score of KEMT and DPCNN

如表6 所示,KEMT 模型在Macro-F1值上超過了基準模型在小樣本類別上的值,顯示出模型在樣本數量極度不均勻的情況下,對小樣本類別也有不錯的分類效果。基準模型中F1值最大的為T2(93.8%),最小值為T4(83.1%),相差10.7 個百分點,而KEMT 模型中F1最大值T2(95.2%)和最小值T4(91%)相差4.2 個百分點。以上結果均顯示出KEMT 模型的效果在各類別上更均衡。

表6 小樣本類別Macro-F1Table 6 Macro-F of category %

為了說明模型的有效性,接下來采用同樣的方法對N分期和M分期數據集進行實驗。實驗結果如表7 和表8 顯示,KEMT 模型在N分期與M分期標準下均取得了良好的效果。

表7 N 分期實驗結果Table 7 Results of N stage experiment %

表8 M 分期實驗結果Table 8 Results of M stage experiment %

4.5 有效性說明

為了說明注意力機制的有效性,本文還設計了兩組消融實驗:

1)w/o attention,即去掉模型中的注意力機制模塊。則模型退化為將病歷文本和問題分別編碼。

2)w/o concatenation,即保留雙向注意力模塊,但直接用文本表示r進行最終的分類。

從表9 可以看到,移除注意力模塊以及醫學領域知識后,模型的Macro-F1(M-F1)值分別下降了5%和4%,由此可見,雙向注意力機制和醫學領域知識對于模型的效果是有顯著影響的。

表9 注意力機制有效性Table 9 Effectiveness of attention mechanism

4.6 樣例闡釋

本文選取了一個直觀的樣例,來對于注意力機制如何幫助預測分期結果進行了說明。該樣例的真實分期標簽和KEMT 模型預測的結果均為T4,一個顯著的特征是病人的電子病歷中是否有隱含醫學屬性“橘皮樣變”的出現。將 “橘皮樣變”這個屬性對應的注意力用熱力圖可視化出來。背景顏色越深的詞,具有的注意力權重值更大,通過熱力圖顯示,可以清楚地看到,注意力機制可以捕捉與醫學屬性相關的關鍵模式。如圖4所示。

圖4 注意力機制熱力圖Fig.4 Heat-map of attention mechanism

5 結束語

本文充分利用醫生診斷腫瘤分期時所依據的醫學屬性,將屬性對應的文本描述作為問題,提出了面向醫學問題的機器閱讀理解任務和知識增強的多任務學習(KEMT)腫瘤分期模型,實現了醫學問題答案預測和腫瘤分期兩種任務之間的知識遷移。實驗結果表明該方法一定程度上解決了數據集不均衡帶來的分類效果不佳的問題。

然而本文仍有需要改進的地方,比如醫生實際運用的知識更復雜,本文對于分期的劃分目前還是粗粒度的,在每一種分期下還有更細粒度的劃分,如果要達到更精細的分類,需要制定更精細的醫學屬性信息。

近來,圖神經網絡和預訓練模型興起,在多項任務中有巨大潛力,下一步我們也將探索這些新方法運用到腫瘤分期問題中,希望能夠引入更多有效的醫學知識,提升腫瘤分期問題的模型效果。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 97国产在线观看| 亚洲三级片在线看| 国产专区综合另类日韩一区| 最近最新中文字幕免费的一页| 亚洲一本大道在线| 色综合狠狠操| 欧美日本激情| 日韩精品毛片人妻AV不卡| 成人精品视频一区二区在线| 99热这里只有成人精品国产| 国产成人精彩在线视频50| 一本色道久久88亚洲综合| 91麻豆国产视频| 亚洲天堂区| 亚洲国产亚洲综合在线尤物| 97久久精品人人| 亚洲天堂精品在线| 亚洲 欧美 日韩综合一区| 蜜桃视频一区二区三区| 色噜噜久久| 日本一本在线视频| 毛片在线看网站| 亚洲男人在线| 99久久免费精品特色大片| 少妇被粗大的猛烈进出免费视频| 国产在线自乱拍播放| 无码精品一区二区久久久| 爱做久久久久久| 久久婷婷色综合老司机| 日韩毛片在线视频| 色综合久久综合网| 黄色网站不卡无码| 亚洲综合婷婷激情| aⅴ免费在线观看| 人妻21p大胆| 欧美一级夜夜爽www| 毛片免费观看视频| 国产区网址| 欧美成人A视频| 欧美一区二区啪啪| 欧美一级一级做性视频| 成人a免费α片在线视频网站| 亚洲国产欧美中日韩成人综合视频| 精品自窥自偷在线看| 成人国内精品久久久久影院| 激情爆乳一区二区| 亚洲欧美精品一中文字幕| 久久伊人色| 久久夜色精品国产嚕嚕亚洲av| 萌白酱国产一区二区| 国产精品视频白浆免费视频| 日韩国产一区二区三区无码| 亚洲欧州色色免费AV| 国产福利2021最新在线观看| 国产欧美日韩视频一区二区三区| 黄色网在线| 亚洲精品色AV无码看| 女人av社区男人的天堂| 亚洲成a人片在线观看88| 欧洲日本亚洲中文字幕| 亚洲无码电影| 免费看一级毛片波多结衣| 久久免费成人| 四虎精品免费久久| 亚洲欧洲日韩综合色天使| 亚洲综合香蕉| 亚洲福利视频一区二区| 亚洲国产日韩一区| 另类综合视频| 爱做久久久久久| 88av在线| 成年av福利永久免费观看| 久久91精品牛牛| 久久性视频| 美女视频黄频a免费高清不卡| 亚洲一区二区成人| 精品国产Av电影无码久久久| 毛片在线播放a| 亚洲AV无码乱码在线观看裸奔| 99久久国产综合精品2023| 亚洲国产精品日韩专区AV| 亚洲伦理一区二区|