999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本與圖像的肺疾病研究與預測

2022-03-10 11:04:30曹吉龍魏景峰
自動化學報 2022年2期
關鍵詞:模態文本信息

呂 晴 趙 奎 曹吉龍 魏景峰

模態是指人接受信息的特定方式,由于多媒體數據往往是多種信息的傳遞媒介,多模態學習已逐漸發展為多媒體內容分析和理解的主要手段.在醫學領域,也有研究者應用多模態學習.針對Alzheimer病,韓坤等[1]提出結合磁共振圖像(Magnetic resonance imaging,MRI)和正電子發射型計算機斷層顯像(Positron emission computed tomography,PET)圖像模態的特征信息相融合的方法,實驗結果表明該方法在準確率上取得了較好的成績.為了解決傳統模態醫學圖像缺陷,張淑麗等[2]提出了自由變形法對多模態的醫學圖像進行融合.然而大多數研究人員主要融合多模態的醫學圖像,沒有加入電子病歷等文本模態的數據.調查發現,肺癌是世界發病率和死亡率最高的疾病之一[3].病人在進行肺疾病診斷時,需要CT 檢查,影像科醫生對CT影像進行檢查描述,但在實際的診斷和治療過程中,常常是由主治醫生根據檢查描述以及CT 影像進行進一步的判斷.這一過場不僅增加了主治醫生的工作量,也導致了醫療資源的不合理應用.

基于此,本文在影像CT 基礎上,融入影像醫生對CT 影像描述的文本信息,以及一些其他檢驗結果(比如癌胚抗原測定、鱗狀上皮細胞癌抗原測定等),構建深度學習模型對肺疾病進行預測,將影像醫生給出的CT 影像和檢查描述以及其他檢驗結果輸入到模型中,對疾病進行判別并給出得病概率,患病概率大的病人則交由主治醫生更進一步地診斷和治療,以減輕主治醫生的工作量,提高工作效率.

1 數據預處理

本文收集的電子病歷數據,主要分為三部分:檢查描述、CT 影像和檢驗結果.

對檢查描述研究發現,雖出自不同醫生之手,但是對醫學名詞寫法相同,只是在電子病歷輸入的時候,存在錯別字、同音異字等問題.如 “雙肺實質未見明顯異常密度,雙肺門不大,縱膈內未見明確腫大淋巴結 ··· 肺癌不除外縱隔淋巴結增大,肝臟內見斑片狀高密度影,門靜脈周圍間隙增寬.” 數據中除了含有少見的醫學專有名詞 “縱隔淋巴結”、“斑片狀高密度影”外,還有錯別字 “隔”.本文使用預定義詞庫的方法,解決醫學常見縮略語的分詞問題,然后使用Multi-head attention 與Bi-LSTM 對文本進行編碼,減少同音異字或者語法錯誤帶來的文本理解上的問題.

CT 影像數據是通過成像設備進行采集的,但是由于成像設備參數、外界環境的干擾,會導致采集的CT 圖像數據有差異,這些問題都會影響模型的準確率.本文使用去噪和歸一化等圖像處理技術對CT 圖像進行處理.

其他檢驗結果主要是痰液細胞學、胸水檢查、血常規檢查和腫瘤標記物篩查等.痰液與胸水細胞學檢查,主要是判斷痰液與胸水中是否存在腫瘤細胞;血常規檢查包括白細胞、紅細胞和血小板以及細胞酸堿性等;肺癌篩選的腫瘤標記物主要有癌胚抗原(Carcinoembryonic antigen,CEA)、癌抗原CA125 (Cancer antigen 125,CA125)、細胞角蛋白19 片段(Cytokeratin fragment 19,CYFRA 21-1)等.

考慮到數據由文本數據和圖像數據兩部分組成,因此分別對兩部分數據進行處理.

1.1 文本數據預處理

1.1.1 檢查描述數據預處理

深度學習出現后,基于神經網絡的詞嵌入模型成為了主流,GloVe[4]使用詞共現矩陣學習更廣泛的共現概率.CoVe[5]通過神經翻譯的編碼器向詞嵌入中添加含有上下文背景的表征向量,令模型學習上下文背景化的語義.BERT (Bidirectional encoder representation from transformers) 使用多層Transformer[6]編碼器學習詞匯前后的語義依賴關系,并通過遮罩語言模型(Masked language model,MLM)解決了模型的輸入在多層Transformer 結構中可以看到自己的 “鏡像問題”.ERNIE[7]提出了知識融合與對話語言模型的概念,針對中文通用領域的自然語言處理任務對BERT 進行了優化.

本文使用jieba 分詞,考慮醫學短文本中特有的專有名詞、縮寫語多的特點,在分詞過程中加入了醫學詞庫,醫學詞庫的建立一方面是通過網絡爬取醫學專業詞匯,另一方面通過影像科醫生總結出常見的肺部CT 描述詞匯.文本數據中有大量的詞雖然出現頻率很高,卻對分類預測沒有幫助,比如在 “檢查描述”中常出現 “無”、“可”、“檢查”這類詞在實際訓練中不能體現不同病歷差異性的作用,更加重了學習器的負擔,一般稱其為 “停用詞”.因此在分詞的時候,需要將這些停用詞去掉.分詞之后的文本數據還需向量化,本論文使用(Word to vector,word2vec) 模型來訓練詞向量,并在模型中加入位置詞向量與Multi-head attention 來更好地表征文本語義.

1.1.2 檢驗結果數據預處理

檢驗結果主要是痰液細胞學、胸水檢查、血常規檢查和腫瘤標記物篩查等,檢驗項目如表1 所示,電子病歷中的檢查結果會給出參考范圍、檢查名稱、狀態和結果值,由于不同檢查項目的量綱不同,所以結果值有很大的差異,因此,本文使用狀態值來作模型的輸入,將正常的狀態映射為0,非正常狀態(高或低)映射為1,然后輸入到模型里面.

表1 檢驗項目Table 1 Examine items

1.2 圖像數據預處理

在計算機輔助診斷領域中,主要針對肺部CT影像進行肺癌良惡性的診斷.Sun 等[8]使用了單層的CNN (Convolutional neural networks)和SDAE (Stacked denoised autoencoder) (3 個DAE(DialAnExchange))以及DBN (Deep belief nets)(4 層RBM (Restricted Boltzmann machine))解決了肺節點的良惡性分類問題.Xiao 等[9]增加了一個卷積層,使用CNN (2 個卷積層、2 個池化層、2 個全連接層)和DBN (2 層RBM)實現了肺節點的良惡性分類,其效果有明顯的提高.Cheng 等[10]提出將肺節點興趣區的多個參數與肺節點興趣區一起輸入到SDAE 模型,僅使用肺節點中間切片的Single模型與使用所有肺節點切片的All 模型進行對比,實驗結果表明All 模型相比Single 模型,在準確率上大約有11 %的提升,而AUC 大約有5 %的提升.Nibali 等[11]將深度殘差網絡模型與遷移學習應用到肺癌分類中,由于深度殘差模型,在加深網絡深度的同時,減少了梯度消失的可能,因此,通過深度殘差網絡模型以ImageNet 圖像集為源域進行遷移學習分類,使得分類準確率為89.9 %,AUC (Area under curve)為0.946.Shen 等[12]提出了一種具有多級裁剪結構的CNN 模型,該模型可以獲取不同尺度的圖像特征,從而加強模型的分類效果,該模型的準確率為87.1 %,AUC 為0.93.

通過對已有方法對比發現,分類準確率有明顯的提高,但是分類效果還不是很高.一方面是由于模型過于簡單,另一方面,沒有根據目標數據進行有針對性的調整,所以模型仍有更大的改進空間.

由于CT 圖像使用不同的掃描以及重建方法,會產生一些不需要的雜質和噪點,比如像結節一樣的球狀結構,這些干擾信息與感興趣區域之間存在某種相似性.如果不去除噪聲,后面對特征提取的質量將受到嚴重影響,從而影響模型的準確性.本文實驗分析發現高斯濾波器的去噪效果比均值濾波等的效果更好,而且高斯濾波器對邊緣信息的保留能力也更佳.除此之外,為了加快模型收斂,將圖像像素歸一化或標準化,在本文中,對去噪之后的圖像,將像素的值歸一化為0 到255 的整數.處理后的圖像采用殘差神經網絡為基礎構建模型,具體模型將在實驗的圖像模型部分給出.

2 實驗

模型結構如圖1 所示,整個模型的主要由三部分構成,分別是文本部分、圖像部分和多層感知器(Multilayer perceptron,MLP),文本部分輸入的是電子病歷的文本信息(影像醫生給出的CT 描述信息),圖像部分輸入的是影像檢查的CT 圖像,多層感知器輸入的是其他檢查結果.將文本部分的輸出、圖像部分的輸出和多層感知器的輸出拼接起來,然后經過全連接層,最后輸出結果.模型的損失函數是交叉熵:

圖1 模型結構圖Fig.1 Model structure

其中,a是真實值,y是預測值.

2.1 文本模型

在文本方面,以Bi-LSTM和Multi-head attention 為核心對文本建模,模型的輸入層為詞向量加位置向量,同時在模型的輸入層后面引入Multihead attention.最后將多個特征進行拼接和融合,使模型進一步提高特征表達能力.

2.1.1 Word Embedding

本文使用詞粒度的詞向量.考慮到文本語料相對比較少,訓練出來的詞向量語義不夠豐富,而騰訊預訓練詞向量大約超過800 萬中文詞匯數據,與其他公開的預訓練詞向量相比,具有比較好的覆蓋性和新鮮度,因此本文使用騰訊預訓練向量.

由于病例中的詞語所在的位置不同而代表不同的語義,在詞向量基礎上,加入位置向量,能夠使模型區別出不同位置的單詞.因此,模型的輸入也會將位置向量(Position embedding)作為輔助詞向量輸入.在語言序列中,相對位置至關重要,而Position embedding 本身是絕對值位置的信息,因此,本文將Position embedding 定義為如下:

PE代表Position embedding,p代表詞的位置,dpos代表維度,公式將詞位置信息使用三角函數映射到dpos維度上.

2.1.2 Multi-head Attention

Multi-head attention 本質是進行多次Self-attention 計算,它可以使模型從不同表征子空間獲取更多層面的特征,從而使模型能夠捕獲句子更多的上下文信息.

Self-attention 本質是一種信息編碼方式,類似于CNN 中的卷積,Self-attention 的定義如下所示:

Q是Query,代表Query 向量,K是Key,代表Key 向量,V是Value,代表Value 向量.Wq矩陣,Wk矩陣和Wv矩陣將輸入的詞向量映射成Q,K,V,然后按照公式進行加權求和,對文本信息進行編碼.

將Self-attention 執行k次,然后將結果拼接起來,就得到了Multi-head attention.

2.1.3 Bi-LSTM

詞向量經過Multi-head attention 的時候,由于Self-attention 是對輸入信息的上下文的向量進行計算編碼信息,沒有考慮到輸入信息的詞序,所以,在模型的輸入層加入了Position embedding,除此之外,還在Multi-head attention 的后面加入了Bi-LSTM.LSTM (Long short-term memory)[13]是為了緩解RNN 的梯度消失而提出的,LSTM 單元有三個門,分別是遺忘門ft,輸入門it和輸出門ot[14].假設在t時刻,輸入為xt,而t-1 (上一時刻)的隱藏層的輸出為ht-1,其中Ct-1為t-1 (上一時刻)的細胞狀態值,則在t時LSTM 的各個狀態值:

通過以上計算,最終得到t時刻LSTM 隱層狀態的輸出值.由于LSTM 對句子只是從前向后單向建模,無法進行從后向前的編碼信息.因此,本文使用Bi-LSTM (雙向LSTM),可以更好地捕捉雙向的語義信息.

2.1.4 Soft Attention

Soft attention 即傳統的Attention mechanism,通過保留Bi-LSTM 編碼器對輸入序列的中間輸出結果,然后計算每個中間結果與其他結果的點積,最后加權求和.

H是Bi-LSTM 隱藏層的輸出結果,w是需要學習的參數.第二個Attention 機制的實現是通過計算每個中間結果與其他結果的點積,其中中間結果是通過保留Bi-LSTM 編碼器對輸入序列的中間輸出的結果,最后再進行加權求和.這一層的Attention 能夠觀察到序列中的每個詞與輸入序列中一些詞的對齊關系.本文使用的是乘法注意力機制,其中使用高度優化的矩陣乘法實現乘法注意力機制,那么整體計算成本和單次注意力機制的計算成本并不會相差很大,同時又提升了模型的特征表達能力.

2.2 多層感知機(Multilayer Perceptron,MLP)

模型的第三部分是多層感知器(MLP),MLP主要包含輸入層、隱藏層和輸出層.實驗驗證,隱藏層不能過多,一方面,層數越多,參數越多,容易過擬合,另一方面,到了一定的層數,增加更深的隱藏層,分類效果也不會提升太多,反而有時會下降.因此,MLP 部分設置三個隱藏層,具體參數如表2 所示.

表2 MLP 參數設置Table 2 The parameter of MLP

2.3 圖像模型

本文的圖像卷積部分在ResNet-50 結構基礎上,基于ImageNet 數據集預訓練,然后微調構建的模型.模型的結構如圖2 所示,ResNet 中有2 個基本的block,一個是Identity block,輸入和輸出的dimension 是一樣的,所以可以串聯多個;另一個是ConvBlock,輸入和輸出的Dimension 是不一樣的,所以不能連續串聯,它的作用是為了改變特征向量的Dimension.

圖2 圖像模型結構圖Fig.2 Image model structure

圖像中包含足夠的區分信息是卷積神經網絡能夠學習不同肺癌特征的重要條件[15].圖像的大小會影響網絡區分不同特征的能力,太小會使一些不明顯的特征提取不到,太大會受計算機內存的限制,因此必須選擇大小合適的圖像尺寸,由于本文使用的是ResNet-50 (Residual neural network)網絡,輸入的圖像尺寸需要調整為 2 24×224 .

2.4 實驗設置

實驗中所用的計算機硬件配置為Centos 系統,CPU 為Intel(R) Xeon(R) CPU E5-2630,GPU 為NVIDIA Tesla M4 顯卡,深度學習框架為Keras 2.2.4,后端為Tensorflow 1.13.

在本論文中,主要有兩個實驗,第一個是分別測試Multi-head attention,Bi-LSTM和Soft attention 層在文本深度模型的效果,第二個是測試文本深度模型、圖像深度模型、MLP和文本圖像混合模型.

為了驗證模型的優點和比較模型的表現能力,在第二個實驗中,主要實現了以下幾個模型:一個基線模型為ImageNet 預訓練的VGG-19 (Visual geometry group),三個單模態模型為圖像深度模型(Img-net)、多層感知器(MLP)和文本深度模型(Text-net),以及多模態模型Img+Text,Img+MLP和MLP+Text.Text-net 網絡去掉下面的圖像卷積部分,添加一個全連接層,損失函數為交叉熵的輸出層.Img-net 網絡去掉上面的文本深度模型,添加全連接層之后加上代價函數為交叉熵的輸出層.MLP 是一個多層感知機網絡,只使用檢查結果進行預測.TI-net 網絡是文本圖像混合模型,輸入為圖像、文本和其他數值,數據經過各自的模型之后,拼接起來,經過一個全連接層之后輸出.為了減少模型之間的擾動,對于單模型Text-net,Img-Net和MLP 三個網絡分別用各自的輸入進行預訓練,而對于多模態模型,使用預訓練的單模型的網絡權重作為初始化,再對多模態模型進行微調.

實驗數據共有3 785 個樣本.本文主要研究的是一個二分類問題,即判斷病人是否患有肺癌,與一般分類問題不同,疾病診斷分類問題的數據集往往存在不均衡問題,因此需要對不均衡的樣本進行處理.由于本文的數據量比較大,因此,使用采樣的方法來平衡數據集,以1:2 的比例對全量數據進行采樣,數據的比例分布如表3 所示.

表3 正負樣本比例Table 3 Positive and negative sample ratio

為了驗證模型的效果,將原始數據按照8:2 的比例切分出訓練集和驗證集,并將訓練集在3 個模型上進行訓練,然后在驗證集上評價模型.防止模型結果的偶然性,在訓練模型的時候,采用k-fold交叉驗證的形式來訓練模型,實驗結果顯示k取值為7 的時候效果比較好一些.訓練集和驗證集中,文本的最大長度設置為80,詞向量的維度為200,優化器為Adam,初始學習率為0.01,衰減因子為0.0001,訓練輪次為2 000 次,為了防止過擬合,使用EarlyStopping 來提前停止訓練,評價指標采用準確率,精確率和召回率.

2.5 實驗結果

實驗1 的結果如表4 所示,主要用來測試Multi-head attention,Bi-LSTM和Soft attention 層的效果,Text-net 網絡使用了所有的層,Text-net1 去掉了Multi-head attention 層,Textnet2 去掉了Bi-LSTM 層,Text-net3 去掉了Soft attention 層,從表中結果可以看出,Text-net 模型比其他三個模型都要好.對比Text-net、Text-net1和Text-net2 可以看出,加入Multi-head attention 準確率提升了7 %,加入Bi-LSTM 準確率提升了3 %,所以加入Multi-head attention 層比Bi-LSTM 層效果更好.對比Text-net和Text-net3,加入Soft-attention 層后,模型準確率提升了4 %,這是因為Bi-LSTM 層只對文本進行序列建模,缺乏層次信息,后面加入Soft-attention,可以將Bi-LSTM 編碼后的信息,進行層次信息建模.

表4 實驗1 的結果Table 4 The result of experiment 1

實驗2 的結果如表5 所示,從表5 可以看出,基線模型VGG-19 的準確率為92.53 %,而Img-Net (ResNet-50)的準確率為93.85 %,從圖像深度卷積方面來看,顯然ResNet-50 模型的效果更好.從單模態模型與多模態模型方面來說,對比Imgnet、Img+Text、Img+MLP和TI-net 模型,可以看出,增加CT 檢驗信息準確率提升了1 %,增加檢驗結果準確率提升了2 %,同時增加CT 檢驗信息和檢驗結果,準確率提升了3.2 %,精確率提升了4 %,召回率提升了4 %.從實驗結果上可以看出,基于多模態數據的模型效果優于單模型的效果,并且對比單模型的結果可以看出,Img-net 效果遠比Text-net和MLP 的效果好,這說明,CT 影像仍是肺癌診斷的主要信息,而檢查描述和檢驗結果作為補充信息加入到模型中,可以很好地提升模型的精確度.

表5 實驗2 的結果Table 5 The result of experiment 2

3 結論

本文提出了一種基于文本和圖像的肺疾病分類算法,詳細介紹了本文提出的文本圖像混合深度模型,從基于深度學習的肺癌圖像分類出發,引入了CT 影像描述信息和電子病歷的檢驗項目,并使用Multi-head attention 以及Bi-LSTM 對文本建模,提取文本信息.實驗結果證明,將文本信息和檢驗信息引入到模型后,與傳統單純的圖像模型相比,本文提出的算法具有更好的識別效果和更強的泛化能力.

猜你喜歡
模態文本信息
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
多模態話語模態的協同及在外語教學中的體現
外語學刊(2010年2期)2010-01-22 03:31:03
主站蜘蛛池模板: 综合色亚洲| av无码久久精品| 国国产a国产片免费麻豆| 欧美日韩国产综合视频在线观看| 老司机aⅴ在线精品导航| 欧美a在线视频| 欧美精品成人一区二区在线观看| 日韩 欧美 国产 精品 综合| 久久性妇女精品免费| 精品少妇人妻无码久久| AV天堂资源福利在线观看| 国产尤物jk自慰制服喷水| 国内精品久久久久久久久久影视 | 国产小视频免费观看| 亚洲a级在线观看| 成年午夜精品久久精品| 亚洲乱强伦| a级毛片免费网站| 香蕉久久永久视频| 人人澡人人爽欧美一区| 在线播放精品一区二区啪视频| 99性视频| 99色亚洲国产精品11p| 免费无码又爽又黄又刺激网站 | 久久天天躁狠狠躁夜夜躁| 91久久夜色精品国产网站| 国产精品女在线观看| 久久网综合| 五月天福利视频| 欧美日韩精品在线播放| 国产人人乐人人爱| 中文字幕永久在线看| 欧美日韩另类国产| 亚洲香蕉在线| 精品久久蜜桃| 综合色88| 久久精品66| 日本免费新一区视频| 婷婷午夜天| 欧美日韩一区二区在线免费观看| 亚洲成在线观看 | 一级毛片高清| AV不卡国产在线观看| 日韩国产精品无码一区二区三区| 97久久超碰极品视觉盛宴| 日本爱爱精品一区二区| 高清无码一本到东京热| 亚洲AV无码乱码在线观看裸奔 | 日韩高清中文字幕| 福利视频一区| 欧美一级夜夜爽| 欧美翘臀一区二区三区| 91成人精品视频| 91精品视频在线播放| 亚洲天堂网视频| 东京热一区二区三区无码视频| 成年人免费国产视频| 亚洲精品日产AⅤ| 国产精品久久国产精麻豆99网站| 国产精品视频公开费视频| 九九九精品成人免费视频7| 亚洲av无码成人专区| 亚洲Aⅴ无码专区在线观看q| 91精品人妻一区二区| 日韩视频福利| 亚洲青涩在线| 欧美日一级片| 四虎影视8848永久精品| 中文字幕在线欧美| 91久久夜色精品| 亚洲欧美一区二区三区麻豆| 久久久久久午夜精品| 在线精品自拍| 真实国产乱子伦视频| 综1合AV在线播放| 亚洲视频免费播放| 欧美日韩精品一区二区在线线| 日韩二区三区| 成年人午夜免费视频| 国产精品2| 亚洲人成人伊人成综合网无码| 九色在线观看视频|