999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的急性白血病流式細胞術檢測報告文本資料自動分類研究

2025-05-29 00:00:00張亞洲李智偉農衛霞雷偉擺文麗李寅臻李瑞王奎
醫學信息 2025年8期
關鍵詞:分類文本檢測

Automatic Classification of TextData forFlow Cytometry Detection of Acute Leukemia Based on Deep Learning

ZHANGYazhou],LIZhiwei2,NONGWeixia3,LEIWei',BAIWenli',LIYinzhenl,IRui,WANGKui

DepartmentofPreventiveMedicine,Shihezi UniversitySchoolofMedicine,Shihezi832ooo,Xinjiang,China;

2.ClinicalTestingCenterPeople'sHospitalofijiangUygurutonomousRegion,Urumqi30,injangin;

3.DepartmentofRheumatologyandHematology,ShiheziUniversitySchoolofMedicine,Shhezi832Ooo,Xinjiang,China)

Abstract:OjecieTexloeteclasifiationfectofelangodelontextdataofowcytometreportresultsMethodsSixdep learningmodelsuchsndSeredtalthtetdtaoftesultsffoomeortsifdprdcttit withacuteeukeiandiallaateodelopresivedeFRsultsesialldForf BiLSTMmixedmodelwerethebest,whichwere0.7422,0.7365andO.7361,respectively,andtheF1scoreofthemodelreached 70 % inseven categories:olaeutbskdodlllol plasmacellaboaidotiboaliCocsiododelsdtosiaooftetataiuls flocyometrsreportndombdievousdiestouildoopleeutomatedferalssr improve the efficiency and accuracy of flow cytometry analysis.

Key Words:Flow cytometry; Text classification; CNN; Automated analysis; Deep learning

流式細胞術(flowcytometry,FCM)是一種能精確且快速分析細胞或者生物微粒理化性質的檢測技術,被業內稱為生物實驗室的\"CT\"[1-3]。目前多數的研究都側重于使用機器學習方法實現醫學文本分類的自動化4。隨著FCM技術的廣泛應用,流式細胞儀檢測能力得到了顯著提升,但也帶來了海量的數據,大大加重了流式細胞檢測實驗室檢驗人員的工作負荷5。然而,要培養一個合格的流式細胞術分析師卻需要較長的時間。為了解決這一問題,前期研究提出了流式細胞數據分析全程自動化的想法67,并利用機器學習方法復現了人工分析的全過程。該過程不僅包括數據的補償8、轉化、去粘連細胞、去細胞碎片以及對細胞聚類的自動化[,10],也對急性白血病患者的多管數據細胞亞群進行了統一標注,實現了對細胞主要亞群統計描述的自動化。然而,前期研究的自動化分析主要集中在對流式細胞儀報告數據的處理和統計描述上,并未涉及流式檢測報告的結果部分的文字資料。為了實現流式檢測報告的自動化,除了前期研究中直接利用流式細胞儀報告數據進行分析和自動化分類外,將流式細胞檢測報告中結果部分和結論部分文字資料的分析作為數字資料分析結果的補充也是有益的。因此,本研究提出以流式檢測報告結果部分的文字資料為輸入,以結論部分為分類依據,利用深度學習方法訓練模型,對檢測報告結果部分的文字資料進行分類預測,以期更好的對流式細胞檢測報告結果部分的文字資料進行分析并對急性白血病患者進行分類,現報道如下。

1資料與方法

1.1模型設計與方法本研究所用模型如圖1所示,包含詞嵌入層、CNN層、Bi-LSTM[2]層和softmax層。使用one-hot詞嵌入來自定義embeding的權重矩陣,方便矩陣輸入模型。

圖1CNN-BiLSTM網絡結構

1.2卷積神經網絡卷積神經網絡(convolutionalneuralnetwork,CNN)主要由輸入層(inputlayer)、卷積層(con-volution layer)、池化層(pooling layer)、全連接層(fullconnectlayer)組成。將文本數據輸入CNN層后,卷積層通過在文本表示矩陣上上下滑動來對文本數據進行特征提取,得到的完整局部特征向量。卷積后的向量維度較高,還需要進行池化來對向量維度降低[13],再利用全連接層將池化后的特征向量拼接成新的特征向量,輸出表征更加豐富的局部特征并用于分類。

1.3雙向長短期記憶網絡(BiLSTM)雙向循環網絡由1個正向LSTM4和1個反向LSTM構成[5]。LSTM只保留過去的信息,而BiLSTM同時保存了過去和將來的信息。BiLSTM層由遺忘門、輸入門、輸出門組成,這三個門的存在緩解了神經網絡在處理中長距離依賴的序列數據中發生梯度彌散現象。為了充分發現當前時刻與前一時刻和后一時刻的聯系,本研究拼接前向(forward)LSTM和后向(backward)LSTM形成BiLSTM,來進一步挖掘流式細胞術數據的全局特征。利用BiISTM模型提取詞的上下文語義信息,提取文本中詞的全局特征后,進人全連接層。該全連接層歸納全局的隱狀態的輸出,即向量融合后通過全連接層。最后,使用Softmax激活函數進行分類,找到概率最大的標簽作為預測的分類結果。

1.4實驗環境及數據

1.4.1實驗環境與模型參數設置采用python3.6.8開發工具,第三方庫選用TensorFlow1.12.0和Keras2.2.4版本進行模型訓練。采用Windows11家庭中文版64位操作系統,處理器為Intel(R)Core(TM)i5-12500H。模型參數設置如下:詞向量的維度為32,CNN卷積核尺寸設為3,步長為1,見表1。

表1模型的主要參數

1.4.2數據來源及預處理數據來源于新疆維吾爾自治區人民醫院流式實驗室2019年6月-2021年12月流式細胞檢測報告結果部分的文字資料,以人工診斷的結論作為金標準。數據如圖2所示。將2019年和2021年的數據劃分為訓練集和驗證集,2020年的數據作為外部測試集。按金標準將數據分為正常人、急性髓系白血病(AML)急性T淋巴細胞白血病(B-ALL)、急性B淋巴細胞白血病(T-ALL)有核紅細胞異常、成熟T淋巴細胞異常、成熟B淋巴細胞異常、嗜堿性粒細胞異常、嗜酸性粒細胞異常、中性粒細胞異常、漿細胞異常、單核細胞異常共12類,本研究將2019年和2021年的數據合并后按7:3劃分訓練集和驗證集,見表2。

結果:成熟淋巴細胞占有核細胞9.85%。單核細胞占有核細胞3.82%,均為成熟階段細胞。嗜酸性粒細胞占有核細胞0.36%,嗜堿性粒細胞占有核細胞0.2%。發育階段粒細胞群占有核細胞74.10%。發育模式未見明顯異常。有核紅細胞占有核細胞0.73%,未見明顯非造血細胞。異常幼稚髓系細胞占有核細胞4.59%,表達:CD34、CD117、CD13、HLA-DR、CD33、CD123、CD11c。

結論:本次檢測有4.59%的細胞群為異常幼稚髓系細胞群。未見明顯非造血細胞。

請結合臨床及其他實驗室檢查。因標本稀釋和溶紅細胞等原因可能造成幼稚細胞和有核紅細胞比例減低,具體請參考形態學。

圖2部分數據展示表2實驗數據劃分

1.4.3實驗評價指標選用精確率(precision,P)召回率(recall,R)和F1值作為文本分類的評價指標,計算所需的混淆矩陣見表3。其中,TP表示真正例,指的是實際為正例且被模型預測為正例的樣本數量;FN表示假負例,指的是實際為正類,但被模型錯誤預測為負類的樣本數;FP表示假正例,指的是實際為負類,但被模型錯誤預測為正類的樣本數;TN表示真負例,指的是實際為負例,且被模型預測為負例的樣本數。精確率P指在所有預測為正類的樣本中,實際為正類的比例,它反映了模型預測正例的能力。精確率計算公式如式(1)所示:

召回率R指在所有實際為正類的樣本中,被正確預測為正類的比例,它反映了模型的完整性和靈敏度。召回率計算公式如式(2)所示:

精確率和召回率通常存在一定的矛盾關系:提高精確率可能會降低召回率,反之亦然。為了平衡精確率和召回率,引入了F1值,它是精確率和召回率的調和平均。F1值計算公式如式(3)所示:

本研究將流式細胞檢測報告結果部分的文本資料分為12類,分別將每個類別視為“正類”,該類之外的其他所有類別則視為“負例”,根據混淆矩陣計算一個該類的精確率和召回率,從而評估模型在該特定類別上的表現。

表3混淆矩陣

2結果

2.1模型訓練過程模型在訓練過程中設置了調停函數,在損失函數不再下降時停止訓練并保存訓練結果。在訓練過程中,損失函數隨著迭代次數的增加逐漸下降,表明模型在持續從訓練集中學習有用特征。而準確率在迭代過程的逐漸上升并趨于穩定,說明模型擬合效果較好。

2.2效果驗證表4為不同模型在數據集的整體效果對比,結果顯示本研究所選模型CNN-BiLSTM的精確率、召回率、F1值以及AUC值都最高,分別為0 . 7 4 2 2 、 0 . 7 3 6 5 、 0 . 7 3 6 1 、 0 . 8 0 ,提示本文模型流式細胞術檢測報告結果部分的文本資料具有較好的分類效果。表5為CNN-BiLSTM模型在各類別分類效果對比,結果顯示本研究模型在正常人、急性髓系白血病、急性B淋巴細胞白血病、有核紅細胞異常、中性粒細胞異常、漿細胞異常、單核細胞異常這7類的F1值均達到了 70 % ,且本研究模型對急性B淋巴細胞白血病這一類的分類效果最好,F1值達到了0.9041。圖3為CNN-BiLSTM模型的ROC曲線圖,結果顯示本研究模型對12個類的AUC值均大于0.5,且急性髓系白血病、急性T淋巴細胞白血病、中性粒細胞異常、漿細胞異常這5類的AUC值均大于0.9,對急性T淋巴細胞白血病的AUC值最大,為 0

表4不同模型在測試集上的分類效果對比
表5CNN-BiLSTM模型在各類別分類效果對比
圖3CNN-BiLST1M模型ROC曲線

陽注:class0\~11依次對應12類數據,分別是正常人、急性髓系白血病、急性T淋巴細胞白血病、急性B淋巴細胞白血病、有核紅細胞異常成熟T淋巴細胞異常、成熟B淋巴細胞異常、嗜堿性粒細胞異常、嗜酸性粒細胞異常、中性粒細胞異常、漿細胞異常、單核細胞異常。

3討論

FCM檢測能力提升的同時,也給流式細胞檢測實驗室檢驗人員的分析效率帶來了挑戰,而培養一名優秀的流式細胞術分析師需要較高的時間成本,因此尋求一種流式細胞術自動化分析的方法變得尤為必要。雖然目前已經有一些自動分析方法在FCM數據取得不錯的效果,但由于其操作復雜及自動化不徹底等原因并未被廣泛使用[,因此在實際臨床工作中仍以人工分析為主。

本研究通過深度學習模型對流式細胞檢測報告結果部分的文字資料進行分析,并對急性白血病患者進行自動分類,探索文本分類方法聯合前期對流式細胞儀報告數據通過自動化分析方法實現白血病預測的效果,通過觀察CNN和LSTM基線模型發現,CNN比LSTM的模型性能高,主要原因是原始數據集由人工進行預篩選,且為描述細胞占比的文本句子,每個文本為冗雜且相關性不強的短文本描述句子,上下文相關性不強,且含有眾多臨床術語。短文本的特征一般獨立存在于句子的某個局部,CNN擅長捕捉短文本的局部特征信息,而LSTM捕捉的多為冗雜且相關性不高的上下文特征信息。因此,相較于本研究的流式細胞檢測報告結果部分的文本資料,CNN的分類效果優于LSTM。

以CNN作為基線模型,對CNN、CNN-LSTM和CNN-BiLSTM進行對比發現,CNN混合模型比CNN的模型性能高。由于傳統CNN模型的卷積神經網絡直接與全連接層相連,而混合模型是在BiLSTM或LSTM后連接全連接層。由于全連接層會造成部分空間文本信息的丟失,從而忽略了部分上下文的關系。因此,CNN的準確率低于其混合模型,且混合模型的F1值較基線模型高了 11.25% 。以LSTM作為基線模型,對LSTM、BiISTM進行對比發現,BiISTM較LSTM好。對于BiLSTM模型而言,LSTM只能處理后向的文本序列,而BiLSTM可以同時拼接前向和后向兩個方向的輸出,能對前后文語義進行更高的表征,提升了模型計算的復雜度和精確度。因此,BiILSTM較LSTM模型的F1值提升 0.59% 。

對于CNN與LSTM的混合模型,可得出LSTM-CNN比CNN-LSTM的串聯模型性能更加優越。對比CNN-LSTM和LSTM-CNN文本分類模型,兩者在網絡結構上有所不同,主要體現在卷積層和長短期記憶(LSTM)層的順序。CNN-LSTM模型首先使用CNN對輸入的文本進行特征提取,然后將提取到的特征序列輸入到LSTM層進行序列建模和分類預測。而LSTM-CNN模型則是先使用LSTM層對文本進行序列建模,然后將LSTM輸出的特征序列輸入到卷積層進行局部特征提取和分類預測。在文本分類任務中,卷積層能夠提取出局部特征,但同時也造成了信息的丟失,在只對LSTM進行后向序列信息計算時,會造成一定的信息差異;而LSTM向后傳遞的語句信息是完整的,再將提取的信息傳入CNN中提取局部關鍵信息,所以LSTM-CNN的分類效果略高于CNN-LSTM。而CNN-BiLSTM由于可以拼接前向和后向兩個方向的輸出,可以明顯提前模型分類效果,對LSTM-CNN和CNN-LSTM模型的F1值分別提高 4.72 % 和 5.24 % 。

本研究也存在一定的局限性:在文本分類模型中,本研究選用的樣本量較少,且類別不均勻,因此還未能充分發揮各深度學習模型在大數據分析上的優勢;本研究只選擇了正常人、急性髓系白血病患者和急性淋系白血病患者等12類文本資料進行分析,并未包含急性白血病數據的全部資料;本研究只是對FCM的結果部分的文字資料做了文本分類,缺乏更詳細的疾病信息,因此僅探討了各深度學習模型在白血病初步診斷中的應用;為了保證結果的客觀性和可信度,本研究未對數據進行增強,也未深入對模型參數的設置進行研究,而是盡可能選擇工具包默認參數,因此訓練好的模型并不是最好的,可在將來使用過程中進一步完善;由于本研究所選的文字資料存在多標簽問題,而本研究只做了單標簽文本分類,因此后期將從多標簽文本分類角度對數據進行進一步研究。

綜上所述,CNN-BiLSTM深度學習模型對流式細胞檢測報告結果部分文本資料的分類效果較好,能夠輔助臨床工作者在急性白血病診斷上做出更準確的診斷,提高診斷效率和準確性。

參考文獻:

[1]Paul RJ,Mario R.Flow cytometry strikes gold[J].Science, 2015,350(6262):739-740.

[2JayeDL,BrayRA,GebelHM,etal.Translational applicationsof flow cytometry in clinical practice[J].J Immunol,2012,188(10): 4715-4719.

[3]SuoYZ,Gu ZQ,WeiXB.AdvancesofInVivoFlowCytometryon Cancer Studies[J].CytometryA,2020,97(1):15-23.

[4]CheungM,Campbell JJ,WhitbyL,etal.Current trends in flow cytometry automated data analysis software [J].Cytometry A, 2021,99(10):1007-1021.

[5]GregF,Marc L,Maria J,et al.Standardizing Flow Cytometry Immunophenotyping Analysis from the Human ImmunoPhe

notyping Consortium[J].Scientific Reports,2016,6(1):20686.

[6]郭玉娟,李智偉,芮東升,等.急性髓系白血病流式細胞術全程 自動化診斷技術研究[.大學學報(自然科學版),2022,40 (4):431-437.

[7]雷偉,李智偉,芮東升,等.卷積神經網絡在急性髓系白血病 流式細胞術自動診斷中的應用[.安徽醫科大學學報,2023,58 (7):1189-1193.

[8]FudaF,ChenM,ChenW,etal.Artificial intelligenceinclinical multiparameter flow cytometry and mass cytometry-key tools and progres[J].Semin Diagn Pathol,2023,40(2):120-128.

[9]Van Gassen S,Callebaut B,Van Helden MJ,et al.FlowSOM: Using self-organizing maps for visualization and interpretation of cytometry data[J].Cytometry A,2015,87(7):636-645.

[10]Lacombe F,LechevalierN,Vial JP,et al.An R-Derived FlowSOM Process to Analyze Unsupervised Clustering of Normal and Malignant Human Bone Marrow Classical Flow Cytometry Data[J].Cytometry A,2019,95(11):1191-1197.

[11]Collobert R,Weston J,Bottou L,etal.Natural Language Processing (almost) from Scratch[J].CoRR,2011:2493-2537.

[12]Pan CP,Cao HT,Zhang WW,et al.Driver activity recognition using spatial - temporal graph convolutional LSTM networkswith attention mechanism [].IET Inteligent Transport Systems,2020,15(2):297-307.

[13]宋純賀,李澤熙,于洪霞,等.一種基于改進GoogLeNet的油 井故障識別方法[].江蘇科技大學學報(自然科學版),2021,35 (2):52-58.

[14]王若佳,魏思儀,王繼民.BiLSTM-CRF模型在中文電子病 歷命名實體識別中的應用研究[.文獻與數據學報,2019,1(2): 53-66.

[15]Kamruzzaman M,Almazroui M,Salam MA,etal.Spatiotemporal drought analysis in Bangladesh using the standardized precipitation index (SPI) and standardized precipitation evapotranspiration index (SPEI)[].Sci Rep,2022,12(1):20694.

[16]馬閃閃,董明利,張帆,等.基于核主成分分析的流式細胞數 據分群方法研究[].生物醫學工程學雜志,2017,34(1):115-122.

[17]Obeidat Y,Alqudah AM.AHybrid Lightweight1D CNNLSTMArchitecture for Automated ECG Beat-Wise Classification[J].Traitement du Signal: Signal ImageParole,2O21,38(5):1281- 1291.

收稿日期:2024-02-19:修回日期:2024-03-28

編輯/杜帆

猜你喜歡
分類文本檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
小波變換在PCB缺陷檢測中的應用
主站蜘蛛池模板: 久久青草免费91观看| 国产素人在线| 另类重口100页在线播放| 狠狠色综合网| 97在线免费视频| 精品无码国产一区二区三区AV| 国产日韩欧美成人| 精品国产一区二区三区在线观看| 亚洲国产成人在线| 欧亚日韩Av| 91在线无码精品秘九色APP| 国产亚洲精品资源在线26u| 亚洲日本精品一区二区| 91精品亚洲| 国产成人乱码一区二区三区在线| 欧美日本在线一区二区三区| 亚洲中文字幕在线观看| 全部毛片免费看| 热这里只有精品国产热门精品| 亚洲欧美极品| 欧美国产日韩另类| 亚洲一区二区三区在线视频| 一级毛片中文字幕| 青青青亚洲精品国产| 国产午夜福利在线小视频| 114级毛片免费观看| 欧美成人精品在线| 国产青榴视频| 久996视频精品免费观看| 青青草欧美| 久久天天躁狠狠躁夜夜躁| 黄色一及毛片| 成人韩免费网站| 亚洲国产综合精品中文第一| 国产人成乱码视频免费观看| 久久人搡人人玩人妻精品一| 成人va亚洲va欧美天堂| 日韩精品无码免费一区二区三区 | 99在线观看免费视频| 黑色丝袜高跟国产在线91| 国产精品视频导航| 多人乱p欧美在线观看| 国产成人精品一区二区免费看京| 国产自无码视频在线观看| 精品国产成人三级在线观看| 天天综合网在线| 亚洲日本韩在线观看| 亚洲黄网视频| 亚洲午夜福利精品无码不卡| 国产在线视频导航| 国产成人亚洲无码淙合青草| 毛片大全免费观看| 四虎永久在线| 91精品专区国产盗摄| 亚洲精品视频免费看| 国产嫖妓91东北老熟女久久一| 特级精品毛片免费观看| 国内精品小视频福利网址| 精品91视频| 国产精品亚洲va在线观看| 精品91视频| 四虎影视永久在线精品| www中文字幕在线观看| 尤物精品视频一区二区三区| 欧美第九页| 在线精品欧美日韩| 国产午夜精品一区二区三区软件| 欧美日韩一区二区在线播放| 日韩大片免费观看视频播放| 国产福利免费视频| 欧美亚洲欧美| 影音先锋亚洲无码| 国产手机在线观看| 国产微拍一区| 一本久道久久综合多人| 成人一级黄色毛片| 日韩午夜福利在线观看| 日韩欧美在线观看| 亚洲三级视频在线观看| 色精品视频| 99青青青精品视频在线| 久久亚洲国产视频|