陳怡洋,孔維正,吳輝群,季菊玲
南通大學醫學院,南通 226000
肺癌是中國發病率和患病人數最高的腫瘤,也是癌癥死因之首。晚期肺癌患者常出現胸水,其中的癌細胞可通過細胞病理學來確診。然而,胸水富含蛋白質,可使間皮細胞和淋巴細胞反應性增生,加上缺乏組織形態背景作為參照,導致胸水細胞病理學診斷的難度增加。因此,通常需要制作細胞包埋塊和免疫組化等協助診斷,成本高、時間長,在基層醫院不易施行[1]。
人工智能(artificial intelligence,AI)輔助病理診斷在臨床工作中已有一些初步應用,但在輔助胸水肺腺癌細胞病理診斷方面鮮有報道。為獲得最優模型,本研究采用2種較先進的深度學習方法,即Inception V3和Yolo(You only look once)V4,并在開發數據集(訓練集、驗證集和測試集)中評估其性能[2]。應用深度學習模型對胸水脫落肺腺癌細胞的檢測與分類,探討人工智能輔助肺癌細胞病理診斷的可行性。
1.1 一般資料回顧性收集2019年3月至2021年12月南通大學附屬醫院、上海交通大學附屬胸科醫院和復旦大學附屬中山醫院的胸水標本130例。其中細胞病理診斷為肺腺癌110例,另有非腫瘤性胸水標本20例為對照組。納入標準:病理診斷明確,未經臨床診療(手術、放療和化療)。本研究通過南通大學醫學院倫理委員會審批(2022-1),3家醫院均存有病理診斷知情同意書。病理圖像為脫敏處理后進行相互公開交流學習的讀片資料,僅保留基本信息。
1.2 細胞分離、制片、染色
1.2.1 常規法處理胸水抽取胸水50 mL,加入1 000 U/mL肝素液1 mL,放鹽水瓶中置于4 ℃冰箱中靜置6~12 h,棄去上清。將底部10~20 mL富含細胞的胸水用長吸管移入2個15 mL離心管中,以1 500r/min離心后沉淀5 min;用PBS液洗1次;再以1 500r/min離心后沉淀5 min;加入液基固定液懸浮沉淀,備用。
1.2.2 單細胞分離法處理胸水抽取胸水50 mL,加入1 000 U/mL肝素液1 mL,放鹽水瓶中置于4℃冰箱中靜置6~12 h,棄去上清。將底部10~20 mL富含細胞的胸水用長吸管移入2個15 mL離心管中,以1 500r/min離心沉淀5 min;棄上清,將離心管中的細胞沉淀以5 mL“肺癌單細胞分離液”重懸,37℃消化15 min,間隔5 min搖勻1次;配制方法:0.01%PBS配制,pH 7.2,-20℃保存(表1)。用巴氏吸管將所獲細胞懸液轉移至單細胞制備裝置,加壓通過100目篩網;1 500r/min離心5 min,棄上清,保留沉淀細胞;加2 mL PBS液,重懸細胞;加入液基固定液懸浮沉淀,備用。

表1 肺癌單細胞分離液配方
1.2.3 液基薄層細胞制片將上述2種方法處理的胸水,均采用膜式制片法各制片1張,蘇木精-伊紅(hematoxylin-eosin, H-E)染色[3]。
1.3 數據處理與機器學習
1.3.1 全切片數字掃描(whole slide imaging,WSI)采用40倍物鏡掃描,每個病例采集和選擇 10 幅圖像(96′96 dpi)。
1.3.2 數據預處理運算平臺為戴爾T7920圖形工作站圖形處理器(graphics processing unit, GPU)。在計算機程序中設定分組:將數據集按照6∶2∶2的比例隨機分為訓練集(n=80)、驗證集(n=25)和測試集(n=25)。訓練集用于訓練模型以及確定模型權重;驗證集用于確定網絡結構以及調整模型的超參數;測試集用于檢驗模型的泛化能力,評估模型的精確度。
1.3.3 標注和機器學習在專科病理醫師指導下使用LabelImg軟件對訓練集圖像數據進行畫框標注,分別標注各類細胞,定義標簽(表2)。分別用Yolo V4和Inception V3模型進行機器學習,對不同分類細胞進行學習和訓練、驗證和測試 。

表2 圖片中各種細胞的標記參數
1.4 統計學處理數據統計分析由Yolo V4和Inception V3模型內設程序完成。
2.1 一般資料分析結果(表3)顯示:130例患者中,男性49例、女性81例,年齡35~83歲,平均年齡(57±22)歲,病理診斷肺腺癌110例。130例標本按照6∶2∶2的比例進行預測分析并分組,其中訓練集80例、驗證集25例、測試集25例。

表3 3組患者的一般資料分析
2.2 細胞分離液的制片效果未經肺癌單細胞分離液處理的病理片細胞較密集,肺腺癌細胞有很多成簇狀,單個細胞較少。如果是間皮細胞增生比較明顯,或癌細胞數量比較少的病例,病理診斷較為困難,需要經驗豐富的高年資專科細胞病理醫生診斷。
結果(圖1)顯示:經肺癌單細胞分離液處理的病理片細胞亦較密集,肺腺癌細胞仍然有少數成簇狀,但呈大串的細胞較少。同時,單個的腺癌細胞數量明顯增多,病理診斷相對容易。

圖1 肺腺癌細胞的單幅顯微圖像
2.3 機器學習的數據分析常規胸水細胞片中單個細胞少,肺腺癌細胞簇內的細胞數量差異很大,單細胞和細胞簇的混合學習識別率很低,模型運算速度較慢。其中,成簇細胞的識別率<10%。
結果(圖2)顯示:經肺癌單細胞分離液處理的細胞片的圖像中單個腺癌細胞數量明顯增多,不僅標注效率高,而且模型運算速度快。使用訓練后的Yolo V4模型對胸水脫落細胞H-E染色涂片中疑似+確診肺癌細胞進行識別標注的結果:單個腺癌細胞A+a識別準確率的平均值約為20%,即全類平均正確率(mAP)為20%。

圖2 單個腺癌細胞A+a識別準確率
結果(表4)顯示:使用訓練后的Inception V3模型對胸水脫落細胞病理圖像中單個細胞分割后的淋巴細胞、間皮細胞、疑似+確診肺癌細胞進行分類,腺癌(A+a)細胞識別準確度可達98%。

表4 訓練集(train)測試結果
3.1 胸水中肺癌細胞的病理診斷和基于深度學習的AI模型肺癌是目前威脅人類健康常見的惡性腫瘤之一,發病率及病死率均為第一。肺癌的病理類型很多,其中以腺癌、鱗狀細胞癌和小細胞癌最為常見,占所有肺癌的90%~95%。不同病理類型的肺癌不僅治療方案和預后不同,腫瘤驅動基因也有所不同。晚期肺癌常會伴發胸水,其中的癌細胞可以通過細胞病理學來明確診斷。然而,胸水中癌細胞的病理學診斷并非易事。胸水中大量增生的反應性間皮細胞與脫落到胸水中的肺腺癌細胞形態相似,單靠顯微鏡肉眼觀察很難做出正確的診斷。因此,臨床上通過制作細胞包埋塊、加做免疫組化、DNA定量等方法來協助診斷[4]。為了不耽誤疾病的診治,快速而準確地對胸水中脫落細胞做出良惡性判斷是目前對病理科醫師的迫切要求。
AI已廣泛應用于現代醫學領域,可以幫助病理科醫生做出更準確的診斷。深度學習是AI 技術的熱門研究領域,是一種基于人工神經網絡對數據進行特征學習的AI 算法的泛稱,對于大數據樣本、復雜函數模型具有強大的處理能力[5]。代表性網絡主要是卷積神經網絡(convolutional neural network, CNN)。Coudray等[6]使用遷移學習和Inception V3模型對非小細胞肺癌病理圖像進行分類,結果表明深度學習模型可以為專家和患者提供快速、準確和便宜的癌癥類型或基因突變檢測,在癌癥診療方面前景可觀。目前,基于數據與模型驅動的深度學習分割方法是研究熱點。標記法是將圖像欲分割成的幾個區域各以1個不同的標號來表示,對圖像中的每一個像素,用一定的方式予以這些標記中的某一個,標記相同的連通像素組成該標記所代表的區域。本課題組用此方法來標記不同的細胞。Yolo是目前流行的目標檢測模型之一,研究采用的是比較新的V4版本。該模型的特點是“快”,但每個網格只能預測一個物體,容易造成漏檢。除此之外,模型對物體的尺度相對敏感,尺度變化大的物體泛化能力較差。對此,本研究將病理科醫生的經驗通過其優點轉化為“精準識別”,但不可避免的是模型對細胞“簇”識別的精確度較低。Inception V3模型是谷歌Inception系列里面的第三代模型,相比于其他神經網絡模型,Inception網絡最大的特點在于將神經網絡層與層之間的卷積運算進行了拓展,采用不同大小的卷積核,使得存在不同大小的感受野,最后實現拼接達到不同尺度特征的融合。本研究將這2種模型分別應用在胸水脫落癌細胞病理診斷的不同任務訓練中。
3.2 胸水單體細胞制備技術據報道[7],目前將胸水脫落細胞的液基薄層細胞制片應用于基于深度學習的AI細胞病理學診斷模塊開發存在1個明顯的問題:液基制片中胸水細胞成團、成簇現象比較明顯,顯微鏡下不容易對焦,對病理科醫生的診斷經驗和水平要求較高,同時增加了機器學習難度并減慢了模塊運算速度,不利于模塊在日常高通量病理診斷工作中的推廣應用。課題組在前期的研究中發現,癌細胞成簇是影響AI高效迅速識別胸水肺癌細胞的最大問題。這導致AI診斷的樣本量、圖像標注難度增大,工作量呈指數級增長,算法模型的精確度大幅下降。最終不僅病理診斷困難,對成像的精度和組合的影響也非常巨大。
現有的細胞懸液制備方法主要分為物理和化學方法。通常采用機械聯合酶消化法將實體瘤組織制備成腫瘤單細胞懸液,其優點是經濟、快速,能滿足一般實驗和臨床診斷的要求。然而此“單細胞懸液”在顯微鏡下觀察仍是以細胞簇為主的液體,并不完全滿足AI分析的需求。關鍵性病理特征采集和標注方法的有效性決定了AI識別能力和未來診斷的精準度。因此,課題組從細胞之間相互連接的機制出發,在常規細胞裂解液的基礎上,進行分解、離散癌細胞團塊,研發出“癌細胞單體細胞制備方法”(已申請專利)。該方法能分離胸水中的肺癌細胞簇,形成肺癌單細胞,便于細胞標注和機器學習,提高識別的效率和準確性。
本研究發明一種應用于AI識別的胸水單體細胞制備方法,明顯增加了胸水中肺癌細胞單體率,提高了機器學習和訓練精準識別胸水肺癌細胞的效率,化繁為簡,提升機器深度學習的泛化能力和魯棒性。不過此技術在胸水細胞AI輔助病理診斷方面還不成熟,目前缺乏多樣性數據和循證依據的支持。對此,仍需加強CNN與細胞良惡性特征的關聯性分析并整合專科病理醫生的經驗,進一步提高模型的精度[8]。希望在不久的未來,通過人工智能深度學習技術構建肺癌液基細胞智能病理診斷模型的應用,提高不同地區/單位液基細胞病理診斷的一致性,降低誤診率、漏診率。
綜上所述,AI輔助細胞病理診斷有助于提高診斷效率、縮短診斷時間、提升診斷水平,具有重要的臨床意義和廣闊的商業應用前景。
利益沖突:所有作者聲明不存在利益沖突。
致謝:南通大學附屬醫院病理科章建國主任、上海交通大學附屬胸科醫院病理科韓昱晨主任提供病例,復旦大學附屬中山醫院病理科陳崗教授提供圖片、病理診斷復核及專業指導。