汲珊珊,賀環(huán)宇,賈曉冬,謝春如,楚玉蘭,羅丕福,李 行,王志崗,郭 琰 綜述,周劍峰△ 審校
1.天津金域醫(yī)學(xué)檢驗(yàn)實(shí)驗(yàn)室有限公司,天津 300392;2.天津深析智能科技發(fā)展有限公司, 天津 300500;3.廣州金域醫(yī)學(xué)檢驗(yàn)中心有限公司,廣東廣州 510320
流式細(xì)胞術(shù)(FCM)是一種在功能水平上對(duì)單細(xì)胞或其他生物粒子進(jìn)行定量分析和分選的檢測(cè)手段,可以高速分析上萬(wàn)個(gè)細(xì)胞,并能同時(shí)檢測(cè)多個(gè)參數(shù),被廣泛用于健康研究和癌癥治療等各種醫(yī)療領(lǐng)域,如監(jiān)測(cè)艾滋病毒感染過(guò)程和治療所需的輔助T淋巴細(xì)胞計(jì)數(shù),白血病和淋巴瘤患者的診斷和監(jiān)測(cè)、外周血造血干細(xì)胞移植的評(píng)估等[1-3],還被用于移植器官、干細(xì)胞研究、基因組學(xué)、疫苗開(kāi)發(fā)、表型研究、細(xì)胞因子表達(dá)和細(xì)胞周期狀態(tài)研究等[4-7]。
傳統(tǒng)人工數(shù)據(jù)分析通過(guò)FCM數(shù)據(jù)呈現(xiàn)出的特征進(jìn)行手動(dòng)設(shè)門對(duì)目的細(xì)胞進(jìn)行分群。隨著檢測(cè)參數(shù)成倍增加,F(xiàn)CM數(shù)據(jù)分析作為FCM中最具挑戰(zhàn)性和最耗時(shí)的診斷步驟,還存在以下不足:人工分析基于“非A即B”邏輯,過(guò)程繁瑣、效率低;對(duì)操作者的要求較高;交叉區(qū)域的細(xì)胞分群容易受到分析者經(jīng)驗(yàn)的影響;可重復(fù)性差等諸多不足[8-10]。
隨著高通量FCM技術(shù)與AI的不斷融合和發(fā)展,F(xiàn)CM數(shù)據(jù)自動(dòng)化分析的需求越來(lái)越凸顯[11-12]。人工智能技術(shù)(AI),基于人工智能神經(jīng)網(wǎng)絡(luò)技術(shù)的模式,可通過(guò)不斷提升神經(jīng)網(wǎng)絡(luò)復(fù)雜度和計(jì)算能力,解決疾病診斷中的醫(yī)療難題。從50年代后期,第一批人工智能醫(yī)療專家將AI引入到醫(yī)學(xué)診斷領(lǐng)域以來(lái),AI作為全球經(jīng)濟(jì)發(fā)展應(yīng)用最為廣泛的前沿交叉學(xué)科,將更先進(jìn)的計(jì)算方法引入組織學(xué)、細(xì)胞病理學(xué)、圖像細(xì)胞學(xué)和流式細(xì)胞學(xué)分析中,以減少研究者的工作量并減少偏差以加快分析,逐漸實(shí)現(xiàn)檢驗(yàn)學(xué)科標(biāo)準(zhǔn)化、自動(dòng)化和智能化發(fā)展質(zhì)的飛躍。如今AI已受到越來(lái)越多臨床實(shí)驗(yàn)室的關(guān)注[12-13]。本文將列舉近年來(lái)AI與FCM應(yīng)用方面的研究,以供研究者參考。
由于FCM數(shù)據(jù)的結(jié)構(gòu)化特點(diǎn),聚類、自動(dòng)分類和降維等數(shù)據(jù)自動(dòng)分析方法先后被提出,證明了FCM數(shù)據(jù)更適合應(yīng)用AI加以分析[14]。有學(xué)者[15]實(shí)驗(yàn)室回顧性分析了AI與FCM探索性研究,超過(guò)70.00%的分析方法側(cè)重于FCM數(shù)據(jù)的自動(dòng)門控,其中65.00%使用了無(wú)監(jiān)督學(xué)習(xí)算法,35.00%使用了監(jiān)督學(xué)習(xí)算法,只有少數(shù)研究專注于質(zhì)量控制和FCM數(shù)據(jù)的標(biāo)準(zhǔn)化的研究。
1.1應(yīng)用監(jiān)督學(xué)習(xí)技術(shù)自動(dòng)門控分析的探索 AI學(xué)習(xí)算法包括監(jiān)督學(xué)習(xí)算法和無(wú)監(jiān)督學(xué)習(xí)算法。監(jiān)督學(xué)習(xí)算法通過(guò)解釋變量與因變量之間的關(guān)系分析FCM數(shù)據(jù)的特點(diǎn),需要足夠大的樣本量獲取因變量的值,更適合用于分析大樣本量的數(shù)據(jù)。監(jiān)督學(xué)習(xí)算法的重點(diǎn)是分類,通常用于預(yù)估風(fēng)險(xiǎn)和建模,同時(shí)尋找未知的數(shù)據(jù)關(guān)系[16]。以下列舉了近年來(lái)一些應(yīng)用于FCM領(lǐng)域的監(jiān)督學(xué)習(xí)算法。
1.1.1支持向量機(jī)(SVM) SVM是一種用于解決分類問(wèn)題的監(jiān)督機(jī)器學(xué)習(xí)算法,也可用于回歸分析。SVM最適合用于小數(shù)據(jù)集的數(shù)據(jù)分析,且具有更高的精度。SVM能夠同時(shí)解決線性和非線性問(wèn)題,但非線性SVM性能優(yōu)于線性SVM。MORRIS等[17]最早在浮游植物分類的算法研究中,證明了SVM分類器的性能卓越。TOEDLING等[18]利用SVM技術(shù)對(duì)白血病細(xì)胞進(jìn)行自動(dòng)化檢測(cè),證實(shí)SVM分型方法可代替人工門控識(shí)別白血病細(xì)胞,靈敏度為99.78%,特異度為98.87%。
1.1.2決策樹(shù)(DTs) 靈敏DTs適用于問(wèn)題簡(jiǎn)單和數(shù)據(jù)集較小的數(shù)據(jù)分析。該算法在處理不平衡的數(shù)據(jù)集時(shí)存在過(guò)擬合問(wèn)題導(dǎo)致實(shí)驗(yàn)結(jié)果異常。SVENJA等[19]通過(guò)誘導(dǎo)DTs分析了6種具有復(fù)雜共表達(dá)模式的細(xì)胞因子細(xì)胞內(nèi)染色數(shù)據(jù)集,并根據(jù)數(shù)據(jù)的類概率進(jìn)行加權(quán),創(chuàng)建了13 392個(gè)不同的DTs。該研究首次成功地利用DTs的誘導(dǎo)來(lái)分析高通量FCM數(shù)據(jù),并證明了該方法揭示數(shù)據(jù)結(jié)構(gòu)模式的可行性。周麗娜等[20]以多維空間密度分布的非監(jiān)督學(xué)習(xí)分群聚類算法為基礎(chǔ),對(duì)FCM數(shù)據(jù)進(jìn)行聚類分析,應(yīng)用DTs和隨機(jī)森林等及監(jiān)督學(xué)習(xí)算法辨別細(xì)胞分類,并以二維圖、降維t-分布領(lǐng)域嵌入算法(t-SNE)和熱圖進(jìn)行可視化呈現(xiàn)。該研究建立了AI模型數(shù)據(jù)分析方法,分析了227例B-ALL MRD患者流式細(xì)胞數(shù)據(jù),提高了人工智能輔助FCM診斷微小殘留病的靈敏度和準(zhǔn)確度。
1.1.3分類樹(shù)和回歸樹(shù)(CARTs) CARTs是一個(gè)數(shù)據(jù)預(yù)測(cè)模型,根據(jù)所構(gòu)造的樹(shù)的現(xiàn)有值來(lái)預(yù)測(cè)輸出值。CARTs模型通常通過(guò)二進(jìn)制樹(shù)來(lái)表示。GAIDANO等[21]將1 465個(gè)B細(xì)胞非霍奇金淋巴瘤(B-NHL)樣本的數(shù)據(jù)庫(kù)分為兩組,75.00%的數(shù)據(jù)庫(kù)(訓(xùn)練集)用于生成分類樹(shù),而25.00%的數(shù)據(jù)庫(kù)(驗(yàn)證集)用于驗(yàn)證預(yù)測(cè)模型。應(yīng)用分類樹(shù)建立了4個(gè)人工預(yù)測(cè)系統(tǒng),可將B-NHL分為9種最常見(jiàn)的臨床病理類型。準(zhǔn)確率可達(dá)92.68%,平均靈敏度為88.54%,平均特異度為98.77%。
1.1.4邏輯回歸(LR) LR是一種用于機(jī)器學(xué)習(xí)領(lǐng)域的數(shù)學(xué)建模程序,通過(guò)LR模型的系數(shù)進(jìn)行計(jì)算和預(yù)測(cè)。MANNINEN等[22]基于“正則化的LR模型”對(duì)20例AML陽(yáng)性患者和160例健康者的DREAM6/FlowCAP2分子進(jìn)行分型,獲得了100.00%的準(zhǔn)確率。該方法可從不同細(xì)胞群和不同熒光標(biāo)記物的單個(gè)樣本中對(duì)AML分型并統(tǒng)計(jì)數(shù)據(jù)。NAKAMURA等[23]使用浸管試驗(yàn)和FCM檢測(cè)了372例門診膿尿和菌尿樣本,對(duì)FCM數(shù)據(jù)進(jìn)行多元LR分析,以年齡和性別為解釋變量,進(jìn)行散點(diǎn)圖分析,可計(jì)算概率預(yù)測(cè)公式。
1.1.5隨機(jī)森林(RF) RF是一種能夠進(jìn)行回歸和分類的趨勢(shì)機(jī)器學(xué)習(xí)技術(shù),其對(duì)噪聲不敏感,可用于分析不平衡的數(shù)據(jù)集。HENNIG等[24]研發(fā)了一套CellProfiler軟件,通過(guò)對(duì)成像流式細(xì)胞儀獲得的圖像數(shù)據(jù)進(jìn)行分析,使用梯度增強(qiáng)和隨機(jī)森林算法,形成一套對(duì)不同細(xì)胞類型、不同細(xì)胞周期階段,以及不同藥物作用下的細(xì)胞進(jìn)行自動(dòng)識(shí)別和分類的工作流程,具有較高的陽(yáng)性識(shí)別率。BURTON等[25]回顧性分析了212 554份尿液報(bào)告,比較了使用白細(xì)胞計(jì)數(shù)和細(xì)菌計(jì)數(shù)的啟發(fā)式模型,和使用機(jī)器學(xué)習(xí)算法(隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)、梯度增強(qiáng))兩種方法分類的差異,結(jié)果顯示使用機(jī)器學(xué)習(xí)算法檢測(cè)靈敏度>95.00%,可減少現(xiàn)有臨床檢測(cè)工作量密集的問(wèn)題。
1.1.6樸素貝葉斯(NB) NB是一種基于貝葉斯定理的二進(jìn)制分類算法,在應(yīng)用該算法時(shí),被分類的特征必須是相互獨(dú)立的。貝葉斯分類與SVM有點(diǎn)相似,但使用了統(tǒng)計(jì)學(xué)方法。輸入新的數(shù)據(jù)后計(jì)算概率值,數(shù)據(jù)將被標(biāo)記為給定輸入概率值的最高類別。RAJWA等[26]基于無(wú)限高斯混合物的非參數(shù)貝葉斯模型,使用了200個(gè)相關(guān)疾病的免疫表型panel進(jìn)行訓(xùn)練,應(yīng)用所建診斷模型,對(duì)36例AML病例進(jìn)行檢測(cè),復(fù)發(fā)病例的準(zhǔn)確率為90.00%(9/10),其余病例的準(zhǔn)確率達(dá)100.00%(26/26)。
1.1.7人工神經(jīng)網(wǎng)絡(luò)(ANN) ANN是一種基于圖像分類問(wèn)題開(kāi)發(fā)的一種監(jiān)督機(jī)器學(xué)習(xí)算法。DOMINGUEZ等[27]針對(duì)近年來(lái)臨床前列腺癌(PCa)篩查出現(xiàn)假陽(yáng)性的問(wèn)題,研究了一種液體活檢實(shí)驗(yàn),使用ANN輔助FCM進(jìn)行免疫表型分析來(lái)檢測(cè)PCa,測(cè)量了156例前列腺癌患者、123例良性前列腺增生(BPH)患者和99例男性健康供體(HD)的淋巴細(xì)胞群,采用模式識(shí)別神經(jīng)網(wǎng)絡(luò)(PRNN)分析,檢測(cè)PCa與HD的靈敏度為96.60%,特異度為87.50%,曲線下面積(AUC)值為0.97。檢測(cè)高危疾病患者患者對(duì)低危疾病的靈敏度為92.00%,特異度為42.70%,AUC為0.72。SU等[28]提出了一種基于涂片成像識(shí)別白細(xì)胞的分類系統(tǒng)。該系統(tǒng)通過(guò)提取白細(xì)胞的幾何特征、顏色特征和基于LDP的紋理特征,利用3種不同的神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別白細(xì)胞的類型。該研究使用了450張白細(xì)胞圖像驗(yàn)證該系統(tǒng)的有效性,總體正確識(shí)別率最高可達(dá)到99.11%。H?LLEIN等[29]報(bào)道了AI輔助多參數(shù)FCM診斷B細(xì)胞淋巴瘤的應(yīng)用進(jìn)展,該研究對(duì)比了7 784例B細(xì)胞淋巴瘤患者和8 493例健康對(duì)照者的流式細(xì)胞數(shù)據(jù),利用神經(jīng)網(wǎng)絡(luò)算法建立了疾病診斷模型,并使用10倍交叉驗(yàn)證對(duì)結(jié)果進(jìn)行確認(rèn),診斷準(zhǔn)確率高達(dá)97.00%。
1.2應(yīng)用無(wú)監(jiān)督學(xué)習(xí)技術(shù)自動(dòng)門控分析的初步探索 無(wú)監(jiān)督學(xué)習(xí)算法是一種數(shù)據(jù)挖掘的探索性分析方法,在因變量未知的情況下分析同一集群的變量,可應(yīng)用于數(shù)據(jù)集太大、太復(fù)雜而無(wú)法進(jìn)行手工分析時(shí),無(wú)監(jiān)督學(xué)習(xí)技術(shù)在數(shù)據(jù)中找到自然發(fā)生的模式并進(jìn)行分析嘗試,可判斷已識(shí)別的分類是否適用,這一過(guò)程使無(wú)監(jiān)督學(xué)習(xí)在精準(zhǔn)醫(yī)學(xué)中發(fā)揮重要作用。近年來(lái)參與流式細(xì)胞學(xué)智能化研究的無(wú)監(jiān)督技術(shù)包括K-means、高斯混合模型、分層聚類、圖像聚類、主成分分析法(PCA)等。
1.2.1分層聚類 分層聚類是對(duì)給定數(shù)據(jù)的集合進(jìn)行層次分解,根據(jù)分層分解確定需采用的分解策略。例如,模糊k-means、COOLCAT、聚類大型應(yīng)用(CLARA)和基于隨機(jī)搜索(CLARANS)的聚類等,都是常見(jiàn)的分層聚類算法。LI等[30]開(kāi)發(fā)了多重網(wǎng)絡(luò)對(duì)齊(PAC-MAN)技術(shù),對(duì)CyTOF數(shù)據(jù)中細(xì)胞群、樣本中的亞種群以及細(xì)胞狀態(tài)進(jìn)行快速自動(dòng)識(shí)別。PAC-MAN計(jì)算效率高,可用于非常大的CyTOF數(shù)據(jù)集,可監(jiān)測(cè)每個(gè)受試者的各種組織樣本,在臨床癌癥研究中被廣泛應(yīng)用。
1.2.2圖像聚類(GBC) 整個(gè)算法以各點(diǎn)之間的距離作為突破口,用于識(shí)別、劃分圖像數(shù)據(jù)集、組織導(dǎo)航等。超順磁聚類(SPC)、馬爾可夫聚類算法(MCL)、分子復(fù)雜檢測(cè)(MCODE)和限制鄰域搜索聚類(RNSC)是基于圖的聚類算法的常見(jiàn)例子。KO等[31]開(kāi)發(fā)了一種基于圖形用戶界面(GUI)的軟件工具(FLOW-MAP),從FCM或單細(xì)胞RNA測(cè)序?qū)嶒?yàn)中獲得高通量單細(xì)胞數(shù)據(jù)集(scRNAseq),并按時(shí)間順序?qū)D像進(jìn)行分析,得出可視化分析圖像。研究者同時(shí)提供了FLOW-MAP算法和如何通過(guò)文本的命令使用開(kāi)源的R包FLOWMAPR。該方法可應(yīng)用于許多研究領(lǐng)域,如體外干細(xì)胞分化、體內(nèi)發(fā)育、腫瘤發(fā)生、耐藥性和細(xì)胞信號(hào)動(dòng)力學(xué)。
1.2.3密度聚類(DBC) DBC使用局部密度準(zhǔn)則,具有效率高和尋找任意形狀簇的能力。YU等[32]研究者開(kāi)發(fā)了一種基于密度的聚類方法,即FLOCK程序,通過(guò)一種客觀的計(jì)算方法,識(shí)別多參數(shù)FCM中細(xì)胞子集。其可識(shí)別人類外周血樣本中的17個(gè)不同的B細(xì)胞亞群,并識(shí)別和量化對(duì)破傷風(fēng)和其他疫苗接種有短暫應(yīng)答的新漿母細(xì)胞亞群。
1.2.4高斯混合模型(GMM) GMV是一種業(yè)界廣泛使用的聚類算法,該方法使用了高斯分布作為參數(shù)模型,并使用了期望最大(EM)算法進(jìn)行訓(xùn)練。其利用混合分布對(duì)FCM數(shù)據(jù)進(jìn)行建模,是最常用的聚類方法,但該模型在FCM數(shù)據(jù)建模時(shí)都應(yīng)遵循高斯分布的假設(shè)。K-means算法可以被看作是GMM的一種特殊形式。RUBBENS等[33]提出了一種基于高斯混合模型的自動(dòng)指紋識(shí)別方法(PhenoGMM)。該方法成功地對(duì)微生物群落結(jié)構(gòu)的變化進(jìn)行定量篩選,并可表達(dá)細(xì)胞學(xué)的多樣性。該文利用生態(tài)系統(tǒng)的數(shù)據(jù)集來(lái)評(píng)估PhenoGMM的性能,并將該方法與通用的指紋識(shí)別方法進(jìn)行了比較。NAIM等[34]提出了可擴(kuò)展加權(quán)迭代方法,該方法以高斯混合模型為核心,實(shí)現(xiàn)了樣本數(shù)量稀少類群的準(zhǔn)確分析。 王先文等[35]提出了基于偏斜t分布的混合模型聚類方法以概率論的方法對(duì)數(shù)據(jù)進(jìn)行分析,實(shí)現(xiàn)了細(xì)胞的自動(dòng)設(shè)門,具有較好的魯棒性。
1.2.5PCA PCA是應(yīng)用最廣泛的無(wú)監(jiān)督算法之一,其是一種常用的數(shù)據(jù)降維方法。它可以通過(guò)線性變換將原始數(shù)據(jù)變換為一組各維度線性無(wú)關(guān)的表示,以此來(lái)提取數(shù)據(jù)的主要線性分量。GRéGOTI等[36]利用PCA處理光譜流式細(xì)胞儀的多維實(shí)驗(yàn)數(shù)據(jù),實(shí)現(xiàn)了對(duì)光譜流式細(xì)胞數(shù)據(jù)的自動(dòng)分群。馬閃閃等[37]提出的核主成分分析法更適合對(duì)數(shù)據(jù)的非線性特征進(jìn)行提取,對(duì)數(shù)據(jù)進(jìn)行降維,得到核主成分變量,使用最能體現(xiàn)不同亞群細(xì)胞之間差別的主成分變量作為坐標(biāo)軸,繪制二維或三維散點(diǎn)圖,提高細(xì)胞分群效率。
我國(guó)基于AI輔助FCM進(jìn)行疾病診斷的研究起步較晚。美國(guó)和英國(guó)等發(fā)達(dá)國(guó)家已經(jīng)搭建了成熟的數(shù)據(jù)共享平臺(tái),并建立完善的數(shù)據(jù)標(biāo)準(zhǔn)體系[38]。國(guó)內(nèi)部分第三方醫(yī)學(xué)實(shí)驗(yàn)室已初步制定了人工智能發(fā)展目標(biāo),努力打造醫(yī)療大數(shù)據(jù)共享平臺(tái)的發(fā)展方向。但在兩種快速發(fā)展的技術(shù)齊頭并進(jìn)時(shí),可能會(huì)面臨諸多挑戰(zhàn)。
目前AI學(xué)習(xí)算法的數(shù)據(jù)訓(xùn)練所需的臨床數(shù)據(jù)還面臨互通和共享問(wèn)題,以及檢測(cè)平臺(tái)、檢測(cè)流程、檢測(cè)試劑的差異化問(wèn)題。同時(shí),無(wú)論是研究開(kāi)發(fā)領(lǐng)域,還是應(yīng)用落地領(lǐng)域,需要具備醫(yī)學(xué)診斷學(xué)、流式細(xì)胞學(xué)和AI的復(fù)合型人才,是目前研究者面臨的主要瓶頸。除此之外,研究者在自動(dòng)化門控算法上的研究日趨加深,不僅嘗試開(kāi)發(fā)不同算法,而且從單一數(shù)據(jù)分析方法擴(kuò)展到幾種算法結(jié)合分析,成功應(yīng)用于臨床疾病診斷的實(shí)例屢見(jiàn)不鮮。但目前仍存在算法局限性、低透明度,缺乏安全性、有效性的權(quán)威評(píng)估標(biāo)準(zhǔn)等諸多問(wèn)題。未來(lái)AI與FCM的成果在臨床投入應(yīng)用,還需要AI專家與醫(yī)療專家共同融合與探討。
隨著大數(shù)據(jù)、互聯(lián)網(wǎng)、AI等前沿領(lǐng)域的技術(shù)整合和技術(shù)革新,人工智能以前所未有的速度滲透到FCM疾病診斷領(lǐng)域,已經(jīng)取得了顯著的進(jìn)步。未來(lái)人工智能領(lǐng)域與FCM的融合發(fā)展,仍有待進(jìn)一步開(kāi)發(fā),在研發(fā)與臨床應(yīng)用過(guò)程中,越來(lái)越多的問(wèn)題亟待解決,包括人工智能輔助產(chǎn)品應(yīng)用范圍受限,人工智能輔助產(chǎn)品的開(kāi)發(fā)周期長(zhǎng),對(duì)資源、人才、條件的依賴度高。人工智能技術(shù)的革新,勢(shì)必將帶來(lái)一場(chǎng)全新的疾病診斷新模式,為患者提供更加準(zhǔn)確和快捷的診斷方法。