秦明麗,王定玉,王 旗,李武志,王 琴
(四川省婦科及乳腺疾病治療中心/西南醫科大學附屬醫院婦科,四川 瀘州 646000)
卵巢癌(ovarian cancer)是女性生殖系統三大惡性腫瘤之一,其死亡率高居婦科惡性腫瘤之首[1]。據統計,2017 年全球新發卵巢癌病例22.4 萬,其中14.1 萬患者因該病死亡[2],而我國年新發卵巢癌5.2萬,死亡病例高達2.3 萬[3]。由于卵巢位于盆腔深處,部位隱蔽且患者臨床癥狀不典型,故確診時多為中晚期。研究表明,Ⅱ~Ⅳ期卵巢癌患者5 年生存率僅為15%~45%,而Ⅰ期患者5 年生存率高達90%[4],故早期、及時診斷對提高患者生存率至關重要。血清腫瘤標志物具有微創、多次采集、快速檢測等諸多優點,其中癌胚抗原(CEA)、糖類抗原-125(CA125)和β 人絨毛膜促性腺素(β-HCG)已廣泛用于卵巢的鑒別診斷、療效判斷和預后評估。本研究在參考血清CA125、CA153 和HCG 等用于鑒別診斷卵巢癌及卵巢良性疾病患者的基礎上[5-7],從卵巢腫瘤既往 血 清CEA、甲 胎 蛋 白(AFP)、CA125、CA153、CA199,CA724 及β-HCG 等多項腫瘤標志物出發,集主成分分析(PCA)、多層感知器(MPL)及人工神經網絡(ANN)等機器學習模型,試為卵巢腫瘤良惡性鑒別診斷提供便利的決策支持,現報道如下。
1.1 一般資料 回顧性分析西南醫科大學附屬醫院2013 年1 月28 日~2014 年12 月30 日門診及住院的132例卵巢癌患者及211例卵巢良性腫瘤患者紙質及電子病歷信息,并對患者血清CEA、CA125、CA153、CA199、CA724 及β-HCG 等8 項腫瘤標志物測定結果進行分析。卵巢癌患者經病理或影像確診,年齡21~77 歲,其中Ⅰ~Ⅱ期14例,Ⅲ~Ⅳ期60例,未分期58例;漿液性卵巢癌47例,粘液性卵巢癌32例,未分型53例。排除其他惡性腫瘤疾病(或轉移性腫瘤)、肝、腎功能顯著異常、心肺功能不全、盆腔炎,高血壓及糖尿病等患者。參照《體外診斷試劑臨床研究指導原則》中客觀上不可能獲得受試者知情同意或該臨床研究對受試者幾乎沒有風險,可以不提交倫理委員會的審核意見及受試者的知情同意書進行。
1.2 儀器與檢測方法 所有患者在診斷及放化療前空腹采血3~5 ml 后,盡快離心分離血清檢測。采用日本東曹AIA2000 化學發光儀及配套試劑在質控在控下按標化操作規程操作。各項血清參考區間分別為AFP:0~10.0 ng/ml,CEA:0~6.0 ng/ml,CA125:0~35.0 IU/ml,CA153:0.31~23.0 IU/ml,CA724:0.21~6.0IU/ml,SCCA:0.011~2.5 IU/ml,CA199:0~37.0 IU/ml,β-HCG:0~3.0 mIU/ml。
1.3 PCA 模型的建立 以卵巢癌及卵巢良性腫瘤患者間有統計學差異的腫瘤標志物建立PCA 模型,將上述血清腫瘤指標進行降維處理,利用Z 分標準化數據后通過正交變換把相關的高維指標綜合成少數幾個不具相關性的新變量,提取主成分(P),在保留原來指標的大部分信息后又簡化了數據結構,便于在低維度下建立疾病診斷模型。PCA 模型采用協方差矩陣進行PCA 分析,基于特征值大小提取PCA 并建立基于各指標的前三個PCA(P1~P3)的線性方程。
1.4 PCA-MPL-ANN 模型的建立 以提取的前三個主成分(P1~P3)建立基于PCA-MPL-ANN 模型,以概率P>0.50 診斷為卵巢癌,反之為卵巢良性疾病。計算該模型的隱含層、訓練時間,并隨機選取70%個體為訓練集,30%個體為測試集進行預測,計算診斷及預測正確率及PCA-MPL-ANN 模型的ROC 曲線下面積(AUC)。
1.5 統計學方法 采用SPSS 17.0 軟件進行統計學分析,血清8 項腫瘤標志物水平均呈偏態分布,以中位數和四分位數間距表示[M(P25,P75)],兩組比較采用獨立樣本的秩和檢驗,診斷價值采用受試者工作特征(ROC)曲線分析,P<0.05 表示差異有統計學意義。
2.1 卵巢癌與卵巢良性腫瘤患者血清8 項指標比較卵巢癌患者血清AFP、CEA、CA125、CA153、CA724及β-HCG 水平均高于卵巢良性腫瘤患者,差異有統計學意義(P<0.05),見表1。

表1 卵巢癌與卵巢良性腫瘤患者血清8 項指標比較[M(P25,P75)]
2.2 卵巢癌與卵巢良性腫瘤患者血清8 項指標ROC曲線分析 兩類患者的AFP、CEA、CA125、CA153、CA724 及β-HCG 的AUC 比較,差異有統計學意義(P<0.05),其中β-HCG 最高(AUC=0.748),其次為CA153(AUC=0.680)及CA125(AUC=0.613),見表2。

表2 血清腫瘤標志物診斷卵巢癌與卵巢良性腫瘤的效能
2.3 PCA 分析 共提取3 個主成分(P1~P3),表達式如下:P1=-0.103AFP-0.199CEA+0.723CA125+0.40CA153 +0.423CA724 +0.659β -HCG;P2=0.501AFP -0.092CEA -0.341CA125 -0.580CA153 +0.584CA724+0.402β-HCG;P3=0.452AFP+0.808CEA+0.007CA125+0.271CA153-0.15CA724+0.238β-HCG。其中P1主要反映CA125、CA153 和β-HCG 特征,可歸納為婦科腫瘤標志物及激素水平,P2主要反映CA724、AFP 特征,歸納為腫瘤的胃及肝臟轉移,P3主要反映CEA 特征,即存在惡性腫瘤,見表3。

表3 前三個主成分對應的特征向量
2.4 PCA-MPL-ANN 模型分析 該模型的隱含層數為1,訓練時間為0∶00∶00∶120,訓練集為251 人,測試集為92 人。該模型對卵巢癌及卵巢良性疾病的診斷正確率分別為66.33%(67/101)和92.00%(138/150),預測正確率分別為67.74%(21/31)及83.61%(51/61),見圖1。以建立的PCA-MPL-ANN 模型繪制ROC 曲線,該模型的診斷效能較高(0.838),AUC優于β -HCG、CA153 及CA125 (0.748 >0.680 >0.613),敏感性和特異性分別為72.60%和88.90%,見圖2。

圖1 PCA-MPL-ANN 模型及CA125、CA153及β-HCG 的ROC 曲線
卵巢癌是最致命的婦科腫瘤,腹痛、腹部增大、腹脹或惡心等癥狀通常是非特異性的,直到疾病發展晚期才出現,導致診斷延遲[8]。陰道超聲和血清CA125 篩查是常用的卵巢癌篩查技術,但敏感性和特異性均不太理想[9]。臨床上,聯合多指標進行分析是卵巢癌常用的輔助手段,但傳統的并聯試驗在提高診斷敏感性的同時,降低了特異性,而串聯實驗則在提升特異性的同時降低了敏感性,兩者均不能較好地對未知患者進行預測分析。因此,尋找更多的腫瘤標志物聯合檢測新模式,成為提升診斷效能和進一步診斷和預測分析的突破口[10]。
近年來,人工智能和機器學習算法的蓬勃發展為分析復雜的生物數據集提供新的方法[11]。人工神經網絡(ANN)作為機器學習領域最經典及最活躍的方法,通過模仿人腦神經元的拓撲結構建立的計算機學習網絡系統,可以解決復雜的非線性映射問題而廣受關注[12]。張桐碩等[9]研究發現,采用誤差負反饋(BP)-ANN 模型綜合腫瘤標志物、血細胞分析、性激素等6 類共計28 項實驗室檢測指標能很好地鑒別診斷卵巢癌、其他惡性婦科腫瘤、卵巢良性疾病及正常對照人群,其AUC、敏感性和特異性分別為0.948,91.9%和86.9%。本研究采用PCA 提取6 項卵巢癌及卵巢良性腫瘤患者間存在差異的腫瘤標志物,建立PCA 及PCA-MPL-ANN 模型,通過PCA 降維處理,將6 維空間的數據形象、直觀地展現在三維空間,從婦科腫瘤標志物、激素水平、胃腸及肝臟轉移等多方面揭示了數據規律。借助PCA-MPL-ANN模型能較好地鑒別診斷卵巢癌及卵巢良性疾病,該模型診斷的AUC、敏感性和特異性分別為0.838,72.60%和88.90%。由于本研究僅納入6 項有統計學差異的腫瘤標志物,故診斷效能較張桐碩等[9]相關報道低。因此,本研究也提示僅采用現有腫瘤標志物建立機器學習模型診斷效能有限,需要探索和挖掘更多有價值的標志性建立診斷和預測模型,提高診斷效能。

圖2 基于PCA-MPL-ANN 模型的卵巢癌及卵巢良性腫瘤的概率分布
大數據時代,由于海量的數據信息不斷產生,基因組學、蛋白組學及代謝組學等大樣本數據信息為機器學習模型精準鑒別診斷卵巢癌提供了極大的機遇,但需要昂貴的儀器設備及有經驗技術人員且尚未形成像常規檢驗項目的流水線檢測。因此,借助簡便、易得的血清腫瘤標志物、血常規及生化指標建立機器學習診斷和預測模型值得探索研究。由于本研究中CA125 在卵巢癌患者中表達不明顯,單項指標β-HCG、CA153 及CA125 的 診 斷 效 能 在0.613~0.748,故該模型也較好地彌補了CA125 對卵巢癌早期診斷能力的不足。盡管如此,本研究納入人群及血清腫瘤標志物項目類型有限,尚需要大樣本驗證分析,使結論更嚴謹、可靠。
綜上,PCA-MPL-ANN 模型可有效提升卵巢癌的診斷效能,取得了較好的效果,為卵巢癌的智能化輔助診斷提供了新思路。