張萍萍,張建華,尹咪咪
鄭州大學電氣工程學院 鄭州 450001
?
血清標記物檢測結合智能算法在胃癌診斷中的應用*
張萍萍,張建華#,尹咪咪
鄭州大學電氣工程學院 鄭州 450001
關鍵詞胃癌;血清標記物;ROC曲線;BP算法;支持向量機
摘要目的:基于智能算法建立胃癌的輔助診斷模型。方法:以經病理學確診的156例胃癌患者為胃癌組,以150例消化道良性病變患者和健康體檢者為對照組,檢測其血清中11種標記物的含量,通過比較ROC曲線下面積篩選出9種血清標記物,分別應用BP算法和支持向量機算法建立胃癌的數學輔助診斷模型,并通過40例測試集評價其效果。結果:成功建立了2種不同的胃癌輔助診斷模型,其中BP算法建立的診斷模型診斷準確率、敏感性、特異性分別為82%、85%、80%,支持向量機診斷模型的診斷準確率、敏感性、特異性分別為90%、95%、85%。結論:支持向量機診斷模型的診斷準確率、敏感性及特異性相對較高,對胃癌的早期預測及診斷有重要的參考價值。
Application of serum markers combined detection with intelligence algorithm in diagnosis of gastric cancer
ZHANGPingping,ZHANGJianhua,YINMimi
SchoolofElectricalEngineering,ZhengzhouUniversity,Zhengzhou450001
Key wordsgastric cancer;serum marker;ROC curve;BP algorithm;support vector machine
AbstractAim: To establish an assistant diagnostic model of gastric cancer on the basis of intelligence algorithm and evaluate its efficiency. Methods: A total of 156 gastric cancer patients confirmed by pathology were enrolled as case group, other 150 patients with benign digestive disease or the healthy individuals were treat as control group. The level of eleven serum markers were tested, respectively, and nine of them were selected according to their area under the ROC curves.Then the mathematical assistant diagnostic models which based on the BP algorithm and support vector machine were established, meanwhile, forty test sets were run to evaluate their efficiency. Results: Two kinds of different assistant diagnostic models of gastric cancer were established, among which the accuracy, sensitivity and specificity of the model based on BP algorithm were 82%, 85%, 80%, respectively, and those of the model based on support vector machine were 90%, 95%, 85%. Conclusion: The model on the basis of support vector machine has a relatively high accuracy, sensitivity and specificity, which means that has vital reference value to the early stage prediction and diagnosis of gastric cancer.
胃癌的病死率和發病率位居全球惡性腫瘤前列,嚴重威脅人們的健康[1]。胃鏡及病理學檢查是胃癌診斷的金標準,但其屬于有創檢查,不能大規模應用。近年來,血清標記物檢測作為一種無創檢查,在臨床應用上飛速發展,已被廣泛應用于胃癌、肝癌、肺癌等的診斷。由于單一標記物診斷敏感性、特異性較低,臨床上常檢測多種血清標記物來進行診斷分析[2-3]。但是,檢測的標記物越多,費用越高,如何選取最優檢測組合,節省人力、物力、財力并取得最優結果,是一個迫切需要解決的問題。作者分別采用BP算法和支持向量機建立胃癌輔助診斷模型,比較模型的優劣,從而為腫瘤普查及臨床醫生提供一個方便的工具。
1對象與方法
1.1研究對象156例胃癌患者血清均取自2013年6月至2015年1月在鄭州市中心醫院住院的患者,均經手術治療,并經病理學檢查確診;其中男98例,女58例,年齡32~75(49.7±9.8)歲。對照組血清取自同期來醫院體檢的56例消化道良性病變患者和94例健康體檢者,其中男79例,女71例,年齡30~70(45.6±8.5)歲;均經胃腸鏡、胸片、腹部B超等檢查排除其他部位腫瘤。
1.2取樣與血清標記物測定方法胃癌組患者均在術前3 d內取清晨空腹肘靜脈血5 mL,對照組于同期空腹抽取靜脈血5 mL,3 000 r/min 離心20 min,取上清液,于-20 ℃冰箱保存。
應用ELISA法測定血清AFP、NSE、CYFRA211、TSGF和CA724的水平,所用儀器為BIORAD 550型酶標儀(美國),試劑盒購自R&D Systems公司。血清CEA、CA242、CA125、CA153和CA199水平測定采用全自動電化學發光免疫分析法,儀器為瑞士羅氏公司的E170分析儀,試劑盒為其配套的試劑盒。血清CRP水平測定采用免疫透射比濁法,儀器為貝克曼庫爾特AU5800全自動生化儀。操作步驟均嚴格按照說明書進行。
1.3統計學處理采用SPSS 19.0進行數據分析,2組間血清CEA、AFP、CA242、CA125、CA153、CA199、NSE、CYFRA211、CA724、TSGF、CRP水平的比較均采用兩獨立樣本的t檢驗。之后采用MedCalc繪制ROC曲線,計算曲線下面積(area under curve,AUC)以評價各血清標記物與胃癌的相關性,從而篩選出相關性高的血清標記物以進行下一步工作。檢驗水準α=0.05。
1.4BP神經網絡對篩選出來的血清標記物運用BP算法建立胃癌的數學診斷模型,將結果分為對照組和胃癌組,分別為0和1,隨后將每個類別分為2組,重新組合數據,一組作為訓練集,包括136例胃癌患者和130例消化道良性病變患者及健康體檢者,另一組作為測試集,包括剩余的20例胃癌患者和20例消化道良性病變患者及健康體檢者。利用MATLAB建立一個單隱層的3層BP網絡模型,在訓練過程中設置以下幾個參數:輸入層函數、輸出層函數、訓練函數。該研究采用的輸入層到隱層轉換函數為tansig;隱層到輸出層參考轉換函數為logsig或purelin;該研究擬采用的訓練函數為trainrp和trainoss 2種。此外,該模型共有9個輸入參數,故輸入層節點為9。網絡輸出層節點數為1。因1個隱層完全可以實現任意判決分類問題,所以該研究選用1個隱層;由于目前尚未形成普遍適用的確定隱層節點數的理論,且一般認為隱層節點數大小在輸入層節點數和輸出層節點數之間,因此在模型訓練中通過預試驗進行試湊進而確定其數目,最終發現設置隱層節點為4時可以達到較好的效果。訓練次數閾值為1 000,精確度為0.001。在BP網絡訓練時,使用不同的參數組合會達到不同的效果,該研究分別將輸入層函數、輸出層函數及訓練函數的幾個參數進行了交叉組合,采用各種組合對訓練樣本進行訓練并得出效果最好的組合。
1.5支持向量機同時對篩選出來的血清標記物運用支持向量機算法建立胃癌的分類模型,同BP網絡模型的建立過程一樣,結果為對照組和胃癌組,分別為0和1,訓練集為選取的136例胃癌患者和130例消化道良性病變患者及健康體檢者,測試集為剩余的20例胃癌患者和20例消化道良性病變患者及健康體檢者。以血清標記物特征向量作為輸入向量,以結果分類為輸出向量,利用支持向量機分類器建立分類模型。
2結果
2.12組血清標記物水平測定結果見表1。

表1 2組血清標記物水平比較
2.2各血清標記物的ROC曲線分析結果見圖1、 2和表2。從表2可以看出,AFP與NSE的AUC最低,均小于0.7,因此選用其余9種AUC較高的血清標記物作為進一步工作的輸入變量。

圖1 各血清標記物的ROC曲線(1)

圖2 各血清標記物的ROC曲線(2)

血清標記物CEAAFPCA242CA125CA153CA199NSECYFRA211CA724TSGFCRPAUC0.8490.6980.9180.8690.9020.8780.6420.7760.8650.9060.90695%CI0.798~0.8920.636~0.7550.877~0.9500.820~0.9090.857~0.9360.831~0.9170.578~0.7020.719~0.8270.816~0.9060.862~0.9400.862~0.940
2.3BP算法模型最終選定的參數組合為:輸入層激勵函數為tansig、輸出層激勵函數為purelin、訓練函數為trainrp,隱層節點數為4,誤差閾值為0.001,訓練次數閾值為1 000,輸出結果以0.5為閾值,輸出值>0.5的模型識別為胃癌患者,輸出值≤0.5的模型識別為健康人或消化道良性病變患者。仿真結果見圖3。
2.4支持向量機模型將40例測試樣本輸入到支持向量機模型進行訓練及仿真,仿真結果見圖4。可以看出,支持向量機模型仿真測試結果和實際病理結果擬合程度較高,效果較理想。

○:實際結果輸出;*:BP算法模型的仿真輸出。圖3 BP算法模型仿真測試結果

○:實際結果輸出;*:支持向量機模型的仿真輸出。圖4 支持向量機模型仿真測試結果
2.52種模型的診斷效果比較BP算法對測試集的診斷準確率為82%,敏感性為85%,特異性為80%;而支持向量機的診斷準確率則為90%,敏感性為95%,特異性為85%。可知,支持向量機的診斷敏感性及特異性均高于BP算法。
3討論
胃癌病死率較高,早期發現和早期治療是降低胃癌病死率最有效的手段之一[4-5]。血清標記物檢測為早期發現腫瘤并判斷其良惡性提供了一種很好的輔助手段,目前已在臨床得到廣泛應用。其中,常用的標記物有CA199、CA724以及CEA等[6],但單項指標存在特異性低、準確率低等問題,因此常采用多種標記物聯合檢測以提高其診斷準確率。
CA242是一種唾液酸化的鞘糖脂抗原,有研究[7]表明胃癌患者血清CA242水平明顯升高,與該研究結果一致,可作為判斷胃癌的一種血清學指標。CYFRA211常作為診斷非小細胞肺癌的腫瘤標記物,該研究中發現胃癌患者血清CYFRA211水平較對照組顯著升高,具有一定的臨床研究價值。CRP作為一種急性時相反應蛋白,在正常情況下含量極少,但感染、炎癥以及腫瘤患者的水平急劇升高,高水平的CRP往往預示著腫瘤的轉移擴散[8]。TSGF能刺激細胞分泌促血管生成因子,促進胃惡性腫瘤血管的生成,具有鑒別癌與非癌的能力[9]。CA125與CA153作為常用的腫瘤標記物,在癌癥患者體內的水平較正常人顯著升高。該研究通過ROC曲線篩選出9種標記物(CEA、CA242、CA125、CA153、CA199、CYFRA211、CA724、TSGF、CRP)。
BP算法是一種非線性模式分類器,具有一定的泛化能力,對于未學習的樣本具有很好的分類能力。但BP算法需要人為設置大量的網絡訓練參數,并且很容易產生局部最優解[10],而且網絡隱層的層數和節點數的選擇尚無理論上的指導,一般是根據經驗或者通過反復試驗確定,因此,網絡往往存在大量的冗余性,在一定程度上也增加了網絡學習的負擔。支持向量機在解決小樣本、非線性和高維模式識別問題中表現出許多特有的優勢,并在很大程度上克服了“維數災難”和“過學習”等問題[11]。支持向量機是機器學習中較為先進的學習方法,但在結合血清標記物進行癌癥診斷方面的應用還很少。
BP算法和支持向量機均屬于人工神經網絡范疇,是幾年來迅速發展的交叉學科,由于其強大的功能,已被廣泛應用于信號處理、模式識別等方面,在腫瘤的識別上也得到了越來越多的肯定[12-13]。該研究篩選出的9種血清標記物是目前判別胃部腫瘤良、惡性以及預測胃癌發生最常見的指標,是目前臨床醫生診斷的主要依據。該研究以9種血清標記物為基礎,通過對基于BP神經網絡和支持向量機建立的2種診斷模型進行比較分析,結果表明基于支持向量機建立的診斷模型的診斷準確率達到90%,敏感性及特異性分別為95%、85%,均高于基于BP神經網絡建立的診斷模型,更適用于臨床。
支持向量機作為一種輔助診斷工具,屬于計算機輔助診斷的范疇,尚不能完全代替臨床醫師的診斷[14-15],但在胃癌的預測診斷方面具有重要的意義。
參考文獻
[1]BERTAZZA L,MOCELLIN S,MARCHET A,et al.Survivin gene levels in the peripheral blood of patients with gastric cancer independently predict survival[J].J Transl Med,2009,7:111
[2]王洋,王歡,莫佳美,等.血清腫瘤標志物在胃癌診斷中的價值[J].現代腫瘤醫學,2014,22(4):883
[3]馮志軍,彭玉林,張婕.血清腫瘤標記物聯合檢測在胃癌診斷中的應用價值[J].醫藥論壇雜志,2011,32(23):98
[4]景曉剛,王貴吉,裴迎新,等.胃癌患者血脂、脂蛋白、血清CEA及CA199檢測[J].鄭州大學學報(醫學版),2011,46(3):432
[5]沈潔,馮常煒,郝炳章,等.血清中miR-21和let-7a在胃癌無創性診斷及手術效果評定中的作用[J].鄭州大學學報(醫學版),2012,47(5):722
[6]王俊峰,馮常煒,蔣爽.多項腫瘤標記物聯合檢測對胃癌的診斷價值[J].中國衛生產業,2013,9(26):116
[7]韓娟,高純,任傳路.聯合檢測血清中腫瘤標記物對胃癌的診斷價值[J].醫藥前沿,2012,2(2):222
[8]王彩玲,王俊生.血清C反應蛋白測定在晚期胃癌患者中的臨床意義分析[J].中國實用醫藥,2014,4(11):31
[9]鄭加榮,張敏,徐日,等.腫瘤標記物聯合動態監測在胃癌診斷和監控治療中的臨床應用[J].中華臨床醫師雜志:電子版,2015,3(3):382
[10]BURDEN F,WINKLER D.Bayesian regularization of neural networks[J].Methods Mol Biol,2008,458:25
[11]丁世飛,齊丙娟,譚紅艷.支持向量機理論與算法研究綜述[J].電子科技大學學報,2011,40(1):1
[12]LEBRECHT A,BOEHM D,SCHMIDT M,et al.Surface-enhanced laser desorption/ionisation time-of-flight mass spectrometry to detect breast cancer markers in tears and serum[J].Cancer Genomics Proteomics,2009,6(2):75
[13]CARON J,MANGé A,GUILLOT B,et al.Highly sensitive detection of melanoma based on serum proteomic profiling[J].J Cancer Res Clin Oncol,2009,135(9):1257
[14]HARDERS SW.LUCIS:lung cancer imaging studies[J].Dan Med J,2012,59(11):B4542
[15]ELLIS MC,HESSMAN CJ,WEERASINGHE R,et al.Comparison of pulmonary nodule detection rates between preoperative CT imaging and intraoperative lung palpation[J].Am J Surg,2011,201(5):619
中圖分類號R735.2
#通信作者,男,1971年9月生,副教授,博士,研究方向:生物醫學信息的采集、分析及處理,E-mail:petermails@163.com
doi:10.13705/j.issn.1671-6825.2016.02.015
*國家自然科學基金青年基金資助項目813D3150;中國中醫藥行業科研專項基金資助項目201007001