譚善娟,余春華,王 威,吳擁軍#,吳逸明
1)鄭州大學公共衛生學院衛生毒理學教研室鄭州 450001 2)鄭州大學第五附屬醫院呼吸內科鄭州 450052
#通訊作者,男,1968年1月生,博士,教授,研究方向:肺癌的病因學、預防、早期診斷和綜合治療,E-mail:wuyongjun@zzu.edu.cn
基于人工神經網絡的腫瘤標志蛋白芯片在肺癌輔助診斷中的應用*
譚善娟1),余春華2),王 威1),吳擁軍1)#,吳逸明1)
1)鄭州大學公共衛生學院衛生毒理學教研室鄭州 450001 2)鄭州大學第五附屬醫院呼吸內科鄭州 450052
#通訊作者,男,1968年1月生,博士,教授,研究方向:肺癌的病因學、預防、早期診斷和綜合治療,E-mail:wuyongjun@zzu.edu.cn
肺癌;人工神經網絡;腫瘤標志;蛋白芯片;診斷
目的:應用人工神經網絡技術,聯合腫瘤標志蛋白芯片對肺癌及肺良性疾病進行診斷,建立腫瘤標志蛋白芯片聯合人工智能的輔助診斷模型。方法:收集有腫瘤標志蛋白芯片檢測記錄的肺癌和肺良性疾病患者共102例,其中肺癌50例,肺良性疾病52例。利用人工神經網絡技術,對9項指標進行聯合檢測,建立基于人工神經網絡的腫瘤標志蛋白芯片智能診斷模型。結果:人工神經網絡模型、判別分析和蛋白芯片檢測系統對肺良性疾病和肺癌識別的準確度分別為88.0%、64.0%和60.0%,人工神經網絡模型的ROC曲線下面積0.878,準確度較好,而判別分析模型的ROC曲線下面積(0.635)和腫瘤標志聯合檢測的ROC曲線下面積(0.596)均<0.7,準確度較差。結論:人工神經網絡聯合多腫瘤標志蛋白芯片檢測系統建立的模型可以很好地區分肺癌和肺良性疾病,對肺癌的診斷和鑒別診斷效果優于判別分析和蛋白芯片檢測系統。
肺癌的起病比較隱匿,當出現典型癥狀時往往已到中晚期,預后極差。早期診斷和及時治療是提高肺癌患者生存率的關鍵。多腫瘤標志蛋白芯片檢測系統以高通量、高靈敏度、高特異性、低花費等優點被廣泛用于臨床輔助診斷[1]。但腫瘤標志的聯合檢測在提高診斷陽性率的同時也會帶來大量的研究參數,一般的統計學方法很難對復雜的參數問題作出正確判斷。人工神經網絡(artificial neural net-work,ANN)是一種新型智能化信息處理系統,非常適用于醫學中模式識別與分類。該研究通過收集有腫瘤標志蛋白芯片檢測結果的肺癌和肺良性疾病患者的資料,聯合建立ANN模型和判別分析模型,探討這2種檢測技術對肺癌的輔助診斷意義。
1.1 研究對象 收集鄭州大學第五附屬醫院2010年5月至12月有腫瘤標志蛋白芯片檢測記錄的肺癌和肺良性疾病住院患者102例,腫瘤標志檢測均經患者同意。其中肺癌患者50例,均經病理學或細胞學證實為原發性肺癌,小細胞肺癌(small cell lung cancer,SCLC)10例,腺癌17例,鱗狀細胞癌17例,大細胞癌6例;Ⅰ期7例,Ⅱ期11例,Ⅲ期13例,Ⅳ期19例;年齡(65.9±12.6)歲;男38例,女12例。肺良性疾病患者52例,均未合并肺或其他器官腫瘤,年齡(63.9±16.1)歲;男35例,女17例;其中肺炎30例,慢性阻塞性肺疾病7例,支氣管擴張4例,肺間質纖維化4例,結核3例,其他4例。
1.2 腫瘤標志蛋白芯片檢測方法 空腹抽取2 mL肘靜脈血,離心后分離血清,置凍存管內密封,-80℃保存備用,并在4 d內完成檢測。所有研究對象的血清腫瘤標志檢測操作由專職人員嚴格按照湖州數康生物科技有限公司的多腫瘤標志蛋白芯片檢測試劑盒說明書進行操作。
1.3 檢測項目的陽性判斷標準 陽性臨界值如下: CEA>5 μg/L,CA19-9>35 kU/L,NSE>13 μg/L,CA242>35 kU/L,CA153>35 kU/L,CA125>35 kU/ L,AFP>20 μg/L,鐵蛋白(SF)>322 μg/L(男)及>219 μg/L(女),HGH>7.5 μg/L;1項或1項以上腫瘤標志的檢測值高于正常值視為陽性。
1.4 訓練和測試集選擇 隨機選擇樣本中75%病例作為訓練集(肺癌38例,肺良性疾病39例),其余25%作為測試集(肺癌12例,肺良性疾病13例)用來測試已建立的模型的預測準確度。
1.5 ANN結構的設計 利用Matlab 7.1軟件中的神經網絡工具箱實現ANN算法。該研究采用三層神經網絡的BP網絡算法訓練模型,輸入層和輸出層神經元個數分別為9(9項腫瘤標志)和1,隱含層神經元個數根據經驗和嘗試后確定為7。目標誤差選0.04;動量因子mc為0.90;采用自適應學習速率法自動地對學習速率進行調整,避免不變的學習速率在訓練后期對收斂速度可能的影響,學習速率為0.05,學習速率的遞增乘因子為1.08,遞減乘因子為0.6;最大迭代次數為5 000。肺良性疾病組的期望輸出值為0.2;肺癌組的期望輸出值為0.8,以0.5為界限,<0.5為肺良性疾病患者,≥0.5為肺癌患者。
1.6 統計學處理 采用SPSS 12.0進行統計學處理。CEA、CA19-9、NSE、CA242、CA153、CA125、AFP、SF和HGH作為定量資料分析時組間比較采用秩和檢驗,作為定性資料分析時CEA、CA125組間比較采用χ2檢驗,CA19-9、NSE、CA242、CA153、AFP和SF組間比較采用Fisher確切概率法;ROC曲線下面積(AUC)<0.5時無診斷意義,0.5~準確度較低,0.7~準確度較好,0.9~準確度最好。檢驗水準α=0.05。
2.1 血清腫瘤標志的測定結果 9種血清腫瘤標志的陽性率比較見表1,測定結果見表2。

表19 種血清腫瘤標志的陽性率比較 %

表2 肺癌組和肺良性疾病組血清腫瘤標志的測定結果
2.2 肺癌-肺良性疾病的ANN模型構建 經過4 542次迭代后達到預期誤差,結束訓練。輸出結果顯示,訓練集中肺癌患者中34例被正確分類,占89.5%,肺良性疾病患者中36例被正確分類,占92.3%,該模型對所有訓練集的正確識別率為90.9%,模型可靠,可以用于肺癌的預測。
2.3 ANN、判別分析模型及多腫瘤標志蛋白芯片對預測集預測效果的比較 結果見表3。判別分析模型和多腫瘤標志蛋白芯片的AUC分別為0.635和0.596,準確度較低;ANN的AUC為0.878,準確度較好。

表3 ANN、判別分析模型及多腫瘤標志蛋白芯片對肺癌預測效果的比較
腫瘤標志蛋白芯片檢測系統可全面、動態、定量地分析比較肺癌和肺良性疾病或正常對照者血清中的蛋白質種類和數量的變化[2]。該研究結果顯示,腫瘤標志蛋白芯片檢測系統檢測的肺癌組血清AFP、CA125、CEA、NSE和SF水平高于肺良性疾病組,肺癌組CA125、CEA和SF陽性率高于肺良性疾病組,可用于肺癌的輔助診斷。其他腫瘤標志可用于和這些腫瘤標志聯合檢測,以提高診斷的準確率。
ANN作為一種模式識別工具,可識別與訓練集不全相同的輸入數據,并把它們判為與其最相似的訓練輸入類別。一般含有輸入層、隱含層和輸出層的三層BP網絡就可以實現任意的n到m維映射。BP網絡的輸入和輸出神經元數目與數據和希望把輸入數據分類的種數有關。隱含層節點數的確定還沒有一種有效的方法,大多時候都是憑經驗而定。BP網絡模型的訓練效果與輸入數據密切相關[3]。判別分析是多元統計分析中判別所研究的現象或事物歸屬類型的一種重要方法,其與ANN在解決問題的思路上是一致的。但ANN對變量沒有任何的假設要求,可以通過模擬生物神經網絡處理一些不確定的、非線性的、復雜的問題,對非線性問題的處理能力優于傳統的統計學方法,也可以對多參數問題做出正確判斷[4-6]。該研究結果表明,在ANN的輔助下,腫瘤標志蛋白芯片檢測系統對肺癌輔助診斷的準確度明顯增加,且優于判別分析模型。而該課題組前期選擇腫瘤標志聯合BP網絡建立的肺癌輔助診斷模型的評價指標均達90%以上,這主要是因為ANN模型的診斷能力與所選取的診斷指標有關,該研究選取的腫瘤標志是臨床廣泛應用的腫瘤蛋白芯片所能檢測的指標,而前期所選的指標大都是針對肺癌特異性較好的腫瘤標志進行聯合檢測[6-8]。
綜上所述,ANN和多腫瘤標志蛋白芯片檢測系統相結合可以優勢互補[9-10],為肺癌的輔助診斷及鑒別診斷提供簡便快捷而又可靠的依據,從而減少誤診、漏診。
[1]Liang Z,Wang HF,Wu AZ,et al.Clinical value of multitumor markers protein biochip in the diagnosis of pulmonary carcinoma[J].Nan Fang Yi Ke Da Xue Xue Bao,2010,30(11):2516
[2]周建光,楊梅.多腫瘤標志物蛋白芯片檢測在腫瘤診斷中的臨床應用及研究進展[J].中國醫學檢驗雜志,2010,11(3):165
[3]張矗,吳逸明,吳擁軍,等.人工神經網絡技術在纖維支氣管鏡診斷肺癌中的應用[J].鄭州大學學報:醫學版,2010,45(1):113
[4]Zhang Z,Yu YH,Xu FJ,et al.Combining multiple serum tumor markers improves detection of stageⅠepithelial ovarian cancer[J].Gynecol Oncol,2007,107(3):526
[5]Anderson B,Hardin JM,Alexander DD,et al.Comparison of the predictive qualities of three prognostic models of colorectal cancer[J].Front Biosci(Elite Ed),2010,2:849
[6]吳擁軍,吳逸明,張振中,等.基于人工神經網絡的“最優標志物群”在肺癌診斷中的應用研究[J].實用腫瘤雜志,2002,17(5):317
[7]周曉蕾,馮斐斐,張昭,等.人工神經網絡模型在肺癌與胃癌或腸癌中的鑒別分析[J].實用醫學雜志,2011,27 (18):3312
[8]馮斐斐,吳擁軍,聶廣金,等.基于“優化腫瘤標志群”建立的人工神經網絡模型對肺癌輔助診斷的作用[J].腫瘤防治研究,2011,38(6):709
[9]劉春艷,賈鵬,劉文君.應用表面增強激光解吸電離飛行時間質譜篩選急性特發性血小板減少性紫癜患兒血清生物標志物[J].實用兒科臨床雜志,2011,26(15): 1172
[10]張謙,單巖,王家祥,等.基于人工神經網絡的血清蛋白質指紋圖譜模型在先天性巨結腸患兒診斷中的應用[J].實用兒科臨床雜志,2008,23(17):1382
Application of tumor marker protein biochip combined with artificial neural network in diagnosis of lung cancer
TAN Shanjuan1),YU Chunhua2),WANG Wei1),WU Yongjun1),WU Yiming1)1)Department of Health Toxicology,College of Public Health,Zhengzhou University,Zhengzhou 4500012)Department of Respiratory Medicine,the Fifth Affiliated Hospital,Zhengzhou University,Zhengzhou 450052
lung cancer;artificial neural network;tumor marker;protein biochip;diagnosis
Aim:To establish two classification models of artificial neural networks(ANN)and Fisher discrimination analysis,and to compare the differences among two models and the multiple tumor marker protein biochip detective system in the diagnosis of lung cancer.Methods:The clinical data and multiple tumor marker protein biochip detective system records of 102 lung disease patients(50 cases of lung cancer and 52 cases of benign pulmonary diseases)were retrospectively reviewed,and then the models of ANN and Fisher discrimination analysis were developed.Results:The accuracy of ANN,Fisher discrimination analysis and multiple tumor marker protein biochip detective system was 88.0%,64.0% and 60.0%.The area under ROC curve of ANN(0.878)was higher than that of Fisher discrimination analysis(0.635)and multiple tumor marker protein biochip detective system(0.596).Conclusion:The effects of ANN model established by multiple tumor marker protein biochip detective system are better than those of Fisher discrimination analysis and multiple tumor marker protein biochip detective system in discrimination of lung cancer.
R734
10.3969/j.issn.1671-6825.2012.06.005*國家自然科學基金資助項目 30972457;河南省醫學科技攻關計劃基金資助項目 2011020082
(2011-12-09收稿 責任編輯姜春霞)