何其棟, 魏小玲, 張紅巧, 王 威, 吳擁軍#
1)鄭州大學公共衛生學院衛生毒理學教研室 鄭州 450001 2)鄭州大學第五附屬醫院腫瘤科 鄭州 450052 3)鄭州大學公共衛生學院勞動衛生學教研室 鄭州 450001
基于“優選腫瘤標志群”建立的決策樹模型對肺癌輔助診斷的價值*
何其棟1), 魏小玲1), 張紅巧2), 王 威3), 吳擁軍1)#
1)鄭州大學公共衛生學院衛生毒理學教研室 鄭州 450001 2)鄭州大學第五附屬醫院腫瘤科 鄭州 450052 3)鄭州大學公共衛生學院勞動衛生學教研室 鄭州 450001
#通訊作者,男,1968年1月生,博士,教授,研究方向:生化與分子毒理,E-mail:wuyongjun@zzu.edu.cn
決策樹;腫瘤標志;肺腫瘤;輔助診斷
目的:應用決策樹技術聯合腫瘤標志蛋白芯片建立基于“優選腫瘤標志群”的決策樹模型,實現對肺癌的快速診斷。方法運用腫瘤標志定量檢測試劑盒測定201例肺部良性疾病及199例肺癌患者血清中9項腫瘤標志[癌胚抗原、糖原類抗原19-9(CA199)、神經元特異性烯醇化酶、CA242、鐵蛋白、CA125、甲胎蛋白、人生長激素和CA153]水平,應用logistic回歸對腫瘤標志進行篩選以獲得“優選腫瘤標志群”,分別于篩選前后建立決策樹模型和Fisher判別分析模型。結果肺癌組9項血清腫瘤標志水平均高于肺良性疾病組(P<0.05)。篩選前基于9項腫瘤標志分別建立的Fisher判別分析模型、決策樹模型和篩選后基于6項腫瘤標志建立的Fisher判別分析模型、決策樹模型,其預測準確度分別為86.0%、92.5%、84.5%、91.5%。篩選前和篩選后決策樹模型ROC曲線的AUC分別為0.925和0.915,均高于Fisher判別分析的0.860和0.845(Z=4.462和4.575,P均<0.01);但決策樹模型和Fisher判別分析篩選前后自身相比,差異均無統計學意義(Z=1.914和1.074,P均>0.05)。結論基于6項腫瘤標志建立的決策樹模型診斷肺癌的效果優于Fisher判別分析。
肺癌居我國各類腫瘤之首,且發病率及病死率逐年增長,成為嚴重威脅人類健康的惡性腫瘤之一。肺癌發病隱匿,轉移較快,預后差,總的5 a生存率約為15%,而早期發現的肺癌患者5 a生存率則可以提高到70%~80%[1]。對肺癌進行早期診斷成為提高療效的關鍵。腫瘤標志檢測近年來已被用于肺癌的輔助診斷,對肺癌的早期診斷和預后都有重要的意義。目前對肺癌鑒別診斷的研究主要集中于尋找新的腫瘤標志或者聯合檢測多項腫瘤標志,以期提高肺癌檢出的靈敏度和特異度[2-3];也有文獻[4]報道采用數據挖掘技術用于肺癌的判別診斷;但是多種血清腫瘤標志聯合檢測時一些標志對聯合檢測陽性率的貢獻不大,而且還會帶來大量的參數,同時增加診斷成本。該研究應用蛋白芯片檢測系統測定肺癌和肺良性疾病患者血清中癌胚抗原(CEA)、糖原類抗原19-9(CA199)、神經元特異性烯醇化酶(NSE)、CA242、鐵蛋白(Ferritin)、CA125、甲胎蛋白(AFP)、人生長激素(HGH)和CA153共9項腫瘤標志的水平,利用logistic回歸對以上9種腫瘤標志進行篩選后,聯合建立決策樹模型和判別分析模型,探討2種模型對肺癌輔助診斷的意義。
1.1研究對象2010年6月至2011年12月自鄭州大學第五附屬醫院呼吸內科及腫瘤科收集有腫瘤標志蛋白芯片檢測記錄的肺癌和肺良性疾病患者共400例,其中肺癌199例、肺良性疾病201例。肺癌患者均經病理或細胞學確診,肺良性疾病患者均未發現合并有肺或其他器官腫瘤。流行病學資料和血標本收集均經研究對象知情同意后由專業調查員和醫生收集。
1.2血清腫瘤標志檢測方法所有研究對象的血清腫瘤標志檢測嚴格按照多腫瘤標志蛋白芯片檢測試劑盒(湖州數康生物科技有限公司)說明書步驟,由專職人員進行操作。對待測樣本的測試要求在短時間內快速完成,同時使用盒內質控品對檢測過程進行控制。使用生物芯片閱讀儀讀取結果。
1.3腫瘤標志的篩選將原始數據進行以10為底的對數處理后,以疾病(肺癌=1,肺良性疾病=0)為因變量,以9項標志為自變量,采用logistic回歸分析方法,以α=0.10作為入選和剔除標準,采用偏最大似然估計前進法進行逐步回歸分析。
1.4訓練集和預測集選擇隨機選擇樣本中 75%的病例作為訓練集(肺癌150例,肺良性疾病150例),將全部樣本作為預測集(肺癌199例,肺良性疾病201例)來測試已建立模型的預測準確度。
1.5決策樹模型的建立對于輸出變量,定義1為肺癌,0為肺良性疾病。以訓練集建模,用預測集對模型進行評價;為了提高精確率,使用推進的方法,試驗次數選擇10;設置預期噪聲為20以避免噪聲數據過度訓練;選擇95%精確度的置信度;使用誤分類損失矩陣設置。用全部9項生物標志和進入logistic回歸方程的腫瘤標志分別作為輸入變量,建立篩選前后的決策樹模型。
1.6統計學處理采用SPSS 12.0進行描述性統計學分析。使用SPSS Clementine 12.0建立Fisher判別分析與決策樹模型,用MedCalc V12.4.0 軟件繪制ROC曲線并比較2種模型的曲線下面積(AUC),用篩檢試驗的評價指標和ROC曲線比較篩選前后2種模型的預測效果。
2.1研究對象的一般情況參加研究的肺癌和肺良性疾病患者的年齡、性別、吸煙情況差異均有統計學意義,見表1。

表1 2組研究對象的一般特征
2.2血清腫瘤標志檢測結果對9種腫瘤標志進行秩和檢驗中的單樣本K-S檢驗發現所有指標均不服從正態分布,因此用中位數(M)和上、下四分位數(P25、P75)表示。肺癌組血清中9項腫瘤標志水平均高于肺良性疾病組。見表2。
2.3腫瘤標志的篩選結果經單因素logistic回歸分析,9項腫瘤標志均與肺癌有關。多因素logistic回歸分析后,NSE、CEA、Ferritin、AFP、CA125、CA153進入回歸方程,而CA199、CA242、HGH未進入回歸方程。見表3。
2.4肺癌-肺良性疾病的決策樹和Fisher判別分析模型的構建利用logistic回歸分析篩選前后的血清腫瘤標志群分別建立決策樹模型和Fisher判別分析模型,訓練集和預測集的分類結果見表4,可以看出篩選前后決策樹模型的準確率均高于Fisher判別分析模型。

表2 9項血清腫瘤標志的檢測結果

表3 腫瘤生物標志的多因素logistic回歸分析

表4 各模型對訓練集和預測集的分類結果
2.5篩選前后2種模型預測效果的比較結果見表5。篩選前和篩選后決策樹模型ROC曲線的AUC均高于Fisher判別分析(Z=4.462和4.575,P均<0.01);但決策樹模型和Fisher判別分析篩選前后自身相比,差異均無統計學意義(Z=1.914和1.074,P>0.05)。

表5 篩選前后2種模型對預測集的診斷結果
腫瘤標志蛋白芯片檢測系統可以全面定量地比較肺癌患者和正常對照者血清中的蛋白質種類和數量變化[5],對臨床腫瘤的輔助診斷或無明顯癥狀的門診患者的篩查,特別是對高危人群的篩檢有一定意義。有研究[6-8]表明,肺癌患者血清腫瘤標志CYFRA21-1、NSE、CEA、CA153、CA125水平均明顯高于正常人;而且將幾項腫瘤標志進行聯合檢測可以提高肺癌檢出的靈敏度和特異度。
該研究對Ferritin、AFP、CEA、NSE、CA199、CA242、CA125、CA153和HGH共9項腫瘤標志進行檢測,發現肺癌組以上指標血清水平均高于肺良性疾病組??紤]到實驗因素及樣本量可能造成影響,進行多因素logistic回歸分析時放寬入選和剔除標準,取α=0.10;結果中CA125對應的P值為0.054,考慮到其對后續模型的貢獻,故選擇其進入模型。而CA199、CA242、HGH未進入方程,說明與其他6項腫瘤標志相比,它們與肺癌的關系不十分顯著。這可能與CA199、CA242、HGH在肺癌患者血清陽性率較低和特異性差有關[9-10]。
決策樹是一種比較有效的機器學習分類算法,在醫學上的應用是通過數據學習,用倒置的樹展現參數所受到各變量的影響,并且對數據進行分類和預測其規律,建立人工智能最優的分類診斷模型,從而達到減少臨床醫生主觀診斷的目的[11-12]。決策樹是一種非參數方法,對原始數據類型的要求較低,其模型的分類結果靈敏度、特異度較高,對于臨床診斷的實用性更高。C5.0算法是通過分散的數據集來構建決策樹,數據集中的值使增益率最大化,在執行效率和內存使用方面上進行了改進[13]。而Fisher判別分析是基于投影,根據類間方差最大、類內方差最小的原則確定判別函數[14]。Fisher判別分析作為傳統的統計分析方法仍有重要意義。該研究經logistic回歸分析篩選出NSE、CEA、Ferritin、AFP、CA125及CA153共6項腫瘤標志,在此基礎上建立決策樹模型,其靈敏度、特異度、準確度分別為91.0%、92.0%、91.5%,各項評價指標均優于基于該腫瘤標志群的Fisher判別分析。篩選后的決策樹模型ROC曲線的AUC為0.915,說明該模型能夠較好地應用于肺癌的輔助診斷;且該模型AUC與篩選前基于9項血清腫瘤標志的決策樹模型相比,差異無統計學意義。
總之,優選的基于6項腫瘤標志建立的決策樹模型能夠有效診斷肺癌。
[1]Siegel R,Ward E,Brawley O,et al.Cancer statistics, 2011: the impact of eliminating socioeconomic and racial disparities on premature cancer deaths[J].CA Cancer J Clin,2011,61(4):212
[2]田滿福,韓波.檢測CA199、CA125、CA153及CEA在腫瘤診斷中的意義[J].臨床和實驗醫學雜志,2010,9(7):483
[3]Flores-Fernández JM,Herrera-López EJ,Sánchez-Llamas F,et al.Development of an optimized multi-biomarker panel for the detection of lung cancer based on principal component analysis and artificial neural network modeling[J].Expert Syst Appl,2012,39(12):10851
[4]馮斐斐,吳擁軍,聶廣金,等.基于“優化腫瘤標志群”建立的人工神經網絡模型對肺癌輔助診斷的作用[J].腫瘤防治研究,2011,38(6):709
[5]周建光,楊梅.多腫瘤標志物蛋白芯片檢測在腫瘤診斷中的臨床應用及研究進展[J].中國醫學檢驗雜志,2010,11(3):165
[6]毛正道,韋國楨,殷小偉.探討腫瘤標記物CY211、NSE、CEA及CA125在肺癌診斷中的意義[J].實用臨床醫藥雜志,2010,14(2):18
[7]曾聰,全國莉,王春蓮.聯合檢測6種血清腫瘤標志物在肺癌診斷中的意義[J].廣東醫學,2012,33(6):808
[8]Chiu JS,Wang YF,Su YC,et al.Artificial neural network to predict skeletal metastasis in patients with prostate cancer[J].J Med Syst,2009,33(2):91
[9]王峰.血清腫瘤標志物CA125、CA199、CEA、NSE聯合檢測在肺癌診斷中的應用[J].中國臨床實用醫學,2010,4(6):17
[10]梁茱,王海楓,吳愛祝,等.多腫瘤標志物蛋白芯片檢測系統在肺癌診斷中的臨床意義[J].南方醫科大學學報,2010,30(11):2516
[11]Kim J,Hwang M,Jeong DH,et al.Technology trends analysis and forecasting application based on decision tree and statistical feature analysis[J].Expert Syst Appl,2012,39 (16):12618
[12]薛薇,陳歡歌.Clementine數據挖掘方法及應用[M].北京:電子工業出版社,2010.
[13]劉強.基于信息增益的完全決策樹算法研究[D].武漢:華中科技大學,2011.
[14]趙敏,鄭崇勛,趙春臨,等.利用Fisher判別式和事件相關電位的心理意識真實性識別[J].西安交通大學學報,2010,44(8):132
(2013-04-28 收稿 責任編輯 徐春燕)
Application of decision tree combined with filtered biomarkers in the diagnosis of lung cancer
HEQidong1),WEIXiaoling1),ZHANGHongqiao2),WANGWei3),WUYongjun1)
1)DepartmentofToxicology,CollegeofPublicHealth,ZhengzhouUniversity,Zhengzhou450001 2)DepartmentofOncology,theFifthAffiliatedHospital,ZhengzhouUniversity,Zhengzhou450052 3)DepartmentofOccupationalHealth,CollegeofPublicHealth,ZhengzhouUniversity,Zhengzhou450001
decision tree;tumor marker;lung neoplasm;auxiliary diagnosis
Aim: To establish decision tree model based on filtered biomarkers to achieve rapid diagnosis of lung cancer. Methods: The serum levels of 9 tumor markers (CEA,CA199,NSE,CA242,Ferritin,CA125,AFP,HGH and CA153) in 199 patients with lung cancer and 201 patients with benign pulmonary lesion were measured by multiple tumor marker protein biochip, and the models of C5.0 and Fisher discrimination analysis were developed based on the tumor markers before and after being filtered by logistic regression. Results: The serum levels of the 9 tumor markers in patients with lung cancer were significantly higher than those in patients with benign pulmonary lesion(P<0.05). The accuracies of Fisher discrimination analysis and C5.0 models based on 9 tumor markers and 6 tumor markers filtered by logistic regression were 86.0%,92.5%,84.5% and 91.5%, respectively. The area under receiver operating curve(AUC) of C5.0 model was higher than that of Fisher discrimination analysis in both of 9 tumor markers model and 6 tumor markers model(Z=4.462 and 4.575,P<0.01). However, there was no significant difference inAUCbetween before and after screening in both models(Z=1.914 and 1.074,P>0.05). Conclusion: The effect of the model of C5.0 is better than Fisher discrimination analysis in diagnosis of lung cancer especially based on the tumor markers screened by logistic regression.
*國家自然科學基金資助項目 30972457;河南省重大科技攻關項目 112102310102;河南省醫學科技攻關項目 2011020082
R734.2
10.3969/j.issn.1671-6825.2014.01.011