王 威,馮曉蕾,段曉冉,王團偉,譚善娟,吳逸明,吳擁軍
鄭州大學公共衛生學院勞動衛生與衛生毒理學教研室鄭州450001
肺癌發病率和病死率均居于全世界癌癥譜的首位,早期無特異癥狀。已有研究[1-2]發現,脆性組氨酸三聯體(fragile histidine traid,FHIT)、RASSF1A 和p16 等基因甲基化引起的抑癌基因表達沉默,以及外周血的DNA 端粒長度縮短,會使肺癌的危險性增加。課題組[3-4]前期進行了一些研究,發現FHIT、p16、RASSF1 和外周血的DNA 端粒長度4 項生物標志在肺癌診斷中具備價值,構建了肺癌診斷的神經網絡模型和決策樹模型,為進一步研究肺癌早期診斷技術奠定了基礎。支持向量機是建立在結構風險最小化原理和VC 維理論基礎上的一種數據挖掘方法,理論基礎堅實,數學模型簡明,克服了“維數災難”,在解答小樣本、非線性和高維模式識別類型這些問題時獨具優勢[5]。作者嘗試進行基于以上4種生物標志的肺癌診斷支持向量機模型的構建。
1.1 研究對象 選擇2009年1月至2010年6月鄭州大學第一附屬醫院胸外科和呼吸內科確診為原發性肺癌的患者200例,其中腺癌72例,鱗狀細胞癌87例,大細胞肺癌8例,小細胞肺癌33例;同期沒有惡性腫瘤的健康體檢者200例作對照。經研究對象知情同意后,由醫生和專業調查員來收集血樣本以及包括年齡、性別、吸煙等在內的流行病學資料。每天吸煙1 支且吸煙1 a 以上定義為吸煙[6]。
1.2 主要試劑和儀器 全血基因組DNA 提取試劑盒(上海萊楓公司),PTC200 型PCR 擴增儀(美國MJ Research 公司),Real-time PCR 儀(美國Startagene 公司),引物(上海生工生物工程服務有限公司),EPS-350 電泳儀(瑞典Pharmaera-LKB 公司),GoTaq qPCR Mastermix(美國Promega 公司),組織DNA 提取試劑盒(北京康為世紀公司)。
1.3 實驗方法 按照全血基因組DNA 提取試劑盒的要求進行外周血基因組DNA 的提取;甲基化水平檢測的方法為實時定量甲基化特異性PCR 法;甲基化水平(率)的計算參考文獻[7];端粒長度的測定采取實時熒光定量PCR 法[8]。
1.4 統計學處理 使用SPSS 12.0 分析,定性資料兩樣本比較用χ2檢驗。定量資料若符合正態分布,用ˉx±s 描述,若不符合,采取M(P25~P75)描述;兩樣本比較用秩和檢驗或t 檢驗。檢驗水準α=0.05。
1.5 數據挖掘
1.5.1 數據的預處理 數據轉換:使用SPSS Clementine 12.0 對不符合正態分布的3個基因的甲基化水平做變量變換。數據分組:使用軟件SPSS Clementine 12.0 將數據隨機分成預測集和訓練集2組,按3∶1 抽樣,將400個樣本分為訓練集(對照者150個,肺癌患者150個)和預測集(對照者50個,肺癌患者50個)。
1.5.2 模型的建立 Fisher 判別分析模型:見文獻[2]。支持向量機模型:該模型在SPSS Clementine 12.0 中實現,輸入項設定為訓練集的吸煙史、年齡、端粒長度和FHIT、RASSF1A 及p16 基因甲基化水平,輸出項設定為group(肺癌=1,對照=2)。基于此研究非線性的訓練樣本,采用非線性支持向量機算法,通過初步的探索后:Mode 為Expert,Kernel type 為Polynomial,Stopping criteria 為1.0E-3,Gamma 為1 被確定為最終的參數。
1.5.3 模型的評價 采用特異度、靈敏度、準確度、陰性預測值、陽性預測值及ROC 曲線下面積(AUC)等指標來進行模型評價,其中設定當AUC<0.5,無診斷意義;AUC 0.5~,準確度極低;AUC 0.7~,準確度比較好;AUC >0.9,準確度最好。
2.1 研究對象基本情況 肺癌組患者200 名,其中男143 名,女57 名;吸煙者107 名,不吸煙者93 名;年齡(59.6 ±10.6)歲;對照組200 名,其中男151名,女49 名;吸煙者79 名,不吸煙者121 名;年齡(53.7 ±13.3)歲;兩組間性別均衡,年齡和吸煙人數差異具有統計學意義(t/χ2 =9.537 和6.221,P =0.001 和0.005)。
2.2 肺癌組和對照組FHIT、RASSF1A 和p16 基因啟動子甲基化水平及端粒長度的比較 結果見表1。
2.3 數據挖掘模型結果 對不符合正態分布的p16、RASSF1A 和FHIT 基因啟動子的甲基化水平進行正態性變換,其中p16 和FHIT 基因啟動子的甲基化水平用取log10 變換,RASSF1A 基因啟動子的甲基化水平用取平方根變換。最終得到的數據挖掘模型見表2。
2.4 模型的評估 見表3。

表3 兩數據挖掘模型的效果評估
大量研究[9-10]結果表明,肺癌與FHIT、RASSF1A 和p16 基因的甲基化之間有關聯。該研究結果顯示,肺癌組和對照組FHIT、RASSF1A 和p16 基因啟動子甲基化水平差異均有統計學意義。端粒長度變化將對端粒結構和功能改變產生重要影響[11]。該研究發現肺癌組端粒長度要短于對照組,提示端粒縮短是肺癌的危險因素,這與文獻[12-13]研究結果相一致。
支持向量機具有完善的數學表達、出色的泛化功能、直觀的幾何圖形,在數據挖掘方面可以避免局部最優解,完美解決過學習問題。同時,它以結構風險最小化為基本原理,強調置信區間的最小化,能夠很好地解決算法中復雜程度與泛化能力間的矛盾。支持向量機模型只和樣本數量有關,且人為設定的參數較少,便于使用,因此該模型在解決小樣本的問題時具有獨特的優勢[14-15]。鑒于以上優點,支持向量機模型在臨床輔助診斷等方面也具有很大的潛力[16]。目前,卓越的分類性能使支持向量機在多種數據挖掘方法中很受關注,在生物信息處理,特別是生物輔助診斷方面已取得了一系列很好的成績[17]。
該研究采用支持向量機模型對預測集的預測準確度達到81.0%,而判別分析模型的預測準確度為67.0%,因此支持向量機模型在肺癌的輔助診斷方面可能具有較高的價值。課題組前期做了肺癌預測的相關工作,嘗試采取其他腫瘤標志聯合數據挖掘建立數據挖掘模型,準確度高達90%[18]。該研究建立的支持向量機模型預測準確度未達到該水平,考慮原因為:樣本發生了變化,篩選出的生物標志物發生了變化。因此,需要綜合分析和比較研究樣本中的不同生物標志,進一步篩選出理想的生物標志物,完善數據挖掘模型。
綜上所述,該研究發現人外周血DNA 端粒長度和FHIT、RASSF1A、p16 基因啟動子甲基化與肺癌有關,并首次成功構建了基于上述4種生物標志的肺癌診斷支持向量機模型,結果表明支持向量機在肺癌診斷中具有較高的應用價值。
[1]Hsu HS,Chen TP,Hung CH,et al.Characterization of a multiple epigenetic marker panel for lung cancer detection and risk assessment in plasma[J].Cancer,2007,110(9):2019
[2]譚善娟,王娜,王威,等.人外周血基因組DNA 端粒長度與肺癌關系[J].中國公共衛生,2012,28(5):652
[3]魏小玲,譚善娟,何其棟,等.決策樹聯合生物標志在肺癌輔助診斷中應用[J].中國公共衛生,2013,29(10):1479
[4]王威,段曉冉,譚善娟,等.基于3種基因啟動子甲基化聯合端粒長度構建肺癌篩查神經網絡模型[J].鄭州大學學報:醫學版,2014,49(2):176
[5]丁世飛.齊丙娟,譚紅艷.支持向量機理論與支持算法研究綜述[J].電子科技大學學報,2011,40(1):2
[6]World Health Organization.Guidelines for controlling and monitoring the tobacco epidemic[R].Geneva:WHO,1998:200
[7]Lu L,Katsaros D,De La Longrais IA,et al.Hypermethylation of let-7a-3 in epithelial ovarian cancer is associated with low insulin-like growth factor-Ⅱexpression and favorable prognosis[J].Cancer Res,2007,67(21):10117
[8]王威,李智濤,祝寒松,等.煤焦瀝青煙提取物致人支氣管上皮細胞惡性轉化細胞端粒損傷研究[J].中國職業醫學,2011,38(5):369
[9]Zhang YW,Wang R,Song HZ,et al.Methylation of multiple genes as a candidate biomarker in non-small cell lung cancer[J].Cancer Lett,2011,303(1):21
[10]Liu Z,Li W,Lei Z,et al.CpG island methylator phenotype involving chromosome 3p confers an increased risk of nonsmall cell lung cancer[J].J Thorac Oncol,2010,5(6):790
[11]王海兵.DNA 甲基化在肺癌中的研究進展[J].中國肺癌雜志,2010,13(11):1074
[12]Dammann R,Li C,Yoon JH,et al.Epigenetic inactivation of a RAS association domain family protein from the lung tumour suppressor locus 3p21.3[J].Nat Genet,2000,25(3):315
[13]劉利東,黃金水,譚兆珍,等.RASSF1A 啟動子甲基化與非小細胞肺癌TNM 分期關系的Meta 分析[J].嶺南現代臨床外科,2010,109(2):142
[14]Zhang Y,Miao Y,Yi J,et al.Frequent epigenetic inactivation of deleted in lung and esophageal cancer 1 gene by promoter methylation in non-small-cell lung cancer[J].Clin Lung Cancer,2010,11(4):264
[15]Nagji AS,Liu Y,Stelow EB,et al.BRMS1 transcriptional repression correlates with CpG island methylation and advanced pathological stage in non-small cell lung cancer[J].J Pathol,2010,221(2):229
[16]Wang R,Zhang YW,Chen LB.Aberrant promoter methylation of FBLN-3 gene and clinicopathological significance in non-small cell lung carcinoma[J].Lung Cancer,2010,69(2):239
[17]Huang TM,Kecman V.Gene extraction for cancer diagnosis by support vector machines--an improvement[J].Artif Intell Med,2005,35(1/2):185
[18]馮斐斐,聶廣金,吳擁軍,等.基于6 項腫瘤標志聯合檢測的3種分類模型判別肺癌的對比分析[J].衛生研究,2009,38(4):429