紀鵬慧,段書音,李尊稅,王 靜,吳擁軍
1)鄭州大學公共衛生學院衛生毒理學教研室 鄭州 450001 2)鄭州大學第一附屬醫院呼吸內科 鄭州 450052
據報道[1],2018年全球有960萬人死于癌癥,而肺癌是造成全球癌癥相關死亡的主要因素,占癌癥總死亡人數的18.4%。在中國,肺癌是男性第一大死因和女性第二大死因[2]。相關研究[3-4]表明,肺癌的早期診斷可以顯著提高患者5 a生存率。用于肺癌診斷的方法有多種,如影像學診斷、支氣管內超聲檢查和呼出氣檢查[5-6]等,但尚不能普遍應用于肺癌的早期篩查。隨著現代醫學技術的發展,臨床上已將一些腫瘤標志物應用于肺癌的診斷,如癌胚抗原(CEA)、神經元特異性烯醇化酶(NSE)、細胞角蛋白 19 片段[7-9]等, 但尚未發現一種有效的指標可以獨立檢測早期肺癌,因此需要應用數據挖掘技術聯合多種分子生物標志進行建模并將其應用于肺癌的早期診斷。該研究基于血清中6項血清指標(CEA、NSE、胃泌素、唾液酸、銅/鋅和鈣)以及4項表觀遺傳學指標[DNA甲基轉移酶(DNMT)1、DNMT3A、DNMT3B和組蛋白去乙酰化酶1(HDAC1)]表達水平,利用支持向量機(SVM)建立診斷模型,并評價其診斷效果,以期為肺癌的早期診斷提供思路和方法。
1.1研究對象收集2014年10月至2016年3月鄭州大學第一附屬醫院呼吸內科收治的肺癌(180例)和肺良性疾病(243例)住院患者血液樣本423例。肺癌患者中,男128例,女52例;中位年齡61歲;小細胞肺癌31例,腺癌41例,鱗癌80例,不確定類型28例;均經臨床病理診斷證實為原發性肺癌。肺良性疾病患者中,男127例,女116例;中位年齡56歲;慢性阻塞性肺疾病23例,肺炎164例,支氣管擴張8例,肺間質纖維化14例,肺結核7例,其他27例;均未合并肺部或其他部位腫瘤。
1.2血清指標(CEA、NSE、胃泌素、唾液酸、銅/鋅、鈣、DNMT1、DNMT3A、DNMT3B、HDAC1)檢測方法血液的采集與處理方法:在早晨空腹狀態下,抽取2~3 mL靜脈血,置于非抗凝管內,室溫靜置30 min,3 000 r/min離心5 min,分離血清密封于干燥的凍存管中,然后放于-80 ℃冰箱保存。樣品如發生溶血、脂血現象則棄之。采用放射免疫法檢測血清中CEA、NSE和胃泌素含量,試劑盒購于北京北方生物技術研究所;血清中唾液酸測定采用改良的間苯二酚顯色法,唾液酸標準品購于美國Sigma公司;采用電感耦合等離子體質譜法測定血清銅/鋅含量;利用中生北控生物科技股份有限公司的鈣測定試劑盒,采用鄰甲酚酞絡合酮比色法測定血清鈣含量; DNMT1、DNMT3A、DNMT3B和HDAC1測定方法為酶聯免疫吸附法,試劑盒購于武漢優爾生商貿有限公司。
1.3診斷模型的建立在SPSS 21.0上利用10項血清指標數據建立SVM模型和Fisher判別模型。
1.3.1 數據歸一化處理 用極差法對原始數據進行轉換,使輸入變量的參數取值在[0,1]之間。
1.3.2 訓練集與測試集 從全部樣本中隨機抽取75%作為訓練集(肺癌135例,肺良性疾病182例),將全部樣本作為測試集(肺癌180例,肺良性疾病243例)。
1.3.3 SVM模型建立 SVM模型的輸入項數據來源于全部10項血清指標。測試選擇非線性SVM算法;模式:高級;Stopping criteria:1.0×10-3;Kernel type:RBF;Regularization Parameter(C):10/1;Gamma:1。
1.3.4 模型評價 模型的評價指標主要有準確度、靈敏度、特異度、陽性預測值、陰性預測值、ROC曲線下面積(AUC)。AUC越接近1.0真實程度越高,0.7~真實程度相對較好,0.5~真實程度較低,<0.5沒有診斷價值。
1.4統計學處理采用SPSS 21.0進行數據分析。患者年齡和10項血清指標采用M(P25,P75)描述,2組間血清指標的比較采用秩和檢驗,患者一般情況(年齡構成、性別構成、吸煙史)的比較采用χ2檢驗。檢驗水準α=0.05。
2.12組患者一般情況比較以40歲為界限對年齡進行分組[10],肺癌組年齡大于肺良性疾病組,肺癌組吸煙率高于肺良性疾病組。見表1。

表1 2組患者一般情況比較
2.22組患者血清指標水平的比較肺癌組和肺良性疾病組比較,其中7種血清指標(CEA、 NSE、胃泌素、唾液酸、DNMT1、 DNMT3A 、DNMT3B)水平差異有統計學意義,見表2。

表2 2組患者10種血清指標水平的比較
2.3數據建模結果SVM模型預測結果顯示肺癌組誤判21例,肺良性疾病組誤判為肺癌20例,預測準確率為90.3%(382/423);而Fisher判別模型顯示肺癌組誤判33例,肺良性疾病組誤判為肺癌53例,預測準確率為79.7%(337/423)。
2.4兩模型效果比較SVM模型靈敏度、特異度、準確度、AUC均大于Fisher判別模型,真實度較高,見表3。

表3 兩模型預測效果的比較
隨著醫療檢驗技術的發展,血清腫瘤標志物檢測已逐漸成為癌癥早期診斷的手段之一。臨床醫生可以依據腫瘤標志物對患者進行疾病診斷、療效分析、復發監測及預后判斷[11]等。
相關研究[12]表明DNMT3B、DNMT3A和DNMT1在肺癌發生發展過程中發揮重要作用。CEA和NSE是目前臨床肺癌診斷常用的指標[13]。本研究結果顯示,肺癌組血清CEA、NSE水平均高于肺良性疾病組,與相關研究[14-15]結果一致。體內抗氧化酶的含量和活性都與微量元素含量有關,鋅、銅元素參與超氧化物歧化酶發揮生物學作用這一過程[16]。研究[17-18]表明血清鈣對腫瘤起保護作用,腫瘤中唾液酸的高表達有利于腫瘤生長,對腫瘤診斷和治療有一定參考意義。胃泌素可用于腫瘤的早期及聯合診斷,其表達水平與腫瘤的預后及復發有關[19-20]。 HDAC1是組蛋白修飾過程中的關鍵酶,在腫瘤發生發展過程中發揮重要作用[12]。本研究對肺癌組和肺良性疾病組銅/鋅、血清鈣、胃泌素、唾液酸、HDAC1水平進行了測定,結果顯示這些指標均與上述相關研究結果不一致,可能是日常環境、個人飲食習慣和樣本量相對較小等原因造成的。
近年來,大數據這一技術風靡全球,對醫療數據的挖掘分析可以迅速推動醫學的發展[21-23]。SVM是一種以結構風險最小原理建立的對小樣本數據有較好預測結果的簡化智能模型[24-25],因而在醫學領域得到廣泛研究和應用。如有學者[26]鑒定出有關皮膚黑色素瘤轉移的基因,運用SVM分類方法進行模型預測,準確度達到94.4%,效果較好。
該研究基于10種血清指標所構建的SVM模型對測試集進行分析,其靈敏度、特異度、準確度均優于Fisher判別模型。兩模型相比,SVM模型的真實程度較好,預測能力更為出眾,與相關報道[27]一致。總之,該研究成功構建了基于腫瘤標志物的SVM模型,對肺癌的輔助診斷有一定借鑒作用。