田剛,周明術(shù),宋敏,杭永倫,王開正,劉靳波
(瀘州醫(yī)學(xué)院附屬醫(yī)院檢驗(yàn)科,瀘州 646000)
惡性胸腔積液是由惡性腫瘤累及胸膜或胸膜本身腫瘤所致。目前,肺癌仍然是引起惡性胸腔積液的首要病因,臨床上約15.0%的肺癌患者首發(fā)癥狀為胸腔積液[1]。由于多數(shù)患者胸腔積液癥狀明顯而原發(fā)病灶不典型,故胸腔積液良惡性的鑒別較困難。聯(lián)合檢測胸腔積液腫瘤標(biāo)志物可以提高診斷的靈敏度、特異性和陽性率,但如何利用已知數(shù)據(jù)建立診斷模型并對未知患者進(jìn)行預(yù)測就顯得更加困難。本文以肺癌患者為例,分別采用偏最小二乘判別分析(partial-least-squares discriminant analysis,PLSDA)線性模型和人工神經(jīng)網(wǎng)絡(luò)多層感知(artificial neural network-multiplayer perceptron,ANNMPL)非線性模型對4種胸腔積液腫瘤標(biāo)志物建模,以期建立一種簡便、實(shí)用的診斷模型,實(shí)現(xiàn)對肺癌和其它肺部非腫瘤疾病的快速鑒別診斷。
選取2010年1月~2013年2月在瀘州醫(yī)學(xué)院附屬醫(yī)院病理或細(xì)胞學(xué)證實(shí)的53例肺癌患者作為肺癌組,肺癌組平均年齡(62.1±13.6)歲,男性46例,女性7例,其中鱗癌17例,腺癌30例,小細(xì)胞肺癌6例。包括局限期(limited-stage disease,LD)42 例,廣泛期 (extensive-stage disease,ED)11例。52例其它肺部疾病作為對照,對照組平均年齡為(54.8±20.5)歲,包括肺結(jié)核27例,慢性支氣管炎11例,肺炎4例,肺纖維化2例,糖尿病2例,心肌病5例,系統(tǒng)性紅斑狼瘡1例。
所有患者入院治療處理前在無菌條件下抽取胸腔積液,標(biāo)本采集后2h內(nèi)送至檢驗(yàn)科,3 000g離心10min后取上清液測定。采用電化學(xué)發(fā)光免疫分析儀 (Elecsys 2010)及 配 套 CEA、NSE、CYFRA21-1和CA125定量測定試劑盒對樣本進(jìn)行測定。由于尚未建立健康人群胸水腫瘤標(biāo)志物的參考范圍,仍沿用血清腫瘤標(biāo)志物的參考范圍。CEA、NSE、CYFRA21-1和CA125的參考值范圍分別為(0~3.4)ng/mL、(0~35.0)μg/mL、(0~3.3)ng/mL和(0~15.2)ng/mL。
胸水中 CEA、NSE、CYFRA21-1和 CA125的濃度均成偏態(tài)分布,以中位數(shù)和四分位數(shù)間距[M(P25~P75)]表示,完全隨機(jī)化設(shè)計(jì)兩獨(dú)立樣本的秩和檢驗(yàn)與受試者工作特征曲線(receive operating characteristic curve,ROC),采用SPSS 17.0進(jìn)行分析,采用SIMCAP 12.0軟件進(jìn)行PLS-DA分析,P<0.05為差異有統(tǒng)計(jì)學(xué)意義PLS-DA分析。
肺癌和其它肺部疾病患者比較(見表1),肺癌組胸腔積液中 CEA、NSE、CYFRA21-1和 CA125水平均高于對照組(Z值分別為-8.78、-1.54、-4.91和-2.96),肺癌組胸腔積液中CEA、CYFRA21-1和CA125水平變化差異有統(tǒng)計(jì)學(xué)意義(P<0.01)。

表1 肺癌組和對照組胸腔積液中CEA、NSE、CYFRA21-1和CA125測定值([M(P25~P75)])
PLS-DA模型是一種數(shù)學(xué)優(yōu)化技術(shù),它通過最小化誤差平方和找到一組數(shù)據(jù)的最佳匹配函數(shù),建立線性診斷模型。利用PLS-DA模型對個(gè)體屬性進(jìn)行判斷,可見對照組個(gè)體聚類較好,而肺癌患者個(gè)體差異大,分布較分散,兩組個(gè)體不能完全鑒別(見圖1)。在PLS-DA模型中,采用內(nèi)代法隨機(jī)選取10%的個(gè)體進(jìn)行預(yù)測驗(yàn)證,該模型的靈敏度、特異性、準(zhǔn)確性和預(yù)測能力分別為58.5%、98.1%、78.1%和84.6%。
ROC曲線是一種全面、準(zhǔn)確評價(jià)診斷試驗(yàn)的工具,ROC曲線下面積(area under the ROC curve,AUC)是反映診斷試驗(yàn)準(zhǔn)確性的關(guān)鍵指標(biāo),通常認(rèn)為其取值在0.70~0.90時(shí)具有中等的診斷準(zhǔn)確性,而>0.90時(shí)診斷的準(zhǔn)確性較高[2]。肺癌和其它肺部疾病患者的ROC曲線分析(見圖2)。4種腫瘤標(biāo)志物中CEA、CA125、CYFRA21-1和 NSE的ROC曲線下面積(AUC)分別為0.990、0.668、0.778和0.587。

圖1 肺癌組和對照組胸腔積液中檢測CEA、NSE、CYFRA21-1和CA125診斷肺癌的PLS-DA得分散點(diǎn)圖

圖2 胸腔積 液 中 測定 CEA、NSE、CYFRA21-1 和CA125診斷肺癌的ROC曲線圖
ANN模型是一種模擬人腦運(yùn)行的智能化處理系統(tǒng),在數(shù)據(jù)挖掘中應(yīng)用廣泛。MPL模型是ANN中常見的方法,MPL通過多層感知器來擬合神經(jīng)網(wǎng)絡(luò),適用于一個(gè)或多個(gè)因變量的數(shù)據(jù)建模。以胸腔積液中 CEA、NSE、CYFRA21-1和CA125數(shù)據(jù)建立ANN-MPL模型,數(shù)據(jù)經(jīng)過標(biāo)準(zhǔn)化處理后,通過自動(dòng)設(shè)置輸入層、隱含層和輸出層獲得最佳診斷模型,計(jì)算出輸入層、隱含層和輸出層分別為4、1、2。該模型隨機(jī)選取60%樣本作為訓(xùn)練集,40%樣本作為測試集,訓(xùn)練時(shí)間僅為0∶00∶00.047,交叉熵錯(cuò)誤為6.03,百分比錯(cuò)誤預(yù)測值為7.1%。其訓(xùn)練集模型的靈敏度、特異性和準(zhǔn)確性分別為93.9%、100.0%和96.8%。在預(yù)測模型中其靈敏度和特異性分別為90.0%、95.5%,具有92.9%的預(yù)測正確率,該模型中聯(lián)合測定胸水CEA、NSE、CYFRA21-1和CA125水平的AUC達(dá)到0.997(見圖3)。

圖3 胸腔積液中測定 CEA、NSE、CYFRA21-1和CA125診斷肺癌的ANN-MPL-ROC曲線圖
肺癌是全世界最常見、導(dǎo)致死亡人數(shù)最多的惡性腫瘤之一[3],目前肺癌的5年生存率僅有15%,但早期診斷的肺癌患者其5年生存率可達(dá)到85%[4]。腫瘤標(biāo)志物的檢測可為肺癌的早期診斷和治療提供重要依據(jù)。CEA可由肺腺癌細(xì)胞直接產(chǎn)生,因此,肺癌患者血清或胸腔積液中CEA水平可顯著升高[5]。本研究中肺癌組約60%的患者為肺腺癌,故CEA在肺癌患者胸腔積液中水平顯著升高(P<0.01)。CYFRA21-1是細(xì)胞角蛋白19的片段,當(dāng)細(xì)胞死亡或惡變時(shí)其血清或胸水中CYFRA21-1可顯著升高,而CA125是卵巢癌常見的腫瘤標(biāo)志物。近年來研究[6]發(fā)現(xiàn),CA125對肺癌的診斷和預(yù)后具有一定的價(jià)值,CA125作為一個(gè)獨(dú)立指標(biāo),不受腫瘤大小、分期、組織類型和年齡分期的影響。本研究發(fā)現(xiàn)肺癌患者胸腔積液中CEA、CYFRA21-1和CA125水平明顯高于其它肺部良性疾病,與周明術(shù)等[7]的報(bào)告一致。進(jìn)一步的研究發(fā)現(xiàn)胸腔積液腫瘤標(biāo)志物的ROC曲線中CEA和CYFRA21-1的AUC均>0.70,其中CEA的AUC達(dá)到0.99,提示胸腔積液中CEA對肺癌的鑒別診斷具有較高的準(zhǔn)確性。NSE是小細(xì)胞性肺癌較理想的標(biāo)志物,研究發(fā)現(xiàn)NSE對小細(xì)胞性肺癌的診斷具有較高的靈敏度(83.0%~92.0%)和特異性(92.9%)[8]。本 研 究 發(fā) 現(xiàn) 肺 癌 患 者 胸 腔 積 液 中NSE水平高于對照組,但差異不具有統(tǒng)計(jì)學(xué)意義,可能與肺癌組中非小細(xì)胞性肺癌患者數(shù)量較少有關(guān)。
研究表明,肺惡性腫瘤患者胸腔積液中可檢出比血清更高濃度的腫瘤分子標(biāo)志物[9]。由于各種腫瘤分子標(biāo)志物在良惡性胸腔積液時(shí)其水平各不相同,故多采用腫瘤標(biāo)志物聯(lián)合檢測以提高肺癌診斷的陽性率[10]。盡管如此,但聯(lián)合檢測多種腫瘤標(biāo)志物時(shí)單一指標(biāo)絕對的升高和降低對結(jié)果的判定影響很大,同時(shí)由于胸水腫瘤標(biāo)志物的參考范圍尚未確定,充分挖掘數(shù)據(jù)信息建立診斷模型并對未知患者進(jìn)行合理預(yù)測就顯得尤為重要。線性和非線性建模是目前常用的兩類數(shù)據(jù)處理模式,可對數(shù)據(jù)進(jìn)行歸一化處理[(測定值-均值)/標(biāo)準(zhǔn)差]以消除量綱的影響。PLS-DA模型是常見的線性判別模式,本研究發(fā)現(xiàn),盡管該模型具有很高的特異性(98.1%)、較高的準(zhǔn)確性(78.1%)和預(yù)測能力(84.6%),但靈敏度較低(58.5%),提示本例數(shù)據(jù)不太適合PLS-DA線性建模分析,4種腫瘤標(biāo)志物可能與肺癌的最終診斷沒有明顯的線性相關(guān)性。相反,采用ANNMPL非線性模型其靈敏度、特異性和預(yù)測準(zhǔn)確性均在90.0%以上,ANN-MPL非線性數(shù)據(jù)擬合模型更適合本例數(shù)據(jù),利用ANN-MPL模型建模能夠挖掘出更多隱含信息。聯(lián)合測定胸水中CEA、NSE、CYFRA21-1和CA125的ANN-MPL模型的AUC達(dá)到0.997,提示ANN-MPL模型是一種很可靠的數(shù)據(jù)處理模式,有助于肺癌患者胸水的良惡性鑒別。
由于海量數(shù)據(jù)不斷產(chǎn)生,只有合理的數(shù)據(jù)挖掘和有效利用才能為臨床醫(yī)生提供更多有益信息,本文以肺癌患者4種胸水腫瘤標(biāo)志物建模對比分析體現(xiàn)了不同數(shù)據(jù)處理模型的重要性。由于健康人無法獲取胸腔積液也尚未建立其參考范圍,采用PLS-DA線性和ANN-MPL非線性模型以綜合指標(biāo)建立診斷和預(yù)測模型,從另一個(gè)角度揭示聯(lián)合檢測胸腔積液腫瘤標(biāo)志物對肺癌的診斷價(jià)值。當(dāng)然,最佳數(shù)據(jù)處理模式的獲取和強(qiáng)大專家診斷系統(tǒng)的建立需要海量的數(shù)據(jù)加以驗(yàn)證。只有確保數(shù)據(jù)的準(zhǔn)確性和大量臨床實(shí)踐對模型的后期驗(yàn)證和評估,才能為肺癌和其它腫瘤的早期診斷、分型,預(yù)后評估以及個(gè)體化靶向治療提供依據(jù),最終更好地服務(wù)于臨床,服務(wù)于患者。
[1]戈偉,伍綱.實(shí)用肺部腫瘤學(xué)[M].北京:人民軍醫(yī)出版社,2003:447-448.
[2]李嘵松.醫(yī)學(xué)統(tǒng)計(jì)學(xué)[M].2版.北京:高等教育出版社,2008:236-237.
[3]Spira A,Ettinger DS.Multidisciplinary management of lung cancer[J].New England Journal of Medicine,2004,350(4):379-392.
[4]Kasprzak A,Zabel M,Biczysko W.Selected markers(chromogranin A,neuron-specific enolase,synaptophysin,protein gene product 9.5)in diagnosis and prognosis of neuroendocrine pulmonary tumours[J].Pol J Pathol,2007,58(1):23-33.
[5]杭志強(qiáng),鄭明峰,黃捷輝.肺癌患者血清中癌胚抗原和細(xì)胞角蛋白片段19的檢測與臨床價(jià)值[J].中華腫瘤雜志,2011,33(11):847-849.
[6]陳鋒,曾雪峰,包勇,等.聯(lián)合檢測血清腫瘤標(biāo)志物對早期肺癌的臨床診斷價(jià)值[J].全科醫(yī)療,2010,24(11):90-91.
[7]周明術(shù),鄧述凱.腫瘤分子標(biāo)志聯(lián)合檢測對胸腔積液鑒別診斷價(jià)值分析[J].中華腫瘤防治雜志,2013,20(10):772-774.
[8]葉應(yīng)嫵,王毓三,申子瑜.全國臨床檢驗(yàn)操作規(guī)程[M].3版.南京:東南大學(xué)出版社,2006:701-702.
[9]朱婉凌,劉艷紅,于洪濤.聯(lián)合檢測CEA、CA125、CA153對肺癌并胸腔積液的診斷意義[J].中國社區(qū)醫(yī)師:醫(yī)學(xué)專業(yè),2011,13(11):207.
[10]景永宏,劉冬宇.腫瘤標(biāo)志物聯(lián)合檢測對肺癌診斷的應(yīng)用價(jià)值研究[J].中國現(xiàn)代醫(yī)生,2012,50(20):68-69.