常 偉,丁明翠,焦 潔,王 威,姚 武
1)平煤神馬醫(yī)療集團(tuán)總醫(yī)院疾控中心 河南平頂山 467000 2)鄭州大學(xué)公共衛(wèi)生學(xué)院勞動衛(wèi)生與職業(yè)病學(xué)教研室 鄭州 450001 3)河南省職業(yè)病防治研究院 鄭州 450052
塵肺病是由于在生產(chǎn)過程中長期吸入生產(chǎn)性粉塵,從而引起的以肺組織纖維化為主的全身性疾病。目前在我國接塵工人中塵肺病的發(fā)病率依然很高,且尚無有效的治療方法。塵肺病的主要診斷依據(jù)依然是傳統(tǒng)的高仟伏胸片,如果胸片質(zhì)量不合格則會導(dǎo)致漏診或誤診[1]。近年來,隨著醫(yī)學(xué)影像技術(shù)的進(jìn)步,數(shù)字化X線攝影(digital radiography,DR)憑借圖像質(zhì)量較好、操作方便快捷、信息準(zhǔn)確、輻射小等優(yōu)點(diǎn)而被廣泛應(yīng)用于塵肺病的篩查[2],但DR體檢成本較高,且目前我國使用的DR種類、型號各不相同,沒有統(tǒng)一的參數(shù)設(shè)置[3]。另外,由于放射性危害的存在,部分職工可能對胸片檢查存在抵觸情緒[4]。因此,建立一種全新的塵肺病篩查模型,改進(jìn)塵肺病的二級預(yù)防措施,對塵肺病的防治具有一定的現(xiàn)實(shí)意義。
支持向量機(jī)(support vector machines, SVM)在理論基礎(chǔ)方面具有較強(qiáng)的優(yōu)勢,而且對未知的樣本具有較好的泛化能力,在包括醫(yī)學(xué)在內(nèi)的許多領(lǐng)域都有應(yīng)用[5-6]。研究[7]表明,包括轉(zhuǎn)化生長因子β1(transforming growth factor-β,TGF-β1)、結(jié)締組織生長因子(connective tissue growth factor,CTGF)、血小板源性生長因子(platelet derived growth factor,PDGF)在內(nèi)的多種細(xì)胞因子對肺成纖維細(xì)胞分裂增殖過程的調(diào)控以及膠原蛋白的合成、降解均起著關(guān)鍵作用,在塵肺病的發(fā)生發(fā)展過程中扮演著重要角色。本研究擬基于人血清TGF-β1、CTGF、PDGF含量建立塵肺病篩查的SVM模型,為塵肺病的篩查提供科學(xué)依據(jù)。
1.1研究對象選取在平頂山煤業(yè)集團(tuán)職業(yè)病醫(yī)院就診,并按照《塵肺X線診斷標(biāo)準(zhǔn)》(GBZ70-2009)確診的70例男性塵肺病(矽肺29例,煤工塵肺41例)患者(塵肺病組),均排除免疫性疾病、肺部疾病或其他纖維化疾病;工種主要為采礦工、煤塵工、掘進(jìn)工,年齡(65.5±5.4)歲,接塵年限為(26.41±6.38) a。另選取在河南省某醫(yī)院體檢的77例健康男性(對照組),排除有粉塵接觸職業(yè)史者,排除有心、腦、肝、腎、肺等臟器的器質(zhì)性疾病者或有其他纖維化疾病者,年齡(60.1±8.2)歲。
所有研究對象均取晨起空腹靜脈血2 mL于非抗凝采血管內(nèi),室溫靜置30 min后3 000 r/min離心10 min,收集血清并置于-80 ℃保存?zhèn)溆谩?/p>
1.2檢測方法采用ELISA法檢測血清中TGF-β1、CTGF、PDGF含量,嚴(yán)格按照人血清TGF-β1試劑盒(深圳晶美生物科技有限公司)和人血清CTGF、PDGF試劑盒(上海船夫生物科技有限公司)操作說明書步驟操作。
1.3模型的構(gòu)建血清TGF-β1、CTGF、PDGF的含量均不服從正態(tài)分布,對數(shù)據(jù)進(jìn)行常用對數(shù)變換使其服從正態(tài)分布。采用SPSS Clementine軟件中的Partition節(jié)點(diǎn),將所有樣本按3∶1的比例進(jìn)行隨機(jī)分割,分為訓(xùn)練集(n=106)和預(yù)測集(n=41),為確保結(jié)果具有可重復(fù)性,將隨機(jī)種子數(shù)設(shè)置為1234567。
Fisher判別分析模型的構(gòu)建:Fisher判別函數(shù)是輸入變量的線性函數(shù),公式如下:y=a1x1+a2x2+a3x3+…+apxp,判別系數(shù)ap表示各輸入變量對于判別函數(shù)的影響,y表示樣本在低維Y空間中的某個(gè)維度。Fisher判別分析模型的主要參數(shù)如下,Use partitioned data: no; method: Enter; Mode: Expert; Prior probabilities: All groups equal; Use covariance matrix: Within-groups。
SVM模型的構(gòu)建:SVM模型的主要參數(shù)設(shè)置如下,Use partitioned data:no;Mode:Expert;Kernel type:Polynomial;Gamma: 1;Stopping criteria:1.0×10-3。
1.4模型的評價(jià)采用診斷試驗(yàn)的方法對模型進(jìn)行評價(jià)。評價(jià)的指標(biāo)主要包括準(zhǔn)確度、靈敏度、特異度、陽性預(yù)測值、陰性預(yù)測值、受試者工作特征曲線下面積(area under receiver operating characteristic curve,AUC)。
1.5統(tǒng)計(jì)學(xué)處理采用SPSS 21.0處理數(shù)據(jù)。采用兩獨(dú)立樣本t檢驗(yàn)比較2組血清TGF-β1、CTGF、PDGF含量的差異。采用MedCaLcV11.6.0.0軟件比較兩種模型的AUC。檢驗(yàn)水準(zhǔn)α=0.05。
2.1對照組和塵肺病組血清中3種細(xì)胞因子含量的比較結(jié)果見表1。塵肺病組血清TGF-β1和PDGF含量高于對照組,但血清CTGF含量2組間差異無統(tǒng)計(jì)學(xué)意義。

表1 對照組和塵肺病組血清3種細(xì)胞因子含量的比較 μg/L
2.2兩個(gè)模型的診斷結(jié)果及模型評估診斷結(jié)果見表2、3。模型評估結(jié)果見表4。Fisher判別分析模型和SVM模型預(yù)測塵肺病的靈敏度均較高,為95.0%,而SVM模型的特異度和準(zhǔn)確度均高于Fisher判別分析模型,且陽性預(yù)測值和陰性預(yù)測值也較高。Fisher判別分析模型和SVM模型的AUC均大于0.8,說明兩種模型的準(zhǔn)確度都較好;SVM模型的AUC大于Fisher判別分析模型(Z=3.181,P=0.002)。

表2 Fisher判別分析模型預(yù)測結(jié)果

表3 SVM模型預(yù)測結(jié)果

表4 兩種模型對預(yù)測集的診斷結(jié)果
肺纖維化的形成是纖維原性細(xì)胞因子和抗纖維原性細(xì)胞因子作用失衡的結(jié)果[8]。現(xiàn)有的研究[9-11]表明,包括TGF-β1、CTGF在內(nèi)的細(xì)胞因子在肺組織纖維化的發(fā)生發(fā)展中扮演著重要的角色。TGF-β1被認(rèn)為是一種關(guān)鍵的促纖維化細(xì)胞因子,并且作為重要的刺激信號在肺纖維化、腎纖維化、肝纖維化等的發(fā)生發(fā)展過程中發(fā)揮著關(guān)鍵作用[9,12-13]。TGF-β1可以在損傷部位周圍通過募集成纖維細(xì)胞,從而刺激未成熟的成纖維細(xì)胞的增生分化,最終直接造成細(xì)胞外基質(zhì)的沉積;成纖維細(xì)胞受刺激后還會導(dǎo)致蛋白酶產(chǎn)生抑制或降解,進(jìn)一步參與纖維化的發(fā)生發(fā)展[10]。另有研究[11-12]證明PDGF和CTGF可能通過刺激成纖維細(xì)胞的增殖分化從而產(chǎn)生促纖維化作用,進(jìn)一步導(dǎo)致纖維化疾病或增生性疾病的發(fā)生。目前的研究結(jié)果提示這3種細(xì)胞因子可能通過相互作用而在肺纖維化過程中發(fā)揮著關(guān)鍵作用。本研究結(jié)果顯示,塵肺病組血清TGF-β1和PDGF的表達(dá)水平均高于對照組,與上述研究一致,但未發(fā)現(xiàn)CTGF的表達(dá)水平在兩組之間的差異,這可能是因?yàn)楸狙芯繕颖玖枯^少,具體原因不明,有待進(jìn)一步探討。
塵肺病常常由于早期沒有明顯的癥狀或只有輕微的癥狀,肺功能也沒有太大變化而被患者忽視。然而,肺組織一旦受損,所形成的肺纖維化是不可逆轉(zhuǎn)的,且目前國內(nèi)外均無有效的針對性治療藥物。因此,塵肺病的篩查及生物檢測十分重要。肺纖維化的發(fā)生發(fā)展涉及多種因子的調(diào)控,單一的生物標(biāo)志物對塵肺病的篩查價(jià)值有限,聯(lián)合多種生物標(biāo)志物建立塵肺病輔助篩查模型,在臨床應(yīng)用上具有一定的意義。目前數(shù)據(jù)挖掘在醫(yī)學(xué)上大多應(yīng)用于疾病的輔助診斷,其可以通過降低主觀性判斷的失誤率,從而為醫(yī)生提供較好的輔助診斷。Fisher判別分析模型作為一種傳統(tǒng)的判別分析方法,在分析非線性數(shù)據(jù)時(shí)由于分析時(shí)輸入變量之間需要滿足許多條件,比如變量之間相互獨(dú)立、變量之間不存在交互作用且符合正態(tài)分布,因此,F(xiàn)isher判別分析應(yīng)用時(shí)存在一定的局限性。SVM的理論是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的基礎(chǔ)上,其在處理小樣本數(shù)據(jù)、高維模式識別以及非線性問題中具有很多優(yōu)勢,能夠保證結(jié)果找到的極值解是全局最優(yōu),而不是局部最小值,從而保證了對樣本的泛化能力。SVM算法在處理小樣本數(shù)據(jù)、高維模式識別以及非線性問題中更具優(yōu)勢[14]。
本研究基于人血清中3種與肺組織纖維化密切相關(guān)的細(xì)胞因子,建立了SVM模型與Fisher判別分析模型,結(jié)果顯示兩種模型的AUC均大于0.8,說明兩種模型的準(zhǔn)確度均較好。Fisher判別分析模型和SVM模型的靈敏度均為95.00%,這可能是因?yàn)轭A(yù)測集的樣本量偏小,SVM模型自身的優(yōu)勢未能充分發(fā)揮出來。而SVM模型的特異度和準(zhǔn)確度均高于Fisher判別分析模型。此外,SVM模型的AUC達(dá)到了0.9以上,預(yù)測效果亦優(yōu)于Fisher判別分析模型,由此也體現(xiàn)了SVM模型相比傳統(tǒng)的Fisher判別分析模型更具優(yōu)勢。
該模型仍處于初步探索階段,目前仍面臨一些問題:①疾病鑒別診斷問題。3種細(xì)胞因子均與纖維化有關(guān),因此存在肺、肝、腎纖維化的鑒別診斷問題,需要引入特異性指標(biāo)來鑒別。②3種細(xì)胞因子的檢測方法均采用試劑盒法,臨床應(yīng)用需要進(jìn)一步完善標(biāo)準(zhǔn)和質(zhì)量控制。③模型的穩(wěn)定性需要大量樣本進(jìn)行檢驗(yàn)。塵肺病患者例數(shù)較少,接下來可進(jìn)一步通過增加塵肺病患者例數(shù),從而建立更加完善的塵肺病篩查模型。
綜上所述,本次研究建立了基于人血清TGF-β1、PDGF、CTGF含量的塵肺病篩查支持向量機(jī)模型,對于塵肺病的篩查具有一定的實(shí)際應(yīng)用價(jià)值。