謝冰雪 姚熒 袁文博 鄭曉圓 姜孫旻 劉勸Δ
(1. 江南大學附屬醫院(無錫市第四人民醫院)腫瘤科,江蘇 無錫 214000;2. 南京醫科大學附屬無錫婦幼保健院藥學部,江蘇 無錫 214000)
惡性腫瘤嚴重危害人類健康,是當今世界人類的主要致死原因之一[1]。惡性腫瘤的早期診斷、早期治療是提高其生存期的最重要途徑之一[2]。
由于現今診斷方法的局限,大部分患者初診腫瘤時往往已是中晚期,而大多數惡性腫瘤僅在初期階段可獲得治愈機會。根據2015年國家癌癥中心報道,我國腫瘤發病率前兩位為肺癌、胃癌,這二種腫瘤也是我國患者因腫瘤死亡的主要原因[3]。將近2/3的肺癌患者發現時已經無法進行手術治療。對于Ⅰ期肺癌患者,經過手術治療,5年生存率高達54%,而對于未經治療的5年生存率只有6%。大多數晚期發現患者都在1到2年內發病身亡[4-5]。胃癌也同樣如此,絕大部分胃癌患者初診時已是中晚期。對于早期胃癌來說,5年生存率>90%,遠高于進展期胃癌。早期胃、肺癌診斷率低,部分原因是現有的早期檢測手段,如電子計算機斷層掃描(Computed tomography,CT),正電子發射計算機斷層顯像(Positron emission tomography-computed tomography,PET-CT)價格昂貴,且患者依從性差,因此探尋臨床上常規、簡單有效且具有較高診斷價值的方法至關重要[6-8]。患者血常規以及生化指標是患者入院檢查的必檢項目,如果能夠將其結果通過特定的模型進行計算模擬,找出腫瘤患者和健康人群的區別,或可成為腫瘤早期發現簡單易行的手段。
本研究基于血常規以及生化指標結果,采用主成分分析(Principal component analysis,PCA)、正交偏最小二乘判別分析(Orthogonal partial least-squares regression-discriminate anaysis,OPLS-DA)等化學計量學模型[9-10]評估分析肺癌、胃癌患者與健康體檢者血常規、生化指標的區別。為肺癌、胃癌早期檢查提供數據支持,并力行將評估模型用于臨床實踐。
1.1.1臨床資料
標本來源:腫瘤組均為原發惡性腫瘤,標本來源于2014年1月到2015年12月在無錫市第四人民醫院住院手術患者,全部病例己經手術和病理確診。
肺癌組:72例,其中男35例,女37例,34歲~75歲;胃癌組:57例,其中男30例,女27例,38歲~66歲;對照組:對照組隨機選取健康體檢者50例,其中男25例,女25例,28歲~70歲,見表1。
以上各組均排除糖尿病、肝病、腎病、傳染病、血液病等疾病。所有的臨床指標均為手術前數據,(若有多次檢測結果,取均值),血常規采集于抗凝管中、血生化指標采集于促凝管中用于檢測。

表1 入組人員信息情況表
1.1.2血常規、生化指標檢測
血常規項目使用抗凝全血在LH750全自動血液分析儀測定;生化指標均使用靜脈血清在P800全自動生化分析儀測定。胃癌組和肺癌組對比指標,見表2:血常規指標20項、生化指標45項;胃癌組和肺癌組與正常患者對比指標,見表3:血常規20項、生化指標16項。

表2 胃癌組和肺癌組對比指標
1.1.3數據處理
所有的臨床指標均為手術前數據,(若有多次檢測結果,取均值);篩選:每種指標在每組內的缺失比例小于20%,每個樣本的指標缺失比例小于20%;以組內均值填補缺失值;組間數據對齊。
原始數據導入SIMCA-P 13.0;所有變量做自動標準化(Unit variance scaling,UV Scaling)處理,消除變量的量級對統計模型的影響;主成分分析(Principal component analysis,PCA):從高維變量中提取出能夠表征原始數據的主成分;正交-偏最小二乘回歸(Orthogonal partial least-squares regression-discriminate anaysis,OPLS-DA):根據分組信息對原始數據進行提取和壓縮;最后利用OPLS-DA模型的變量投影重要性(Variable importance in projection,VIP)參數篩選組間差異指標。

表3 胃癌組和肺癌組與正常患者對比指標
胃癌組與肺癌組無監督的主成分分析模型不穩定,見圖1a,在分組信息未知的情況下,個體差異比較大。有監督的OPLS-DA模型較穩定,見圖1 b,根據分組信息構建模型,組間差異較明顯。組間差異指標(即VIP>1)主要有補體C3、紅細胞分布寬度、膽堿酯酶、補體C4、B-羥基丁酸、嗜酸性粒細胞絕對值、總蛋白、球蛋白、前白蛋白、紅細胞壓積、血紅蛋白、乳酸脫氫酶、視黃醇結合蛋白、淋巴細胞比例、免疫球蛋白M、嗜中性粒細胞比例、G-谷酰胺基轉移酶和白細胞,見表4。

圖1 胃癌組-肺癌組的指標差異分析注:藍色:肺癌,紅色:胃癌。a:無監督的主成分分析,A:表示主成分分析模型中的主成分的個數;N表示總樣本量;R2X表示模型的解釋率(即主成分所含有的信息占原始數據的比例);Q2表示模型的穩定性(越接近1表示模型越穩定)。b:有監督的OPLS-DA模型。A表示模型的結構,與分組相關主成分數+正交主成分數+0;N表示總樣本量;R2X/R2Y表示模型對原始數據和分組信息的解釋率;Q2表示模型的穩定性(R2Y和Q2越接近1表示組間差異越明顯)

表4 胃癌組肺癌組間的差異指標
2.2.1 胃癌組-肺癌組-對照組無監督的主成分分析模型不穩定,見圖2a,在分組信息未知的情況下,個體差異比較大。有監督的OPLS-DA模型不太穩定,見圖2b,三組組間有差異。

圖2 胃癌組-肺癌組-對照組指標差異分析注:藍色:肺癌,紅色:胃癌,綠色:對照。a:無監督的主成分分析模型;b:有監督的OPLS-DA模型。
2.2.2 胃癌類-對照組有監督的OPLS-DA模型較穩定,見圖3,組間差異明顯,主要差異指標有:白蛋白、紅細胞、紅細胞分布寬度、紅細胞壓積、血紅蛋白、白球蛋白比例、總蛋白、單核細胞比例、單核細胞絕對值和淋巴細胞絕對值,見表5。

圖3 胃癌類-對照組有監督的OPLS-DA模型

表5 胃癌類-對照組組間差異指標
2.2.3 肺癌類-對照組有監督的OPLS-DA模型較穩定,見圖4,組間差異明顯,主要差異指標有:白球蛋白比例、白蛋白、淋巴細胞比例、單核細胞絕對值、紅細胞、球蛋白、紅細胞壓積、血紅蛋白、堿性磷酸酶、G-谷酰胺基轉移酶、單核細胞比例、嗜中性粒細胞比例、淋巴細胞絕對值和葡萄糖,見表6。

圖4 肺癌類-對照組有監督的OPLS-DA模型

表6 肺癌類-對照組組間差異指標
癌癥患者伴有血液常規、生化常規等指標的不同程度的變化,這種變化可能具有腫瘤特征模式。有效癌癥治療的前提在于早期診斷,腫瘤診斷從已形成了影像診斷,內鏡診斷、化學診斷、組織診斷、細胞診斷等一系列的診斷方法。但至今仍未發現敏感度和特異性均十分理想的早期診斷方法[11],因此合適的腫瘤早期診斷方法是達到普篩目的的首要前提[12]。
偏最小二乘回歸法(Partial least-squares regression,PLS)是采用信息綜合與篩選技術的多元回歸建模方法[8]。正交偏最小二乘判別分析(Orthogonal partial least-squares regression-discriminate anaysis,OPLS-DA)是在PLS-DA基礎上發展起來的,由于過濾了X中與Y不相關的信息噪聲,因此OPLS-DA方法比PLS-DA能提高模型的預測效果。OPLS-DA方法不僅可以提高癌癥的診斷效果,而且可以避免過度診斷,通過常規的血液學以及生化指標結合化學計量學模型即可達到早期診斷的目的[13]。
胃癌和肺癌的許多患者在診斷時已是晚期,失去了最佳治療時機[14-15]。目前,在我國早期胃癌的診斷率仍在10%左右,而在一些先進國家如日本,其早期胃癌診斷率可高達50%-70%[16]。內鏡技術對早期胃癌病變的診斷有一定的價值和意義[17],然而內鏡屬于侵入性檢查,費用較高且患者依從性差,不適于胃癌大規模篩查和胃癌的早期診斷。在肺癌篩查方法中,痰細胞學檢測是進行早期肺癌篩查最傳統的方法[18-19],但易受取材、保存、制片、染色等諸多因素的影響。而影像學篩查費用過高,患者依從性差[20]。本研究擬通過對常規的血液學以及生化指標結合化學計量學模型即可達到早期診斷的目的。
從主成分分析結果可見,盡管胃癌組與肺癌組模型不穩定,但在分組信息未知的情況下,個體差異比較大。有監督的OPLS-DA模型較穩定,根據分組信息構建模型,組間差異較明顯。對于肺癌組和對照組以及胃癌和對照組有監督的OPLS-DA模型均較穩定(Q2 0.406),組間差異均較明顯。因此,通過有監督的OPLS-DA模型可為胃癌和肺癌的診斷以及鑒別提供數據支持,為腫瘤早期診斷提供理論基礎。