陳紹璞,杜宇,鄭麗娜,王志浩,劉琪
(中國刑事警察學院 法醫病理教研室,遼寧 沈陽 110854)
肺血栓栓塞癥(pulmonary thromboembolism,PTE),指來自靜脈系統或右心血栓脫落后阻塞肺動脈或其分支所導致的疾病。深靜脈血栓(Deep venous thrombosis,DVT)是引起PTE的重要血栓來源,多達95%為下肢深靜脈血栓[1]。因PTE臨床表現非特異[2],起病急,死亡突然,患者家屬常不能理解和接受,極易引發糾紛,故PTE導致猝死的案例是法醫實際檢案的“常客”,約占同期尸體檢驗案例總數的1%~5%[3]。推斷DVT形成時間對于PTE血栓的溯源,認定PTE猝死案件中的主體責任,具有重要意義。目前對于DVT形成時間推斷的研究多是基于常規組織病理學技術、免疫組織化學技術等進行的,其結果直觀明顯,容易分析,但其用于推斷DVT形成時間存在主觀性,有一定差異,缺乏客觀的度量標準,需要尋找一種盡可能減小主觀因素影響的DVT形成時間推斷方法[3]。
近年來,傅里葉變換紅外光譜(Fourier transform infrared,FTIR)以其非侵入性、重復性好等優點被廣泛用于生物醫學領域。FTIR分析作為一種客觀的化學分析方法,能準確靈敏地檢測組織細胞內物質基團振動水平變化,當蛋白質、脂質、核酸等受損時,其紅外光譜也會發生相應的變化[4]。基于這一特性,FTIR在法醫學疾病診斷[5-6]、損傷鑒定[7-9]、死亡時間和損傷時間的推斷[10-11]等方面有較為深入的研究和應用,同時也為DVT形成時間的客觀推斷提供了新的思路。以往研究已對骨[12-13]、皮膚[14]、心臟[15]、肝臟[16]等多種生物組織進行了紅外光譜分析,但不同組織的預處理方式各不相同,特征波段也有所差異。同時尚未見到對血栓組織進行紅外光譜分析相關的研究。故對于血栓組織的FTIR檢測與分析條件的研究具有重要意義。
在實際FTIR檢測過程中,常因樣品自身因素、實驗操作以及環境因素等導致出現異常樣品,在樣品集中引入這些異常樣品會導致紅外光譜的建模穩定性和預測精度有所下降[17]。而生物組織成分復雜,變異度大,對生物組織進行FTIR分析時,先對異常樣品進行篩選和剔除,有利于提高建模效果[18]。
馬氏距離D2是廣義平方距離的一種,以多元正態分布理論為基礎,有效地考慮了均值、方差、協方差三個參數,是一個能夠全面描述總體多元結構的綜合指標[19]。馬氏距離通過計算不同樣本數據到樣本集中心值的距離來體現樣本間的區別。主成分分析法(Principal Component Analysis,PCA)是數學上用來降維的一種方法,通過正交變換將一組多個變量重新組合為一組新的互相無關的綜合變量,以減少變量的數量,并通過選取貢獻率占累計貢獻率較大的主成分(PCs)表示原變量的信息[20]。將PCA與馬氏距離相結合,即使用主成分得分代替原數據計算馬氏距離不僅能反映全部數據信息,而且也能壓縮參加計算馬氏距離的變量數,并能保證 M 矩陣不存在共線問題[21]。
本研究以大鼠DVT為研究對象,進行FTIR檢測,采用偏最小二乘回歸(Partial least squares regression,PLSR)建立光譜分析模型建模,采用PCA結合馬氏距離法篩選血栓光譜異常值,探究該方法對血栓紅外光譜分析建模能力的提升效能,以期為利用FTIR技術分析DVT,推斷DVT形成時間方面研究提供方法參考。
采用動物實驗獲取深靜脈血栓樣品,選擇健康成年(7~8周齡)雄性SD大鼠90只,體重250~300 g。采用下腔靜脈狹窄法[22-23]建立大鼠DVT模型,手術具體操作為:于左腎靜脈水平下方2~3 mm范圍內設置狹窄點,用絲線結扎下腔靜脈,致管腔約90%狹窄。分別于造模后1,3,5,7,14,21 d(每組15只大鼠)采用過量乙醚方式對大鼠行安樂死,剪取狹窄點至左右髂總靜脈分叉之間的全段下腔靜脈(含血栓)進行檢驗。本研究中動物實驗均符合相應倫理要求。
剝離下腔靜脈壁取出全部血栓組織,置于1 mL離心管中用眼科剪充分剪碎混勻后取0.01 g均勻鋪于清潔載玻片上,置于恒溫干燥箱中25 ℃干燥2 h,刮取少量組織采用溴化鉀壓片法進行FTIR檢測。傅里葉變換紅外光譜儀(Nicolet 5700,賽默飛世爾科技公司)設置掃描范圍4 000~400 cm-1,分辨率4 cm-1,重復掃描32次。
采用The Unscrambler X10.4軟件處理和分析光譜數據。預處理方法選擇基線校正(Baseline)、標準正態變換(SNV)、多元散射校正(MSC)、矢量標準化(Unit vector normalization)、平滑(Smoothing),采用主成分分析(Principal Component Analysis,PCA)計算主成分得分,分析主成分貢獻率。采用偏最小二乘回歸(Partial least squares regression,PLSR)對血栓紅外光譜進行建模分析,每組按照10∶3比例隨機分成校正集和預測集,模型內部采用交叉驗證法(Cross validation)進行驗證。模型性能及預測效果通過決定系數R2、交叉驗證均方根誤差(Root mean square error of cross validation,RMSECV)、預測均方根誤差(Root mean square error of prediction,RMSEP)等指標進行描述。模型預測能力以目標函數F[24]進行評價:
計算主成分得分:
An×f=Xn×m×Pm×f
(2)
式(2)中X為光譜矩陣;P為主成分載荷矩陣;n為樣品數;m為變量數;f為主成分數。
對光譜數據進行中心化處理:
(3)
計算標準光譜數據集的協方差矩陣:
(4)
計算樣品集中各樣品到平均光譜的馬氏距離:
(5)
式(5)中M-1為標準光譜數據集的協方差陣的逆矩陣;為樣品集數據;代表平均光譜數據。
馬氏距離閾值計算:
(6)
式(6)中為馬氏距離平均值;為馬氏距離標準差;e為調整剔除閾值的權重系數。
采集的90個DVT光譜數據如圖1所示。對剔除前數據進行PLSR,其交叉驗證R2為0.743,小于0.75,模型穩定性欠佳,預測R2為0.785,RMSEP為3.208 d,誤差較大,預測效果不理想。部分異常樣品的存在可能影響了血栓光譜建模的效果,需要對異常樣品進行篩選和剔除。
在進行PCA之前,應當盡量減小光譜中的噪聲干擾。為提高血栓光譜穩定性,本研究測試了平滑、基線校正、SNV、矢量歸一化、MSC等生物組織FTIR分析中常用的預處理方法的處理效果,對處理后的數據進行PLSR建模后,結果如表1所示。除平滑外,MSC、矢量歸一化、SNV和基線校正均使建模效果在原始光譜基礎上有明顯提升,其中以MSC對建模效果提升為最佳,其預測決定系數R2P為0.882,較原始光譜提升了12.4%; RMSEP為2.381 d,較原始光譜減小了25.8%。
表1 不同預處理方法對建模效果的影響
由于血栓樣品內部組分分布和顆粒大小不均勻,溴化鉀壓片厚度不一等原因,有可能因散射效應引入干擾而將重要信息掩蓋,而多元散射校正(MSC)是一種將散射信號與化學吸收信息進行分離的一種預處理方法,可以消除由于樣品顆粒和壓片厚度不均勻,而造成的光譜差異[25]。因此,根據目標函數值選擇最大的MSC法作為本研究的光譜處理方法。
對經MSC處理后的血栓光譜數據進行PCA,圖2顯示了提取到的7個主成分的特征值貢獻率。第一主成分的貢獻率為66.08%,前6個主成分的累積貢獻率達到99.06%,第七主成分貢獻占比小于1%,故選取前6個主成分得分進行馬氏距離計算,結果如圖3所示。從各樣品馬氏距離分布情況看,88,15,79,49等樣品呈現明顯離群分布。
圖2 PCA主成分累積貢獻率
圖3 馬氏距離分布圖
為了進一步對異常樣品進行判別,采用權重公式對馬氏距離的篩選閾值進行測定。設定9個不同的權重系數e,即3,2.5,2,1.5,1,0.5,0.4,0.3,0.2,分別計算出篩選閾值后,將大于該閾值的樣品列為異常樣品剔除,對剔除后的樣品集再次進行PLSR分析,結果如表2所示。計算各權重系數下的目標函數值,結果如圖4所示,所有權重系數下的目標函數值均大于剔除異常樣品前,且隨權重系數的減小,模型預測能力出現先上升后下降的現象。對于各權重情況,當權重為3和2.5時,模型預測能力較差,目標函數值均為18.940,剔除樣品均為4個;進一步減小權重系數模型預測能力提高,當權重為1時,預測能力達到最優,目標函數值為28.877,該權重下的預測R2為0.905,較剔除前提升了2.61%,RMSEP為2.134 d,較剔除前降低了10.3%,共剔除樣品9個。模型預測能力得到有效提升。
表2 不同權重系數的剔除樣品數及PLSR建模效果
圖4 不同權重系數下的目標函數值
權重系數的設定是判別和剔除異常樣品的關鍵因素。研究發現,采用不同的權重劃分異常值,對血栓光譜建模的預測能力有不同程度的影響,當權重過大會導致樣品剔除不夠,而權重過小則會導致樣品剔除過多,都會導致模型預測能力下降。進一步分析被剔除的9個樣品,產生差異的原因可能是由于動物個體差異所致。血栓的形成、溶解及機化再通是一個復雜的動態變化過程,需要多種效應細胞以及調節因子共同參與[3]。不同個體之間,血栓的進展有一定區別,從而導致了血栓在生物化學方面存在一定差異。紅外光譜是一種十分靈敏的計量儀器,當這種差異較大時,則會達到儀器的檢測閾值,從而產生足以影響機器學習建模效果的誤差。采用PCA結合馬氏距離法對樣品集中的異常值進行篩選,可以判定異常值,剔除異常樣品,從而提升血栓紅外光譜的建模效果。
利用PCA結合馬氏距離法能夠有效地剔除血栓組織紅外光譜樣品集中存在的異常樣品,提高了紅外光譜PLSR建模的預測能力。不同的權重系數對血栓光譜的PLSR分析預測能力有不同程度的影響,以權重為1篩選異常值,剔除異常樣品后PLSR預測精度最好。為DVT的紅外光譜分析提供了方法依據,為利用FTIR技術推斷大鼠DVT形成時間提供了理論基礎,豐富了FTIR用于推斷法醫學損傷時間、法醫學精準推斷死亡原因的研究內容。