昌吉職業技術學院 鄭成霞
拉曼光譜被稱為物質的指紋光譜,可以精確的反映出被測樣本所含物質及物質的濃度信息,已經被廣泛用于醫學、食品、檢測等領域的研究中。本文采用自適應迭代重加權懲罰最小二乘法對原始拉曼光譜數據做預處理,采用主成份分析法提取光譜特征,采用線性判別分析(LDA),對宮頸腺癌組織與宮頸鱗癌組織拉曼光譜的自動分類識別展開研究。研究結果表明,采用airPLS算法扣除背景噪聲,能夠提高分類正確率,主成份分析(PCA)結合線性判別分析法對兩類光譜數據的分類正確率達到了87.5%。
當身體組織發生病變時,會導致病變組織細胞生化成分的改變,同樣,若組織細胞的生化成份發生異常改變也會導致疾病的發生。這種生化改變通常會先于物理形態的改變。拉曼光譜可以實現分子水平的生化成份檢測,能夠敏感的檢測出組織細胞生化成份的變化,在疾病的早期檢測與診斷方面具有很大潛力。模式識別技術,是一種客觀的,可以實現高效自動分類識別的技術,例如指紋識別、人臉識別、字跡識別等。傳統的醫療檢測技術,存在著一些弊端。如大多數需要采集活體組織樣本進行檢測,屬于有創檢測,會給病人來帶創傷與痛苦,并且檢測時間較長,費用較貴。傳統的醫療檢測的正確性,在一定程度上依賴于操作醫師的知識技能水平與經驗,檢測結果有一定的主觀性。因此,人們就有了開發出能夠克服傳統檢測技術不足的新型檢測技術的迫切需求,在這種需求的驅動下,科研人員開始研究將模式識別技術與拉曼光譜技術結合起來,用于疾病的篩查、診斷中。
近年來,宮頸癌已成為威脅女性生命健康的第二大癌癥因素,統計數據表明,全球每年有52.9萬女性發病,每年大約有20萬患者死亡,死亡病歷中,發展中國家所占比例超過90%,中國宮頸癌每年的發病概率為12.96/10萬人,死亡比例為2.6/10萬人。宮頸癌現有的篩查技術有巴氏細胞學檢測、細胞基液檢測結合計算機輔助細胞檢測系統(cellular computer tomography,CCT),雖然這些篩查技術大大提升了宮頸癌的檢出率,但是,它們有共同的不足之處,就是,需要專業醫師對被測樣本的細胞學形態做出專業的判斷,這必然會在診斷結果中引入人為因數,從而降低診斷結果的可靠性。由于拉曼光譜的無創、敏感、精確性與模式識別技術的強大分類識別能力與智能客觀性,本研究將拉曼光譜與模式識別技術結合起來,采用線性判別分析(Linear Discriminant Analysis,LDA)對宮頸腺癌與宮頸鱗癌組織拉曼光譜做分類研究。
線性判別分析(Linear Discriminant Analysis,LDA)是一種簡單的線性模式識別算法。LDA在進行數據分類時,先訓練好分類模型,再使用訓練好的模型對數據進行分類。用于訓練模型的數據被稱為訓練集,被分類的數據稱為測試集。在訓練模型時,LDA算法將所有訓練集數據都投影到同一條直線上,但盡可能的使同類型數據的投影點之間的距離小,而不同類型的數據投影點之間的距離大。對測試集進行分類時,將測試集投影到與訓練集相同的直線上,測試集數據被判斷為投影點跟其投影點距離較近的訓練集同一類型。LDA算法在訓練分類模型時,需要預先知道訓練集數據的類型,因此它是有監督機器學習方法的一種。
airPLS是一種能夠快速處理高維數據的背景扣除算法。本文中所使用的宮頸癌組織拉曼光譜為856維數據,因此,airPLS算法被用于扣除本文中宮頸癌組織拉曼光譜的背景噪聲。主成分分析(Principal Component Analysis,PCA)是一種通過提取原始數據特征變量的方式,實現以較少的包含原始數據中絕大部分信息的特征變量來表示高維的原始數據的降維算法,不僅能夠達到降低原始數據維度的目的,所提取的特征變量還可以更好的表達各類數據間的差異,有益于后續的數據分類。因此,本文采用PCA對宮頸癌組織拉曼光譜做降維處理。
為了驗證airPLS算法扣除子宮頸癌組織拉曼光譜中的背景噪聲后,是否有助于提升數據分類的正確性。本文對扣除背景前后的光譜數據都做主成份分析處理,然后采用貢獻率相加超過85%的前3個主成份用于用線性判別分析做分類識別。

圖1 扣除背景后兩類宮頸癌組織拉曼光譜1,2主成份空間分布散點圖
對于原始光譜數據,采用主成份1(PC1)與主成份2(PC2)做線性判別分析,分類的正確率為73.3%。采用主成份1(PC1)與主成份3(PC3)做線性判別分析,分類的正確率為72.5%。采用主成份1(PC1),主成份2(PC2),主成份3(PC3)做線性判別分析,分類的正確率為80.8%。

圖2 扣除背景后兩類宮頸癌組織拉曼光譜1,3主成份空間分布散點圖

圖3 扣除背景后兩類宮頸癌組織1,2,3主成份空間分布散點圖

圖4 兩類宮頸癌組織拉曼光譜的判別式分圖
采用airPLS扣除光譜背景后,如圖1所示,在PC1與PC2主成份空間可以采用直線將宮頸腺癌與宮頸鱗癌組織的拉曼光譜分開,分類正確率為84.2%。如圖2所示,由PC1與PC3構成的主成份空間中,可由直線將兩類宮頸癌組織的拉曼光譜分開,分類正確率也是84.2%。如圖3所示,是宮頸腺癌組織與宮頸鱗癌組織拉曼光譜在PC1與PC2,PC3所構成的三維空間中的分類散點圖,可以觀察到兩類光譜分布重疊部分較少,具有可分性,采用前三個主成份做線性判別分析,分類正確率達到了87.5%。
圖4a是宮頸腺癌組織拉曼光譜在PC1,PC2,PC3三個主成份空間的判別式得分圖,圖4b是宮頸鱗癌組織拉曼光譜在PC1,PC2,PC3三個主成份空間的判別式得分圖。從圖4中可以直觀的觀察到,宮頸腺癌組織的判別式得分幾乎都位于-2.5-0之間,宮頸鱗癌組織的判別式得分大多分布在0-5之間。由此可知,可以以判別式得分為依據,將0作為區分兩類宮頸癌組織的分界值。從圖4中可看出,宮頸腺癌組織與宮頸鱗癌組織的判別式得分的標準差分別為:0.24與1.394,這一結果與圖3中腺癌組織拉曼光譜分布集中,鱗癌組織拉曼光譜分布分散相一致。
為了驗證LDA分類方法的可靠性,繪制出樣本工作特質曲線(ROC曲線),如圖5所示。ROC曲線下面積所占比例越大,則表明方法的可靠性越高。宮頸腺癌與鱗癌組織拉曼光譜線性判別分析結果的ROC曲線下方所占面積比例為87.5%,說明所采用方法具有較高的可靠性。 結束語:本文采用airPLS算法作為背景扣除算法,采用主成分分析結合線性判別分析(PCA-LDA)對120條宮頸癌組織拉曼光譜,其中60條腺癌光譜,60條鱗癌光譜做了分類研究。采用PCA-LDA對兩類原始光譜進行分類,分類正確率為80.8%,對扣除背景后的兩類光譜的分類正確率達到了87.5%。研究結果表明,采用airPLS算法扣除背景能夠提升PCA-LDA的分類正確率,同時也表明,PCA-LDA方法能夠較好的將宮頸腺癌組織拉曼光譜與宮頸鱗癌組織拉曼光譜區分開來,且分類結果具有較高可靠性。

圖5 兩類宮頸癌組織拉曼光譜LDA結果的ROC曲線