張飛飛,周濤,陸惠玲,梁蒙蒙,楊健
(1.寧夏醫科大學 公共衛生與管理學院,銀川 750000;2.寧夏醫科大學 理學院,銀川 750000; 3.寧夏智能信息與大數據處理重點實驗室,銀川 750021)
肺癌是許多國家癌癥相關死亡的首要原因[1],傳統診斷方法有X射線、活檢、核磁共振等。PET/CT用于腫瘤的診斷越來越普及[2],雖然給腫瘤的診療帶來曙光,但大量圖像也給醫生帶來沉重的負擔,因此,計算機輔助診斷(computer aided diagnosis,CAD)的發展將成為一種必然。Sachdeva[3]等提出了一種腦腫瘤CAD系統,聯合GA-SVM和GA-ANN兩種模型,在不同數據集上最高正確率分別達到91.7%和94.9%;Rendon-Gonzalez[4]等使用支持向量機(support vector machine,SVM)在肺癌CAD系統中進行特征分類,正確率為78.08%;Wang[5]等結合ANN、遺傳算法(genetic algorithm, GA)和粗糙集(rough set,RS)構建乳腺癌CAD模型,精度達到98.1%;尚丹[6]利用SVM進行肺癌的早期診斷,使用GA和PSO優化參數,精確度分別為90.91%和93.18%。
特征級融合在保留重要信息的基礎上,實現信息量的壓縮,處理速度快,但特征之間的冗余性和相關性使得“維數災難”成為難題,屬性約簡是解決其行之有效的措施。而RS的屬性約簡和GA的尋優能力在約簡過程中扮演著不可或缺的角色。在CAD診斷階段,SVM是常用分類器,但單個SVM不能精確判別對象所屬關系,降低了穩定性和泛化能力,故常將SVM作為成員分類器,進行SVM集成以提高泛化能力[7]。
本研究提出基于變精度粗糙集(variable precision rough set,VPRS)、GA和SVM的肺部腫瘤CAD模型。首先構造適應度函數,采用無回放余數隨機選擇法、均勻交叉和高斯變異算子進行遺傳操作;然后在不同的樣本空間中分別提取特征構造特征空間,運用VPRS-RUGGA-SVM模型進行約簡和分類識別;最后采用集成的方式提高模型的穩定性和分類性能。
為緩解Pawlak RS只能處理精確分類問題的局限,Ziarko提出了VPRS的概念,引入分類錯誤率β(0≤β<0.5),將下近似由完全包含擴展為部分包含,定義如下:
定義1[8],條件屬性P關于決策屬性Q的β約簡是P的一個子集red(P,Q,β),且滿足:
(1)γ(P,Q,β)=γ(red(P,Q,β),Q,β)
(2)從red(P,Q,β)中去掉任何一個屬性,都將使表達式(1)不成立。
定義2[9],決策屬性集Q對條件屬性集P的β依賴度定義為:
GA算法通過選擇、交叉、變異等操作,實現個體適應性的提高。雖然目前GA在各個領域得到廣泛的應用,但是仍然存在過快收斂和局部最小的問題。不同的遺傳算子對結果影響較大,下面簡要介紹遺傳算子和本研究選用的參數組合。
2.2.1選擇算子 無放回余數隨機選擇操作方法可以確保適應度比平均適應度大的個體一定能夠被遺傳到下一代,誤差較小,其具體操作過程如下:
(1)計算群體中每個個體在下一代群體中的生存期望數目Ni:


2.2.2交叉和變異算子 本研究選擇均勻交叉和高斯變異算子,其中均勻交叉指配對個體的每一個基因座上的基因,都以相同的交叉概率進行交換,形成兩個新的個體。高斯變異[10]是改進遺傳算法對重點搜索區域局部搜索性能的一種變異操作方法,是指在進行變異操作時,用符合均值為μ、方差為σ的正態分布隨機數替換原有的基因值。
SVM集成綜合了單個SVM的優良性能,可提高泛化能力。成員分類器的設計須降低單個分類器的誤差并增加分類器之間的差異[11]。本研究在CT、PET、PET/CT樣本空間中,分別提取特征,構造單一個體分類器,SVM集成結論的生成,采用相對多數投票法。
模型主要有三個特點:一是適應度函數綜合考慮了屬性依賴度、約簡長度和懲罰函數;二是采用無放回余數隨機選擇、均勻交叉和高斯變異算子進行遺傳操作;三是在不同的樣本空間中構造個體分類器,采用集成的方式提高模型的穩定性和泛化能力。流程見圖1。

圖1 CAD模型流程圖
3.2.1數據收集與預處理 從寧夏某三甲醫院收集肺部腫瘤CT、PET和PET/CT圖像9 000幅,各模態3 000幅,良惡性各1500幅。對原始圖像進行預處理,并從三個模態截取有較強區分能力的子圖作為ROI區域;最后將ROI歸一化為50×50的實驗圖像。ROI獲取及預處理過程見圖2。
3.2.2ROI分割 分割是圖像預處理的重要步驟,常用的方法包括閾值法、邊界檢測法、區域法等[12]。Otsu分割法是最常見的方法,核心思想是將圖像劃分為兩類,計算每個灰度級到兩類的灰度方差和,當類間方差達到最大時,該灰度級為最佳閾值[13]。本研究采用Otsu對ROI區域分割,見圖3,以CT圖像ROI分割為例給出分割前后的實例。

圖2 ROI區域的獲取及預處理

圖3 分割前后的CT圖像ROI區域實例
Fig3ExampleofROIregionbeforeandaftersegmentationofCTimage
3.2.3特征提取 提取腫瘤ROI區域的特征,見表1,利用模糊C均值聚類算法對特征結構進行簡化。

表1 肺部腫瘤ROI區域不同類型特征
PET圖像惡性腫瘤ROI是黑色亮斑,良性是灰色區域,難以提取6維幾何特征,故CT和PET/CT的特征共104維,PET 98維。
3.2.4特征約簡 輸入:決策信息表S=(U,A,V,f),染色度為0,1組成的序列,β=0.4,交叉概率Pc=0.8,變異概率Pm=0.2,迭代次數K=150,初始種群M=20;
輸出:red(P,Q,β)
BEGIN
generate(M)
for i=1:K
Set nvars; //染色體長度
Set options;



F(x)=-ω1×target1-ω2×target2+ω3×target3;
P=Select(M, 2, Pc); //選擇
Q=Crossover(P, 2, Pc); //交叉
Q’=Mutation(Q, Pm); //變異
END
3.2.5集成SVM 通過三個單一SVM構建集成SVM模型。
3.2.6決策識別 利用SVM對肺部腫瘤進行診斷識別。
約簡模型評價指標包括約簡長度、依賴度、時間,分類模型評價指標包括準確率、敏感性、特異性、F值和時間,公式如下:
其中,TP表示被正確分類的惡性腫瘤數;FP表示被錯分的惡性腫瘤數;TN表示被正確分類的良性腫瘤數;FN表示被錯分的良性腫瘤數。
采用VPRS-RUGGA對不同模態特征集合進行約簡,每個參數組合約簡5次,分別得到約簡長度、適應度值、依賴度和時間,求五組約簡對應結果的均值作為該模態結果。對于每次約簡結果采用五折交叉分類識別,得到五組識別結果,求各指標均值作為此約簡結果,最后求五次約簡結果的平均值作為該組結果。
在CT、PET和PET/CT樣本空間構造個體分類器,使用VPRS-RUGGA進行屬性約簡,約簡子集采用SVM分類識別,實驗結果見表2、表3。

表2 不同模態模型約簡結果的比較Table 2 Comparison of the reduction results from different modals
由表2可知,基于CT的CAD模型約簡長度為6.8維,依賴度較高,時間為303.6945 s;基于PET的CAD模型約簡長度為6.6維,依賴度和運行效率最高;基于PET/CT的CAD模型約簡長度為8.6維,依賴度和時間介于CT和PET之間,且三模態約簡過程均無早熟現象。
表3不同模型分類結果的比較
Table3Comparisonoftheclassificationresultsfromdifferentmodels

模型精確度(%)敏感性(%)特異性(%)F值(%)時間(s)CT-SVM92.2391.4792.9992.1817.8284PET-SVM99.0698.29100.0099.045.9659PET/CT-SVM98.4097.6999.1198.367.7584集成98.9598.4399.4698.6731.7889
由表3可知,CT各指標均高于90%,但相對最低,分類效果不理想;PET分類性能相比CT提高很快,運行效率較高。PET顯示功能代謝信息,惡性腫瘤ROI為黑色斑塊,而良性為灰色,易于區分[13],故在PET空間構造分類器效果很好;PET/CT各評價指標介于CT和PET之間,PET/CT能全面描述病灶區域的解剖和功能結構,在PET/CT特征空間構造分類器效果較好;集成模型的精確度相比CT和PET/CT提高6.72%和0.55%,靈敏性高于單模態,特異性高于CT。
實驗表明,不同模態圖像在肺癌診斷中扮演著不同的角色,在不同的樣本空間構造個體分類器精確度不同,排除PET圖像易于區分的特性,集成可提高泛化能力和穩定性。
驗證實驗表明VPRS-RUGGA-SVM模型在不同模態的適用性,且集成模型的優越性更加顯著。為驗證模型在屬性約簡和分類識別階段的優勢,選用效果較好的PET/CT圖像做對比實驗。
參數設置:SGA表示經典GA,輪盤賭選擇、交叉和變異概率分別為0.8,0.2;VPRS的分類錯誤率β=0.4。實驗結果見表4、表5和圖4、圖5。

表4 不同模型約簡結果對比Table 4 Comparison of reduction results from different models

圖4RS-SGA-SVM某次約簡過程中適應度函數變化情況
Fig4ThechangeoffitnessfunctioninareductionprocessofRS-SGA-SVM

圖5 VPRS-SGA-SVM某次約簡過程適應度函數變化情況
Fig5ThechangeoffitnessfunctioninareductionprocessofVPRS-SGA-SVM
由表4可知,RS-SGA-SVM和VPRS-SGA- SVM相比驗證實驗中前三組,約簡長度增加,依賴度降低,時間是本研究模型的2倍左右,運行效率降低,且每次約簡都出現了類似圖4、圖5的早熟現象。RUGGA-SVM模型的適應度函數只包括約簡長度和懲罰函數,運行效率較高;RS-RUGGA-SVM模型引入RS后,依賴度最高,約簡長度和時間相比,本研究模型較長,但有效改善了早熟問題。因此,引入無回放余數隨機選擇法、均勻交叉和高斯變異算子組合以后,改善了早熟問題,且提高了運行效率。
因RS-SGA-SVM和VPRS-SGA-SVM模型在屬性約簡階段存在不同程度的早熟現象,就不再進行SVM的分類比較。
從表5可見,RUGGA-SVM模型在不引入屬性依賴度時,雖約簡長度和時間都優于其他模型,但是分類階段各指標嚴重降低,運行效率低下;RS-RUGGA-SVM模型相比RUGGA-SVM模型引入屬性依賴度,精確度提高3.41%、時間減少,但是相比本研究模型,精確度、敏感性和特異性分別降低1.04%,1.12%,0.96%。

表5 不同模型分類結果的比較Table 5 Comparison of classification results from different models
通過對比實驗可知,VPRS-RUGGA-SVM 模型有效改善了GA算法的早熟收斂問題,且通過引入VPRS提高了模型的識別性能。
針對CAD易出現穩定性差和早熟問題,提出一種集成模型。為驗證模型的可行性和有效性,提取三個模態肺部腫瘤ROI區域的特征構建原始特征空間,在此基礎上做了兩組實驗,驗證實驗運用VPRS-RUGGA-SVM模型在CT、PET和PET/CT三個模態進行實驗,取得較好的效果,且集成以后精確度相比單一CT和PET/CT提高6.72%和0.55%,提高了穩定性和泛化能力;對比實驗說明VPRS-RUGGA-SVM模型在引入無回放余數隨機選擇法、均勻交叉和高斯變異算子組合后,改善了GA算法的早熟問題,且通過引入VPRS,提高了模型的識別性能。因此本研究模型能較好的解決CAD優化過程中穩定性差和早熟問題,但是參數的選擇在實際應用時應具體問題具體分析。