張飛飛,周濤,,3△,陸惠玲,梁蒙蒙,楊健
(1.寧夏醫科大學公共衛生與管理學院,銀川 750000;2.寧夏醫科大學理學院,銀川 750000;3.寧夏智能信息與大數據處理重點實驗室,銀川 750021)
粗糙集(rough set,RS)是一種刻畫不完整性和不確定性的數學工具,能有效分析各種不完備的信息,通過對數據進行分析和推理,從中發現隱含的知識,揭示潛在的規律[1]。RS在醫學圖像處理領域的應用主要包括圖像的增強[2]、分類[3]、特征選擇[4]和分割[1]等。但大多數決策信息數據存在模糊性、不完整性及噪聲[5],此時RS已經不能滿足數據處理的要求。為了克服RS只能處理完全確定數據的局限性,提出了其擴展模型-變精度粗糙集(variable precision rough set,VPRS),通過引入分類錯誤率β([0,0.5])將RS的下近似由“完全包含”放松為“部分包含”,反映了數據集中存在的誤分類數據的魯棒性和噪聲數據。近年來,對β選取問題的研究主要有以下幾個方面:一是不考慮β選取的細節,提出可擴展的VPRS模型,如:變精度模糊粗糙集[6]、廣義變精度粗糙集[7]、變精度軟粗糙集等;二是通過不同的方式計算β的取值,如文獻[5]中將平均包含度作為選取上下近似的閾值;三是研究RS的概率泛化模型如:VPRS、博弈粗糙集、決策粗糙集[8]、貝葉斯粗糙集(bayesian rough set,BRS)[9]、0.5概率粗糙集等,這些方法彼此相關,不同的是概率近似公式和參數設計方式不同。其中BRS是VPRS的一種無參數化推廣,利用先驗概率來計算VPRS中閾值β,但是目前很多研究還處于理論階段,缺乏成熟的應用模型。
本研究結合BRS、遺傳算法(genetic algorithm,GA)和支持向量機(support vector machine,SVM),提出一種基于BRS的肺部腫瘤CT圖像高維特征選擇算法。首先提取3 000幅肺部腫瘤CT圖像ROI區域104維特征構造決策信息表;其次從全局相對增益函數的角度分析屬性重要度,結合屬性約簡長度和基因編碼權值函數三者的加權和構造適應度函數框架;最后利用支持向量機分類識別。
GA算法借用了生物遺傳學的觀點,通過自然選擇、交叉、變異等操作,實現個體適應性的提高。它是模擬自然界遺傳機制和生物進化理論而形成的一種過程搜索最優解的算法。相比傳統優化算法,遺傳算法具有其獨特的特點:理論基礎扎實、魯棒性強、適用于并行處理[10],已廣泛應用于計算機科學、圖形圖像處理、數據挖掘等領域,也被廣泛應用于特征選擇,并取得了較好的結果[11]。
分類錯誤率β的選取制約著VPRS發展,目前尚無系統的閾值選取體系。為了進一步擴展概率粗糙集的應用,Slezak[12]等在貝葉斯理論的基礎上,提出了一種修正的VPRS模型,用事件發生的先驗概率代替VPRS中分類錯誤率β,無需任何參數來控制模型派生,既克服了經典RS對下近似的完全精確劃分,又避免了變精度粗糙集中參數β對上下近似的影響?;靖拍钊缦拢?/p>

(1)
(2)
(3)


定義3:設X與E為等價關系,a∈E,如果RE-{a}(X)=RE(X),稱a為E中X不必要的,否則a為E中X必要的。E中所有X必要的集合稱為E的X核。
定義4:信息系統S中,對于?X?U,子集B?C,則B為X的R約簡,且滿足:
(1)RB(X)=RC(X);
(2)去掉B中任一屬性均使得式(1)不成立。
基于BRS的肺部腫瘤CT圖像高維特征選擇算法流程見圖1。
3.2.1實驗獲取及預處理 本研究選用寧夏某三甲醫院帶有醫囑的3 000例肺部腫瘤CT圖像。從原始圖像中獲取對肺部腫瘤有較強區分能力的子圖作為ROI區域,并將ROI圖像歸一化為50×50像素。

圖1 基于BRS的肺部腫瘤CT圖像高維特征選擇算法流程圖
Fig1FlowchartofalgorithmforhighdimensionfeatureselectionoflungtumorCTimagebasedonBRS
3.2.2圖像分割 為準確測量腫瘤的形狀、紋理和灰度等特征,選用OTSU算法分割預處理的ROI區域。OTSU是閾值自動選取最有效、最穩定的方法之一,在一定條件下不受圖像對比度與亮度影響[13]。圖2給出本研究分割前后的5組實例。

圖2 OTSU算法分割前后的實例
Fig2ExamplesofROIregionbeforeandaftersegmentationbasedonOTSUalgorithm
3.2.3特征提取 對分割后的ROI區域提取104維特征,包括形狀特征、紋理特征和灰度特征,具體特征見表1。提取特征后構建決策信息表:每個樣本包括104維條件屬性和1維決策屬性。
3.2.4離散化 為了提高算法的運行效率,簡化數據結構,采用模糊C均值聚類算法簡化構建決策信息表。

表1 肺部腫瘤CT圖像特征集合
3.2.5基于BRS的屬性約簡 本研究結合BRS和GA算法進行屬性約簡,降低分類器時間和空間復雜度,提高分類性能。步驟如下:
(1)參數設定:染色體為0,1組成的序列,其長度等于條件屬性數目N,交叉概率Pc,變異概率Pm,最大迭代次數K=150,初始種群M=20,適應度函數為F(x);
(2)編碼:采用二進制編碼方式,長度等于條件屬性的個數,二進制中0,1分別表示特征未選中和選中;
(3)初始種群:隨機產生M個染色體串構成初始種群;
(4)遺傳算子:根據前期研究,遺傳算子組合為無回放隨機余數選擇、均勻交叉和高斯變異;
(5)適應度函數:適應度函數的有效性決定GA算法的搜索方向和進化結果,其值是判斷個體性能的主要指標。本研究從全局相對增益函數、屬性約簡長度和基因編碼權值函數三個方面考慮,通過加權和構造適應度函數,進行遺傳算法尋優,找到最具區分能力的特征子集。適應度目標函數為:



因此本研究構造適應度函數為:
F(x)=-ω1×target1-ω2×target2+ω3×target3
3.2.6基于SVM的分類識別 首先采用網格尋優算法優化SVM的懲罰參數和核函數參數,得到最佳參數的SVM分類模型,將約簡子集作為輸入,采用五折交叉訓練和預測。
本研究約簡模型評價指標包括長度,屬性重要度,算法耗時,分類模型評價指標包括:準確率(Accuracy)、敏感性(Sensitivity)、特異性(Specificity)、F值、馬修斯相關性系數(matthews correlation coefficient, MCC)、平衡F分數(balanced F score,F1Score)、約登指數(youden index,YI)和算法耗時(Time),計算公式如下:
(4)
(5)
(6)
(7)
(8)
(9)
YI=Sensitivity+Specificity-1
(10)
其中,TP表示被正確分類的惡性腫瘤數;FP表示被分錯的良性腫瘤數;TN表示被正確分類的良性腫瘤數;FN表示被分錯的惡性腫瘤數。
為了驗證本研究算法的性能,分割原始ROI區域并提取特征構造決策信息表,采用模糊C均值聚類算法對屬性值進行離散化;然后使用提出的算法求取屬性約簡集合,每個參數組合約簡5次,求這五次約簡結果的平均值作為該組實驗的結果。對于約簡后的特征子集采用LIBSVM五折交叉分類識別,得到五組識別結果,通過各指標的平均值作為此次分類結果。
將本研究基于BRS的高維特征選擇算法和基于VPRS(β分別為0.1、0.2、0.3和0.4)的高維特征選擇算法進行屬性約簡和分類識別的比較,約簡和分類結果見表2、圖3—圖7、表3。

表2 不同算法約簡結果比較Table 2 Comparison of different algorithms reduction results

圖3BRS某次約簡結果
Fig3AreductionresultofBRSalgorithm

圖4 VPRS( β=0.1)情況下某次約簡結果Fig 4 A reduction result in the case of VPRS (β=0.1)
從表2可見,基于BRS的肺部腫瘤CT圖像高維特征選擇算法在參數β無需人工設置時,約簡長度為7.8維,相比β=0.1的VPRS模型約簡長度降低顯著。屬性重要度略低于β=0.4的VPRS模型,高于其他參數值。約簡時間高于β=0.2的VPRS模型,低于其他參數值,其中相比β=0.1,時間縮短2.7倍。

圖5 VPRS( β=0.2) 情況下某次約簡結果Fig 5 A reduction result in the case of VPRS (β=0.2)
從圖3至圖7可見,基于BRS的CT圖像高維特征選擇算法相比不同β值情況下VPRS算法,約簡過程沒有出現早熟現象,收斂速度較快。從約簡結果可見,BRS模型在不需要人工設置參數的情況下仍能取得較為理想的效果。
由表3可見,基于BRS的肺部腫瘤CT圖像高維特征選擇算法相比參數β=0.1的VPRS算法精確度、特異性、MCC、F1Score、YI分別降低0.07%、0.43%、0.0015、0.0006和0.0013,但敏感性提高0.3%,分類時間β=0.1的VPRS算法是BRS算法的3.4倍。雖然BRS算法在可以接受的范圍之內降低了精確度,但在很大程度上減少了時間消耗,綜合考慮,BRS算法整體性能優于β=0.1的VPRS算法;BRS算法相比參數β=0.2、0.3和0.4的VPRS算法時間降低,其余各項指標均有提高,相比β=0.2的VPRS算法各指標提高顯著。從分類結果可見,BRS的模型與VPRS模型相比,既擺脫了參數的束縛,也提高了模型的分類性能。

圖6 VPRS( β=0.3) 情況下某次約簡結果Fig 6 A reduction result in the case of VPRS (β=0.3)

圖7 VPRS( β=0.4)情況下某次約簡結果Fig 7 A reduction result in the case of VPRS (β=0.4) 表3 不同算法SVM分類結果比較 Table 3 Comparison the classification results of different algorithms based on SVM

算法參數β精確度%敏感性%特異性%F值MCCF1ScoreYI時間(s)BRS與參數β無關94.2893.1995.370.94210.88610.94280.885616.3293VPRSβ=0.194.3592.8995.800.94000.88760.94340.886955.9115β=0.291.9691.0492.880.91900.84010.91960.839218.1967β=0.394.2193.0795.350.94150.88480.94200.884116.9991β=0.492.2391.4792.990.92180.84560.92220.844517.7542
本研究提出一種基于BRS的高維特征選擇算法,該算法針對VPRS在特征選擇過程中對分類錯誤率β的過分依賴問題,結合貝葉斯理論,使用先驗概率代替分類錯誤率β。首先利用GA算法對初始特征空間進行尋優,降低特征矢量的維數,在適應度函數構造過程中考慮全局相對增益函數的屬性重要度、約簡長度和基因編碼權值函數,使用SVM分類識別,最后以3 000幅肺部腫瘤CT圖像為原始數據進行輔助診斷。實驗結果表明,BRS算法在約簡過程中各指標介于不同β值情況下VPRS算法,未出現早熟現象。在分類階段,BRS算法的精確度高于多數參數情況下的VPRS算法,時間復雜度最低。因此,BRS的算法相對VPRS放松了對參數的要求,并在很大程度上提高模型的性能,對肺部腫瘤的CAD具有應用價值。