沈林 陳金清 胡建雄 蔡榮貴



0? ? ? 引言
肺癌是我國發病率和死亡率最高的惡性腫瘤之一,臨床上在發現肺部結節病灶后將其切除是預防其發展為惡性腫瘤的常見治療手段。醫院積累了大量的臨床數據,通過對這些臨床數據的分析,可以更好地幫助醫生判斷哪些病人需要手術。但臨床數據規模龐大、維度高、不完備,如果直接處理,必然陷入“維度災難”。所以,先對臨床數據進行特征選擇是必要的。本文提出一種基于變精度鄰域粗糙集的特征選擇算法,并對從醫院采集的病例進行特征選擇,然后用多種機器學習的方法驗證特征選擇的有效性。
1? ? ?鄰域粗糙集和變精度鄰域粗糙集
粗糙集理論(Rough Sets,RS)是Z.Pawlak[1]在上世紀90年代初提出的理論,通過上、下近似集,將知識分為模糊的知識和精確的知識,這使得RS理論具備從不確定、不一致、不完備的知識中,找出潛藏知識的能力。隨后,為了解決經典粗糙集抗干擾能力差的問題,W.Ziarko[2]提出了變精度粗糙集(VPRS);為了解決經典粗糙集無法直接處理連續數據的問題,HU等[3]提出了鄰域粗糙集(NBRS),用鄰域關系代替等價關系處理連續型數據,并對變精度鄰域粗糙集進行了研究。
定義1? ?一個決策系統可以描述為[DS=(U,C?D)],其中[U]是非空樣本集[{x1,x2,…,xn}],[C]是特征集合,[D]是決策類。則樣本[xi]的鄰域關系表示為[δA(xi)={xjΔA(xi,xj)≤δ,xj∈U,A?C}],其中[δ]是鄰域半徑,[ΔA(xi,xj)]表示樣本[xi]和[xj]的距離,最常用的是歐式距離。對于給定的集合[X?U],鄰域粗糙集的上下近似集定義為:
[RA(X)={xiδA(xi)?X≠φ,xi∈U}RA(X)={xiδA(xi)?X,xi∈U}] (1)
若[δA(xi)?Dj],則認為[xi∈Dj]。由于定義1對鄰域關系的定義過于嚴格,易受干擾,所以在使用時可以引入錯誤率[β(0<β<0.5)],若[δA(xi)]中不屬于[Dj]的樣本比例小于[β],就認為[xi∈Dj],這就得到了變精度鄰域粗糙集。
定義2? ?變精度鄰域粗糙集的上下近似集定義為:
[RβA(X)={xi1-(δA(xi)?X)/δA(xi)≤1-β,xi∈U}RβA(X)={xi1-(δA(xi)?X)/δA(xi)≤β,xi∈U}] (2)
定義3? ?決策類[D]的下近似集又被稱為鄰域粗糙集的正域,表示為:
[POSA=Xi∈UDRA(Xi)] (3)
粗糙集的正域的意義是特征集[A]下決策系統[DS]包含的所有精確的知識。
定義4? ?決策系統[DS]在特征集[A]下的依賴度定義為:
[r(DS)=POSAU] (4)
定義5? ?對于任意的特征集[A?C],若是有[POSA=POSC],則稱特征集[A]是[C]的一個約簡。
定義6? ?決策系統[DS]的變精度鄰域下近似分布的定義為:
[DP(DS,β)={RβC(Y1),RβC(Y2),…,RβC(Yn)}] (5)
2? ? ?基于辨識矩陣的變精度鄰域粗糙集特征選擇
2.1? ?辨識矩陣
在用粗糙集理論處理特征選擇問題時,主要有基于依賴度和基于辨識矩陣兩種方法:基于依賴度的特征選擇需要反復計算鄰域關系和依賴度,時間復雜度較高;基于辯識矩陣則是通過構建一個矩陣,記錄每個樣本對在各個特征下的領域關系,來尋找最小約簡,時間復雜度大幅降低,但空間復雜度較高。由于傳統的辨識矩陣針對的是鄰域粗糙集,無法應用于變精度鄰域粗糙集,本文采用了改進的辨識矩陣,定義如下[4]:
[Mi,j=2xj∈δa(xi)∧Dxi≠Dxj1xj∈δa(xi)∧Dxi=Dxj0其他] (6)
公式(6)所列矩陣,每一行為一個樣本對[xi,xj],每一列對應一個特征,整個矩陣有[m×(m-1)/2]行、[C]列,其中[m]為樣本個數,[C]為條件特征?!?”表示樣本[xi]和[xj]是鄰域關系但決策類不一致,“1”表示是鄰域關系且決策類一致;“0”表示非鄰域關系。很明顯,對于任意一行的樣本對[xi,xj],只可能由["0","1"]或者["0","2"]組成,不會同時出現“1”和“2”。若要計算樣本對[xi,xj]在特征集[a1,a2]下是否為鄰域關系,僅需計算[M(i,j)a1&M(i,j)a2]是否為0即可。
2.2? ?算法步驟[4]
輸入:決策系統[DS=(U,C?D)],錯誤率[β]。
輸出:約簡后的特征集。
(1)計算各個特征的鄰域半徑;
(2)根據鄰域半徑,按照公式(6)計算[DS]的辨識矩陣;
(3)根據定義6計算[DS]在[C]下的下近似分布;
(4)建立一特征隊列,將所有屬性依次和特征隊列組合,找出組合后錯誤率最小的特征,并將該特征放入特征隊列;
(5)檢查當前特征隊列的下近似分布是否和(3)一致,如果是則輸出特征隊列并結束算法,如果不是則重復步驟(4),直到滿足條件。
步驟(4)由于要反復執行,耗時最多,時間復雜度為[Om2*n*l],[m]為[U]中樣本個數,[n]為輸入時條件特征個數,[l]為輸出時特征隊列中的特征個數。
3? ? ?實驗分析
3.1? ?數據說明
本文采用的數據來自莆田學院附屬醫院2019年8月至2020年4月采集的272位患者。采集的數據集共包含61個條件特征和1個決策屬性[5-7]。由于以下原因,在和醫生探討后刪除了部分記錄:①部分特征有大量空缺,難以用常見的不完備數據處理方法進行處理;②部分特征下所有患者數據一致,無法區分決策屬性;③部分患者的部分特征大量缺失,影響結果。
最后剩余202位患者、37個條件特征和1個決策屬性(良性/惡性),37個條件特征如表1所示。
在202名病患中,男性病患107人,女性病患95人,年齡分布如表2所示。
3.2? ?鄰域半徑的選擇
采集到的數據既有離散型數據,如性別、是否胸痛等,也有連續型數據,如年齡、CEA等,且不同數據的取值范圍不同。為了避免取值范圍不同帶來的影響,每個特征都采用離散歸一法將該特征的所有數據歸一到[0,1]的區間內,公式如下:
[f(xi)=xi-xminxmax-xmin] (7)
由于不同的特征具有不同的分布特性,所以要為不同特征設置不同的鄰域半徑,本文采用標準差[σ]作為鄰域半徑的基準,0.5倍標準差就記作0.5[σ]。采用標準差,可以避免靠經驗劃分半徑帶來的問題。
3.3? ?算法運行結果
表3列出了在錯誤率0.5下,本文算法在不同鄰域半徑下選擇出的候選特征組。
圖1和圖2列出了表3的5個特征集在3NN、Bagging、J48、JRIP、NaiveBayes、RandomForest算法下的Accuracy和Precision,采用十折交叉驗證。
表4列出了表3的候選特征組在3NN、Bagging、J48、JRIP、NaiveBayes、RandomForest算法下Accuracy、Precision、ROC、Kappa statistic的平均值,并列出了全特征(ALL)的情況對比。
從表4可以看出,序號FS2特征集在Precision.avg、ROC.avg、Kappa statistic.avg上優于其他特征集,在Accuracy.avg同其他特征集大致相當,所以特征集FS2(年齡、咳嗽咳痰、最大大小、累及部位數、NSE、性別、邊緣是否光滑、長寬比)是更合理的選擇。并同時發現,本文算法在不同鄰域半徑下找出的不同特征,除了FS1外,大多數效果都比全特征(ALL)時的效果好。
為了更好地檢驗本文算法的效果,表5列出了本文算法同經典鄰域粗糙集NBRS的對比,測試方法同表4。從中可以發現,在相同鄰域半徑下,除0.7[σ]半徑外,本文算法在Accuracy.avg和Precision.avg上均好于NBRS。同時發現,除0.4[σ]半徑外,本文算法在ROC.avg和Kappa statistic.avg上均差于NBRS。分析發現,相對于NBRS,本文算法更傾向于將良性患者判定為惡性患者,這可能是因為采集到的數據來自于醫生認為惡性風險高的病患??紤]到惡性患者被錯放的風險,可以認為本文算法相對于NBRS,更適合應用于對惡性患者的判定。
同時,本文算法在0.4[σ]半徑下的表現,和NBRS在0.7[σ]半徑下的表現大致相當,但特征個數少2個,說明本文算法可以排除更多的冗余特征,選出更關鍵的特征組合,并且更適合細粒度的知識場景。
4? ? ? 總結
本文提出了一種在高維的肺部結節灶臨床數據中找出和肺癌相關的關鍵特征組合的算法,并用于分析莆田學院附屬醫院采集的臨床數據,利用3NN、Bagging、J48、JRIP、NaiveBayes、RandomForest算法對選出的特征組合進行驗證,證明了本方法的有效性。
[參考文獻]
[1]Pawlak Z. Rough—Sets: Theoretical Aspects of Reasoning About Data[M]. Dordrecht: Kluwer Academic Publisher,1991.
[2] Ziarko W.Variable precision rough set model[J]. Journal of Computer System Science, 1993,46(1): 39-59.
[3]Hu Qinghua,Yu Daren,XIE Zongxia.Numerical Attribute Reduction Based on Neighborhood Granulation and Rough Approximation[J].Journal of Software,2008,19 (3):640-649.
[4] 沈林.基于隨機抽樣的變精度鄰域粗糙集特征選擇[J].廊坊師范學院學報(自然科學版),2019,19(2):14-17.
[5] 王月,趙茂先.基于最大最小爬山算法的肺癌預后模型[J].山東科技大學學報(自然科學版),2020,39(2):105-110.
[6] 張紹宇.肺腺癌磨玻璃結節和實性結節臨床特點及預后相關因素分析[D].蘇州:蘇州大學,2017.
[7] 楊宏薇.肺結節特征提取和特征選擇的研究及系統實現[D].重慶:重慶大學,2010.
【摘? ?要】? ?判斷肺部結節是否是肺癌,是具有重大意義的工作,通過分析肺癌臨床數據,可以找出和肺癌最相關的特征。首先,從醫院采集肺部結節切除術的數據,使用一種改進的變精度鄰域粗糙集對其進行特征選擇;其次,在實驗中使用多種算法驗證特征選擇的有效性。
【關鍵詞】? ?肺癌;特征選擇;鄰域粗糙集
Feature Selection of Lung Cancer in Putian Based
on Neighborhood Rough Sets
Shen Lin1, Chen Jinqing2, Hu Jianxiong2, Cai Ronggui1
(1.Putian University, Putian 351100, China;
2.The Affiliated Hospital Of Putian University, Putian 351100, China)
【Abstract】? ? It is of great significance to determine whether lung nodules are lung cancer. This paper, by analyzing the clinical data of lung cancer, finds out the most relevant features of lung cancer. First, the data of lung nodule resection were collected from the hospital. Then, an improved variable precision neighborhood rough sets is used for feature selection. Finally, several algorithms are used to verify the effectiveness of feature selection.
【Key words】? ? ?lung cancer; feature selection; neighborhood rough sets