999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于鄰域粗糙集的莆田地區肺癌特征選擇

2021-09-10 17:38:56沈林陳金清胡建雄蔡榮貴
關鍵詞:肺癌

沈林 陳金清 胡建雄 蔡榮貴

0? ? ? 引言

肺癌是我國發病率和死亡率最高的惡性腫瘤之一,臨床上在發現肺部結節病灶后將其切除是預防其發展為惡性腫瘤的常見治療手段。醫院積累了大量的臨床數據,通過對這些臨床數據的分析,可以更好地幫助醫生判斷哪些病人需要手術。但臨床數據規模龐大、維度高、不完備,如果直接處理,必然陷入“維度災難”。所以,先對臨床數據進行特征選擇是必要的。本文提出一種基于變精度鄰域粗糙集的特征選擇算法,并對從醫院采集的病例進行特征選擇,然后用多種機器學習的方法驗證特征選擇的有效性。

1? ? ?鄰域粗糙集和變精度鄰域粗糙集

粗糙集理論(Rough Sets,RS)是Z.Pawlak[1]在上世紀90年代初提出的理論,通過上、下近似集,將知識分為模糊的知識和精確的知識,這使得RS理論具備從不確定、不一致、不完備的知識中,找出潛藏知識的能力。隨后,為了解決經典粗糙集抗干擾能力差的問題,W.Ziarko[2]提出了變精度粗糙集(VPRS);為了解決經典粗糙集無法直接處理連續數據的問題,HU等[3]提出了鄰域粗糙集(NBRS),用鄰域關系代替等價關系處理連續型數據,并對變精度鄰域粗糙集進行了研究。

定義1? ?一個決策系統可以描述為[DS=(U,C?D)],其中[U]是非空樣本集[{x1,x2,…,xn}],[C]是特征集合,[D]是決策類。則樣本[xi]的鄰域關系表示為[δA(xi)={xjΔA(xi,xj)≤δ,xj∈U,A?C}],其中[δ]是鄰域半徑,[ΔA(xi,xj)]表示樣本[xi]和[xj]的距離,最常用的是歐式距離。對于給定的集合[X?U],鄰域粗糙集的上下近似集定義為:

[RA(X)={xiδA(xi)?X≠φ,xi∈U}RA(X)={xiδA(xi)?X,xi∈U}] (1)

若[δA(xi)?Dj],則認為[xi∈Dj]。由于定義1對鄰域關系的定義過于嚴格,易受干擾,所以在使用時可以引入錯誤率[β(0<β<0.5)],若[δA(xi)]中不屬于[Dj]的樣本比例小于[β],就認為[xi∈Dj],這就得到了變精度鄰域粗糙集。

定義2? ?變精度鄰域粗糙集的上下近似集定義為:

[RβA(X)={xi1-(δA(xi)?X)/δA(xi)≤1-β,xi∈U}RβA(X)={xi1-(δA(xi)?X)/δA(xi)≤β,xi∈U}] (2)

定義3? ?決策類[D]的下近似集又被稱為鄰域粗糙集的正域,表示為:

[POSA=Xi∈UDRA(Xi)] (3)

粗糙集的正域的意義是特征集[A]下決策系統[DS]包含的所有精確的知識。

定義4? ?決策系統[DS]在特征集[A]下的依賴度定義為:

[r(DS)=POSAU] (4)

定義5? ?對于任意的特征集[A?C],若是有[POSA=POSC],則稱特征集[A]是[C]的一個約簡。

定義6? ?決策系統[DS]的變精度鄰域下近似分布的定義為:

[DP(DS,β)={RβC(Y1),RβC(Y2),…,RβC(Yn)}] (5)

2? ? ?基于辨識矩陣的變精度鄰域粗糙集特征選擇

2.1? ?辨識矩陣

在用粗糙集理論處理特征選擇問題時,主要有基于依賴度和基于辨識矩陣兩種方法:基于依賴度的特征選擇需要反復計算鄰域關系和依賴度,時間復雜度較高;基于辯識矩陣則是通過構建一個矩陣,記錄每個樣本對在各個特征下的領域關系,來尋找最小約簡,時間復雜度大幅降低,但空間復雜度較高。由于傳統的辨識矩陣針對的是鄰域粗糙集,無法應用于變精度鄰域粗糙集,本文采用了改進的辨識矩陣,定義如下[4]:

[Mi,j=2xj∈δa(xi)∧Dxi≠Dxj1xj∈δa(xi)∧Dxi=Dxj0其他] (6)

公式(6)所列矩陣,每一行為一個樣本對[xi,xj],每一列對應一個特征,整個矩陣有[m×(m-1)/2]行、[C]列,其中[m]為樣本個數,[C]為條件特征?!?”表示樣本[xi]和[xj]是鄰域關系但決策類不一致,“1”表示是鄰域關系且決策類一致;“0”表示非鄰域關系。很明顯,對于任意一行的樣本對[xi,xj],只可能由["0","1"]或者["0","2"]組成,不會同時出現“1”和“2”。若要計算樣本對[xi,xj]在特征集[a1,a2]下是否為鄰域關系,僅需計算[M(i,j)a1&M(i,j)a2]是否為0即可。

2.2? ?算法步驟[4]

輸入:決策系統[DS=(U,C?D)],錯誤率[β]。

輸出:約簡后的特征集。

(1)計算各個特征的鄰域半徑;

(2)根據鄰域半徑,按照公式(6)計算[DS]的辨識矩陣;

(3)根據定義6計算[DS]在[C]下的下近似分布;

(4)建立一特征隊列,將所有屬性依次和特征隊列組合,找出組合后錯誤率最小的特征,并將該特征放入特征隊列;

(5)檢查當前特征隊列的下近似分布是否和(3)一致,如果是則輸出特征隊列并結束算法,如果不是則重復步驟(4),直到滿足條件。

步驟(4)由于要反復執行,耗時最多,時間復雜度為[Om2*n*l],[m]為[U]中樣本個數,[n]為輸入時條件特征個數,[l]為輸出時特征隊列中的特征個數。

3? ? ?實驗分析

3.1? ?數據說明

本文采用的數據來自莆田學院附屬醫院2019年8月至2020年4月采集的272位患者。采集的數據集共包含61個條件特征和1個決策屬性[5-7]。由于以下原因,在和醫生探討后刪除了部分記錄:①部分特征有大量空缺,難以用常見的不完備數據處理方法進行處理;②部分特征下所有患者數據一致,無法區分決策屬性;③部分患者的部分特征大量缺失,影響結果。

最后剩余202位患者、37個條件特征和1個決策屬性(良性/惡性),37個條件特征如表1所示。

在202名病患中,男性病患107人,女性病患95人,年齡分布如表2所示。

3.2? ?鄰域半徑的選擇

采集到的數據既有離散型數據,如性別、是否胸痛等,也有連續型數據,如年齡、CEA等,且不同數據的取值范圍不同。為了避免取值范圍不同帶來的影響,每個特征都采用離散歸一法將該特征的所有數據歸一到[0,1]的區間內,公式如下:

[f(xi)=xi-xminxmax-xmin] (7)

由于不同的特征具有不同的分布特性,所以要為不同特征設置不同的鄰域半徑,本文采用標準差[σ]作為鄰域半徑的基準,0.5倍標準差就記作0.5[σ]。采用標準差,可以避免靠經驗劃分半徑帶來的問題。

3.3? ?算法運行結果

表3列出了在錯誤率0.5下,本文算法在不同鄰域半徑下選擇出的候選特征組。

圖1和圖2列出了表3的5個特征集在3NN、Bagging、J48、JRIP、NaiveBayes、RandomForest算法下的Accuracy和Precision,采用十折交叉驗證。

表4列出了表3的候選特征組在3NN、Bagging、J48、JRIP、NaiveBayes、RandomForest算法下Accuracy、Precision、ROC、Kappa statistic的平均值,并列出了全特征(ALL)的情況對比。

從表4可以看出,序號FS2特征集在Precision.avg、ROC.avg、Kappa statistic.avg上優于其他特征集,在Accuracy.avg同其他特征集大致相當,所以特征集FS2(年齡、咳嗽咳痰、最大大小、累及部位數、NSE、性別、邊緣是否光滑、長寬比)是更合理的選擇。并同時發現,本文算法在不同鄰域半徑下找出的不同特征,除了FS1外,大多數效果都比全特征(ALL)時的效果好。

為了更好地檢驗本文算法的效果,表5列出了本文算法同經典鄰域粗糙集NBRS的對比,測試方法同表4。從中可以發現,在相同鄰域半徑下,除0.7[σ]半徑外,本文算法在Accuracy.avg和Precision.avg上均好于NBRS。同時發現,除0.4[σ]半徑外,本文算法在ROC.avg和Kappa statistic.avg上均差于NBRS。分析發現,相對于NBRS,本文算法更傾向于將良性患者判定為惡性患者,這可能是因為采集到的數據來自于醫生認為惡性風險高的病患??紤]到惡性患者被錯放的風險,可以認為本文算法相對于NBRS,更適合應用于對惡性患者的判定。

同時,本文算法在0.4[σ]半徑下的表現,和NBRS在0.7[σ]半徑下的表現大致相當,但特征個數少2個,說明本文算法可以排除更多的冗余特征,選出更關鍵的特征組合,并且更適合細粒度的知識場景。

4? ? ? 總結

本文提出了一種在高維的肺部結節灶臨床數據中找出和肺癌相關的關鍵特征組合的算法,并用于分析莆田學院附屬醫院采集的臨床數據,利用3NN、Bagging、J48、JRIP、NaiveBayes、RandomForest算法對選出的特征組合進行驗證,證明了本方法的有效性。

[參考文獻]

[1]Pawlak Z. Rough—Sets: Theoretical Aspects of Reasoning About Data[M]. Dordrecht: Kluwer Academic Publisher,1991.

[2] Ziarko W.Variable precision rough set model[J]. Journal of Computer System Science, 1993,46(1): 39-59.

[3]Hu Qinghua,Yu Daren,XIE Zongxia.Numerical Attribute Reduction Based on Neighborhood Granulation and Rough Approximation[J].Journal of Software,2008,19 (3):640-649.

[4] 沈林.基于隨機抽樣的變精度鄰域粗糙集特征選擇[J].廊坊師范學院學報(自然科學版),2019,19(2):14-17.

[5] 王月,趙茂先.基于最大最小爬山算法的肺癌預后模型[J].山東科技大學學報(自然科學版),2020,39(2):105-110.

[6] 張紹宇.肺腺癌磨玻璃結節和實性結節臨床特點及預后相關因素分析[D].蘇州:蘇州大學,2017.

[7] 楊宏薇.肺結節特征提取和特征選擇的研究及系統實現[D].重慶:重慶大學,2010.

【摘? ?要】? ?判斷肺部結節是否是肺癌,是具有重大意義的工作,通過分析肺癌臨床數據,可以找出和肺癌最相關的特征。首先,從醫院采集肺部結節切除術的數據,使用一種改進的變精度鄰域粗糙集對其進行特征選擇;其次,在實驗中使用多種算法驗證特征選擇的有效性。

【關鍵詞】? ?肺癌;特征選擇;鄰域粗糙集

Feature Selection of Lung Cancer in Putian Based

on Neighborhood Rough Sets

Shen Lin1, Chen Jinqing2, Hu Jianxiong2, Cai Ronggui1

(1.Putian University, Putian 351100, China;

2.The Affiliated Hospital Of Putian University, Putian 351100, China)

【Abstract】? ? It is of great significance to determine whether lung nodules are lung cancer. This paper, by analyzing the clinical data of lung cancer, finds out the most relevant features of lung cancer. First, the data of lung nodule resection were collected from the hospital. Then, an improved variable precision neighborhood rough sets is used for feature selection. Finally, several algorithms are used to verify the effectiveness of feature selection.

【Key words】? ? ?lung cancer; feature selection; neighborhood rough sets

猜你喜歡
肺癌
中醫防治肺癌術后并發癥
保健醫苑(2023年2期)2023-03-15 09:03:04
對比增強磁敏感加權成像對肺癌腦轉移瘤檢出的研究
氬氦刀冷凍治療肺癌80例的臨床觀察
長鏈非編碼RNA APTR、HEIH、FAS-ASA1、FAM83H-AS1、DICER1-AS1、PR-lncRNA在肺癌中的表達
CXCL-14在非小細胞肺癌中的表達水平及臨床意義
廣泛期小細胞肺癌肝轉移治療模式探討
PFTK1在人非小細胞肺癌中的表達及臨床意義
microRNA-205在人非小細胞肺癌中的表達及臨床意義
周圍型肺癌的MDCT影像特征分析
基于肺癌CT的決策樹模型在肺癌診斷中的應用
主站蜘蛛池模板: 鲁鲁鲁爽爽爽在线视频观看| 人妻无码中文字幕一区二区三区| 国产精品无码久久久久AV| 国产91丝袜在线观看| 国产精品综合色区在线观看| 91网红精品在线观看| 国产精品自拍露脸视频| 无码久看视频| 中文精品久久久久国产网址| 精品久久久久久久久久久| 青青国产视频| 无码一区二区三区视频在线播放| 九色国产在线| 国产精品对白刺激| 日本影院一区| 亚洲精品午夜无码电影网| 国产a在视频线精品视频下载| 亚洲国产精品无码久久一线| 国产区精品高清在线观看| 99久久亚洲综合精品TS| 国产精品一线天| 日韩一区二区三免费高清| 手机在线看片不卡中文字幕| 精品无码一区二区三区在线视频| 高清不卡一区二区三区香蕉| 国产新AV天堂| 亚洲成A人V欧美综合| 色国产视频| 日韩中文精品亚洲第三区| 欧美va亚洲va香蕉在线| 欧美激情第一欧美在线| 毛片最新网址| 亚洲成在线观看| 中文精品久久久久国产网址| 国产永久无码观看在线| 国产呦精品一区二区三区网站| 国产一级毛片高清完整视频版| 啊嗯不日本网站| 伊人91在线| 国产1区2区在线观看| 最近最新中文字幕免费的一页| 国产毛片基地| 亚洲综合色婷婷中文字幕| 久久精品亚洲专区| 亚洲综合精品香蕉久久网| 天堂网亚洲系列亚洲系列| 永久免费无码成人网站| 国产精品三级av及在线观看| 国产午夜无码专区喷水| 国产麻豆精品在线观看| 毛片国产精品完整版| 黄片在线永久| 中文字幕亚洲另类天堂| 中文字幕伦视频| 免费观看精品视频999| 一级毛片在线免费看| 国产精品一区二区在线播放| 99热这里只有精品久久免费| 亚洲天堂自拍| 成人在线不卡| 99久久精品无码专区免费| 国产91视频免费| 精品91在线| 国产97公开成人免费视频| 亚洲国产日韩一区| 久久久成年黄色视频| 国产在线观看一区二区三区| 亚洲日韩第九十九页| 色天堂无毒不卡| 国内黄色精品| 青青草国产一区二区三区| 2022国产91精品久久久久久| 国产波多野结衣中文在线播放| a级毛片毛片免费观看久潮| 尤物国产在线| www成人国产在线观看网站| 日韩无码黄色| 免费观看男人免费桶女人视频| 激情午夜婷婷| 色香蕉影院| 色婷婷亚洲综合五月| 国产成人a毛片在线|