999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

慢性腎病預測的多目標特征選擇

2022-03-21 10:33:16陳陸爽
計算機工程與設計 2022年3期
關鍵詞:特征模型

陳陸爽,周 暉

(南通大學 信息科學技術學院,江蘇 南通 226019)

0 引 言

慢性腎病每年造成數百萬人死亡,而且其患病率和致死率還在不斷增加[1]。早發現早治療是控制CKD和降低死亡率的有效方法[2],但該疾病隱蔽性強,發病早期不易察覺,導致患者錯過最佳治療時機[3]。對CKD早期預測的研究,引起國內外學者越來越多的關注。文獻[4]分析現有模型后,提出一種使用感知器將邏輯回歸和隨機森林相結合的CKD預測集成模型,并分析K近鄰插補對集成模型準確率的影響;文獻[5]研究支持向量機和人工神經網絡在CKD預測方面的應用,并確定兩種技術的優化參數。群智能[6]由于其全局搜索優勢已被應用于CKD預測。文獻[7]提出基于NN-CS的模型來檢測早期CKD,CS算法選擇最佳NN的輸入權重向量以正確訓練數據。文獻[8]將基于密度和蟻群優化的特征選擇算法D-ACO用于CKD分類。但是,目前對CKD的研究是將最大化CKD的預測準確率看作單目標特征選擇問題,而忽略了無關和冗余特征的影響,造成模型復雜度增加,精度和泛化能力下降;另外,現有方法無法篩選出影響CKD的高危因素。

針對上述問題,提出基于互信息和皮爾遜相關系數的多目標CKD預測模型,并針對該模型提出多目標CKD特征選擇算法MCFS,能夠篩選出信息量最大的特征。MCFS采用精英反向學習、非線性控制參數和聯想記憶3個改進算子,使其在CKD預測方面的性能更好。

1 多目標慢性腎病特征選擇模型

僅考慮特征數和分類準確率兩個評估標準,容易忽略特征間的冗余度和特征與類別之間的相關性等信息,不同目標函數的選取也會對CKD預測效果造成不同程度影響[9]。考慮最大化特征數與類別之間的相關性以及最小化特征之間的依賴性。在特征選擇領域,相關性或相互依賴性通常由互信息(MI)和皮爾遜相關系數(PCC)度量。然而,MI容易忽略線性相關性,而PCC對非線性相關性敏感,選擇其中任意一種度量相關性,都會造成結果的不可靠。針對以上問題,將MI和PCC分別用于計算線性和非線性相關性,構造兩個目標函數。

對于第一個目標,需要找出與類別相關性較高的特征子集,可表示為

(1)

式中: |M| 為特征數,I(xi,l) 表示特征與類別之間的互信息,ρ(xi,l) 表示特征與類別之間的皮爾遜相關系數。

當兩個特征高度相關,刪除一個特征不會顯著影響其它特征的預測能力,第二個目標可描述如下

(2)

式中:I(xi,xj) 表示特征之間的互信息,ρ(xi,xj) 表示特征之間的皮爾遜相關系數。

為了將MI和PCC的值放置在相同的范圍內,兩個目標函數都考慮了PCC的絕對值,MI和PCC計算如下

(3)

(4)

式中:X和Y是兩個離散變量,p(x,y) 是X和Y的聯合概率密度函數,p(x) 和p(y) 分別是x和y的邊緣密度函數,cov表示協方差,σ表示標準差。

構建多目標慢性腎病特征選擇模型

(5)

2 多目標慢性腎病特征選擇算法MCFS

由于現階段針對CKD預測的研究無法在保持分類準確率較高的同時篩選出與CKD緊密相關的特征,提出多目標慢性腎病特征選擇算法MCFS,其生成的非支配解能夠在選擇較少特征的情況下保持較高的預測精度,從而找到CKD的高風險因素。

2.1 GWO算法[10]

GWO算法的位置更新方程如下

X(t+1)=(X1(t)+X2(t)+X3(t))/3

(6)

X1(t)=Xα(t)-A1·Dα

(7)

X2(t)=Xβ(t)-A2·Dβ

(8)

X3(t)=Xδ(t)-A3·Dδ

(9)

Dα=|C1·Xα(t)-X(t)|

(10)

Dβ=|C2·Xβ(t)-X(t)|

(11)

Dδ=|C3·Xδ(t)-X(t)|

(12)

A=2a·r1-a

(13)

(14)

C=2·r2

(15)

其中,X(t) 是第t次迭代時wolf的位置,α,β和δ是適應度值排名前三的個體,r1,r2是[0,1]之間的隨機向量,Maxiter是最大迭代次數。

2.2 MCFS算法描述

MCFS將CKD數據集特征的選取視作一組二進制解,通過改進的GWO算法對隨機生成的初始解進行優化,優化目標即式(5),采用MOPSO的多目標框架生成一組非支配解。

(1)基于EOBL(精英反向學習)的種群初始化

EOBL通過增加種群多樣性改善算法的全局搜索,假設x是 [a,b] 范圍內的實數。x的相反點xop為

xop=a+b-x

(16)

同樣地,該定義也可以擴展至D維(D≥2)假設x=(x1,x2,…,xD),xi∈[ai,bi],x的相反點xop=(x1op,x2op,…,xDop)

xiop=ai+bi-xi

(17)

初始化階段產生一個原始種群P1, 包含個體xi,i=1,2,…,n。 基于精英反向學習產生的種群為P2。 初始種群和精英反向學習種群合并為一個種群 {P1∪P2}, 從中選取n個最優個體組成新的初始化種群。精英反向個體x′i=(x′i,1,x′i,2,…,x′i,D)

x′i,j=r×(daj+dbj)-xi,j

(18)

式中:i=1,2,…,n,j=1,2,…,D,r=rand(0,1),daj,dbj是動態邊界,daj=min(xi,j),dbj=max(xi,j), 若x′i,j超出動態邊界,則x′i,j=rand(daj,dbj)。

(2)非線性控制參數

GWO算法中收斂因子a從2線性減小到0,不能準確反映和適應復雜的非線性搜索過程,運用一種基于余弦函數的非線性控制參數

(19)

式中:Maxiter是最大迭代次數,t是當前迭代次數。

(3)聯想記憶策略

運用聯想記憶策略增強wolf的團體協作和信息交換能力,在整個搜索過程中記錄每只wolf的歷史最佳并集成到算法的搜索機制中,由領導者和個體最優共同探索解空間。

GWO算法中位置更新修改為

Dα=|C1·Xα(t)-Xi pbest(t)|

(20)

Dβ=|C2·Xβ(t)-Xi pbest(t)|

(21)

Dδ=|C3·Xδ(t)-Xi pbest(t)|

(22)

Y1(t)=Xα(t)-A1×Dα

(23)

Y2(t)=Xβ(t)-A2×Dβ

(24)

Y3(t)=Xδ(t)-A3×Dδ

(25)

Yi(t+1)=(Y1(t)+Y2(t)+Y3(t))/3

(26)

其中,Xi pbest(t) 是第i只wolf直至迭代次數為t時的歷史最優位置,其余變量和GWO定義一樣。

除了leader wolf,其余wolf的歷史最優個體也能為算法提供一定的指導意義。為了增加算法的隨機性,添加隨機個體信息,通過下式在個體歷史最優位置周圍進一步搜索

Zi(t+1)=Xi pbest(t)+η×(Xr3(t)-Xr4(t))

(27)

(28)

其中,Xr3(t) 和Xr4(t) 是隨機wolf的位置,η為鄰域搜索因子。

通過下式的交叉算子合并領導者和個體的指導信息,從而協調種群交流和個體記憶在算法搜索能力上的影響

(29)

式中:r5是[0,1]內均勻分布的隨機數,CR是交叉概率,設置為0.4。

為了加快收斂速度,待位置更新后,貪婪選擇被用于在兩次相鄰迭代之間保留最佳個體

Xi(t+1)=Xi(t),ifF(Xi(t+1))>F(Xi(t))

(30)

(4)存檔和領導者選擇機制

多目標[11]根據存檔機制來存儲整個優化過程中最好的非支配解,并通過以下規則,實現檔案的存儲和更新。

在迭代過程中,若一個解支配檔案中的任意解,則將其存檔,刪除被支配解;若被檔案中一個或多個解支配則不存檔;若一個解與檔案中的解相比是非支配的而且檔案擁有足夠空間,則將解添加到檔案中;若超過存檔數量上限,則用網格機制刪減非支配解密度較大段中的個體以容納新解。自適應網格將目標空間劃分為多段,每個部分的擁擠程度取決于其擁有的非支配解的數量。擁擠程度越高,從中隨機刪除解的可能性越大,因此選擇第段刪除解的概率可表示為

(31)

式中:ni指的是第i段中非支配解的數量,c是常數,通常設為1。

多目標搜索空間中解的優劣是通過支配概念比較的,領導者選擇機制可以幫助MOGWO找到α,β和δ。 與存檔溢出時解的刪除操作相反,MOGWO運用輪盤賭選擇一個段,其中每個段的選擇概率與該段中非支配解的數量成反比

(32)

式中:ni指的是第i段中非支配解的數量,c是大于1的常數。

(5)轉移函數

MCFS生成的個體位置是連續值,它與特征選擇的二元性質相矛盾,將連續搜索空間轉換為二進制版本的最有效方法之一是利用轉移函數(transfer function,TF)[12],某個特征的選擇與否用1和0來表示。根據以下公式將連續搜索空間轉換為二進制搜索空間

(33)

(34)

(35)

其中,xi是搜索個體的連續值位置,TFS是S形轉移函數,TFV是V形轉移函數。

整個算法流程如圖1所示。

圖1 算法流程

3 仿真研究

仿真研究分4個部分:①對比兩種轉移函數(S型和V型)和4個常見分類器SVM(支持向量機)、KNN(K近鄰)、NB(樸素貝葉斯)、DT(決策樹)生成的平均Pareto Front,驗證使MCFS性能最佳的分類器和TF,同時將MCFS與未經改進的算法MCFS-NI對比,驗證3個改進算子的有效性;②對比多目標特征選擇算法和現有的一些已用于CKD預測的單目標特征選擇算法的優劣;③對比不同多目標進化算法在CKD預測方面的效果;④統計CKD數據集中特征被選的頻率,總結與CKD緊密相關的特征。

3.1 數據集

使用UCI數據庫中的CKD數據集。該數據集包含400個樣本和24個特征,其中有250個樣本被標記為陽性,其余150個樣本被標記為陰性。表1給出了數據集中所有特征信息。

3.2 數據預處理

(1)缺失值填充

利用KNN插補(k=9)選擇具有最短歐氏距離的k個完整樣本,對CKD數據集的缺失值進行填充。對于數字變量,缺失值使用k個完整樣本相應變量的中位數填充;對于類別變量,缺失值使用k個完整樣本相應變量中頻率最高的類別填充。

表1 CKD數據集

(2)數據分割

采用十折交叉驗證將CKD數據集隨機分割成10組,每組輪流做一次測試集,9次訓練集。取10次平均值作為模型性能的評估。

(3)數據縮放

由于CKD數據集中存在的所有特征量綱不一致,采用標準化縮放方法使特征落入統一區間。

3.3 參數設置

種群數量和檔案大小均為30,最大迭代次數為100。所有算法進行20次獨立運行。實驗平臺是Intel Corei7 2.60 GHz CPU,8GRAM,windows10操作系統,開發環境為Matlab2018b,算法參數見表2。

表2 參數設置

3.4 評價指標

(1)Accuracy

(36)

式中:TP、TN、FP、FN分別表示真正率、真負率、假正率、假負率。

(2)Pareto最優解個數(NPS)

(3)平均理想距離(MID)

該準則用于度量Pareto最優解和理想點之間的接近度,MID值越低,解的質量越高

(37)

(4)Spacing

Spacing表示連續解之間的相對距離。具有較小間距的非支配解意味著Pareto Front分布更加均勻

(38)

(39)

(40)

(5)多樣性度量(DM)

DM值越大,Pareto Front的多樣性越高

(41)

(6)CPU時間

算法執行所需時間越少,效率越高。

3.5 仿真分析

合并20次運行產生的非支配解,將同一特征數所匹配的錯誤率取平均值,獲得平均Pareto Front,以特征數作為橫坐標,錯誤率作為縱坐標(表中最優結果均被加粗,FN指所選特征數)。4個部分實驗介紹如下:

(1)仿真研究一

本節驗證了MCFS這3個改進算子的有效性以及使分類性能達到最佳的TF和分類器。首先以DT作為分類器,將MCFS與MCFS-NI(未加入3個改進算子的版本)以及兩種不同類型TF(S型,V型)對比,結果如圖2所示。

圖2 基于不同TF的平均Pareto Front

由圖2可知,無論基于S型還是V型TF,MCFS的平均Pareto Front總是優于MCFS-NI,可見3個改進算子確實提高了CKD預測性能。對于MCFS和MCFS-NI來說,基于S型TF的預測效果總是比基于V型TF的好,能夠在獲得較高準確率的同時選出較少的特征,所以S型TF最適合將MCFS離散化。4種算法均在特征數為8時得到了最低分類錯誤率。MCFS-S比MCFS-V的最高預測準確率98.11%提升了1.19%;MCFS-NI_S比MCFS-NI_V的最高預測準確率95.75%提升了1.31%。總體來說,MCFS-NI所能達到的最高預測準確率比MCFS低2.24%。因此,S型TF對MCFS的探索和開發進程有著更大程度的改善,而且3個改進算子對于MCFS性能的提高是有效的。之后MCFS默認使用S型TF。

由于不同分類器對不同多目標問題適應度不同,采用4種常用分類器(SVM、KNN、NB、DT)比較其在多目標慢性腎病特征選擇模型中分類能力的差異,結果如圖3所示。

圖3 基于不同分類器的平均Pareto Front

圖3顯示,基于DT的MCFS獲得了最佳平均Pareto Front,在不同特征數下,錯誤率始終能夠保持最低,其余3種分類器的分類效果從高到低依次是SVM、KNN、NB。特征數為8時,基于DT和基于NB的MCFS均達到最高預測準確率,分別為99.3%和94.75%,在原始CKD數據集的基礎上,特征數削減了66.67%;特征數為6時,基于SVM的MCFS可達到96.25%的最高準確率;特征數為7時,基于KNN的MCFS可達到96.25%的最高準確率。與其它分類器相比,基于DT的模型預測準確率有了2.3%~4.55%的提升。因此,DT對CKD的預測效果最好,之后的仿真研究默認以DT作為分類器。

(2)仿真研究二

本節比較了多目標特征選擇(MOFS)算法與單目標特征選擇(SOFS)算法在CKD預測方面的優劣。考慮了8種算法,包括MOFS算法MCFS和MCFS-w(所提算法的多目標加權形式,兩個目標的加權系數分別為α和1-α,α取0.99,0.9,0.8,0.7,0.6,0.5)以及以最大化分類準確率為目標的SOFS算法SCFS(所提算法的單目標形式),DFS-ITLBO(基于密度的特征選擇和改進教學優化算法),CFS-SMO(基于相關性的特征選擇和序列最小優化算法),GA-FS(遺傳特征選擇算法),FOA-FS(果蠅優化特征選擇算法),PSO-FS(粒子群優化特征選擇算法),ACO-FS(蟻群優化特征選擇算法),結果如圖4所示。

圖4 MOFS算法和SOFS算法的平均Pareto Front

首先將MCFS與MCFS-w對比,可以看出,與加權形式的MOFS算法相比,MCFS得到的是Pareto Front,提供了選擇靈活性,而且任意特征數所對應的分類錯誤率均低于所有加權值下的MCFS-w。可見,基于后驗的MCFS比基于先驗的MCFS-w在CKD預測方面效果更好。其次,對比MCFS與SOFS算法后發現,在最好的情況下,SCFS和PSO-FS通過10個特征分別得到98.11%和95.81%的預測準確率,DFS-ITLBO通過8個特征得到97.69%的預測準確率,CFS-SMO通過17個特征得到98.43%的預測準確率,GA-FS通過9個特征得到98.02%的預測準確率,FOA-FS通過14個特征得到96.54%的預測準確率,ACO-FS通過16個特征得到99.2%的預測準確率。

不難看出,相比其它7種SOFS算法和一個基于先驗的MOFS算法,MCFS在選擇更少特征的同時能夠獲得較高的CKD預測準確率。所以,采用MCFS可以更為有效地探索搜索空間,綜合考量多種子集評價方式,能夠選出質量更高的特征子集并得到更好的CKD預測效果。

(3)仿真研究三

迄今為止出現了許多行之有效的多目標優化算法,首先選取5種經典的多目標進化算法(MOEA)NSGAII、MOEA/D、PESA2、NSGAIII、SPEA2與MCFS進行對比,結果如圖5所示。

圖5 MCFS與經典MOEA的平均Pareto Front

比較圖中6個平均Pareto Front,可以觀察到,在CKD預測方面,MCFS的平均Pareto Front最優。NSGAII的最高預測準確率96.17%在特征數為6時獲得,MOEA/D的最高預測準確率92%在特征數為10時獲得,PESA2和NSGAIII均在特征數為6時獲得最高預測準確率,分別為95.75%和94%,SPEA2和MCFS的最高預測準確率分別為95.87%和99.3%,均在特征數為8時獲得。總體上看,MCFS的預測準確率比其它幾個經典MOEA提升了3.13%~7.3%,在CKD預測性能方面效果顯著。

表3展現了MCFS與不同經典MOEA生成的平均Pareto Front在多個指標上的評估結果。MCFS雖然在CPU運行時間上略遜于NSGAII,但是其收斂性最好,獲得的平均Pareto Front最為均勻,非支配解多樣性最高。

表3 經典MOEA指標評估

其次,由于群智能算法在解決各種多目標方面顯示出極大優勢,為了確定最適合預測CKD的群智能MOEA,將MCFS與現今較為流行的群智能MOEA進行對比,結果如圖6所示。

圖6 MCFS與群智能MOEA的平均Pareto Front

由圖6可知,MCFS生成的平均Pareto Front最優,MODE、MOABC、MOWOA、MODA生成的平均Pareto Front類似,MOPSO生成的Pareto Front最不占優勢。特征數為1時,MCFS比其它群智能MOEA提高了11.04%~20.39%;特征數為2時,MCFS比其它算法提高了7.37%~17.12%;特征數為3時,MCFS比其它MOEA提高了4.25%~9.2%;特征數為4時,比其它MOEA提高了3.75%~7.11%;特征數為5時,比其它MOEA提高了3.37%~6.22%;特征數為6時,比其它MOEA提高了2.93%~5.62%;特征數為7時,比其它MOEA提高了3.52%~5.08%;特征數為8時,比其它MOEA提高了3.43%~5.05%。由此可見,在CKD預測方面,MCFS選擇任意特征子集時都比其它群智能MOEA有較大程度提升。

表4對群智能MOEA生成的平均Pareto Front進行了多個指標的評估。由表4可知,MCFS在所有指標上均達到了最優,得到的非支配解質量相對較高,可以在減少特征數和分類錯誤率的同時,受益于較低的時間成本。

表4 群智能MOEA指標評估

(4)仿真研究四

多目標慢性腎病特征選擇算法MCFS權衡了特征數和分類準確率兩個指標,刪除大量不必要特征的同時保留了與CKD識別最有價值的信息,既極大程度上簡化了數據,又能夠保證較高的預測準確率。為了得到影響CKD的高危因素,計算每次運行中特征被選中的次數,取20次平均值,從大到小排序,得到前8個被選頻率最高的特征。影響CKD的主要特征信息見表5。

表5 CKD數據集被選頻率最高的8個特征

綜上可見,MCFS的S型二進制變體對算法性能提升度最高,DT是評估所提多目標模型的最佳分類器,在與其它多種單目標和多目標算法的對比中發現,MCFS無論在特征子集的數量還是預測效果方面均領先于現有算法,并能夠找到與CKD緊密相關的特征子集以做進一步研究,足以驗證其在CKD預測方面的潛力。

4 結束語

由于現階段尚未出現可以逆轉CKD的醫療手段,早發現早治療是有效控制CKD亟待解決的問題。所提多目標慢性腎病特征選擇模型綜合考慮線性和非線性因素,將現有的CKD預測模型從單目標擴展為多目標,在預測準確率方面具有較大優勢。所提多目標慢性腎病特征選擇算法MCFS消除了冗余或不相關的特征,保留了影響CKD的關鍵特征,早期患者可以針對這些方面進行醫療監測,阻止病情惡化,正常人可以盡量將這些指標控制在正常范圍內以預防CKD。

下一步將研究所提方法在其它醫學臨床數據中的適用度,提高模型的利用率。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 亚洲视频在线观看免费视频| 91丝袜美腿高跟国产极品老师| 中文字幕在线观| 国产在线拍偷自揄拍精品| 香蕉99国内自产自拍视频| 久久精品人人做人人爽97| 亚洲三级a| 国产男女免费完整版视频| 91欧美在线| 亚洲第一视频免费在线| 国产精选自拍| 久久香蕉国产线看观看精品蕉| 亚洲综合经典在线一区二区| 性69交片免费看| 亚洲va欧美ⅴa国产va影院| 国产在线八区| 天天摸夜夜操| 国产精品午夜福利麻豆| 国国产a国产片免费麻豆| 国产SUV精品一区二区6| 午夜国产不卡在线观看视频| 国产原创第一页在线观看| 国产精品无码久久久久久| 亚洲精品无码AⅤ片青青在线观看| 欧美国产综合色视频| 国产成熟女人性满足视频| 少妇精品久久久一区二区三区| 国产无人区一区二区三区| 全裸无码专区| 狠狠色丁香婷婷| 亚洲第七页| 韩国v欧美v亚洲v日本v| 亚洲欧美自拍视频| 亚洲精品天堂在线观看| 欧美精品三级在线| 欧美精品综合视频一区二区| 波多野结衣在线se| 午夜视频日本| 国产乱子伦手机在线| 色老头综合网| 欧美精品v日韩精品v国产精品| 国产成人精品一区二区三区| 国内精品视频区在线2021| 国产一区免费在线观看| 国产美女精品一区二区| 国产在线观看第二页| 2020国产免费久久精品99| 在线观看的黄网| 午夜福利无码一区二区| 精品无码国产一区二区三区AV| 国产黄色爱视频| 国产日韩欧美在线视频免费观看| 欧美日本视频在线观看| 亚洲精品天堂自在久久77| 99久久性生片| 国产日韩欧美中文| 午夜影院a级片| 白浆视频在线观看| 亚洲第一极品精品无码| 欧美在线三级| 99精品国产电影| 丁香六月综合网| 一本久道久综合久久鬼色| 亚洲av无码片一区二区三区| 国产永久在线视频| 国产成人亚洲综合a∨婷婷| 久久中文字幕av不卡一区二区| a毛片基地免费大全| 亚洲一区二区约美女探花| 欧美成人精品高清在线下载| 亚洲人成网站日本片| 黄网站欧美内射| 国产97视频在线| 在线观看免费黄色网址| 国产精品吹潮在线观看中文| 午夜福利在线观看入口| 996免费视频国产在线播放| 免费无码AV片在线观看国产| 国产成人亚洲无吗淙合青草| 国产一区二区福利| 毛片网站在线看| 婷婷午夜天|