999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于PSO-FWSVM的糖尿病預測模型?

2020-07-13 12:47:54朱玉全
計算機與數字工程 2020年5期
關鍵詞:特征糖尿病模型

繆 琦 朱玉全

(江蘇大學計算機與通信工程學院 鎮江 212013)

1 引言

糖尿病治療時間長,沒有立竿見影的治療方法,并且隨著病情的加重,有著嚴重的并發癥。糖尿病前期的及時發現對于控制糖尿病的發展有極其重要的意義。中國糖尿病最新數據顯示:糖尿病前期發現率僅有35.7%,其中70%的人群是以餐后血糖為主。而目前常規體檢僅測空腹血糖,這會造成大量的糖尿病漏診。若在體檢中加入餐后血糖則會帶來人力物力時間上的巨大消耗,因此可以建立一個有效的數學模型協助醫生對糖尿病前期進行有效的判斷,從而提高糖尿病前期的診斷率。

目前糖尿病數據挖掘常采用的分析方法有神經網絡[1],決策樹[2]和支持向量機[3~4]等。相對于其他的方法,支持向量機的優點是顯而易見的[5],它以VC理論和結構風險最小化準則為理論基礎,找到當前有限樣本下的最優解,模型的泛化性較好;少量支持向量決策出結果,模型的魯棒性較好等。但是支持向量機在糖尿病預測的準確率上稍遜色,并且訓練時間相對較慢。本實驗針對這兩個問題對SVM糖尿病預測模型進行改進,提出新的PSO-FWSVM糖尿病預測模型。

傳統的SVM算法假設所有的特征對預測結果的重要性是相同的,但應用在具體的數據集時,樣本的不同特征與目標函數的相關性往往是不同的。通過特征加權可以篩選出對于糖尿病分類更相關的特征,增強這部分特征對結果的作用,并除去部分冗余的特征,在一定程度上可以提高SVM模型的準確率和分類速度。

因為懲罰因子和核函數參數是影響準確率的重要因素,尋找到合適的參數對建立SVM模型非常重要。目前有很多的優化算法,比如交叉檢驗算法、遺傳算法、網格搜索算法和粒子算法等。其中網格搜索算法是目前普遍使用的方法,即在參數列表中進行窮舉搜索,這種方法在范圍足夠大和取值足夠多的情況下可以找到全局最優解,但是這樣會浪費時間。而粒子群算法是一種發展很快的全局優化算法,無需遍歷范圍內的所有參數組,尋優策論簡單,收斂速度快,能較快獲取合適的σ σ和C;局限性是容易出現局部收斂現象,自適應改進慣性權重的PSO[6]可以緩解這一問題。

2 支持向量機SVM

2.1SVM原理

SVM是一種二類分類模型,其基本模型定義為特征空間上間隔最大的線性分類器,其學習策略便是間隔最大化,求解辦法就是將其轉化為一個凸二次規劃問題[7]。

對于線性可分的樣本,找到一個超平面f(x)=wTx+b使得樣本可分,該平面離數據點的幾何間隔越大,則分類的可靠性都越高。則參數要滿足以下的約束條件。

式(1)本身就是一個凸二次規劃問題,使用拉格朗日乘子法可將其轉化成“對偶問題”,可以更高效地解決這一問題。對式(1)的每條約束添加乘子αi≥0得到函數如下所示。

要想得到式(2)的解,則是先求(w,b)的極小,再求αi的極大得到式(1)的對偶問題:

對于非線性樣本,樣本空間是有限維的,則一定存在高維空間使得樣本線性可分。用?(x)表示x映射后的特征向量,經過式(2)、(3)得到的公式如下。

其中:C是懲罰系數。

2.2 特征加權核函數

本文選取RBF函數建立SVM模型,它能夠實現非線性映射,通??梢匀〉煤芎玫男Ч夷P蛥瞪佟碗s度低。SVM模型運用到實際情況時,數據集中各個特征與分類結果的相關性是不同的,導致不同的特征對預測結果會產生不一樣的影響。為了解決這個問題,本文對RBF核函數進行特征加權處理,即依據重要性對各個特征賦予不同的權重,并將其運用到核函數的計算中,從而使核函數的計算可以偏向強相關的特征[9~10]。

若Kp-RBF表示RBF核函數,X為其特征向量矩陣,P是n階的權重矩陣,n是輸入矩陣空間的維度,則加權RBF核函數的公式為

權重矩陣P取n階的對角矩陣,表達式為

特征的重要性度量值,也表示在特征加權矩陣中第i個特征值的權重。通過對不同特征賦予不同的權重,從而使具有更小權重的特征在分類中起到更小的作用。

由此可見wi的求取很重要,本文在隨機森林(RF)的模型中衡量各個變量的預測可以力,即求各個變量的信息值(VI)作為wi;以gini不純度作為最優條件的選擇依據,量化每個特征對于分類的貢獻。假設RF中共有n棵樹,第i棵樹中,節點m的gini指數K表示m節點中有K個類別,pmk表示節點m中類別k所占的比例;節點m分枝前后的gini指數變化量?G=GIm-GIl-GIr,后兩項分別表示m節點分枝后新節點的gini指數;特征 Xj在節點m的重要性表示節點的樣本數量nj占總樣本數量N的比重;特征Xj在決策樹中出現的節點在集合特征M 中,那么Xj在第i棵樹的重要性對n棵樹中特征Xj的VI值求和并歸一化,則最終特征 Xj的重要性

2.3 參數優化

該模型的性能很大程度上取決于核參數σ和懲罰因子C。參數σ越小,核函數對x的衰減越快,對x x的變化敏感,SVM的分離面更細致,則推廣能力降低;參數σ越大,核函數對x的衰減變慢,對x的變化遲鈍,SVM的分離面更平滑,則推廣能力提高。懲罰系數C的取值影響置信范圍區間的確定,C取值小表示對經驗誤差的懲罰小,學習機器的復雜度小而經驗誤差值較大;C取無窮大,則會造成過擬合,這就表示訓練樣本全部被正確分類。每個特征子空間可以找到一個或多個合適的值使得SVM泛化能力達到最佳狀態[11],本文將使用改進后的自適應PSO算法對SVM模型進行參數尋優。

3 粒子群算法(PSO)

3.1 標準的粒子群算法(PSO)

粒子群優化算法是一種自動的尋優技術,它的基本思想是:通過個體的行為和種群信息的共享得到最優解。因為它容易實現并且參數相對簡單,可以被運用在函數優化、模糊系統控制等各個領域。

在PSO算法中,每個可能的解被抽象成沒有質量和體積的粒子,經過無數次迭代得到的最佳位置就是模型合適的參數解[12]。這些粒子的初始速度和位置是隨機的,假設當前為第t代,在N維搜索空間中的粒子可以表示如下所示。

粒子位置:

粒子速度:

粒子群運行到t代,通過比較每個粒子的歷史最佳適應度,可以得到粒子個體本身的最優解,通過比較所有粒子的最佳適應度,可以得到的群體最優解,其公式如下所示。

個體最優:

種群最優:

在t+1代,根據這兩個極值,重新更新粒子的速度和位置,其公式如下所示。

粒子新速度:

3.2 改進的PSO算法

PSO參數的常見選擇是:取c1=c2=1,自身經驗和群體信息的作用相同。r1和r2為(0,1)中的隨機數。w取線性遞減權值0.4,隨著迭代次數的增多,w值逐漸減小,這在一定程度上緩解了局部缺陷。因為一開始更好的全局索搜能力可以幫助粒子快速來到最優解的附近,而之后則需要較強的局部搜索能力確定這個最優解。但是w僅與迭代次數有關,在解決該問題上還存在不足[14]。

影響PSO算法性能的主要因素是參數c1,c2,w以及粒子領域的拓撲結構,本次實驗選擇調整PSO的主要參數w來平衡全局搜索性能和收斂速度,避免“早熟”現象。根據處理數據過程中表現的數據特征來調節w,充分發揮自適應調節的能力,可以使得不同狀態的粒子擁有不同的權重,避免陷入局部最優[15]。在本文的公式中,選擇的數據特征是適應度,即預測模型的交叉驗證準確率。根據個體驗證準確率的大小,將粒子群分成兩個子集,分別采用不同的權重公式,使得群體的慣性權重層次更加豐富。

具體實現的思路是:假設粒子群的個數為n,在k次迭代中粒子Pi的驗證準確率為 fi,最優粒子的驗證準確率 fmax;粒子群的平均驗證準確率為 fˉ,高于 fˉ的那部分準確率再求平均值得到-f',則剩余準確率低于 fˉ的部分再求平均值得到-f''。慣性權重的公式如下所示。

以上式子保證了較優粒子有較小的w,會加快全局收斂的速度;較差粒子的w范圍在[0.5,1],使其在迭代后期避免陷入局部收斂。

3.3 自適應PSO-FWSVM模型

糖尿病數據集包含多個特征,每個特征對預測結果的影響不同,并且無關的特征不僅會增加模型的建立時間,還會降低分類的準確率,所以采用隨機森林算法對數據集進行特征選取。

核參數σ和懲罰因子C對糖尿病模型的預測結果有很大的影響,因此本文利用粒子種群對FWSVM模型進行參數尋優,將識別的交叉驗證準確率當作PSO的適應度函數,在進化過程中根據適應度自適應地調整參數,找到最佳解[16]。PSO-FWSVM模型流程如圖1所示。

圖1PSO-FWSVM模型流程圖

實驗具體步驟如下。

1)利用隨機森林算法對實驗數據進行初步篩選,通過設定閾值,刪除對分類結果貢獻比較小的特征,得到新的特征集。用新的特征集建立新的隨機森林,調整樹的深度和個數進行多次實驗,其中分類精度最高的一次計算出的特征重要度即一一對應特征權重矩陣中的數值,已刪除的特征對應的權重數值為0。

2)設置核函數的初始參數,如核參數變化范圍,懲罰參數的變化范圍,隨機設置一組值。

3)設置粒子群的初始參數,比如種群規模,位置和速度等,以FWSVM模型算法所求得的交叉驗證準確率作為粒子的適應度函數。

4)采用PSO算法更新單個粒子的速度和位置,產生新的粒子并計算其適應度值。

5)判斷當前粒子的個體極值是否為種群的最優解,若是則將當前的個體極值替換為全局最優解,若不是,則返回步驟4)。

6)重復步驟4)、5),直至達到最大迭代次數。歷史迭代中,單個粒子的個體極值是全局最優解且滿足 C值最小時,其對應的參數組即為最佳解。

7)將得到的最佳解用于FWSVM模型訓練,并對糖尿病測試集進行預測。

4 實驗及結果分析

4.1 實驗數據

原始數據由某醫院提供,經篩選后共有936個觀測值。糖尿病患者和非糖尿病患者人數比為1:3.5,每個樣本包含13個特征如血糖指數、舒張壓、BMI等,由于這些特征的量綱不同,會影響到數據分析的結果,需對樣本的每個特征維度分別進行歸一化處理。經過試驗對比,將數據歸一化至[-1,1]區間時,效果最好,處理后的數據即為實驗數據。從實驗數據中隨機抽取70%作為訓練集,30%作為測試集。

4.2 實驗評價指標

僅依靠準確率來判斷模型的好壞是不全面的,必須加上更加復雜和全局性的標準。為了比較模型的好壞,采用了三個常用評價指標—敏感性、特異性、約登指數,它們的表達式如下。

4.3 實驗結果

通過隨機森林算法篩選出建立預測模型使用的8個特征以及其對應的重要性度量值如圖2所示。

圖2 特征重要性排序

將訓練集數據輸入FWSVM模型中,利用自適應PSO算法找到最優參數組(C,σ),初始種群為20,進化代數為100,c1=c2=1。為了避免模型不可靠,尋優過程中引入3折交叉驗證法,得到的平均準確率作為適應度,尋優結果如圖3所示。

圖3中,x軸代表進化代數,y軸代表適應度值即訓練集的識別準確率。從圖可知,自適應PSO算法僅需數次迭代就可以達到最佳適應度為90.77%,此時得到核參數σ和懲罰因子C分別為4.2194和1.0714。運用找到的最優FWSVM模型對驗證集進行預測。

為了驗證本方法的有效性,同時采用網絡搜索-SVM、決策樹和BP神經網絡對實驗數據進行訓練和預測,四個模型的詳細比較見表1。

圖3 自適應PSO尋優結果

表1 四個模型的準確度、敏感性、特異性、約登指數、運行時間比較

從表1中可以看出,PSO-FWSVM模型對糖尿病數據的分類準確率略低于BP神經網絡模型為90.36%,且運行時間最短為0.93s;從三個評價指標上來看,PSO-FWSVM模型是可靠程度最高的,對糖尿病病人的正確識別達到78.95%,對非糖尿病患者的正確排除達到95.59%,模型預測結果的真實性較高。綜合來看,PSO-FWSVM模型的性能優于其他的模型,具有一定的適用性,可用于糖尿病的預測。

5 結語

PSO-FWSVM可以用于建立糖尿病預測模型。通過特征加權,篩選出對分類效果影響較大的參數,從而使得分類結果更加準確,并且由于刪除了不必要的特征,在一定程度上提高的模型運行速度;通過自適應PSO優化算法尋找SVM模型的最優參數,提高模型的正確識別率并縮短訓練模型的時間。

從最終結果可以看出,非糖尿病患者比糖尿病患者更容易被正確識別出來。這可能是由于考慮各個特征對識別結果的重要程度時,沒有考慮樣本數量的不平衡和從多個維度去衡量各個特征的影響力。在之后的研究中,收集更豐富的糖尿病樣本集,科學改進篩選特征的方法,并通過加入新的模型性能判斷指標,更加全面地驗證該模型的分類效果,使得PSO-FWSVM糖尿病預測模型具有更快的運行速度和更準的分類效果。

猜你喜歡
特征糖尿病模型
一半模型
糖尿病知識問答
中老年保健(2022年5期)2022-08-24 02:35:42
糖尿病知識問答
中老年保健(2022年1期)2022-08-17 06:14:56
糖尿病知識問答
中老年保健(2021年5期)2021-08-24 07:07:20
糖尿病知識問答
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 亚洲无码高清免费视频亚洲| 精品一区二区三区中文字幕| 国产99精品久久| 72种姿势欧美久久久大黄蕉| 农村乱人伦一区二区| AV不卡无码免费一区二区三区| 五月天综合婷婷| 青草视频久久| 国产精品人人做人人爽人人添| 亚洲啪啪网| 成人午夜视频网站| 亚洲欧洲美色一区二区三区| 高清国产在线| 国产夜色视频| 精品无码人妻一区二区| 国产美女免费| 国产乱码精品一区二区三区中文| 国产经典三级在线| 国产精品极品美女自在线| 日韩久草视频| 一级毛片免费观看久| 久无码久无码av无码| 国产成人精品一区二区三区| 不卡无码网| 国产第一页免费浮力影院| 伊人婷婷色香五月综合缴缴情| 在线不卡免费视频| 中文字幕永久在线观看| 暴力调教一区二区三区| 国产成人1024精品| 91精品国产综合久久香蕉922 | 精品少妇人妻无码久久| 亚洲制服丝袜第一页| 老司国产精品视频| 国产免费观看av大片的网站| 欧美日韩精品一区二区在线线| 大陆精大陆国产国语精品1024| 亚洲一区二区三区中文字幕5566| 国产h视频在线观看视频| 久久91精品牛牛| 亚洲区第一页| 国产综合无码一区二区色蜜蜜| 伊大人香蕉久久网欧美| 亚洲天堂.com| 国内精自线i品一区202| 夜色爽爽影院18禁妓女影院| 日韩人妻精品一区| 久久久久国产一区二区| 亚洲日韩精品伊甸| 第一区免费在线观看| 午夜国产理论| 国产精品极品美女自在线| 亚洲丝袜中文字幕| 国产精品亚洲а∨天堂免下载| 国产乱子伦视频三区| 国产主播福利在线观看| 色偷偷一区二区三区| 久久久受www免费人成| 国产视频只有无码精品| 中文字幕乱码中文乱码51精品| 国产人在线成免费视频| 国产91视频免费| 欧美人人干| 亚洲国产成人自拍| 亚洲va精品中文字幕| 国产精品嫩草影院视频| 无码粉嫩虎白一线天在线观看| 久久福利网| 国产91丝袜在线播放动漫| 久久亚洲美女精品国产精品| 婷婷激情亚洲| 天天干天天色综合网| 精品国产美女福到在线直播| 久久国产V一级毛多内射| 国产精品天干天干在线观看| av一区二区三区高清久久| 精品一区二区三区中文字幕| 国产精品欧美在线观看| 麻豆AV网站免费进入| 亚洲视频二| 国产精品第一区在线观看| 亚洲大学生视频在线播放|