999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

早期糖尿病風(fēng)險預(yù)測模型的比較研究

2021-07-11 18:44:26王成武晏峻峰
智能計算機與應(yīng)用 2021年1期
關(guān)鍵詞:機器學(xué)習(xí)數(shù)據(jù)挖掘糖尿病

王成武 晏峻峰

摘?要:糖尿病是一種比較常見的慢性疾病,并且存在較長的無癥狀階段。本文主要介紹了機器學(xué)習(xí)中的5種分類算法,分別是樸素貝葉斯、支持向量機、邏輯回歸、決策樹和集成分類器Random Forest,并在Weka數(shù)據(jù)挖掘平臺上,對糖尿病數(shù)據(jù)進行挖掘分析,根據(jù)混淆矩陣、Kappa系數(shù)、ROC曲線、均方根誤差以及相對絕對誤差這幾個性能指標對分類器效果進行分析,找到最適合糖尿病疾病預(yù)測的算法,為當今醫(yī)療行業(yè)其他疾病數(shù)據(jù)的挖掘分析提供思路。

關(guān)鍵詞: 糖尿病;機器學(xué)習(xí);集成分類器;數(shù)據(jù)挖掘;Weka

文章編號: 2095-2163(2021)01-0064-05 中圖分類號:TP391 文獻標志碼:A

【Abstract】Diabetes is a relatively common chronic disease, and there is a long asymptomatic stage. This article mainly introduces five classification algorithms in machine learning, which are Naive Bayes, Support Vector Machine, Logistic Regression, Decision Tree, and Random Forest, an integrated classifier. On the Weka data mining platform, the diabetes data is mined and analyzed. The effect of the classifier is analyzed according to the confusion matrix, Kappa coefficient, ROC curve, root mean square error and relative absolute error, and the most suitable algorithm for diabetic disease prediction is achieved, which could provide ideas for the current medical industry data mining.

【Key words】diabetes; machine learning; integrated classifier; data mining; Weka

0 引?言

糖尿病是一種終身疾病,可引發(fā)心臟病、血管疾病等并發(fā)癥[1],不僅影響了患者的生活質(zhì)量,也會帶來相應(yīng)的經(jīng)濟負擔,所以進行早期糖尿病風(fēng)險預(yù)測具有十分重要的意義。

作為重要的數(shù)據(jù)挖掘技術(shù),機器學(xué)習(xí)等人工智能技術(shù),在糖尿病預(yù)測與治療上應(yīng)用得很多。例如,Purushottam等人[2]分別用C4.5算法和Partial Tree算法自動提取糖尿病預(yù)測規(guī)則來預(yù)測患者的糖尿病風(fēng)險。Santhanam等人 [3]用遺傳算法對糖尿病數(shù)據(jù)集進行維數(shù)約簡并利用支持向量機進行了糖尿病的預(yù)測。胡瑋[4]基于改進鄰域粗糙集和隨機森林算法進行了糖尿病的預(yù)測研究。黃艷群等人[5]利用患者相似性建立了個性化糖尿病預(yù)測模型。

本文將機器學(xué)習(xí)技術(shù)應(yīng)用在早期糖尿病風(fēng)險預(yù)測數(shù)據(jù)集上,構(gòu)建多種分類模型,通過各種性能評價指標對模型進行分析,選擇最優(yōu)分類模型,該模型可通過評估癥狀來檢查用戶患糖尿病的風(fēng)險。

1 基本原理及方法

1.1 實驗數(shù)據(jù)

本文選取的是UCI機器學(xué)習(xí)庫中的早期糖尿病風(fēng)險預(yù)測數(shù)據(jù)集,共包含520個樣本,其中陽性樣本為320個,陰性樣本為200個,每條樣本數(shù)據(jù)包含16個特征屬性和一個類屬性,分別是:Age(年齡)、Gender(性別)、 Polyuria(多尿癥)、 Polydipsia(煩渴)、 sudden weight loss(體重減輕)、weakness(虛弱)、Polyphagia(多食癥)、Genital thrush(生殖器鵝口瘡)、visual blurring(視覺模糊)、Itching(瘙癢)、Irritability(煩躁)、delayed healing(延遲康復(fù))、partial paresis(部分偏癱)、muscle stiffness(肌肉緊張)、Alopecia(脫發(fā))、Obesity(肥胖)、class(類別)。

1.2 算法原理

1.2.1 樸素貝葉斯

樸素貝葉斯算法(Naive Bayes,NB算法)是常用的概率分類算法[6],樸素貝葉斯具有一些明顯的特征,例如計算的速度非常快、準確率高、方法簡單等特點,在一般貝葉斯理論的基礎(chǔ)上,樸素貝葉斯中的‘樸素一詞就是假定樣本中的屬性彼此獨立地對其產(chǎn)生影響,并不考慮屬性之間的依賴關(guān)系,在實際應(yīng)用中對于大部分比較復(fù)雜的問題都是很有成效的。

基于屬性條件獨立性假設(shè),在樣本分類任務(wù)中,計算樣本w所屬類別的概率P(c|w),計算方式為:

其中,n表示屬性個數(shù),Wi表示樣本w在第i個屬性上的取值。P(w)在所有類別中都是相同的,因此在公式(1)的基礎(chǔ)上知樸素貝葉斯分類器的基本表達式:

1.2.2 支持向量機

支持向量機(Support Vector Machine, SVM)是一種常用的二分類模型[7],通過使用給定的樣本數(shù)據(jù)集進行建模,在樣本空間中找到一個最優(yōu)的劃分超平面,該平面產(chǎn)生的分類結(jié)果是最具有魯棒性的,并且對未見示例有最好的泛化能力。SVM是針對線性可分情況進行分析的,對于非線性分類問題,可以通過核函數(shù)將低維樣本空間映射到高維特征空間,這樣高維特征空間即可采用線性算法對樣本的非線性特征進行線性分析。常用的核函數(shù)有以下幾種:

1.2.3 邏輯回歸

邏輯回歸(logistics regression)屬于監(jiān)督學(xué)習(xí)方法,是一種廣義的線性回歸分析模型,主要用于概率預(yù)測或分類。邏輯回歸最基本的學(xué)習(xí)算法是極大似然,即假設(shè)數(shù)據(jù)是伯努利分布,通過極大似然函數(shù)來推導(dǎo)損失函數(shù),使用梯度下降來求解參數(shù),以此來對數(shù)據(jù)進行二分類。邏輯回歸中常用建模函數(shù)的數(shù)學(xué)表達式如下:

其中,?f(x)指觀測個體患上糖尿病的概率,是一個Sigmoid函數(shù);x1,x2,…,x16是糖尿病數(shù)據(jù)集的16個特征屬性;θ是權(quán)重參數(shù)。將Sigmoid函數(shù)與線性回歸兩者結(jié)合,使最終預(yù)測概率的值處于0~1之間:若大于0.5,將其歸為Positive類;若小于0.5,則歸為Negative類。

1.2.4 決策樹J48

ID3算法中根據(jù)信息增益評估和選擇特征,每次選擇信息增益最大的特征作為判斷模塊建立子結(jié)點,使用信息增益的缺點是偏向于具有大量值的屬性,而且該算法不能夠處理連續(xù)分布的數(shù)據(jù)特征,于是就有了C4.5算法,在WEKA中稱為J48算法,該算法是在ID3 算法的基礎(chǔ)上進行改進而產(chǎn)生的[8],算法中包含ID3 算法的所有功能, 除此之外,還可以利用信息增益率來選擇屬性, 合并具有連續(xù)屬性值、處理含有未知屬性值的訓(xùn)練樣本等。

1.2.5 隨機森林

隨機森林(Random Forest)是由Breiman提出的[9],是一種組合分類器,其基本單元就是決策樹。將決策樹作為個體學(xué)習(xí)器,加入了隨機樣本選擇和隨機特征選擇策略。對于本文而言,即隨機地從16個屬性特征中選擇m個屬性(m<16),并且使用有放回的抽樣策略從數(shù)據(jù)集中選取樣本。在新數(shù)據(jù)集上訓(xùn)練決策樹,通過每棵決策樹的預(yù)測結(jié)果來決定測試樣本最終的預(yù)測結(jié)果。算法的整體流程如圖1所示。

1.3 性能指標

1.3.1 混淆矩陣

混淆矩陣可用來判斷分類器的優(yōu)劣,詳見表1。所有評價指標具體定義如下。

1)精確率(Precision):預(yù)測結(jié)果為正例樣本中真實為正例的比例,公式如下:

(2)召回率(Recall):真實為正例的樣本中預(yù)測結(jié)果為正例的比例,公式如下:

(3)F:為精確率(Precision)和召回率(Recall)兩者的調(diào)和平均值,公式如下:

1.3.2 Kappa系數(shù)

Kappa系數(shù)是一種計算分類精度的方法,用于衡量模型預(yù)測結(jié)果和實際分類結(jié)果是否一致,其計算公式為:

其中,Pa為實際一致率,Pe為理論一致率。Kappa系數(shù)的取值在0~1之間,若Kappa≥0.75,則表明分類器的一致性很好。

1.3.3 ROC曲線

受試者工作特征曲線receiver operating characteristic curve,ROC曲線),用來比較2個分類模型有效性的可視化工具,AUC表示ROC曲線下的面積,取值在0.5~1之間。AUC可以直觀地評價分類器的好壞,值越大越好。

1.3.4 均方根誤差

均方根誤差(RMSE)是對樣本數(shù)據(jù)集抽樣誤差的度量,其數(shù)值越小表示模型越穩(wěn)定。

1.3.5 相對絕對誤差

相對絕對誤差(RAE)是預(yù)測數(shù)值與實際數(shù)值兩者差的絕對值,數(shù)值越小則表明模型越優(yōu)。

2 實驗結(jié)果與分析

使用WEKA數(shù)據(jù)挖掘平臺對6個分類器進行分析。在Test options欄目下選擇十折交叉驗證法,依此選擇分類算法進行實驗,其中SVM算法的核函數(shù)選用徑向基核函數(shù)。實驗產(chǎn)生的各性能指標的結(jié)果見表2和表3。

由表2分析可知,精確率(Precision)為預(yù)測出的真陽性病例在預(yù)測為陽性病例中的比例,召回率(Recall)為預(yù)測出的真陽性病例在實際真陽性病例中的比例,精確率和召回率是相互影響的,理想情況下是兩者都高,但一般情況下是精確率高,召回率就低;反之,召回率高,精確率就低。在各種疾病的監(jiān)測研究中,一般采用的方法是在保證精確率的條件下,提升召回率。精度指標中的F值綜合了精確率和召回率,可以用來綜合評價實驗結(jié)果的質(zhì)量。可以看出Random Forest的精確率、召回率和F值遠遠高于Naive Bayes、Logistics 等分類器。

在此基礎(chǔ)上,對表3所得實驗結(jié)果進行分析,可得各項指標的闡釋分述如下。

(1)分類器準確率(Accuracy):由表3中數(shù)據(jù)分析可知,在這5個分類器中,Random Forest算法對樣本分類的準確率最高,其次是J48算法,Naive Bayes算法的準確率較差,于是通過屬性約簡的方式來優(yōu)化Naive Bayes算法的預(yù)測結(jié)果,即找出預(yù)測效果最好的屬性集,使用CfsSubsetEval屬性評估器和GreedyStepwise搜索方法進行屬性選擇,根據(jù)最終的屬性集進行實驗,得出Naive Bayes算法的準確率為0.88,相比之前的準確率略有提升,但還是遠不及其它分類器的預(yù)測結(jié)果。總地來說,集成分類器Random Forest的識別準確率要高于一般的單一分類器。

(2)Kappa系數(shù)比較(Kappa):若分類器與隨機一個分類器的分類結(jié)果全一致,則Kappa系數(shù)為 1,反之為0。所以Kappa系數(shù)越大,表明分類的效果越好。由表3中數(shù)據(jù)可以得知Random Forest算法的Kappa系數(shù)值最大,故該算法相比其它算法在此數(shù)據(jù)集上建立的模型更好。

(3)均方根誤差比較(RMSE):由表3中數(shù)據(jù)可知Random Forest算法和J48算法所建立模型運行產(chǎn)生的RMSE值是最低的兩個,其次是Logistics和SVM,兩者的結(jié)果較為相近,5種分類器中的Naive Bayes的RMSE值最大,效果最差。

(4)相對絕對誤差比較(RAE):由表3中數(shù)據(jù)可知SVM和J48的RAE值較為相近,預(yù)測結(jié)果相差不大,5種分類算法中Random Forest的RAE值最小,表明該模型最優(yōu),所預(yù)測的數(shù)據(jù)值最為貼近實際值。

(5)ROC曲線面積比較(ROC Area):曲線圖的橫縱坐標分別表示模型預(yù)測數(shù)據(jù)的假陽性率和真陽性率,ROC曲線越靠近縱軸,表示模型越好。5類預(yù)測模型ROC曲線圖如圖2~圖6所示。

由圖2~圖6可看出,Random Forest預(yù)測模型的ROC曲線最為靠近縱軸,所以該算法的建模效果最優(yōu),其次是Logistics預(yù)測模型。同樣地,該結(jié)果表明集成分類器的建模效果要高于一般的單一分類器。

為了驗證這幾種模型在不同數(shù)據(jù)量的數(shù)據(jù)集上的表現(xiàn)是否具有一致性,分別隨機抽取320,420個樣本,重復(fù)以上實驗,選取F-Measure作為此次實驗中模型的性能評價指標,最終的訓(xùn)練結(jié)果如圖7所示。

從圖7中可以看出,隨著數(shù)據(jù)集的減少,各模型的分類效果是有所變化的,在樣本數(shù)據(jù)集數(shù)量為320的時候,樸素貝葉斯算法的分類效果相比之前有較大的上升幅度,而支持向量機算法在數(shù)據(jù)集減少到320的時候分類效果相比之前有較大的下降幅度。數(shù)據(jù)集大小為520和420時,各模型分類效果的變化趨勢基本一致,而數(shù)量為320的時候Logistics的分類效果是勝于SVM算法的,但總地來說,不論數(shù)據(jù)集是多少,分類效果最優(yōu)的還是集成分類器Random Forest。

3 結(jié)束語

本文基于WEKA數(shù)據(jù)挖掘平臺,使用5種分類算法對早期糖尿病風(fēng)險預(yù)測數(shù)據(jù)集進行分析,并利用多種評價指標來確定分類效果。從實驗結(jié)果可以看出,集成分類器Random Forest在該糖尿病數(shù)據(jù)集上的分類效果最佳。故今后醫(yī)療行業(yè)其它疾病的預(yù)測,可根據(jù)實際情況,通過結(jié)合策略將多個單一分類器整合起來形成集成分類器,以此來提升模型的分類精度。

參考文獻

[1]劉月. 基于數(shù)據(jù)挖掘技術(shù)的2型糖尿病的預(yù)測與健康管理研究[D]. 秦皇島:燕山大學(xué),2018.

[2]PURUSHOTTAM, SAXENA K, SHARMA R. Diabetes mellitus prediction system evaluation using C4.5 rules and partial tree[C]// 2015 4th International Conference on Reliability, Infocom Technologies and Optimization (ICRITO) (Trends and Future Directions). Noida, India:IEEE, 2015:1-6.

[3]SANTHANAM T, PADMAVATHI M S. Application of K-means and genetic algorithms for dimension reduction by integrating SVM for diabetes diagnosis[J]. Procedia Computer ence, 2015, 47:76-83.

[4]胡瑋. 基于改進鄰域粗糙集和隨機森林算法的糖尿病預(yù)測研究[D]. 北京:首都經(jīng)濟貿(mào)易大學(xué),2018.

[5]黃艷群,王妮,張慧,等. 利用患者相似性建立個性化糖尿病預(yù)測模型[J]. 醫(yī)學(xué)信息學(xué)雜志,2019,40(1):54-58.

[6]KONONENKO I. Seminaive bayesian classifier[C]// Proc. of the 6th European Working Session on Learning. Berlin, Heidelberg:Springer, 1991:206-219.

[7]蘭欣,衛(wèi)榮,蔡宏偉,等. 機器學(xué)習(xí)算法在醫(yī)療領(lǐng)域中的應(yīng)用[J]. 醫(yī)療衛(wèi)生裝備,2019,40(3):93-97.

[8]高海賓. 基于Weka平臺的決策樹J48算法實驗研究[J]. 湖南理工學(xué)院學(xué)報(自然科學(xué)版),2017,30(1):21-25.

[9]劉文博,梁盛楠,秦喜文,等. 基于迭代隨機森林算法的糖尿病預(yù)測[J]. 長春工業(yè)大學(xué)學(xué)報,2019,40(6):604-611.

猜你喜歡
機器學(xué)習(xí)數(shù)據(jù)挖掘糖尿病
糖尿病知識問答
中老年保健(2022年5期)2022-08-24 02:35:42
糖尿病知識問答
中老年保健(2022年1期)2022-08-17 06:14:56
糖尿病知識問答
中老年保健(2021年5期)2021-08-24 07:07:20
糖尿病知識問答
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機的金融數(shù)據(jù)分析研究
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
主站蜘蛛池模板: 欧美精品啪啪| 91香蕉国产亚洲一二三区| 日韩成人在线视频| 四虎在线高清无码| 久草视频精品| 黄色网页在线观看| 8090成人午夜精品| …亚洲 欧洲 另类 春色| 亚洲综合色吧| 97超碰精品成人国产| 九九热精品视频在线| 亚洲第一页在线观看| 国产亚洲视频中文字幕视频| 色欲色欲久久综合网| 自拍欧美亚洲| 99久久人妻精品免费二区| 国产农村妇女精品一二区| 亚洲无码高清免费视频亚洲| 在线观看国产黄色| 国产福利拍拍拍| 91成人在线免费视频| 国产日韩丝袜一二三区| 综合网天天| 亚洲有无码中文网| 伊人五月丁香综合AⅤ| 色偷偷男人的天堂亚洲av| 亚洲第一成人在线| 国产区免费精品视频| 色老头综合网| 国产裸舞福利在线视频合集| 成人一区在线| 精品人妻无码中字系列| 伊人久久福利中文字幕| 美女内射视频WWW网站午夜| 毛片在线播放网址| 亚洲成人播放| 在线观看精品国产入口| 东京热av无码电影一区二区| 亚洲最大综合网| 日韩经典精品无码一区二区| 2022国产91精品久久久久久| 亚洲黄色视频在线观看一区| 欧日韩在线不卡视频| 婷婷色婷婷| 国产毛片基地| 中文字幕av无码不卡免费 | 亚洲成人免费看| 日本午夜影院| 狠狠色丁婷婷综合久久| 思思热在线视频精品| 精品欧美一区二区三区在线| 色久综合在线| 美女被操黄色视频网站| 色丁丁毛片在线观看| 国产精品网址在线观看你懂的| 国产精品免费电影| a级免费视频| 久久人人妻人人爽人人卡片av| 真人高潮娇喘嗯啊在线观看| 2020最新国产精品视频| 波多野结衣一区二区三视频 | 色网在线视频| 亚洲第一极品精品无码| 天天综合网在线| 国产午夜无码片在线观看网站| 小13箩利洗澡无码视频免费网站| 日韩黄色精品| 夜精品a一区二区三区| 亚洲欧洲日韩久久狠狠爱| 婷婷色一区二区三区| 免费一级成人毛片| 久久狠狠色噜噜狠狠狠狠97视色| 精品国产自在现线看久久| 尤物视频一区| 免费 国产 无码久久久| 欧美午夜在线观看| 在线观看91精品国产剧情免费| 欧美精品v欧洲精品| 国产系列在线| 97综合久久| 国产精品女熟高潮视频| 中文字幕在线看|