999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于WEKA 的醫學數據分類及糖尿病早期預測

2021-04-08 08:57:52竇一峰
醫學信息 2021年6期
關鍵詞:分類糖尿病評價

張 穎,竇一峰

(天津市寶坻區人民醫院泌尿外科1,網絡信息中心2,天津 301800)

近年來,隨著交叉學科的不斷發展,作為疾病預測模型中的重要組成部分,越來越多的機器學習和人工智能算法應用于醫學數據集上,在疾病預測與輔助診斷、藥物選擇與應用、醫保欺詐與檢測等醫學相關領域展示出優良性能。已有研究[1,2]采用隨機森林算法對電子病歷數據進行分析,從而預測患者是否患有糖尿病。另有研究[3-6]分別采用K 最近鄰、決策樹、支持向量機、神經網絡等模型對糖尿病數據進行分析預測,用于輔助臨床決策。但目前大多研究只采用單一的進行算法疾病預測,或僅與極少常用的算法進行比較。基于此,本研究基于WEKA 平臺,將機器學習領域常見的各種算法應用于糖尿病早期診斷預測中,探索機器學習算法對于醫學分類數據的可操作性和可移植性,現總結如下。

1 資料與方法

1.1 數據來源 本研究實驗數據集是來源于UCI 機器學習數據庫中美國國家糖尿病消化腎臟疾病研究所提供的皮馬印第安人糖尿病數據集,共計768 條數據。該數據集主要以美國亞利桑那州的普通居民為研究對象,因當地人口中糖尿病發病率較高,為了更好的基于數據集中包含的某些診斷指標來預測患者是否患有糖尿病,該研究所對這個地區的人口進行持續性的調查研究。數據集構成見表1。

表1 皮馬印第安人糖尿病數據集

1.2 分類算法 選取算法涵蓋了基于貝葉斯定理的算法、集成學習模型、基于規則的算法和基于樹思想的算法等6 大類,見表2。

1.3 評價指標 根據混淆矩陣來確定評價指標,主要為Kappa 統計量,用于評判分類器的分類結果與隨機分類的差異度,取值范圍[-1,1],Kappa 值與分類器的AUC 指標及準確率呈正相關,該值越接近1 表示算法越準確。統計學指標包括衡量預測值和觀測值之間絕對誤差的平均絕對誤差(mean absolute error,MAE)、表示預測值和觀測值之間差異的均方根誤差(root mean square error,RMSE)、平均絕對誤差平方根(root absolute error,RAE)、相對平方根誤差(root relative squared error,RRSE),其值越小越好。將被算法判定為正樣本且事實上也是正樣本的個案記為TP,將被算法判定為負樣本且事實上為負樣本的個案記為TN,將被算法判定為正樣本但事實上是負樣本的個案記為FP,將被算法判定為負樣本但實際上是正樣本的個案記為FN。基于此,得到機器學習算法常用評價指標的計算方式,包括TPR、FPR、Precision、Recall、F-Measure、Accuracy 和ROC曲線下面積(AUC)。

2 結果

2.1 數據感知 該數據集768 人中有268 人患病,500 人不患病,患病率為34.90%。其中糖尿病患者的平均葡萄糖濃度、平均舒張壓、平均皮褶厚度、平均血清胰島素、平均體重指數、平均糖尿病譜系功能均高于正常人,其年齡一般在27~47 歲,懷孕次數1~8 次,見表3。

2.2 算法結果 運用Weka3.6.12 軟件,采用十折交叉驗證的方式對1.2 中提出的算法進行實驗,統計學評價指標結果見表4,機器學習評價指標結果見表5。結果顯示,本次選取的算法在該糖尿病數據的分類預測中均達到65%以上的準確率,其中集成學習模型的準確率較為穩定,各算法均超過了74%,但從算法時間來看,集成學習算法普遍上較其他算法的運行時間長。在內部一致性上,LMT 和Logistic 兩種算法表現出較好的一致性,同時其均方根誤差和相對平方根誤差最低,而從機器學習評價指標上來看,LMT 和Logistic 算法分類正確率、F-Measure 和AUC值在所有算法中最優,顯示這兩種算法在皮馬印第安人糖尿病數據集的分類預測上有較好的效果。

表2 分類算法

表3 數據集描述性統計情況

表4 統計學類指標實驗結果

表5 機器學習類指標實驗結果

表5 (續)

3 討論

為了實現基于WEKA 平臺的醫學數據分類和糖尿病早期預測,本研究以皮馬印第安人糖尿病數據集為例,使用基于貝葉斯、基于函數、基于集成思想等六類共23 種算法進行實驗,通過對多種基礎分類器及其衍生算法進行比較,并利用多種評價指標進行性能評估,以期得到更加適合糖尿病數據預測的算法。

本研究中,從統計學評價指標來看,Kappa>0.4,說明兩者一致性在可接受范圍,LMT、SMO、Logistic、NavieBayes、RotationForest 和Bagging 的Kappa 值均超過了0.44,說明其內部一致性良好;而MAE、RMSE、RAE 和RRSE 的值越小說明分類器預測值和實際結果的差異越小,分類精度越高。RMSE 和RRSE 均較小的前5 位算法依次為Logistic、LMT、RotationForest、RandomForest 和Bagging。這與研究[7,8]報道采用決策樹、隨機森林、支持向量機和k 近鄰算法作用在糖尿病數據分類判別后得到的Random-Forest 最優結果一致。從算法訓練的時間上看,算法的輸入參數越少,剪枝迭代的次數越少,其訓練時間越短,因而本次集成學習算法的訓練時間普遍較長。

本研究中,從機器學習評價指標來看,各個指標的評價值越高說明算法的分類效果和預測精度越高?;诩蓪W習思想的模型整體上比其他模型的分類正確率、精確率、召回率、F-Measure 和AUC 值高,這可能是因為集成方法平均了單個模型的偏差,也減少了方差,同時集成學習使得算法的過擬合概率降低。從單個算法角度看,LMT、SMO、Logistic、NavieBayes、RotationForest 的分類正確率均超過了76%,這些算法的真陽性率也在76.2%以上,同時ROC 曲線下面積除SMO 外均達到了0.82 以上,說明它們在該糖尿病數據集上的分類性能較好,能夠在糖尿病早期預測中發揮重要作用。

綜上所述,在該糖尿病數據集上的分類預測效果較好的算法有六種,分別是LMT、SMO、Logistic、NavieBayes、RotationForest 和Bagging。未來,計劃將各個算法利用信息融合的思想對模型進行組合優化,結合各個模型的優勢特點來提高對糖尿病的預測精度和效率。

猜你喜歡
分類糖尿病評價
糖尿病知識問答
中老年保健(2022年5期)2022-08-24 02:35:42
糖尿病知識問答
中老年保健(2022年1期)2022-08-17 06:14:56
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
糖尿病知識問答
中老年保健(2021年5期)2021-08-24 07:07:20
糖尿病知識問答
分類算一算
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
基于Moodle的學習評價
主站蜘蛛池模板: 日本免费高清一区| 亚洲综合精品第一页| 91免费国产高清观看| 蜜芽国产尤物av尤物在线看| 国产成人精品在线1区| 丝袜高跟美脚国产1区| 亚洲女同欧美在线| 四虎成人免费毛片| 99人妻碰碰碰久久久久禁片| 日韩第一页在线| 久久成人免费| 亚洲美女一区| 99视频在线看| 亚洲男人的天堂在线| 国产成人av一区二区三区| 亚洲人成电影在线播放| 国产青榴视频| 精品国产网站| 成人午夜精品一级毛片| 午夜爽爽视频| 久久精品一品道久久精品| 国产尤物在线播放| 国产噜噜在线视频观看| 五月婷婷中文字幕| 日本成人一区| 亚洲一区二区日韩欧美gif| 亚洲国产无码有码| 亚洲一区二区精品无码久久久| 91视频免费观看网站| 国产尤物在线播放| 国产高清不卡| 国产精品嫩草影院视频| 永久免费无码日韩视频| 久久精品嫩草研究院| 国产成人1024精品| 99精品国产自在现线观看| 日韩av无码DVD| 在线一级毛片| 无码乱人伦一区二区亚洲一| 成人av手机在线观看| 欧美特级AAAAAA视频免费观看| 91美女视频在线观看| 国产91小视频在线观看| 中文字幕久久亚洲一区| 色网在线视频| 在线另类稀缺国产呦| 欧美一级色视频| 色综合中文综合网| 97色婷婷成人综合在线观看| 久久99国产精品成人欧美| 高清免费毛片| 三级国产在线观看| 女同久久精品国产99国| 狠狠色噜噜狠狠狠狠色综合久 | 国产欧美日韩精品第二区| 欧美一级片在线| 国产美女叼嘿视频免费看| 亚洲福利片无码最新在线播放| 国产成人亚洲精品蜜芽影院| 亚洲视频一区| 夜夜操天天摸| 少妇露出福利视频| 日韩免费毛片| 国产精品毛片在线直播完整版| 亚洲中文字幕久久精品无码一区| 色综合婷婷| 无码日韩精品91超碰| 爽爽影院十八禁在线观看| 特级欧美视频aaaaaa| 色婷婷色丁香| 黄片一区二区三区| 国产成人亚洲欧美激情| 99久久人妻精品免费二区| 国产精品刺激对白在线| 成人国产一区二区三区| 日本五区在线不卡精品| 91精品亚洲| 亚洲无限乱码| 欧美第九页| 三区在线视频| 伊人蕉久影院| 色婷婷电影网|