999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Spark和隨機森林優化的糖尿病預測

2021-11-05 07:48:06遼寧工業大學電子與信息工程學院楊雨含安國家
電子世界 2021年17期
關鍵詞:特征糖尿病優化

遼寧工業大學電子與信息工程學院 楊雨含 安國家

在非平衡數據的問題上,我們實驗發現隨機森林無法很好的解決這一問題。本文采用了SMOTE算法,能夠有效的減少和降低數據集的非平衡性。在面對醫療數據高度特征冗余的特點上,該方案使用了基于隨機森林和序聯合搜索的Wrapper式特征選擇算法。在構造隨機樹時,該方案使用了Spark實現隨機樹的并行構建,提高了運行速率。通過對隨機森林優化后的模型與隨機森林、K最近鄰、神經網絡和向量機等模型進行對比,實驗結果表明,隨機森林優化算法的精度達到81.13%,優于其他的4種分類模型。

隨機森林是一種先進的機器學習模型,近些年得到快速發展,并廣泛應用在醫療、經濟學、生態學等領域。但是在實際上,隨機森林算法存在數據分類不足等問題。有許多的學者在隨機森林算法上做了深入的研究,如俞孫澤在對隨機森林算法優化改進的分析一文中提出了使用粗糙集的方法對隨機森林特征選擇上進行優化。Vakharia等先用ReliefF算法計算特征的權重,刪除低于權值的特征后再進行隨機森林訓練,有效地提高了診斷的準確率。龐泰吾等人用連續特征離散化的方法來改進隨機森林的性能。

為了更好的對糖尿病數據集進行預測分析,本文提出了性能更加突出的隨機森林優化算法并結合Spark并行計算,可以在提高預測準確率的基礎上大大提升算法的效率。

1 隨機森林算法

1.1 決策樹

決策樹被廣泛認為可能是基于機器深度學習的一個分類器。決策樹的特征學習一般過程包括:決策數特征選擇、決策樹的生成和決策樹的修剪枝。特征選擇主要含義是泛指從現有訓練信息數據中進行篩選分析出來的具有訓練相應的信息分類分析功能的信息特點,它的基本特征選擇分析方法主要分為三種,ID3的信息增益、C4.5的信息增益比、CART的基尼系數。

1.2 隨機森林模型

(1)隨機選擇樣本:方法假設一個原始數據集中有N個樣本,從原始數據集中選取N個樣本,將一個個原始樣本隨機地依次放回,即bootstrap取樣,這些元素是有可能被重復抽到的。

(2)建立決策樹:輸入特征數目m,用來確定一棵決策樹上一個節點的決策結果。

(3)隨機選擇特征:對于每一個節點,隨機選擇m個特征,M表示特征數目(m<

(4)隨機森林投票:每棵決策樹對測試集中的每個數據進行分類,統計k個分類結果,得票最多的類別是樣本的最后一個類別。

2 數據來源和數據處理

2.1 數據來源

本文數據集初稿來自美國國家級糖尿病與消化與腎臟疾病研究所。這里的所有患者均為皮馬印第安人血統至少21歲的女性。共769個樣本,其中268例被確診為糖尿病陽性病例,500例為糖尿病檢查為陰性。該臨床測試結果中的特征變量為懷孕次數,口服葡萄糖耐量測試中2h的血漿葡萄糖濃度,舒張壓,三頭肌皮膚褶皺厚度,2h血清胰島素,體重指數,糖尿病譜系功能,年齡,同時還提取一個類別變數是否會患有糖尿病(Outcome,0代表不是,1代表是),如表1所示。

表1 皮馬印第安人糖尿病診斷信息

2.2 數據處理

(1)數據錯誤值缺失值處理

對于異常值的處理,我們采用的方法是剔除異常點。而對于缺失值的處理,我們使用的是Python中的缺失值的替換的原則,用平均值來替代缺失的值。這樣我們就能夠得到一組新的數據包含764個樣本點,其中標簽為-1的樣本點數為264個,標簽值為+1的樣本點數為500個。

(2)SMOTE處理非平衡數據

SMOTE采用了過采樣技術.它采取了一種基于隨機過采樣的技術改進解決方案,因為隨機過采樣,采用了簡單的隨機樣本復制策略,只需要增加少量樣本。這樣就會產生過擬合,SMOTE算法的基礎設計思想就是對少量樣本進行分析,然后再將少量的樣本通過人工合成新的樣本添加到相應的數據集中。

(3)數據標準化

數據標準化主要是指對數據進行伸縮,使其處于一個小的指定區間內。它常被廣泛應用于對某些指標進行處理后所做出的比較和評價,去除對數據的單位限制,將這些數據以一個無量綱的純值的方式轉化為純值,便于對不同單位或一個數量級的指標之間進行相應的比較和加權。

(4)Spark并行計算

Spark的核心為RDD。可以說我們認為它本身就是一組簡單的只讀的分區記錄,其中一個RDD包含了多個集群,每個分區都會存儲一部分的數據并保存到整個集群的不同節點上,不同節點間進行各自的運算邏輯。整個Spark都圍繞RDD進行展開。RDD創建方式的有兩種,第一種是由外部數據存儲文件系統的數據集創建的。第二種是計算程序中生成的數據集。

3 實現與結果

3.1 Wrapper特征選擇(RFE)

該算法主要應用于特征選擇。遞歸特征消除法是利用機器學習模型對其進行多輪訓練。每一輪訓練完成后,剔除權重系數對應的幾個特征,基于新的特征集再次進行下一輪訓練。也就是說,通過遞歸的方式選出使得某評價指標達到最高的一組特征子集,因此Wrapper特征選擇法的準確率最高,同時時間復雜度也很高。

3.2 隨機森林算法并行化設計

隨機森林算法因其多棵決策樹共同投票決定結果的行為,能夠很好地保證結果準確率,但正是由于這個特性導致整個算法在大數據集上耗時過長的問題比較嚴重。改進后的隨機森林算法采用了遞歸式思想,也就是每棵決策樹的生成都要經過多次創建,這也使得算法模型的時間復雜度大大增加。現在Spark已經成為分布式領域中最為流行的算法框架。利用Spark MLLib實現隨機森林模型構建和并行化,可以大大提高運行效率。

3.3 實驗結果分析

為了比較不同分類模型的準確率,分別采用了隨機森林、K最近鄰、向量機、神經網絡和本文的隨機森林優化模型進行比較,如圖1所示。

圖1 ROC曲線圖

通過ROC曲線圖和計算的AUC值,我們可以得到隨機森林優化算法所建立的模型比其他分類算法建立的模型分類性能最優。

總結:針對醫學大量數據的高維特征空間、高特征冗余、高相關性、樣本類別不平衡等特點,提出了一種有效的自適應改進隨機森林算法。通過本文提出的隨機森林優化算法,可以對糖尿病進行有效的預測。通過Spark和隨機森林優化的方法研究了隨機森林算法如何更好的對糖尿病數據集進行預測。并對隨機森林優化后的模型與隨機森林、K最近鄰、神經網絡和向量機等模型進行對比,結果表明隨機森林優化算法的精度達到81.13%,高于K最近鄰、隨機森林、向量機、神經網絡的80.11%、79.84%、77.89%、77.53%的精確度。

猜你喜歡
特征糖尿病優化
糖尿病知識問答
中老年保健(2022年5期)2022-08-24 02:35:42
糖尿病知識問答
中老年保健(2022年1期)2022-08-17 06:14:56
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
糖尿病知識問答
中老年保健(2021年5期)2021-08-24 07:07:20
糖尿病知識問答
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
主站蜘蛛池模板: 国产高清在线观看91精品| 免费一极毛片| 成人免费午夜视频| 精品视频第一页| 国产精品一区二区在线播放| 国产成人亚洲精品色欲AV | 白丝美女办公室高潮喷水视频| 欧美a在线| 五月婷婷丁香色| 大香伊人久久| 91最新精品视频发布页| 国产成人三级在线观看视频| 女人18一级毛片免费观看| 国产乱肥老妇精品视频| 高清不卡一区二区三区香蕉| 日韩欧美中文在线| 原味小视频在线www国产| 国产日韩精品一区在线不卡| 国产区人妖精品人妖精品视频| 全裸无码专区| 国产1区2区在线观看| 精品视频第一页| 综合亚洲网| 亚洲精品天堂在线观看| 欧美成人日韩| 国产欧美日韩精品综合在线| 亚洲av片在线免费观看| 成人年鲁鲁在线观看视频| 日韩一区二区在线电影| 青青热久免费精品视频6| 欧美综合成人| 大陆国产精品视频| 精品人妻一区二区三区蜜桃AⅤ| 岛国精品一区免费视频在线观看| 日韩视频免费| 亚洲一区毛片| 国产精品网址你懂的| 免费观看无遮挡www的小视频| 国产精品香蕉在线| 2021国产在线视频| 亚洲精品无码AⅤ片青青在线观看| 日韩欧美国产精品| 国产精品综合久久久| 伊人久久久大香线蕉综合直播| 国产一级视频在线观看网站| 欧美97色| 欧美成人午夜影院| 无码一区二区三区视频在线播放| 一边摸一边做爽的视频17国产 | 国产美女免费| 久久综合五月婷婷| 亚洲成人在线免费观看| 国产真实乱子伦精品视手机观看 | 欧美亚洲欧美区| 久久视精品| 国产精品尹人在线观看| 欧亚日韩Av| 亚洲色无码专线精品观看| 国产成人h在线观看网站站| 天天色综网| 久久久久青草线综合超碰| 狠狠色综合久久狠狠色综合| 久久99国产视频| 中文字幕永久视频| 激情综合图区| 啦啦啦网站在线观看a毛片| 亚洲精品午夜天堂网页| 国内精自线i品一区202| 无码精品国产dvd在线观看9久| 91国内视频在线观看| 全部免费毛片免费播放 | a毛片在线播放| 国产成人久久综合一区| 伊人国产无码高清视频| 国产一区二区人大臿蕉香蕉| 国产啪在线| 在线毛片网站| 欧美一区二区三区欧美日韩亚洲| 亚洲综合经典在线一区二区| 手机在线看片不卡中文字幕| www亚洲天堂| 黄色一级视频欧美|