999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

集成學(xué)習(xí)在糖尿病預(yù)測中的應(yīng)用

2019-12-05 08:35:54張玉璽賀松尤思夢
智能計算機與應(yīng)用 2019年5期
關(guān)鍵詞:機器學(xué)習(xí)糖尿病

張玉璽 賀松 尤思夢

摘 要:糖尿病、高血壓和心腦血管病并稱為影響人類健康的三大殺手,不僅對患者的生命健康造成嚴(yán)重的威脅,也給患者的家庭造成嚴(yán)重的經(jīng)濟負(fù)擔(dān)。對糖尿病做出準(zhǔn)確的預(yù)測,意義深遠(yuǎn)。本文采用了KNN、支持向量機、邏輯回歸、隨機森林、集成學(xué)習(xí)五種方法對糖尿病數(shù)據(jù)進行預(yù)測,分別取得了71.86%,72.29%,74.46%,71.87%,76.62%的準(zhǔn)確率。結(jié)果表明,集成學(xué)習(xí)預(yù)測效果最佳,驗證了其優(yōu)異性。

關(guān)鍵詞: 集成學(xué)習(xí);糖尿病;預(yù)測;機器學(xué)習(xí)

【Abstract】 Diabetes, hypertension and cardiovascular and cerebrovascular diseases are called three killers of human health,which not only posed a serious threat to the patient's life and health , but also caused a serious economic burden to the patient's family.Accurate prediction of diabetes has profound implications.In this paper, five methods including KNN, Support Vector Machine, Logistic Regression, Random Forest and Integrated Learning are used to predict diabetes data, and the accuracy rates of 71.86%, 72.29%, 74.46%, 71.87% and 76.62% are achieved respectively.The results show that the integrated learning has the best prediction effect and its excellent performance is verified.

【Key words】 ?integrated learning; diabetes; prediction; machine learning

0 引 言

目前,隨著科學(xué)技術(shù)的發(fā)展,大數(shù)據(jù)信息時代已悄然來臨,人工智能技術(shù)的研究也取得了長足進步,越來越多的學(xué)者將研究的關(guān)注點轉(zhuǎn)到醫(yī)療智能診斷上來。作為人工智能技術(shù)的重要分支,機器學(xué)習(xí)也已廣泛地被應(yīng)用于醫(yī)學(xué)模型的構(gòu)建中,并發(fā)揮著不可替代的作用。機器學(xué)習(xí)[1-2]( Machine Learning,ML) 是一門交叉學(xué)科,涉及統(tǒng)計學(xué)、概率論等多個領(lǐng)域,該算法是從已有數(shù)據(jù)中挖掘分析獲得規(guī)律,并利用這些規(guī)律對未知數(shù)據(jù)做出預(yù)測。

糖尿病是一種以高血糖為主要特點的代謝性疾病,典型特征為多尿、多飲、多食、體重減輕。國際糖尿病聯(lián)盟(International Diabetes Federation,IDF)于2017發(fā)布的全球糖尿病地圖數(shù)據(jù)表明,目前全球共有4.25億成人(20~79歲)糖尿病患者,估計患病率為8.8%;中國成人糖尿病患者數(shù)量高達(dá)1.14億,占全球成人糖尿病患者總數(shù)的1/4以上,這一數(shù)據(jù)仍在繼續(xù)增長,預(yù)計到2045年將增至1.2億[3]。而中國大多數(shù)的糖尿病患者在患病之前,自身既沒有察覺、也沒有明確意識,因此,對糖尿病進行早期的診斷則顯得尤為重要。

本文選用了機器學(xué)習(xí)算法中的KNN、支持向量機、邏輯回歸、隨機森林四種分類算法構(gòu)建糖尿病單一分類器,同時通過投票法作為結(jié)合策略結(jié)合上述四種分類算法構(gòu)成分類投票聚合模型Voting。基于此,將運用前述五種分類器對糖尿病數(shù)據(jù)進行分析、預(yù)測,并運用10折交叉驗證方法對各個模型進行評估比較,選出最好的糖尿病預(yù)測模型,以期為糖尿病的早期篩查與診斷提供輔助決策。本文擬展開研究論述如下。

1 機器學(xué)習(xí)算法

1.1 KNN算法

KNN(k-NearestNeighbor)算法,又叫K近鄰算法,或者說K最近鄰分類算法,是著名的模式識別統(tǒng)計學(xué)方法。KNN算法在理論上比較成熟,是最簡單的機器學(xué)習(xí)算法之一,在機器學(xué)習(xí)分類算法中占據(jù)著重要位置。K最近鄰指的是K個最近的鄰居,也就是可以用最接近的K個鄰居來表示每個樣本。

K近鄰算法中,K值的選取對于整個算法起著決定性作用[5]。當(dāng)K的取值過小時,一旦數(shù)據(jù)中有噪聲存在,將會對預(yù)測結(jié)果產(chǎn)生比較大的影響。當(dāng)K的取值過大時,容易受到樣本均衡問題的影響,訓(xùn)練的模型會用較大鄰域中的訓(xùn)練數(shù)據(jù)進行預(yù)測,模型的近似誤差將會增大。

K要盡量選擇奇數(shù)。選偶數(shù),很有可能會發(fā)生分類結(jié)果相等的情況,不利于模型的預(yù)測,而選擇奇數(shù)則可以保證在預(yù)測結(jié)果的最后產(chǎn)生一個較多的類別。因此,研究必須要選擇合適的K值來構(gòu)建文中的KNN模型,本文通過10折交叉驗證確定KNN模型的最優(yōu)K值為7。

1.2 支持向量機算法

支持向量機(Support Vector Machine, SVM)算法1964年由Cortes和Vapnik[6]提出,此后歷經(jīng)一系列改進和擴展,目前已經(jīng)發(fā)展成較為成熟的機器學(xué)習(xí)模型。SVM不僅能夠?qū)崿F(xiàn)分類、回歸任務(wù),而且能夠進行異常值的檢測,是機器學(xué)習(xí)領(lǐng)域中廣為流行的模型。

支持向量機嘗試找到一個最優(yōu)超平面來對樣本進行分割,分割的原則是間隔最大化,該超平面能夠?qū)⒄惡拓?fù)類正確分隔開。雖然SVM分類器在許多數(shù)據(jù)上的表現(xiàn)都很好,可是仍需指出,現(xiàn)實中的大部分?jǐn)?shù)據(jù)并不是線性可分的,這個時候滿足這樣條件的超平面就根本不存在,即特征空間存在超曲面將正類和負(fù)類分開。對于這種情況,可以將訓(xùn)練樣本從原始空間映射到一個更高維的希爾伯特空間(Hilbert space)中去,將其轉(zhuǎn)化為線性問題,使得樣本在這個空間中線性可分。

SVM將非線性問題轉(zhuǎn)化為線性問題的方法關(guān)鍵就是選擇一個核函數(shù),常用的核函數(shù)有線性核(linear)、多項式核(poly-nomial)、高斯RBF核和 Sigmoid 核函數(shù)。在本文SVM模型的構(gòu)建中,研究選擇的核函數(shù)是多項式核。

1.3 邏輯回歸算法

邏輯回歸(Logistic Regression,LR)算法,又稱對數(shù)幾率回歸,雖然名字中帶“回歸”字樣,但其實際上卻是一種分類學(xué)習(xí)方法,主要應(yīng)用于兩分類問題。邏輯回歸由于具有計算速度快、解釋性好以及容易擴展和實現(xiàn)等優(yōu)點,常會應(yīng)用于疾病診斷,經(jīng)濟預(yù)測等方面。邏輯回歸算法使用Sigmoid函數(shù)作為研究中的預(yù)測函數(shù),對于輸入變量x,通過線性函數(shù)y=wx+b的運算,輸出變量y,y則通過Sigmoid函數(shù)轉(zhuǎn)換成標(biāo)簽化的結(jié)果。模型函數(shù)的閾值可以進行設(shè)置,當(dāng)Sigmoid函數(shù)的輸出值大于研究設(shè)定的閾值時,模型會將其判定為“1”這一個類別;否則判定為“0”這一類別,函數(shù)閾值是一個可調(diào)節(jié)的參數(shù)。其對應(yīng)數(shù)學(xué)公式如下:

Sigmoid(x)=11+e-x.(4)

邏輯回歸也會面臨過擬合的問題,所以就要采取一定的措施來緩解模型過擬合。通用的方法是在邏輯回歸的代價函數(shù)上,加入正則化項,從而能得到一個擬合較為適度的機器學(xué)習(xí)模型,常見的正則化手段有L1正則化和L2正則化[7]。

1.4 隨機森林算法

隨機森林(Ramdom Forest,RF)算法是由Breiman提出的一種基于 CART 決策樹的組合分類器算法,可構(gòu)造出多個樹形分類模型。隨機森林是一種集成學(xué)習(xí)算法,是由多個決策樹合并在一起形成的組合識別模型。“隨機”一詞在這里有兩層含義。第一層可以理解為在總訓(xùn)練樣本中隨機有放回地為森林中的每個決策樹選取訓(xùn)練集; 第二層是對森林中的每個決策樹從所有樣本屬性中隨機不放回地選擇部分樣本屬性。

隨機森林的每棵樹都可以得出分類決策結(jié)果,通過采用森林內(nèi)決策樹投票,根據(jù)少數(shù)服從多數(shù)的原則,來判定待測樣本的類別,而所有樹中票數(shù)較高的類別即為最終結(jié)果。隨機森林分類精度相對較高,具有不易過擬合、抗噪聲能力強且易實現(xiàn)等特點[8],但運算量也相對較大。

1.5 集成學(xué)習(xí)

1.5.1 集成學(xué)習(xí)原理

集成學(xué)習(xí)通過構(gòu)建并結(jié)合多個學(xué)習(xí)器完成學(xué)習(xí)任務(wù)。與一般的學(xué)習(xí)方法不同,一般的學(xué)習(xí)方法是用訓(xùn)練數(shù)據(jù)構(gòu)造一個學(xué)習(xí)器,而集成學(xué)習(xí)方法是構(gòu)造多個學(xué)習(xí)器并通過一定的策略將其結(jié)合起來,上文中提到的隨機森林算法就是最常見的集成學(xué)習(xí)算法。但在實際模型構(gòu)建中,由于每個模型都有其各自的優(yōu)勢及局限性,研究只能得到多個在某些方面有偏好的學(xué)習(xí)器(弱學(xué)習(xí)器)。而集成學(xué)習(xí)則能將多個弱學(xué)習(xí)器相結(jié)合,以期得到一個穩(wěn)定且在各個方面性能表現(xiàn)都比較出色的模型。在此情況下,集成學(xué)習(xí)能夠綜合各個學(xué)習(xí)器的預(yù)測結(jié)果,即使某一學(xué)習(xí)器因為自身不足導(dǎo)致分類錯誤,可是只要大部分的學(xué)習(xí)器預(yù)測正確,最終仍能得到正確的預(yù)測結(jié)果[9]。

1.5.2 集成學(xué)習(xí)結(jié)合策略

對于機器學(xué)習(xí)中的分類任務(wù),最常用的結(jié)合策略是投票法,每個弱分類器給出自己的分類預(yù)測,再通過投票法結(jié)合后得出最終的結(jié)果。機器學(xué)習(xí)中的投票法也有不同的方式,最常見的是簡單投票法,包括相對多數(shù)投票法和絕對多數(shù)投票法。對此可做闡釋分述如下。

在本文中,使用了4個單一分類器,即:KNN分類器、SVM分類器、邏輯回歸分類器和隨機森林分類器,通過把4個分類器的預(yù)測結(jié)果采用簡單投票法中的相對多數(shù)投票法作為結(jié)合策略結(jié)合起來,得票數(shù)最多的類別作為集成模型最終的預(yù)測類別。

2 實驗結(jié)果與分析

2.1 數(shù)據(jù)來源

本研究采用的數(shù)據(jù)來源于開放的皮馬印第安人糖尿病數(shù)據(jù)集,該數(shù)據(jù)集由768個皮馬印第安人糖尿病信息樣本組成(樣本均為女性)。其中,每個樣本均包含Pregnancies(是否懷孕)、Glucose(葡萄糖含量)、Blood Pressure(血壓指數(shù))、Skin Thickness(皮膚厚度指數(shù))、Insulin(胰島素含量)、BMI(體重指數(shù))、Diabetes Pedigree Function(糖尿病譜系功能)、Age(年齡)共8個輸入變量,8個輸入變量全部為連續(xù)型變量,無需設(shè)置啞變量,同時包含Out come(結(jié)果)一個輸出變量,當(dāng)Out come的值為1時代表患糖尿病,當(dāng)Out come的值為0時表示未患糖尿病。

2.2 模型建立

機器學(xué)習(xí)算法模型的預(yù)測能力與訓(xùn)練樣本的數(shù)量關(guān)系密切,根據(jù)以往的經(jīng)驗和相關(guān)文獻研究,將數(shù)據(jù)集按照7:3的比例進行劃分,其中70%(包含538條樣本)作為訓(xùn)練集的數(shù)據(jù)資料,用來建造預(yù)測模型;另外30%(包含230條樣本)作為測試集數(shù)據(jù)資料,用來檢測和評價模型的性能效果。

研究中,采用Python語言開發(fā)的sklearn機器學(xué)習(xí)庫中的KNN算法、支持向量機算法、邏輯回歸算法、隨機森林算法,以是否懷孕、葡萄糖含量、年齡等8個特征作為自變量,患者是否患糖尿病作為因變量,分別構(gòu)建4個單一分類器和以相對多數(shù)投票法作為結(jié)合策略的集成分類器。實驗中,使用10折交叉驗證對模型參數(shù)進行調(diào)優(yōu),以使模型具有最優(yōu)的參數(shù)組合。

2.3 模型評估

本文主要通過準(zhǔn)確率、靈敏度、ROC曲線下面積等指標(biāo)對構(gòu)建的分類器模型進行性能評價,具體結(jié)果見表1和圖1。

由表1可知,在對糖尿病數(shù)據(jù)的預(yù)判上,集成模型Voting的效果是這5個模型中最好的,其準(zhǔn)確率達(dá)到了76.62%,比最高的單一分類器提升了

2.16%,其次是邏輯回歸74.46%,再次是支持向量機72.29%和隨機森林71.87%,KNN的效果最差,為71.86%。

AUC(ROC曲線下面積)能夠體現(xiàn)模型性能的優(yōu)劣,圖1顯示的是各個分類器的ROC曲線。曲線越是靠近左上方,曲線下的面積就越大,表明該算法的預(yù)測效果越好。本實驗采用10折交叉驗證預(yù)測得到了各模型的AUC值。由表1和圖1可知,5種機器學(xué)習(xí)方法AUC值的排名依次是:集成模型Voting為0.802,邏輯回歸為0.791,隨機森林為0.782,支持向量機為0.718,KNN為0.717。

綜上,研究將選擇準(zhǔn)確率最高、AUC值最大的集成模型Voting作為最終的糖尿病數(shù)據(jù)預(yù)測模型。

3 結(jié)束語

本文闡述了機器學(xué)習(xí)中的KNN、支持向量機、邏輯回歸、隨機森林四種算法以及集成學(xué)習(xí)的基本原理與特點,并基于糖尿病數(shù)據(jù)分別建立相應(yīng)的模型,利用交叉驗證對模型的參數(shù)進行了優(yōu)化,通過準(zhǔn)確率、AUC值等模型評價指標(biāo)對模型進行選擇。結(jié)果表明以相對多數(shù)投票法作為結(jié)合策略的集成模型Voting具有更好的預(yù)測效果。由于數(shù)據(jù)集樣本量有限,導(dǎo)致整體預(yù)測準(zhǔn)確率偏低。但有理由相信,在有足夠數(shù)據(jù)的情況下,將會構(gòu)建出更加準(zhǔn)確的預(yù)測模型。希望本次研究能夠為糖尿病的預(yù)測提供一定的幫助,并能夠為國內(nèi)的醫(yī)療事業(yè)做出應(yīng)有的貢獻。

參考文獻

[1]MORPURGO R,MUSSI S.An intelligent diagnostic support system[J].Expert Systems,2001,18(l):43-58.

[2]SELA R J,SIMONOFF J S.RE-EM trees:A data mining approach for longitudinal and clustered data[J]. Machine Learning,2012,86(2):169-207.

[3]International Diabetes Federation. IDF Diabetes Atlas[M]. 8th ed. Brussels:International Diabetes Federation,2017.

[4]吳興惠,周玉萍,邢海花,等. 機器學(xué)習(xí)分類算法在糖尿病診斷中的應(yīng)用研究[J].電腦知識與技術(shù),2018,14(35):177-178,195.

[5]楊帆,林琛,周綺鳳,等.基于隨機森林的潛在k近鄰算法及其在基因表達(dá)數(shù)據(jù)分類中的應(yīng)用[J].系統(tǒng)工程理論與實踐,2012,32(4):815-825.

[6]CORTES C,VAPNIK V. Support vector networks[J].Machine Learning,1995,20(3) : 273-297.

[7]史雙睿. 異質(zhì)集成學(xué)習(xí)器在鳶尾花卉分類中的應(yīng)用[J].電子制作,2019(2):45-47,79.

[8]闞紅星,張璐瑤,董昌武.一種2型糖尿病中醫(yī)證型的舌圖像識別方法[J].中國生物醫(yī)學(xué)工程學(xué)報,2016,35(6):658-664.

[9]曾一平. 基于集成學(xué)習(xí)的小麥識別研究[J].現(xiàn)代商貿(mào)工業(yè),2019,40(17):207-209.

[10]ZHOU Zhihua. Ensemble methods: foundations and algorithms[M]. Boca Raton: CRC Press,2012.

猜你喜歡
機器學(xué)習(xí)糖尿病
糖尿病知識問答
中老年保健(2022年5期)2022-08-24 02:35:42
糖尿病知識問答
中老年保健(2022年1期)2022-08-17 06:14:56
糖尿病知識問答
中老年保健(2021年5期)2021-08-24 07:07:20
糖尿病知識問答
中老年保健(2021年9期)2021-08-24 03:51:04
糖尿病知識問答
中老年保健(2021年7期)2021-08-22 07:42:16
糖尿病知識問答
基于詞典與機器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機的金融數(shù)據(jù)分析研究
主站蜘蛛池模板: 国产精品hd在线播放| 欧美日本视频在线观看| 欧美综合在线观看| 毛片网站在线看| 亚洲视频免费在线| 都市激情亚洲综合久久| 精品人妻一区无码视频| 欧美黄色网站在线看| 国产午夜精品鲁丝片| 亚洲第一成年免费网站| 日韩AV无码一区| 99精品视频在线观看免费播放| 全部毛片免费看| 亚洲无卡视频| 在线视频亚洲色图| 亚洲欧美激情另类| 中文字幕色站| 久久久四虎成人永久免费网站| 中文字幕2区| 国产一级做美女做受视频| 亚洲综合专区| 亚洲久悠悠色悠在线播放| 久久一日本道色综合久久| 毛片基地美国正在播放亚洲 | 小说区 亚洲 自拍 另类| 999精品在线视频| 精品亚洲国产成人AV| 成人国产一区二区三区| 99久久免费精品特色大片| 91破解版在线亚洲| 91亚洲精选| 国内精品免费| 五月天综合网亚洲综合天堂网| 久久人人妻人人爽人人卡片av| 国产91特黄特色A级毛片| 亚洲欧洲综合| 亚洲成年人网| 国产美女视频黄a视频全免费网站| 日韩欧美高清视频| 国产男人的天堂| 欧美成人A视频| 97综合久久| 色婷婷亚洲综合五月| 国产午夜精品鲁丝片| 欧美色99| 成人蜜桃网| 国产办公室秘书无码精品| 日a本亚洲中文在线观看| 欧美日韩在线第一页| 午夜精品久久久久久久无码软件 | 久久五月天综合| 四虎精品国产AV二区| 国产亚洲欧美日韩在线一区| 最新痴汉在线无码AV| 精品国产91爱| 99在线视频精品| 亚洲网综合| 成人免费黄色小视频| 国内熟女少妇一线天| 亚洲天堂精品视频| 亚洲国产黄色| 色综合久久88色综合天天提莫 | 伊人91视频| 欧美a在线视频| 一级毛片在线播放免费| 国产99精品视频| 999精品色在线观看| 黄色福利在线| 日韩欧美视频第一区在线观看| 天堂成人av| 97亚洲色综久久精品| 亚洲天堂免费| 美女免费精品高清毛片在线视| 国产高清在线观看| 亚洲综合网在线观看| 色综合天天综合| 免费毛片a| 亚洲AV成人一区二区三区AV| 久久精品亚洲中文字幕乱码| 欧美人在线一区二区三区| 欧美色视频网站| 久久亚洲高清国产|