高鑫


摘要:糖尿病是一種嚴(yán)重危害人類身體健康的疾病,及早發(fā)現(xiàn)并做相應(yīng)的治療顯得尤為重要。本文運(yùn)用Pima Indians Diabetes數(shù)據(jù)集,構(gòu)建支持向量機(jī)模型,該模型采用徑向基核函數(shù)解決非線性數(shù)據(jù)在高維特征空間中線性可分問題,利用交叉驗(yàn)證和網(wǎng)格參數(shù)尋優(yōu)法確定模型最優(yōu)參數(shù),進(jìn)而預(yù)測(cè)是否患有糖尿病,并輔助傳統(tǒng)的醫(yī)療診斷方式,為臨床提供幫助性信息,進(jìn)行更快捷、有效、準(zhǔn)確的疾病診斷。
關(guān)鍵詞:糖尿病預(yù)測(cè);支持向量機(jī);交叉驗(yàn)證
【中圖分類號(hào)】TP18
【文獻(xiàn)標(biāo)識(shí)碼】A
【文章編號(hào)】2236-1879(2018)13-0064-01
一、研究背景
國(guó)際糖尿病聯(lián)盟于2013年提供的數(shù)據(jù)表明,目前全世界有3.82億人患有糖尿病,到2035年全球糖尿病患者有可能達(dá)到4.71億人。我國(guó)是糖尿病發(fā)病大國(guó),患有糖尿病的人數(shù)高達(dá)1.14億人,約占全球糖尿病患者總數(shù)的30%,位居世界第一。我國(guó)傳統(tǒng)治療主要將醫(yī)生多年累積的個(gè)人經(jīng)驗(yàn)及化驗(yàn)或儀器指標(biāo)作為診斷依據(jù)。國(guó)外則非常看重糖尿病風(fēng)險(xiǎn)預(yù)測(cè)模型的研究,舉辦過多次糖尿病及相關(guān)并發(fā)癥的建模會(huì)議。由此,本文針對(duì)多種影響糖尿病的重要危險(xiǎn)因素,結(jié)合支持向量機(jī)技術(shù),建立Ⅱ型糖尿病風(fēng)險(xiǎn)預(yù)測(cè)模型,預(yù)測(cè)正常人在5年內(nèi)是否會(huì)患有糖尿病,確定高危人群范圍,做好糖尿病預(yù)測(cè)和預(yù)警,進(jìn)而有效減輕糖尿病的發(fā)病狀況。
二、支持向量機(jī)算法原理
支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱SVM)的核心思想是尋找一個(gè)滿足相應(yīng)分類條件的超平面,要求該超平面在實(shí)現(xiàn)樣本類分離的同時(shí)滿足距離超平面最近的樣本點(diǎn)到超平面的距離最大。最優(yōu)分類超平面可以將不同類的樣本數(shù)據(jù)準(zhǔn)確分開意味著經(jīng)驗(yàn)風(fēng)險(xiǎn)最小,而最大化分類間隔距離則意味著最小化推廣性的界的置信范圍,以此可求得最優(yōu)分類平面。
在二分類線性可分問題中,分類器是一個(gè)超平面f(x)=wx+b,若f(x)>0則該點(diǎn)屬于l類,若f(x)<0,則該點(diǎn)屬于-1類。SVM構(gòu)造的最優(yōu)分割超平面是使得l類中的點(diǎn)到超平面的最短距離和-1類中的點(diǎn)到超平面的最短距離這兩者的最大值達(dá)到最大,對(duì)應(yīng)于求解如下優(yōu)化問題,最終解得權(quán)重w和偏移量b:
通過拉格朗日乘數(shù)法,該問題轉(zhuǎn)化為以下的對(duì)偶問題:
最終得到:
在處理線性不可分問題時(shí),支持向量機(jī)的核心是通過核函數(shù)將非線性變量映射到更高位的空間中去,使他們變得線性可分。這樣支持向量機(jī)就避開了求解非線性映射形式和高維數(shù)空間運(yùn)算的困難。
三、數(shù)據(jù)來源與說明
數(shù)據(jù)采自亞利桑那州鳳凰城附近的皮馬遺產(chǎn)美籍本地婦女的糖尿病診斷信息,該數(shù)據(jù)集Pima Indians Diabetes可在UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中獲得。數(shù)據(jù)集共768人,其中268例被診斷為糖尿病陽性,500例患者為糖尿病陰性,包括8項(xiàng)糖尿病相關(guān)危險(xiǎn)因素,其中6項(xiàng)是定量和連續(xù)的,由各種臨床試驗(yàn)結(jié)果組成,另外的2項(xiàng)是定量和離散變量,為年齡和懷孕次數(shù)。
四、對(duì)糖尿病預(yù)測(cè)的建模過程
4.1數(shù)據(jù)預(yù)處理。通常情況,不同的數(shù)據(jù)類型往往有不同的量綱,數(shù)值之間的差距也可能很大,直接作為原始數(shù)據(jù)輸入,在建模過程中所占據(jù)的相對(duì)較大的權(quán)重,會(huì)影響模型性能。為了有效利用數(shù)據(jù),需要對(duì)其進(jìn)行標(biāo)準(zhǔn)化處理。將全部數(shù)據(jù)按照每一維度運(yùn)用零一均值方法進(jìn)行標(biāo)準(zhǔn)化預(yù)處理。標(biāo)準(zhǔn)化處理公式如下:
其中μ,σ:分別代表原始數(shù)據(jù)集的均值和方差。
4.2核函數(shù)選取。實(shí)驗(yàn)選取徑向基核函數(shù)(Radial basis ker-nel function)解決非線性數(shù)據(jù)在低維特征空間線性不可分的問題。最常用的徑向基核函數(shù)是高斯核函數(shù),如式(8)所示:
其中:代表核函數(shù)中心,代表寬度參數(shù),作用在于控制函數(shù)的徑向作用范圍。
4.3模型建立與分析。為了驗(yàn)證模型的分類能力,模型建立的第一步是劃分?jǐn)?shù)據(jù)集,將數(shù)據(jù)集劃分為訓(xùn)練集與測(cè)試集,隨機(jī)分類70%的數(shù)據(jù)為訓(xùn)練集,共有538例,余下的30%的數(shù)據(jù)為測(cè)試集,共230例。通過數(shù)據(jù)預(yù)處理、選取核函數(shù)以及相關(guān)參數(shù)選擇,結(jié)合十折交叉驗(yàn)證和網(wǎng)格尋優(yōu)獲取最佳參數(shù)對(duì)C=2.83,g=0.0221,據(jù)此建立模型。
為了對(duì)建立好的模型進(jìn)行性能評(píng)估,采用準(zhǔn)確率、特異度和敏感度作為評(píng)價(jià)指標(biāo)。其中,Acc代表測(cè)試集分類準(zhǔn)確率(Accura-cy);Sen,代表測(cè)試集的靈敏度(Sensitivity);即測(cè)試集分類的準(zhǔn)確能力;Spe代表測(cè)試集的特異度(Specificity)。3個(gè)評(píng)價(jià)指標(biāo)的具體公式如下:
其中:TP(True Po.sitive)、FN(Fal.se Negative)、TN(TmeNegative)及FP( Fal.se Positive)均針對(duì)測(cè)試數(shù)據(jù)集合。TP指將正例樣本判斷正確的數(shù)目;FN指將正例樣本判斷錯(cuò)誤的數(shù)目;TN指將負(fù)例樣本判斷正確的數(shù)目;FP指將負(fù)例樣本判斷錯(cuò)誤的數(shù)目。
對(duì)比經(jīng)過5折交叉驗(yàn)證和網(wǎng)格尋優(yōu)后的SVM預(yù)測(cè)分類模型與未經(jīng)過優(yōu)化的SVM預(yù)測(cè)分類模型。結(jié)果證明,經(jīng)過交叉驗(yàn)證和網(wǎng)格尋優(yōu)后的SVM模型效果更佳。
五、結(jié)論
數(shù)學(xué)預(yù)測(cè)模型可以從醫(yī)療數(shù)據(jù)中獲取有用信息,發(fā)現(xiàn)隱藏的知識(shí)或規(guī)則,將其應(yīng)用于臨床診斷中,不僅能幫助醫(yī)生有效地診療,還可提高醫(yī)院的服務(wù)質(zhì)量和效率。在未來的研究中,將考慮選擇深度學(xué)習(xí)技術(shù)構(gòu)建模型,以進(jìn)一步提高模型分類準(zhǔn)確率。