周飛 鄒寧 趙銀歌 黃倩雅 劉可盈



摘 要:隨著高血壓患者的逐漸增多,并且日趨于年輕化,如何防治高血壓病成為重要課題。鑒于此現(xiàn)狀,文章提出基于支持向量機(jī)的高血壓預(yù)測(cè)方法。根據(jù)支持向量機(jī)原理,對(duì)高血壓病理屬性進(jìn)行分類,建立高血壓病的預(yù)測(cè)模型,通過計(jì)算不同分類屬性的權(quán)重指數(shù),獲取不同屬性對(duì)高血壓病影響的重要程度等級(jí),進(jìn)而實(shí)現(xiàn)潛在高血壓病的預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,利用支持向量機(jī)算法能夠有效對(duì)潛在高血壓病進(jìn)行預(yù)測(cè),為早期高血壓病的檢測(cè)與防治提供理論支持。
關(guān)鍵詞:支持向量機(jī);高血壓防治;預(yù)測(cè)模型
高血壓病是目前比較常見的心血管疾病[1],隨著人們生活節(jié)奏的加快、生活壓力的增大,高血壓病的發(fā)病率也呈現(xiàn)出上升趨勢(shì),逐漸威脅到現(xiàn)代人的身體健康,對(duì)潛在高血壓病的準(zhǔn)確預(yù)測(cè)能夠?yàn)楦哐獕翰〉念A(yù)防與早期治療提供依據(jù)。常用的潛在高血壓病預(yù)測(cè)方法主要包括基于神經(jīng)網(wǎng)絡(luò)算法的預(yù)測(cè)方法[2]、基于決策樹算法的預(yù)測(cè)方法[3]、和基于關(guān)聯(lián)規(guī)則算法的預(yù)測(cè)方法[4]。
上面提到的各種傳統(tǒng)方法在進(jìn)行潛在高血壓病預(yù)測(cè)過程中,沒有計(jì)算各項(xiàng)參數(shù)對(duì)高血壓病的影響權(quán)重,造成擬合預(yù)測(cè)的準(zhǔn)確度不高,致使對(duì)潛在高血壓病的預(yù)測(cè)效率降低。為了避免上述算法的缺陷,本文利用支持向量機(jī)算法進(jìn)行潛在高血壓病的預(yù)測(cè),能夠有效提高預(yù)測(cè)的準(zhǔn)確率與效率,為早期高血壓病的檢測(cè)與防治提供可靠方案。
1 綜合概述
1.1高血壓病影響因素
人們物質(zhì)生活水平的提高也伴隨著高血壓現(xiàn)象的普遍發(fā)生,據(jù)權(quán)威機(jī)構(gòu)發(fā)布的數(shù)據(jù)來看,高血壓病不僅發(fā)病率持續(xù)增加,而且正趨于年輕化,如何防治人們患高血壓成為重要研究課題。本文旨在根據(jù)人體的生理指標(biāo)判斷其是否患有高血壓。
查閱相關(guān)資料[5]得出7個(gè)高血壓發(fā)病的主要因素,即體質(zhì)指數(shù)、腰臀比、飲酒年限、日平均運(yùn)動(dòng)時(shí)間性別、年齡和文化程度。本文根據(jù)以上影響因素進(jìn)行建模,旨在找出影響高血壓的生理指標(biāo),并根據(jù)計(jì)算出的指標(biāo)權(quán)值來判斷樣本(人)是否患有高血壓,進(jìn)而實(shí)現(xiàn)潛在高血壓病的預(yù)測(cè)。
1.2可行性分析與創(chuàng)新點(diǎn)闡述
支持向量機(jī)是一種理論完善的機(jī)器學(xué)習(xí)算法,從提出至今,已有不少專家學(xué)者利用該算法解決實(shí)際工程問題,算法理論部分日趨完備。因此,采用支持向量機(jī)算法對(duì)高血壓進(jìn)行預(yù)測(cè)的可行性良好。本文最大的創(chuàng)新之處在于,通過支持向量機(jī)算法預(yù)測(cè)出的結(jié)果只有患病和不患病兩種情況,使測(cè)試結(jié)果更加明確。大量實(shí)驗(yàn)可以得出高血壓發(fā)病指標(biāo)的權(quán)重,根據(jù)不同指標(biāo)的權(quán)重值可以為人們?nèi)粘I钐峁┫嚓P(guān)的預(yù)防建議,這對(duì)于高血壓病的早期預(yù)防有重要參考價(jià)值和實(shí)際意義。
2設(shè)計(jì)方案
本文基于支持向量機(jī)算法實(shí)現(xiàn)對(duì)高血壓疾病的預(yù)測(cè),具體方案如下。
2.1數(shù)據(jù)處理 從開源數(shù)據(jù)庫中提取100組含有上述主要生理指標(biāo)數(shù)據(jù)的高血壓患者作為實(shí)驗(yàn)樣本,然后分別對(duì)不同屬性進(jìn)行標(biāo)準(zhǔn)化處理,最后將處理之后的100組樣本作為訓(xùn)練集。
2.2訓(xùn)練階段
建立支持向量機(jī)模型,帶入影響高血壓發(fā)病的因素向量,反復(fù)迭代運(yùn)算直至目標(biāo)函數(shù)達(dá)最大值。
2.3測(cè)試階段
用完成訓(xùn)練的算法對(duì)臨床患者進(jìn)行高血壓預(yù)測(cè),若預(yù)測(cè)結(jié)果與臨床測(cè)量的結(jié)果相近,則認(rèn)為算法可行。
3 基于SVM的預(yù)測(cè)模型的建立
3.1算法簡(jiǎn)介
支持向量機(jī)(Support Vector Machine,SVM) [6-7]是基于統(tǒng)計(jì)學(xué)習(xí)理論框架開發(fā)的一種機(jī)器學(xué)習(xí)和分類識(shí)別方法,它較好地實(shí)現(xiàn)了結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則。最大分類間隔和核函數(shù)思想是SVM的兩個(gè)最為重要的技巧,不同核函數(shù)的選擇標(biāo)準(zhǔn)是要求所構(gòu)造的分類器具備較好的推廣性能和較強(qiáng)的抗擾劫能力,并適合于推廣到實(shí)時(shí)分析。通過實(shí)驗(yàn)對(duì)比,建立的預(yù)測(cè)模型要求支持向量少、分類間隙大和分類時(shí)間適中,因此,本文選擇多項(xiàng)式作為預(yù)測(cè)模型的核函數(shù)。SVM分類預(yù)測(cè)模型建立的核心就是確立最優(yōu)決策函數(shù):為支持向量對(duì)應(yīng)的最優(yōu)解,b為偏差值。
3.2具體實(shí)現(xiàn)
3.2.1數(shù)據(jù)處理
用i=l,…,100表示100個(gè)患者,影響患者高血壓的指標(biāo)性別、年齡、文化程度、體質(zhì)指數(shù)、腰臀比、飲酒年限和日平均運(yùn)動(dòng)時(shí)間分別記為i。第x,j=l,…,7個(gè)患者的第j個(gè)指標(biāo)的取值記為
計(jì)算得100組樣本點(diǎn)的均值向量為:
標(biāo)準(zhǔn)差向量為:
對(duì)所有樣本點(diǎn)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理:
稱為標(biāo)準(zhǔn)化指標(biāo)變量。記xi= [xl,…,x7T。
3.2.2訓(xùn)練
輸入訓(xùn)練樣本向量(x,y),xi(i為患者的序號(hào))為上述提取的特征參數(shù);y∈{+1,-1),y,為分類標(biāo)識(shí),x,屬于患高血壓,DiUv。=1; xi未患高血壓,貝吵。=-l。
本文使用Lagrange乘子方法解決此約束的最優(yōu)問題,即在約束條件:
求解下列目標(biāo)函數(shù)的最大值:
這是一個(gè)不等式約束下二次函數(shù)尋優(yōu)的問題,存在唯一解。ai不為零的解ai所對(duì)應(yīng)的xi就是支持向量,選取其中一個(gè)支持向量,可求得6。求得ai和b的值,就確立了最優(yōu)決策函數(shù)的具體表達(dá)形式,從而建立了預(yù)測(cè)高血壓分類預(yù)測(cè)模型。4結(jié)果分析
使用MATLAB對(duì)SVM模型進(jìn)行求解,結(jié)果顯示:在訓(xùn)練好的模型下,對(duì)100組樣本進(jìn)行測(cè)試,有80%的測(cè)試結(jié)果與臨床檢驗(yàn)結(jié)果匹配,從而說明了本文所建模型具有一定的參考價(jià)值。進(jìn)一步得出各指標(biāo)的影響程度依次為體質(zhì)指數(shù)、腰臀比、日平均運(yùn)動(dòng)時(shí)間、飲酒年限、年齡文化程度及性別,具體結(jié)果如表1所示。
從結(jié)果看,體質(zhì)指數(shù)、腰臀比、年齡、飲酒年限等是影響高血壓發(fā)病的主要因素,這與國內(nèi)外許多研究結(jié)果一致。
基于以上分析,可將本文所建立的模型應(yīng)用于早期高血壓病的預(yù)測(cè),具體實(shí)現(xiàn)為:
Stepl:檢測(cè)對(duì)象的體質(zhì)指數(shù)、腰臀比、日平均運(yùn)動(dòng)時(shí)間、飲酒年限、年齡文化程度及性別等屬性值。
Step2:將上述屬性值作為輸入變量帶入到本文所建立的預(yù)測(cè)模型中,記錄其返回值。
Step3:若返回值為1被測(cè)對(duì)象患高血壓;若返回值為1,則被測(cè)對(duì)象未患高血壓。
5結(jié)語
本文依據(jù)支持向量機(jī)原理,對(duì)數(shù)據(jù)屬性進(jìn)行分類,構(gòu)建預(yù)測(cè)模型,計(jì)算各項(xiàng)生理參數(shù)指標(biāo)與高血壓病的相關(guān)屬性權(quán)重,得到不同屬性對(duì)高血壓病影響的重要程度。實(shí)驗(yàn)結(jié)果表明,采用支持向量機(jī)算法進(jìn)行潛在高血壓病的預(yù)測(cè),能夠有效提高預(yù)測(cè)的準(zhǔn)確率與預(yù)測(cè)效率,為早期高血壓的檢測(cè)與防治提供可行方案,進(jìn)而滿足醫(yī)學(xué)檢測(cè)的實(shí)際需求。
本文所建立的數(shù)學(xué)模型能夠根據(jù)相關(guān)生理指標(biāo)有效地判斷樣本(人)患高血壓病的情況,這種方法可以對(duì)早期高血壓病的預(yù)防提供一定的參考價(jià)值,但是具體是否患病一定要進(jìn)行臨床檢查,并采取科學(xué)的方法進(jìn)行治療。此外,該模型即支持向量機(jī)的預(yù)測(cè)模型還能夠應(yīng)用于其他疾病的預(yù)測(cè)。方法大致可概括為:首先,選取疾病的影響指標(biāo);然后,構(gòu)建樣本數(shù)據(jù)庫進(jìn)行訓(xùn)練匹配,提取出特征向量;最后,對(duì)待測(cè)人員進(jìn)行疾病預(yù)測(cè)。 本文是學(xué)校資助的大學(xué)生創(chuàng)新項(xiàng)目的研究成果之一,接下來所要研究的內(nèi)容是開發(fā)交互式界面,進(jìn)一步實(shí)現(xiàn)預(yù)測(cè)結(jié)果的可視化,為早期高血壓疾病預(yù)測(cè)提供合理可行的方案。
[參考文獻(xiàn)]
[1]孫艷秋,劉鋼基于大數(shù)據(jù)分析的潛在高血壓病預(yù)測(cè)研究[J]計(jì)算機(jī)仿真,2015(5):386-389. 421
[2]楊洋刑用人工神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)原發(fā)性高血壓的研究[D]沈陽:中國醫(yī)科大學(xué),2010
[3]李現(xiàn)文,李春玉,MIYONGK,等決策樹與Logistic回歸在高血壓患者健康素養(yǎng)預(yù)測(cè)中的應(yīng)用[J]護(hù)士進(jìn)修雜志,2012 (13):1157-1159
[4]程遠(yuǎn)關(guān)聯(lián)規(guī)則挖掘在疾病數(shù)據(jù)處理中的應(yīng)用研究[D]重慶:重慶醫(yī)科大學(xué),2010
[5]黃晶晶.天津市市區(qū)高血壓前期人群高血壓發(fā)病危險(xiǎn)因素的定量評(píng)價(jià)[D]天津:天津醫(yī)科大學(xué),2016.
[6]賴麗娟,王志剛,吳效明基于小波變換和支持向量機(jī)的急性低血壓預(yù)測(cè)方法研究[J].透析與人工器官,2011 (1):28-33
[7]張穎.支持向量機(jī)在2型糖尿病影響因素分析中的應(yīng)用[J].電子技術(shù)與軟件工程,2015(9):191-192.