徐學琴,王瑾瑾,馬曉梅,劉穎,楊夢利,閆國立,王靜思,王守東,徐玉芳,余亞楠,宋婀莉
(1.河南中醫藥大學,河南 鄭州 450046;2.河南中醫藥大學第二附屬醫院,河南 鄭州 450002;3.中國科學院 生物物理研究所,北京 100101)
基于支持向量機模型的河南艾滋病發病率預測*
徐學琴1,王瑾瑾1,馬曉梅1,劉穎1,楊夢利1,閆國立1,王靜思2,王守東1,徐玉芳1,余亞楠1,宋婀莉3
(1.河南中醫藥大學,河南 鄭州 450046;2.河南中醫藥大學第二附屬醫院,河南 鄭州 450002;3.中國科學院 生物物理研究所,北京 100101)
目的 探索適合于河南省艾滋病發病趨勢的預測模型,準確、快速地預測未來發病變化趨勢,為制定艾滋病預防控制的策略和措施提供參考依據。方法收集河南省2000~2014年艾滋病發病率數據,采用支持向量機模型建立其發病率預測模型。其中2000~2013年發病率數據為訓練樣本,2014年發病率數據為檢驗樣本。以平均相對誤差作為預測效果的評價指標。并用該模型對河南省2015~2019年艾滋病的發病率進行預測。結果建立的支持向量機模型的平均相對誤差為0.5512%。經預測,河南省2015~2019年艾滋病的發病率分別為0.85/10萬、1.84/10萬、1.64/10萬、1.30/10萬、2.01/10萬。結論支持向量機模型有較高的預測精度及較小的預測誤差,適用于河南省艾滋病的發病率預測。
艾滋病;支持向量機;河南省;預測;模型
艾滋病(acquired immunodeficiency syndrome,AIDS)是一種全身性免疫缺陷性傳染病,是我國重大的公共衛生問題[1]。河南省是我國艾滋病疫情較重的省份之一,人類免疫缺陷病毒感染者人數在全國位居第2位[2-3]。在艾滋病的預防控制中,疾病預測起著非常重要的作用。近年來,學者們探索用不同方法進行艾滋病發病趨勢的預測,主要有神經網絡、灰色模型及馬爾科夫模型等[4-7]。神經網絡模型的缺陷是收斂速度慢、易陷入局部極小點,灰色模型和馬爾科夫模型普遍存在預測精度低的問題。而支持向量機模型具有很好的泛化能力,在解決小樣本、非線性及高維模型識別問題中具有先天的優勢,它能有效利用高維特征空間,利用計算機學習理論分析問題,使問題得到最優解[8-9]。
1.1 支持向量機的基本原理
支持向量機是基于統計學習理論、研究小樣本情況下的機器學習規律的一種方法,以結構風險最小化為思想,在使樣本訓練誤差最小化的同時又縮小模型泛化誤差的上界,從而提高模型的泛化能力[10]。它被廣泛用于模式識別、分類、回歸、圖像分析、藥物設計及食品質量控制等方面[11]。在疾病預測方面主要利用的是支持向量機的回歸算法,該方法可以將非線性問題通過非線性變換映射到某個高維特征空間,在高維空間中完成線性回歸,求得最優分類面。在分類面中引入合適的核函數可以代替高維空間中復雜的內積運算,從而實現線性回歸。
1.2 方法
1.2.1 預測方案及數據的預處理 本研究采用的預測方案為數據序列預測,即把河南省艾滋病的年發病率看作連續的時間序列,其變化規律已蘊含于其中。采用支持向量機建立起反映該變化規律的模型,從而對未來數據進行預測。因此,建立模型需獲得河南省艾滋病的歷史發病率數據,該數據主要來源于河南省衛生統計年鑒及河南省統計局。
為避免因為輸入輸出數據差別而造成預測誤差較大,需對數據進行歸一化處理,把所有數據都轉化為0~1之間的數值[12]。峰值法是常用歸一化方法之一,即用每年的艾滋病發病率除以比每個數據都大的1個數據,該數據即為峰值。
1.2.2 參數的確定 核函數的引入避免復雜的高維運算,其在支持向量機中是解決非線性問題的關鍵,是由線性到非線性之間的橋梁[13]。常用的核函數有多項式核函數、高斯徑向基核函數及多層感知器核函數等。本研究中采用的是高斯徑向基核函數,其寬度取值為0.25。懲罰因子C=20,ε不敏感函數取值為0.00001。
1.2.3 模型的訓練及仿真預測 以2000~2013年的發病率數據來訓練模型,以2014年的發病率數據來檢驗模型,采用新陳代謝預測法。即以每3年的發病率數據構成1個原始時間序列,預測第4年的發病率,而每當新加入1個數據,則舍棄原來序列最前端1個數據。預測的效果以相對誤差的絕對值來評價,即(預測發病率-實際發病率)/實際發病率×100%。所得預測值需進行反歸一化處理,即預測值×峰值。以上運算在Matlab 7.0軟件中實現。
利用所建立的模型對2003~2014年的發病率進行仿真預測。其平均預測誤差為0.5512%,其中訓練樣本的平均預測誤差僅為0.0033%,預測值和真實值吻合度非常高,預測誤差較小。檢驗樣本處的實際發病率為3.05/10萬,預測發病率為2.85/10萬,相對誤差為6.5784%,較為理想。經該模型預測,河南省2015~2019年的艾滋病發病率分別為0.85/10萬、1.84/10萬、1.64/10萬、1.30/10萬、2.01/10萬。見附表和附圖。

附表 河南省艾滋病發病率的真實值、預測值(反歸一化)及相對誤差絕對值

附圖 河南省艾滋病實際發病率與預測發病率曲線
對于艾滋病的流行趨勢來說,其影響因素錯綜復雜,包括人口、經濟、行為及環境等。目前,我國尚沒有充分開展艾滋病相關影響因素數據資料的監測和收集,因此,通過分析各影響因素來建立艾滋病的預測模型比較困難。而影響因素的綜合作用卻反映在了歷史發病率數據當中,因此通過分析艾滋病的歷史年發病率數據來建立預測模型,預測其未來發生發展趨勢可行。在眾多預測模型中,支持向量機模型的主要優勢在于:其建立在結構風險最小化的原則上而不是基于錯誤率,且能在極小的訓練樣本下表現出極高的分類穩定性[14]。該模型可將變量集映射到高維特征空間中并進行正確區分,以解決小樣本、非線性及低維空間不易區分的難題[15]。因此,本研究采用支持向量機模型來建立河南省艾滋病的發病率預測模型。
所建立的模型在仿真預測樣本點的平均相對誤差為0.5512%,檢驗樣本的預測誤差為6.5784%,尤其在訓練樣本處的平均預測誤差僅為0.0033%,均滿足中期預測(1~5年預測期)相對誤差控制在10%~20%的要求[16]。該模型的建立能夠為及時、準確預測河南省艾滋病發生發展趨勢,為制定河南省艾滋病的預防控制提供理論參考。經該模型預測,河南省在2015~2019年的發病率呈現為先下降后上升的趨勢,仍然保持在較高的發病水平,因此,對河南省艾滋病的監測、預防工作仍需加強。
[1]郭金玲.艾滋病對河南社會經濟影響的研究[D].武漢:華中科技大學,2007.
[2]趙秀哲.社會學視野下的河南艾滋病流行傳播[J].企業家天地(下旬刊),2010(9):243-245.
[3]劉佳,楊文杰,閆江舟,等.河南省四地區一線艾滋病抗病毒治療失敗的耐藥分析[J].中華實驗和臨床病毒學雜志,2015,29(6):532-536.
[4]顏康康,林雪君,鮑紅紅,等.灰色GM(1,1)模型在艾滋病、淋病、梅毒發病率預測研究中的應用[J].實用預防醫學,2015,22(3):371-374.
[5]羅靜,楊書,張強,等.時間序列ARIMA模型在艾滋病疫情預測中的應用[J].重慶醫學,2012,41(13):1255-1256.
[6]張夏燕,邢健男,錢莎莎,等.Markov模型在艾滋病研究領域中的應用[J].中華流行病學雜志,2014(5):606-609.
[7]YU H K,KIM N Y,KIM S S,et al.Forecasting the number of human immunodeficiency virus infections in the korean population using the autoregressive integrated moving average model[J].Os ong Public Health and Research Perspectives,2013,4(6):358-362.
[8]JEDLINSKI L,JONAK J.Early fault detection in gearboxes based on support vector machines and multilayer perceptron with a continuous wavelet transform[J].Appl Soft Comput,2015(30):636-641.
[9]李娟,吳疆,盧莉,等.基于支持向量機建立環境和遺傳因素對2型糖尿病的預測模型[J].中華疾病控制雜志,2012,16(2):171-175.
[10]李海生.支持向量機回歸算法與應用研究[D].廣州:華南理工大學,2005.
[11]GAO K,XI X J,WANG Z,et al.Use of support vector machine model to predict membrane permeate flux[J].Desalination and Water Treatment,2016,57(36):16810-16821.
[12]周文明,陳軍生,宋吉星,等.基于支持向量機的裝備技術準備能力預測算法[J].系統工程與電子技術,2013,35(9):1903-1907.
[13]孫德山.支持向量機分類與回歸方法研究[D].長沙:中南大學,2004.
[14]高昭昇,曹晉軍,馮柳,等.基于大數據的傳染病爆發、預測和預警等應用分析[J].中國衛生事業管理,2016,33(4):270-272.
[15]吳宏進,許家佗,張志楓,等.基于數據挖掘的圍絕經期綜合征中醫證候分類算法分析[J].中國中醫藥信息雜志,2016,1:39-42.
(李科 編輯)
Forecast of incidence of AIDS in Henan Province based on support vector machine*
Xue-qin Xu1,Jin-jin Wang1,Xiao-mei Ma1,Ying Liu1,Meng-li Yang1,Guo-li Yan1,Jing-si Wang2,Shou-dong Wang1,Yu-fang Xu1,Ya-nan Yu1,E-li Song3
(1.Henan University of Traditional Chinese Medicine,Zhengzhou,Henan 450046,China;2.The Second Affiliated Hospital,Henan University of Traditional Chinese Medicine,Zhengzhou,Henan 450002,China;3.Institute of Biophysics,Chinese Academy of Sciences,Beijing 100101,China)
ObjectiveTo explore a model for forecasting acquired immunodeficiency syndrome (AIDS)in Henan Province,and accurately and quickly predicting the future trend of AIDS,so as to provide reference for AIDS prevention and control.MethodsData of AIDS incidence in Henan Province from 2000 to 2014 were collected.The incidence prediction model was established using support vector machine.The data from 2000 to 2013 were taken as training samples,and the data of 2014 were used as testing sample.Average relative error was used to evaluate the effect of prediction.Then the model was utilized to predict the incidence of AIDS in Henan Province from 2015 to 2019.ResultsThe average relative error of the established support vector machine model was 0.5512%.It is predicted that the incidences of AIDS in Henan Province from 2015 to 2019 are 0.85/105,1.84/105,1.64/105,1.30/105and 2.01/105respectively.ConclusionsSupport vector machine model has high prediction accuracy and small error,and is suitable for AIDS prediction in Henan Province.
acquired immunodeficiency syndrome;support vector machine;Henan Province;prediction;model
R181.2
A
10.3969/j.issn.1005-8982.2017.12.019
1005-8982(2017)12-0093-03
2016-09-21
河南省軟科學研究重點項目(No:102400440002);河南省2010年科技發展計劃(No:102400440002)
閆國立,E-mail:yanguoli0371@126.com