999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

感染性腹瀉周發病例數的PCA-SVM回歸預測研究

2016-03-17 03:51:34王永明顧君忠
計算機應用與軟件 2016年2期
關鍵詞:模型

霍 靜 王永明 顧君忠

1(天水師范學院電子信息與電器工程學院 甘肅 天水 741001)

2(華東師范大學計算機應用研究所 上海 200062)

?

感染性腹瀉周發病例數的PCA-SVM回歸預測研究

霍靜1王永明2顧君忠2

1(天水師范學院電子信息與電器工程學院甘肅 天水 741001)

2(華東師范大學計算機應用研究所上海 200062)

摘要提出一個使用PCA-SVM進行感染性腹瀉周發病例數回歸預測方法, 有效避免了BP神經網絡模型存在局部極值、多重共線性的問題。以上海市2005年至2008年感染性腹瀉周發病例數為樣本,建立PCA-SVM回歸模型。首先用PCA從統計氣象因子中提取氣象主成分因子, 去除預報因子多重共線性,得到最終模型的解釋變量, 其次采用SVM方法構建上海市感染性腹瀉周發病例數預測模型。為了說明該模型有更佳的預測效果,與BP神經網絡模型比較擬合及預測結果。數據結果顯示PCA-SVM回歸模型預測的平均相對誤差MAPE、均方誤差平方根RMSE(數值分別為0.2694,33.113)均小于BP神經網絡(數值分別為0.3745,49.909),而決定系數R2(數值為0.9089)較BP神經網絡(數值為0.8590)更趨近于1。證明PCA-SVM回歸模型在感染性腹瀉周發病例數預測中具有較高的預測精度和較強的泛化能力,模型對于感染性腹瀉周發病例數的預測可靠,對于向公眾發布腹瀉預報有更好的實用價值。

關鍵詞PCASVM回歸感染性腹瀉氣象資料

RESEARCH ON PCA-SVM REGRESSIVE PREDICTION OF WEEKLY CASES OF INFECTIOUS DIARRHEA

Huo Jing1Wang Yongming2Gu Junzhong2

1(School of Electronic Information and Electronical Engineering,Tianshui Normal University,Tianshui 741001,Gansu,China)2(Institute of Computer Applications,East China Normal University,Shanghai 200062,China)

AbstractWe proposed a regressive prediction method for the weekly cases number of infectious diarrhea using PCA-SVM, which effectively avoids some defects of the BP neural network model like local extremum, multicollinearity. With the weekly cases of infectious diarrhea in Shanghai from the year 2005 to 2008 being the samples, we built the PCA-SVM regressive model. First, we employed PCA to extract meteorological main principal factors from the statistical meteorological factors and removed the multicollinearity from the predictive factors, derived the explanatory variable of the final model. Secondly, we used SVM regression to build the predictive model for weekly cases number of infectious diarrhea in Shanghai. To illustrate the better prediction effect of the model, we compared it with BP neural network model in terms of fitting and prediction results. Numerical results showed that the MAPE and RMSE (0.2694 and 33.113 respectively) predicted by PCA-SVM regression model were all less than those of BP neural network model (0.3745 and 49.909 respectively). Meanwhile, its determination parameter R2(0.9089) was further approaching 1 than that of BP neural network (0.8590). As a result, it is demonstrated in this paper that the PCA-SVM regressive model has higher prediction accuracy and stronger generalisation capability in predicting weekly cases number of infectious diarrhea, the prediction of the model is reliable on the weekly cases number of the disease, and has better practical value in publicising the diarrhea prediction.

KeywordsPCASVM regressionInfectious diarrheaMeteorological data

0引言

全球每年約有30億~50億人發生感染性腹瀉,死亡人數約為300萬[1,2]。研究表明,感染性腹瀉的發生、流行與氣象因素密切相關[3-5]。感染性腹瀉一旦病發,由于其具傳染性,會出現流行面廣、發病率快的特點。因此探討有效、準確的預測方法對感染性腹瀉的預防控具有重要意義。

目前關于傳染病預測主要有三種方法:傳染病傳播動力學模型[6],考慮影響傳染病發病的因素很多,需要詳盡的物理和氣象數據,這些數據不容易獲得;傳統的統計模型[7,8],其中線性回歸建模是最常用的方法,但對疾病建模非線性問題的預測能力并不好;智能計算技術建模,如BPNN神經網絡、支持向量機SVM等。

智能計算技術建模方法中,SVM方法已在手寫體識別、圖像處理、信號處理等應用研究方面取得了顯著成果,但在非線性特征十分顯著的疾病氣象預測領域的應用至今卻很少[9]。截止2014年12月,以主題“SVM”在中國知網搜索相關文獻,共有文獻1 079篇,追加主題“疾病預測”后。檢索結果文獻僅為19篇。

使用上海市2005至2008年感染性腹瀉周發病數和同期氣象資料建立智能計算PCA-SVM模型,探討PCA-SVM在感染性腹瀉疾病預測中的可行性。同時與傳統BP網絡模型做對比,進一步驗證PCA-SVM回歸模型在腹瀉發病例數預測方面的準確性,對于向公眾發布腹瀉預報有更好的實用價值。

1方法

1.1支持向量機SVM

支持向量機SVM是Vapnik提出的一種在模式識別與機器學習領域中的工具。主要研究在有限數據集的情況下基于數據的機器學習問題,可用于模式分類和非線性回歸[10]。支持向量機主要思想是通過預先設定的非線性映射將輸入空間的特征向量映射到高維特征空間,建立一個分類超平面作為決策曲面,使得正反例之間的隔離邊緣被最大化,避免了在原輸入空間中進行非線性曲面分割計算[11]。

(1) SVM體系結構

SVM體系結構如圖1所示,其中xi(i=1,2,…,n)是輸入變量,K(x,xi)為核函數。常用核函數有線性核函數、多項式核函數、徑向基(RBF)核函數、兩層感知器核函數等。

圖1 SVM體系結構

核函數的選擇是 SVM 理論的核心問題。迄今尚沒有針對具體問題可以直接構造出最為適合的核函數的完備理論。其中RBF 核屬于非線性映射的核函數,可處理非線性可分情況,因而RBF 核通常被優先考慮[12]。

(2) 算法描述及實現[13]

設給定數據集H={(xi,yi)},i=1,2,…,n,其中xi是輸入變量,yi是期望輸出值,回歸估計問題就是尋找該數據集的回歸(逼近)函數:

f(x)=wφ(x)+b

(1)

式中,φ(x)是從輸入空間到高維特征空間的非線性映射,b是偏移系數。

引入一個松弛變量ξi,度量對約束條件的違反情況并采用結構風險最小化原則,將問題轉化為找最小值問題:

式中,w是權向量,C是懲罰參數。由于實際應用中大多數問題線性不可分,故引入滿足Mercer條件的函數φ(xi),將輸入空間映射到一個可分的或者近似可分的高維的特征空間。然后在特征空間中,通過二次型尋優得到基于SVM的回歸模型:

(2)

式中,φ(xi)·φ(xj)是向量內積運算。用核函數代替內積運算后,擬合函數為:

(3)

1.2主成分分析法(PCA)

數據處理過程中統計數據經常是高維且彼此間存在一定的相關性,這些高維數據所包含的信息在一定程度上有所重疊(冗余)。主成分分析法可以很好地去除這種多重共線性,減少數據維數。

PCA將多個變量經過線性的組合從而得出比較少的幾個重要的變量的方法稱為主成分分析法[14]。基本思想是提取出多維數據的主要特征(主分量), 保留數據集的對方差貢獻最大的特征,去掉數據相關性,在一個低維空間來快速處理數據。

1.3模型擬合檢驗評價指標

評價模型擬合和外推預測效果的常用評價指標有平均相對誤差(MAPE)、均方誤差平方根(RMSE),決定系數R2,計算公式如下[15]:

2基于PCA-SVM腹瀉周發病例預測

2.1實驗資料和仿真平臺

從國家疾病監測信息報告管理系統中獲取2005年1月1日至2008 年12月31日臨床診斷或實驗室確診上海市感染性腹瀉日發病數據并計算出周感染性腹瀉發病例數。同期上海地區氣象資料則由上海市氣象局城市環境氣象中心提供,有最高溫度(℃)、最低溫度(℃)、周平均溫度(℃)、最低相對濕度(%)、平均相對濕度 (%)、平均氣壓(hPa)、降雨量(mm)、平均日照時數 (hr)、平均風速(m/s) 共9個指標。這里2005至2007年共157對數據作為訓練樣本集,2008年共52對數據作為測試數據集。試驗平臺采用 Matlab R2013a,結合libsvm工具包。

2.2主成分提取PCA

收集數據集屬性值數量級差別很大,絕對值最小0(降雨量),最大值1039(日平均氣壓),模型采用的核函數要做向量內積運算,很容易導致計算復雜,訓練時間較長,甚至會導致模型有很大的預測誤差,因此,首先將訓練樣本和測試樣本屬性值用mapminmax函數進行歸一化至0~1。然后求出r矩陣。

氣象屬性x1、x2、x3有很強正相關性,與氣象屬性x7有很強負相關性,見表1所示。提示用PCA去除多重共線性,減少冗余。

表1 r矩陣

計算矩陣r的特征值、主成分的方差貢獻率、累積貢獻率見表2所示,進而提取主成分。從表2中可以看到前3個主成分包含原來4個指標全部信息的96.51%,故選作網絡輸入(預測因子)。

表2 各主成分的特征值和方差貢獻率

2.3訓練函數選擇和網絡參數設置

選用徑向基函數做為SVM回歸預測模型的核函數,形式為:

K(x,xi)=exp(-γ‖x-xi‖2)γ>0

(4)

式中,xi是輸入向量,x是待預報因子向量,γ是核參數,大于0。根據式(3),選擇徑向基函數做為SVM回歸預測模型的核函數后,進而最終回歸函數形式為:

(5)

隨參數值選取的不同,函數形態會發生相應的變化,進而引起SVM模型的變化。SVM參數的選擇,國際上還沒有形成一個統一的模式。最優SVM參數的選擇,目前常用的做法有交叉驗證與網格搜索法進行參數優化選擇[16]。這里基于matlab平臺使用libsvm工具包,采用5則交叉驗證,在反復試驗的基礎上確定懲罰系數C=2,g=0.5,可以取得很好的預測結果。

2.4實驗結果分析

(1) 模型擬合檢驗

以2005年至2007年周氣象數據和同期感染性腹瀉周發病例數對預測模型進行擬合效果檢驗。取2008年的獨立樣本數據作為測試樣本數據對模型進行外推能力檢驗。其中訓練樣本和測試樣本的R2分別為0.9169和0.9089,說明擬合程度較好,見表3所示。

表3 PCA-SVM預測訓練、測試樣本性能指標

(2) BP神經網絡

為了檢驗提出模型預測效果的優劣,這里和傳統BPNN預測模型做擬合及預測效果比較。BPBP神經網絡是一種前饋型神經網絡。學習過程由信號的正向傳播和反向傳播兩個過程組成。正向傳播時,輸入樣本從輸入層傳人,經各隱含層逐層處理后傳向輸出層。若輸出層的實際輸出與期望輸出不符,則轉入誤差的反向傳播階段,誤差反傳階段是將輸出誤差以某種形式通過隱含層向輸入層逐層反傳,從而獲得各層單元的誤差信號。此過程一直進行到網絡輸出的誤差減少到可接受的程度,或進行到預先設定的學習時間,或進行到預先設定的學習次數為止[17]。

用libsvm工具包中newff函數建立BP神經網絡,采用交叉驗證防止訓練過程中出現過擬合。通過試錯法得BPNN最優網絡結構為4-4-1,學習速率設為0.55,目標精度0.00001,訓練次數2000次。

(3) 模型預測效果檢驗

PCA-SVM、BPNN兩種模型的預測結果和比較如表4、表5所示,圖2為清晰顯示預測數值對比結果,表4數據以月統計形式出現,數據取整。從表中數據比較可以看出采用PCA-SVM得到的訓練樣本及測試樣本的MAPE、RMSE均小于BPNN而決定系數R2更接近于1。因此認為提出的PCA-SVM模型較 BPNN有更好的擬合效果及預測效果。

表4 PCA-SVM與BPNN預測

表5 PCA-SVM與BPNN擬合及預測效果比較

圖2 PCA-SVM、BPNN對感染性腹瀉周發病例數的預測

3結語

氣象因素與感染性腹瀉發病例數之間為非線性關系,基于SVM的回歸預測模型可以很好地處理非線性關系。由于BP神經網絡模型存在局部極值、多重共線的問題,提出PCA-SVM預測模型用于感染性腹瀉周發病例數的預測模型并與BP神經網絡模型進行比較。從表5實驗對比結果看出,無論對訓練集還是測試集, PCA-SVM預測模型的預測結果均優于BP神經網絡模型,比BP神經網絡模型更適用于感染性腹瀉周發病例數的預測。PCA-SVM能夠適應于多因子、多維數及樣本數量有限的預測,模型泛化能力好。預測模型應用于感染性腹瀉周發病例數的預測具有更高的準確度、更好的預測效果,為感染性腹瀉的預測預報提供了新方法。

參考文獻

[1] Diarrhoeal disease.World Health Organization[EB/OL].2013.http://www.who.int/mediacentre/factsheets/fs330/en/.

[2] Lin M,Dong B Q.Status in epidemiological research of infectious diarrhea[J].Chin Tropical Med,2008,8(4):675-677.

[3] Loyd S J,Kovats R S,Armstrong B G.Global diarrhoea morbidity,weather and climate[J].Climate Res,2007,34(2):119.

[4] Alexander K A,Carzolio M,Goodin D,et al.Climate change is likely to worsen the public health threat of diarrheal disease in Botswana[J].Internet Environment Res Public Health,2013,10(4):1202-1230.

[5] Kolstad E W,Johansson K A.Uncertainties associated with quantifying climate change impacts on human health:a case study for diarrhea[J].Environmental Health Perspect,2011,119(3):299.

[6] 謝朝暉,黃建始.傳染病預測方法的探討[J].中國全科醫學,2008(1):85-87.

[7] Chou W C,Wu J L,Wang Y C,et al.Modeling the impact of climate variability on diarrhea-associated diseases in Taiwan[J].Sci Total Environment,2010,409(1):43-51.

[8] Zhao N,Ma X H,Gan L,et al.Research on the application of Medical-meteorological foreast model of infectious diarrhea disease in Beijing[C]//IEEE Fifth International Conference,2010:149-156.

[9] 馮漢中,陳永義.處理非線性分類和回歸問題的一種新方法(Ⅱ)-支持向量機方法在天氣預報中的應用[J].應用氣象學報,2004,15(3):355-365.

[10] Vapnik V N.An overview of satistical learning theory[C]//IEEE Transactions on Neural Networks,1999,10(5):988-999.

[11] 楊海.SVM核參數優化研究與應用[D].浙江:浙江大學電器工程學院,2014.

[12] 李陽.多核學習SVM算法研究及肺結節識別[D].吉林:吉林大學通信工程學院,2014.

[13] 韓立群.人工神經網絡教程[M].北京:北京郵電大學出版社,2006.

[14] 呂建成.神經網絡中的若干問題研究[D].成都:電子科技大學,2006.

[15] 徐國祥.統計預測與決策[M].上海:上海財經大學出版社,2008.

[16] 奉國和.SVM分類核函數及參數選擇比較[J].計算機工程與應用,2011(3):123-128.

[17] 高菡璐,蘭莉,喬東菊.BP神經網絡模型用于氣象因素對腦出血死亡影響的初步研究[J].中華流行病學雜志,2012(1):937-940.

中圖分類號TP391

文獻標識碼A

DOI:10.3969/j.issn.1000-386x.2016.02.012

收稿日期:2014-12-25。上海市國際科技合作基金項目(134307 10100);甘肅省科技計劃資助項目(1506RJZE115);甘肅省高等學校科研項目(2015B-104)。霍靜,講師,主研領域:數據挖掘,信息檢索。王永明,博士。顧君忠,教授。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 美女免费黄网站| 成人va亚洲va欧美天堂| 色婷婷综合激情视频免费看| 亚洲欧美成人网| 亚洲永久视频| 欧美一级高清片久久99| 99久久精品免费看国产电影| 91小视频版在线观看www| 日本妇乱子伦视频| 国内精品九九久久久精品| 免费精品一区二区h| 久久毛片免费基地| 日本国产精品一区久久久| 在线va视频| 999在线免费视频| 99999久久久久久亚洲| 亚洲三级电影在线播放| 在线人成精品免费视频| 欧美性猛交一区二区三区 | 亚洲国语自产一区第二页| 永久免费精品视频| 久久99久久无码毛片一区二区 | 国产综合精品一区二区| 91久久夜色精品国产网站| 国产麻豆福利av在线播放| 99伊人精品| 国产91全国探花系列在线播放| 人与鲁专区| 91精品综合| 露脸一二三区国语对白| 国产精品xxx| 日本久久久久久免费网络| 欧美一区精品| 天天视频在线91频| 无码中文字幕加勒比高清| 国产99免费视频| 亚洲视频无码| 日本亚洲最大的色成网站www| 在线另类稀缺国产呦| 亚洲人成网18禁| 亚洲啪啪网| 成人国产精品视频频| 在线观看免费AV网| 中文字幕在线播放不卡| 亚洲精品无码AV电影在线播放| 久久国产成人精品国产成人亚洲 | 国产噜噜在线视频观看| 亚洲a免费| 亚洲免费黄色网| 激情六月丁香婷婷四房播| 91蝌蚪视频在线观看| 欧美成人免费午夜全| 亚洲色图欧美激情| 亚洲欧美精品在线| 亚洲美女久久| 国产在线小视频| 无码一区二区波多野结衣播放搜索| 97青青青国产在线播放| 亚洲熟女中文字幕男人总站| 自拍欧美亚洲| 亚洲日本中文综合在线| 国产情侣一区二区三区| 熟妇人妻无乱码中文字幕真矢织江| 欧美日韩在线亚洲国产人| 一级毛片免费高清视频| 国产成人精品日本亚洲| 手机成人午夜在线视频| 国产xxxxx免费视频| 亚洲天堂网在线观看视频| 国产男女XX00免费观看| 亚洲欧美日韩动漫| 99视频精品在线观看| 在线视频97| 看av免费毛片手机播放| 无码精油按摩潮喷在线播放| 国产不卡网| 999福利激情视频| 欧美高清三区| 亚洲日本韩在线观看| 色综合久久久久8天国| 亚洲无码精品在线播放 | 99精品热视频这里只有精品7|