999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用搜索引擎數(shù)據(jù)模擬疾病空間分布

2018-03-07 06:41:52何宗宜
測繪通報 2018年2期
關(guān)鍵詞:模型

肖 屹,何宗宜,苗 靜,潘 峰,3,楊 好

(1. 武漢大學(xué)資源與環(huán)境科學(xué)學(xué)院,湖北 武漢 430079; 2. 武漢市測繪研究院,湖北 武漢 430022; 3. 西安測繪總站,陜西 西安 710054)

實時監(jiān)測流行病的傳播和分布能夠為公共衛(wèi)生部門進行決策提供科學(xué)參考,進而控制其傳播范圍和影響力度。作為有效的分析及可視化工具,GIS在空間流行病學(xué)領(lǐng)域發(fā)揮著越來越大的作用[1]。GIS數(shù)據(jù)來源豐富,除了官方權(quán)威部門采集的數(shù)據(jù),也有由大量非專業(yè)人員志愿獲取的,被稱為眾源地理數(shù)據(jù)[2],其中就包括了帶有位置信息的搜索引擎數(shù)據(jù),這是一種典型的時空大數(shù)據(jù),它具備的泛在性、高時效性使得其在挖掘社會現(xiàn)象時空規(guī)律、發(fā)現(xiàn)空間模式特征、預(yù)測時空演變規(guī)律方面具有重要作用[3]。

各國現(xiàn)有流感監(jiān)控方法主要是匯總哨點醫(yī)院上報的流感樣病例(ILI),雖然結(jié)果準(zhǔn)確,但時間上有延遲,如中國國家流感中心發(fā)布的流感周報一般有1~2周延遲[4]。因此,許多新方法應(yīng)用到了流感快速監(jiān)測中,如根據(jù)電話咨詢量、藥物銷量、學(xué)校和企業(yè)缺席人數(shù)來推測流感發(fā)病率[5]。自從Ginsberg等利用Google的搜索數(shù)據(jù)來探測流感流行趨勢[6]以來,國內(nèi)外越來越多的科研工作者將互聯(lián)網(wǎng)的搜索引擎、社交網(wǎng)絡(luò)和網(wǎng)絡(luò)新聞媒體這3類大數(shù)據(jù)應(yīng)用到流感監(jiān)測中。處理以上數(shù)據(jù)使用的方法主要包括多元回歸分析及支持向量機、人工神經(jīng)網(wǎng)絡(luò)等機器學(xué)習(xí)方法,其中回歸分析仍然是應(yīng)用廣泛且效果較好的方法之一[7]。

過往的研究主要以發(fā)病數(shù)的時間序列為研究對象,關(guān)注研究區(qū)域整體的發(fā)病情況,而對于研究區(qū)域內(nèi)部空間分布的研究較少,沒有充分利用大數(shù)據(jù)中包含的空間信息。本文在多元回歸分析的基礎(chǔ)上,使用時空地理加權(quán)回歸(geographically and temporally weighted regression,GTWR)進行建模,充分利用搜索引擎數(shù)據(jù)中的位置信息,試圖構(gòu)造能更好模擬我國流感空間分布的模型,為空間流行病學(xué)研究和公共衛(wèi)生決策提供支持。

1 模型與方法

1.1 最小二乘線性回歸模型

OLS模型是最基本的回歸方法,也是所有空間回歸分析的正確起點。它適用于回歸關(guān)系具有全局空間穩(wěn)定性的情況[8],可為變量或過程提供一個全局模型,用唯一的回歸方程表示為

Y=β0+β1X1+β2X2+…+βnXn+ε

(1)

1.2 地理加權(quán)回歸模型

若流感發(fā)病數(shù)與關(guān)鍵詞百度指數(shù)之間的關(guān)系存在空間非平穩(wěn)性,則模型中變量的關(guān)系是基于空間位置的函數(shù)。GWR模型可為變量或過程提供局部模型,能夠有效探測空間非平穩(wěn)特征[9],它對每個目標(biāo)要素帶寬范圍內(nèi)的要素進行參數(shù)估計,通過引入地理加權(quán)函數(shù)對式(1)進行擴展,模型可表示為

Yi=β0(ui,vi)+∑nβn(ui,vi)Xin+εi

(2)

式中,(ui,vi)表示第i個目標(biāo)要素的坐標(biāo);β0(ui,vi)為第i個目標(biāo)要素的截距常量;βn(u,v)為連續(xù)函數(shù);βn(ui,vi)為該函數(shù)在i點的值。

本文使用高斯函數(shù)作為GWR模型的空間核函數(shù)。帶寬的選擇對GWR模型有較大影響,它的形狀和范圍取決于核類型、帶寬方法等參數(shù),本文使用固定核寬,根據(jù)模型的赤池信息準(zhǔn)則(Akaike information criterion,AIC)來確定最優(yōu)帶寬。

1.3 時空地理加權(quán)回歸模型

除了空間因素外,時間因素也可能導(dǎo)致流感發(fā)病數(shù)與關(guān)鍵詞百度指數(shù)的關(guān)系呈現(xiàn)非平穩(wěn)性,時空地理加權(quán)回歸能夠有效解決回歸模型中無法同時考慮時間和空間異質(zhì)性的問題[10]。它使用三維坐標(biāo)來定義時空位置,相應(yīng)地,式(2)可擴展為

Yi=β0(ui,vi,ti)+∑nβn(ui,vi,ti)Xin+εi

(3)

式中,(ui,vi,ti)為第i個目標(biāo)要素的三維坐標(biāo);β0(ui,vi,ti)為該要素對應(yīng)的截距常量;βn(u,v,t)為連續(xù)函數(shù),βn(ui,vi,ti)為該函數(shù)在i點的值。采用局部加權(quán)最小二乘估計可計算出參數(shù)的估計值為

(4)

式中,Wui,vi,ti=diag(αi1,αi2,…,αin)表示n階時空距離權(quán)重對角矩陣(n為樣本數(shù));對角元素αij(1≤j≤n)表示點j對觀測點i的影響,它與時空距離有關(guān)。點j到觀測點i的時空距離越近,對估計結(jié)果的影響越大。因此,與GWR模型相似,時空距離衰減函數(shù)直接影響參數(shù)的估計,本文中GTWR模型同樣使用高斯核函數(shù)。由于位置和時間使用不同的單位系統(tǒng)來計量,它們的尺度效應(yīng)也不相同,因此引入橢圓坐標(biāo)系統(tǒng)來表示時空距離[11],在給定空間距離dS和時間距離dT的情況下,時空距離表示為

dST=λdS+μdT

(5)

式中,λ和μ分別為平衡空間距離和時間距離的比例因子,選擇合適的值后dST就能度量時空距離。設(shè)k=μ/λ,若k為0,GTWR模型就簡化為GWR模型,若k為無窮大,模型將簡化為時間加權(quán)回歸模型(TWR)。具體的時空距離比例因子和最優(yōu)帶寬通過計算AIC值使其達到最小來確定。

Investigate on the pre-assessment of typhoon disaster in Ningbo based on BP neural network

1.4 技術(shù)路線

本文的試驗數(shù)據(jù)包含訓(xùn)練集和驗證集兩部分。在對訓(xùn)練集中的發(fā)病數(shù)和相關(guān)關(guān)鍵詞的搜索指數(shù)進行雙變量相關(guān)分析的基礎(chǔ)上,篩選出與流感發(fā)病顯著相關(guān)的關(guān)鍵詞。通過構(gòu)建OLS模型并觀察VIF值(方差膨脹因子)來檢驗自變量之間的共線性,利用主成分分析法消除共線性以降低模型估計誤差。再采用消除共線性后的主成分作為自變量,分別使用OLS、GWR和GTWR構(gòu)建流感空間分布模型,最后對以上回歸分析方法的模擬結(jié)果進行精度驗證和對比。將驗證集的自變量代入擬合效果最佳的模型中,得到各省流感發(fā)病數(shù)的預(yù)測值,與實際分布情況進行對比驗證。技術(shù)路線如圖1所示。

圖1 技術(shù)路線

2 數(shù)據(jù)處理

2.1 數(shù)據(jù)獲取

本文使用流感官方發(fā)病數(shù)據(jù)作為模擬目標(biāo),數(shù)據(jù)來源于公共衛(wèi)生科學(xué)數(shù)據(jù)中心(http:∥www.phsciencedata.cn/Share/index.jsp),樣本采集時間范圍為2013年10月至2014年3月,統(tǒng)計全國范圍各省各月的流感發(fā)病數(shù)量,由于香港、澳門、臺灣、西藏的數(shù)據(jù)難以獲取,下文的分析中將不包括上述地區(qū)。將以上時間范圍和地點的流感相關(guān)關(guān)鍵詞的搜索量作為自變量,已有的國內(nèi)外相關(guān)研究大多使用谷歌趨勢作為數(shù)據(jù)源,但百度占據(jù)了中國84.5%以上的份額[12],因此本文使用的搜索引擎數(shù)據(jù)來自于百度指數(shù)網(wǎng)站(https:∥index.baidu.com/)。

以上試驗數(shù)據(jù)被劃分為訓(xùn)練集和驗證集兩個部分,在模型建立階段均選取2013年10月至2014年2月的試驗數(shù)據(jù)作為模型訓(xùn)練樣本,用于估計回歸參數(shù),使用2014年3月的試驗數(shù)據(jù)作為驗證集,用于對模型模擬流感空間分布的效果進行驗證。

2.2 關(guān)鍵詞選取

不同關(guān)鍵詞在某一特定時間地點對應(yīng)不同的搜索頻率,它的選取直接影響模型結(jié)果,因此必須選擇與流感發(fā)病高度相關(guān)的關(guān)鍵詞。本文選取的關(guān)鍵詞的百度指數(shù)與流感發(fā)病數(shù)的相關(guān)系數(shù)大于0.5,并且要求關(guān)鍵詞在語義上與流感相關(guān)。若同時受到其他變量的影響,與流感無關(guān)的關(guān)鍵詞也可能與發(fā)病數(shù)有很高的相關(guān)系數(shù)。Ginsberg等從五千萬個搜索詞中選取了相關(guān)系數(shù)最高的45個,計算量過大,不具有可重復(fù)性。以往的研究表明,越多的關(guān)鍵詞不能保證越高的模型擬合度,對于一個相對精確的模型,增加一個關(guān)鍵詞的邊際貢獻并不顯著,反而增大了計算量[13]。依據(jù)以上原則,結(jié)合相關(guān)文獻[4,12-13]選取了咳嗽、發(fā)燒、喉嚨痛、H7N9、頭痛、肺炎、感冒、禽流感、流感、甲流、流感癥狀、流感病毒、流鼻涕等13個關(guān)鍵詞,分別用X1至X13表示,以上關(guān)鍵詞的百度指數(shù)均在0.01水平上與流感發(fā)病數(shù)顯著相關(guān),具體的相關(guān)系數(shù)見表1。

表1 各關(guān)鍵詞搜索量與流感發(fā)病數(shù)的相關(guān)系數(shù)

2.3 利用主成分分析消除變量共線性

使用X1至X13作為解釋變量,發(fā)病數(shù)Y作為因變量,利用普通最小二乘法(OLS)建立流感空間分布模型,再通過觀察VIF值檢驗自變量之間的共線性。模型校正后的R2值為0.688,說明該模型整體擬合效果較好。但是各解釋變量對應(yīng)的VIF值較大,最小值為8.167,最大達到68.366。一般認為VIF值大于7.5是變量間共線性的觸發(fā)點[14],該模型解釋變量的組合存在冗余,這會導(dǎo)致模型變得不可靠,因此需要通過降低解釋變量維度來消除共線性,進而減少模型估計誤差。

對關(guān)鍵詞的百度指數(shù)X1至X13運行主成分分析,所有關(guān)鍵詞的共同度均大于0.6,根據(jù)特征值大于1的準(zhǔn)則可提取3個主成分,分別用PC1、PC2、PC3表示,其累積方差貢獻率為82.76%,可較好地代表原始數(shù)據(jù)。

3 流感空間分布模型

3.1 基于OLS的空間分布模型

使用消除共線性后的3個主成分作為自變量,流感發(fā)病數(shù)作為因變量,進行OLS多元線性回歸,得到模型參數(shù)估計值及模型統(tǒng)計診斷結(jié)果見表2。

表2 OLS模型參數(shù)估計

經(jīng)過主成分分析后所有變量的系數(shù)均通過t檢驗,而且自變量之間幾乎不存在共線性,模型校正R2值也提高到了0.737,表明以上主成分可用于進一步構(gòu)建流感空間分布的局部模型。

3.2 基于GWR的空間分布模型

使用相同的數(shù)據(jù)集,基于地理加權(quán)回歸構(gòu)建流感空間分布模型,結(jié)果見表3,表中用四分位數(shù)來表示各參數(shù)的變化情況。

表3 GWR模型參數(shù)估計

GWR模型的擬合度為0.915,與OLS模型相比有大幅度的提高。在不同空間位置上,GWR模型的參數(shù)估計值存在較大變化,這一變化表明,各解釋變量對發(fā)病數(shù)的影響作用大小甚至正負都不一致。過往的研究也表明,網(wǎng)絡(luò)搜索行為存在一定的空間差異性特征,不同地區(qū)不同屬性的關(guān)鍵詞與真實病例數(shù)有不同的相關(guān)性[15],而OLS模型未能考慮這種變化特征。

3.3 基于GTWR的空間分布模型

進一步運用GTWR模型對訓(xùn)練集中的數(shù)據(jù)進行分析并構(gòu)建流感空間分布模型,模型參數(shù)估計值及性能指標(biāo)見表4。

表4 GTWR模型參數(shù)估計

結(jié)果表明,模型可解釋實際發(fā)病數(shù)變化的百分比進一步提高到了95.9%。在不同的時間和空間上,GTWR模型參數(shù)估計值的變化程度大于GWR模型。AIC值是模型性能的另一種度量,用于比較不同的回歸模型,一般情況下,簡單的全局模型具有更好的可操作性和解釋性,而復(fù)雜的局部模型有更好的擬合度,若擬合度差異不大,應(yīng)盡量選擇簡單的模型。AIC值考慮了模型復(fù)雜度,具有越小AIC值的模型性能越好,不同模型之間的AIC值相差超過3,表明模型性能差異顯著[16]。可以看出,AIC值從OLS的2 313.12降低到GWR的2 195.12及GTWR的2 115.10,降低幅度遠遠大于3,說明模型之間存在顯著差別。殘差是模型無法解釋的部分,從OLS模型到GTWR模型,殘差平方和(residual squares,RSS)逐漸降低。

雖然GTWR模型相對GWR模型的擬合度有所提升,但GWR模型相對OLS模型的提升更大,AIC值的變化也呈現(xiàn)出這樣的特征,可能的原因是試驗數(shù)據(jù)的時間跨度相對較小,而空間跨度較大,導(dǎo)致時間非平穩(wěn)性的影響要小于空間非平穩(wěn)性。綜上可見,由于回歸因素中存在時空非平穩(wěn)性,而GTWR模型同時考慮了時間和空間非平穩(wěn)性的影響,因此能更好地模擬流感發(fā)病的空間分布。

4 GTWR模型的驗證

使用回歸分析方法對現(xiàn)象建模后可用于估算其他時間的數(shù)值[17]。在使用訓(xùn)練集建立模型,并比較模型擬合效果的基礎(chǔ)上,選用GTWR模型對流感發(fā)病數(shù)進行估算,把驗證集的解釋變量即3個主成分代入回歸計算所得的模型中,得出2014年3月各省發(fā)病數(shù)的估計值。將未參與模型參數(shù)估計的3月各省實際發(fā)病數(shù)據(jù)作為模擬目標(biāo)值用于與估算值進行對比,如圖2所示。

圖2 各省發(fā)病數(shù)的估計值與實際值比較

從圖2可以看出,發(fā)病數(shù)的估計值與真實值基本吻合,模型能準(zhǔn)確識別流感高發(fā)地區(qū)和低發(fā)地區(qū),尤其在高發(fā)地區(qū)模擬效果更佳,但低發(fā)地區(qū)的擬合情況較差,可能是由于流感疫情嚴重的地區(qū)產(chǎn)生的搜索信息更為全面,使得模型對高值的估算較為準(zhǔn)確。為了進一步驗證模型的預(yù)測能力,可通過對估計值與實際值進行空間相關(guān)性分析來比較兩者的接近程度[18]。結(jié)果表明,估計值與實際值相關(guān)系數(shù)達到0.956,在0.01水平上顯著相關(guān),說明結(jié)合GTWR模型和搜索引擎數(shù)據(jù)可以較為準(zhǔn)確地模擬流感發(fā)病的空間分布。

5 結(jié) 語

本文依據(jù)關(guān)鍵詞的百度指數(shù)與流感發(fā)病數(shù)之間的相關(guān)性進行關(guān)鍵詞選取,用于構(gòu)造回歸模型;針對回歸分析中經(jīng)常存在的多重共線性問題,使用主成分分析法消除變量共線性;為了表達模型的時空非平穩(wěn)性,構(gòu)建時空地理加權(quán)回歸流感空間分布模型。研究結(jié)果表明,流感發(fā)病數(shù)與相關(guān)關(guān)鍵詞百度指數(shù)之間存在明顯的時空非平穩(wěn)性,與全局回歸模型相比,變系數(shù)的局部回歸模型能顯著提高模型擬合程度,其中時空地理加權(quán)回歸模型效果最佳,結(jié)合搜索引擎數(shù)據(jù)能準(zhǔn)確識別流感高發(fā)地區(qū),實時監(jiān)測流感發(fā)病空間分布情況。該方法較常規(guī)監(jiān)測方法具有更高的時效性,而且數(shù)據(jù)獲取和計算成本低廉,可用于早期預(yù)警,成為傳統(tǒng)疾病監(jiān)測方法的有效補充。

[1] 胡雪蕓,何宗宜,苗靜.疾病數(shù)據(jù)的時空聚集分析及可視化[J].測繪通報,2015(11):106-111.

[2] 單杰,秦昆,黃長青,等.眾源地理數(shù)據(jù)處理與分析方法探討[J].武漢大學(xué)學(xué)報(信息科學(xué)版),2014,39(4):390-396.

[3] 艾廷華.大數(shù)據(jù)驅(qū)動下的地圖學(xué)發(fā)展[J].測繪地理信息,2016,41(2):1-7.

[4] 魯力,鄒遠強,彭友松,等.百度指數(shù)和微指數(shù)在中國流感監(jiān)測中的比較分析[J].計算機應(yīng)用研究,2016(2):392-395.

[5] 李秀婷,劉凡,董紀昌,等.基于互聯(lián)網(wǎng)搜索數(shù)據(jù)的中國流感監(jiān)測[J].系統(tǒng)工程理論與實踐,2013,33(12):3028-3034.

[6] GINSBERG J,MOHEBBI M H,PATEL R S,et al.Detecting Influenza Epidemics Using Search Engine Query Data[J].Nature,2008,457(7232):1012-1014.

[7] 王若佳,李培.基于互聯(lián)網(wǎng)搜索數(shù)據(jù)的流感監(jiān)測模型比較與優(yōu)化[J].圖書情報工作,2016(18):122-132.

[8] 焦利民,許剛,趙素麗,等.基于LUR的武漢市PM2.5濃度空間分布模擬[J].武漢大學(xué)學(xué)報(信息科學(xué)版),2015,40(8):1088-1094.

[9] 趙陽陽,劉紀平,徐勝華,等.一種基于半監(jiān)督學(xué)習(xí)的地理加權(quán)回歸方法[J].測繪學(xué)報,2017,46(1):123-129.

[10] 張金牡,劉彪,吳波,等.應(yīng)用改進的時空地理加權(quán)模型分析城市住宅價格變化[J].東華理工大學(xué)學(xué)報(自然科學(xué)版),2010,33(1):53-59.

[11] HUANG B,WU B,BARRY M.Geographically and Temporally Weighted Regression for Modeling Spatio-temporal Variation in House Prices[J].International Journal of Geographical Information Science,2010,24(3):383-401.

[12] 董曉春,李琳,徐文體,等.特定關(guān)鍵詞及百度指數(shù)與流感病毒活動相關(guān)性分析[J].中國公共衛(wèi)生,2016(11):1543-1546.

[13] YUAN Q,NSOESUE E O,LV B,et al.Monitoring Influenza Epidemics in China with Search Query from Baidu[J].Plos One,2013,8(5):e64323.

[14] 王旭,林征,張志,等.基于GWR模型的北極濱海平原融凍湖表面溫度空間分布模擬[J].武漢大學(xué)學(xué)報(信息科學(xué)版),2016,41(7):918-924.

[15] 黃達滄.基于搜索引擎數(shù)據(jù)的手足口病監(jiān)測[D].長春:東北師范大學(xué),2015:27-32.

[16] 覃文忠,王建梅,劉妙龍.混合地理加權(quán)回歸模型算法研究[J].武漢大學(xué)學(xué)報(信息科學(xué)版),2007,32(2):115-119.

[17] ZHANG H,GUO L,CHEN J,et al.Modeling of Spatial Distributions of Farmland Density and Its Temporal Change Using Geographically Weighted Regression Model[J].Chinese Geographical Science,24(2):191-204.

[18] LAMPOS V,CRISTIANINI N.Tracking the Flu Pandemic by Monitoring the Social Web[C]∥2010 Second International Workshop on Cognitive Information Processing(CIP).Elba:IEEE,2010:411-416.

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧美日韩在线第一页| 91香蕉视频下载网站| 91伊人国产| 99久久精品国产综合婷婷| 亚洲欧洲免费视频| 国产精品一线天| 欧美成人精品在线| 成人国产一区二区三区| 在线播放国产99re| 青青久视频| 国产精品爽爽va在线无码观看| 精品一區二區久久久久久久網站| 国产亚洲精| 国产在线精品美女观看| 亚洲一道AV无码午夜福利| 国产男人天堂| 国产午夜看片| 天天视频在线91频| 三上悠亚一区二区| 国产成人夜色91| 全裸无码专区| 国产精品自在自线免费观看| 成人在线亚洲| 蜜臀AV在线播放| 9久久伊人精品综合| 91无码网站| 国产一区成人| 这里只有精品在线| 欧美专区在线观看| 国产精品久久久久久搜索| www亚洲天堂| 免费 国产 无码久久久| 全色黄大色大片免费久久老太| 手机在线看片不卡中文字幕| 国产在线一区二区视频| 精品99在线观看| 国产chinese男男gay视频网| 伊人久久久久久久久久| 97在线免费视频| 欧美视频在线播放观看免费福利资源| 91精品啪在线观看国产| 国产亚洲精品在天天在线麻豆 | 婷婷午夜天| 欧美亚洲第一页| 在线精品自拍| 欧美成一级| 中文成人在线| 美女国产在线| 色爽网免费视频| 午夜日韩久久影院| 囯产av无码片毛片一级| 欧美三级自拍| julia中文字幕久久亚洲| 女人爽到高潮免费视频大全| 中国一级毛片免费观看| 欧美区日韩区| 欧美综合区自拍亚洲综合绿色| 亚洲香蕉久久| 午夜欧美在线| 91免费观看视频| 国产无码高清视频不卡| 思思热精品在线8| 国产视频一二三区| 国产成人综合亚洲网址| 国产成人久久777777| 亚洲精品天堂自在久久77| 自偷自拍三级全三级视频| 国产一级α片| 婷婷色一二三区波多野衣| 99久久免费精品特色大片| 国产精品亚洲天堂| 国产高清在线观看| 国产91小视频在线观看| 久久永久免费人妻精品| 搞黄网站免费观看| 91精品国产自产在线老师啪l| 伊人精品成人久久综合| 欧美色伊人| 国产清纯在线一区二区WWW| 麻豆精品在线播放| 欧美精品在线看| 亚洲床戏一区|