周罡??周劍嵐
[摘要]研究GDP等社會經濟指標與傳染病發病率之間的相關性具有重要的意義。建立多元線性回歸模型,采集GDP、每千人衛生技術人員數目等六類指標,以及2008年分省區的傳染病發病人數,針對以上數據進行量性分析。采用SPSS軟件,通過后退法首先排除掉那些影響較小的變量,然后利用顯著性檢驗,建立合適的模型,結果表明,染病人數只與GDP與各省人口有關系,與GDP成反比,與各省人口成正比(即發病率與GDP成反比)。驗證的模型是一個有效的模型,具有預測性。
[關鍵詞]傳染病發病率;社會經濟指標;多元線性回歸;相關性分析
[中圖分類號] R183 [文獻標識碼] B [文章編號] 2095-0616(2013)08-173-03
傳染病發病率是目前研究的熱門。研究各省區發病率與社會經濟指標,如與GDP的關系,對于疾病的預防意義重大。國內外針對各類傳染病發病率的研究,主要集中在導致疾病發生的直接因素分析。鄧泗沐等[1]研究了深圳市2000~2010年傳染病發病率時間趨勢分析,顯示傷寒副傷寒對發病率下降的貢獻最大。賈蕾等[2]探討北京市痢疾報告發病率長期變化特點及其與經濟、氣候等影響因素的關系。馮星淋等[3]研究了10個國家的GDP與中國兒童死亡狀況的比較。但是研究社會經濟指標,如GDP與傳染病發病率關系的研究少之又少,只有Blondal K等[4]研究了結核艾滋病毒感染的發病率與包括國家GDP等的多因素相關。本文采用多元線性回歸模型分析傳染病發病率與社會經濟指標的相關性。多元線性回歸模型可以有效分析自變量與因變量的因果關系,應用在各行各業。白萍[5]引入多元線性回歸分析的方法,由定性分析選取與我國財政收入有較強的相關性的幾個影響因素,以其作為解釋變量,建立與財政收入的線性模型。朱祥和根據某地區的相關數據,運用時間序列分析,多元線性回歸法,對影響該地區私家車保有量的幾個因素進行數學建模。在對模型進行適當修正后,找出其中的相關性和函數關系,從而對該地區的私家車保有量進行預測[6]。
1 建模
本研究的數據定義如下,因變量y為2008年各省傳染病人數,自變量x1為2008年各省GDP總值,x2各省人均醫療費用,x3各省人口總數,x4各省每千人的衛生技術人員數目,x5各省疫病預防中心人數,x6各省廢氣排放的多少。由于計算量大,通過SPSS軟件進行相關運算。首先進行相關性分析,結果如表1所示。
表1顯示了自變量與各個因變量的相關程度以及各個因變量之間兩兩的相關程度,這些相關程度是通過pearson相關系數來表示的,y與x1,x3,x4,x5,x6的相關系數在0.5附近或者0.5以上,說明所選自變量與y是顯著相關的,用y與自變量做多元線性回歸是合適的。y與x2的相關系數ry2=-0.258,P=0.081,相關系數偏小,說明各省人均醫療費用對各省傳染病人數無顯著地影響。
然后進行F顯著性與t顯著性檢驗,通過SPSS計算得出線性擬合度的樣本決定系數r2=0.874,它反應出模型對樣本觀測值的擬合程度相當高,符合要求。F顯著性檢驗值F=5.5,通過檢驗,說明自變量總體與因變量顯著相關。t顯著性檢驗是檢驗每個自變量對因變量的影響,由SPSS計算得:β0=569.435,β1=-0.184,β2=-1.147,β3=1.680,β4=37.919,β5=0.064,β6=-0.043,得到多元線性模型
y=549.435-0.184x1-1.147x2+1.680x3+37.919x4+0.064x5-0.043x6。但是計算t顯著性檢驗得:P2=0.594,P4=0.752,P5=0.682,P6=0.259,它們都遠遠大于0.05,通不過t顯著性檢驗。
在眾多自變量當中,由于某些自變量不顯著,因此自變量不是越多越好,但由多個自變量不顯著影響因變量時,由于自變量之間的相互作用,我們不能一次剔除所有的不顯著的變量,我們將先剔除其中P值最大的一個變量,在對新的回歸方程進行回歸檢驗,又不顯著的再剔除,直到保留的自變量都對y有顯著性的影響為止。因此可以采用后退法進行進一步分析。首先分析不顯著變量剔除的順序,通過計算可知依次剔除的變量為:各省每千人衛生技術人員數目,各省人均醫療費用,各省疾病預防中心人數,各省的廢氣排放,我們將依次剔除這些變量,并依次對剩下的變量建立模型分析。隨后計算剔除變量后的擬合優度。
從表2可知剔除變量的過程當中,樣本決定系數依次為0.874,0.873,0.872,0.871,0.863,線性擬合度依次有所降低,當自變量只剩下GDP(億元)和各省人口(萬人)時,r=0.929,r2=0.863,依然與樣本觀測值高度擬合,依舊符合要求。
然后對剔除變量后的模型進行F顯著性檢驗,F值依次為27.677,34.429,44.348,61.003,87.882,F值依次增加,顯著性依次增加,當自變量只剩下GDP(億元)和各省人口(萬人)時,F=87.882遠遠大于F0.001(2,28)=9.64,通過F顯著性檢驗。剔除變量后的t顯著性檢驗的P最大的變量剔除掉,直到自變量只剩下GDP(億元)和各省人口(萬人)時,這是所有的自變量全通過t顯著性檢驗,所以通過t顯著性檢驗。
2 模型結果
在多元線性回歸模型當中,我們選取了6個自變量,它們分別是自變量x1為2008年各省GDP總值,x2各省人均醫療費用,x3各省人口總數,x4各省每千人的衛生技術人員數目,x5各省疫病預防中心人數,x6各省廢氣排放的多少。開始建立的模型是
y=569.435-0.184x1-1.147x2+1.68x3+37.919x4+0.064x5-0.043x6
但是這個模型并不理想,所選自變量數目過多,回歸系數顯著性檢驗不能通過,自變量存在共線性。為了完善此模型,采取后退法,剔除P值較大的變量,最后得到多元線性回歸模型
y=180.299-0.206x1+1.693x3
=180.299-0.206GDP(億元)+1.693各省人口(萬人)。
3 討論
本文首先建立了一元線性回歸模型,因變量為各省傳染病人數,自變量為各省2008年的傳染病人數,經過分析,雖然此模型通過了顯著性檢驗,但是此模型的線性擬合度不夠,不能正確地控制和預測,因此此模型不適合。
接著本文又建立多元線性回歸模型,剛開始時因變量為各省傳染病人數,自變量x1為2008年各省GDP總值,x2各省人均醫療費用,x3各省人口總數,x4各省每千人的衛生技術人員數目,x5各省疫病預防中心人數,x6各省廢氣排放的多少,建立模型后,此模型通不過t顯著性檢驗。為了繼續進行分析,本文選擇了后退法,排除掉那些影響較小的變量,排除掉x2各省 人均醫療費用,x4各省每千人的衛生技術人員數目,x5各省疫病預防中心人數,x6各省廢氣排放的多少,所有變量通過顯著性檢驗。
模型分析結果表明GDP是重要的社會經濟宏觀指標之一,代表了社會經濟的發展,它與各省傳染病人數是成反比的,GDP每增加一億元,傳染病人數就減少0.206人,而各省人口與各省傳染病人數是成正比的,人口沒較少一萬人,傳染病人數就減少1.63人,因此采取的措施為:(1)改革大的制度化境,培育科技創新的自我孕育能力,提高生產技術水平和人文素質。(2)對一個國家或一個地區而言,計劃生育就是在全國或整個地區范圍內,對人口發展進行有計劃的調節,使人口的增長同社會和經濟的發展相適應。
總之,因變量傳染病人數只與GDP與各省人口有關系,與GDP成反比,與各省人口成正比。近幾年我國經濟呈高速發展,各地經濟一片繁榮,經濟得到發展,人們的生活條件得到提高,衛生意識也隨之提高,可以支配用于醫療的費用也提高,國家也有更多的經費采購設備來治愈疾病,這些都會減少傳染病的人數。但是還有一個因素會增多傳染病人數,那就是中國的人口。雖然我國目前嚴格執行計劃生育,但是我國人口基數太大,在近幾年我國人口還是保持較快的增長,因此近幾年傳染病總體來說還是會有所增長。再過幾年,我國將進入老年社會,等過完這段時間,人口數量增速將減慢,那時的傳染病發病率及發病人數將開始減少。
[參考文獻]
[1] 鄧泗沐,梁桂玲,葉郁輝,等.深圳市2000~2010年傳染病發病率時間趨勢分析[J].中國熱帶醫學,2012,12(1):28-30.
[2] 賈蕾, 曹衛華,賀雄,等.北京市痢疾發病率影響因素分析[J].中國公共衛生,2007,23(8): 1004-1006.
[3] 馮星淋,羅昊,沈娟,等.中國兒童死亡狀況的國際比較[J].兒童保健,2010,3:339-342.
[4] Blondal K,Viiklepp R,Blondal P,et al.Countrywide management of pulmonary tuberculosis reverses increasing incidence[J].International Journal of Tuberculosis and Lung Disease,2011,15(7):892-898.
[5] 白萍.影響我國財政收入的多元線性回歸模型[J].統計與決策,2005,5:92-94.
[6] 朱祥和.基于多元線性回歸的私家車保有量預測[J].湖北工業大學學報,2011,26(3):27-31.
(收稿日期:2013-03-26)