高保鍇,虎昭言,王文龍,喬慧*
在實際研究中,經(jīng)常會在計數(shù)資料中遇到零膨脹現(xiàn)象,即觀測值為“0”的比例遠大于其他取值比例。如機動車-電動車碰撞事故發(fā)生頻次、森林火災發(fā)生次數(shù)等。該類資料中“0”值過多且相同“0”值能夠表達不同含義,常會導致數(shù)據(jù)呈現(xiàn)過度離散,表現(xiàn)出較大變異,從而超出相同條件下Possion回歸和負二項回歸等傳統(tǒng)計數(shù)模型能夠預測的范圍[1-3]。為了正確展開參數(shù)估計和統(tǒng)計推斷,國內(nèi)外學者相繼提出零膨脹及其推廣模型,理論和實踐的交互印證使之逐漸成為統(tǒng)計學的研究熱點之一。但在居民住院情況的研究領域中,大多成果仍集中在對住院率、未住院率等的分析,其個案數(shù)據(jù)結(jié)果常局限在“是”或“否”,對于次數(shù)背后的含義和科研價值不能充分挖掘。故而本文將住院行為以次數(shù)分級,充分把握大量觀測值為“0”的數(shù)據(jù)特征,擬構(gòu)建Possion回歸、負二項回歸、零膨脹Possion回歸和零膨脹負二項回歸模型,并對其進行對比分析,進而深入剖析居民住院次數(shù)的影響因素,從而為符合零膨脹相關特征數(shù)據(jù)的擬合提供方法學上的實證研究,有效彌補住院頻次分析的缺乏,以此豐富衛(wèi)生服務利用研究的方向和形式,同時為合理規(guī)劃寧夏衛(wèi)生資源配置、制定或調(diào)整相關政策向山區(qū)傾斜等提供數(shù)據(jù)支持和理論依據(jù)。
1.1 資料來源 本研究資料來源于2019年7—8月開展的“創(chuàng)新支付制度,提高衛(wèi)生效益”項目衛(wèi)生服務調(diào)查數(shù)據(jù)庫[4]。該項調(diào)查采用多階段分層整群隨機抽樣的方法確定調(diào)查對象,具體抽樣方法為:在寧夏南部山區(qū)7個縣中隨機抽取4個樣本縣(鹽池縣、海原縣、彭陽縣、西吉縣);再以經(jīng)濟發(fā)展水平好、中、差作為分組依據(jù),將各縣轄區(qū)內(nèi)的所有行政村劃分為3個層次,每層按照40%的比例,采用隨機數(shù)字表法抽取樣本村;隨后根據(jù)所在村莊的戶主花名冊進行系統(tǒng)抽樣,每個村莊抽取20~33個家庭戶作為樣本戶;將戶內(nèi)所有常住(居住時間≥6個月)成員列為調(diào)查對象,開展后續(xù)入戶調(diào)查。原始數(shù)據(jù)庫共有27 196份問卷信息,本研究去除關鍵變量缺失或不明確的問卷后,納入可供分析的問卷22 427份(82.46%)。
1.2 研究方法 本研究選取的因變量為居民過去1年內(nèi)住院次數(shù)。考慮到患者住院情況是多因素作用的結(jié)果,選取自變量時應綜合各方面的影響,本研究以文獻回顧、社會理論支持及專業(yè)知識儲備為基礎,結(jié)合數(shù)據(jù)庫現(xiàn)有變量,初步選取9個可能影響居民年住院次數(shù)的潛在自變量[5-6]。選取的自變量及其賦值見表1。

表1 寧夏南部山區(qū)居民年住院次數(shù)影響因素分析的自變量選取及賦值Table 1 Selection and assignment of independent variables possibly influencing the annual number of hospitalizations in mountain residents from southern Ningxia
1.3 統(tǒng)計學方法
1.3.1 模型擬合 采用Stata MP 16.0統(tǒng)計軟件進行數(shù)據(jù)分析和模型擬合。對居民的基本特征和年住院次數(shù)進行描述性分析,計數(shù)資料以相對數(shù)表示。利用軟件擬合Possion回歸[7-8]、負二項回歸、零膨脹Possion回歸[9]、零膨脹負二項回歸[10-11]模型,以P<0.05為差異有統(tǒng)計學意義。
1.3.2 模型評價 采用SPSS AU進行過離散檢驗,當O≥1.96時,說明數(shù)據(jù)存在過離散現(xiàn)象,即存在聚集性,負二項回歸模型的擬合效果優(yōu)于Possion回歸。Vuong檢驗(零膨脹檢驗)、赤池信息準則(AIC)和貝葉斯信息準則(BIC)統(tǒng)計量計算均通過Stata MP 16.0統(tǒng)計軟件實現(xiàn)。當Vuong≥1.96時,說明數(shù)據(jù)存在零膨脹現(xiàn)象,擬合零膨脹相關模型是更好的選擇;當Vuong<-1.96時,建議選擇Possion回歸或負二項回歸模型;當|Vuong|<1.96時,無法判斷何模型更優(yōu)[12]。AIC/BIC值越小,認為模型的擬合度越高。
2.1 22427例居民的基本特征及年住院次數(shù) 22 427例居民中,男11 683例(52.09%),女10 744例(47.91%);年齡1~19 歲 5 571 例(24.84%),20~39 歲 6 713 例(29.93%),40~59歲 6 371例(28.41%),60~79歲3 385例(15.09%),80~歲387例(1.73%)。年住院次數(shù)為0次19 802例(88.29%),1次1 933例(8.62%),2次456例(2.03%),≥3次236例(1.06%)。居民基本特征分布情況見表2,年住院次數(shù)分布情況見表3。

表2 寧夏南部山區(qū)居民的基本特征分布情況(n=22 427)Table 2 Demographics of mountain residents from southern Ningxia

表3 寧夏南部山區(qū)居民年住院次數(shù)分布情況(n=22 427)Table3 Distribution of annual number of hospitalizations of mountain residents from southern Ningxia
2.2 模型擬合結(jié)果 以居民年住院次數(shù)為因變量,以性別、年齡、婚姻狀況、文化程度、職業(yè)、常住人口規(guī)模、家庭年人均收入、貧困戶/低保戶情況、離家最近的鄉(xiāng)鎮(zhèn)衛(wèi)生院距離為自變量,分別進行4種模型的擬合。(1)Possion回歸、負二項回歸分析結(jié)果均顯示:性別、年齡、婚姻狀況、文化程度、職業(yè)、常住人口規(guī)模、家庭年人均收入、貧困戶/低保戶情況是居民年住院次數(shù)的影響因素,差異有統(tǒng)計學意義(P<0.05),見表4~5。(2)零膨脹Possion回歸分析結(jié)果顯示:在計數(shù)過程中,文化程度、職業(yè)、家庭年人均收入、貧困戶/低保戶情況、離家最近的鄉(xiāng)鎮(zhèn)衛(wèi)生院距離是居民年住院次數(shù)的影響因素,差異有統(tǒng)計學意義(P<0.05);在零過程中,性別、年齡、文化程度、職業(yè)、離家最近的鄉(xiāng)鎮(zhèn)衛(wèi)生院距離是居民年住院次數(shù)出現(xiàn)零膨脹現(xiàn)象的影響因素,差異有統(tǒng)計學意義(P<0.05),見表6。(3)零膨脹負二項回歸分析結(jié)果顯示:在計數(shù)過程中,性別、文化程度、職業(yè)、常住人口規(guī)模、家庭年人均收入、貧困戶/低保戶情況是居民年住院次數(shù)的影響因素,差異有統(tǒng)計學意義(P<0.05);在零過程中,年齡、婚姻狀況、文化程度、職業(yè)是居民年住院次數(shù)出現(xiàn)零膨脹現(xiàn)象的影響因素,差異有統(tǒng)計學意義(P<0.05),見表7。

表4 寧夏南部山區(qū)居民年住院次數(shù)影響因素的Possion回歸分析Table 4 Possion regression analysis of factors influencing the annual number of hospitalizations in mountain residents from southern Ningxia

表5 寧夏南部山區(qū)居民年住院次數(shù)影響因素的負二項回歸分析Table 5 Negative binomial regression analysis of factors influencing the annual number of hospitalizations in mountain residents from southern Ningxia

表6 寧夏南部山區(qū)居民年住院次數(shù)影響因素的零膨脹Poisson回歸分析Table 6 Zero-inflated Poisson regression analysis of factors influencing the annual number of hospitalizations in mountain residents from southern Ningxia

表7 寧夏南部山區(qū)居民年住院次數(shù)影響因素的零膨脹負二項回歸分析Table 7 Zero-inflated negative binomial regression analysis of factors influencing the number of hospitalizations per year in mountain residents fromsouthern Ningxia
2.3 模型評價
2.3.2 零膨脹檢驗 對本次擬合零膨脹Possion回歸模型和標準Possion回歸模型進行Vuong檢驗,統(tǒng)計量值為8.84;對本次擬合零膨脹負二項回歸模型和標準負二項回歸模型進行Vuong檢驗,統(tǒng)計量值為4.18。兩次檢驗結(jié)果均>1.96,表明該數(shù)據(jù)確實存在零膨脹現(xiàn)象,擬合零膨脹相關模型是更好的選擇。
2.3.3 模型擬合指標 對于本次實證數(shù)據(jù),零膨脹負二項回歸模型的Log likelihood對數(shù)似然(LL)值最大,AIC值最小,BIC值僅大于負二項回歸模型,見表8。

表8 4種離散模型擬合指標比較Table 8 Comparison of the fitness indicators for four discrete choice models
3.1 模型最優(yōu)解 本研究采用寧夏南部山區(qū)居民衛(wèi)生服務利用數(shù)據(jù)開展實證分析,結(jié)合過離散檢驗和零膨脹檢驗結(jié)果,有理由認為居民年住院次數(shù)具有聚集性和零計數(shù)過多的特點。AIC作為權衡模型復雜度和數(shù)據(jù)擬合度的指標之一,在鼓勵數(shù)據(jù)擬合優(yōu)良性的同時盡可能避免過度擬合情況的出現(xiàn),因此在模型選擇時應優(yōu)先考慮AIC值最小者[13]。此外,相比于AIC,BIC在大數(shù)據(jù)量時對模型參數(shù)懲罰得更多,導致BIC更傾向于選擇參數(shù)少的簡單模型,這間接解釋了本研究中模型評價時負二項回歸BIC值小于零膨脹負二項回歸BIC值的現(xiàn)象。綜上,在該實證數(shù)據(jù)的擬合中,零膨脹負二項回歸模型是最好的選擇。
3.2 影響因素 零膨脹模型分成兩個過程,其中“計數(shù)過程”回答變量影響結(jié)局發(fā)生頻次的問題,“零過程”回答變量影響結(jié)局發(fā)生與否的問題[14]。
3.2.1 計數(shù)過程 基于最優(yōu)模型,其計數(shù)過程結(jié)果提示女性、無業(yè)及從事小生意/小買賣、家庭年人均收入處于中等及以上水平、貧困/低保戶對居民年住院次數(shù)有正向影響,家庭常住人口規(guī)模達4人以上、高中及以上文化程度對居民年住院次數(shù)產(chǎn)生負向影響。(1)相對于男性,女性在1年中住院的次數(shù)要更多一些。其可能原因為:一方面,女性的身體素質(zhì)在整體水平上弱于男性,并且在女性特有的四期(經(jīng)期、孕期、產(chǎn)期、哺乳期)中衛(wèi)生服務需求和利用均遠高于男性;另一方面,隨著國家將部分婦科常規(guī)檢查和特殊檢查納入重大公共衛(wèi)生服務項目,女性的疾病檢出率升高,因篩查入院的次數(shù)也相應增加。(2)從事小生意/小買賣者相比于務農(nóng)者的年住院次數(shù)更高。其原因與家庭年人均收入越高年住院次數(shù)越多的原因類似,都在于低收入人群“小病不看、大病不治、重病才住院”的現(xiàn)象較為常見,而可支配收入高意味著在就醫(yī)方面有更多的選擇和接受度,故而呈現(xiàn)出高收入人群衛(wèi)生服務利用度“虛高”的現(xiàn)象。此外,在本研究中尚不能得出企業(yè)主與務農(nóng)者在年住院次數(shù)方面存在統(tǒng)計學差異的結(jié)論,部分原因在于調(diào)查人群集中在農(nóng)村地區(qū),企業(yè)主的占比僅為0.08%,較大的樣本不均衡性帶來的偏倚不容忽視,故在后續(xù)研究中擬引入機器學習,適當改變訓練集合,以探求更為真實的結(jié)論。(3)無業(yè)者及貧困/低保戶的年住院次數(shù)較高。其原因需要結(jié)合調(diào)查背景進行分析,在實際入戶詢問過程中,調(diào)查員發(fā)現(xiàn)該兩類人群中“因病失業(yè)、因病致貧”的比例突出,直接導致其年住院次數(shù)增加。(4)常住人口規(guī)模越大,年住院次數(shù)越少。其原因在于:人口規(guī)模較大通常意味著人均可支配收入較少,就醫(yī)行為會在一定程度上受到限制,住院次數(shù)也會因此減少。(5)在探究文化程度對居民年住院次數(shù)的影響時,高中及以上者與文盲/半文盲者間存在明顯的統(tǒng)計學差異,文化程度達到高中及以上人群的年住院次數(shù)相對較少,其原因為:該類人群一般具有較高的醫(yī)學保健意識和預防知識儲備,一定程度上可以規(guī)避健康危險因素并做到“早發(fā)現(xiàn)、早診斷、早治療”,且可供其選擇的治療方式也更為廣泛[15],故而其住院需求也隨之減少。該項結(jié)果也在側(cè)面反映出,保健宣講及醫(yī)學常識的科普在初中及以下文化程度人群中的力度不夠、收效不足。
3.2.2 零過程 最優(yōu)模型的零過程結(jié)果提示,文化程度和部分職業(yè)對居民住院次數(shù)出現(xiàn)零膨脹現(xiàn)象有正向影響,40~59歲、在婚兩個因素對居民住院次數(shù)出現(xiàn)零膨脹現(xiàn)象有負向影響。(1)以文盲/半文盲者為對照,文化程度越高者的年住院次數(shù)為0的概率越大。分析其原因:一方面,文化程度的提升對健康意識的提高有著較大影響[16];另一方面,居民文化程度與收入呈正比的趨勢從20世紀末就變得更加突出[17],因此高文化程度人群一般具有正確的健康理念和保持維系健康的資本,患病的可能性更低,無須住院的概率自然會更高一些。此處看似與計數(shù)過程所得結(jié)論“學歷層次達到高中及以上人群的年住院次數(shù)相對較少”相矛盾,實則不然,零過程用以推斷出現(xiàn)零次住院的可能性,即該類人群不患病的概率,而計數(shù)過程則是推斷患病后實施就醫(yī)行為的概率。(2)村醫(yī)、從事小生意/小買賣者、教師3類人群相比于務農(nóng)者,年住院次數(shù)為0的概率更大。基于調(diào)查樣本縣經(jīng)濟及農(nóng)業(yè)發(fā)展水平,不難了解到當?shù)貏辙r(nóng)者仍處于傳統(tǒng)農(nóng)業(yè)發(fā)展模式中,對于現(xiàn)代化、智能化、自動化的應用尚未全面普及,農(nóng)民所承擔的體力勞動更多,因勞累患病的概率更高,通常不能保證年住院次數(shù)為0。(3)40~59歲者歸屬于五大人口年齡組中的“壯年組”[5],相比于0~19歲的“少兒組”,年住院次數(shù)為0的概率較小。其原因在于該年齡段居民承擔的家庭責任更重,且身體素質(zhì)已經(jīng)邁過高峰期,新陳代謝降低,若不加以控制和調(diào)節(jié),體態(tài)和體質(zhì)會變差,可以預見其對于醫(yī)療衛(wèi)生的需求不斷升高,無須住院的概率必定降低。(4)與未婚者相比,在婚者的年住院次數(shù)為0的概率較小。原因可能為:一方面,在患較輕病癥時,配偶的關心和督促會增加其選擇就醫(yī)的可能性;另一方面,未婚者中絕大多數(shù)為青少年,健康基礎較好、危險因素暴露少,在婚群體與之相比會有更高的患病可能性。
3.3 建議 為全面改善寧夏南部山區(qū)居民住院就醫(yī)情況,現(xiàn)針對以上影響因素提出如下建議:(1)持續(xù)建立、完善婦女全生命周期健康服務體系和管理體系,并在醫(yī)療優(yōu)惠政策方面做出適當傾斜;(2)健全特殊人群醫(yī)療救助機制[18],給予失業(yè)者、無業(yè)者等人群更多的醫(yī)療衛(wèi)生服務關注,以此防止此類人群“因病致貧、因病返貧”;(3)加大對農(nóng)村地區(qū)的教育投入與支持,引導高端人才開發(fā)、振興鄉(xiāng)村,提高當?shù)卣w文化程度,以此更好地傳播健康理念,推行健康政策;(4)組織、動員農(nóng)村居民積極開展健康家庭建設,推進健康教育工作,倡導健康生活理念,提升居民健康保健意識,進而形成正確的就醫(yī)觀;(5)推進“全程機械化+綜合農(nóng)事”[19],解放農(nóng)村勞動力,降低農(nóng)民勞動強度,拓寬農(nóng)民增收渠道。
作者貢獻:高保鍇負責提出概念、撰寫論文;虎昭言負責清洗和管理研究數(shù)據(jù);王文龍負責文獻查找、整理和歸納;喬慧為課題研究提供資金支持,并對文章關鍵內(nèi)容進行審批;所有作者參與了問卷調(diào)查與資料收集。
本文無利益沖突。