霍振昂 王仲陽 孫 韜△
住院醫療費用分布擬合研究*
霍振昂1王仲陽2孫 韜1△
住院醫療費用分布的特點一般為左偏、厚尾,尾部趨于零的速度緩慢,國內外研究者一般采用重尾分布族模型對其密度函數和分布函數進行刻畫。本研究擬從大樣本角度對住院醫療費用分布模型進行擬合。
本研究數據來源于2015年河南省國家衛生統計直報系統病例首頁(衛計統表 4-1,字段名:ZYF)報表,刪除了缺失值、零值等無效信息值,對住院費用小于 100 的病例也做了刪除處理。清洗后的數據共5023135 例,涵蓋了 253 家醫院上報數據。
表1顯示一級醫院數據量非常小,僅有 14267 例,占比2.8%,絕大部分病例來自二級以上醫院;醫院級別與住院醫療費用均值、中位數均存在明顯的正相關,檢驗結果證實了這一點( Kruskal-Wallisχ2=978650,P<0.01)。

表1 河南省醫院住院費用基本情況表
綜合仇春涓[1]、薛秦香[2]等人的研究,本文利用重尾分布族模型(對數正態、 Pareto、 Weibull、 Burr和loglogis 分布)分別進行了擬合。設x為隨機變量,且x>0,各分布模型的概率密度函數和分布函數,分別如下。
1.對數正態分布

2.Pareto 分布

3.WeiBull 分布

4.Burr分布(Type XII)

5.loglogistic分布

應用R軟件對住院醫療費用數據進行擬合,得到擬合參數,并繪制相應直方圖和概率密度圖。
圖1、圖2和圖3分別顯示了對數正態、Pareto和Weibull分布的擬合情況。從圖中可以直觀地看出,三個模型參數都在 1%水平上顯著,但數據擬合情況均不太理想,與直方圖顯示的實際概率密度相比,均有較大的偏差,上述 3 個模型均未能很好地刻畫出住院醫療費用分布的變化趨勢。
圖4、圖5分別顯示了Burr分布和Llogistic分布擬合情況。如圖中顯示,兩個分布概率密度函數從始至終反映出了直方圖的變動趨勢,契合度非常高。如前所述,當Burr概率密度函數參數a=1時,實質上就轉化了Llogistic分布,這一點從圖5中可以看到, Llogistic分布估計參數與Burr分布后兩個估計參數完全一致,并且Llogistic參數的標準誤更小,表明在相同條件下,其參數估計的精度相對更高,更加有效。綜合圖1~5情況初步分析,相對于其他模型,采用Llogistic分布模型得到概率密度圖與直方圖擬合效果最好。

圖1 對數正態分布模型擬合圖

圖2 Pareto分布模型擬合圖

圖3 Weibull分布模型擬合圖

圖4 Burr(Type XⅡ)模型擬合圖

圖5 Llogistic分布模型擬合圖
從表2反映的各分布模型累積概率對比情況看,Burr、Llogistic模型也要大大好于前三個模型,在所劃分的離散區間上,前兩個模型與實際累積概率都非常接近,尤其是在對兩端數據累積概率擬合時,幾乎與實際概率分布值相等。相比之下,其余三個模型的擬合度要差很多,尤其是對數正態分布模型擬合出的效果,偏離實際值甚遠。

表2 各分布模型累積概率對比情況
圖6匯總顯示了各分布模型的累計密度圖,從中可以清晰地看出,Llogistic和Burr模型累積概率曲線幾乎與實際累積概率曲線重疊,而其余三個模型的累積概率曲線圖則相對偏離較遠。綜合累積概率密度擬合情況判斷,住院醫療費用依然最有可能符合Burr和Llogistic分布。

圖6 各分布模型累積概率匯總
由于樣本量過于龐大,難以找到直接的方法對模型進行分布擬合檢驗,本研究采取了 Bootstrap 方法進行替代。

表3 Bootstrap檢驗結果匯總表
整個檢驗步驟在R軟件中通過編程實現,具體步驟如下:第一步,建立H0:總體符合(某種)模型分布,H1:總體不符合該模型分布類型,置信水平α=0.01;第二步,對住院醫療費用進行有放回隨機抽樣,每次抽取2000個樣本;第三步,根據不同分布模型概率密度函數公式計算并記錄樣本參數擬合值,進行K-S檢驗(置信水準設定為5%,如果K-S檢驗報告的P值>0.05,則認為通過,否則為不通過),記錄相應結果;第四步,重復上述第二步、第三步N次;分別計算N個參數擬合值的樣本方差,做為參數擬合值的方差估計量。第五步,以K-S檢驗通過次數與總抽樣次數(N)之比為統計量,計算相應P值,作出統計推斷。
檢驗結果列在表3中Burr和Llogistic模型通過K-S檢驗的次數分別為996次、 997次(N=1000)和4979次、 4983次(N=5000),相應的P值分別為0.996、0.997。其余三個模型則沒有通過K-S檢驗的記錄,相應的P值均為0。檢驗結果表明,在1%的置信水準下,不能拒絕總體符合Burr分布和Llogistic分布的原假設;可以拒絕總體符合Lnorm分布、Pareto分布和Weibull分布的原假設。通過表3還可以看出,抽樣1000次與5000次的結果整體差別不算太大。通過抽樣計算參數均值幾乎與醫療費用總體均值相等,但標準誤更加穩健。
判斷數據分布類型對于統計和計量建模的重要性不言而喻。如果分布類型假定錯誤,在進行相應參數估計時則很可能得出有偏估計值。如在以往一些對醫療費用的研究中,直接將醫療費用做對數轉換,僅從圖形上判斷就做出數據符合對數正態分布,進而采取相應的方法進行參數估計。從本研究結果看,并未找到住院費用符合對數正態分的證據,因此不加判斷直接采取這樣的做法一定要慎重。
此外需要注意的是,住院醫療費用厚尾的特征非常突出,在本研究所收集到的數據中, 95分位以后的樣本費用合計數占到了總數的34.5%。在這樣的情況下,如果采取以往的算數平均來計算次均住院費用的話,實際上并不能很好地反映住院醫療費用的集中趨勢。這也提示我們,判斷次均醫療費用的高低,不能僅憑均值來進行,還需要研究更有效的評判指標。
[1] 仇春涓,陳滔,吳賢毅.重尾分布下醫療保險保費合理性評估——基于上海市閔行區新農合的實證研究.數理統計與管理,2013,6:974-983.
[2] 薛秦香,胡安霞,陳璐.新型農村合作醫療住院費用損失分布擬合.中國衛生經濟,2012,6:35-36.
[3] 沈穎,尹娟,傅陳欣熹.南昌市某三甲醫院住院費用結構研究.中國衛生統計,2016,(3):491-492.
[4] 許建強,鄭娟,井淇,等.山東省某市新農合大病保險補償 20 類大病費用分布情況及效果評價.中國衛生統計,2016,(1):81-84.
[5] Marazzi A,Yohai V.Adaptively truncated maximum likelihood regression with asymmetric errors.Journal of Statistical Planning and Inference,2004,122:271-291.
[6] Gilleskie DB,Mroz TA.A flexible approach for estimating the effect of covariates on health expenditures.Journal of Health Economics,2004,23:391-418.
[7] 王新宇,宋學鋒.擬合中國股票市場收益的統計分布.系統工程理論與實踐,2006,12:40-46.
河南省重點科技攻關項目(1042102310142)
1.河南醫學高等專科學校 (450000) 2.河南省衛生計生委
△通信作者:孫韜,E-mail:549130@qq.com
劉 壯)