程小珊
摘 要:目前,美國已建立起相對完善的健康保險制度,但仍存在一些缺陷,如眾所周知的美國保費偏高問題。本文將利用8000多個研究對象得到的數據進行回歸分析,研究某些因素,如就業情況、年齡、受教育程度等對健康保險投保率的影響。這將有利于美國進一步改善健康保險制度,使其能真正保障全民利益。
關鍵詞:健康保險;投保率;個體戶
一、問題的提出
健康保險是對被保險人在發生疾病或意外事故時帶來的傷害引起的費用或損失進行補償的一種保險。健康保險按照保險責任,分為疾病保險、醫療保險、收入保障保險等。美國的健康保險是按兩種方式組織的:一是由雇主同保險公司簽定合同,根據一定的條件為職工及其家屬提供醫療保險;二是個人投保健康保險。
現實中有很多因素可能影響健康保險的投保率,比如說年齡、受教育情況、婚姻狀況、地域等,而就業情況對投保率的影響也是至關重要的,如個體戶可能比雇員的投保意愿更低。
二、數據分析
為了研究上文所提到的問題,我們使用了哈維·羅森教授提供的數據。這些數據包含著在美國境內隨機選取的8000多位工作者的信息,其中,有7731位雇傭勞動者和1071位個體戶。首先,我們進行簡單的數據匯總分析,經運算發現,約81.67%的雇員都購買了健康保險。但是,個體戶中大約只有68.9%的人擁有健康保險。這似乎很符合實際,雇主會為雇員購買健康保險,而個體戶只能自己購買保險,他們通常不是很在乎這些。另外,通過比較個體戶和雇員,我們還發現,個體戶的平均年齡約44,大于雇員的平均年齡38。個體戶中男性占63%,而雇員中男性僅占51%。這些數據還涉及了很多其他因素,比如受教育情況,家族規模,婚姻狀況等,這些在我們接下來的研究中都會考慮到。
現在,我們考慮年齡對投保率的影響并以40歲為分界線。我們發現,40歲以下的工作者健康狀況均值約為0.943,投保率約為0.754,而40歲及以上的工作者健康狀況均值約為0.912,投保率約為0.853。因此,我們可以得出這樣的結論,年輕人比更年長的人的健康狀況好一些,投保率也相對較低。再來看婚姻狀況對投保率的影響。已經結婚的人買健康保險的概率是0.858,明顯大于未婚人的0.710。對此,我覺得原因可能有以下兩點。一方面,結婚的人年齡通常要比未婚的人年齡大,這就可以用我們前面得出的結論來解釋,年齡更大的人通常更愿意買健康保險。另一方面,考慮到家庭規模在結婚后會變大,結婚后他們通常會有孩子,于是他們承擔了更多的責任,因為他們不僅要贍養父母還要培育孩子。于是他們更有理由關心自己的健康和安全,因為這不僅僅關系到他們自己的利益,所以他們的投保率更高。
通過以上分析我們可以看出,個體戶,年齡小的人和未婚人士購買健康保險的概率更低。這些看起來似乎很符合邏輯,但是就業情況、年齡等因素對健康保險投保率的影響可能并不像人們想的那么顯著,又或許這些影響存在偏差,所以我們只有通過實證分析才能檢驗這些因素的真實影響。
三、回歸模型的建立
首先,我們比較三個模型,線性概率模型、probit模型和logit模型,以尋找能最準確地描述數據的模型。我們把代表是否投保的二元變量insured作為因變量,把代表個體戶的二元變量selfemp以及性別變量、年齡變量、健康狀況變量、婚姻狀況變量、家庭規模變量、受教育情況變量、人種變量、地域變量作為自變量來研究。我們都知道,線性概率模型有致命的缺陷,如給定X的變化值,它所引起的預測概率的變化都是相同的,這種變化并不取決于X值本身。并且預測概率的值可能小于0或大于1,這顯然是不可行的。所以我們直接拋棄線性概率模型,只研究其他兩類模型。通過和logit模型進行比較,我們發現probit模型具有更大的pseudo-R2值。而且probit模型自變量系數的顯著性沒有大的變化,顯然,我們應該用probit模型進行進一步分析。通過加入受教育情況變量、地域變量和人種變量,我們發現模型的pseudo-R2更大了,而且這三種變量的Chi-squared統計量都非常大,所以我們應該保留這些變量。而anylim變量的系數值較小并且在5%水平上不顯著,所以我們舍棄這一變量。值得說明的是,為了避免多重共線性,我們舍掉了deg_oth, reg_we , race_ot三個變量。因此,我們以后的研究基于這樣一種probit模型:因變量為代表是否投保的二元變量insured,自變量為個體戶變量,性別變量、年齡變量、健康狀況變量、婚姻狀況變量、家庭規模變量、受教育情況變量、人種變量和地域變量。該模型可用回歸方程表述成:
(Insured=1|selfemp, healthy, age…) = Φ(0.121-0.680*selfemp+0.154*healthy+ 0.0154*age -0.149*male+ 0.536*married+…)
本文最后的表格展示了我們進行一系列改進模型措施的結果。第一列就是我們前面提到的基礎回歸模型。首先,考慮到函數形式誤設,我們試圖加入平方項和交叉項來消除這種偏差。從第二列可以看出,加入年齡變量的平方項后,雖然該項系數并不是很顯著,但是pseudo-R2提高了,而且其他變量系數的顯著性也沒有變化,所以我們暫時保留年齡變量的平方項。從第三到第五列我們加入了一系列的交叉項,但是我們最終只保留了較為顯著的,并且沒有引起其他變量系數發生巨大變化的am(age*married)項。我們的最終回歸模型如第六P列所示。該回歸方程可表示為: