曾梅



摘? 要:在實(shí)際生活中搜集數(shù)據(jù)時(shí),數(shù)據(jù)缺失的情況是很常見(jiàn)的。在通常的情況下,當(dāng)輔助變量和缺失變量之間有著較強(qiáng)的線性關(guān)系時(shí),如果我們利用回歸插補(bǔ)方法對(duì)缺失數(shù)據(jù)進(jìn)行插補(bǔ)是合理的。在很多研究中,對(duì)于回歸插補(bǔ)法一般是使用最小二乘法,在本文中將根據(jù)研究者提出來(lái)的一種新線性回歸估計(jì)方法,運(yùn)用到回歸插補(bǔ)中,并和普通最小二乘回歸插補(bǔ)及均值插補(bǔ)進(jìn)行比較,運(yùn)用R語(yǔ)言進(jìn)行數(shù)據(jù)缺失的模擬分析,最后得出前者所得效果更好,豐富了缺失數(shù)據(jù)插補(bǔ)方法,并且為實(shí)際運(yùn)用中選取處理缺失數(shù)據(jù)的插補(bǔ)方法時(shí),提供了較多的選擇范圍。
關(guān)鍵詞:缺失數(shù)據(jù)? 回歸插補(bǔ)? 均值插補(bǔ)? R語(yǔ)言
中圖分類(lèi)號(hào):O212.1? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? 文章編號(hào):1674-098X(2020)10(c)-0094-07
Abstract: When collecting data in real life, there are often missing data. Under normal circumstances, when there is a strong linear relationship between the auxiliary variable and the missing variable, we use the regression imputation method to impute the missing data is very effective. In many studies, the least squares method is generally used for regression interpolation. This article will apply a new linear regression estimation method proposed by the researcher to the interpolation method of missing data, and use ordinary least squares regression Imputation and mean imputation are compared, and the R language is used to simulate and analyze the missing data. Finally, it is concluded that the former has better results, which provides more options for selecting missing data imputation methods in actual applications.
Key Words: Missing data; Regression imputation; Mean imputation; R language
在現(xiàn)在這個(gè)信息時(shí)代,對(duì)數(shù)據(jù)的處理變得越來(lái)越為重要。對(duì)于許多數(shù)據(jù)都會(huì)存在缺失的情況,例如在UCI數(shù)據(jù)集中,含有大量的缺失數(shù)據(jù),缺失比例超過(guò)了40%;在我們運(yùn)用統(tǒng)計(jì)年鑒上的數(shù)據(jù)時(shí),也會(huì)發(fā)現(xiàn)對(duì)于一些指標(biāo)的數(shù)據(jù),在有些年份有,而有些年份卻沒(méi)有;在醫(yī)療數(shù)據(jù)的搜集中也會(huì)發(fā)現(xiàn)由于病人的離世或者提前放棄了治療從而導(dǎo)致數(shù)據(jù)存在缺失的情況。直接刪除法是處理缺失數(shù)據(jù)最簡(jiǎn)單的方法,但是采取這種方法會(huì)導(dǎo)致大量的信息丟失,造成分析結(jié)果的不準(zhǔn)確,不能充分滿足數(shù)據(jù)分析的要求,而統(tǒng)計(jì)學(xué)方法對(duì)數(shù)據(jù)的完整性具有很高的要求,因此對(duì)缺失數(shù)據(jù)的插補(bǔ)在數(shù)據(jù)的初步清洗中扮演著重要的角色。Little和Rubin從缺失機(jī)制將缺失數(shù)據(jù)劃分為完全隨機(jī)缺失(MCAR),隨機(jī)缺失(MAR)和非隨機(jī)缺失(MNAR)[12]。為了方便,本文選取完全隨機(jī)缺失機(jī)制進(jìn)行研究。
在實(shí)際生活中,我們會(huì)發(fā)現(xiàn),有很多數(shù)據(jù)之間都具有一定的聯(lián)系,但是經(jīng)常會(huì)出現(xiàn)數(shù)據(jù)丟失的情況,因此回歸插補(bǔ)法具有重大的研究意義。最小二乘回歸是人們較為熟悉的方法,由于其簡(jiǎn)單方便,因此在使用回歸插補(bǔ)時(shí),常用最小二乘來(lái)進(jìn)行估計(jì)。為了尋找其他有效的方法,本文將基于一種新的回歸方法進(jìn)行插補(bǔ),并和最小二乘進(jìn)行比較,期望得到更加有效的回歸插補(bǔ)方法。
本文的基本脈絡(luò)如下:第1部分介紹回歸插補(bǔ)和均值插補(bǔ)的基本原理;第2部分介紹最小二乘回歸法以及學(xué)者提出來(lái)的新的線性回歸模型;第3部分運(yùn)用實(shí)際數(shù)據(jù)進(jìn)行實(shí)證研究,驗(yàn)證新方法的有效性;第4部分對(duì)文章進(jìn)行總結(jié)分析。
1? 回歸插補(bǔ)和均值插補(bǔ)介紹
1.1 回歸插補(bǔ)
對(duì)于實(shí)際中的很多數(shù)據(jù),都存在一定的線性關(guān)系。顧名思義,回歸插補(bǔ)的主要思想就是根據(jù)各變量之間的關(guān)系建立回歸模型,然后把缺失變量看成因變量,運(yùn)用建立的模型得到預(yù)測(cè)值,并把其作為缺失值的填補(bǔ)值。
回歸插補(bǔ)的步驟如下:
第一步:對(duì)于給定數(shù)據(jù)集,檢測(cè)出變量之間如果具有很強(qiáng)的相關(guān)性,則可以運(yùn)用回歸插補(bǔ)。
第二步:利用完整數(shù)據(jù)集建立回歸模型,把缺失變量看成因變量,把與缺失變量對(duì)應(yīng)的輔助變量代入得到的回歸模型中,得到的值作為對(duì)應(yīng)缺失值的代替值。
回歸插補(bǔ)法是一種單一插補(bǔ)方法,主要針對(duì)數(shù)據(jù)集中存在一個(gè)變量缺失的情況,也即是單變量缺失的模式。利用回歸插補(bǔ)法時(shí),由于其操作簡(jiǎn)單,在建立回歸模型時(shí)通常使用最小二乘。
1.2 均值插補(bǔ)
均值插補(bǔ)是運(yùn)用現(xiàn)有數(shù)據(jù)的均值來(lái)代替缺失值的一種方法。均值插補(bǔ)主要包括單一均值插補(bǔ)和分層均值插補(bǔ),均值插補(bǔ)已近常被廣泛的使用。本文主要使用的是單一均值插補(bǔ),因此僅簡(jiǎn)單介紹單一均值插補(bǔ)方法。
單一均值插補(bǔ)是利用已觀測(cè)到的變量并計(jì)算其均值作為該缺失變量的填補(bǔ)值。其插補(bǔ)值可以表示為:
其中示性函數(shù),為變量中已經(jīng)觀測(cè)到的個(gè)數(shù)。
因此,可以得到總體的均值估計(jì)為:
進(jìn)一步計(jì)算插補(bǔ)后的樣本方差,可以得到:
2? 線性回歸方法的介紹
2.1 最小二乘回歸(OLS)
2.1.1 一元線性回歸
最小二乘回歸是非常有效的方法,由于它的簡(jiǎn)單性,在經(jīng)濟(jì)、醫(yī)療等領(lǐng)域都具有廣泛的應(yīng)用。最小二乘法的主要思想是使得預(yù)測(cè)值和實(shí)際值差的平方和最小,然后對(duì)相應(yīng)的參數(shù)進(jìn)行估計(jì)。一元線性回歸的數(shù)學(xué)模型如下:
通過(guò)最小二乘可以得到和的參數(shù)估計(jì)如下:
在上式中,表示截距,表示斜率,表示自變量,表示因變量,和表示均值。
2.1.2 多元線性回歸
在現(xiàn)實(shí)生活中,影響因變量的因素通常有很多,因此出現(xiàn)了多元線性回歸,它也是對(duì)一元線性回歸的推廣。模型如下(3)式:
2.2 線性回歸新模型
最小二乘法發(fā)展成熟,且計(jì)算簡(jiǎn)單被運(yùn)用廣泛運(yùn)用在各個(gè)領(lǐng)域。但是其在預(yù)測(cè)方面并不是最準(zhǔn)確的,而且對(duì)異常值也較為敏感,因此趙茂先和余陽(yáng)提出了在某些情況下預(yù)測(cè)精度和絕對(duì)誤差的效果比最小二乘好的估計(jì)方法[1]。
為了方便,把第一種方法作為記為ML1,其主要的思想是把已知數(shù)據(jù)的均值和所有數(shù)據(jù)的斜率求平均作為線性回歸模型的斜率,同時(shí)再根據(jù)均值和斜率求出截距,公式如下:
同樣的道理,把第二種方法作為記為ML2,由于自變量和因變量都滿足方程
在上式中,和未知,和已知,因此和可以得到:
根據(jù)(6)式可以解得和的估計(jì)值
這是ML2方法的一元形式,推廣到多元的形式可以得到多元線性函數(shù)的參數(shù)估計(jì)如下所示:
其中
3? 模擬分析
我們將利用實(shí)際的數(shù)據(jù),運(yùn)用最小二乘回歸的插補(bǔ)方法、均值插補(bǔ)法以及ML1插補(bǔ)、ML2插補(bǔ)對(duì)具有不同缺失率的數(shù)據(jù)進(jìn)行填補(bǔ),通過(guò)對(duì)不同評(píng)價(jià)指標(biāo)比較,得出ML1插補(bǔ)和ML2插補(bǔ)的有效性。
3.1 評(píng)價(jià)指標(biāo)
3.1.1 從插補(bǔ)值的角度
(1)平均絕對(duì)誤差。
其中表示變量中缺失值的個(gè)數(shù),表示缺失的插補(bǔ)值,表示實(shí)際值。
(2)均方誤差。
從插補(bǔ)值的角度出發(fā),本文用MAE、MSE來(lái)判定插補(bǔ)效果的好壞。平均絕對(duì)誤差表示的是填補(bǔ)值和真實(shí)值之間差值的平均,MAE越小,說(shuō)明填補(bǔ)值和真實(shí)值之間的誤差越小,說(shuō)明填補(bǔ)效果越好,反之,說(shuō)明效果越差。對(duì)于均方誤差MSE也是同樣的道理。
3.1.2 從模型的角度
(1)調(diào)整后的決定系數(shù)。
其中SSE表示殘差平方和,SST表示總的離差平方和。
(2)回歸系數(shù)相對(duì)誤差。
其中表示原始數(shù)據(jù)得到的回歸系數(shù),表示進(jìn)行行插補(bǔ)之后再進(jìn)行回歸得到的與之對(duì)應(yīng)系數(shù),對(duì)應(yīng)的回歸系數(shù)相對(duì)誤差越小越好。
3.2 數(shù)據(jù)說(shuō)明
本文采用的數(shù)據(jù)集1是全國(guó)各地區(qū)2018年的人均消費(fèi)支出和人均可支配收入的數(shù)據(jù),把前者看成因變量,后者作為自變量。數(shù)據(jù)來(lái)源于中國(guó)統(tǒng)計(jì)年鑒。數(shù)據(jù)集2是R語(yǔ)言里自帶的iris數(shù)據(jù)集,把Petal.Length看成因變量,Petal.Width作為自變量,對(duì)于這兩個(gè)數(shù)據(jù)集采用一元線性回歸的模型進(jìn)行填補(bǔ)。對(duì)于多元線性回歸的模型,使用的是影響我國(guó)財(cái)政收入的數(shù)據(jù),均來(lái)源于《中國(guó)統(tǒng)計(jì)年鑒》。其中財(cái)政收入為因變量,稅收,年末從業(yè)人員數(shù)為自變量。分別設(shè)置因變量的缺失情況為為完全隨機(jī)缺失,且缺失率為5%、10%、20%、30%。
為了探究各地區(qū)人均消費(fèi)支出和人均可支配收入的數(shù)據(jù)關(guān)系,做出散點(diǎn)圖如圖1所示。
從圖中我們可以看到數(shù)據(jù)集1中的人均消費(fèi)支出和人均可支配收入呈線性關(guān)系,同時(shí)計(jì)算兩者的相關(guān)系數(shù)為0.9881。數(shù)據(jù)集二中兩個(gè)變量之間也具有很強(qiáng)的線性關(guān)系,且通過(guò)計(jì)算得到相關(guān)系數(shù)為0.9639。因此對(duì)于兩個(gè)數(shù)據(jù)集來(lái)說(shuō),如果數(shù)據(jù)有缺失的情況,運(yùn)用回歸插補(bǔ)處理是可行的。
3.3 結(jié)果分析
3.3.1 數(shù)據(jù)集一的結(jié)果分析
對(duì)于數(shù)據(jù)集1,采用完全隨機(jī)缺失的模式進(jìn)行模擬研究。設(shè)置因變量的缺失率依次為5%,10%,20%,30%,運(yùn)用均值插補(bǔ)、最小二乘回歸插補(bǔ),ML1插補(bǔ),ML2插補(bǔ)四種方法得到的MAE、MSE結(jié)果如表1。
從平均相對(duì)誤差來(lái)看,比較四種方法可以發(fā)現(xiàn),對(duì)于數(shù)據(jù)不同的缺失率情況下,ML1的MAE值最小,其次是最小二乘和ML2,最大的是均值插補(bǔ)的方法。從均方誤差來(lái)看,不同的缺失率下,ML1的MSE值最小,其次是最小二乘和ML2,最大的是均值插補(bǔ)的方法。所以評(píng)價(jià)指標(biāo)無(wú)論是MAE還是MSE,ML1的插補(bǔ)效果最好,其次是最小二乘和ML2,均值插補(bǔ)的效果最差。為了更加直觀的看出各種方法的插補(bǔ)效果,做出不同方法的MAE和MSE的對(duì)比圖,如圖2所示。
從模型角度比較來(lái)看,分析不同方法不同缺失率下線性回歸得到的調(diào)整。
原始數(shù)據(jù)的為0.9756,從調(diào)整的來(lái)看,在不同的缺失率之間,運(yùn)用最小二乘、ML1、ML2所得到的相差不大,但是均值插補(bǔ)后進(jìn)行回歸得到的和原始數(shù)據(jù)的相差較大。運(yùn)用各種插補(bǔ)方法之后得到完整的數(shù)據(jù)集,再對(duì)數(shù)據(jù)進(jìn)行線性回歸,得到回歸系數(shù)和原始數(shù)據(jù)的回歸系數(shù)的相對(duì)誤差情況如表3。
從表3可知,當(dāng)缺失率為5%時(shí),和的MAE最小的是ML1方法,其次是最小二乘和ML2的方法,最大的是均值插補(bǔ)的方法。當(dāng)缺失率為10%,20%,30%時(shí),得到結(jié)果和缺失率為5%時(shí)一致。
從平均相對(duì)誤差來(lái)看,比較四種方法可以發(fā)現(xiàn),對(duì)于數(shù)據(jù)不同的缺失率情況下,ML2的MAE值最小,其次是最小二乘和ML1,最大的是均值插補(bǔ)的方法。從均方誤差來(lái)看,不同的缺失率下,ML2的MSE值最小,其次是最小二乘和ML1,最大的是均值插補(bǔ)的方法。所以評(píng)價(jià)指標(biāo)無(wú)論是MAE還是MSE,ML2的效果最好,其次是最小二乘和ML1,均值插補(bǔ)的效果最差。為了更加直觀的看出各種方法的插補(bǔ)效果,做出不同方法的平均相對(duì)誤差對(duì)比圖和均方誤差對(duì)比圖,如圖3所示。
如表4、表5,從模型角度比較來(lái)看,分析不同方法不同缺失率下線性回歸得到的調(diào)整對(duì)于iris數(shù)據(jù)來(lái)說(shuō),原始數(shù)據(jù)的為0.9266,在缺失率不同時(shí)使用不同的方法ML2的結(jié)果和最小二乘的結(jié)果相差不大,均值插補(bǔ)得到的和原始數(shù)據(jù)相差較大。運(yùn)用各種插補(bǔ)方法之后得到完整的數(shù)據(jù)集,再對(duì)數(shù)據(jù)進(jìn)行線性回歸,得到回歸系數(shù)和原始數(shù)據(jù)的回歸系數(shù)的相對(duì)誤差情況如表6。
從表6可得,當(dāng)缺失率為5%時(shí),比較和的相對(duì)誤差最小的是ML2方法,其次是最小二乘和ML1的方法,相對(duì)誤差最大的是均值插補(bǔ)的方法。當(dāng)缺失率為10%,20%,30%時(shí),得到和缺失率為5%時(shí)同樣的結(jié)果。
3.3.2 數(shù)據(jù)集3的結(jié)果分析
對(duì)于多元線性回歸,使用的數(shù)據(jù)集是影響我國(guó)財(cái)政收入的數(shù)據(jù),均來(lái)源于《中國(guó)統(tǒng)計(jì)年鑒》。其中財(cái)政收入為因變量,稅收,年末從業(yè)人員數(shù)為自變量。同樣設(shè)置因變量的缺失機(jī)制為完全隨機(jī)缺失,缺失率分別為5%,10%,20%,30%。運(yùn)用最小二乘和ML2兩種方法進(jìn)行多元線性回歸插補(bǔ)得到MAE、MSE結(jié)果如表7。
從表中我們可以看出,當(dāng)缺失率為5%時(shí),ML2的方法得到的平均相對(duì)誤差,均方誤差都比最小二乘的方法要小,說(shuō)明相比于最小二乘,此時(shí)運(yùn)用ML2的方法效果較好。當(dāng)因變量的缺失率為10%,20%時(shí),ML2方法所得到的MAE大于使用最小二乘的MAE,但是ML2 方法所得到的MSE遠(yuǎn)遠(yuǎn)小于使用最小二乘所得到的MSE。
4? 結(jié)語(yǔ)
缺失數(shù)據(jù)的情況是非常常見(jiàn)的,這在進(jìn)行數(shù)據(jù)分析時(shí)給我們帶來(lái)很大的困難,如果只是單純的刪掉那些具有缺失數(shù)據(jù)的變量,這會(huì)使得我們丟掉很多現(xiàn)有的信息,使得分析的結(jié)果不準(zhǔn)確。同時(shí)由于一些統(tǒng)計(jì)分析方法通常對(duì)數(shù)據(jù)的完整性要求較高,因此對(duì)缺失數(shù)據(jù)進(jìn)行插補(bǔ)之后再進(jìn)行相關(guān)的統(tǒng)計(jì)分析是非常有必要的。
文中針對(duì)具有較強(qiáng)相關(guān)性的數(shù)據(jù),設(shè)置的缺失模式為完全隨機(jī)缺失,對(duì)數(shù)據(jù)進(jìn)行模擬驗(yàn)證分析,采用最小二乘回歸插補(bǔ),ML1回歸插補(bǔ)、ML2回歸插補(bǔ)、均值回歸插補(bǔ)四種方法進(jìn)行分析,從插補(bǔ)值的角度和模型的角度進(jìn)行對(duì)比,最終發(fā)現(xiàn),運(yùn)用均值插補(bǔ)的效果最差,而且均值插補(bǔ)會(huì)隨著數(shù)據(jù)缺失率的增加,而削弱插補(bǔ)的效果。而ML1回歸插補(bǔ)、ML2回歸插補(bǔ)在某些情況下優(yōu)于最小二乘回歸插補(bǔ),因此可以運(yùn)用到處理關(guān)聯(lián)性數(shù)據(jù)進(jìn)行插補(bǔ),為實(shí)際運(yùn)用中插補(bǔ)方法提供了更多的選擇。
參考文獻(xiàn)
[1] 趙茂先,余陽(yáng).一種線性回歸新模型[J].統(tǒng)計(jì)與決策,2019,35(18):21-25.
[2] 廖祥超.九種常用缺失值插補(bǔ)方法的比較[D].昆明:云南師范大學(xué),2017.
[3] 董世杰.三種線性回歸多重插補(bǔ)法的模擬比較[D].天津:天津財(cái)經(jīng)大學(xué),2017.
[4] 程豪.大數(shù)據(jù)背景下缺失數(shù)據(jù)問(wèn)題及對(duì)策[J].中國(guó)統(tǒng)計(jì),2019(10):72-74.
[5] 魏娜,孫霞.統(tǒng)計(jì)缺失數(shù)據(jù)處理方法的比較研究[J].知識(shí)經(jīng)濟(jì),2017(18):29-30.
[6] 鄧建新,單路寶,賀德強(qiáng),等.缺失數(shù)據(jù)的處理方法及其發(fā)展趨勢(shì)[J].統(tǒng)計(jì)與決策,2019,35(23):28-34.
[7] 馮麗紅.調(diào)查數(shù)據(jù)缺失值常用插補(bǔ)方法比較的實(shí)證分析[D].石家莊:河北經(jīng)貿(mào)大學(xué),2014.
[8] 張海霞.城鎮(zhèn)居民醫(yī)療費(fèi)用影響因素的調(diào)查中對(duì)不同機(jī)制下應(yīng)答偏倚并存時(shí)的校正[D].太原:山西醫(yī)科大學(xué),2015.
[9] 邱貽濤,吳劉倉(cāng),馬婷.缺失數(shù)據(jù)下聯(lián)合均值與方差模型的參數(shù)估計(jì)[J].數(shù)理統(tǒng)計(jì)與管理,2015,34(4):621-627.
[10] 呂丹.一類(lèi)數(shù)據(jù)挖掘算法及其在宮頸癌智能診斷中的應(yīng)用[D].長(zhǎng)春:長(zhǎng)春工業(yè)大學(xué),2019.
[12] 張曉琴,程譽(yù)瑩.基于隨機(jī)森林模型的成分?jǐn)?shù)據(jù)缺失值填補(bǔ)法[J].應(yīng)用概率統(tǒng)計(jì),2017,33(1):102-110.
[13] 桂風(fēng)云,魏傳華.地理加權(quán)似乎不相關(guān)回歸模型及其估計(jì)[J].統(tǒng)計(jì)與決策,2016(8):4-6.
[14] 吳劉倉(cāng),張家茂,邱貽濤.缺失偏態(tài)數(shù)據(jù)下線性回歸模型的統(tǒng)計(jì)推斷[J].統(tǒng)計(jì)與信息論壇,2013,28(9):22-26.
[15] 安佰玲,王森,胡洪勝.線性回歸模型在因變量缺失下的約束估計(jì)[J].統(tǒng)計(jì)與決策,2013(11):19-21.
[16] 楊徐佳,于倩倩,王森.因變量缺失下線性回歸模型的估計(jì)與檢驗(yàn)[J].淮北師范大學(xué)學(xué)報(bào):自然科學(xué)版,2011,32(1):24-28.
[17]劉寶慧.缺失數(shù)據(jù)情形下的回歸插補(bǔ)及其方差分析[J].甘肅聯(lián)合大學(xué)學(xué)報(bào):自然科學(xué)版,2009,23(1):19-21.
[18]袁中萸. 多元線性回歸模型中缺失數(shù)據(jù)填補(bǔ)方法的效果比較[D].長(zhǎng)沙:中南大學(xué),2008.
科技創(chuàng)新導(dǎo)報(bào)2020年30期