鐘欣
摘 要:在心理學研究中,數據的質量直接影響著研究的成敗。但沒有完美的數據,對于那些因為某些原因遺失的數據,即缺失值。綜合前人研究,提出了導致缺失值產生的三個因素,以及提出處理缺失值的六種方法。
關鍵詞:心理學問卷 缺失值 處理
中圖分類號:B841 文獻標識碼:A 文章編號:1674-098X(2014)08(a)-0201-02
心理學至成立以來一直致力于改善人們的生活,提高人們的生活質量,為社會的發展與進步貢獻自己的綿薄之力。由于心理學是一門講求實證的學科,要達到這樣的目的,一定的研究則必不可少,這就不可避免的會遇到數據分析的問題。一個研究的成敗取決于這個研究所收集數據的質量,質量較好的數據,即較少出現遺失、奇異、極端等情況,就能夠反應研究的真實情況從而得到較好的研究結果。心理學是一門對人的行為進行研究的學科,然而對某些行為的研究可能會引起人們的抵觸,這種抵觸心理就會反映在數據的收集上,導致數據會出現一些問題,例如出現數據遺失,而怎樣應對這種問題即是該文關注的焦點。
1 缺失值的概念及產生因素
缺失值指的是某項研究的某個項目或多個項目上的數據出現遺失的情況。在心理學研究中,出現缺失值是十分常見的現象,有些研究人員并沒有對這個問題予以重視,往往將其忽略并簡單處理了事,然而這個不受重視的問題有時會對研究結果產生致命的影響。在某些心理學研究中,由于研究經費或是社會倫理性等原因,可能研究收集的數據較少,這就導致每個數據對研究人員來說都彌足珍貴,并且由于樣本量較小,一個數據的變化可能就會影響整個研究的結果。在這種情況下如果出現了缺失值,不當的處理方式將會帶來嚴重的結果,千里大堤潰于蟻穴。
缺失值對心理學研究可能會產生如此之大的危害,那么缺失值又是如何產生的呢?
1.1 被試因素
一個心理學的研究,被試自身的態度對研究結果有著至關重要的影響。例如,在某些心理學研究中由于涉及一些比較敏感的信息,被試在完成這樣的研究時可能基于對自我的保護,并不會認真的完成調查或干脆不予配合,這就導致了缺失值的出現。其次,由于社會贊許等現象的存在,被試也會不按真實的情況如實完成研究,有時在問卷調查中因沒有符合自己要求的答案而棄選,從而造成缺失值的出現。最后,也有可能是被試在作答時確實是因為對題目的遺漏而導致沒有作答。
1.2 研究本身因素
由于心理學屬于社會學科,在其進行的研究中,并不是每個研究的設計都完美無缺,特別是有些不是很嚴謹的問卷調查研究,問卷本身設計的不恰當,就已經對研究的結果的可信性埋下了隱患。例如:問卷題目設計的不嚴謹,使被試在進行作答時感覺到疑惑,從而沒有作答。其次,問卷內容過多,題目過長,這都會使被試產生疲倦感,促使他們應付了事或者直接跳躍式作答。最后,對于實驗研究來說,實驗儀器的故障也是導致缺失值的因素之一。
1.3 主試因素
在心理學研究中,主試起到的是一個引導的作用,雖然不是被研究者,但是其本身所具有的屬性,也會對研究結果產生影響。一個嚴格的心理學研究必須要包括對主試的培訓過程,即讓主試熟悉研究目的,研究注意事項等等,然而有些研究因為經費、時間等原因并沒有重視這一步驟,從而導致主試缺乏一些基本的問題應對技巧,不能夠在研究過程中發現問題,或是在被試出現問題時沒有及時糾正。其次,在數據錄入時,由于主試的粗心,導致在錄入時出現錯錄、漏錄等現象。最后,主試對于數據分析軟件的操作不當也會導致數據的丟失。以上這些因素都可能會產生缺失值從而對研究產生負面影響。
2 常見的缺失值處理方法
倘若在研究中已經無可避免的出現了數據的缺失,則必須采用一些辦法來填補這些缺失值,減小其對研究結果的影響。常見的處理方法有以下幾種。
2.1 個案剔除法(Listwise Deletion)
該方法是最常見也最簡單的缺失值處理方法,在很多統計軟件(例如:SPSS)中該方法作為默認的處理方法。該方法的處理思路是,如果在研究的某一變量上存在數據缺失,則將該被試的所有數據從統計分析中刪除。當缺失值的數量占數據總數量的比例沒有超過20%時,使用這種方法可以很好地解決數據缺失的問題。然而在某些研究中,研究所取得的數據量很小,如果出現缺失值,使用剔除法進行處理,由于該方法的特點,勢必會再次減少樣本的容量,這樣就會嚴重影響數據的客觀性與準確性。同時,當數據是非隨機分布時,使用這種方法會導致數據發生偏離,使最終的數據分析產生錯誤的結論。其次,由于被試某一變量存在缺失值而剔除該被試所有的數據,這會造成資源的大量浪費,很可能丟失了隱藏在其中的重要信息。
2.2 均值替換法(Mean Imputation)
與個案剔除法不同的是,均值替換法不需要刪除被試的數據,這樣就保留了與缺失變量無關的其他變量的信息,最大程度上的保證了數據的真實性與完整性。在心理學研究中,我們將變量的屬性分為數值型與非數值型,對于不同類型的變量缺失值,使用不同的替換方法。當缺失值為數值型,就根據該變量其他所有對象的取值平均值來填充該缺失值;但缺失值屬于非數值型則根據統計學中的眾數原理,用該變量在其他所有對象的取值次數最多的值來填補這個缺失值。均值替換法雖然簡單,但是使用這種方法可能會產生有偏估計,并且使用該方法的前提假設是缺失值的產生是完全隨機的。
2.3 熱卡填充法(Hotdecking)
對于存在缺失值的變量,熱卡填充法首先在數據中找到一個與它最相似的對象,然后用這個對象的值進行填充。不同的問題選擇的標準也會不同。一般最常用的是相關矩陣,即確定缺失值所在的變量A與變量B最相關,然后將所有個案的B的取值從小到大排序,變量A的值就可以用排在此位置的變量B的值代替。
2.4 回歸替換法(Regression Imputation)endprint
回歸替換法利用回歸方程的特點,所限選擇若干個預測缺失值的自變量,然后建立回歸方程來估計該缺失值,利用缺失數據的條件期望值對缺失值進行替換。這種方法利用了數據庫中盡可能多的信息。這種方法也存在其自身的缺陷,首先,由于該方法的理論基礎是回歸方程,那么研究人員在使用該方法前必須要確定缺失值所在的變量與其他變量存在線性關系。其次,基于回歸方程的估計雖然是無偏估計,但卻容易忽略隨機誤差的影響,低估標準差和其他未知性質的測量值,這個問題會隨著缺失值的增多而變得更加嚴重。
2.5 多重替代法(Multiple Imputation)
Rubin等人于1987年建立起該方法,該方法的特點在于不是使用單一的數值來替換缺失值,而是試圖建立一個隨機的樣本來估計缺失值。首先,用一系列可能的值來替換每一個缺失值,以反映被替換的缺失值的不確定性。然后,用標準的統計分析過程對多次替換后產生的若干個數據集進行分析。最后,把來自各個數據集的統計結果進行綜合,得到總體參數的估計值。通過這種方法,研究人員不僅可以對缺失值進行填充,還可以在不刪除任何數據的情況下,對數據的未知性質進行判斷。在缺失較少時(10%~20%),采用多重替代法準確度、精確度高于其他方法,且只需較低的填充次數即可達到較好的效果,填充后的分布接近完整數據集分布,并能很好地反映完整數據集的準確度,其處理結果與“實際情況”較接近。
2.6 期望最大化法(Expectation Maxim ization)
該方法常用于對實驗缺失值的處理。1930年Allan和威沙特Wishart首先提出插補單一不完整數據的觀念,并提出了對單一缺失值的估計方法;Yates于1933年在其基礎上進行改良,利用解聯立方程組的技巧,將之推廣到幾個缺失值的插補; Laird和Rubin(1977)利用極大似然估計發展出“EM”迭代算法計算缺失值的方法。EM迭代法估計缺失值的基本思想是,當數據出現缺失值,首先以其它觀測值計算估計總平均值、處理效應及區組效應,再采用迭代方式,將上述估計的總平均值、處理效應及區組效應代入到原來的缺失值位置,重新計算總平均值、處理效應和區組效應,再將重新計算的這些值代入重新估計,以此類推,直到前后兩次的估計值差異較小時停止。
以上六種缺失值的處理方法各有各的特點,在使用他們進行數據處理時,需要根據不同的情況合理選擇處理方法。不同的處理方法有時會帶來不同的結果,例如使用個案剔除法進行數據處理后,各變量的標準差可能會明顯的增大,而當使用均值替換法時,各變量的標準差可能會明顯的偏小。
缺失值的處理需要考慮缺失數據產生的原因、缺失值所占的比例、研究人員的研究能力、時間條件等因素,具體情況具體分析。與后期通過數據處理的方式來彌補缺失值,研究人員更應該注重的是研究的實施過程,只要把好研究的每一道關,就能夠盡力避免缺失值的產生,磨刀不誤砍柴工,希望廣大的研究人員能夠深刻理解這個道理。
參考文獻
[1] 張朝雄,沈昱,張慧.缺失數據插補方法比較研究[J].市場研究,2007(9):33-35.
[2] 花琳琳,施念,楊永利,等.不同缺失值處理方法對隨機缺失數據處理效果的比較[J].鄭州大學學報(醫學版),2012,47(3):315-318.
[3] 戴穩勝,謝邦昌.實驗設計中缺失值的處理[J].統計與決策,2009(9):6-7.endprint