摘 要 一定年齡尾數的數據觀測值相對于真值的偏離稱為人口統計數據的系統誤差。本文分析了以往的人口統計檢驗方法,指出其不足,提出一種新的檢驗方法,用以檢驗廣義的人口函數年齡變動存在的系統誤差,可以判斷出用以往檢驗方法判斷不出的存在散失和年齡積聚等的人口數據,表明該法優于以往的檢驗方法。
關鍵詞 人口統計 系統誤差 數據檢驗
中圖分類號:C811文獻標識碼:A
數據是人口統計至關重要的因素,所以,其質量極其重要。只有在對數據質量和誤差有確切認識的情況下,才能從數據中得出正確的結論。人口數據大多由統計而得,難免存在誤差,一般可分為隨機誤差,過失誤差及系統誤差。本文主要討論系統誤差。
一、人口年齡統計數據的系統誤差
人口統計學中一般使用人口年齡統計數據的質量評估法,本文稱為指數方法,通常使用邁耶爾指數 (Myers Index)、惠普爾指數 (Whipples Index)和聯合國綜合指數。指數法先組建一個年齡均勻變化的人口,以其為標準,對研究對象人口與標準人口年齡結構進行比較,以兩者離差為尺度,判斷對象人口年齡數據準確度,對質量不高的數據指出哪些年齡尾數的人口有“集聚”或者“散失”。惠普爾指數和邁耶爾指數法只適用于檢驗人口年齡結構,不適用于廣義的人口年齡數據。聯合國綜合指數從整體上判斷人口在性別年齡方面的變化平穩程度,但不能檢驗某個尾數年齡的堆積問題,所以在這里不討論。
二、人口函數的年齡變動符號分布檢驗方法
本文提出判斷人口系統誤差的一種新方法,該法適用于廣義的人口函數年齡變動存在的系統誤差,稱之為符號分布檢驗法。這里的廣義人口包括死亡、婚姻、生育、遷移等等。把以年齡作為自變量的生育、死亡、人口等函數都稱作人口函數。
(一)人口函數的年齡變動符號。
設定年齡作為自變量x,人口是年齡的函數,用Y(x)(x=0,1,2,…)表示, Yx=Y(x+1)-Y(x)是Y(x)在x的一階差分。再設定DYx=Y(x)-(Y(x-1)+Y(x+1))/2表示x年齡的人與其兩邊年齡的人口的平均值的差。 Yx>0時,表示Y(x)的值在x呈增加趨勢,曲線上升;當 x<0時,表示Y(x)值在x呈降低趨勢,曲線下降。當DYx>0時,表示Y(x)在x時的值大于兩邊年齡平均值,函數曲線是凸的,當DYx<0時,表示Y(x)值小于兩邊平均值,曲線是凹的,所以 Yx與DYx可以表明函數Y(x)在年齡的變化趨勢方向和形狀。
(二)年齡尾數指向存在的檢驗。
以上我們討論的是純理論情況,而在全年齡內,實際人口的函數一般不會總維持同一方向和同一形狀,會出現波動,這種情況的出現不一定都是數據誤差所造成的,也可能是實際人口改變造成。但無論哪種情況,對“異常”的年齡總是值得特別關注的。
基于以下推理,符號的分布檢驗才能得以實現:如果因為實際人口改變導致的“異常”符號,只要人口改變非周期現象,該“異常”符號出現達到某一特定數量,異常年齡可認為是隨機的或者說在各年齡尾數出現的可能性是相同的。同樣,出現在某些特定的年齡尾數的可能性大于其他年齡尾數,則認為是觀測值誤差造成的,因為人們對與這些年齡尾數的“排斥”或者“喜好”導致了其真值與觀測值的偏離。所以,要判斷數據中是否有人口年齡尾數指向,只需檢驗各年齡尾數上出現“異常”符號的概率是否相等。
年齡x的尾數用 [x]表示,設[x]在所有年齡上沒有重復觀察的次數為N[x],異常出現次數分別為K[x]([x]=0,1,2,3,…9),所有觀察次數N=∑N[x],異常出現次數K=∑K[x], 出現異常的平均頻率K/N,因為假設所有年齡尾數 [x] 異常出現的概率相同,各年齡尾數出現的理論頻數是N[x]€譑/N。
統計學中,經常用卡方檢驗來檢驗總體分布的樣本頻數是否服從于某些理論分布或者某些假設分布,本文也用卡方檢驗來檢驗一種假設:在各年齡尾數上異常符號分布相等。因為年齡尾數共10個,每個作為1組,共10組,因為理論分布頻率是估計的數值,因此卡方分布的自由度是10-1-1=8,判斷檢驗年齡尾數實際與假設分布是否相同,可用計算卡方值來獲得:
若每個年齡觀察次數相同,則N[x]/N = 1/10,設定顯著性水平 后,設定 2(8)臨界點值Y ,按公式計算實際值, 2>Y 時,否定上述假定,反之則肯定上述假定。若肯定假設,則認為異常是隨機出現的,對象人口數據沒有特定的年齡尾數指向;若假定不成立,認為是由于報告特定的年齡尾數指向所造成的。
三、小結
本文的方法需要一定的基礎:假定表明人口年齡曲線改變形狀和方向的特征符號在各個年齡中是隨機分布的,若假定成立,數據沒有特定年齡尾數指向,反之,認為有尾數指向。筆者曾作過驗證,凡是用以往指數法可以判斷出的有散失和年齡積聚的人口數據,用本文方法同樣能判斷;而用以往指數法不能判斷出的,用本文方法卻可以判斷,表明該法比以往的更有效。由于本文的方法需要概率判斷的基礎,用于實際的數據檢驗時,存在誤判的風險,為避免誤判,還需考慮人口的數據性質或者結合其他數據一起考慮。
(作者單位:徐州市沛縣沛城鎮計劃生育服務站)
參考文獻:
[1]黃榮清等.人口分析技術.北京經濟學院出版社,1989.17-28.
[2]喬曉春.試論年齡結構檢驗指數在中國使用的局限性.人口數據分析方法及其應用.中國外文出版社,1992.13-27.
[3]翟振武等.常用人口統計公式手冊.中國人口出版社,1993.28-32.
[4]黃榮清.中國百萬人口以上的民族年齡申報的準確性.中國人口科學,1993, (5):7-17.
[5]黃榮清.中國人口死亡報告的年齡堆積與檢驗.人口與經濟,2003,(6).
[6]黃榮清,肖周燕.人口年齡結構數據異常的檢驗.人口與經濟,2009,(2).