陳海俠


摘要:一定年齡尾數數據的觀測值與真值相比存在的偏離就稱作人口統計數據系統誤差。此文針對以往人口統計的檢驗方式展開分析研究,并指出其中的缺陷,且提出新型檢驗手段,使用其對廣義人口函數的年齡變動系統誤差進行檢測,能夠判斷傳統檢驗手段無法判斷的存在散失以及年齡積聚之類的數據信息,此種方法與以往檢驗手段相比是有較大優勢的。
關鍵詞:人口統計;數據檢測;系統誤差分析
數據屬于人口統計中非常關鍵的條件因素。因此,保障其質量是非常重要的。必須針對數據質量以及誤差進行明確認識的基礎上,才可以從數據當中獲得最準確結論。人口數據一般都是統計得到的,所以難免會有誤差存在,通常能夠分成系統誤差、過失誤差以及隨機誤差。此文主要對系統誤差進行分析。
一、空間信息與人口信息
人口信息主要指的是和人相關的人口質量、數據和人口結構之類的數據信息。空間信息指的是將地球表層現象借助數學抽象用符號化語言來表達處理。人口數據具備顯著的時空特征,必須將人口信息和地理空間信息有效結合起來,若是行政區域出現改變,才可以精準反映在變化之后該區域人口信息。這樣,同一地區不同時間人口數據具有可比性,最終才可以把人口數據和其余社會經濟要素的統計數據展開綜合性研究。人口統計信息一定要添加空間分布信息才可以稱作和現代經濟以及社會發展水平適應的人口信息。且空間信息能夠在相關邊界區域內提升任意數量屬性數據,比如:人口性別年齡的分布,文化組成,民族組成,職業組成,行業組成,婚姻情況以及流動人口情況之類內容,進而對不同特點的人口分布與變化進行靈活制約,使得政府決策,地區規劃,城市管理以及企業市場分析能夠有據可依。
二、人口數據空間方法介紹
人口統計數據和空間特性相互連接,依照研究問題需求,其連接具有全局以及局部性方案。其中全局方案就是將該趨于視為“均質”性地區,而如此一來人口統計數據就可以表示為此區域平均值。局部方案就是在各個“均質”區域人口內部分布都不斷變化,這便表明,我們必須依照統計數據針對人口實際的分布狀況展開模擬又或是近似表現出來。全部的這些都必須做好人口統計數據空間分析。統計數據的空間化本質在于依據地理空間信息數據結構實現統計數據再組合以及有效化管理,屬于完成多種統計數據和地理空間數據的匹配,從而針對附著到區域上的相關統計數據怎樣變化展開模擬的一個過程。
三、人口數據系統年齡錯誤研究
數據系統誤差特征在于觀測值一直朝著同一方向進行偏差,其誤差大小以及符號進行重復觀測時大體一致。人口年齡數據系統誤差具體表現為特定年齡上(比如:一個偶數,0和5是其尾數)人口函數觀測值超過或者低于其實際值。這種誤差是廣泛存在所有以年齡作為自變量人口函數之中的。
人口統計學通常借助人口年齡統計數據質量評估手段,此文稱作指數方式,一般依靠邁耶爾指數,惠普爾指數以及聯合國的綜合指數。此種指數法是先要建設起年齡有均勻變化的一個人口,將其作為標準,針對研究對象人口以及標準人口的年齡結構展開對比,將兩者的離差視作具體的尺度,對人口年齡數據的精準性進行判斷,針對質量較低數據來指出什么年齡尾數人口存在集聚又或是散失。邁耶爾指數法以及惠普爾指數法僅適合對人口年齡結構進行檢驗,對于廣義人口年齡數據適不適合的。而聯合國綜合指數是通過整體對人口的年齡性別變化的平穩性進行判斷,然而無法對某尾數年齡堆積進行判斷,因此在這里是不進行討論的。為了使得人口年齡數據系統誤差具有直觀印象。具體針對某省份女性年齡結構展開分析。
①女性的人口年齡結構(見圖1)
對圖1進行觀察能夠清楚了解到,0、5、8結尾年齡,其人口要顯著多于其左右的年齡人口。對于出現于人口集聚在一些特定尾數年齡的情況我們就稱作人口堆積。
現時人口年齡結構,屬于歷史人口自然變動還有社會變動共同導致。如果在歷史上人口變動不屬于周期性變化,那么年齡人口數便不會每間隔5個年齡以及10個年齡存在一個高峰期。
②1999~2010的人口存活率(見圖2)
我們再了解根據兩次普查人口進行的存活率誤差計算。
圖2為1999~2010年的兩次人口普查dRx數值,我們為方便觀察的更加明確,所以上圖僅對部分的年齡段進行選取。若是兩次人口普查人口年齡數據保證準確的話,那么存活率就是NRx。并且屬于均勻變化。dRx數值應當是依據一定方向進行穩定變化,就算人口普查與抽樣調查人口年齡數據存在誤差,若是隨機性的,不存在年齡尾數指向,則dRx數值同樣應當隨機波動。然而對上圖記性觀察能夠了解到,dRx數值變化是不穩定的,屬于上下波動的,而且此類波動并不隨機,存在顯著規律性:如果x為奇數,dRx>0,如果x為偶數,dRx<0。另外一種說法是:如果x為奇數,NRx>0.5(NRx-1+NRx+1),如果x為偶數,NRx<0.5(NRx-1+NRx+1),因此屬于系統誤差。
以上情況表明,從1999~2010的兩次普查數據中得到存活率觀測數值,奇數年齡的時候要高于存活率實際值,偶數年齡要低于存活率實際值。出現此種狀況,能夠設想在兩次人口調查之中最少一次調查中的一些年齡尾數存在人口的集聚以及散失問題,其中可能會兩次調查之中都有人口集聚或者散失,還可能僅為其中的一次,若是僅其中的一次調查存在質量問題,則還應當了解上一次的調查質量或者是之后調查質量。
因為人口數據的改變程度存在差異,有關人口的年齡曲線形狀以及方向影響是不同的。通常而言,人口數據出現變化的時候(在某一年齡存在積聚或者散失),首先改變其形狀,再改變其方向,因此,進行實際的數據檢驗之時,會出現誤判問題,為了避免出現誤判問題,我們還應當思考人口數據的性質又或是與其余數據結合進行思考。
四、人口函數年齡變化的符號分布檢驗
此文提出了對人口系統誤差進行判斷的一種新手段,此手段適合廣義人口函數年齡變化系統誤差的判斷,我們稱作為符號分布檢驗法。在這里廣義的人口主要包含遷移、生育、婚姻以及死亡之類。對于將年齡視作自變量的人口、死亡以及生育之類函數全都稱為人口函數。
人口函數的年齡變化符號,假使年齡是自變量x,而人口屬于年齡函數,具體用Y(x)進行表示(x取0,1,2,…),而Y(x+1)-Y(x)就屬于Y(x)于x中的一階差分。設DYx=Y(x)-(Y(x-1)+Y(x+l))/2用其對x年齡人口和兩邊年齡人口平均值之間差值進行表示。如果Yx>0,就說明Y扭)數值在x中呈現增長趨勢,這時曲線提升。如果x=0,就說明Y(x)于x時數值超過兩邊年齡的平均值,函數曲線屬于凸狀,如果DYxS的時候,以上假定是否定的,相反以上的假定就是肯定。如果假設肯定,就判定異常屬于隨機出現,對象人口數據并不具備特定年齡尾數指向。如果假定是否定的,就判定因為報告特定年齡尾數指向而導致。
五、結束語
此文方式必須一定基礎,假使人口年齡曲線的變化形狀與方向特征符號于各年齡之中屬于隨機分布,如果假設是肯定的,數據不具備特定年齡尾數指向,相反就判定具備尾數指向。作者進行過相關驗證,只要采取以往的指數法能夠判斷出的積聚與散失人口數據,應用此文手段也是可以判斷出來的。而采取以往的指數法判斷不出來的,采取此文提到方式能夠判斷出來,所以表明此方法與以往方法相比更加有效。因為此文方法必須概率判斷作為基礎,進行實際數據檢驗的時候,會有出現誤判的可能性,為了防止誤判現象,還應當考慮到人口數據性質以及與其余的數據結合進行考慮。
參考文獻:
[1]黃容慶,曾學偉,王建志.人口分析技術方法[J].北京經濟學院出版社,2014,17-28.
[2]喬肖淳,孫曉龍.淺析年齡結構檢驗指數應用到中國的局限性[J].人口數據分析方法及其應用.中國外文出版社,2014,13-27.
[3]翟真吳,姜振興,劉曉涵.常用的人口統計公式介紹[J].中國人口出版社,2014,28-32.