李小琳,陳傳明
(南京大學 管理學院,南京 210093)
基于貝葉斯網絡的長江地區人口健康素質預測
李小琳,陳傳明
(南京大學 管理學院,南京 210093)
文章從提高人口健康水平方面研究了提高人口素質決策的評價體系,以貝葉斯網絡為工具,在對長江地區人口數據進行了相應的離散化處理后,從大量人口數據中分析人口健康素質問題,建立了描述人口健康素質的貝葉斯網絡模型,可為人口決策提供科學依據。
人口決策;人口素質;評價指標;貝葉斯網絡;預測
人口預測和決策是一項復雜而困難的工作[1]。它具有多目標的特點,涉及經濟和社會發展的各個方面。而影響人口發展的因素十分復雜,有些因素具有不確定性。另外,由于現實所限,往往使人口決策面臨著信息不全、不準的情況。因此傳統的定性風險管理方式和經典的定量風險統計已無法滿足社會發展需求,研究和探索符合中國國情的現代人口決策方法和技術勢在必行。
同時,世界經濟發展史告訴我們,人口素質越來越成為經濟進一步增長的關鍵,中國低生育率水平的出現以及經濟增長方式由粗放型向集約型的轉變,逐漸將提高人口素質擺到了與控制人口數量同等重要的地位。本文基于長江地區人口數據進行統計和分析人口健康素質問題,利用貝葉斯網絡建立描述人口健康素質的相關模型,為人口決策提供科學依據。利用貝葉斯網絡研究人口問題是一個較新的嘗試。
貝葉斯網絡[1]是聯合概率分布的圖形表示,它具有堅實的理論基礎、形象直觀的知識表示形式、靈活的推理能力和接近人類思維特征的決策機制,已成為機器學習和數據挖掘等領域中處理不確定性的主要方法之一。目前貝葉斯網絡已在醫療診斷、軟件智能化、金融風險分析、宏觀經濟決策、生物信息分析及Internet信息處理等方面得到廣泛的應用。
貝葉斯網絡是一個有向無環圖,在給定結點的父結點集的情況下,圖中的結點由變量及它們的條件概率表表示。聯合概率分布由如下的公式表示:

其中π(xi)是節點Xi的父節點集。
值得注意的是這個貝葉斯網絡并不是唯一的。一個給定的聯合概率分布能夠表示成不同的網絡拓撲結構,這主要依賴于我們給定的結點次序。相同的聯合概率分布大約能有n!種網絡結構的表示方式。顯然,父結點集就取決于結點次序和變量間的內在聯系。一般來說,貝葉斯網絡學習算法分為兩類:打分搜索法和依賴分析法。本文采取的方法屬于打分搜索方法。
我們可以利用打分函數來選擇網絡結構,例如:MDL(Minimum Description Length)標準[3]。 MDL 標準源于信息論中的交叉熵。用于貝葉斯網學習的MDL標準包括兩個部分,即貝葉斯網絡結構的描述長度與數據的描述長度。它綜合考慮網絡結構的描述精度和網絡結構的復雜性兩個方面,試圖找到一個既精確又簡潔的網絡結構。使用MDL標準,較好的網絡結構應具有更小的分值。同其它評分函數一樣,MDL準則是可以分解的。一個貝葉斯網絡模型的MDL評分是模型中每個屬性Xi的父親結點集||Π (Xi)||MDL評分的總和。由MDL標準為貝葉斯網絡S評分,可以表示成如式2的形式。

根據MDL標準的可分解性,式(2)可以寫成:

其中N是數據樣本的大小,||Xi||表示Xi所有可能取值的個數,||Π(Xi)||是結點Xi的所有可能父親結點集取值的個數。
然后利用MDL標準對不同的模型進行評估,并利用評分結果指導下一輪的搜索。該過程反復進行,直到連續幾輪搜索中模型的評分不再有明顯提高為止。
為了避免陷入局部極值,算法采用了擴展的進化規劃(Evolutionary Programming,簡稱EP)方法作為搜索算法。算法采用3種變異算子(增加邊、刪除邊、轉向邊)產生后代,每次執行變異操作時,3種變異操作以相同的概率被選擇。由于自適應機制,傳統的EP易于陷入局部最優值。因此,為了防止早熟收斂現象的發生,算法將重開始策略引入到EP中。重開始策略的主要過程是:在進化過程中,動態地監控群體的多樣性,當群體的多樣性降到事先規定的界限之下時,就認為進化過程中出現了早熟收斂的趨勢,然后對當前群體進行重新初始化,以恢復群體的多樣性,使進化有效地繼續進行。我們僅重新初始化群體的一部分,這樣,引入的重開始策略不僅能夠較好地保留已獲得的有效信息,同時又能夠有效地避免早熟收斂,為下一輪進化奠定良好的基礎。
長江地區9個省、市總人口占全國40%左右,在這里,既包括以上海為中心的較為發達的長江三角洲地區,也包括還相當閉塞落后的中、西部地區,因而長江地區各省、市的人口差異較大[4],適合作為樣本進行人口健康素質方面的分析與評價。
反映健康方面的指標有:①出生時的預期壽命;②嬰兒死亡率;③死亡率、死亡原因分析、產婦死亡率以及發病率;④人身高、體格變化情況。
由于人口素質預測和制定提高人口素質決策所涉及的分析和評價指標非常復雜,為了既能反映影響人口素質的各方面因素,又能簡化計算量,本文將對提高人口健康素質進行研究,分別選取如下指標作為模型分析和評估的參數。
地區差異(A):長江地區各省、市(上海、江蘇、浙江、安徽、江西、湖北、湖南、重慶、四川);
城鄉差異(B):分為市、鎮、鄉;
平均預期壽命(C):某一地區人口預期壽命平均值,單位:歲;
醫療衛生條件(D):按照每萬人擁有衛生機構數量計算,單位:個;
嬰兒死亡率(E):按照每千個活產嬰兒中不到1歲而死亡的嬰兒數計算,單位:‰;
死亡率(F):某一地區人口死亡率,單位:‰;
人口年齡結構類型(G):將人口按照年齡劃分為0~14歲、15~64歲、65歲及以上三組,按照老少比來確定人口年齡結構類型 (老少比即每100名0~14歲的少年兒童相應有多少65歲以上的老年人),15%以下為年輕型、15~30%為成年型、30%以上為老年型[5],單位:%;
標準化死亡率(H):將人口死亡率進行標準化,即以某一時間年齡結構為標準年齡結構計算人口的標準化死亡率,單位:‰。
在對人口數據庫中的連續數值屬性離散化中,本文采用等寬區間法和WILD (Weighted Information-Loss Discretization)算法。離散化后得到的樣本屬性如表1所示。

表1 人口健康素質參數對應屬性表

表2 提高人口健康素質決策學習樣本集

圖1 提高人口健康素質決策的貝葉斯網絡拓撲結構
按照各市、鎮、鄉統計各屬性值后,將相關連續數據經過離散化處理并抽取200個數據生成訓練樣本數據集,部分樣本如表2所示。
采用IB-PSO算法得到的提高人口健康素質預測的貝葉斯網絡拓撲結構如圖1所示。
提高人口健康素質決策貝葉斯網絡模型能夠反映出蘊涵在大量數據中的影響人口健康素質若干因素間的依賴關系。
概率關系描述如下:
<平均預期壽命 (C)>depends directly on<地區差異 (A)>and<城鄉差異(B)>;
<醫療衛生條件(D)>depends directly on<地區差異(A)>and<城鄉差異(B)>;
<死亡率(F)>depends directly on<城鄉差異(B)>;
<嬰兒死亡率(E)>depends directly on<醫療衛生條件(D)>;
<標準化死亡率(H)>depends directly on<死亡率(F)>and<人口年齡結構類型(G)>。
從模型可以得到以下結論:
(1)長江地區各地區人口平均預期壽命相差較為懸殊;而各地區城鄉之間人口預期壽命也存在較大差異。
(2)各地區間醫療衛生條件差距懸殊;城鄉之間衛生條件差距也很大,雖然有少數經濟較發達地區的農村,醫療衛生水平有所提高,但大部分農村的醫療衛生狀況極差,嚴重的制約了我國人口健康素質的提高。
(3)雖然城鄉之間死亡率相差較為懸殊,但地區差異對死亡率影響不大,這是由于各地區年齡結構的不同掩蓋了社會經濟發展水平給人口健康狀況帶來的差異。綜合考慮了人口年齡結構類型這個因素之后,從標準化死亡率就能看出,人口年齡結構類型偏向老齡化的地區人口標準化死亡率低于死亡率。
(4)醫療衛生條件直接影響到各地嬰兒死亡率。在醫療衛生條件較差的地區和農村,嬰兒死亡率遠高于其他地區和城鎮。
本文以貝葉斯網絡為工具,從人口數據中統計和分析了影響人口健康素質各方面因素之間的關系,建立提高人口健康素質的貝葉斯網絡模型,并對模型進行了概率依賴關系解釋和分析,并得出相應的結論,可為制定相應的人口政策提供依據。
[1]Pearl J.Probabilistic Reasoning in Intelligent Systems:Networks of Plausible Inference[M].San Mateo,CA:Morgan Kaufmann,1988.
[2]Lam W,Bacchus F.Learning Bayesian Belief Networks:An Approach Based on the MDL principle[J].Computational Intelligence,1994,10(4).
[3]王秀銀,鹿立,崔樹義.現代人口管理學[M].濟南:山東人民出版社,2001.
[4]劉國光,馬藹乃,文伏波.長江地區可持續發展研究叢書[M].武漢:武漢出版社,1999.
[5]查瑞傳等.人口普查資料分析技術[M].北京:中國人口出版社,1991.
(責任編輯/亦 民)
C93
A
1002-6487(2010)18-0041-02
國家自然科學基金資助項目(60803055);教育部人文社會科學研究資助項目(08JC630041);中國博士后科學基金資助項目(20080441031);江蘇省博士后科研資助項目(0801038C)