張翰英,楊照峰
(1.平頂山市工業學校,平頂山467000;2.平頂山學院軟件學院,平頂山467002)
基于數據挖掘的塵肺病建模與預測研究?
張翰英1,楊照峰2
(1.平頂山市工業學校,平頂山467000;2.平頂山學院軟件學院,平頂山467002)
為了提高塵肺病的預測準確性,針對塵肺病歷史數據少、不確定的特點,采用多種數據挖掘技術進行建模,提出一種基于GM-BPNN的塵肺病組合預測模型。首先利用灰色模型GM(1,1)對塵肺病進行預測,然后采用BP神經網絡對GM(1,1)預測結果進行修正,并采用遺傳算法優化BP神經網絡的初始權值和閾值,最后對1981~2006年的塵肺病例進行仿真測試。仿真結果表明GM-BPNN很好地解決了塵肺病預測過程中的小樣本、非線性問題,相對于單一預測模型,提高了塵肺病的預測精度。
塵肺病;灰色模型;BP神經網絡;遺傳算法;仿真
塵肺病是一種危害嚴重的職業病。據統計,塵肺病發病率一直呈上升趨勢,不僅危害工人身體健康,而且給國家帶來了經濟損失,因此對塵肺病未來發病狀況進行有效預測,然后根據預測結果對塵肺病進行控制和管理,具有十分重要意義[1]。
當前塵肺病預測方法主要包括傳統統計學方法和數據挖掘技術預測方法。傳統統計學方法包括線性回歸預測、時間序列、趨勢外推法和指數平滑法等[2],這些方法參數設置少,簡單易實現,但它們均假設塵肺病變化趨勢是一種線性變化,實際上塵肺病預測是一種不確定、非線性變化系統,因此它們難以建立準確的塵肺病預測模型,預測結果與實際要求有一定的差距[3]。數據挖掘技術預測方法是一種非線性預測方法,其包括支持向量機、專家系統、灰色模型、貝葉斯網絡等[4-5],這些非線性預測方法提高了塵肺病預測精度,但它們都存在各自不足,塵肺病預測精度有待進一步提高。如專家系統通用性差,沒有學習能力;灰色模型對隨機波動性較大的數據擬合效果較差;神經網絡結構復雜、要求樣本大,而塵肺病是一種小樣本、非線性預測問題,因此在樣本不足的情況下,神經網絡易出現過擬合缺陷[5]。支持向量機訓練時間長,速度慢,參數確定沒有統一標準[6]。近年來,基于組合優化理論,一些學者提出組合模型來克服單一模型的不足,預測精度相應提高,在經濟、水資源、糧食產量等領域得到了廣泛應用[7-8]。但到目前為今,還沒有學者將組合模型應用于塵肺病預測。
為了提高塵肺病預測,將遺傳算法、神經網絡、灰色模型等多種數據挖掘技術組合在一起,建立一種灰色遺傳神經網絡的塵肺病組合預測模型。首先利用灰色模型對塵肺病歷史數據建模和預測,然后采用遺傳算法優化BP神經網絡對灰色模型的塵肺病預測結果進行修正,最后采用具體數據對建立的塵肺病預測模型性能進行驗證。
2.1 灰色模型
灰色模型可以將無序塵肺病數據變成有規律數據,然后建立相應的微分方程模型,從而預測塵肺病未來發展趨勢。在諸多的灰色模型中,以灰色系統中單序列一階線性微分方程模型GM(1,1)最為常用。
(1)設有原始數據序列x(0),n為數據個數。

(2)對原始數據序列累加以便弱化隨機序列的波動性和隨機性,得到新數據序列:

(3)建立相應的微分方程模型為

式中,a為發展系數;u為灰色作用量。
只要求出參數a,u,就可以計算出x(1)(t),進一步可以得到x(0)的未來預測值。
(4)用累加生成數據構造累加矩陣B與常數項向量yn,即


(5)用最小二乘法對灰參數求解

(6)該微分方程的解為

(7)累減還原得到

經過GM(1,1)對塵肺病預測后,捕捉到塵肺病總體變化規律,預測誤差存在于預測值與原始值之間的殘差中,因此采用BP神經網絡對GM(1,1)預測殘差進行修正,以提高塵肺病預測精度。
2.2 遺傳算法優化的BP神經網絡
遺傳算法是美國密執安(Michigan)大學的John.H.Holland教授設計的一種借鑒生物界自然選擇、遺傳變異和進化機制的高度并行、隨機、自適應的搜索算法,該算法具有簡單易懂、魯棒性強、適合并行處理的特點,可用于解決各種復雜優化問題。遺傳算法對BP神經網絡的優化主要用于得到最優網絡初始權值和網絡閾值[9]。遺傳算法優化的BP神經網絡算法流程如圖1所示。經過遺傳算法優化的BP神經網絡能夠獲得更好的訓練效果,提高預測精度。

圖1 遺傳算法優化的BP神經網絡
灰色模型適用于對近似指數增長、數據相對較少的數據序列進行預測,且灰色模型的累加生成不但能削弱原始數據存在的隨機性,而且使累加后的序列單調增長,突出了總體發展趨勢,適合用BPNN網絡進行逼近,因此將BPNN和GM預測方法結合起來,使它們互相取長補短,構造性能更好的塵肺病預測組合模型是可行的。根據以上分析,本研究只保留灰色預測方法中的"累加生成”和“累減還原”運算,不再求參數a和u。利用GM-BPNN對塵肺病進行預測過程如下:
(1)收集塵肺病歷史數據。
(2)對塵肺病歷數據進行灰色累加,生成累加序列

(3)采用歸一化方法對生成的數據進行縮放,將它們變換到[0,1]之間,具體歸一化公式為

(4)建立塵肺病的GM(1,1)預測模型,并對測試樣本進行預測。
(5)將GM(1,1)預測值進行“累減還原”運算,得到塵肺病預測值。
(6)計算GM(1,1)預測值與實際塵肺病值間殘差,并對殘差進行重構,得到BP神經網絡的訓練和測試樣本。
(7)將殘差訓練樣本輸入到BPNN網絡訓練,并通過遺傳算法優化其參數,建立塵肺病殘差預測模型。
(8)根據建立的塵肺病殘差預測模型對測試樣本殘差進行預測。
(9)將BPNN的預測結果與GM(1,1)的預測結果相加,得到塵肺病最終值。
4.1 數據來源
為了檢驗GM-BPNN對塵肺病預測的有效性,采用1981~2006年潞安礦區塵肺病例數據進行仿真實驗,具體如表1所示。將數據分成為兩部分:1981~2000年為訓練樣本,用于訓練建立塵肺病預測模型,2001~2006年為測試樣本,用于檢驗模型的有效性。
4.2 灰色模型擬合結果
將1981~2000年為訓練樣本輸入到GM(1,1)中,采用Matlab 2007編寫程序,建立GM(1,1)的塵肺病預測模型,然后對訓練樣本進行擬合,得到的擬合結果如圖2所示。從圖2可知,GM(1,1)對1981~2000年塵肺病例擬合精度為95.45%,擬合誤差較大。可以把塵肺病總體變化趨勢進行擬合,然后采用BP神經網絡對GM(1,1)擬合殘差進行校正,進一步挖掘塵肺病細節變化規律。

表1 1981~2006潞安礦區塵肺病例

圖2 GM(1,1)對1981~2000年塵肺病例的擬合效果
4.3 BP神經網絡對GM(1,1)擬合殘差進行修正
由于BP神經網絡要求數據多維,不能對一維GM(1,1)殘差時間序列進行直接建模,因此首先采用逐步增加維數方法選擇GM(1,1)塵肺病擬合殘差的維數,最后選擇最佳維數為3,表示塵肺病例與前4年的塵肺病發生率相關,重構BP神經網絡的塵肺病殘差樣本。將訓練樣本的殘差輸入到BP神經網絡進行學習,采用遺傳算法對BP神經網絡初始權值和閾值進行優化,遺傳算法的平均適應度函數值變化過程如圖3所示。
BP神經網絡的結構為:輸入節點數為3,隱含層節點數為7,輸出層節點數為1。采用優化后BP神經網絡對訓練樣本的殘差進行學習,然后進行擬合,最后采用BP神經網絡對GM(1,1)的擬合結果進行修正,得到結果如圖4所示。
從圖4中知,相對于單一GM(1,1),GMBPNN的塵肺病擬合精度為99.54%,遠遠高于GM(1,1)。同時采用單一的BPNN對塵肺病訓練樣本進行訓練和擬合,得到的擬合結果如圖5所示。

圖3 BP神經網絡參數優化的適應度值變化過程

圖4 GM-BPNN對1981~2000年塵肺病例的擬合效果

圖5 BPNN對1981~2000年塵肺病例的擬合效果
從圖5可知,單一BPNN對塵肺病擬合精度也不高,擬合精度為96.48%,難以準確、全面描述塵肺病的發生變化規律。各種模型的擬合結果對比表明,單一GM(1,1)或BPNN僅能反映塵肺病發生的部分信息,而GM-BPNN利用了GM(1,1)和BPNN優勢,克服各自不足,對塵肺病發生規律進行深入、充分挖掘,有效降低了塵肺病擬合誤差,初步證明GM-BPNN是一種有效的塵肺病預測模型。
4.4 模型的泛化能力比較
對于一個預測模型來說,其性能的優劣主要通過泛化能力來衡量。為此,采用GM(1,1)、BPNN作為模型,對測試樣本進行預測,模型的評價標準為均方根誤差(RMSE)和平均絕對相對誤差(MAPE),它們分別定義如下:

式中,yt為塵肺病例實際值,為模型預測值。
GM(1,1)、BPNN、GM-BPNN預測結果的RMSE和MAPE如表2所示。根據表2中的3種模型檢驗結果可知,對于小樣本塵肺病例數據,GM-BPNN可以獲得較高的預測精度,而單一GM(1,1)、BPNN預測結果不理想。綜合上述可知,無論擬合能力或泛化能力,GM-BPNN均要優于單一預測模型,其預測結果更加可靠、客觀,為國家管理和控制塵肺病提供科學依據。

表2 幾種塵肺病預測模型的綜合性能對比
建立了一種基于GM-BPNN的塵肺病預測模型。仿真結果表明,GM-BPNN的擬合精度高,預測誤差小,適合對我國塵肺病的預測研究。
[1]葉麗芳,朱瑋.錫山市塵肺病發病趨勢的觀察與分析[J].中國工業醫學雜志,2004,10(2):90-98.
[2]盧國棟,周心權.礦山企業塵肺病預測研究[J].礦業安全與環保,2006,33(4):12-14.
[3]譚希文.礦山企業塵肺病灰色殘差預測模型研究[J].礦業快報,2008(10):51-53.
[4]鄭雙忠.基于神經網絡的塵肺病預測模型研究[J].中國安全生產科學技術,2005,6(1):78-81.
[5]李舒才,肖全華,曹永興,等.GM(1,1)灰色模型在塵肺患病人數預測的應用與評價[J].預防醫學,2004,18(10):70-73.
[6]柳靜獻,劉鐵民.塵肺危害的神經網絡評價及預測研究[J].中國安全科學學報,2001,11(2):18-21.
[7]陳雄山,姚海飛,李東.基于灰色系統模型的潞安礦區塵肺病發病趨勢預測[J].中國煤炭,2011,37(2):96-99.
[8]常杰,杭小平,魏彩娥等.塵肺病相關致病因素及防治對策的調查研究[J].中國衛生工程學,2008,7(1):100-103.
[9]劉全,王曉燕,傅啟明,等.雙精英協同進化遺傳算法[J].軟件學報,2012,23(4):765-775.
Study on Modeling and Prediction of Dust-pulmonary Disease based on GM-BPNN
ZHANG Han-ying1,YANG Zhao-feng2
(1.Pingdingshan Technical School,Pingdingshan 467000,China;2.School of Software Engineering,Pingdingshan University,Pingdingshan 467002,China)
Aiming at the problem of fewer historical data with uncertainty characteristics,in order to improve the accuracy of prediction for dust-pulmonary disease,the paper proposes one predictionmodel based on the GM-BPNN by usingmany datamining technology.Firstly,GM(1,1)is used to predict the dust-pulmonary disease,and then BP neural network is used to modify the prediction results of GM(1,1)which initial weights and thresholds of the BP neural network are optimized by genetic algorithm,and finally the test for dust-pulmonary disease case from 1981 to 2006 is conducted.The simulation results show that GM-BPNN is a good solution to the problems of small sample and nonlinear and the proposed model improves the precision of prediction for dust-pulmonary disease.
Dust-pulmonary disease;Greymodel;BP neural network;Genetic algorithm;Simulation
10.3969/j.issn.1002-2279.2014.03.015
TP183
:A
:1002-2279(2014)03-0052-04
河南省科技計劃重點項目(102102210416)
張翰英(1979-),男,河南平頂山人,講師,主研方向:從事計算機及網絡技術應用方面的研究。
2013-10-25