武建輝,薛 玲,郭正軍,尹素鳳,王國立
1)河北省煤礦衛(wèi)生與安全實驗室;河北聯(lián)合大學公共衛(wèi)生學院流行病與衛(wèi)生統(tǒng)計學學科 唐山 063000 2)河北聯(lián)合大學公共衛(wèi)生學院兒少衛(wèi)生與婦幼保健學學科 唐山 063000
基于徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的組合模型在煤工塵肺發(fā)病工齡預(yù)測中的應(yīng)用*
武建輝1)△,薛 玲2),郭正軍1),尹素鳳1),王國立1)
1)河北省煤礦衛(wèi)生與安全實驗室;河北聯(lián)合大學公共衛(wèi)生學院流行病與衛(wèi)生統(tǒng)計學學科 唐山 063000 2)河北聯(lián)合大學公共衛(wèi)生學院兒少衛(wèi)生與婦幼保健學學科 唐山 063000
△男,1981年12月生,碩士,講師,研究方向:疾病監(jiān)測、數(shù)據(jù)挖掘,E-mail:wujianhui555@163.com
徑向基函數(shù)神經(jīng)網(wǎng)絡(luò);多重線性回歸模型;組合模型;煤工塵肺;發(fā)病工齡
目的:研究徑向基函數(shù)(RBF)神經(jīng)網(wǎng)絡(luò)與多重線性回歸的組合模型在煤工塵肺發(fā)病工齡預(yù)測中的性能優(yōu)劣。方法采用RBF神經(jīng)網(wǎng)絡(luò)模型與多重線性回歸模型對研究數(shù)據(jù)進行分析,對2模型進行加權(quán)擬合,采用均方根誤差、均方誤差、平均相對誤差對模型的預(yù)測性能進行評價。結(jié)果多重線性回歸模型、RBF神經(jīng)網(wǎng)絡(luò)模型和組合模型真實值與預(yù)測值比較,差異均無統(tǒng)計學意義(t配對=1.552、0.231、0.155,P均>0.05)。多重線性回歸模型、RBF神經(jīng)網(wǎng)絡(luò)模型和組合模型的均方根誤差分別為(1.63±0.11)、(2.45±0.19)和(0.59±0.07)(F=26.141,P<0.001),均方誤差分別為(2.656 9±0.241 2)、(5.986 7±0.380 4)和(0.348 3±0.065 3)(F=49.678,P<0.001),平均相對誤差分別為(7.15±0.82)%、(15.39±1.25)%和(3.68±0.59)%(F=35.282,P<0.001)。結(jié)論在煤工塵肺發(fā)病工齡的預(yù)測中,組合模型預(yù)測性能優(yōu)于單一模型。
塵肺是因長期吸入生產(chǎn)性粉塵并在肺內(nèi)潴留而引起的以肺組織彌漫性纖維化為主的全身性疾病[1],其中煤工塵肺占很大比例。煤工塵肺危害嚴重,一旦發(fā)生即使脫離接觸粉塵仍可緩慢進展成為嚴重危害煤礦工人健康的職業(yè)病[2-3]。如果在煤工塵肺發(fā)病之前對其做出預(yù)測,并采取相應(yīng)的保護措施,例如降低粉塵濃度、及早脫離粉塵接觸環(huán)境,并給予一定治療,達到預(yù)防煤工塵肺的目的,將會產(chǎn)生巨大的經(jīng)濟效益。但是煤工塵肺發(fā)病的危險因子有很多,它們之間的關(guān)系也很復雜,有線性因素,也有非線性因素,并且不同接塵工種和工齡的礦工罹患煤工塵肺的危險不同[4-5]。在煤工塵肺發(fā)病工齡的預(yù)測中,要綜合考慮這些因素及其變化,單用一種模型準確對發(fā)病工齡進行預(yù)測具有很大困難。組合預(yù)測本質(zhì)上是將各種單項預(yù)測看作代表不同信息的片段, 通過信息的集成分散單個預(yù)測特有的不確定性和減少總體不確定性, 從而提高預(yù)測精度[6]。因此找出一種組合預(yù)測模型對煤工塵肺的發(fā)病工齡做出比較精確的預(yù)測顯得尤為重要。作者對基于徑向基函數(shù)(RBF)神經(jīng)網(wǎng)絡(luò)的組合模型在煤工塵肺發(fā)病工齡預(yù)測中的應(yīng)用進行了研究,現(xiàn)將結(jié)果報道如下。
1.1調(diào)查對象唐山市某職業(yè)病醫(yī)院1949年至2010年確診的所有煤工塵肺患者1 314例,有效病例1 128例。
1.2調(diào)查內(nèi)容與方法調(diào)查內(nèi)容包括工種、接塵工齡、礦別、出生時間、開始接塵年齡、發(fā)病工齡以及是否吸煙等。患者病情信息在該醫(yī)院數(shù)據(jù)庫基礎(chǔ)上,于該醫(yī)院職業(yè)病科進行核實。


在組合預(yù)測方法中,權(quán)重系數(shù)的確定方法很多,可以從不同的方向出發(fā),例如線性、非線性,還有矩陣等。研究[7]表明,若權(quán)重系數(shù)選擇恰當,組合模型預(yù)測結(jié)果優(yōu)于各單一模型預(yù)測結(jié)果。該研究采用取方差倒數(shù)的方法求解權(quán)重系數(shù), 其思想是為了使組合模型的預(yù)測精度盡可能的高,其誤差平方和必須最大限度地小,因此對誤差平方和小的模型給予較大權(quán)重系數(shù),而對誤差平方和大的模型給予較小的權(quán)重系數(shù)。考慮到協(xié)方差性質(zhì)顯然有COV(e1,e2)=0,e為各模型的預(yù)測誤差,于是w1可表達為:

從而有,

通過上面的組合預(yù)測法以及組合權(quán)重系數(shù)的確定方法,就可以使組合預(yù)測誤差的方差最小。所以由各種單項預(yù)測方法的誤差平方和計算出權(quán)重系數(shù),再乘以單項預(yù)測值,就可以得到組合預(yù)測的結(jié)果。

2.1模型的預(yù)測效果3種模型的預(yù)測效果圖見圖1~3。可知,3種預(yù)測模型都基本符合理想狀態(tài)下的分布,其中多重線性回歸模型和組合模型的分布情況更合理。

圖1 多重線性回歸預(yù)測值與真實值散點圖

圖2 RBF神經(jīng)網(wǎng)絡(luò)模型預(yù)測值與真實值散點圖

圖3 組合模型預(yù)測值與真實值散點圖
2.2模型的統(tǒng)計學檢驗結(jié)果見表1。可知,多重線性回歸模型、RBF神經(jīng)網(wǎng)絡(luò)模型和組合模型均可以對煤工塵肺患者的發(fā)病工齡進行預(yù)測,并且其預(yù)測結(jié)果真實可靠。

表1 煤工塵肺患者發(fā)病工齡真實值與預(yù)測值的比較(n=226) a
2.3模型的預(yù)測性能從數(shù)據(jù)庫中隨機抽取50份樣本,分別計算3種模型的均方根誤差、均方誤差及平均相對誤差并進行比較,結(jié)果顯示組合模型的誤差均最小,見表2。

表2 模型預(yù)測誤差比較(n=50)
*:與多重線性回歸模型比較,P<0.05;#:與RBF神經(jīng)網(wǎng)絡(luò)模型比較,P<0.05。
作為危害工人健康的頭號職業(yè)病,塵肺發(fā)病情況分析及預(yù)測工作在職業(yè)病防治中有著極其重要的地位。作者采用了回顧性調(diào)查的方法,使用單一模型和組合模型分別對煤工塵肺的發(fā)病工齡進行預(yù)測,與以往的塵肺調(diào)查研究[2]相比,主要有2點不同:就統(tǒng)計分析指標而言,采用的是患者個體的發(fā)病工齡,而非群體性指標如發(fā)病率、病死率等;就方法而言,引入RBF神經(jīng)網(wǎng)絡(luò)的組合模型并用于煤工塵肺個體發(fā)病工齡的預(yù)測,具有更高的預(yù)測精度。
多重線性回歸模型具有較好地處理線性因素的能力,但需要對非線性因素進行復雜處理;RBF神經(jīng)網(wǎng)絡(luò)模型具有良好的非線性映射能力,但其在擬合過程中,由于初始中心點較多,可能在選擇的過程中產(chǎn)生病態(tài)數(shù)據(jù),從而影響預(yù)測性能[8]。煤工塵肺發(fā)病工齡影響因素較多,還可能存在著某些未知因素,使用單一模型進行預(yù)測時效果稍差。組合模型是將各種單一模型看成是代表集合不同信息方向的整體,將散亂的信息整體組合到一起,實現(xiàn)信息的整合,整合后的信息可以減弱各單一模型的不確定性,削弱誤差較大的模型對最后輸出結(jié)果的影響[9]。組合模型中各個單一模型對所研究數(shù)據(jù)的敏感性不同,以及各自的優(yōu)缺點不同,這樣導致它們的預(yù)測精度也不相同,對組合模型最終結(jié)果的貢獻也不盡相同。所以組合預(yù)測應(yīng)該把它們的貢獻大小盡量表現(xiàn)出來,這樣才能最大地發(fā)揮各自的作用,預(yù)測精度也會增大。組合預(yù)測模型最主要的問題就是求出各單一預(yù)測方法的權(quán)重,使得組合預(yù)測模型能最大化地提高預(yù)測精度[10]。該研究將2種模型進行組合,在彌補2種單一模型不足的同時,又能減少預(yù)測的隨機性,提高預(yù)測精度。
為了客觀地評價各模型的優(yōu)劣,選擇了均方根誤差、均方誤差、平均相對誤差3種誤差作為評價指標。均方誤差是使用最普遍的預(yù)測誤差評價指標之一,其計算公式為各樣本預(yù)測誤差的平方之和除以所收集樣本數(shù),它能夠較明顯顯示出較大誤差的影響, 其值越大, 說明預(yù)測誤差越大。該研究結(jié)果顯示組合模型預(yù)測的均方誤差最小,RBF神經(jīng)網(wǎng)絡(luò)模型最大。均方根誤差為均方誤差的平方根,它只對一組預(yù)測數(shù)據(jù)的可靠性進行分析,可以很好地表現(xiàn)出不同預(yù)測模型預(yù)測誤差的微小差異, 因為其對誤差起到了放大效果, 所以它可以敏銳地反映預(yù)測誤差的細微變化,在實際運用中均方根誤差越小越好。該研究中,組合模型的均方根誤差最小,預(yù)測可靠性優(yōu)于其他2種預(yù)測模型。平均相對誤差≤5%時為理想狀態(tài)。分析顯示組合模型的預(yù)測精度較RBF神經(jīng)網(wǎng)絡(luò)模型和多重線性回歸模型小,預(yù)測效果理想。通過選擇的3種誤差指標,均發(fā)現(xiàn)組合模型的效果優(yōu)于其他2種單一模型。
該研究表明,在煤工塵肺發(fā)病工齡預(yù)測中,組合模型的預(yù)測精度明顯優(yōu)于多重線性回歸模型和RBF神經(jīng)網(wǎng)絡(luò)模型,該組合方法不僅運算簡便、迅速,而且有良好的預(yù)測精度和較高的識別能力,其對煤工塵肺發(fā)病工齡的預(yù)測具有一定的應(yīng)用價值。
[1]李翠蘭,錢慶增,沈福海,等.某煤礦掘砌工人肺通氣功能分析[J].環(huán)境與職業(yè)醫(yī)學,2012,29(6):371
[2]劉紅波,楊永利,段志文,等.基于神經(jīng)網(wǎng)絡(luò)模型預(yù)測未來煤工塵肺發(fā)病危險性的研究[J].中國衛(wèi)生統(tǒng)計,2009,26(6):617
[3]王曉紅,武建輝,郭正軍,等.基于BP神經(jīng)網(wǎng)絡(luò)的煤工塵肺發(fā)病工齡預(yù)測組合模型的研究[J].中國煤炭工業(yè)醫(yī)學雜志,2013,16(2):263
[4]Lee WL, Choi BS. Reliability and validity of soft copy images based on flat-panel detector in pneumoconiosis classification[J].Acad Radiol, 2013, 20(6):746
[5]Mukhopadhyay S,Gujral M,Abraham JL,et al.A case of hut lung: scanning electron microscopy with energy dispersive x-ray spectroscopy analysis of a domestically acquired form of pneumoconiosis[J].Chest,2013,144(1):323
[6]王丹,張敏,鄭迎東.中國煤工塵肺發(fā)病水平的估算[J].中華勞動衛(wèi)生職業(yè)病雜志,2013,31(1):24
[7]張國良,后永春,舒文,等.三種模型在肺結(jié)核發(fā)病預(yù)測中的應(yīng)用[J].中國衛(wèi)生統(tǒng)計,2013,30(4):480
[8]張輝,柴毅.一種改進的RBF神經(jīng)網(wǎng)絡(luò)參數(shù)優(yōu)化方法[J].計算機工程與應(yīng)用,2012,48(20):146
[9]Rabe F. A logical framework combining model and proof theory[J].Mathemat Struct Comput Sci, 2013, 23(5):945
[10]陳銀蘋,吳愛萍,余亮科.組合模型對乙肝發(fā)病趨勢的預(yù)測研究[J].解放軍醫(yī)學雜志,2014,39(1):52
(2014-02-25收稿 責任編輯姜春霞)
Application of combination model in forecasting work year of coal workers′ pneumoconiosis based on radical basis function neural network
WUJianhui1),XUELing2),GUOZhengjun1),YINSufeng1),WANGGuoli1)
1)HebeiProvinceKeyLaboratoryofOccupationalHealthandSafetyforCoalIndustry;DivisionofEpidemiologyandHealthStatistics,SchoolofPublicHealth,HebeiUnitedUniversity,Tangshan063000 2)DivisionofMaternal,ChildandAdolescentHealth,SchoolofPublicHealth,HebeiUnitedUniversity,Tangshan063000
radical basis function neural network; multiple linear regression model; combined model; coal workers' pneumoconiosis; onset length of service
Aim: To study the pros and cons of prediction performance of multiple linear regression model and radical basis function neural network combined model to forecast the work year of coal workers′ pneumoconiosis.Methods: Root of mean square error, mean square predict error, and mean percent error were applied to analyze the predicting outcomes of the three models in order to achieve the aim of comparing the prediction performance. Results: For multiple linear regression model,radical basis function neural network and the combination model, the difference between true and predicted values were significant(tpaired=1.552,0.231, and 0.155,P>0.05).The root of mean square error of the multiple linear regression model,radical basis function neural network and the combination model was respectively (1.63±0.11),(2.45±0.19),and (0.59±0.07)(F=26.141,P<0.001). The mean square predict error was respectively (2.656 9±0.241 2),(5.986 7±0.380 4),and(0.348 3±0.065 3)(F=49.678,P<0.001). The mean percent error was respectively (7.15±0.82)%,(15.39±1.25)%,and (3.68±0.59)%(F=35.282,P<0.001).Conclusion: In the prediction of coal workers′ pneumoconiosis incidence seniority, combined forecasting model is superior to a single model.
10.13705/j.issn.1671-6825.2014.06.014
*河北省科技支撐項目 11276911D;河北省衛(wèi)生廳醫(yī)學重點項目 20120146;唐山市科技支撐項目 11150205A-3
R181.3