朱人杰 葉春明



摘要:對于個體健康體檢數據而言,傳統的以大樣本為基礎的數學模型無法滿足體檢數據的建模 需求。基于個體體檢數據特征分析,首先構建適用于個體體檢指標健康預警的近似非齊次指數序 列的改進離散灰色模型。其次,為降低單個模型預測精度的有限性,利用方差倒數法為離散灰色 模型和差分自回歸移動平均模型賦權重,在模型誤差平方和達到最小時取得最佳的權重值。從而 將兩個模型的預測結果進行組合, 實現對健康指標的建模與趨勢分析,及時掌握個體健康指標的 變化并發現潛在的疾病隱患。預測模型在實驗數據集上的相對模擬誤差與最優基準模型相比有所 下降,表明灰色– 時序組合模型具有更高的模擬精度,解決了傳統的依據單次體檢指標進行靜態分 析的弊端以及單個模型預測結果的局限性,更加關注個體差異,能有效提升健康預警的效果。
關鍵詞:灰色– 時序組合模型 ;體檢指標 ; 離散灰色模型 ;差分自回歸移動平均模型 ;健康預警
中圖分類號:? TP 931???????????? 文獻標志碼:?? A
Grey time series combination model for health warning of physical examination indexes
ZHU Renjie1,2, YE Chunming1
(1. Business School, University of Shanghai for Science and Technology, Shanghai 200093, China;2. Shanghai Easthospital Affiliated to Shanghai Tongji University, Shanghai 200120, China)
Abstract: For individual health examination data, the traditional mathematical model based on large samples can not meet the modeling requirements of physical examination data. Based on the analysis of the characteristics of individual physical examination data, an improved discrete grey model of approximately non-homogeneous index series suitable for individual physical examination indicator health warning was first constructed. Secondly, in order to reduce the limitation of the prediction accuracy of a single model, the inverse variance method was used to assign weights to the discrete grey model and the differential autoregressive moving average model, and the best weight value was obtained when the sum of squares of the model errors reached the minimum. Thus, the prediction results of the two models were combined to achieve the modeling and trend analysis of health indicators, timely grasp the changes of individual health indicators and discover potential disease hazards. The relative simulation error of the prediction model on the experimental data set decreases in comparison with the optimal benchmark model, which indicates that the grey time series combination model has higher simulation? accuracy.? The?? shortcomings?? of? traditional?? static?? analysis?? based?? on ??single?? physical examination indicators? and the? limitations? of single model prediction results? are? solved.? Individual differences are emphasized, and the effect of health warning can be effectively improved.
Keywords: grey time series combination model; physical examination index; discrete grey model; differential autoregressive integrated moving average model; health warning
隨著時代的發展、社會需求和疾病譜的改變,以預防為主的大健康理念逐漸深入人心,民眾健康預防的意識也逐漸增強,定期體檢演變為一種健康生活習慣和社會趨勢。健康體檢產生的個體體檢數據,可以幫助醫生和體檢者分析個體自身生理狀況和潛在的疾病隱患。但是,醫生對體檢者身體狀況的診斷,或者體檢者對自身健康情況的判斷大多是基于單次體檢結果的高低對比,無法發現個體體檢指標在不同時期的動態變化趨勢。因此,分析個體體檢指標的發展規律和變化趨勢,發現體檢者的潛在疾病隱患,從而提前采取預防和治療措施,降低個體未來的患病風險,對于保障個體健康具有重大的現實意義。
灰色模型對于“少數據”、“貧信息”的樣本具有較高的預測精度,能夠通過研究對象有限的數據,挖掘出數據發展規律和新信息,從而實現對序列未來值的預測[1-2]。在疾病預測方面,灰色預測模型主要用于發病率、死亡率的預測[3-4]。而其他典型預測方法雖然在疾病預測中發揮了重要的作用,但是各類模型的適用范圍有所差異。時間序列模型通過將疾病數據隨時間推移形成的序列視為一個隨機序列,并用一定的數學模型來近似擬合這個序列,常用的時間序列模型為 ARIMA( autoregressive integrated moving average model)模型[5-6]。基于概率論的馬爾可夫鏈模型通常是基于系統現在的狀態來預測系統未來可能存在的狀態,例如劉瓊等[2]利用隱馬爾科夫模型對乙肝發病數量時間序列進行預測[7]。隨著神經網絡的發展, BP 神經網絡模型也被大量應用于疾病預測中,并且在疾病預測中具有較好的識別效果[8-9]。多元回歸模型常用于傳染病發病率的趨勢預測,建模過程中應用直線或曲線擬合原始傳染病數據,用數字和等式來表達傳染病的流行規律[10-13]。近年來,國內外學者將灰色模型與其他模型進行組合,融合多個模型的優勢,開展疾病預測研究。王永斌等[14]將灰色模型和廣義回歸神經網絡模型相結合,預測我國塵肺病發病人數。嚴薇榮等[15]在進行傷寒副傷寒發病率預測時,將 GM(1,1)模型和 Markov模型進行組合得到新的預測模型,提高了傳染病發病率的預測精度。時冬青等[16]綜合 GM(1,1)模型和馬爾可夫鏈進行預測,實驗結果表明組合模型在職業病預測中的高預測精度。
目前,對于個體體檢指標的研究主要集中于兩個方面:一方面是分析個體體檢指標對于疾病診斷的影響或對疾病的預測價值[17-18];另一方面是在疾病風險預測中,將多個或群體健康體檢指標作為預測特征來預測疾病發病率或患病情況[19-20]。然而,針對個體體檢指標未來發展趨勢預測的研究還較少。通過上述分析可以發現,以上研究大多采用群體健康指標數據集開展疾病預測,而對于個體健康體檢指標的預測較少,并且個體健康體檢數據的特征也增加了個體健康指標預測的難度。為此,需要構建有效的個體健康指標預測模型,以期準確預測體檢指標未來變化趨勢或范圍,實現個體健康狀況的有效預警管理。基于上述分析,考慮體檢指標數據為小樣本數據,并且更偏向于是一個非齊次指數序列,為提高模型的泛化性和準確性,本文構建了一個離散灰色模型。同時,為提高預測精度,將 ARIMA 模型和灰色模型進行組合預測,從而充分利用各個模型的優勢。
1 個體健康體檢指標特征分析
隨著人們對于健康和自我保健追求的愈加強烈,健康消費市場迅猛發展,個人定期健康體檢已成為常態。個人在醫療機構進行體檢,得到各類身體指標檢查數據。這些具有時間間隔的數據匯總后形成了時間序列,對這些時間序列數據進行數據分析和預測,可以有效地輔助醫生和患者了解當前身體狀況和指標的未來變化趨勢,幫助人們提前采取應對策略,做好疾病預防。
由于體檢指標時間序列數據有其獨有的特征,在構建時間序列預測模型時有必要基于其特征進行設計。以單個體檢指標m為例,指標m在時間跨度1? n之間的檢查結果構成一個時間序列 Xm =(xm(t1), xm(t2), ··· , xm(tn))。單個體檢指標時間序列具有如下特征:
a.數據量小。
隨著時間變化,個人健康狀況受年齡變化、外界環境等因素影響,使得體檢指標具有階段性和時效性。通常來說,極早期的體檢指標對于分析個人當前身體健康狀況的可用價值較低,許多體檢數據集中僅保留體檢者最近6~8年的體檢指標數據。因此,體檢指標時間序列 Xm =(xm(t1), xm(t2), ··· , xm(tn))的樣本數量非常有限,一般取樣本個數介于6~10之間。
b.數據的不確定性。
個人體檢指標數值常受到生理狀況、心理變化、外界環境等多方面因素的影響,甚至由于測量儀器、檢測技術水平的參差不齊也會導致指標數據的不準確。所以個體在進行體檢時,總會對異常指標進行多次“復查”,將多次體檢結果的可能值或取值范圍作為最終檢查結果。這導致了體檢指標序列的區間出現不確定或離散不確定的情況。
c.時間間隔不一致。
時間序列Xm =(xm(t1), xm(t2), ··· , xm(tn))的時間間隔計算公式一般為Δt = tk+1? tk ,k =1, 2, ··· , n?1,當Δt *常數時,將時間序列Xm稱為非等時距序列。現實生活中,由于各種因素導致個體未能按期進行健康體檢,從而導致體檢時間序列數據集中缺失某一時間段的數據,出現時間“斷層”問題。
d.數據類型異構。
體檢指標數據類型異構是指時間序列Xm中不同體檢指標具有不同的數據類型。舉例來說,時間序列Xm中可能存在某一元素數據類型是一個區間值,某一元素數據類型為離散灰數,還有元素數據類型為實數,這就使得Xm具有數據類型異構的特征。
e.數據具有上下波動性。
體檢指標受到自身以及外部等多個因素制約,從而使得單個個體體檢時間序列并非呈現明顯的單調遞變或恒定不變的規律,通常是在一定數值范圍內表現出反復的上下波動的特征。
2 灰色–時序組合預測模型 NDGM- ARIMA
2.1 改進 GM(1,1)模型——NDGM(1,1)
由于體檢指標數據是一個數據量少的小樣本數據集,通常數據量級在幾至幾十。而灰色模型 GM(1,1)對于“少數據”、“貧信息”的樣本具有較高的預測精度。因此,本文考慮使用灰色模型 GM(1,1)。GM(1,1)模型是灰色系統理論中經典的預測模型,模型的基本思路是利用原始數據得到一組原始數據序列,對原始數據序列進行累加生成新的數據序列,以此來削弱原始數據的隨機性,突出和增強原始數據的規律性,實現對原始數據未來變化規律的模糊預測。
GM(1,1)具體實現步驟如下:
步驟1設原始數據構成的序列為X(0),對原始序列進行一次累加生成(1-AGO)得到新的數據序列X(1)。
步驟2構建新生成序列X(1)的緊鄰均值生成序列,記為Z(1)。由此得到 GM(1,1)模型的灰色微分方程x(0)(k)+az(1)(k)= b 。
步驟3基 于最小二乘原理,可得到參數a, b滿足的條件為h(?)=(a, b)T =(BT B)?1 BTY,矩陣B 是構造累加矩陣,向量 Y 為常數項向量。
步驟4由 序列 X(0) , X(1) , Z(1)可得到 GM(1,1)模型的白化微分方程,將 GM(1,1)模型白化方程的解稱為時間響應函數。
步驟5求解得到白化微分方程的時間響應序列后,通過累減生成還原得到原始序列為?(x)(0)(k+1)=?(x)(1)(k+1)??(x)(1)(k),即灰色 GM(1,1)的預測方程表達式,對其進行求導還原就可得到序列還原值。
傳統的 GM(1,1)模型是用一階微分方程對單個變量實現預測的模型,其建模過程主要是利用齊次指數序列來擬合原始數據。因此, GM(1,1)模型對于具有近齊次指數的原始序列具有較好的擬合與預測性能。但是,現實生活中存在許多不確定因素,絕大部分的時間序列都不符合指數增長規律。對于體檢指標序列,這類序列由于數值結果不確定性大、時間間隔不統一導致的數值缺失,以及數據上下波動等原因,使得體檢指標序列更符合近似非齊次指數序列變化特征。同時,傳統的 GM(1,1)模型中參數估計方程是離散的,模型預測方程是連續的,為了解決離散參數估計和連續預測表示之間跳躍所產生的模擬誤差,本文借鑒了謝乃明等[21]提出的離散灰色模型 DGM(1,1)基本思想,使改進灰色模型的參數估計和模型預測都是離散形式。
結合上述體檢序列特征分析和預測模型性能分析,為了構建適用于體檢指標序列的預測模型,本文構建一個近似非齊次指數序列的離散 GM(1,1)模型(non-homogenous discrete grey model),簡寫為 NDGM(1,1)模型。
同樣地 ,設原始非負序列為 X(0): X(0)= (x(0)(1), x(0)(2), ··· , x(0)(n))。其中,x(0)(i)>0, i =1, 2, ··· , n。經過一次累加生成得到新序列 X(1):X(1)=(x(1)(1), x(1)(2), ··· , x(1)(n)),從而得到離散灰色模型 NDGM(1,1)的表達式為 x(1)(t +1)+ ax(1)(t)= bt+ c,則模型的白化微分方程表達式為
式中,參數列 h(?)=(a, b, c)T 為 NDGM(1,1)模型待求解參數。
求解 NDGM(1,1)模型白化方程的時間響應序列,首先公式對應的齊次方程為
解出齊次方程的通解為x(1)(t)= C1e?at。利用常數變易法,令C1= f(t),則x(1)(t)= f(t)e?at。對x(1)(t)=f(t)e?at兩端同時求導后代入式(2)可得
將式(5)代入x(1)(t)= C1e?at中,可知
當 t =1時,可得 x(1)(1)= t ? + +Ce?a,解出 C 的表達式為
將式(7)代入式(6)得到 NDGM(1,1)模型的時間響應序列表達式為
則式(8)經過累減還原得到還原式為
當t =2, 3, 4, ··· , n時,?(x)(0)(t)為模型所得擬合值;當t = n+1, n+2, ···時,?(x)(0)(t)為模型所得預測值。
令α= e?a,β=(1? e?a ),γ=(1? e?a )? +,則式(8)可表示為
式(10)的參數列C(?)=(α,β, γ)T ,由最小二乘法得到參數的估計值,當式(11)所示的誤差平方和達到最小時可求解出參數α,β, γ。
參數列 C(?)=(α,β, γ)T應滿足條件(α,β, γ)T =(BT B)?1 BTY,其中
a, b, c的估計值分別為
將參數估計值?(a), b(?), ?(c)代入式(9)所得的還原式,即可求出原始數據序列的模擬值和預測值。
NDGM(1,1)模型建立后,為了評價模型運行的可行性,需要對模型進行精度檢驗,本文利用后殘差檢驗法進行檢驗。記原始序列X(0): X(0)=(x(0)(1), x(0)(2), ··· , x(0)(n))和殘差序列ε(0)=(ε(1), ε(2),··· , ε(n))=(x(0)(1)??(x)(0)(1), x(0)(2)??(x)(0)(2), ··· , x(0)(n)??(x)(0)(n))的方差分別為 S1(2), S 2(2),計算公式分別為
式中:?(x)(0)表示原始序列的均值,計算公式為?(x)(0)=x(0)(k);ε(?)(0)為序列殘差均值,且ε(?)(0)= ε(0)(k)。
后驗殘差檢驗法是利用后驗差比值c和小概率誤差p進行檢驗,二者計算方法為
若 NDGM(1,1)模型滿足表1所示的模型精度標準,則說明構建的 NDGM(1,1)模型合格。
2.2 ARIMA 模型的構建
將時間序列定義為一組按時間先后順序排列的數據集合,時間序列預測就是指利用模型分析和處理時間序列,根據時間序列呈現出的規律,構建有效的模型對數據未來發展趨勢進行預測。常用于預測平穩時間序列的時間序列模型包括自回歸模型 AR(n)、自回歸移動平均模型 ARMA(p,q)、差分自回歸移動平均模型 ARIMA(p,d ,q)。
ARIMA(p,d ,q)模型的建模過程為,首先將非平穩時間序列經處理后轉化為平穩時間序列,然后將因變量只對其滯后值(階數)以及隨機誤差項的現值和滯后值進行回歸分析。 ARIMA(p,d ,q)模型對于短期時間序列預測具有較高的預測精度。其中: AR 表示自回歸; MA 表示移動平均; p, q分別表示 AR ,MA 的階數; d表示差分的階數,一般取值為1階或2階序列達到穩定。ARIMA(p,d ,q)模型為
式中:?d =(1? B)d為差分運算;{εt }表示零均值白噪聲序列;Φ(B)=1??1B?···??p Bp ,Θ(B)=1?θ1B?···?θp Bp分別表示模型 ARIMA(p,d ,q)的自回歸系數多項式和移動平均系數多項式;B 表示延遲算子,并且滿足Bnxt = xt?n 。
ARIMA(p,d ,q)模型的建模包括時間序列預處理、模型識別和定階、模型檢驗、模型驗證及優化和模型預測5個步驟。本文利用 Eviews 軟件進行 ARIMA 模型確定和指標預測,具體過程如下:
a.時間序列預處理。適用于 ARIMA(p,d ,q)模型的時間序列必須為平穩非白噪聲時間序列,對于非平穩時間序列,需進行數據預處理使原始序列滿足平穩化和零均值的條件。將實驗序列數據錄入 Eviews 軟件后,通過繪制原始序列的時序圖來判斷序列的平穩性。若序列是非平穩狀態,采用取對數或差分處理等操作進行處理,處理完后進行 ADF 單位根檢驗序列平穩性。
b.模型識別和定階。對于模型的識別和定階本質上就是確定參數p ,q的值,基于數據預處理后的平穩時間序列,計算出實驗數據集的自相關系數 ACF 和偏自相關系數 PACF。對預處理后的序列通過 Eviews 軟件的 Correlogram 得到序列自相關圖和數值,采用 AIC 準則為預測模型的階數p和 q取合適的值。
c.模型檢驗。對識別和定階后的 ARIMA 模型進行參數估計,模型的檢驗包括參數估計的顯著性檢驗和殘差序列的隨機性檢驗,即驗證殘差之間的獨立性。確定 ARIMA 模型各項階數后,在 Eviews 中創建估計方程式得到 Prob.值, Prob.值若小于5%則模型是顯著的,可靠性較高。
d.模型的驗證和優化。根據模型檢驗結果對模型的階數進行調整和優化,使構建出的模型滿足顯著性檢驗要求。即若步驟 c 中得到的模型估計結果未通過檢驗,則返回修改模型階數p和q,重新進行檢驗。
e.模型擬合和預測。利用構建好的 ARIMA 模型對實驗時間序列進行擬合,并預測數據未來的趨勢。對于檢驗通過的 ARIMA 模型利用 Eviews 中的 Forecast 模塊,在 sample 欄中選擇需預測的實驗數據進行逐步向前預測。
2.3 組合預測模型 NDGM-ARIMA
各類預測模型的研究重點和關注方向都有所不同,因此,對同一個實驗數據集進行預測,不同的模型會產生不同的結果。為了提高預測模型的預測精度以及模型的適用性,本文將 NDGM(1,1)模型和 ARIMA(p,d ,q)模型進行組合,簡稱 NDGM- ARIMA 模型。組合預測模型綜合考慮兩個模型的預測結果,通過為單個模型的預測結果賦予最佳的權重系數,最大限度地利用多個模型的樣本信息。構建組合模型,也在一定程度上減少了單個預測模型受外界因素的干擾,考慮問題更加全面系統,從而提高模型預測的精度。
本文構建的 NDGM-ARIMA 組合預測模型用于實現個人體檢指標序列的預測,模型具體的表達式為: X(?)(t)= wG(?)(t)+(1? w)A(?)(t)。其中: G(?)(t)表示NDGM(1,1)模型 t 時刻的預測值;A(?)(t)表示 ARIMA模型 t 時刻的預測值; w為組合模型權重值,取值范圍為w ∈[0, 1],表示單個模型預測結果的重要程度。
在組合預測模型中,如何恰當地求解出權重系數是關鍵。確定權重系數常用方法包括算術平均法、最優加權法、方差倒數法等。算術平均法是在對模型重要性缺乏了解時常用的權重選定方法,但是該方法缺乏對單個模型重要性的掌握,對每個模型賦予相同的權重,不分優先順序使得預測效果不佳。最優加權法需要求解線性或非線性規劃,計算復雜并且計算結果有可能為負,在實際應用中具有較大的局限性。方差倒數法則是通過預測模型的誤差平方和的計算來反映預測精度,相較于算數平均法和最優加權法,直接應用預測誤差平方和更能反映各個模型在組合預測中的重要程度,賦予的權重數值更為合理有效。而且方差倒數法易操作,獲得的預測效果好。因此,為求解預測模型最佳的組合權重大小,本文采用方差倒數這一方法。方差倒數的目的是使組合預測模型的誤差平方和盡可能小。因此,需要對組合模型中誤差平方和大的模型賦較小的權重值,對誤差平方和小的模型賦較大的權重值。
采用方差倒數進行組合權重賦值,首先計算出單個預測模型的預測誤差平方和。用ei表示第 i個模型的誤差平方和,其計算方式如式(18)所示。
式中: xi為原始數據;?(x)ti 為其對應的預測值;(xi ??(x)ti)為預測誤差。
計算出單個模型的誤差平方和在全部模型中的占比,這一占比即該模型的權重值大小。利用模型的預測誤差得到權重系數的計算公式為
式中,Σ(m)wi ?1=1, j =1, 2, ··· , m。
由式(19)可以發現,當單個模型的誤差平方和越大時,獲得的權重越小,則模型預測精度越低,預測結果的價值度越低。
3 個體體檢指標預測實驗及結果分析
3.1 實驗數據集描述
心血管疾病已成為當前社會的一種高發疾病,該類疾病的高危致病因素眾多,包括高血壓、糖尿病、肥胖、血脂異常、吸煙和過度飲酒等。由相關統計數據可發現,近年來,心血管疾病患者死亡率極高,所以人們必須對此類疾病引起重視,加強自身健康管理。患者通過定期健康體檢,可以幫助醫生和患者及時了解當前身體狀況,發現關鍵病因信號,提前進行預防和治療,降低患病的風險。因此,構建適當的預測模型,實現對人體主要健康指標序列的有效預測,具有重要的現實意義。
本文采用天池公開數據集中的心臟病體檢數據集進行分析,數據集中包含多名體檢者連續多年的體檢數值,例如血脂水平中甘油三酯、總膽固醇、高密度脂蛋白膽固醇、低密度脂蛋白膽固醇4項指標和空腹血糖指標等數值。實驗選擇空腹血糖指標作為實驗數據序列,血糖指標是檢測心血管疾病和糖尿病的關鍵指標,同時也是人體健康管理中重要的體檢指標,關注血糖值的變化可以有效監測到心血管類疾病。空腹血糖指標的正常取值為3.9~6.1 mmol/L 。在4個不同年齡段(20~30歲,30~40歲,40~50歲,50~60歲)中隨機選擇一名體檢者,對4名體檢者的空腹血糖指標進行擬合和預測。4名體檢者2005—2014年指標的空腹血糖體檢時間序列為表2,將4名實驗對象樣本分別用X1,X2,X3,X4表示。
3.2 模型預測結果及分析
為了更加直觀地分析組合預測模型的性能,利用 ARIMA(p,d,q),GM(1,1),NDGM(1,1),NDGM- ARIMA 組合預測模型4個模型對血糖體檢時間序列進行擬合和預測,通過分析各模型的預測值和相對模擬誤差Δ(t)來分析組合預測模型的預測性能。相對模擬誤差計算公式如下:
3.2.1 ARIMA(2,2,1)模型預測
實驗分別對4名體檢者空腹血糖時間序列建立相應的 ARIMA 預測模型。例如45歲體檢者 的時間序列由原始序列 X(0)=(x(0)(1), x(0)(2), ··· , x(0)(10))=(5.69, 5.03, ··· , 5.78)可知,原始序列是一 個非平穩時間序列,首先進行差分處理轉化為平穩序列。將數據輸入 Eviews 軟件中,對原始序列進行 ADF 檢驗, ADF 檢驗結果如圖1所示。可發現當二階差分時,所有 t 值的絕對值均小于 ADF 檢驗統計量的絕對值,且p 值為0.0090,小于0.05,說明原序列已轉化為平穩時間序列,則 ARIMA 模型的差分階數為d =2。
接著,對模型進行識別,確定模型的 ACF 和 PACF。利用 Eviews 軟件 Correlogram 相關圖查看序列二階差分的 ACF 和 PACF 值,得到如圖2所示的自相關圖。
由圖2可知,時間序列的自相關系數 ACF 在1階截尾,偏自相關系數 PACF 在2階截尾。因此,構建 ARIMA(2,2,1)模型對空腹血糖體檢序列進行預測。之后,在 Eviews 軟件中進行建模,采用列表法對 ARIMA 方程進行定義: data c ar(1) ar(2) ma(1),根據定義后的模型得到 ARIMA(2,2,1)模型具體的表達式為
對于27,35,57歲體檢者血糖序列,同樣利用 Eviews 軟件建立最優的 ARIMA 模型,得到 27歲體檢者血糖序列的時間序列預測模型為 ARIMA(2,1,1),35歲對應模型為 ARIMA(3,1,2),57歲對應模型為 ARIMA(3,2,2)。
3.2.2 NDGM(1,1)模型預測
同樣地,對于4個時間序列建立對應的 GM(1, 1)模型和離散灰色模型 NDGM(1,1)。以表2所示的45歲體檢者的血糖數據為具體例子進行建模,可知該體檢者空腹血糖指標原始序列為 X(0)=(x(0)(1), x(0)(2), ··· , x(0)(10))=(5.09, 5.03, ··· , 5.78),利 用 python 代碼建立序列X(0)的 GM(1,1)模型,得到模型參數a =?0.01026,b =4.946395,則關于空腹血糖指標預測的 GM(1,1)模型的時間響應表達式為
進一步對優化后的 NDGM(1,1)模型的參數α(?) ,β(?) , γ(?)及a ,b ,c進行參數估計,計算出具體的數值結果,α(?)=0.1286,β(?)=4.5564,γ(?)=5.3875,a =2.0507, b =10.7234,c =5.6018,得到 NDGM(1,1)模型為 ?(x)(0)(t)=0.2791(1?e2.0507)e?2.0507(t?1)+5.2291(23)
同理可得:27歲體檢者的 GM(1,1)模型和 NDGM(1,1)模型表達式分別如式(24)和(25)所示;35歲體檢者的 GM(1,1)模型和 NDGM(1,1)模型表達式分別如式(26)和(27)所示;57歲體檢者的 GM(1,1)模型和 NDGM(1,1)模型表達式分別如式(28)和(29)所示。
3.2.3灰色–時間序列組合模型 NDGM-ARIMA 預測
將4個預測模型 ARIMA(2,2,1), GM(1,1), NDGM(1,1)和 NDGM-ARIMA 組合模型分別對 4名體檢者2005—2014年空腹血糖體檢序列進行預測,各個模型對45歲體檢者血糖的預測結果如表3所示,4名體檢者的整體預測結果如圖3所 示。利用式(19)的權重系數計算方法確定組合模型的權重系數,得到在對45歲體檢者進行預測時, NDGM(1,1)模型和 ARIMA(2,2,1)模型的權重系數分別為0.6286,0.3714。
由圖3所示的4名體檢者的預測結果曲線和實際數據曲線對比分析可知,論文對于35歲體檢者的空腹血糖指標預測結果并非是對比模型中最佳的。這有可能是因為在數據集中,該體檢者初始體檢年份血糖指標與最終體檢年份的指標數值相差較大。由于存在各種外界因素導致的兩個體檢數據的不準確和差距較大,使得模型的誤差較大,從而導致預測精度下降。但是,通過進一步分析35歲體檢者空腹血糖指標預測值可以發現,構建的組合模型與最優預測模型二者間的預測值相差極小。同時,組合預測模型在其余3個年齡段的體檢者的血糖值擬合上都更接近真實數值,說明了組合模型對于絕大多數的體檢數據預測是有效的,也證明了組合模型預測結果的真實性、高可信度。
進一步對45歲體檢者血糖指標預測具體數值進行分析。與傳統的 GM(1,1)模型對比,改進的灰色模型 NDGM(1,1)在實驗序列上的擬合值雖然存在部分預測值差于 GM(1,1)模型,但是從兩個模型的平均相對誤差來看, NDGM(1,1)模型的平均相對誤差為0.0501,GM(1,1)模型的平均相對誤差為0.0528,NDGM(1,1)模型的平均相對誤差小于 GM(1,1)。這一實驗結果顯示,構建的 NDGM(1,1)模型在體檢指標序列預測上整體的預測效果優于 GM(1,1)模型,說明構建的改進灰色預測模型在預測精度上得到了一定程度的提升。
通過 NDGM-ARIMA 模型與3個單個預測模型的對比,組合模型的擬合值和相對誤差都優于單個灰色預測和時間序列模型,這說明組合模型確實適用于健康體檢指標的預測,模型的擬合值更加接近實際體檢數據。另外,這也證明了組合模型能夠更好地結合單個 NDGM(1,1)模型和時間序列模型的優點,在一定程度上克服了單一預測模型的局限性,提高了模型的預測精度。
利用 NDGM-ARIMA 組合模型預測45歲體檢者2015—2018年的血糖數值,預測結果如表4所示。
已知空腹血糖的正常范圍為3.6~6.1 mmol/L,結合2015—2018年的預測值來分析該體檢者身體狀況變化趨勢。由預測數值可發現,該體檢者的空腹血糖指標數值呈現緩慢上升的趨勢,預計到2017年血糖指標數值將達到6.12 mmol/L,已經突破人體空腹血糖正常值最大臨界值,體檢者極有可能患糖尿病等疾病,危害身體健康。因此,由預測結果可以得出,體檢者未來幾年患糖尿病和心血管疾病的潛在風險很大,必須注意自身糖分的攝入,加強身體日常管理,提前做好預防措施或采取及時的治療手段。
4 結 論
傳統體檢指標分析僅局限于單次指標數值高低的靜態分析,忽略了因個體差異導致的體檢數據的動態變化趨勢。因此,構建合理有效的數據模型來挖掘體檢指標的發展規律,準確預測體檢數值的變化趨勢和未來取值范圍,并基于預測結果對個體健康狀況實施預警管理,通過監測人體主要健康指標的變化,及時發現潛在的患病因子或風險因素,進一步采取有效的預防和治療措施,對于實現個體健康管理具有重要的現實意義。
為了構建適用于個體主要健康體檢指標的預測模型,加強模型在體檢指標上的預測性能,本文提出一個改進灰色模型和時間序列模型相結合的組合預測模型。首先分析體檢指標序列的特征,考慮到體檢指標序列是一個近似非齊次指數序列,以及 GM(1,1)模型中的離散和連續之間的誤差,構建了一個近似非齊次指數序列的離散灰色模型 NDGM(1,1)。其次,為了將單個預測模型的優勢結合在一起,論文將時間序列預測模型 ARIMA(p,d ,q)和 NDGM(1,1)模型進行組合得到 NDGM-ARIMA 模型。在盡可能保證組合模型誤差平方和達到最小的情況下,為兩個模型的預測結果賦予最佳權重系數,并將加權后的結果作為最終的模型擬合結果和預測結果。NDGM-ARIMA 組合模型在血糖體檢指標數據集上的預測結果表明,組合模型在體檢指標序列上的預測精度有所提高,保證了預測結果的有效性和準確性,從而可以利用預測結果有效地分析出個人主要健康體檢指標的變化趨勢,實現人們健康管理的目標。
但是,本文模型存在一定的局限性。首先,本文研究數據集為等時距的近似非齊次指數序列,然而,實際應用中存在大量的非等間距的近似非齊次指數序列,容易導致因數據序列類型不符合預測模型而出現較大的建模誤差。因此,如何進一步拓展灰色預測模型的適用范圍將成為未來的研究方向。其次,本文組合模型中僅使用了方差倒數法求解各預測模型權重,但是單一賦權的方式可能存在較大的權重求解誤差,因此在對多種賦權方法研究的基礎上,是否可通過將兩種及以上賦權方法結合起來進行求權,從而提高預測模型建模精度,同樣是本文進一步的研究方向。
參考文獻:
[1]周偉杰, 張宏如, 黨耀國, 等.新息優先累加灰色離散模型的構建及應用[J].中國管理科學 , 2017, 25(8):140–148.
[2]曾波, 劉思峰, 曲學鑫.一種強兼容性的灰色通用預測模型及其性質研究[J].中國管理科學 , 2017, 25(5):150–156.
[3]陸冬磊, 吳春峰, 段勝剛, 等.應用灰色模型 GM(1, 1)預測上海市副溶血性弧菌引起的食源性疾病發病率[J].環境與職業醫學, 2015, 32(8):728–730.
[4]曾波, 劉思峰, 白云, 等.基于灰色系統建模技術的人體疾病早期預測預警研究[J].中國管理科學, 2020, 28(1):144–152.
[5]華來慶, 申廣榮, 熊林平, 等. ARIMA 模型在黃瓜霜霉病疾病指數時間序列建模中的應用研究[J].第二軍醫大學學報, 2006, 27(7):729–732.
[6] VALIPOUR M, BANIHABIB M E, BEHBAHANI S M R. Comparison? of the? ARMA,? ARIMA,? and? the autoregressive artificial neural network models inforecasting the monthly inflow of Dez dam reservoir[J]. Journal of Hydrology, 2013, 476:433–441.
[7]劉瓊, 楊建華.隱馬爾科夫模型在乙肝發病預測中的應用[J].數學的實踐與認識, 2017, 47(19):203–210.
[8]聶雄, 陳華, 伍思霖.基于灰度共生矩陣和 BP 神經網絡的乳腺腫瘤識別[J].電子技術應用 , 2019, 45(7):97–101,116.
[9]王振飛, 陳金磊, 鄭志蘊, 等.面向心血管疾病的自適應模塊化神經網絡預測模型[J].小型微型計算機系統 ,2019, 40(1):232–235.
[10] ASILT?RK ?, ?UNKA? M. Modeling and prediction of surface roughness in turning operations using artificial neural network and multiple regression method[J]. Expert Systems With Applications, 2011, 38(5):5826–5832.
[11] MCCLELLAND G H, IRWIN J R, DISATNIK D, et al. Multicollinearity is a red herring in the search for moderator variables: a guide to interpreting moderated multiple regression models and a critique of Iacobucci, Schneider, Popovich, and Bakamitsos (2016)[J]. Behavior Research Methods, 2017, 49(1):394–402.
[12] SHIOTA S, OKAMOTO Y, OKADA G, et al. The neural correlates of the metacognitive function of other perspective: a multiple regression analysis study[J]. Neuroreport, 2017, 28(11):671–676.
[13] YOO H Y, LEE J H, KIM D S, et al. Enhancement of glucose yield from canola agricultural residue by alkali pretreatment based on multi-regression models[J]. Journal of Industrial and EngineeringChemistry, 2017, 51:303–311.
[14]王永斌, 李向文, 柴峰, 等.采用灰色–廣義回歸神經網絡組合模型預測我國塵肺病發病人數的方法探討[J].環境與職業醫學, 2016, 33(10):984–987.
[15]嚴薇榮, 徐勇, 楊小兵, 等.基于 ARIMA-GRNN 組合模型的傳染病發病率預測[J].中國衛生統計, 2008, 25(1):82–83.
[16]時冬青, 宋文華, 張桂釧, 等.基于灰色 GM(1, 1)–馬爾科夫模型的職業病預測研究[J].中國安全生產科學技術, 2017, 13(4):176–180.
[17]范文俊, 劉靜怡, 史菲, 等.新型炎性指標對冠狀動脈疾病的診斷預測價值[J].醫學研究雜志 , 2021, 50(1):80–85.
[18]章玫紅.血清 Hcy 水平在心腦血管類疾病風險預測中的價值分析[J].中國社區醫師, 2021, 37(16):103–104.
[19]劉丹, 趙森, 顏志良, 等.基于堆疊自動編碼器的 miRNA-疾病關聯預測方法[J].計算機科學, 2021, 48(10):114–120.
[20]苗立志, 白瑞思蒙, 劉成良, 等.面向非平衡數據的癌癥患者生存預測分析[J].計算機工程, 2021, 47(12):316–320.
[21]謝乃明 , 劉思峰.一類離散灰色模型及其預測效果研究[J].系統工程學報, 2006, 21(5):520–523.
(編輯:丁紅藝)