王運濤,姜大志
(1.江蘇科技大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,江蘇 鎮(zhèn)江212003;2.汕頭大學(xué)工學(xué)院 計算機(jī)系,廣東 汕頭 515063)
基于EMD和GEP的急性低血壓預(yù)測方法研究
王運濤1,姜大志2
(1.江蘇科技大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,江蘇 鎮(zhèn)江212003;2.汕頭大學(xué)工學(xué)院 計算機(jī)系,廣東 汕頭 515063)
急性低血壓(Acute Hypotensive Episodes,AHE)是ICU重癥監(jiān)護(hù)室中患者常見且危害嚴(yán)重的術(shù)后發(fā)癥狀之一。AHE的有效診斷與預(yù)測,給予醫(yī)生足夠時間實現(xiàn)干預(yù)措施,具有十分重要的臨床意義。但由于血壓時間序列數(shù)據(jù)高度非線性和復(fù)雜性,使得AHE的診斷與預(yù)測尤為困難。為此,面向復(fù)雜非線性時間序列的建模,本文提出一種基于經(jīng)驗?zāi)B(tài)分解(Empirical Mode Decomposition,EMD)和基因表達(dá)式程序設(shè)計(Gene Expression Programming,GEP)的綜合方法,并構(gòu)建相似性匹配模版方法來提高建模的穩(wěn)定性。應(yīng)用PhysioNet?中MIMIC-II的數(shù)據(jù)進(jìn)行實驗分析,發(fā)現(xiàn)本方法是有效、可行的。為復(fù)雜非線性時間序列數(shù)據(jù)的建模預(yù)測提供了一條可參考的路徑。
時間序列;急性低血壓;經(jīng)驗?zāi)B(tài)分解;基因表達(dá)式編程
重癥監(jiān)護(hù)室(ICU)是守衛(wèi)病人生命的最后防線,而AHE則是ICU監(jiān)護(hù)中最嚴(yán)重也是最常遇到的術(shù)后并發(fā)癥之一。AHE的一般定義是:在1小時的預(yù)測窗口中,任何30分鐘或以上的時間內(nèi),至少有90%的平均動脈壓 (Mean Artery Pressure,MAP)等于或小于60mmHg。AHE的發(fā)生往往會導(dǎo)致病人不可逆的器官受損,嚴(yán)重時甚至危及病人的生命。現(xiàn)階段對發(fā)生急性低血壓的處理方式主要依靠臨床醫(yī)生的專家經(jīng)驗進(jìn)行處置,如通過采用針對性心理護(hù)理、合理的預(yù)防性措施、捕捉先兆癥狀及生命體征監(jiān)測等預(yù)見性護(hù)理措施。這些方法在實際臨床工作中費時、復(fù)雜且不經(jīng)濟(jì)。如果能根據(jù)ICU監(jiān)測的病人各種數(shù)據(jù)提前預(yù)判急性低血壓發(fā)生,給醫(yī)生予足夠的時間提前采取有效的干預(yù)措施,將極大的降低病人可能受到的危害。
實驗表明,急性低血壓發(fā)生與病人的一些監(jiān)測數(shù)據(jù)及其變化間存在著一定的關(guān)聯(lián),通過一段特定時期內(nèi)的監(jiān)測數(shù)據(jù)預(yù)測下一段時間內(nèi)急性低血壓發(fā)生在臨床上是可行的。國內(nèi)外已有研究人員通過臨床收集的病人數(shù)據(jù)如血壓、心率、氧氣飽和度等預(yù)測AHE的發(fā)生。比如Jules Bassale提出用ABP變化和形狀特性來預(yù)測AHE[1]。Saeed等引進(jìn)一種時間相似性度量,將時間序列數(shù)據(jù)轉(zhuǎn)換為直觀的符號表示,使用小波分解從多尺度描述時間序列,用以確認(rèn)ICU潛在發(fā)生AHE患者類似的血壓時間序列[2]。Frolich等提出使用心率基線作為低血壓的主要預(yù)測因子[3]。Henriques J和Rocha T提出利用多個神經(jīng)網(wǎng)絡(luò)預(yù)測1小時預(yù)測窗口中的MAP波形值等[4]。在國內(nèi),華南理工大學(xué)的研究團(tuán)隊用小波變換、支持向量機(jī)等方法做了許多先行工作。
人體生理時間序列數(shù)據(jù)具有高度的非線性性和復(fù)雜性,
數(shù)據(jù)也是如此。面向此類數(shù)據(jù),傳統(tǒng)的方法暴露出很多弱點。神經(jīng)網(wǎng)絡(luò)對學(xué)習(xí)樣本依賴性很高,對于高度復(fù)雜的時間序列數(shù)據(jù),泛化能力不強(qiáng),且需要預(yù)先指定網(wǎng)絡(luò)結(jié)構(gòu),容易陷入局部最優(yōu)等諸多限制。面向近似無序的數(shù)據(jù),支持向量機(jī)則很難指定其核函數(shù)和參數(shù)。對時間序列數(shù)據(jù)進(jìn)行小波分解,雖有效但是丟失原數(shù)據(jù)時域上的信息。EMD是由Huang于1998年提出對信號進(jìn)行平穩(wěn)化處理的一種新型時頻分析方法[5],該方法基于信號的局部特征時間尺度,將信號中不同尺度的波動或趨勢逐級分解開來,把信號分解成多個本征模態(tài)函數(shù)(intrinsic mode function,IMF)之和,分解出的各IMF突出了數(shù)據(jù)的局部特征,同時對其進(jìn)行分析便可準(zhǔn)確地把握原始數(shù)據(jù)的特征,相比小波分解,它能夠自適應(yīng)地將信號分解成不同頻率尺度的分量,不用預(yù)先指定基函數(shù)。GEP是由Candida Ferreira提出一種新型的、用于復(fù)雜非線性函數(shù)的建模方法[6-7]。GEP在繼承遺傳算法(Genetic Algorithm,GA)和遺傳編程(Genetic Programming)的優(yōu)點,同時又克服了他們的不足,提高建模效率達(dá)2-3個數(shù)量級以上。基于上述分析,本文提出一種基于EMD和GEP的建模預(yù)測方法,先通過EMD方法對AHE的MAP數(shù)據(jù)信號進(jìn)行分解形成若干IMF,然后利用強(qiáng)大的GEP建模能力對各個IMF進(jìn)行建模,通過對大量的歷史患者數(shù)據(jù)建立其預(yù)測模型,并保存為模版,當(dāng)有新的患者信號時,通過相關(guān)度算法尋找若干個最相似模版,然后綜合所選模版得出新患者未來一段時間內(nèi)MAP的數(shù)值并根據(jù)AHE的定義判斷其是否會發(fā)生AHE。通過對來自美國PhysioNET的MIMIC-II(Multi-parameter Intelligent Monitoring for Intensive Care II)重癥監(jiān)護(hù)數(shù)據(jù)庫的48個訓(xùn)練數(shù)據(jù)和45個測試數(shù)據(jù)進(jìn)行初步實驗驗證,準(zhǔn)確率達(dá)到84%,取得了不錯的效果,為AHE的建模預(yù)測提供了一條可借鑒的思路。
假設(shè)AHE時間序列數(shù)據(jù)表示為x(t),對其實現(xiàn)EMD分解的具體步驟可描述如下:
1)找出x(t)中所有極大值和極小值點,并用三次樣條插值構(gòu)建出x(t)的上包絡(luò)線和下包絡(luò)線。上下包絡(luò)線的平均包絡(luò)線設(shè)定為m1,將x(t)減去m1可得一個新序列,記為h1。若h1不是一個平穩(wěn)序列,則重復(fù)上述過程,直到平均包絡(luò)趨向零,即可得第一個本征模態(tài)分量(Intrinsic Mode Function,IMF),記為 IMF1。
2)用x(t)減去IMF1得到一個新序列r1,再對r1重復(fù)步驟1)得到IMF2,這樣一直重復(fù)直到剩余分量RES不可分為止。

GEP類似于生物中完整的DNA/蛋白質(zhì)系統(tǒng),DNA代表基因型即遺傳體,在GEP中即為染色體,它是用連接運算符連接起來的多個基因。基因是定長的字符串,它由頭部和尾部組成。頭部包含變量和運算符而尾部只包含變量。頭尾長度(分別記為 h,t)有如下關(guān)系:t=h(n-1)+1,其中 n為函數(shù)集合中所有運算符的最大目數(shù),上面的公式保證了基因總能解碼成有效的表達(dá)式樹。蛋白質(zhì)代表表現(xiàn)型即功能主體,在GEP中即是由染色體解碼成的表達(dá)式樹。GEP這種機(jī)制使得它能夠高效地遺傳操作,最大化搜索空間,這也使得它在數(shù)學(xué)建模中顯示出巨大的優(yōu)越性。GEP算法基本流程包括初始化染色體種群、遺傳操作(變異、轉(zhuǎn)座、重組等),限于篇幅限制,此處不再詳細(xì)描述,具體請見。
對于時間序列,我們建立形如y^(k)=f(y(k-1),y(k-2),…,y(k-N))的自回歸模型,該模型描述為給定過去N個點歷史數(shù)據(jù),通過一個函數(shù)f,計算出下一個點的預(yù)測值。
給定一組時間序列,通過滑動窗口擬合法確定f,算法的偽碼如下:

其中帶上標(biāo)符號的表示預(yù)測值,不帶上標(biāo)符號的表示實際值。
基于EMD與GEP的建模描述如下[8]:1)EMD分解。對初始信號進(jìn)行EMD分解,得到各個尺度和頻率的IMF分量和余項。分析各個IMF分量的特性,總結(jié)規(guī)律,確立出各個分量預(yù)測模型類型和結(jié)構(gòu)。2)GEP演化建模。根據(jù)模型的類型結(jié)構(gòu),確定適應(yīng)度函數(shù)、終結(jié)符、函數(shù)集以及其他運行參數(shù),經(jīng)GEP迭代擬合,找出最終適應(yīng)值最優(yōu)的模型。3)預(yù)測結(jié)果綜合。應(yīng)用每個分量模型分別預(yù)測,再將各個預(yù)測值相加即得到最終的預(yù)測結(jié)果。基于 與 的組合預(yù)測模型示意圖如圖1所示。

圖1 基于EMD與GEP的組合預(yù)測模型Fig.1 Based on EMD and GEP forecasting model


MAP信號經(jīng)EMD分解成多個本征模態(tài)函數(shù)IMF和一個只有單個極值表示信號趨勢的殘余 各種 信號的復(fù)雜度不同,經(jīng)EMD分解得到的IMF個數(shù)也不盡相同。我們發(fā)現(xiàn),頻率低的IMF分量和RES分量構(gòu)成原信號的主成分,代表了原信號的總趨勢,而頻率較高的各個IMF分量,主要由信號的非線性隨機(jī)成分構(gòu)成,這部分分量相對主成分來說,尺度較小。相對來說,表示主成分的信號由于頻率低,對其建模較容易,可以達(dá)到較好的建模精度;而高頻分量由于隨機(jī)性強(qiáng),對其建模難度較大,誤差也可能較大,但是由于其尺度較小,對最終的預(yù)測影響有限。圖2所示為某MAP信號及其主成分和隨機(jī)成分,從圖中可以看出,把握好主成分的模型精度,就能把握信號的總體走勢。

圖2 信號及其主成分和隨機(jī)成分Fig.2 The signal’s principal and random component
根據(jù)分量特性的不同,采用的模型結(jié)構(gòu)和GEP運行參數(shù)也有所變化。通過觀察和實驗比較,發(fā)現(xiàn)對于低頻分量,采用時間變量t的基本回歸模型建模效果更好,而對于高頻分量,采用上述的自回歸模型,能夠達(dá)到滿意的建模效果。基本回歸模型表示為Model(IMFi/RES)=fi(t)。表1為經(jīng)過實驗比較后選用的GEP運行參數(shù)。

表1 GEP運行參數(shù)Tab.1 GEP run parameter
由于AHE預(yù)測問題具有特殊性,不僅要求預(yù)測結(jié)果需要較高的準(zhǔn)確率,而且要求能夠以最快的速度及時地得到預(yù)測結(jié)果,因為這樣的結(jié)果才能為醫(yī)師對患者進(jìn)行提前干預(yù)爭取足夠的時間。所以針對本問題將預(yù)測過程分為兩個階段,第一階段,對歷史患者數(shù)據(jù),經(jīng)預(yù)處理后分別用基于 與GEP的組合建模方法建立模型并保存為模版;第二階段,對新的患者數(shù)據(jù),通過相關(guān)度算法,搜索出與已建模數(shù)據(jù)中最匹配的一些數(shù)據(jù),通過這些數(shù)據(jù)的模型預(yù)測,再經(jīng)過加權(quán)得出新的數(shù)據(jù)未來1 h內(nèi)的MAP信號,最后根據(jù)AHE的定義判斷該數(shù)據(jù)在未來1 h內(nèi)是否會發(fā)生急性低血壓。
實驗數(shù)據(jù)采用來源于美國PhysioNet網(wǎng)站的MIMIC-II數(shù)據(jù)庫的數(shù)據(jù),這些數(shù)據(jù)均為美國ICU病房病人的真實數(shù)據(jù)。數(shù)據(jù)以患者為單位,分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,其中訓(xùn)練數(shù)據(jù)集共有患者數(shù)據(jù)48個,每個數(shù)據(jù)都為每秒125 Hz采樣的動脈血壓 (ABP)數(shù)據(jù),測試數(shù)據(jù)集共有患者數(shù)據(jù)45個,每個數(shù)據(jù)都為每秒1 Hz采樣的平均動脈壓(MAP)數(shù)據(jù)。訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集中均包含有發(fā)生AHE和未發(fā)生AHE的數(shù)據(jù),我們將其定義為H和C,訓(xùn)練數(shù)據(jù)中H有23個,C有25個;測試數(shù)據(jù)中H有22個,C有23個。
按照時間序列分析的要求,我們通過預(yù)處理將數(shù)據(jù)均轉(zhuǎn)化為1點/分鐘的MAP時間序列。根據(jù)醫(yī)學(xué)意義,成人MAP高于140 mmHg屬于高血壓,而低于35 mmHg則意味著患者已昏迷或死亡,我們定義該范圍內(nèi)的數(shù)據(jù)為噪點,予以去除。對每個數(shù)據(jù)規(guī)定一個T0時間點,T0之后有 60點(1 h),即我們要判斷T0之后的1小時患者是否發(fā)生AHE。
信號匹配的算法有很多,如歐式距離法,動態(tài)時間彎曲DTW法,多分段形態(tài)距離法,符號統(tǒng)計法、信號分解匹配法等。這些方法或者有具體使用限制,或者操作過于復(fù)雜,并不適合本問題。本文采用下列相關(guān)度公式尋找匹配模版:

Rn表示新的患者數(shù)據(jù)與第n個已建模數(shù)據(jù)的相關(guān)度,X表示新的患者數(shù)據(jù),Yn表示第n個已建模數(shù)據(jù)(n=1,…48),X和Yn表示X和Yn的均值,size表示擬合數(shù)據(jù)長度。將計算得到的相關(guān)度從大到小排列,然后依據(jù)下列公式找出最匹配的模版:

L表示相關(guān)度為正數(shù)的模版的數(shù)量,M表示最匹配模版數(shù)量,th為閾值,控制模版數(shù)量,根據(jù)相關(guān)經(jīng)驗一般設(shè)置(0.1-0.3)之間。最后依據(jù)下列公式預(yù)測新患者未來1小時的MAP信號:

式中X(t)表示新患者的預(yù)測值,Yi(t)表示第i個匹配模版的預(yù)測值,t表示預(yù)測時間。
對測試數(shù)據(jù)集中的45個患者數(shù)據(jù)進(jìn)行預(yù)測。預(yù)測結(jié)果指數(shù)可以分為sensitivity(靈敏度)是正確預(yù)測發(fā)生AHE的概率,即預(yù)測會發(fā)生 而真實情況下也會發(fā)生 的個數(shù)與真實情況下發(fā)生AHE的個數(shù)之比;specificity(特效性)是正確預(yù)測不發(fā)生AHE的概率,即預(yù)測不會發(fā)生AHE而真實情況下也不會發(fā)生AHE的個數(shù)與真實情況下不發(fā)生AHE的個數(shù)之比;accuracy(正確率)是總的預(yù)測準(zhǔn)確率,即正確預(yù)測發(fā)生AHE和正確預(yù)測不發(fā)生AHE的個數(shù)之和與所有病人的個數(shù)之比。其公式分別如下:

式中,pos′是真正(正確預(yù)測發(fā)生 AHE的元組)數(shù),pos是正(發(fā)生AHE)元組數(shù),neg′是真負(fù)(正確預(yù)測不發(fā)生AHE的元組)數(shù),neg是負(fù)(不發(fā)生 AHE)元組數(shù)。
實驗最終的結(jié)果如表2和3所示。

表2 實驗結(jié)果Tab.2 Experimental results

表3 準(zhǔn)確率Tab.3 Accuracy
急性低血壓是重癥監(jiān)護(hù)室中一種常見的突發(fā)疾病,它的發(fā)生給患者帶來極大的危害,嚴(yán)重時甚至?xí)斐苫颊咚劳觥H绾卫肐CU監(jiān)測的患者數(shù)據(jù)提前預(yù)判急性低血壓的發(fā)生是目前國內(nèi)外正在研究的熱點課題。本文提出利用GEP基因表達(dá)式高效的函數(shù)挖掘和符號回歸搜索算法,結(jié)合EMD分解算法的自適應(yīng)特性,應(yīng)用于ICU急性低血壓的預(yù)測問題。通過實驗測試,準(zhǔn)確率達(dá)84%。這表明本方法可以作為預(yù)測患者急性低血壓的發(fā)生的一種有效方法。本文受條件所限,小樣本實驗在訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)質(zhì)量以及建立模型的過程中存在著很多不確定因素,都可能影響最終的預(yù)測準(zhǔn)確率。理論上,如果樣本數(shù)量足夠充分,按照本方法得到的預(yù)測準(zhǔn)確率將會更高。本次研究結(jié)果也可為今后進(jìn)一步研究打下良好的基礎(chǔ)。
[1]Bassale J.Hypotension Prediction—Arterial Blood Pressure Variability,Technical Report,2001.
[2]Saeed M.Temporal Pattern Recognition in Multiparameter ICU Data.;Doctoral dissertation,Department of Electrical Engineering and Computer Science,MIT,Cambridge,MA,2007.
[3] Frolich A.Caton D.Baseline heartrate may predict hypotension after spinal anesthesia in prehydrated obstetrical patients[J],Can.J.Anesth.49(2002)185–189.
[4]Rocha T,Paredes S,Carvalho P,et al.Prediction of acute hypotensive episodes by means of neural network multimodels[J].Computers in Biology and Medicine 2011(41):881–890.
[5]Huang Norden E,Z Shen,et al.,The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis[J].Proc.R.Soc.Lond.A,Royal Society,1998,454(3):903-995.
[6]Ferreira C.Gene expression programming:A new adaptive algorithm for solving problems[J].Complex Systems,2001,13(2):87-129.
[7]Dazhi Jiang,Zhijian Wu,and Lishan Kang,New Method Used in Gene Expression Programming:GRCM[J].Journal of System Simulation,2006,6(18):1466-1468.
[8]Xinqiao Fan,Yongli Zhu.The Application of Empirical Mode Decomposition and Gene Expression Programming to Short-term Load Forecasting[Z].2010 Sixth International Conference on Natural Computation.
Based on EMD and GEP acute hypotension episodes forecast methodology research
WANG Yun-tao1,JIANG Da-zhi2
(1.School of Computer Science and Engineering,Jiangsu University of Science and Technology,Zhenjiang 212003,China;2.Department of Computer Science,College of Engineering Shantou University,Shantou 515063,China)
Acute Hypotensive Episodes(AHE)is one of the recurrent postoperative symptoms occurring in intensive care units(ICU),which always result in serious hazard of patients.Early detection and diagnosis of AHE,gives professionals enough time to select a more effective treatment,has important clinical significance.Because that the blood pressure time series data is highly nonlinear and complexity,it makes the diagnosis and detection of AHE particularly difficult.For this purpose,this paper proposes an integrated method based on Empirical Mode Decomposition (EMD)and Gene Expression Programming(GEP)for complicated nonlinear time series modeling,and build a similarity matching models method to improve the stability of the model.The methodology is applied in the context of PhysioNet MIMIC-II(Multi-parameter Intelligent Monitoring for Intensive Care II)Database,experiments show that the methodology is effective and feasible.It is also expected that this study may offer a reference to model and forecast of the complex and nonlinear time series data.
time series;acute hypotensive episodes;Empirical mode decomposition;gene expression programming
TP301;TP181;R54
A
1674-6236(2014)13-0004-04
2014-03-12 稿件編號:201403147
國家自然科學(xué)基金項目(61175073);廣東自然科學(xué)基金(S2013010013974);汕頭大學(xué)國家基金培育項目(NFC13003)
王運濤(1982—),男,江蘇南京人,碩士研究生。研究方向:智能信息處理。