吳志勇 丁香乾 許曉偉 鞠傳香
據世界衛生組織統計,2012年全球約有17.5萬人死于心血管疾病,占全球死亡人數的31%[1].為降低心臟疾病的發生,預防性的前期診斷是關鍵.心電圖作為一種重要的非侵入式心電檢測工具被心臟專家廣泛使用.通常情況下,針對短時心電圖可通過視覺觀察來識別各種心電信號異常的各種癥狀.但是,隨著便攜式心電圖(例如,Holter、Loop recorder)的廣泛使用,因其可連續記錄24小時、48小時,甚至14個月的心電信號記錄[2].面對龐大的數據,采用傳統的視覺方法判斷心臟疾病已不可能,取而代之的是采用智能化的心電信號自動分類技術.
心電信號自動分類系統通常包括5個階段,包括心電信號采集、預處理、心跳分段、特征提取和降維、自動分類,如圖1所示.心電信號采集可綜合利用智能硬件、物聯網等核心技術遠程采集心電信號數據,匯入醫療健康數據倉庫.心電信號預處理主要去除心電信號的各種噪聲,為后續階段處理提供干凈的信號信息,去除的心電噪聲主要包括基線漂移、工頻干擾和高頻噪聲等[3].心跳分段的目的是提取每個完整的心跳周期波形,需要檢測P波、QRS波群和T波等關鍵點[4].針對心電信號預處理和心跳分段技術,已有眾多學者在文獻中進行了研究并得到了廣泛應用,本文重點研究心電信號特征提取和自動分類兩方面技術.在心電信號特征提取方面,近十年來大量文獻提出了各種方法,包括心電信號形態特征[3]、時間間隔特征[5]、小波變換特征[6]和高階統計特征[7]等.為獲取更有效的特征集合,在分類系統應用中往往組合運用多種類型的心電信號特征,為此,特征降維方法,例如主成分分析、獨立成分分析等[6?9]常應用于上百心電特征的關鍵特征提取中.在心電信號自動分類技術方面,以低維特征空間為基礎,分類模型多采用各種智能算法,例如人工神經網絡[9]、最近路徑森林[10]、群智能算法[11]和模糊分類[12]等.
從以上提到的各種文獻來看,盡管各種心電信號分類系統在特定心電信號數據集(例如,MIT-BIH、AHA和CSE數據庫等)取得較高的準確率.但仍然面臨以下幾個問題:1)特征提取的過程通常需要心臟專家的參與,導致時間和費用成本的增加;2)因心電特征需人工設計,可能造成源心電信號特征信息丟失;3)構建的心電信號分類模型對不同病患者具有低適應性的缺陷.針對上述問題,近年來,隨著深度無監督特征提取技術的深入研究,基于深度學習技術的心電信號自動分類系統得到廣泛關注.
深度學習方法思想是對輸入層數據可自動學習特征的過程.與傳統方法相比,深度學習已在圖像識別[13]、語音識別[14]和生理數據分析[15]等方面取得較好的成績.典型的深度學習框架包括深度信念網絡(Deep belief network,DBN)[16]、棧式自編碼器(Stacked auto-encoder,SAE)[17]和卷積神經網絡(Convolutional neural network,CNN)[18]等.基于深度學習方法進行心電信號自動識別已有眾多學者開展研究,并取得了較好的結果.例如,Kiranyaz等[19]采用一維卷積神經網絡提取信號特征為特定病人進行心電異常實時診斷;Rahhal等[15]提出采用棧式自動編碼器從源心電信號中學習特征進行心電信號分類,并用Softmax算法實現多心律分類;Yan等[20]和Meng等[21]均基于受限玻爾茲曼機(Restricted Boltzmann machine,RBM)構造的DBN提取心電特征,在分類技術方面,前者使用Softmax多分類器,后者使用支持向量機決策樹.從上述文獻來看,基于無監督深度學習的心電特征提取技術相對于傳統的人工特征設計方法優勢突出,而在心電信號分類技術方面,仍舊難以體現心電信號模糊分類特性.傳統心電信號異常診斷中,醫生的診斷過程本身具有模糊性,而且大量復雜多樣心電信號中異常心跳屬于少數.因此,采用具有對稀有數據敏感特性、模糊性和更符合人類思維過程的模糊聚類過程算法進行心電信號分類得到廣泛研究.zbay等[22]結合模糊C均值(Fuzzy c-means,FCM)聚類算法和多層感知機對多種心電信號分類;Yeh等[23]利用FCM算法對異常心電分類并給出了4個詳細的聚類步驟.本文綜合深度學習與模糊分類技術的優勢,提出一種結合深度學習和模糊C均值技術的心電信號分類方法.首先,描述了該方法的技術流程,包括心電信號降噪預處理、心電信號分段和采樣點統一化、無監督心跳特征學習、模糊分類等;然后,提出模糊C均值深度信念網絡模型結構和算法,介紹了面向心電信號特征提取的深度網絡DBN構建方法和面向心電信號的模糊C均值分類方法;最后,基于MIT-BIH心律異常數據庫進行仿真實驗,驗證該方法的有效性.
本文基于深度學習和模糊C均值的心電信號分類技術流程如圖2所示,心電信號降噪預處理、心電信號分段和采樣點統一化、無監督心跳特征學習、模糊分類4個步驟依次推進、相互依賴,每個步驟都影響著最終分類結果的準確性.
采集的心電信號通常需要去除基線漂移、肌電噪聲和工頻噪聲等干擾信號,提高波形檢測和分類準確率.從去噪預處理技術發展來看,主要包括數字濾波器技術、自適應濾波器技術和以小波變換、數學形態學及神經網絡為代表的現代高新濾波技術.由于數字濾波器具有很好的系統可靠性、低廉的設計成本及靈活方便的應用性等優點,是心電信號預處理最簡單且廣泛的應用技術.本文按照de Chazal等[3]提出的降噪預處理方法,先用200ms中值濾波去除QRS波群和P波,然后再用600ms的中值濾波去除T波,最后用源信號減去兩個中值濾波后的信號即可得到去除基線漂移心電信號,肌電和工頻噪聲信號使用帶有35Hz、3dB、12-tap低通濾波器去除,最后得到可用于后續處理的心電信號.
心電信號分技術已有三十多年的研究歷史,主要圍繞P波峰和QRS波群的檢測來展開.Pan等[4]提出了一種基于數字濾波的檢測方法,可有效檢測P、QRS和T波的波峰、上下沿等關鍵點,該方法因其簡單性和有效性得到廣泛應用.本文利用基于該方法開發的Ecgpuwave工具 “http://www.physionet.org/physiotools/wag/ecgpuw-1.htm”識別心電信號各種波形邊界,以實現心電信號心跳分段.根據檢測獲取的各個關鍵點計算后,可容易分段各心跳樣本.因不同的個人身體狀況具有不同的心跳周期,分段后的樣本具有不同的采樣點數目,而心電特征抽取模型需要統一的輸入.為此,需要對心跳樣本進行采樣點統一化處理,本文采用插值算法對獲取到的心跳樣本統一化為200個采樣點.

圖1 心電信號自動分類系統流程Fig.1 The system flow of ECG classification

圖2 基于深度學習和模糊C均值的心電信號分類技術流程Fig.2 The process of ECG classification using deep learning and fuzzy C-means
無監督特征學習可自動抽取無標簽樣本特征,相對人工設計特征的方式能夠更好地發現潛在特征,且減少數據專家參與,具有省時、省力,降低數據分析成本的優點.目前,具有無監督特征學習能力的數據模型結構有多種,例如受限玻爾茲曼機(RBM)[16]及其擴展模型條件RBM[24]、門限RBM[25]、自動編碼器(Auto-encoder,AE)[26]、循環神經網絡 (Recurrent neural network,RNN)[27]等.本文采用具有無監督特征學習能力的DBN抽取心電信號的高層抽象特征,該DBN由多層高斯伯努利RBM(Gaussian-Bernoulli RBM,GBRBM)和伯努利伯努利RBM(Bernoulli-Bernoulli RBM,BBRBM)堆棧而成,最底層GBRBM用于接收連續值心電信號,最頂層使用線性激活函數輸出連續特征向量,構建過程包括無監督模型訓練和有監督模型優化微調兩個階段.
近年來,模糊系統在醫療健康領域得到廣泛應用,用于診斷和識別各種疾病,例如帕金森疾病[28]、乳腺癌[29]和肝臟疾病[30]等.從文獻來看,無監督模糊分類技術不僅應用于醫療圖像分段分析,還廣泛用于各種醫療體征信號的識別診斷中.例如,Meau等[31]基于多層感知機擴展了卡爾曼濾波,構建了一套復雜的模糊系統用于心電信號分類.Ozbay等[32]利用模糊聚類神經網絡進行早期心臟疾病診斷.本文以深度模型抽取的心電信號高層抽象特征為數據基礎,采用目前最為廣泛使用的FCM算法進行心電信號分類.FCM算法最早在1973年由Dunn提出[33],1981年Bezdek對該算法進行了優化[34],被廣泛應用于圖像檢索、語音識別和模式識別等領域.

則網絡模型的實現目標是基于采集的心電信號數據找到XL→YL的映射關系.本文提出的模糊C均值深度網絡結構包括DBN抽象特征提取和FCM分類兩部分,如圖3所示.底層DBN網絡模型由多層無方向的受限玻爾茲曼機(RBM)堆建而成,含有一層可接收連續心電信號的可見單元和多層二值隱藏單元,最后輸出高層連續抽象特征向量,為構建DBN模型通常需要無監督學習訓練和模型微調兩個階段.頂層FCM分類模型以DBN輸出的高層抽象特征為基礎,計算每類心電信號的聚類中心,然后計算最短距離的方式進行心電信號的模糊分類,為構建FCM模型一般需要計算心電信號聚類中心和中心距離計算兩個階段.
心電信號DBN模型采用經典的由低到高逐層貪婪無監督訓練RBM 方法,對深度網絡內的RBM 參數進行設置.RBM作為DBN的基本模塊具有很強的非線性無監督學習能力,能夠從復雜的數據中學習有用信息,具備針對一組狀態(v,h)的能量定義.模型第一層RBM因需要接收心電信號連續值,則使用高斯–伯努利RBM(GBRBM),其能量定義如式(2).模型其他層RBM 均為伯努利–伯努利RBM(BBRBM),其能量定義如式(3).

圖3 模糊C均值深度網絡結構Fig.3 Fuzzy C-means deep network structure

其中,v表示RBM的可見層單元向量,h表示RBM的隱藏層單元向量.分別為GBRBM和BBRBM的參數向量,W表示RBM可見層單元和隱藏層單元之間的無向權值向量,a和b分別為可見層單元和隱藏層單元的偏置向量,σ為可見層單元高斯噪音的標準差向量.n表示可見層單元數量,m表示隱藏層單元數量.
因RBM具有層間連接、層內無連接的結構,可方便計算第j個隱藏單元的條件概率和第i個可見單元的條件概率.則針對GBRBM和BBRBM,條件概率計算公式分別為式(4)、(5)和式(6)、(7).

其中,η(.|u,σ2)表示均值u和方差σ2的高斯概率密度函數,δ(x)表示邏輯回歸函數.
利用心電信號數據訓練RBM目的是獲取θ1和θ2參數值,可根據Hinton提出的對比散度快速學習算法[35]使其對數似然函數在訓練集上最大化,則連接權重wij、可見層單元的偏置ai和隱藏層單元的偏置bj的更新準則為:

依據DBN深度框架從低到高逐層訓練RBM的方法,在初始階段各層之間的連接權重w和偏置a,b全部隨機產生,最頂層輸出ht即為心電信號的高層抽象特征,如式(10)所示.

DBN無監督訓練結束后,使用L條有標簽的心電信號樣本通過梯度下降和反饋傳播算法對參數進行優化微調以增強模型的分類性能,此優化問題可用式(11)表達:

設H={h1,h2,···,hL}是通過深度DBN 模型抽取的對應L條心電信號樣本的抽象特征向量,若抽象特征維度為p,則H可用式(12)表示.

本文利用FCM算法,通過最小化目標函數(13),不斷更新隸屬度和心電信號分類中心,直到分類中心位置固定或兩次迭代的目標函數值之差在允許的范圍內.

其中,m為模糊度參數,U=(uc,l)C×L為劃分矩陣,如式(14),uc,l為屬于類c的hl特征向量的隸屬度,且滿足式(15)的兩個條件,V={v1,v2,···,vC}為心電聚類中心向量集合,vc可根據式(16)計算,dc,l為hl樣本特征向量到心電類c中心vc的歐氏距離.

傳統的模糊神經網絡通過調整模糊參數m來優化隸屬度函數以達到對目標數據進行分類的目的.而在模糊深度網絡結構中,針對心電信號分類需求,模型的優化需要心電信號采樣數據L、高層抽象心電特征向量H、模糊參數m和相應的標簽向量Y協同建模與微調.
算法1描述了FCMDBN的訓練和分類過程,因采樣得到的心電信號是連續值數據,在初始化DBN階段需設置最底層RBM類型為GBRBM,其他層RBM類型為BBRBM;隱藏層單元個數、模型層數、訓練次數和批次大小等參數根據心電信號數據維度和樣本集大小確定;動量學習率、學習率、懲罰率和初始偏置等,則需要經驗賦初始值;RBM初始化權值向量則隨機產生;模糊分類個數和聚類終止閾值根據具體心電信號分類需求進行設置,模糊度參數同樣需經驗賦值.
FCMDBN模型經過以下兩個構建過程后可對心電信號類型進行分類:
1)利用無標簽和有標簽的心電信號采樣數據訓練DBN模型,獲取心電信號類型的FCM劃分矩陣.首先,利用無標簽采用數據對DBN模型進行逐層貪婪無監督學習和有標簽采樣數據對DBN模型進行梯度下降監督學習.然后,依據獲取的高層抽象心電信號特征向量數據計算每類心電信號的聚類中心,構建劃分矩陣.
2)優化微調FCMDBN模型.結合反向回饋算法和FCMDBN模糊分類功能,利用有標簽的心電信號采樣數據進行逐層貪婪學習和梯度下降學習后對FCMDBN模型參數進行調整優化.
算法1.ECG-FCMDBN
輸入.訓練樣本;測試樣本
FCMDBN參數:
每層RBM類型{GBRBM,BBRBM};
模型層數n;每層單元個數N1,N2,···,Nn;
訓練次數E;隨機初始化權值向量w;初始化偏置向量a,b;
動量學習率?;學習率η;懲罰率p;批次大小s;
模糊分類個數C;模糊度參數m;聚類終止閾值ε;
輸出.FCMDBN模型的權值向量w,偏置向量a,b,劃分矩陣U
步驟1.基于心電信號ds_training訓練樣本對DBN進行逐層貪婪無監督學習

步驟2.根據式(10)對訓練的DBN進行有監督學習,獲取訓練樣本的高層抽象特征向量.
步驟3.根據式(12)計算每一種心電信號類型的聚類中心向量,構建劃分矩陣U.
步驟4.采用XL,YL,U微調FCMDBN模型
再次基于心電信號ds_training訓練樣本對DBN進行逐層貪婪無監督學習.
再次根據式(10)對訓練的DBN進行有監督學習,采用反向回饋算法調整DBN參數.
步驟5.基于心電信號ds_testing測試樣本進行分類.

圖4 5類心律波形圖Fig.4 Five types of cardiac rhythms graph

表1 5類心律MIT-BIH實驗數據集Table 1 The data set of MIT-BIH including five types of cardiac rhythms
實驗數據來源于MIT-BIH心律異常數據庫,該數據庫由麻省理工學院開發,數據全部采集于Beth Israel醫院的心律異常實驗室.MIT-BIH心律異常數據庫中每條記錄采集心電信號時間約30分鐘,采樣頻率360Hz,心跳類型18種并已做標簽注釋.共包含48條記錄,23條心電記錄可作為常規臨床記錄的代表性樣本,其他25條記錄包含了復雜心室、交界和室上性等心律失常問題.參照文獻[3]中對心電信號預處理方式,實驗選取5類心律類型進行分類,包括正常心跳(NORM)、左束支傳導阻滯(LBBB)、右束支傳導阻滯(RBBB)、室性早搏(PVC)和房性早搏(APC),如圖4中(1-1)、(2-1)、(3-1)、(4-1)和(5-1)所示.不同人體對象通常具有不同的心跳頻率,分段后的心電信號具有不同的心跳長度,實驗對分段信號進行重插值抽樣,在保持原有波形形態的情況下得到統一長度為200個采樣點的心跳信號,如圖4中(1-2)、(2-2)、(3-2)、(4-2)和(5-2)所示.最后得到的5類心律實驗數據集如表1所示,其中DS1為訓練數據集,DS2為測試數據集.
實驗中FCMDBN模型的DBN各層單元個數結構為{200?400?300?100?50?10},第1層200單元接收統一寬度的心電信號連續數據,第6層10單元輸出心電信號的高層抽象特征信息.模型定義動力學習率=[0.4 0.3 0.2 0.1 0],批次大小=100,訓練次數=50,懲罰率=0.0002;FCM 模糊分類個數=5,模糊度參數m=1.2,聚類終止閾值=0.001.實驗利用臺式計算機進行仿真,設備配置為Intel Core i7-4790,CPU 3.6GHz,RAM 16GB,and GPU Intel HD graphics 4600.
基于DBN抽取的樣本10個心電特征數據,本文對每類心律類型進行分析和聚類中心點計算.箱線圖 5描述了每類心律特征值信息,從圖 5結果來看,NORM、LBBB、RBBB、PVC和APC 5類心律值具有明顯可區分的分布范圍.表2給出了5類心律特征中心點數據,基于中心點數據計算某心電信號的距離進行心律分類.
實驗隨機選擇特征點向量為[3.8624,1.9699,?4.6216,3.3794,1.1686,2.2271,3.1660,3.5609,?3.5019,0.7997]的樣本,其與各特征中心點的歐氏距離分別為d1=14.4160,d2=12.6650,d3=9.6987,d4=9.5196,d5=10.6587,如圖6所示,根據距離最小原則,該心電信號樣本屬于RBBB類型.

圖5 心律特征值分布范圍Fig.5 Distribution range of cardiac rhythms features value
為方便分類結果比較,本文采用靈敏度(Sensitivity,Se),陽性預測值(Positive predictive value,PPV)和總準確率(Total classification accuracy,TCA)三種度量方式,公式定義分別如下所示.

其中,TP表示心跳被正確分類的個數;FN表示心跳被錯誤分類的個數;TN表示不屬于某種心跳被分類的個數;FP表示屬于某種心跳被錯誤分類的個數.

表2 5類心律特征中心點Table 2 The centers of feature vectors of five kinds of cardiac rhythms

圖6 隨機樣本與各類心率中心點歐氏距離Fig.6 Euclidean distance between random sample and the center point of heart rate
表3是基于FCMDBN模型在DS2數據集上的分類混淆矩陣結果,從表4分類結果性能比較來看,本文采用的基于深度學習的模糊分類方法可自動提取源心電信號的全面高層抽象特征進行聚類,相對其他方法具有較高的分類準確性,NORM、LBBB、RBBB、PVC、APC 5類心律的分類性能分別為:Se=98.32%PPV=99.28%;Se=98.32%,PPV=99.28%;Se=98.32%,PPV=99.28%;Se=98.32%,PPV=99.28%;Se=98.32%,PPV=99.28%,總體準確律TCA=96.54%.另外,仿真實驗中模型訓練和測試采用了不同的數據集,證明了所提方法對心電信號診斷的適應性更強.

表3 FCMDBN模型在DS2數據集上的分類混淆矩陣Table 3 Confusion matrix for ECG arrhythmias classification on DS2 using the FCMDBN

表4 分類結果性能比較Table 4 Performance comparison of classification results
面對大數據量心電信號自動分析診斷問題,本文提出了基于深度學習和模糊分類相結合的心臟疾病診斷方法.深度學習是目前研究最為廣泛的對象特征自動提取技術,在眾多應用領域均有研究成果,本文采用基于RBM構建的深度信念網絡DBN對連續心電信號進行高層抽象特征抽取,形成用于心律分類的特征向量數據基礎,然后結合模糊C均值聚類算法構建心電分類模型.仿真實驗表明:與傳統人工設計心電特征相比,本文所提方法分類準確率更高、適應性更強.未來工作可深入研究其他深度學習方法和分類算法相結合在心電信號自動分類中的應用,構建多種不同的體征信號自動分析算法庫.