焦曉宇,周雪忠**,胡鏡清,謝 琪,周洪偉
(1. 北京交通大學計算機與信息技術學院 交通數據分析與挖掘北京市重點實驗室 北京 100044;2. 中國中醫科學院中醫基礎理論研究所 北京 100700;3. 中國中醫科學院 北京 100700;4. 中國中醫科學院中醫中醫藥數據中心 北京 100700)
基于可視化圖方法的體征時間序列數據分類分析研究*
焦曉宇1,周雪忠1**,胡鏡清2,謝 琪3,周洪偉4
(1. 北京交通大學計算機與信息技術學院 交通數據分析與挖掘北京市重點實驗室 北京 100044;2. 中國中醫科學院中醫基礎理論研究所 北京 100700;3. 中國中醫科學院 北京 100700;4. 中國中醫科學院中醫中醫藥數據中心 北京 100700)
目的:本研究采用復雜網絡理論研究體征時序數據,使用網絡特征刻畫體征時序數據的動態特征,分析網絡特征與人體生理系統健康狀態的關系。方法:本文采用可視化圖方法將標準心率時序數據和穿戴設備采集的老年人心率等體征時序數據網絡化,提取網絡特征,采用決策樹分類方法分析網絡特征與心臟疾病和年齡因素關系。結果:決策樹模型對心臟疾病和年齡因素有較好的分類結果,標準心率時序數據的分形特性使網絡度分布為冪律分布,網絡圖密度特征是與心臟疾病和年齡因素相關的主要因素。結論:網絡拓撲結構繼承體征時序數據的動態特性并將之體現在網絡特征上。體征時序數據的動態特性和網絡特征的對應關系還待進一步研究闡明。
時間序列 復雜網絡 網絡特征 生理體征 老年健康
時間序列數據是按時間順序記錄的數據點,是復雜系統的數據反映。時間序列挖掘將時間序列數據作為研究對象,以挖掘時間序列數據的穩定性、變異性等特性[1-3]。時間序列數據挖掘方法通常以特征表示和相似性度量為基礎,然后進行分類、聚類、興趣模式發現、異常模式發現、數據可視化等挖掘分析[2,4]。
根據復雜系統產生的時間序列數據來評價系統的狀態,是時間序列數據研究的重要研究內容,研究人員已經對此經過大量的研究,并在金融、醫學、氣象等領域取得了很大進步。例如,Costa M.等[4]提出多尺度熵的方法,在多個尺度上計算時間序列數據的熵值,用多尺度熵值來評價復雜系統的復雜性,并將多尺度熵算法應用到人體生理系統評價中。Lacasa L.等[5]提出將復雜系統的時間序列數據轉化為網絡,通過分析網絡模體將不同性質的復雜系統進行類目劃分[6,7,9],他們發現健康狀態不同者的心率時間序列網絡具有不同的模體結構。Zhang J.等[8]提出將周期性時間序列數據轉化為網絡的方法,探討網絡拓撲結構和復雜系統動態特性的關系。
時間序列數據的網絡化將復雜網絡的理論引入到時間序列數據的挖掘分析中,以網絡拓撲結構為基礎,探討網絡特征和復雜系統之間的關系。本文利用時間序列數據網絡化方法(Visibility Graph,VG)將時間序列數據轉化為網絡[5],抽取網絡特征作為時間序列數據的特征,結合機器學習的方法,探討了復雜系統特性評價的網絡化方法。文中選取人體心臟系統作為復雜系統,以心率時間序列數據為研究對象,分析了心率數據VG網絡的度分布特性,并采用監督分類模型進行心率時序數據網絡和心臟健康狀態關系模型的學習。
1.1 可視化圖方法
可視化圖方法VG的出發點是利用復雜網絡技術分析時間序列數據,探索時間序列數據結構特性與網絡特征的關系。首先是將時間序列數據轉換為網絡,轉換方式是將每一個數據點作為網絡的一個節點,節點間的邊滿足下列要求:
①相鄰的節點之間有邊相連;
②兩個數據點A<ta,ya>;B<tb,yb>;對于A、B間的任意數據點C<tc,yc>滿足:

則節點A、B可見,A、B有邊連接[5,9]。
VG算法將時間序列數據轉化為網絡,網絡將繼承時間序列數據的時間和空間特性,并將這些特性體現在網絡的拓撲結構中,因此不同性質的時間序列數據對應的VG網絡具有不同的網絡拓撲結構。對于周期時間序列數據,VG網絡繼承時間序列數據的周期特性成為規則網絡,整個網絡是一個周期內數據點形成的網絡的重復組合。
隨機網絡轉化為VG網絡后,較大的數據點具有更高的可見性,成為hub節點,使網絡的度分布成為指數函數,網絡是隨機網絡,如圖1所示。我們生成了一個具有10 000個數據點的隨機時間序列,圖1(a)為隨機時間序列的點線圖,圖1(b)為對應VG網絡的度分布,可見度分布為指數分布。

圖1 隨機數據及其生成的VG網絡的度分布
分形時間序列數據具有自相似的特性,其生成的VG網絡度分布具有冪律分布的特征,網絡為無標度網絡,如圖2所示[9]。我們生成了一個具有10 000個數據點的Conway序列,Conway序列為:

1.2 網絡特征
我們采用VG算法將時間序列數據轉化為網絡,進一步抽取網絡拓撲特征作為復雜系統的特征。我們選擇度分布、最大度、圖密度、集聚系數、全局集聚系數、介數分布、模塊度和特征路徑長度(Average Path Length,APL)這7個特征[10,11]。
度分布是指網絡中節點度的分布,不同性質的網絡度分布函數不同,隨機網絡、WS小世界網絡、NW小世界網絡的度分布近似泊松分布,無標度網絡的度分布為冪律分布。無標度網絡的冪律分布和時間序列數據分形特性間存在某種聯系[10]。最大度即為網絡中節點度的最大值,對于一個具有n個節點網絡,最大度為k的概率hk為:

其中pk為度值為k的概率,Pk為度分布的累積分布在k的值。最大度和時間序列數據的極值和最值有關,是產生hub節點的重要因素。
圖密度表示網絡中各節點之間聯系的緊密程度,無向圖圖密度D的定義為:

圖2 Conway時間序列數據和其VG網絡度分布

時序數據VG網絡的圖密度和時序數據的變動率有關。時序數據的變動率越大,時序數據節點間的可見性越高,時序數據生成的VG網絡圖密度越大。傳遞特性評價網絡中三角形的密度,在社交網絡中表示一個人的朋友的朋友也是其朋友,傳遞特性隨著網絡規模的增加趨向于非零極限。特征路徑長度為網絡中任意兩個節點之間的距離的平均值,一些節點數巨大的網絡的特征路徑長度卻很小。模塊度的概念最早由Mark Newman提出,用來衡量網絡社區結構強度,在iGraph中采用基于貪心思想的模塊度最大化貪心算法FN進行模塊度計算。
1.3 C4.5決策樹
決策樹是一個用于監督學習的層次預測分類模型,表示對象屬性與對象值之間的一種映射關系。決策樹使用樹狀圖形或決策模型,著眼于從一組無規則的事例推理出決策樹表示形式的分類規則。樹中每個非葉子節點表示某個對象屬性,而每個分叉路徑則代表某個可能的屬性值,每個葉節點則對應從根節點到該葉節點的路徑所示對象的值。決策樹的訓練時間相對較少,樹形的分類模型比較符合人類的理解方式[12]。
C4.5算法是最常用、最有影響的決策樹算法之一,是改良的ID3算法[13]。C4.5算法基于生成的決策樹中節點所含的信息熵最小的原理,采用信息增益比作為選擇測試屬性的標準,能夠處理離散值屬性和連續值屬性。
心率數據具有較快的頻率且方便采集,是研究人員常用的一種時間序列數據。我們選取了3種類型的心率數據,分別對應健康人(Normal Sinus Rhythm,NSR)、充血性心率衰竭患者(Congestive Heart Failure,CHF)和房顫患者(Atrial Fibrillation,AF)。然后從Physionet上下載了對應的數據樣本,其中包含NSR樣本54個,CHF患者樣本29個,AF患者樣本70人,其中NSR和CHF患者的采集時間約為23 h,AF患者采集時間約為1 min[14]。
由于房顫心率的采集時間較短,為了平衡樣本的差異,我們將NSR和CHF的心率數據進行了拆分,將樣本每隔6 h進行一次拆分,拆分出來的時間序列數據作為一個獨立的樣本,最終得到106個充血性心率衰竭的心率樣本和176個健康的心率樣本,樣本心率時序數據如圖3所示。
對于得到的樣本,我們采用VG算法將心率時序數據轉換為心率網絡,并用iGraph計算了網絡最大度、度分布、圖密度、集聚系數、全局集聚系數、介數分布、模塊度和特征路徑長度這7個特征[15],其中度分布指數、圖密度、集聚系數的分布如圖4所示。

圖3 心率時序數據

圖4 網絡特征數據的分布
其中對于網絡的度分布,我們進行了冪律分布的擬合[16],如圖5所示。圖5(a)為NSR心率VG網絡度分布,符合參數α=2.02的冪律分布。圖5(b)為CHF患者的心率VG網絡,符合參數α=2.26的冪律分布。圖5(c)為AF患者的心率VG網絡,符合參數α=2.02的冪律分布。可見,這3個網絡的度分布都滿足冪律分布,說明VG網絡繼承了心率時序數據的分形特性。
我們將心率時序數據的網絡拓撲特征作為數據集特征,將心臟健康狀況作為類別,采用C4.5決策樹算法進行了學習[12,13]。首先我們將3種類型的心率數據匯總在一起,形成一個多類分類數據集,進行了C4.5算法的訓練學習。分類結果如圖表1所示,平均準確率為0.73,平均召回率為0.739。然后我們將NSR和CHF患者構成一個樣本集,采用C4.5決策樹算法進行了學習,模型的分類結果如圖表2所示,平均準確率為0.667,平均召回率為0.670。最后我們對由NSR和AF患者構成的數據集進行了C4.5學習,分類結果如圖表3所示,平均準確率為0.996,平均召回率為0.996。
上述結果表明,不同健康狀態的心率時序數據對應的VG網絡拓撲結構和網絡特征存在區別,其中與NSR相比,AF患者心率對應的VG網絡具有較好的區分性。Costa M等[3,4]的結果表明AF患者心率數據的多尺度熵曲線和白噪聲的多尺度熵曲線是一致的,表明AF患者的心率數據具有較高的隨機性,而NSR和CHF患者的心率數據具有較高的確定性。AF患者心率數據和NSR、CHF患者心率數據的動態特性不同,因此具有較高的區分性。同時也說明VG網絡繼承時序數據的動態特性,并將動態特性體現在網絡的拓撲結構和網絡特征上。
在學習到的3個模型中,3種類型心率數據學習到的決策樹模型如圖6所示,其中0代表NSR人群,1代表AF人群,2代表CHF人群。3個決策樹模型選擇出來的主要屬性是圖密度、度分布和集聚系數。由圖6可見,AF患者心率數據對應VG網絡的圖密度比其他兩類心率數據VG網絡的圖密度高,說明AF患者的心率比NSR和心衰患者心率的變動率高。

圖5 度分布的冪律函數擬合
物聯網時代可穿戴設備的常規應用將給疾病診斷機理研究和健康管理帶來新的機遇。相對于傳統的醫療設備,可穿戴醫療設備具有更便捷的體征時序數據采集能力,這為解決我國日益加重的人口老齡化現象帶來的老年人健康問題提供了新的解題方式。

表1 NSR、CHF、AF分類結果

表2 NSR、CHF分類結果

表3 MSR、AF分類結果

圖6 心率數據決策樹模型
可穿戴設備不同于專業的醫療設備,其采集的體征時序數據能否作為疾病診斷的標準還有待討論,對此我們進行了嘗試性的探索。我們利用穿戴設備采集65位老年人和10位青年人的心率、動脈血氧飽和度、體溫和呼吸頻率數據,采集時間為24 h。我們對采集的數據進行了初步的篩選,最終得到可用樣本34個,其中包含24位老年人和10位青年人,每個樣本的不間斷采集點數量在2 000個以上,心率數據如圖7所示。
我們將年齡作為分析對象,考察老年人和青年人兩個年齡組的體征時序數據VG網絡的區別。對于每個體征時序數據,我們采用可視圖方法生成了VG網路,并計算了VG網絡的各個特征值。我們采集了每個樣本的心率、動脈血氧飽和度、體溫和呼吸頻率4個體征數據,從34個可用的樣本,最終得到體征時序數據VG網絡136個。將老年人和青年人分成兩組,老年人組包含VG網絡96個,青年人組包含VG網絡40個。采用C4.5分類算法進行學習,分類模型如圖8所示,其中1代表老年人,2代表青年人,分類結果如表4所示,平均分類準確率為0.758,平均召回率為0.743。
由上述模型可見,和年齡相關的主要網絡特征是圖密度、模塊度、度分布和全局集聚系數。在圖密度上,老年人心率、呼吸頻率、體溫和動脈血氧飽和度體征時序數據VG網絡的圖密度大于青年人體征時序數據VG網絡的圖密度,說明老年人體征數據的變動率較高,老年人對人體體征的調節能力較低。在心率、呼吸頻率、體溫和動脈血氧飽和度這4個體征時序數據中,動脈血氧飽和度比其他3個體征更為穩定,每位受試者各項體征時序數據VG網絡的圖密度值如圖9所示,可見動脈血氧飽和度VG網絡的圖密度比其他3個體征時序數據VG網絡的圖密度低。

圖7 CIM設備采集的數據(部分)

圖8 年齡因素決策樹模型
人體是一個動態復雜系統,體征時序數據網絡化可以整體考察體征時序數據隱含的健康狀態特征,發現和確認與健康狀態高度關聯的模式和規律。
本文的研究表明,網絡圖密度和健康狀態具有較高的相關性,圖密度表示網絡中邊的密集程度,時序數據的變動率是影響網絡圖密度的主要因素,變動率越高則時序數據中節點的可見性越高,圖密度越大。健康的人體系統具有較好的適應能力,在生理體征時序數據上的體現為體征數據的變化較為緩慢,因此年齡、疾病等因素會使體征時序數據VG網絡的圖密度增加。

表4 年齡因素分類結果

圖9 各樣本心率、呼吸頻率、體溫和動脈血氧飽和度時序數據VG網絡的圖密度
本研究中老年人體征數據的采集采用了穿戴設備,可穿戴設備作為一種新興的技術,將其應用到醫療行業既是一個機遇也是一個挑戰。可穿戴設備比傳統醫療設備便捷,是解決老年人健康問題的有效手段,但當前的可穿戴設備在數據采集的可靠性和噪聲處理適用性方面仍存在不足,需要在開放環境的適應性和關鍵技術研究方面得以提高,從而促進體征數據的高質量便攜式采集。。
1 Lin W, Orgun M A, Williams G J. An overview of temporal data mining. In: Proceedings of the 1stAustralian Data Mining Workshop, 2002: 83-90.
2 賈澎濤,何華燦,劉麗,等.時間序列數據挖掘綜述.計算機應用研究, 2007, 24(11): 15-18, 29.
3 Costa M, Goldberger A L, Peng C K. Multiscale entropy analysis of biological signals. Phys Rev E Stat Nonlin Soft Matter Phys, 2005, 71(2): 021906.
4 Costa M, Goldberger A L, Peng C K. Multiscale entropy analysis of complex physiologic time series. Phys Rev Lett, 2002, 89(6): 068102.
5 Lacasa L, Luque B, Ballesteros F, et al. From time series to complex networks: the visibility graph. Proc Natl Acad Sci U S A, 2008, 105(13): 4972-4975.
6 Milo R, Itzkovitz S, Kashtan N, et al. Super families of evolved and designed networks. Science, 2004, 303(5663): 1538-1542.
7 Nunez A, Lacasa L, Valero E, et al. Detecting series periodicity with horizontal visibility graphs. Int J Bifurcat Chaos, 2012. 22(7): 1250160. 8 Zhang J, Small M. Complex network from pseudoperiodic time series: topology versus dynamics. Phys Rev Lett, 2006, 96(23): 238701.
9 Iacovacci J, Lacasa L. Visibility graph motifs. ar Xiv preprint ar Xiv,2015, 1512: 00297
10 Newman M E J. The structure and function of complex networks. SIAM Rev, 2003, 45(2): 167-256.
11 Albert R, Barabási A L. Statistical mechanics of complex networks. Rev Mod Phys, 2002, 74(1): 47.
12 Quinlan J R. Induction of decision trees. Mach Learn, 1986, 1(1): 81-106.
13 Quinlan J R. Improved use of continuous attributes in C4.5. J Artif Intell Res, 1996: 77-90.
14 Goldberger A L, Amaral L A N, Glass L, et al. PhysioBank, PhysioToolkit, and PhysioNet: components of a new research resource for complex physiologic signals. Circulation, 2000, 101(23): e215-e220.
15 Csardi G, Nepusz T. The igraph software package for complex network research. Inter J Complex Sys, 2005, 1695(5): 1-9.
16 Clauset A, Shalizi C R, Newman M E J. Power-law distributions in empirical data. SIAM Rev, 2009, 51(4): 661-703.
Classification of Biological Signals Time Series by Extracting the Network Features Based on Visibility Graph
Jiao Xiaoyu1, Zhou Xuezhong1, Hu Jingqing2, Xie Qi3, Zhou Hongwei4
(1. College of Computer Science and Information Technology / Beijing Key Laboratory of Traffic Data Analysis and Mining, Beijing Jiaotong University, Beijing 100193, China;
2. Institute of Basic Theory, China Academy of Chinese Medical Sciences, Beijing 100700, China;
3. China Academy of Chinese Medical Sciences, Beijing 100700, China;
4. Traditional Chinese Medicine Data Center, China Academy of Chinese Medical Sciences, Beijing 100700, China)
This study aimed to transform the time series to network features using complex network approaches, and investigate associations between physiological network features and human health state. In this study, networks of standard heart rate time series and physiologic time series of the elderly that collected by wearable devices were built using visibility graph method. Then network features were extracted from these networks, and decision tree model was applied to analyze the main factors of network features contributing to heart disease and age. It was found that the fractal characteristic of heart rate time series brought out powerful law distribution for the degree distribution, and the network density became one of the major factors which were relevant to heart disease and age. In conclusion, it was indicated that topological features of networks underlay the dynamic characteristics of human physiologic time series. However, the correspondence between them still remained to be clarified.
Time series, complex network, network features, biological signals, elderly health
10.11842/wst.2016.04.018
R19
A
(責任編輯:朱黎婷,責任譯審:朱黎婷)
2016-04-06
修回日期:2016-04-13
* 科學技術部國家科技支撐計劃項目(2013BAH06F03):服務老年公寓的健康服務應用系統研發與應用,負責人:謝琪;科學技術部國家中醫藥行業科研專項(201307003):基于中醫特色的老年社區的健康監測與干預關鍵技術研究,負責人:胡鏡清。
** 通訊作者:周雪忠,本刊編委,教授,主要研究方向:復雜網絡、數據倉庫、數據挖掘。