邢 穎,皮 敏,張潤順,楊 杰,文天才,**
(1. 中國中醫科學院中醫臨床基礎醫學研究所 北京 100700;2. 深圳市中醫院 深圳 518033;3. 中國中醫科學院廣安門醫院 北京 100053;4. 中國中醫科學院中醫藥數據中心 北京 100700)
2 型糖尿?。╰ype 2 diabetes mellitus,T2DM)是一種多病因、長病程的慢性進展性疾病?,F代流行病學研究顯示,T2DM 是遺傳因素和環境因素(包括飲食結構、起居環境、生活方式、社會經濟狀況等)的綜合產物[1];中醫認為,先天稟賦不足、飲食不節、嗜食肥甘、缺乏運動、情志失調等皆是導致T2DM 發生的致病因素[2]。在病機方面,病性涵蓋火熱、痰濕、血瘀、氣滯、氣虛、陰虛等多種因素[3],病位涉及肺、脾胃、胃腸、肝腎多個臟腑[4],其發生發展變化錯綜復雜。T2DM 證候時序演變是指機體在病因病機影響下偏離有序穩態后某一具體時間范圍內機能狀態的反應。T2DM 病因病機的復雜性決定了其證候時序演變呈現出多樣復雜的特點,這為臨床根據證候變化進行干預靶向和范圍調整帶來許多困難。因此,研究T2DM 證候時序演變對于明確干預的調整方向、預估疾病轉歸及預后從而指導中醫臨床實踐、確定T2DM 中醫輔助治療方案具有重要意義[5]。
傳統研究T2DM 證候演變的方法主要是臨床試驗[6],包括橫斷面研究[7]、回顧性研究[8]、前瞻性隊列研究[9]等多種臨床研究類型;其次是動物模型研究,如吳晏[10]等人通過高脂喂養合并腹腔注射小劑量鏈脲佐菌素(STZ)制備T2DM 大鼠模型,觀察得出模型大鼠在STZ 注射后4-8 周為陰虛內熱證型,在STZ 注射后10-13 周為氣陰兩虛證型。但隨著電子病歷日益普及,真實世界臨床數據的大量積累為開展真實世界數據挖掘研究奠定了堅實基礎,使得從T2DM 真實世界證候時序數據中挖掘其證候演變規律成為可能。
T2DM 證候時序數據屬于時間序列數據,具有明顯的時間屬性。時間屬性是理解證候隨時間演化模式的關鍵[11],賦予證候時序數據挖掘方法學的新挑戰。既往T2DM 證候演變數據挖掘研究中,多是從證的靜態或空間分布的角度對證候演變展開研究,如通過提取各時點證候信息,簡單地以頻率分布變化來描述證候演變情況[12]。但這種方法明顯將各時點的證候孤立起來,無法充分體現T2DM 證候時序數據的時間屬性,不能完整描繪出T2DM 證候在一段時間內的連續演變模式。也有研究者運用轉移概率矩陣、非線性混合效應模型[13]、結構方程模型或潛在類別分析等新方法[14]試圖解析T2DM 的證候演變規律,但此類方法較為復雜,不易理解實施和推廣應用。因此,如何簡潔明了地從證候動態時間演變的緯度刻畫出T2DM 的證候演變模式成為亟待解決的難題[15]。因此,本文運用復雜網絡社區發現算法、有向加權復雜網絡、?;鶊D等真實世界數據挖掘方法,首先對T2DM 證候組成進行社區劃分,再結合證候時序數據的時間特性構建T2DM證候有向加權網,并利用?;鶊D實現對T2DM 長期證候演變進行可視化分析,創新性地從數據可視化角度出發,簡單清晰地展示出T2DM 證候在縱向時間維度的連續性、動態性的演變模式,最終歸納出T2DM 的證候時序演變規律,以供臨床參考。
從中國中醫科學院中醫藥數據中心臨床數據倉庫中篩選T2DM 患者電子病歷數據,提取患者病歷號、就診時間、西醫病名及證候診斷,利用Excel 2016建立T2DM中醫證候數據庫。
①所選病歷必須為完整病歷,必須同時包含中醫病名及證候診斷,西醫病名;②中醫主要診斷為“消渴”,且西醫診斷為“2 型糖尿病”或其并發癥;③就診次數≥2次;④年齡≥18周歲。
參照《中華人民共和國國家標準·中醫臨床診療術語證候部分》[16]、《糖尿病中醫診療標準》(2011)[17]、《中藥新藥臨床研究指導原則》第一輯[18]、《22 個專業95 個病種中醫診療方案》[19]對進行證候規范化,將部分證候術語表達不規范或同證異名的證型進行統一標準化處理。參考《證素辯證學》[20]將證候進行拆分成證素。
2.4.1 數據分析方法簡介
本文主要采用復雜網絡社區發現算法進行T2DM證候分類,利用有向加權復雜網絡和?;鶊D分別實現證候短期和長期演變分析。
(1)復雜網絡社區發現算法
復雜系統通常用由節點和邊組成的網絡表示,網絡中的節點是復雜系統中的一個實體,節點之間的邊則是系統中實體之間的一種關系[21,22]。復雜網絡具有多個統計特征,包括小世界性質、無標度性質、聚集性或網絡傳遞性等[23-25]。社區結構是復雜網絡的關鍵特性之一,它是由復雜網絡中具有相同類型的結點所組成的子圖[26]。本文使用復雜網絡社區發現算法,對證候拆分后的證素復雜網絡進行社區劃分,從而更容易發現T2DM證候分布及組成的群聚規律。
(2)有向加權復雜網絡
復雜網絡分為無權網絡和有權網絡,有權網絡是從網絡結構和節點權重來綜合考慮網絡的動態演變情況[27]。另外,在現實網路中,除了要考慮節點或邊的權重以外,往往還需要考慮節點之間的方向性,因為很多時候,節點之間的聯系往往是有方向且不對等的,因此,有向加權復雜網絡是在復雜網絡的基礎上,針對不同需求,綜合考慮節點聯系的方向性和邊的權重值而產生[28-30]??紤]到實際臨床數據中證候的演變具有時序特征,因此本文利用有向加權復雜網絡來發現T2DM證候的短期演變規律。
(3)?;鶊D
又稱為熱平衡圖或能量流程圖[31],它由邊、流量、節點組成。節點代表不同分類以劃分能量流動的不同階段或分區,邊連接不同階段或分區的節點,代表著流動的能量或數據,流量代表流動數據的具體數量,流量與邊的寬度成正比,邊越寬,數值越大,并且輸入節點的總寬度要與輸出節點的總寬度相等,即輸入和輸出的總量(總數)平衡[32-34]。本文利用桑基圖來展示T2DM 中醫證候長期演變特點,為豐富證候動態時序數據的可視化表達提供了一個新的思路。
2.4.2 數據分析過程
本文首先運用Gephi 0.9.2 建立T2DM 證候無向加權復雜網絡,其中節點表示病位和病性組成的證素,邊表示一個證素對同時出現在所有診次中的頻次。使用Gephi 0.9.2 內置的Fast Unfolding 算法進行證候社區劃分[35],并總結各社區證候的主要特征。其次,將原始數據整理為療前和療后兩階段數據,利用Cytoscape 3.7.1軟件繪制證候演變有向網絡圖,節點代表T2DM 證候社區,邊代表療前向療后轉化的證候社區演變方向。最后,截取原始數據中所有患者前10個診次數據,運用Origin 9.1 繪制證候長期演變桑基圖,其中以證候社區為節點,以診次數據為邊,邊的寬度表示證候變化的診次數據量。
本文共納入患者2826 名患者,共10247 個診次,病位、病性證素組合共計414種。在T2DM 證候全局網絡中,排名靠前的證候主要是痰、火(熱)、脾虛、胃火(熱)、氣虛、陰虛、血瘀等,且他們相互之間共同出現的頻次也較高(圖1a)。

圖1 T2DM證候復雜網絡與社區劃分
通過對T2DM 證候全局網絡進行社區劃分,得到最核心的7 個社區占原始網絡節點比例的90.67%(圖1b)。在社區A 中,以氣虛血瘀和陰陽兩虛為主,同時兼有氣滯、濕、熱等,該社區占全部節點的26.84%,為所有證候中最大的社區。社區B 占有所有節點16.38%,主要特點為脾虛胃熱,同時兼有肝火旺盛和肝氣瘀滯。在社區C中,以痰熱互結表現為主,占所有節點的16.1%。社區D 占所有節點的10.17%,表現主要為濕熱內蘊。在社區E中,以腎虛為主,其次表現為肝虛、經絡閉阻,肝暑濕和胃暑濕象,占9.6%。社區F占6.78%,主要表現為肝腎陰虛,以及心陰虛、脾氣虛或腎氣虛。社區G占4.8%,主要表現為脾腎陽虛。
在以證候社區表示的T2DM 兩階段證候演變的加權有向復雜網絡中,箭頭所指方向為證候變化方向,邊的上標數字為產生這種證候演變的診次數量(圖2)。以證候社區A 為例,標有7008的有向線條指向自己,表明有7008 次診次證候表現為A 的患者,經過一輪治療之后,證候并未發生改變,因此箭頭指回向自己;而標有1187 的有向箭頭指向社區C,表明有1187診次證候表現為A 的患者經過一輪治療以后,證候轉化為C。其他有向箭頭的具體含義同理。由此可見,盡管T2DM 的證候演變存在復雜的轉化關系,但多數證候趨向保持穩定,即T2DM 證候在療前和療后兩個診次間趨向于不發生變化。
從證候社區的兩階段演變規律來看,51-67%的證候社區不發生變化,其中以氣虛血瘀并陰陽兩虛證(A 類)和脾腎陽虛并濁毒內蘊證(G 類)的穩定性最高,分別為65.00%和66.64%不發生變化。在所有證候社區中“肝腎陰虛并心脾兩虛證(F 類)→氣虛血瘀并陰陽兩虛證(A 類)”和“陰虛火旺并痰熱互結證(C類)→氣虛血瘀并陰陽兩虛證(A類)”兩類證候轉化率超過20%。同時,在發生不同證候社區間轉化的情形下,有5 類證候社區都首先轉化為氣虛血瘀并陰陽兩虛證(A類)(表1)。

圖2 T2DM證候兩階段演變網絡圖

表1 T2DM療前療后二階段證候發生變化的診次數量
提取所有患者的前10 個診次(6-10 個月)證候數據,以橫坐標代表診次,縱坐標代表證候社區,運用桑基圖對證候社區長期動態演變規律分析。因并非所有患者都有10個以上診次數據,且隨著觀察時間的延長能夠觀察到的患者也越來越少,因此隨著時間的延長邊的流量會越來越小。但在可觀察的證候社區演變數據中,仍然可以發現所有證候社區均保持較高穩定性即不發生轉化。而也有部分證候社區發生長期演變:脾虛胃熱并肝氣瘀滯證(B類)、陰虛火旺并痰熱互結證(C類)在長期趨勢中有相當的比例會演化為氣虛血瘀并陰陽兩虛證(A類)(圖3)。

圖3 T2DM證候演變長期規律
上述結果表明,T2DM 在證候組成上以虛實結合為主;其證候有著復雜的時序演變過程,遵循由實到虛的演變過程,氣虛血瘀并陰陽兩虛類證為T2DM 證候演變中的關鍵證候。
從證候社區劃分來看,證候社區B(脾虛胃熱并肝氣瘀滯證類)、C(陰虛火旺并痰熱互結證類)、D(濕熱內蘊并脈絡阻滯證類)、E(腎虛絡阻并肝胃暑濕證類)以實證或虛實夾雜為主,證候社區A(氣虛血瘀并陰陽兩虛證類)、F(肝腎陰虛心并脾兩虛證類)、G(脾腎陽虛并濁毒內蘊證類)以虛證為主要,總體呈現虛實夾雜的證候特點。在證候演變過程中,盡管平均存在51-67%的證候社區不發生演變,但其余產生變化的證候均不同程度地向其他6 個證候社區演變,表明各證候社區之間錯綜復雜的演變關系。這是因為T2DM是一種多病因、長病程的慢性進展性疾病,病程可達數年甚至數十年之久[36]。因此,在其緩慢的疾病發展中,證候呈現出一個動態、復雜的演變過程。具體而言,T2DM 起病往往是從中焦實熱開始[37],但之后的演變常常會受病人體質、治療等多種因素影響而產生不同方向的改變:如素體偏虛者,早期常表現為脾虛胃熱證等,隨著疾病演變表現為氣陰兩虛、陰陽兩虛等證;而體質偏陽者,前期實熱的表現較為明顯,并且內熱會從中焦脾胃波及到肝、肺、腸等多臟腑,可有濕熱、痰濕互結、肝胃郁熱、肺胃郁熱等多種不同表現,隨著熱邪傷陰耗氣而表現為陰虛火旺、氣陰兩虛證等。
但正如仝小林院士所說:“消渴早中期證候雖同屬中滿實熱病機,卻因側重臟腑病位不同,早中期發展走向有所區別,但至虛的階段后期,二者發展走向基本一致,殊途同歸?!盵38]也就是說,盡管T2DM 病機存在復雜、多樣的演化方向,但在向虛轉化的過程中很可能存在一個關鍵必經證候或證候群。結合本文結果來看,每個證候社區均有著向社區A(氣虛血瘀并陰陽兩虛證類)轉化的趨勢。以實證為主要表現的證候社區B(脾虛胃熱并肝氣瘀滯證類)、C(陰虛火旺并痰熱互結證類)、D(濕熱內蘊并脈絡阻滯證類)在短期和長期證候演變中均有相當比例轉向以虛為主的社區A(氣虛血瘀并陰陽兩虛證類),由此可見,T2DM 證候演變大致遵循一個由實到虛的演變過程,并且,氣虛血瘀并陰陽兩虛類證應當為T2DM 證候演變中的關鍵證候群。這一結果是符合T2DM 疾病發展理論規律的,T2DM 早中期熱邪為主,傷陰耗氣,后期逐漸出現氣虛、陰虛表現,氣虛、陰虛日久,陰損及陽,最終導致陰陽兩虛。而虛證以及疾病過程中形成的痰濕、氣滯等病理因素均可導致血瘀的發生。研究表明,瘀貫穿T2DM 的全過程,在早期往往表現不明顯,但隨著疾病進展,到中晚期成為導致并發癥發生發展的主要因素[39]。本文過程中也發現存在相當比例證候經過治療并不發生變化,思考原因可能是T2DM 病程普遍較長,而本文所選診次時間段最長為10個月,尚未能充分展示出全部證型的演變規律,因此,可能還需要更多長期治療的患者數據進行進一步研究與驗證。
綜上,本文創新性引入復雜網絡社區發現算法、?;鶊D等數據挖掘和數據可視化方法,以圖文并茂的方式,展現了T2DM 短期和長期證候時序演變規律,并通過總結歸納出:T2DM 證候存在復雜的演變關系,整體呈現出由實到虛的演變規律,其中,氣虛血瘀并陰陽兩虛類證為T2DM 證候演變中的關鍵證候。這一研究結果對把握T2DM 疾病發展動向、及時調整診療措施、有針對性地施以方藥、從而提升T2DM 中醫辨治療效具有重要意義。并且,本文不僅豐富了中醫證候動態時序數據的研究方法,還提出一條新的證候演變可視化研究思路,以供其他研究者參考。