馮貞貞 ,謝 洋 ,2,春 柳 ,何雯青 ,李建生 ,2**
(1. 河南中醫藥大學呼吸疾病中醫藥防治省部共建協同創新中心/河南省中醫藥防治呼吸病重點實驗室 鄭州 450046;2. 河南中醫藥大學第一附屬醫院呼吸科 鄭州 450000)
慢性阻塞性肺疾病(COPD)是一種常見的、可以預防和治療的疾病,以持續呼吸癥狀和氣流受限為特征,通常是由于明顯暴露于有毒顆粒或氣體引起的氣道和/或肺泡異常所導致,患病率、死亡率、致殘率高,疾病負擔沉重[1]。我國40 歲以上成人患病率達13.7%,位居我國主要死因第3位[2,3]。中醫藥或中西醫結合治療COPD 具有一定優勢,可改善穩定期癥狀、減少急性加重、提高運動能力和生存質量[4]。證候是中醫學特有概念,是臨床辨證的依據,具有模糊性、復雜性、多樣性等特點,證素是構成證候的基本單位。復合證候是指包含多個病位或病性證素的證候,臨床常見證候多以復合證候形式存在[5]。基礎證候由1 個主要證素或多個證素組合而成,是介于證素與臨床常見證候之間的中間環節[6],如:肺+ 氣虛形成的肺氣虛證,痰和熱形成的痰熱證等,對基礎證候展開研究可起到降維升階的作用。
以往基于COPD 穩定期臨床調查數據的頻率分析表明,常見基礎證候有肺氣虛證、脾氣虛證、腎氣虛證、肺陰虛證、腎陰虛證、痰濕證、血瘀證[7]。近年來,隱結構模型、關聯規則分析等數據挖掘方法越來越受到關注,多種數據挖掘方法的聯合應用成為研究熱點,運用智能計算機技術分析數據,可發現文獻中隱藏信息。本文基于COPD 穩定期證候相關文獻,通過證素關聯規則分析及癥狀隱結構分析,深入挖掘基礎證候分布及特征,以期為COPD 穩定期辨證規范及證候療效評價研究提供依據。
1.1.1 檢索策略
計算機檢索中國知網、萬方數據庫、維普數據庫及中國生物醫學文獻數據庫,以“(慢性阻塞性肺疾病+慢阻肺+慢性阻塞性肺病+COPD)AND(證+中醫)”為檢索式,檢索時間為數據庫建立至2018 年12 月31日。
1.1.2 納入標準
COPD穩定期證候相關的文獻。
1.1.3 排除標準
①綜述類、動物實驗相關文獻;②重復發表的文獻。
1.2.1 文獻篩選
采用Endnote x8 軟件,由2 名評價者獨立進行篩選。首先剔除重復文獻;再通過閱讀標題和摘要,根據納排標準剔除不相關文獻;最后閱讀全文,剔除不合格文獻。如出現分歧,由第3名評價者判定,直至意見一致。
1.2.2 數據提取與錄入
采用SPSS 20.0軟件,建立數據庫。由雙人獨立提取并錄入合格文獻的文獻類型、文獻出處、發表時間、證候、癥狀等信息。
1.2.3 名詞術語規范
參照《中醫臨床診療術語·證候部分》[8]、《中醫藥學名詞》[9]對同一含義不同名稱的證候、癥狀進行統一,如“痰濁阻肺證”、“痰濕蘊肺證”統一為“痰濕阻肺證”,“尿黃”、“小便黃”統一為“小便黃”。
1.3.1 統計描述
采用SPSS 20.0軟件,對基礎證候及癥狀進行統計描述(文獻中復合證候需拆分為基礎證候,如“肺脾氣虛證”拆分為“肺氣虛證+ 脾氣虛證”,“痰瘀互結證”拆分為“痰濕證+血瘀證”)。
1.3.2 關聯規則分析
參照《證素辨證學》[10]提取證素,如從“痰濕蘊肺證”中提取“痰、濕、肺”;從“肺腎氣陰兩虛證”中提取“肺、腎、氣虛、陰虛”;采用SPSS Modeler 14.1 軟件,基于Apriori 算法,依據最小支持度10%,最小置信度50%,提升度>1,把頻次>5 的證素分別作為前項及后項,產生證素頻繁項集及關聯規則,并繪制網狀圖。依據強關聯證素組合,推斷COPD穩定期基礎證候。
1.3.3 隱結構分析
采用孔明燈Lantern 5.0 軟件(香港科技大學研制),基于雙步隱樹分析LTM-EAST 算法,對頻次≥3的癥狀進行模型學習、模型詮釋,并繪制信息曲線圖;利用專業知識,對隱變量進行綜合聚類,推斷COPD 穩定期基礎證候。
1.4.1 常見基礎證候的確定
至少滿足以下兩個條件的基礎證候判定為COPD穩定期常見基礎證候:①關聯規則分析中,依據強關聯證素推斷的基礎證候;②隱結構分析中,通過綜合聚類推斷的基礎證候;③統計描述中,頻率≥10%且累計構成比≥75%的基礎證候[7]。
1.4.2 常見基礎證候相應癥狀的確定
若確定的常見基礎證候滿足上述條件②,則將隱結構模型中對應的顯變量(癥狀)作為該基礎證候相應的癥狀;若不滿足,則采用文獻中該證候對應的癥狀。
檢索文獻3582 篇,剔除重復文獻1434 篇,閱讀標題或摘要剔除不合格文獻1775篇,閱讀全文剔除文獻170 篇。最終錄入文獻203 篇,計687 條記錄(每個證候及其相應癥狀作為1條記錄),其中涉及癥狀分布的文獻132篇,計327條記錄。
共有基礎證候20 個,頻率≥10%且累計構成比≥75%的基礎證候有:肺氣虛證(40.6%,26.9%)、腎氣虛證(19.7%,13.0%)、脾氣虛證(19.2%,12.7%)、痰濕證(13.1%,8.7%)、肺陰虛證(12.8%、8.5%)、血瘀證(12.4%、8.2%)。基礎證候分布(表1)。

表1 COPD穩定期基礎證候分布情況

圖1 證素關聯規則網狀圖
涉及癥狀130 個,刪除頻次<3 的癥狀,剩余107個癥狀,包括咳嗽、喘息、咳痰、氣短等。
提取證素20 個,其中病位證素6 個,分別是肺、腎、脾、心、肝、表;病性證素14 個,分別是氣虛、痰、陰虛、血瘀、陽虛、濕、火熱、寒、氣滯、飲、水停、風、血虛、陽亢。對頻次>5 的17 個證素進行關聯規則分析,依據最小支持度10%,最小置信度50%及提升度>1,得出7 條強關聯規則,推導出5 個基礎證候,分別是腎陽虛證、肺氣虛證、脾氣虛證、腎氣虛證、腎陰虛證。以第一條關聯規則“腎?陽虛”為例說明:其中腎為后項,陽虛為前項,置信度為80.0%表示腎出現時陽虛也同時出現的頻率為80%,支持度為10.189%表示腎和陽虛同時出現的頻率占總事件的10.189%,由此推斷出腎陽虛證。網絡圖也顯示腎與陽虛連接線條較粗,表明關聯性較強。提升度表示后項的出現對前項出現的影響程度,大于1 才有意義。證素關聯規則分析結果(表2)。證素關聯規則網絡圖(圖1)。

表2 COPD穩定期證素關聯規則分析
2.4.1 構建隱結構模型及模型學習
規范后癥狀130 個,將癥狀看作顯變量,對頻次≥3 的107 個癥狀構建隱結構模型;模型學習后得到31個隱變量,每個隱變量可反映疾病的某一側面,分別記作Y0、Y2、Y3……Y30;每個隱變量有兩個隱類,共62個隱類。評價標準為模型貝葉斯評分標準(BIC)評分,采用負分計量,分值越大越好,模型分數為-8783.26。構建的隱結構模型(圖2)。

圖2 隱結構模型圖
2.4.2 綜合聚類
對30個隱變量(隱變量Y6包含疾病層面的癥狀,故除外)進行綜合聚類,得到10個綜合聚類模型,依次記作 Z1、Z2、Z3……Z10,依據專業知識,推斷出 10 個基礎證候,分別是肺氣虛證、脾氣虛證、腎氣虛證、肺陰虛證、腎陰虛證、腎陽虛證、寒飲證、痰熱證、痰濕證、血瘀證。
2.4.3 模型詮釋
以Z1(肺氣虛證)為例,其概率分布,見表3。表中顯示,綜合聚類分析把病例分為兩類,Z1=S0 這類患者約占總體的63%,Z1 = S1 這類患者占總體的37%。每個顯變量有兩個狀態,癥狀不出現S0,癥狀出現S1。由此可看出,Z1 = S1 這類患者各癥狀出現概率較高,可認為有肺氣虛證。信息曲線圖顯示,脈弱與肺氣虛證的互信息最大,其次為舌質淡、神疲、易感冒、自汗等,當癥狀截取到脈細時,它們與肺氣虛證的累計互信息達到95%(圖中只顯示當累計互信息達到95%時的顯變量分布)。各綜合聚類模型及信息曲線,見圖3 系列。各綜合聚類模型及其癥狀概率分布(表4)。
結合以上方法,確定COPD 穩定期常見基礎證候共8 個,分別是:肺氣虛證、脾氣虛證、腎氣虛證、肺陰虛證、腎陰虛證、腎陽虛證、痰濕證、血瘀證。

表3 綜合聚類Z1(肺氣虛證)概率分布
辨證是中醫藥診療疾病的重要環節,證候具有多樣性、復雜性、動態性等特點,近年來證候規范化、標準化研究成為熱點。臨床常見證候多以復合形式存在,復合證候間會出現內容交錯重疊,如肺脾氣虛證與肺腎氣虛證,都含有肺氣虛證。對基礎證候展開研究,可起到降維作用,避免傳統證候交叉重疊的問題,更具有針對性和靈活性。COPD 穩定期病位涉及肺脾腎等多個臟器,病性涉及氣虛、陰虛、痰、血瘀等,基于COPD 穩定期證候相關文獻,運用數據挖掘方法分析其基礎證候分布及特征,具有重要意義。

圖3 綜合聚類模型及信息曲線圖
常見的數據挖掘方法包括隱結構分析、關聯規則、決策樹、貝葉斯網絡、聚類分析等,通過統計分析、信息檢索、機器學習和模式識別等諸多方法,尋找大數據下的隱藏知識和規律,現已廣泛用于處理醫學數據研究[11]。多種數據挖掘方法的聯合應用是近年來研究熱點[12-14]。
關聯規則是從大量的數據中挖掘發現項集之間有意義的關聯,并尋找數據集中項之間的有趣聯系的一種算法[15]。基于關聯規則,有學者開展關于中藥、證素、癥狀研究[16-18]。證素是組成基礎證候的最小單元,本研究運用關聯規則Apriori 算法,分析COPD 穩定期證素之間關聯規則,發現證素間強關聯關系,推斷出基礎證候。依據最小支持度10%,最小置信度50%及提升度>1,得出7條強關聯規則,其中,推斷出肺氣虛證、脾氣虛證、腎氣虛證、腎陰虛證、腎陽虛證等5個基礎證候。網狀圖顯示的是,當關聯強度為0-530 時證素的關聯強度,線條越粗表示關聯性越強。

表4 綜合聚類模型癥狀概率分布
隱結構法是為辨證建立的一種客觀、定量的研究方法,可指導西醫疾病辨證分型[19,20],能較好的模擬中醫醫生診病時,從患者的癥狀推導出證候的過程,最初多運用于分析臨床調查數據[21]。隨著應用的深入,隱結構法亦應用于分析文獻研究數據[22]。本研究對頻次≥3 的癥狀進行分析,得到31 個隱變量。其中,Y6有兩個隱類,隱類S1 出現概率為81%,包含咳嗽、咳痰、喘息三個癥狀,且出現概率分別為92%、59%、79%,可認為咳嗽、咳痰、喘息是體現疾病層面的常見癥狀。對剩余30個隱變量進行綜合聚類,并進行逐一詮釋,結合專業知識,推斷出肺氣虛證、脾氣虛證、腎氣虛、肺陰虛證、腎陰虛證、腎陽虛證、寒飲證、痰熱證、痰濕證、血瘀證10 個基礎證候。由表3 可以看出,除痰熱證、寒飲證外,各綜合聚類模型的BIC評分均較高,表示模型較好。基礎證候所對應的癥狀分布中,缺少反映COPD 特點的癥狀,如咳嗽、咳痰、喘息等,原因是疾病層面的癥狀未納入綜合聚類模型中,可認為是所有基礎證候的共有癥狀。
本研究聯合應用關聯規則分析與隱結構模型,從證素和癥狀兩個角度推斷COPD 穩定期常見基礎證候,同時結合基礎證候頻率及構成比,最終得出COPD穩定期常見基礎證候有8個,分別是肺氣虛證、脾氣虛證、腎氣虛證、肺陰虛證、腎陰虛證、腎陽虛證、痰濕證、血瘀證,提示COPD 穩定期以虛證為主,也可兼有實證,病位涉及肺、脾、腎。李建生[23,24]提出正虛積損為COPD 主要病機,以肺虛為始、以腎虛為基,以氣虛為本、時或及陰陽,穩定期以本虛為主,主要指氣(陽)虛時或及陰。較以往研究[7]增加腎陽虛證,考慮與COPD 病機及疾病特點有關,該病以老年患者多見,肺為氣之主,腎為氣之根,久病氣虛及陽,出現腎陽虛證。本研究可為COPD 穩定期辨證規范及證候療效評價提供依據。