茹淑瑛,江 鋒,葉永安
中醫證候是一個非線性的、多維多階的復雜巨系統。近年來證候規范化研究表明[1],提取證素,尋找應證組合規律,建立以證候要素為核心的辨證新體系是證候規范化的有效途徑。
隨著醫學研究不斷深入,數據資料變得越來越復雜,雖有粗糙集、模糊集理論、神經網絡和決策樹等先進技術方法的運用,但仍處在探索階段。由于自身的缺點和局限性,使研究均沒有獲得突破性進展。而傳統的多元統計分析方法,可用于探討高維數據的內在規律,是定量分析事物間復雜關系的一種綜合的數理統計分析方法,可用于分析多個因素對結果的單獨及聯合作用,與中醫證素研究較為切合。由于電子計算機的日益普及化,大型統計軟件如SAS、SPSS的廣泛流行,多元統計分析方法變得易于被研究者掌握,由于其算法比較成熟、統計結果易解釋而被廣泛應用于中醫證素研究中[2]。以下是常見的多元統計分析方法及其在中醫證素研究中的應用情況。
事先不知道應將樣品或指標分為幾類,根據樣品或變量的相似程度歸組并類,屬探索性分析。分為Q型聚類(樣品聚類),是指將n個樣品歸類,找出樣品間共性的分類方法;R型聚類(指標聚類)是指將m個指標歸類,通過將指標降維從而選擇有代表性的指標的方法。因其能將隨機現象歸類,已被廣泛運用到中醫證素研究中來。如李力等[3]對802例圍絕經期綜合征患者四診信息采用聚類分析,成功提取了該病常見中醫證候要素。陳婉珉等[4]亦在100例帕金森患者的基本證素及其分布規律研究中引入了聚類分析。
主成分分析與因子分析均是尋求少數幾個變量(或因子)來綜合反映全部變量(或因子)的大部分信息,變量雖然比原始變量減少,但包含的信息量可占原始信息的85%以上,而且這些新變量彼此互不相關,消除了多重共線性[5],在證素研究中應用廣泛。如胡起超等[6]根據主成分分析法提取183例老年性癡呆患者的12個公因子,得出老年性癡呆最常見的證候要素為陰虛、血虛、氣虛、痰、火、血瘀;主要涉及臟腑為腎肝心脾。金香蘭等[7]通過因子分析得出了高血壓病的主要證候要素,說明采用因子分析法對高血壓病進行證素研究是可行的。
判別分析利用原有的分類信息,得到體現這種分類的函數關系式,然后利用該函數去判斷未知樣品屬于哪一類。經典的判別分析方法有費歇爾判別法和貝葉斯法等。Logistic回歸是研究二分類觀察結果與一些影響因素之間關系的一種多變量分析方法。上述兩種分析方法均是根據判別對象若干個指標的觀測結果判定其應屬于哪一類的統計方法,在證素研究中也很常見。宋毅等[8]探索針刺干預缺血性中風病證候動態變化規律,并分析依據缺血性中風病辨證“決策樹”的4個證型的貝葉斯判別函數式的辨證效果,提出精簡后的判別函數式判別效能基本與精簡前相同,具有臨床應用價值。而Logistic回歸多用于疾病危險因素的篩選和病因學分析。如楊朝陽等[9]用 Logistic回歸分析得出陽虛、血熱和頑痰是“毒癮”復發的重要誘因。熊紅萍等[10]對340例代謝綜合征患者五臟證素和病性證素進行Logistic回歸分析,得出當存在痰和陰虛的病理變化時,易患代謝綜合征。
典型相關分析是利用綜合變量對之間的相關關系來反映2組指標之間的整體相關性的多元統計分析方法。其較以往的簡單回歸優勢在于不必依賴于經驗判斷,將證素變量與客觀指標看作2組變量,消除了證素判斷主觀性對結果的影響。目前在中醫證素研究中應用此種方法者還不多見。劉華等[11]從腦積水17個證候要素與11個證候要素靶位,通過典型相關分析得出5對綜合變量能反映原2組變量的信息,瘀在腦積水證候中占有較大的相關性,水與靶位多呈負相關,為該病的證候規范化研究提供了依據。
隨著醫學科學研究的不斷深入,越來越多的多元統計分析方法被應用到中醫證素研究中來。由于中醫證素研究的復雜性和其他統計方法一樣,任何一種多元統計分析方法單獨運用,均會暴露出一定的問題,現解析如下。
聚類分析首先需憑借經驗來確定合理的類別數即確定分成幾類比較合適,其結果解釋也需要密切結合專業知識,這就對研究結果的客觀性造成某種程度的破壞;其次聚類前應對變量作預處理,剔除無效變量和缺失值過多的變量,從而造成其進一步分析的結果不能反映已舍棄變量的情況;再次聚類分析不能使同一指標在不同類中體現,而中醫的一個癥狀可以在不同的證型中出現。這些都是聚類分析在中醫證素研究中的不足。
主成分的個數確定依賴于累計貢獻率大小,到底多大比例合適需具體問題具體分析,同樣具有一定的主觀性。而因子分析是建立在數據正態假設基礎上,如果偏離正態假設,其結果可能并不可靠,同時用何種方法進行因子旋轉,亦需根據專業意義來確定。
判別分析多建立于“歷史經驗”基礎之上,樣本的原始分類必須準確無誤,否則得不到可靠的判別函數,判別分析中所用的樣本資料視為總體的估計,所以要求樣本要足夠大,并有較好的代表性。Logistic回歸分析對線性可分的樣本不宜使用,所有統計都建立在大樣本基礎上,因此也要求有足夠的樣本含量。
基于上述問題,有研究者提出兩種或幾種統計方法的聯合運用,這樣既有助于消除不同統計方法的缺陷,又可以提高分析結果的可靠性。如運用主成分分析和因子分析對變量進行降維處理,消除證候指標間的共線性,然后采用判別分析和回歸分析作進一步分析。我們課題組也試圖對多中心大樣本收集的臨床數據在聚類研究基礎上,初步確定證候要素類別,再采用因子分析對證候要素進行進一步探討,得出載荷因子較大的癥狀來判定證候要素,以確定各個癥狀在證候中的貢獻度以及證候要素之間的組合規律。
多種統計分析方法的聯合應用,雖然有助于對大量中醫辨證信息的簡化處理和其中潛在規律的挖掘,提高證素研究的可靠性、客觀性,但由于證素具有“內實外虛”、“動態時空”、“多維界面”的特征[12],使研究結果仍然與臨床實際難以完全吻合。中醫學又是一門經驗性很強的醫學,完全脫離專家經驗一味追求客觀又容易與臨床脫節,故有必要用專業知識判斷、指導或修正數理統計結果。數理統計只是中醫證素研究的一個中間環節,單純從統計方法入手,證素研究似乎很難找到突破口。越來越多的研究表明,只有從大樣本的臨床數據入手,選擇幾種統計方法聯合運用,結合專家經驗,才能使證素研究獲得實質性進展。于是我們課題組試圖對前期“十五”攻關、“十一五”重大專項課題前瞻性、多中心調查收集的1003例慢性乙型肝炎四診信息資料,通過聚類、因子分析對資料進行數據挖掘,初步取得慢乙肝證素特征,再通過德爾菲法三輪專家咨詢修正、補充,以期最后明確該病證素診斷標準及應證組合規律,做到有史知識、專家決策、信息運算的整合,既保證研究結果的相對客觀,又避免單純數據挖掘導致部分結果與臨床實際背離的現象。希望通過上述嘗試能夠加快中醫證候規范化之路。
[1] 朱文鋒,晏峻峰.證素辨證新體系的內容及科學意義[J].醫學與哲學,2005,26(1):69-70.
[2] 華琳,閆巖,張建.多元統計學方法在醫學資料分析中的應用[J].中國醫學理論與實踐,2006,16(1):21.
[3] 李力,王天芳.基于聚類分析的圍絕經期綜合征中醫證候與證候要素的研究[J].中國中醫基礎醫學雜志,2011,17(8):855-856.
[4] 陳婉珉,鄭春葉,等.100例帕金森病患者中醫證候要及證型分布規律[J].中醫雜志,2011,52(3):214-217.
[5] 王芳.主成分分析與因子分析的異同比較及應用[J].統計教育,2003,(5):14.
[6] 胡起超,于濤,等.老年性癡呆中醫證候及病因病機探析[J].陜西中醫,2010,31(5):576-577.
[7] 金香蘭,張允嶺,等.運用因子分析探討原發性高血壓病證候要素[J].北京中醫藥大學學報,2011,34(2):131-134.
[8] 宋毅,裴建,等.針刺干預缺血性中風病證候動態化及相關研究[J].中西醫結合學報,2009,7(4):334-341.
[9] 楊朝陽,李燦東,等.吸毒人群“毒癮”復發的中醫病理因素研究[J].中國藥物依賴性雜志,2011,20(3):208-209.
[10] 熊紅萍,李燦東,等.代謝綜合征的中醫易患因素[J].中華中醫藥雜志,2010,25(11):1858-1859.
[11] 劉華,雷春燕,等.腦積水證候要素與靶位的分析[J].中華中醫藥雜志,2011,26(4):792-795.
[12] 張志斌,王永炎,呂愛平.論證候要素及證候靶點應證組合辨證[J].中醫雜志,2006,47(6):483-485.