伊明洋,關建新,閆麗禎,倪園園,王至婉
1.河南中醫藥大學,河南 鄭州 450046;2.河南中醫藥大學呼吸疾病中醫藥防治省部共建協同創新中心,河南 鄭州 450046;3.河南省中醫藥防治呼吸病重點實驗室,河南 鄭州 450046;4.河南中醫藥大學第一附屬醫院,河南 鄭州 450000
證候是中醫理論體系的核心內容,證候演變規律研究是中醫證候研究的重要組成部分[1],病證結合深入研究證候演變規律對構建新的辨證論治體系并提高辨證論治水平具有重要意義[2]。縱向研究作為臨床試驗研究設計方法之一,具有較強的時間序列性及因果邏輯關系,被廣泛應用于證候演變規律研究領域。然而個體化試驗設計下產生的大量非線性重復測量數據往往無法得到合理有效的處理[3],基于此,本文提出使用非線性混合效應模型處理證候演變規律縱向研究數據,以期為解決該領域方法學難題提供思路。
縱向研究是一種前瞻性研究,因在前、果在后,易得出基于邏輯的因果判斷,在證候演變規律研究中選擇疾病發展過程中的關鍵時點作為觀察節點,采用多時點重復測量或隊列研究等方式對證候變化進行縱向研究,可描述事物的連續性變化過程,研究結果更具可靠性和科學性,是證候演變規律研究的最佳方法[4]。其優勢在于:①可反映樣本個體間的差異,觀察影響不同個體間差異的因素,如地域、年齡、職業等。②可系統觀察人從未發病到發病及好轉乃至痊愈的全過程,更加貼近疾病發生發展的真實過程,研究結果可靠性更強。③較橫斷面研究,縱向研究更有效能,即若達到相同的統計效能,縱向研究所需的樣本量往往少于橫斷面研究,究其原因是縱向研究中同一受試者的不同重復測量值并不完全相關[5]。④在縱向研究中,每個受試者都能與自身對照,一般來說,內部變異要小于個體間的變異,所得到的研究結果會更加敏感[6]。張明雪等[7]通過縱向研究分析冠心病合并高血壓患者4個階段證候變化,0~1期向肝腎陰虛、氣火失調證轉變,1~2期逐漸轉變為痰熱擾心、絡虛陽升證,2~3期發展為土虛木亢證及肝陽化風證。李偉珂等[8]將慢性阻塞性肺疾病分為急性加重期、危險窗期和穩定期,縱向研究證候要素演變規律發現,從急性加重期到穩定期總體呈現由實到虛的趨勢,痰熱逐漸演變為痰濕直至完全消失,氣虛貫穿疾病始終,在發展過程中逐漸變為氣陰兩虛,兼有血瘀。
證候演變規律研究中所采集的縱向數據有以下特點:①時間序列性。主要研究隨時間變化證候的演變情況,因此臨床所采集數據會隨時間的推移發生變化。②時間間隔的不平衡性。在臨床研究中,各個指標采集時間可能不盡相同,每個指標采集的間隔時間也會不同。③相關性。在同一觀測時點觀測指標內部存在相關性,不同觀測時點獲得的觀測指標間也存在相關關系。④復雜多態性。臨床所采集數據既有分類數據也有連續數據,反應變量類型既有連續型也有離散型。⑤非線性。基于證候本身的復雜性,臨床采集數據重要特點即自變量與反應變量呈非線性變化趨勢。⑥數據缺失性。縱向研究是基于長時間隨訪調查的研究方法,在長期隨訪過程中無法避免數據的缺失。⑦非正態性。縱向研究數據變化的影響因素較多、變量復雜多樣,數據難以形成嚴格意義的正態分布[9]。
目前在證候演變規律研究領域,針對縱向研究的數據處理方法主要有頻率分析、轉移概率矩陣和非線性混合效應模型等。
1.3.1 頻率分析
頻率分析是觀察某種證型在某個時點或階段所占比例,通過數量值的變化闡釋證候在不同時間的變化規律。郭思佳等[10]使用頻率分析方法觀察特發性肺纖維化不同臨床分期的證素演變規律,發現氣虛貫穿疾病全過程,其中臨床1期和2期以實證為主,主要證素為痰濁和血瘀,隨著疾病進展,痰濁變化不明顯,而血瘀、陰虛等逐漸加重,總體呈現由實轉虛的趨勢。頻率分析法操作簡單,對數據類型要求不高,在臨床研究中應用廣泛。但僅使用頻率分析法無法深入挖掘臨床數據蘊含的豐富信息,較為單一和片面,因此多將頻率分析法與轉移概率矩陣和非線性混合效應模型等數據挖掘技術結合使用。
1.3.2 轉移概率矩陣
轉移概率矩陣在20世紀初由俄國數學家馬爾可夫提出,用于研究在同一系統中一個因素向另一個因素轉移的概率,在轉移中第n次結果只受第n-1次結果的影響,具有無后效性[11]。在證候演變規律研究中多用于研究證型由當前時點向下一時點轉變的概率,可清晰描述各證候隨時間變化關系。傅凱麗等[12]使用轉移概率矩陣研究發現,后循環梗死患者初期以風痰瘀阻證候為主,在疾病發展中期逐步轉變為氣虛血瘀、痰濁內阻等證,后期以氣血虧虛、腎精不足為主,即初期以實證為主,中期表現為虛實夾雜,后期多虛證。使用該方法需同時滿足齊次馬爾可夫性假設和觀測獨立性假設,同時該方法無法研究癥狀與證候間的映射關系,在無公認的證候診斷標準前提下,大多數研究中的證候由研究者根據既往診斷標準判定,具有一定主觀性,導致證候演變規律研究結果也具有一定偏倚。
1.3.3 非線性混合效應模型
非線性混合效應模型于1977年由Sheiner等[13]提出,是線性混合效應模型到非線性模型的推廣。非線性混合效應模型可同時適用于連續型和離散型變量,其變量無須滿足正態分布,主要用于處理定量非線性資料,分析非線性增長趨勢差異,可很好地解決研究中出現缺失值和不平衡數據等問題[9]。目前該研究方法在證候演變規律研究領域尚未得到推廣,主要應用于藥代動力學、林業、保險金融業等。
靳曉娟[14]使用非線性混合效應模型研究不同樹齡的人工長白落葉松枝條生長屬性的分布規律,以樹齡和單木為兩水平構建非線性混合效應模型,可對枝條基徑、長度等進行合理預測,更符合樹木的生理生長特性。李春明[15]使用非線性混合效應模型處理具有時間序列相關性的縱向數據具有較高的估計精度,且能夠較好地表現連續觀測數據間的誤差分布。葉楠等[16]對患者使用不同劑量的腎康注射液進行療效評價,并使用非線性混合效應模型的擬合功能,進行上市后市場監測。王明高等[17]使用非線性混合效應模型處理保險行業中非壽險損失預測和費率厘定問題,解決該行業實際操作中保險損失數據的問題,對該行業的發展具有重要意義。不論是樹木生長、藥物的療效評價及保險的損失預測及費率問題,在研究過程中所采集到的數據均為重復測量數據且具有時間的連續性,這與證候演變縱向研究中獲得的數據特性相同,目前該方法雖未在證候演變規律研究領域推廣使用,但在其他領域內應用較為成熟,具有穩定性,可進一步應用于中醫證候研究領域。
非線性混合效應模型在醫學領域中的應用主要集中于藥代動力學及其他非線性生長曲線研究。在藥代動力學研究中,藥物在個體體內吸收、分布及排泄的過程中采集到的血藥濃度數據與證候演變規律縱向研究中獲得的重復測量數據特征相似,都表現為非線性特征。如凌靜等[18]使用非線性混合效應模型研究他克莫司在成人腎病綜合征中的群體藥代學特征,建模中采用可體現個體間變異和殘差變異的一級速率條件算法,同時將患者體質、年齡及藥物劑量等作為協變量觀察是否對個體血藥濃度產生影響。田婷婷等[19]應用非線性混合效應模型構建替考拉寧在老年患者中的群體藥動學模型,研究結果顯示該模型擬合優度好,具有良好的穩定性及預測性。陶玉瑛[20]基于文獻研究結果及醫院癲癇兒童服用托吡酯后體內血藥濃度變化數據構建非線性混合效應模型并對其進行驗證發現,該模型具有穩定的預測性能,可根據預測結果制定臨床個體化給藥方案。闕燁等[21]基于艾滋病的縱向研究數據構建部分非線性混合效應模型,將log10RNA作為響應變量,CD4細胞數作為協變量,觀察不同時間采集的CD4細胞數對log10RNA的影響。以上研究結果均表明非線性混合效應模型在醫療領域具有廣泛的應用前景,結合中醫證候演變規律研究領域,可解決目前非線性重復測量數據處理難題,可更好地模擬證候信息隨時間變化過程,同時也可通過設置協變量了解影響證候演變相關因素。
非線性混合效應模型在使用過程中為適應不同需求,可轉化為相應的表達式,其基本表達式為:
式中,i表示研究對象個數,j表示重復觀察次數,yij是第i個觀測對象第j次重復測量的因變量值,xij表示自變量值,eij表示第i個研究對象第j次觀察的隨機誤差值,f(·)為非線性函數關系,?ij表示該函數關系中的參數向量。β和bi分別為固定效應和隨機效應參數,Aij、Bij為設計矩陣[22]。
Pinheiro等[23]依據產生隨機效應因子的個數將模型區分為單水平和嵌套多水平2種不同類型。證候演變規律研究中產生隨機效應的因素較多,因此建議選擇嵌套多水平模型,具體模型的構建應根據所收集臨床資料要求建立。
該模型的參數估計方法主要有廣義最小二乘估計法、一階線性化算法、條件一階線性化算法、高斯-埃爾米特求積法等[24]。這些算法各有利弊,其中廣義最小二乘估計法精度低,高斯-埃爾米特求積法計算精度高但運算量大且速度較慢,一階線性化算法和條件一階線性化算法計算方法簡單且精度高,在實際應用中被廣泛使用[25]。目前,符利勇等[26]在條件一階線性化算法的基礎上提出一種改進的隨機效應參數計算方法,并利用樹高數據模擬分析,發現這種改進的算法可獲得更好的擬合效果并可更好地反映個體間的差異,此算法可在SAS軟件中實現。
非線性混合效應模型是否能夠成功運行很大程度上取決于初始值的選擇,尤其當擬合模型較為復雜時,隨意選擇初始值會造成迭代不收斂或得到的參數估計僅為局部最優解而非全局最優解,易影響參數估計的有效性[27]。該模型在開始迭代時,必須賦予所有參數初始值,初期可選擇較為簡單的模型,使用簡單模型的運算結果作為初始值,再通過數值積分或附加高斯積分求出最大似然的直接估計[27]。
如何使用非線性混合效應模型解決證候演變規律研究中的實際問題是眾多研究者較關心的問題,以下通過具體的研究范例分析該方法在實際研究中的應用。
王麗穎[28]使用非線性混合效應模型等多種數據分析方法研究不同藥物干預下冠心病心絞痛血瘀證的動態演變規律,探索隨時間變化藥物對證候演變過程的影響,明確證候改變的拐點,進一步評價中醫證候臨床療效。該研究首先使用2種藥物開展隨機、雙盲多中心臨床試驗,以證候積分量表作為證候評價工具;同時使用潛在類別模型對血瘀證進行藥效學解構,尋找證候的“內實”(最能表現某病機的關鍵內容,即群體在某一病變過程中的共性規律,是選擇干預措施的主要依據)及潛在類別;最后使用非線性混合效應模型結合向量相似度分析法探索證候整體及證候“內實”的演變規律,以此作為證候療效評價的切入點。該研究以每位入組患者為不同的個體,以最能反映該證候的主要癥狀胸痛、胸悶、心悸、唇色紫黯、舌質紫黯和脈細澀作為組成觀察向量(EO),以這些癥狀的最大積分值作為對照向量(EMAX),計算得到每位患者在不同時間的向量相似度值。將相似度值設為因變量,時間設為自變量(TIME),構建療效(EFF)隨時間變化的非線性混合效應模型:
EFF=EO-EMAX*(TIME**GAMM)/(ET50**GAMM+TIME**GAMM)
式中GAMM為時間指數,ET50為藥效下降1/2的時間。據用藥前的證候相似度值及相關文獻支持選擇相似度值0.8作為臨界點,代入非線性混合效應模型中計算得出2組證候轉變時間分別為7.28周和10.72周,說明2種藥物對緩解冠心病血瘀證均有效,根據方程擬合結果,A藥療效略優于B藥。同時將心絞痛積分、年齡、試驗中心和組別等作為協變量加入模型發現,心絞痛積分、試驗中心對2組證候變化均有影響。該研究使用非線性混合效應模型研究血瘀證演變規律,既可發現證候轉變的具體時間,又能進一步探究影響證候演變的相關因素,表明該模型在證候演變規律研究中具有可行性,后續研究可進一步推廣使用。
近年來,隨著證候演變規律研究的不斷深入,對數據處理的要求不斷提高。基于此,將非線性混合效應模型應用于該研究領域,其優勢主要有以下2個方面:①證候本身是一個巨大的復雜非線性系統,其各個子系統不能呈現規律性成比例的線性運動[29]。傳統的計算方法多要求數據呈現線性規律,然而多時點采集的中醫四診信息難以滿足該要求。如針對慢性阻塞性肺疾病患者,不同時點的咳嗽積分難以呈現嚴格的線性規律,同時針對證候本身而言,在疾病的不同階段也難以形成單一的線性變化。因此,針對研究數據的非線性特征,非線性混合效應模型可很好地擬合不同時間點的信息資料,滿足其非線性要求,更加科學準確地發掘證候動態演變規律。②證候演變規律研究基于復雜的中醫四診信息,多時點的重復測量資料既有單個反應變量重復測量值間的相關性,也有多個反應變量間的相關性。以慢性阻塞性肺疾病為例,急性加重期第1日咳嗽與咳痰積分間具有相關性,第7日的咳嗽積分與第1日也具有相關性,且由于具有不同的相關性,會產生個體間及個體內的隨機誤差。針對以上情況,非線性混合效應模型既可識別個體間差異也可兼顧個體內差異,同時能計算不同層次的誤差估計值。該模型允許固定效應和隨機效應同時進入非線性部分,通過計算得到固定和隨機效應的估計值及單個反應變量多次重復測量的相關系數和多個反應變量間的相關系數,使數據間的相關性更加細化[23]。
除上述優點外,非線性混合效應模型在證候演變規律研究中的應用還有以下方面值得關注:①臨床研究不可避免出現數據缺失,且無法保證各觀測時間點間隔完全均衡。非線性混合效應模型不要求每個個體測量時間相同,同時允許缺失值的出現,也不要求測量間隔時間完全相等,可同時估算個體曲線和全部樣本曲線的平均值[20]。②證候演變過程極為復雜,易受生存環境、體質、性別、心情等諸多因素的影響。非線性混合效應模型在計算過程中可加入解釋變量,如地域、年齡、疾病階段、輕重程度等,分析這些因素對證候演變過程的影響。③使用非線性混合效應模型可定量把握證候演變的轉折點,為臨床辨證論治提供較為客觀依據。
非線性混合效應模型在證候演變規律研究領域尚處于探索階段,基于數理統計方面的復雜性,該模型在具體應用中仍存在亟待解決的問題:①方程模型的構建。在進行模型擬合前可先根據原始數據做出散點圖,再依據相關專業知識、研究經驗及實測點的分布情況構建符合數據要求的方程模型[30]。②初始值的選擇。可參考的解決方法是,同時選擇幾個初始值代入運算,觀察得到結果是否一致,若不一致,則通過選取運算所得圖形中的點,計算各參數的近似值,再反向作為初始值帶入模型計算擬合,觀察該初始值是否為最優初始值[23]。③收斂性評價和模型擬合優度。模型的構建及初始值的選擇是否滿足收斂條件和模型的擬合優度對非線性分析過程至關重要。
將非線性混合效應模型應用于證候演變規律縱向研究數據處理有利于實現對證候動態變化時間的把握,也可明確影響證候演變的相關因素,對指導臨床辨證論治具有重要意義。但該模型的構建較為復雜,在實際應用過程中存在較多方法學難題。在實際應用中除解決上述困難外,還應注重證候診斷標準及術語的規范,可通過建立電子病歷解決數據完整性等問題,為后續研究提供堅實基礎[31]。