唐 敏,鄭海濤,李清華
(西南交通大學 數學學院,成都 611756)
BPH是以前列腺肥大為主要病理學特征的老年男性的常見病,是導致老年男性患者尿急、尿頻以及排尿苦難等下尿路癥狀最常見的因素[1]。80歲及以上的男性群體中,患病率超過60%。BPH帶來的負面影響,嚴重影響老年男性的生命健康和生活質量,但是BPH卻屬于可逆性疾病。MS的核心是胰島素抵抗和繼發性高胰島素血癥,其基本特征包括高血糖、中央型肥胖、血脂異常和高血壓[2]。近年來的流行病學研究發現BPH與MS有密切關系,但兩者如何產生關聯尚未明確,并且目前尚無利用隊列數據來研究BPH與MS關聯性的參考。研究MS各組分對BPH的影響以及預測,有針對性制訂預防和干預措施,對BPH防治有重大意義[3]。因此,旨在利用2006—2016年體檢人群的體檢數據,通過采用病例對照以及GPLSIM來研究MS和BPH之間的關系,GPLSIM中的非參數部分使用樣條函數進行擬合。利用GPLSIM對實測數據進行分析,并與常用的廣義線性混合效應模型(GLMM)進行對比,以此來探討GPLSIM在重復測量數據中的適用性。
數據源自2006—2016年在西部戰區總醫院健康體檢中心定期健康體檢人群的體檢數據(該體檢中心為該人群管理其歷年的體檢數據資料)。
MS以胰島素抵抗為病理生理基礎,因蛋白質、脂肪、碳水化合物等多種物質發生代謝紊亂而表現出臨床癥候群,主要包括肥胖、高血壓、血壓升高、血糖升高、血脂異常等[4]。33 901例體檢者2006—2016年的364 001條疾病史記錄反映的MS下各疾病的新增率如表1所示。

表1 2006—2016年相關疾病新增率 %
2006—2016年,高血壓、高脂血癥、高尿酸、BPH的患病新增率呈現下降的趨勢;而高膽固醇的患病新增率總體也呈下降趨勢,但在2012年升至13.68%;糖尿病的患病新增率在2008年達到最高,其余疾病新增率最高值均為2006年。另一方面,基于我國人群的研究證據所制定的MS診斷標準,具備以下3項或更多項:腹部脂肪堆積、空腹血糖水平過高、高血壓、甘油三酯水平過高、高密度脂蛋白膽固醇水平過低等,故可由體檢指標的組合反映MS[5]。
計量資料均使用均數±標準差(x±σ)表示,各組間差異比較采用t檢驗。下一步建立GPLSIM來分析BPH和MS各指標之間的相關性以及是否患BPH的預測。對于參數,使用估計值的標準誤來構造z統計量檢驗其顯著性,以P<0.05為差異有統計學意義[6]。
將體檢者分為正常對照組(無BPH及MS,57例)、單純BPH組(400例)、BPH合并MS組(435例),其相關指標見表2。單純BPH組及BPH合并MS組AGE、SBP、Glu均顯著高于對照組(P<0.05),DBP、WBC、ALT顯著低于對照組,差異具有統計學意義(P<0.05);BPH合并MS組BMI、TG、TP顯著高于對照組(P<0.05),HDL顯著降低(P<0.05);BPH合并MS組,BMI、TG、SBP、DBP、Glu、TP、WBC、ALT均顯著高于BPH組(P<0.05),BPH合并MS組的HDL為1.331±0.249,BPH組的HDL為1.500±0.273,說明HDL顯著降低(P<0.05);單純BPH組與對照組的BMI、TG、HDL、TP 2組比較差異無統計學意義(P>0.05);BPH合并MS組與BPH組的AGE比較差異無統計學意義(P>0.05);BPH合并MS組與對照組的DBP、WBC、ALT比較差異無統計學意義(P>0.05)。上述結果間接說明高甘油三酯、肥胖、高血糖、高密度脂蛋白均是引發MS的因素,并且較高的TP、WBC、ALT也會誘發MS。
通過logistic逐步回歸從22個特征候選集合中篩選出對BPH影響顯著的指標:AGE、SBP、Glu、HDL、TP、WBC、ALT、前列腺特異性抗原(PSA)。篩選出的7個體檢指標的均值均位于正常值范圍內,PSA的最大值遠超過了正常值。將使用經過縮放(除以2個標準差)和居中(減去它們的平均值)的預測變量來擬合模型,這種標準化將使系數的大小大致具有直接可比性[7]。年份為取值為1,2,…,9的數值變量,對AGE、PSA、Glu使用響應變量進行雙變量分析,通過條件推理樹找到預測性最有用的方法來拆分數字預測器,處理為未居中的0-1分類變量。Glu(>5.29 mmol/L)賦值為1,(≤5.29 mmol/L)賦值為0;PSA(>3.9 ng/mL)賦值為1,(≤3.9 ng/mL)賦值為0;AGE(>79歲)賦值為1,(≤79歲)賦值為0,其余變量均為連續型數值變量。

表2 對照組、單純BPH及BPH&MS組相關指標
對于復雜的縱向數據問題,線性模型最多只能作為“真實”模型的一種近似。另一方面,檢驗一個模型是否是線性模型或者某個具體的參數模型是非常困難的。為了減少建模偏差,所以分析時采用了如下半參數模型。建立的GPLSIM模型如下:

其中:i=1,2,…,n表示第i個體檢者,j=1,2,…,mi表示第j年測量,uij是第i個體檢者的第j年患BPH的概率,采用的連接函數是logit,對于部分線性模型已經有了很成熟的估計以及檢驗,如劉峰等對參數部分和非參數部分分別進行了估計[8],對于GPLSIM而言,只是響應變量拓展到二分類。Xij=(Xij1,Xij2,…,Xijp)T,θ=(θ1,θ2,…,θp)T,非線性部分Xij均為連續型變量,Zij=(Zij1,Zij2,…,Zijq)T,γ=(γ1,γ2,…,γq)T,線性部分Zij可為連續型和離散型變量。
對η(·)函數采用懲罰樣條估計,懲罰樣條可以通過快速計算很好地逼近任何靈活的函數,通過施加由平滑參數控制的粗糙度懲罰來避免過度擬合[9]。在懲罰樣條中,η(·)可以通過樣條基的線性組合來估計:
η(u)=α0+α1τ+α2τ2+…+



圖1 預測變量與pij的散點圖及局部加權回歸擬合曲線(陰影部分為95%置信區間)
由圖1可知,pij與各協變量散點圖的局部加權回歸曲線絕大部分呈現非線性關系,為了克服以上的問題,以損失非參數回歸模型的靈活性為代價,所以采用GPLSIM。這樣,既保留了參數回歸模型易于解釋的特點,又有非參數回歸模型適應性強的特點。其次,單指標模型通過降維將多元預測變量降為單變量指標[12]。由在縱向數據分析中,年份等時間代表性的預測變量存在非線性效應,故“Year”一定是納入單指標內的[13];AGE、PSA、Glu是分類變量,納入線性部分分析。
最后擬合GPLSIM估計出的系數結果見表3,未知函數η(·)的估計曲線見圖2。由于采用了2個標準差來縮放回歸輸入,故標準化預測變量之一的單位變化表示原始變量的2個標準差。在只有分析指標變動,其余指標不變的情況下,年齡高于79歲的體檢者患BPH的幾率比低于79歲的體檢者高36.1%;正常情況(PSA>3.9 ng/mL)的體檢者患BPH的幾率比異常情況下(PSA≤3.9 ng/mL)的體檢者高55.8%;SBP每增加約31 mmHg,患BPH的幾率是原來的1.202倍;Glu>5.29 mmol/L的體檢者患BPH的幾率比Glu≤5.29 mmol/L的體檢者高26.56%;ALT每增加約23 U/L,患BPH的幾率是原來的0.815倍。

表3 GPLSIM擬合結果

圖2 GPLISM中未知函數η(·)的估計曲線
根據實際數據分析,最終選取P樣條的節點數目為13。懲罰樣條中節點數的選擇并不會對數據分析產生太大影響,因為懲罰項可以通過正則化來控制模型的復雜度,并且節點數可以根據具體問題和數據的復雜性進行適當選擇。非線性部分單指標用樣條基系數α值為:α=(0.947 0,0.728 0,0.459 4,-0.054 0,-0.734 6,-0.834 9,-0.583 2,-0.609 6,-0.786 0,-0.995 9,-1.210 3,-1.425 4)。圖2是單指數項的未知函數η(·)的估計曲線,可以看出η(·)存在非常強烈的非線性模式。年份、白細胞、總蛋白和高密度脂蛋白作為非線性部分,單指標整體對患BPH的影響在不同的持續時間內并不恒定。結合表3中非線性分量估計可以分析觀察到TP、HDL的估計系數為負,這2個預測變量是單指標部分的重要因素,HDL影響次之。總的來說,當線性部分的5個指標“AGE”、“PSA”、“Glu”、“SBP”、“ALT”均保持不變時,圖2中由η(·)的估計曲線可以觀察到一個整體趨勢是開始的時候急劇下降,結束時反而急劇增加的趨勢,波動并在中間區間范圍內相對穩定。非線性部分的單指標整體趨勢是呈現前期波動相對較小,YEAR、WBC、TP、HDL對BPH的患病率的影響在小范圍內波動,也說明高脂血癥在前期對是否患BPH的影響不大;后期大幅上升,YEAR、WBC、TP、HDL對BPH的患病率的影響急劇增加,隨著年份的推移,高脂血癥在前期對是否患BPH的影響愈漸顯著。
在體檢隊列的相關研究中,常用的處理方法是GLMM,所以如下構建GLMM對相同的數據集做BPH與MS之間的相關性分析,以此來探討GPLSIM在重復測量數據中的適用性。
β=(β1,β2,…,βp)T是未知固定效應,ui=(ui1,ui2,…,uiq)T是未知隨機效應,上述篩選出的協變量向量為Xij=(Xij1,Xij2,…,Xijp)T,Zij=(Zij1,Zij2,…,Zijq)T,是已知向量。在滿足低次項顯著的情況下,由零模型逐一納入高次項或者從全模型篩選顯著的高次項[14]。得到最優結果可知,在只有分析指標變動,其余指標不變的情況下,年齡高于79歲的體檢者患BPH的幾率比低于79歲的體檢者高44.7%,對比GPLSIM分析得到的結果相對而言高8.6%;PSA>3.9 ng/mL的體檢者患BPH的幾率比PSA≤3.9 ng/mL的體檢者高58.8%,對比GPLSIM分析得到的結果相對而言高3.0%;SBP每增加約31 mmHg,患BPH的幾率是原來的1.225倍;對比GPLSIM分析得到的結果基本一致。Glu>5.29 mmol/L的體檢者患BPH的幾率比Glu≤5.29 mmol/L的體檢者高23.7%,對比GPLSIM分析得到的結果相對而言低2.86%;WBC每增加約3×109L-1,患BPH的幾率是原來的0.836倍。ALT、HDL、TP、Year 4個指標存在交互作用,ALT、WBC的OR<1,與BPH患病率呈現負相關。個體和年份的隨機效應的估計方差分別為1.407、0.453,并且個體的隨機效應伴隨著年齡的隨機斜率。
由靈敏度、特異度、精確率、召回率、正確率5個指標來反映GPLSIM和GLMM模型的預測能力,得到的結果如表4所示。

表4 模型預測的評價指標
在研究GPLSIM和GLMM模型的預測能力時,將數據集分成了訓練集和測試集的。訓練集與測試集的劃分比是8∶2。對于模型預測部分,采用的是一次劃分的結果,因為數據量較小,使用一次劃分更適合,所需的計算資源和時間相對較少。
由表4可得GPLSIM的預測正確率比GLMM高6.134%。含有交互作用的GLMM預測的靈敏度為77.505%,特異度為72.592%,正確率為75.139%。雖然GLMM分類正確率明顯優于無信息比率51.836%以及隨機比例猜測50.067%,但是整體模型的預測評價指標均低于GPLSIM,并且,廣義部分線性模型比廣義線性混合模型有更好的擬合度,調整R方相對來說高出0.51%。由于其存在類別變量、交乘項,所以GLMM解釋性較弱,GLMM通常用于解釋數據的個體差異,而難以解釋整體趨勢。只能通過邊際效應來探求自變量變化對因變量變化的影響作用或分析比較不同情況時的因變量預測邊際值的大小。因此,它不適用于探索數據的整體模式或結構。而GPLSIM卻能夠很好地如圖2那樣呈現數據的整體趨勢。
綜上所述,GPLSIM和GLMM都是常用的廣義線性模型的擴展,GPLSIM的最大優勢在于避免了對數據分布的任何假設,更具有魯棒性。這種方法還能夠解決數據中存在的非線性關系問題,將自變量的影響分解為線性和非線性部分,從而更好地理解變量之間的關系。
結合930例體檢者的2006—2014年的B型超聲結果可得,112例BPH患者同時患有脂肪肝;209例BPH患者同時患有腎囊腫;31例BPH患者存在膽囊缺如的情況;185例BPH患者同時患有肝囊腫;336例BPH患者有膽道疾病;74例BPH患者是肥胖體(BMI≥28 kg/m2)。所以ALT指標在本研究的回歸模型中受到了其他疾病的影響,并不能直接說明ALT下降會導致患BPH的幾率增加。PSA異常或者空腹血糖偏高,患BPH的概率明顯增加。血清ALT是反映肝細胞受損的指標,非特異性的ALT升高是臨床上常見的現象[15]。而WBC是體內慢性炎癥的傳統指標。有前瞻性研究表示,ALT、WBC與MS大部分臨床特征相關,是臨床上非常經濟適用的指標[16]。ALT及WBC的升高并非器官的專一性,且其檢測結果受很多因素的影響,導致檢測結果不太穩定。如果可以闡明ALT、WBC與BPH及MS的相關性,那么ALT、WBC對防治BPH和MS的發生具有重要的意義。WBC升高見于很多非感染性炎癥疾病以及代謝綜合征等,本研究中WBC與MS呈現負相關,在納入分析的患者疾病史中表現在其他非感染性炎癥等疾病上[17]。
近年來,較多的研究認為MS或其組分可能對前列腺增生的發展起促進作用。BPH嚴重影響了男性老年群體的生活[18]。所以,研究BPH與MS的相關性,確立準確的預測模型以便檢測BPH病發風險并及時治療非常必要,具有巨大的醫療價值和潛在的經濟價值。關于BPH與MS之間的研究,我國尚無大樣本、長隨訪時間、前瞻性隊列研究。本研究基于930人2006—2014年的不等距測量的5 583條記錄,建立GPLSIM來探究BPH與MS之間的相關性。結果也表明高血壓、高密度脂蛋白、高血糖等代謝異常是BPH的危險因素。
但是在不平衡的稀疏縱向數據下,所研究模型的適用性存在問題。另一個可能的主題是縱向數據的廣義部分線性單指數模型的變量選擇,仍然存在將它們從線性部分區分為單指標部分的問題[19]。在實際情況中,預測變量的維數相當大,這就導致“維數禍根”,Y關于X的組成部分的函數變化的情況很復雜,使得建模具有挑戰性。可以考慮將亞組識別運用到二分類的高維縱向數據中,如段謙等構建了一種數據驅動的亞組識別方法[20]。降維的目的是在擬合模型之前降低回歸或者分類問題的復雜性[21]。在現實生活中,相對來說比較穩健的回歸模型的制定會受到諸如回歸方程、變量選擇、懲罰函數等約束。所以,廣義部分線性單指標,以及將其拓展到廣義多指標等問題都值得在未來深入研究。