貴州省疾病預防控制中心慢性病防治研究所(550001) 趙否曦 劉 濤
偏相關分析在脈壓相關因素研究中的運用*
貴州省疾病預防控制中心慢性病防治研究所(550001) 趙否曦 劉 濤△
直線相關分析是數理統(tǒng)計中處理變量與變量之間關系的一種統(tǒng)計方法[1]。在多數情況下,變量之間是否存在因果關系并不被調查者所知的情況下,僅想了解兩變量是否有相關變化關系,且這種依存關系的密切程度如何,這就是相關分析研究的范疇。從所處理的變量數目來看,兩個變量間的相關稱為簡單相關;兩個以上變量間的相關稱為多元相關。從變量之間的關系形式上看,有線性相關分析及非線性相關分析。從統(tǒng)計思想和方法來看,線性相關是描述變量基本關系的統(tǒng)計方法。
在分析兩個變量間相關關系時,必須將其他變量因素的影響考慮其中,這就需要運用偏相關系數進行變量間的相關性分析[2]。偏相關分析也稱凈相關分析,它在控制其他變量的影響下分析兩變量間的線性相關性,所采用的工具是偏相關系數(凈相關系數)。控制變量個數為一時,偏相關系數稱為一階偏相關系數;控制變量個數為二時,偏相關系數稱為二階相關系數;控制變量個數為零時,偏相關系數稱為零階偏相關系數,也就是簡單相關系數。
本研究擬通過貴州省成人慢性病及其危險因素監(jiān)測的調查數據,從運用的角度對簡單相關分析與偏相關系數的結果進行解釋,以說明偏相關分析在結果解釋上的可靠性。
簡單相關分析是對兩個變量之間的相關性進行分析,分析過程比較簡單,用直線相關系數來展現變量之間的相關性強弱,直線相關系數也稱Pearson積矩相關系數,用 r表示,計算式為[1]:


偏相關分析是控制了其他變量影響的條件,僅分析兩個變量之間相關程度的過程,分析所得相關量為偏相關系數(或凈相關系數)。偏相關系數可以利用簡單相關系數進行表示,簡單相關系數可以用式(2)計算而得。假設我們需要計算X和Y之間的相關性,Z代表其他所有的變量,X和Y的偏相關系數可以認為是X和Z線性回歸得到的殘差Rx與Y和Z線性回歸得到的殘差Ry之間的簡單相關系數,即Pearson相關系數記為rxy·x1x2…xn
對于N階偏相關系數的計算方法為:

一階偏相關系數公式為rx·yx1=在控制x變量的情況下,分析x與y之間的相關關系。
二階偏相關系數公式為rxy·x1x2=,通過公式可以看出,是在控制了x1和x2變量后,對x與y之間的相關關系進行分析。
通過以上公式可以看出對于一階偏相關系數可以利用三個變量之間每兩個變量的零階偏相關系數進行計算,二階偏相關系數可用四個變量間的一階偏相關系數進行計算。以此類推,N階偏相關系數都可以通過N-1階偏相關系數計算得出,對于有N個變量的偏相關系數可以利用進行兩兩組合得到零階偏相關系數計算得出。
近年來大量流行病學及臨床研究表明脈壓是心腦血管事件及不良預后的強烈預測及獨立危險因素。脈壓和大動脈順應性對高血壓預后及治療的重要性越來越受到重視。對于老年人而言,脈壓過寬對心腦血管的危害高于高血壓對老年人的損害[3],而脈壓相關的因素與身體各項指標均有關,為探討簡單相關分析和偏相關分析在解釋多個變量上的可靠性,本文以脈壓及機體其他指標的相關性來解釋變量之間的本質聯(lián)系。
資料來源于貴州省成人慢性病及其危險因素調查,調查采用多階段隨機整群抽樣,共在貴州省范圍內抽取12個縣(區(qū))開展,每個縣(區(qū))隨機抽取4個鄉(xiāng)鎮(zhèn)(街道),每個鄉(xiāng)鎮(zhèn)(街道)隨機抽取3個行政村(居委會),最終村與居委會隨機抽取60戶,每戶按照KISH表抽取一位居民作為調查對象,考慮10%的無應答率,共計抽取9600例調查對象,經過數據整理并剔除無效問卷,最終調查對象共有9280例,調查內容包括基本情況,體格檢查、實驗室檢查等。指標包括:脈壓、收縮壓、舒張壓、體質指數、空腹血糖、餐后血糖、甘油三酯、高密度脂蛋白、低密度脂蛋白、膽固醇、腰圍與睡眠時間。
運用SPSS 22.0軟件進行分析,將上述所有指標兩兩組合通過簡單相關分析得出相關系數矩陣,在矩陣中可觀測到脈壓與所有變量均有相關性,然而值得注意的是,在多元統(tǒng)計分析中,由于變量間相關關系會受到更多復雜的因素影響,其相關程度并不能真實的反應脈壓與其他指標的關聯(lián),(見表1)。通過矩陣可以看出,除脈壓,其他變量間同樣具有相關關系,甚至部分變量之間相關性超過了脈壓,這就對評價脈壓與其他變量之間的相關性造成影響。例如,脈壓與舒張壓的相關系數為0.269,而舒張壓與收縮壓的相關系數卻為0.736,舒張壓與脈壓的相關性程度低于收縮壓與舒張壓的相關程度,但是脈壓與收縮壓的相關系數為0.830,這就可能說明,脈壓與舒張壓的相關程度是由于它們與收縮壓的相關程度都比較高,但是兩者本身可能并不存在相關性,或者是負相關關系。因為這種相關性被其他變量的強相關性所影響。因此,從這個例子可以看出,在多元統(tǒng)計分析時,簡單相關系數常常無法反映變量之間的本質關系,這種解釋并不可靠。

表1 脈壓與各因素之間的簡單相關系數矩陣
為了更加準確地描述脈壓與其他變量之間的相關程度,我們運用偏相關系數在控制比較的兩個變量之外的其他變量對它們的影響之后,計算脈壓與各個變量之間的相關程度。
對比表2的數據,可以得到與表1一些不同的結論:收縮壓、體質指數、低密度脂蛋白、膽固醇、睡眠時間與脈壓的相關性較之簡單相關系數有較大的提升,而空腹血糖、餐后血糖等指標相關性無統(tǒng)計學意義,而舒張壓已由原來正相關變?yōu)榱素撓嚓P。事實表明,在多元統(tǒng)計中,由于變量之間存在錯綜復雜的關系,偏相關系數與簡單相關系數在數值上可能會存在很大差異,甚至會出現相關性相反的情況。

表2 脈壓與其他因素的偏相關分析結果
歷史上對于相關性這一概念的首次提出,可追溯至Francis Galton對豌豆苗母代與子代的特性關系研究中。隨后,Karl Pearson提出了Pearson相關系數,通過該系數來說明兩個觀察變量相關性的大小[4]。而隨著回歸分析與相關分析的不斷深入,原來單變量之間的相關與回歸已不能滿足社會多元性發(fā)展的需要,因此多元統(tǒng)計分析得到了極大地發(fā)展,關于偏回歸、偏相關的計算和運用正日益受到重視[5]。
本研究以脈壓與其他因素的相關性作為研究切入點,運用簡單相關系數與偏相關系數來分析脈壓的相關因素,說明了偏相關系數對于解釋具有多因素特點的調查數據在統(tǒng)計分析結果上的可靠性,但簡單相關分析也并不是一無用處。通過計算簡單相關系數的矩陣,不但可以直接得到任意兩個變量的相關性大小,還可以挖掘其他變量之間各種復雜的偏相關關系,這對于解釋和分析偏相關系數提供了更多的隱含信息。
本文的例子顯示:脈壓與舒張壓之間的相關性,在控制了其他因素的影響后,其相關性變?yōu)樨撓嚓P。這也提示兩個變量之間的高度相關,有時并不是這兩個變量本身的內在聯(lián)系所決定,它完全可能由另外一個變量的媒介作用而形成高度相關。所以絕不能只根據相關系數很高,就認為兩變量之間有直接內在的線性聯(lián)系。此時要準確地反映兩變量之間的內在聯(lián)系需要考慮偏相關系數來進行解釋。在多變量相關的場合,由于變量之間存在錯綜復雜的關系,因此偏相關系數與簡單相關系數在數值上可能相差很大,甚至呈現負相關。
由脈壓的計算公式可知,脈壓的增高可由于兩種情況導致,其一,收縮壓增高,舒張壓降低;其二收縮壓、舒張壓同時增高,但收縮壓增幅高于舒張壓。而在控制了其他因素的影響后,脈壓與舒張壓之間呈現負相關關系,也相比簡單相關分析的結果更為可靠,這是因為:其一,脈壓是收縮壓與舒張壓之差,是由兩測量值得出數學差值。如果我們認同簡單相關分析的結果,認為脈壓的升高與收縮壓和舒張壓呈現正相關。就有可能提出“控制脈壓的手段,在于有效地控制收縮壓與舒張壓的升高”的錯誤結論。其次,根據簡單相關分析的結果,舒張壓與脈壓的正相關關系是建立在收縮壓不斷升高的基礎上,然而通過研究我們發(fā)現,收縮壓、舒張壓與脈壓隨著年齡的增長均呈現了逐漸升高的趨勢,如果不控制包括收縮壓在內的因素對脈壓的影響,就會得出舒張壓越高,脈壓就會越高的錯誤結論。而與脈壓相關的其他因素中例如體質指數、低密度脂蛋白等在偏相關分析呈現的相關性也是通過控制了其他變量對其影響后的關聯(lián)程度,其結果的真實性也較簡單相關分析中所呈現的所有因素均相關要更加可靠。并且其中的關系也可在其他臨床研究中得到證實[6-9]。
綜上所述,在相關研究分析中,切忌根據簡單相關的結果就武斷認定研究的兩因素具有相關性,盡管相關系數呈現的數值說明了他們之間的共同變化關系,并且這種關系在數學的體現上是計算正確的結果,但在很多情況下,這種共同變化關系很有可能是由某個或者多個因素的影響而引起的。因此,應引起重視的是當兩個變量的相關性十分大時,尤其要注意他們之間的相關性是否符合邏輯關系,如果不符,就需要研究引起他們相關性的因素,通過去掉這些影響性后,計算“純”的相關系數,從而發(fā)現其內在的線性關系。
[1]倪宗贊.醫(yī)學統(tǒng)計學.北京.高等教育出版社,2003:138.
[2]李支元.數據挖掘系統(tǒng)中偏相關分析技術的應用研究.連云港師范高等專科學校學報,2012(4):83-85.
[3]張大鵬,路方紅,吳虹,等.脈壓歲中老年急性心肌梗死價值的分析研究.中華心血管病雜志,2004,32(34):368-369.
[4]JAldrich karl Pearson′s Biometrika:1901-36.Biometrika,2013,100:3-15.
[5]盧珊,王惠文,關蓉.相關系數矩陣的逆矩陣與行列式的內涵分析.數學的實踐與認識,2015,45(6):180-185.
[6]李抒云.身體質量指數與年齡對血壓的影響.中國老年學雜志,2010,30:2439-2441.
[7]MR Garcia-palmicri,CJCrespo,DM Gee.Wide pulse pressure is an independent of cardiovascular mortality in Puerto Ricanmen.Nutritiony Metabolism&Cardiovase Disease,2005,15(1):71-78.
[8]鄧光瑞,黃光勝.高血壓心血管事件的脈壓預測研究.吉林醫(yī)學,2010,22(8):921-922.
[9]馬松.脈壓對高血壓心血管事件預測的臨床價值.航空航天醫(yī)學雜志,2010,22(8):658-660.
(責任編輯:郭海強)