唐 曉 劉啟貴△ 隋全恒
1.大連醫科大學衛生統計教研室(116044)
2.大連市沙河口區疾病預防控制中心
△通信作者:劉啟貴
關聯規則分析和logistic模型的相關性研究
唐 曉1劉啟貴1△隋全恒2
logistic回歸模型是一個經典的統計學模型[1],利用該模型可以做預測并解釋因變量和自變量之間的關系,其已被廣泛應用于醫學、生物學、工程、經濟和農業等領域[2-6]。關聯規則分析是一種數據挖掘方法[7],它通過人為給出規則標準的方式解釋數據庫中項與項之間的關系。這兩種方法都可以用于提取影響某變量(結局)的因素[8-10]。 目前很多研究利用這兩種方法互相補充來獲得影響因素[11-15],但他們并不解釋兩種方法之間的聯系以及聯合使用后所得到結果的意義。本研究將從兩種模型的數學原理出發,通過理論證明發現他們之間的聯系,從而得到結合兩種方法分析數據所得結果的異同及其實際的應用價值。
1.兩分類logistic回歸模型
二分類logistic回歸模型應用于當因變量只有兩種可能結果的時候(比如“死亡”和“生存”)。在二分類logistic回歸模型中,常用0和1來標識結果。通常1代表兩種結果中值得關注的一個事件,比如“死亡”。二分類logistic回歸模型如下:

(1)

2.關聯規則分析
1993年Agrawal提出一種從大數據庫中提取關聯規則的算法[16]。其模型是:
D是一個項的集合,在集合D中尋找項X和項Y之間的關聯規則。其關聯規則的表達是X→Y,表示如果X發生,則Y有可能發生。其評價指標有三個:
①支持度sup(X→Y)=P(XY),即X、Y同時發生的概率。
②置信度conf(X→Y)=P(Y|X),即在X發生的條件下,Y發生的條件概率;

強關聯規則是指在事務數據庫中支持度和置信度都大于最低閥值,并且提升比大于1的項X和項Y之間的關聯規則。關聯規則分析就是在項集合D中找到所有強關聯規則。
在關聯規則分析中,不需要區分自變量與因變量。它處理的是每一個項并想找到項之間的關聯。例如,在數據庫中可以尋找X→Y的關聯,同時也可以得到Y→X的關聯。但在一些研究中,結果事件是非常明確的。比如說尋找影響某一疾病的因素,我們只關心其他事件對疾病發生的影響(即單向的關聯)。在這篇文章里,為了和logistic回歸模型進行比較,我們只討論結果明確的關聯規則。關聯規則處理連續型變量時需要把它離散化,變成分類變量來處理。在這里,我們只討論因素為兩分類的情況。
1.兩分類logistic模型中OR值與Lift的關系






(2)

2.一元logistic回歸模型中的假設檢驗與關聯規則之間的關系
假設Y是因變量,X是自變量。它們是二分類的,發生的頻率見表1.
在logistic回歸模型中篩選變量的統計量為

=2ln
(3)

(5)











=2n[P(X)P(Y)lift(X→Y)ln{lift(X→Y)}+



(6)

在(6)式中,如果lift(X→Y)增大,則第一項和第四項都增大,當
lift(X→Y)→時,lift(X→)→0,此時第二項


第二項極限為0,同理,當lift(X→Y)→時,第三項的極限也為0.
由此可見,χ2值主要取決于lift(X→Y)的大小,當lift(X→Y)足夠大時,可使χ2值變大,X因素就較容易被選入logistic回歸模型中。
在關聯規則模型中,還需要同時考察另外二個指標:sup(X→Y)、conf(X→Y)。只有當sup(X→Y)、conf(X→Y)超過各自的閥值時,才是強的關聯規則。故當一個因素在logistic回歸模型中是顯著的,它不一定出現在強關聯規則中。
本研究所用的數據是來自2011年大連市的一個慢性疾病的調查數據。通過調查得到4858位居民的慢性病信息,所調查的慢性疾病包括糖尿病、高血壓、高血脂、肥胖、痛風及骨關節疾病、脂肪肝和其他肝臟疾病、腎病、內分泌失調、呼吸睡眠綜合癥。我們分別使用一元logistic回歸模型和關聯規則來分析患慢性病之間的關系。
首先,以患糖尿病為結果事件,其他疾病作為輸入事件,不設置支持度閥值和置信度閥值,使用關聯規則分析,其結果按照從大到小的順序排列前11個規則,見表2。同時,令糖尿病為因變量,其他慢性疾病為自變量,代入一元logistic回歸模型,顯著的影響因素根據OR值從大到小的順序排列,結果見表3。結果顯示:表3中的影響因素正好是表2中所得到的前9個關聯規則,這證明檢驗統計量依賴于Lifet(X→Y)。
其次,令患糖尿病為后項,其他疾病為輸入前項。設置支持度閥值為1%,置信度閥值為15%,得到強關聯規則。按照從大到小順序排列,結果見表4。此時,只有高血脂,眼部疾病,高血壓這三個因素被保留在強關聯規則中,這是由于其他六種疾病和糖尿病形成的關聯沒有達到相應的閥值而被刪除,但這六個因素在一元logistic回歸模型中是顯著的。
關聯規則分析和logistic回歸模型都可以研究因素對某一結果的影響,常靜玲等[12]聯合兩模型對腦梗死中醫診療指南的應用進行評估,楊麗[13]等利用兩個模型研究腦梗塞發病因素。但鮮有研究從數學理論上解釋兩模型聯合使用的意義。目前國外關于兩模型的研究主要有:Shaharanee[14]把logistic回歸模型作為一個工具去尋找在關聯規則分析中顯著的關聯。Freyberger[15]等在學生學習轉換模型中應用關聯規則分析幫助選擇logistic回歸模型中的項。Changpetch[13]利用關聯規則分析建立logistic回歸模型最佳的主因素組合以及尋找可能的交互。所以探究關聯規則與logistic回歸模型結合使用的意義是非常必要的。

表2 不設置閥值的關聯規則分析結果

表3 一元logistic回歸模型結果

表4 設置閥值后的關聯規則結果
雖然兩種方法基于不同的數學理論,logistic回歸模型基于統計分布,而關聯規則基于概率,但經過證明這兩種方法有較強的關聯。首先如果關聯規則中的提升比大于1,則logistic回歸模型對應OR值也會大于1,區別在于OR值可以經過假設檢驗判斷其是否具有統計學意義,從而消除隨機誤差的影響,而提升比則不行。其次,logistic回歸模型中篩選變量的統計量主要由關聯規則中的提升比決定。如果提升比足夠大,不管和的值為多少,對應因素都較容易進入到一元logistic回歸方程中。但是,如果某因素被選入logistic回歸方程中,它不一定出現在強關聯規則中,因為其對應的支持度和置信度不一定達到閥值。
利用logistic回歸模型可以獲得因變量的影響因素,但是可能此影響因素的現實發生率較低。而用關聯規則去獲得影響因素,即提升比大于1的規則,但是由于沒有經過假設檢驗,難以說明此因素與因變量的聯系是本質上的,還是受到了抽樣誤差的影響。因此,結合這兩種方法來獲得的影響因素具有統計學意義的顯著性和達到一定的現實發生率的雙重特點。建議在宏觀的研究中結合這兩種方法來使用,得出的結論更有實際應用價值。
[1] Freedman DA.Statistical Models:Theory and Practice.Cambridge University Press.2005.
[2] 陳年芳,葉秀珍,劉麗群.妊娠期糖尿病高危因素的多元logistic回歸分析.中國婦幼保健,2016,(13):2598-2600.
[3] 王勝,宋倩,束新華.血清淀粉樣蛋白與宮頸病理特征關系的logistic回歸分析.國際流行病學傳染病學雜志,2016,(2):105-108.
[4] 付仲良,楊元維.利用多元logistic回歸進行道路網匹配.武漢大學學報信息科學版,2016,(2):171-177.
[5] 董梁,胡明雅.基于logistic回歸模型的P2P網貸平臺新近借款人信用風險研究.江蘇科技大學學報(社會科學版),2016,(3):102-108.
[6] 馬翼翔,吳兆福,王兆.基于logistic回歸模型的新市區耕地數量變化景觀立地要素驅動力分析.湖北農業科學,2016,(11):2987-2990.
[7] 高波,張冰.數據挖掘關聯規則算法研究.信息系統工程,2016,(3):29.
[8] 張奇,李濤,等.基于關聯規則挖掘治療多發性硬化所用中藥對患者T細胞亞群的影響.中國中西醫結合雜志,2016,(4):424-429.
[9] 何文靜,顧浩.基于關聯規則的維吾爾醫治療黑膽質方劑藥性配伍規律研究.中華中醫藥雜志,2016,(5):1809-1811.
[10]Jung SJ,Son CS,Kim MS,et al.Association rules to identify complications of cerebral infarction in patients with atrial fibrillation.Healthcare Information research,2013,(19): 25-32.
[11]楊麗,徐德生,等.前置粗糙分類器的基于關聯規則的logistic回歸在腦梗塞發病因素分析中的應用,2012(5).
[12]常靜玲,柳金英,等.腦梗死中醫診療指南臨床應用評價研究.中華中醫藥雜志,2016,(2):549-552.
[13]Changpetch P,Lin DKJ.Model selection for logistic regression via association rules analysis.Journal of Statistical Computation and Simulation,2013,(83):1415-1428.
[14]Shaharanee INM,Hadzic F,Dillon TS.Interestingness of association rules using symmetrical tau and logistic regression.AL:2009 Advanced in Artificial Intelligence,2009:422-431.
[15]Freberger J,Heffernan NT,Ruiz C.Using association rules to guide a search for best fitting transfer models of student learning.Workshop on Analyzing Student-Tutor Interaction Logs to Improve Educational Outcomes at the 7th Annual Intelligent Tutoring ystems Conference,Maceio,Brazil,2004.
[16]Agrawal R,Imielinski T,Swami A.Mining association rules between sets of items in large databases.In:Proceedings of the ACM SIGMOD INTL conference on management of data(ACM SIGMOD 93),Washington,USA,1993:207-216.
(責任編輯:郭海強)