999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關聯規則分析和logistic 模型的相關性研究

2017-11-07 00:53:57劉啟貴隋全恒
中國衛生統計 2017年5期
關鍵詞:關聯規則分析

唐 曉 劉啟貴△ 隋全恒

1.大連醫科大學衛生統計教研室(116044)

2.大連市沙河口區疾病預防控制中心

△通信作者:劉啟貴

關聯規則分析和logistic模型的相關性研究

唐 曉1劉啟貴1△隋全恒2

logistic回歸模型是一個經典的統計學模型[1],利用該模型可以做預測并解釋因變量和自變量之間的關系,其已被廣泛應用于醫學、生物學、工程、經濟和農業等領域[2-6]。關聯規則分析是一種數據挖掘方法[7],它通過人為給出規則標準的方式解釋數據庫中項與項之間的關系。這兩種方法都可以用于提取影響某變量(結局)的因素[8-10]。 目前很多研究利用這兩種方法互相補充來獲得影響因素[11-15],但他們并不解釋兩種方法之間的聯系以及聯合使用后所得到結果的意義。本研究將從兩種模型的數學原理出發,通過理論證明發現他們之間的聯系,從而得到結合兩種方法分析數據所得結果的異同及其實際的應用價值。

關聯規則分析和logistic回歸模型

1.兩分類logistic回歸模型

二分類logistic回歸模型應用于當因變量只有兩種可能結果的時候(比如“死亡”和“生存”)。在二分類logistic回歸模型中,常用0和1來標識結果。通常1代表兩種結果中值得關注的一個事件,比如“死亡”。二分類logistic回歸模型如下:

(1)

2.關聯規則分析

1993年Agrawal提出一種從大數據庫中提取關聯規則的算法[16]。其模型是:

D是一個項的集合,在集合D中尋找項X和項Y之間的關聯規則。其關聯規則的表達是X→Y,表示如果X發生,則Y有可能發生。其評價指標有三個:

①支持度sup(X→Y)=P(XY),即X、Y同時發生的概率。

②置信度conf(X→Y)=P(Y|X),即在X發生的條件下,Y發生的條件概率;

強關聯規則是指在事務數據庫中支持度和置信度都大于最低閥值,并且提升比大于1的項X和項Y之間的關聯規則。關聯規則分析就是在項集合D中找到所有強關聯規則。

在關聯規則分析中,不需要區分自變量與因變量。它處理的是每一個項并想找到項之間的關聯。例如,在數據庫中可以尋找X→Y的關聯,同時也可以得到Y→X的關聯。但在一些研究中,結果事件是非常明確的。比如說尋找影響某一疾病的因素,我們只關心其他事件對疾病發生的影響(即單向的關聯)。在這篇文章里,為了和logistic回歸模型進行比較,我們只討論結果明確的關聯規則。關聯規則處理連續型變量時需要把它離散化,變成分類變量來處理。在這里,我們只討論因素為兩分類的情況。

logistic回歸模型和關聯規則的聯系

1.兩分類logistic模型中OR值與Lift的關系

(2)

2.一元logistic回歸模型中的假設檢驗與關聯規則之間的關系

假設Y是因變量,X是自變量。它們是二分類的,發生的頻率見表1.

在logistic回歸模型中篩選變量的統計量為

=2ln

(3)

(5)

=2n[P(X)P(Y)lift(X→Y)ln{lift(X→Y)}+

(6)

在(6)式中,如果lift(X→Y)增大,則第一項和第四項都增大,當

lift(X→Y)→時,lift(X→)→0,此時第二項

第二項極限為0,同理,當lift(X→Y)→時,第三項的極限也為0.

由此可見,χ2值主要取決于lift(X→Y)的大小,當lift(X→Y)足夠大時,可使χ2值變大,X因素就較容易被選入logistic回歸模型中。

在關聯規則模型中,還需要同時考察另外二個指標:sup(X→Y)、conf(X→Y)。只有當sup(X→Y)、conf(X→Y)超過各自的閥值時,才是強的關聯規則。故當一個因素在logistic回歸模型中是顯著的,它不一定出現在強關聯規則中。

實 例

本研究所用的數據是來自2011年大連市的一個慢性疾病的調查數據。通過調查得到4858位居民的慢性病信息,所調查的慢性疾病包括糖尿病、高血壓、高血脂、肥胖、痛風及骨關節疾病、脂肪肝和其他肝臟疾病、腎病、內分泌失調、呼吸睡眠綜合癥。我們分別使用一元logistic回歸模型和關聯規則來分析患慢性病之間的關系。

首先,以患糖尿病為結果事件,其他疾病作為輸入事件,不設置支持度閥值和置信度閥值,使用關聯規則分析,其結果按照從大到小的順序排列前11個規則,見表2。同時,令糖尿病為因變量,其他慢性疾病為自變量,代入一元logistic回歸模型,顯著的影響因素根據OR值從大到小的順序排列,結果見表3。結果顯示:表3中的影響因素正好是表2中所得到的前9個關聯規則,這證明檢驗統計量依賴于Lifet(X→Y)。

其次,令患糖尿病為后項,其他疾病為輸入前項。設置支持度閥值為1%,置信度閥值為15%,得到強關聯規則。按照從大到小順序排列,結果見表4。此時,只有高血脂,眼部疾病,高血壓這三個因素被保留在強關聯規則中,這是由于其他六種疾病和糖尿病形成的關聯沒有達到相應的閥值而被刪除,但這六個因素在一元logistic回歸模型中是顯著的。

討 論

關聯規則分析和logistic回歸模型都可以研究因素對某一結果的影響,常靜玲等[12]聯合兩模型對腦梗死中醫診療指南的應用進行評估,楊麗[13]等利用兩個模型研究腦梗塞發病因素。但鮮有研究從數學理論上解釋兩模型聯合使用的意義。目前國外關于兩模型的研究主要有:Shaharanee[14]把logistic回歸模型作為一個工具去尋找在關聯規則分析中顯著的關聯。Freyberger[15]等在學生學習轉換模型中應用關聯規則分析幫助選擇logistic回歸模型中的項。Changpetch[13]利用關聯規則分析建立logistic回歸模型最佳的主因素組合以及尋找可能的交互。所以探究關聯規則與logistic回歸模型結合使用的意義是非常必要的。

表2 不設置閥值的關聯規則分析結果

表3 一元logistic回歸模型結果

表4 設置閥值后的關聯規則結果

雖然兩種方法基于不同的數學理論,logistic回歸模型基于統計分布,而關聯規則基于概率,但經過證明這兩種方法有較強的關聯。首先如果關聯規則中的提升比大于1,則logistic回歸模型對應OR值也會大于1,區別在于OR值可以經過假設檢驗判斷其是否具有統計學意義,從而消除隨機誤差的影響,而提升比則不行。其次,logistic回歸模型中篩選變量的統計量主要由關聯規則中的提升比決定。如果提升比足夠大,不管和的值為多少,對應因素都較容易進入到一元logistic回歸方程中。但是,如果某因素被選入logistic回歸方程中,它不一定出現在強關聯規則中,因為其對應的支持度和置信度不一定達到閥值。

利用logistic回歸模型可以獲得因變量的影響因素,但是可能此影響因素的現實發生率較低。而用關聯規則去獲得影響因素,即提升比大于1的規則,但是由于沒有經過假設檢驗,難以說明此因素與因變量的聯系是本質上的,還是受到了抽樣誤差的影響。因此,結合這兩種方法來獲得的影響因素具有統計學意義的顯著性和達到一定的現實發生率的雙重特點。建議在宏觀的研究中結合這兩種方法來使用,得出的結論更有實際應用價值。

[1] Freedman DA.Statistical Models:Theory and Practice.Cambridge University Press.2005.

[2] 陳年芳,葉秀珍,劉麗群.妊娠期糖尿病高危因素的多元logistic回歸分析.中國婦幼保健,2016,(13):2598-2600.

[3] 王勝,宋倩,束新華.血清淀粉樣蛋白與宮頸病理特征關系的logistic回歸分析.國際流行病學傳染病學雜志,2016,(2):105-108.

[4] 付仲良,楊元維.利用多元logistic回歸進行道路網匹配.武漢大學學報信息科學版,2016,(2):171-177.

[5] 董梁,胡明雅.基于logistic回歸模型的P2P網貸平臺新近借款人信用風險研究.江蘇科技大學學報(社會科學版),2016,(3):102-108.

[6] 馬翼翔,吳兆福,王兆.基于logistic回歸模型的新市區耕地數量變化景觀立地要素驅動力分析.湖北農業科學,2016,(11):2987-2990.

[7] 高波,張冰.數據挖掘關聯規則算法研究.信息系統工程,2016,(3):29.

[8] 張奇,李濤,等.基于關聯規則挖掘治療多發性硬化所用中藥對患者T細胞亞群的影響.中國中西醫結合雜志,2016,(4):424-429.

[9] 何文靜,顧浩.基于關聯規則的維吾爾醫治療黑膽質方劑藥性配伍規律研究.中華中醫藥雜志,2016,(5):1809-1811.

[10]Jung SJ,Son CS,Kim MS,et al.Association rules to identify complications of cerebral infarction in patients with atrial fibrillation.Healthcare Information research,2013,(19): 25-32.

[11]楊麗,徐德生,等.前置粗糙分類器的基于關聯規則的logistic回歸在腦梗塞發病因素分析中的應用,2012(5).

[12]常靜玲,柳金英,等.腦梗死中醫診療指南臨床應用評價研究.中華中醫藥雜志,2016,(2):549-552.

[13]Changpetch P,Lin DKJ.Model selection for logistic regression via association rules analysis.Journal of Statistical Computation and Simulation,2013,(83):1415-1428.

[14]Shaharanee INM,Hadzic F,Dillon TS.Interestingness of association rules using symmetrical tau and logistic regression.AL:2009 Advanced in Artificial Intelligence,2009:422-431.

[15]Freberger J,Heffernan NT,Ruiz C.Using association rules to guide a search for best fitting transfer models of student learning.Workshop on Analyzing Student-Tutor Interaction Logs to Improve Educational Outcomes at the 7th Annual Intelligent Tutoring ystems Conference,Maceio,Brazil,2004.

[16]Agrawal R,Imielinski T,Swami A.Mining association rules between sets of items in large databases.In:Proceedings of the ACM SIGMOD INTL conference on management of data(ACM SIGMOD 93),Washington,USA,1993:207-216.

(責任編輯:郭海強)

猜你喜歡
關聯規則分析
撐竿跳規則的制定
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規則和演變
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規則對我國的啟示
電力系統及其自動化發展趨勢分析
主站蜘蛛池模板: 日韩无码视频网站| 亚洲精品在线观看91| 真实国产乱子伦高清| 男女男精品视频| 亚洲婷婷六月| 午夜在线不卡| 中文字幕亚洲精品2页| 国产精品99久久久久久董美香| 91视频首页| 国产一区二区三区免费观看 | 色九九视频| 久久精品丝袜高跟鞋| 亚洲精品va| 曰韩免费无码AV一区二区| 国产欧美日韩另类| 久久精品电影| 国产福利拍拍拍| 日韩国产精品无码一区二区三区| 亚洲精品午夜无码电影网| 人妻丰满熟妇αv无码| 天堂网亚洲系列亚洲系列| 国产浮力第一页永久地址 | 久久久久亚洲av成人网人人软件 | 国产凹凸一区在线观看视频| 中文字幕人妻av一区二区| 2021天堂在线亚洲精品专区| 区国产精品搜索视频| 国产精品一线天| 亚洲色无码专线精品观看| 91久久夜色精品国产网站| 2020精品极品国产色在线观看| 欧美一区二区精品久久久| 六月婷婷精品视频在线观看| P尤物久久99国产综合精品| 欧美亚洲日韩中文| 久草青青在线视频| 啪啪免费视频一区二区| 国产黄在线免费观看| 国产91精选在线观看| 又粗又硬又大又爽免费视频播放| 色九九视频| 伊人天堂网| 亚洲中文字幕av无码区| 九色视频在线免费观看| 日本一区二区三区精品视频| 亚洲国产欧美目韩成人综合| 看国产毛片| 国产精品综合色区在线观看| 人妻丰满熟妇啪啪| 亚洲精品成人7777在线观看| 亚洲综合色在线| 高清色本在线www| 在线观看国产精品第一区免费| 国产成人亚洲精品无码电影| 国产91无码福利在线| 日本成人不卡视频| 欧美一级99在线观看国产| 国产真实乱子伦精品视手机观看| 伊人五月丁香综合AⅤ| 国产日本一线在线观看免费| 欧美成人国产| 人人爽人人爽人人片| 2021最新国产精品网站| 国产精品99一区不卡| 亚洲视频一区| 日韩毛片免费观看| 一本大道东京热无码av| 久久天天躁狠狠躁夜夜躁| 精品99在线观看| 国产精品手机视频| 亚洲色偷偷偷鲁综合| 国产欧美日韩另类精彩视频| 国产中文一区a级毛片视频| 亚洲成a人片77777在线播放| 欧美日韩午夜视频在线观看 | 在线播放国产99re| 亚洲精品高清视频| 欧美国产菊爆免费观看| 无码精品一区二区久久久| 久久精品无码一区二区国产区| 欧美a√在线| 无码免费试看|