999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘方法在醫學領域的應用及SWOT分析*

2015-03-13 11:44:42牟冬梅
醫學信息學雜志 2015年1期
關鍵詞:數據挖掘關聯規則

牟冬梅 馮 超 王 萍

(吉林大學公共衛生學院 長春130021)

?

數據挖掘方法在醫學領域的應用及SWOT分析*

牟冬梅 馮 超 王 萍

(吉林大學公共衛生學院 長春130021)

闡述關聯規則、人工神經網絡、決策樹和聚類分析4種數據挖掘方法在醫學領域的應用情況,運用SWOT分析法,得出各方法的優勢及劣勢、面臨的機會及威脅并做出策略分析。指出4種數據挖掘方法的適用范圍和協同應用情況,對方法的應用選取提出建議。

數據挖掘;關聯規則;人工神經網絡;決策樹;聚類分析;SWOT分析

1 引言

數據挖掘(Data Mining)是一個多學科交叉研究領域,融合了數據庫技術、人工智能、機器學習、統計學、知識工程、面向對象方法、信息檢索、高性能計算以及數據可視化等最新技術的研究結果。應用一系列技術從大型數據庫和數據倉庫中提取人們感興趣的信息和知識,這些知識是隱含的,事先未知而潛在有用的,提取的知識表示為概念、規律、模式等。醫學領域數據量龐大、生成速度快、結構復雜多樣且價值大[1-2],利用數據挖掘技術處理這些信息,可以取得事半功倍之效。數據挖掘方法較多也比較復雜,針對醫學數據的隱私性、多樣性、不完整性及冗余性[3],及不同數據結構、不同需要、不同目的,選擇相適應的數據挖掘方法至關重要。本文針對4種常用的數據挖掘方法[4]——關聯規則、人工神經網絡、決策樹及聚類分析進行探討。

2 數據挖掘方法在醫學領域的應用現狀分析

2.1 關聯規則

4種數據挖掘方法是數據挖掘領域的研究熱點,隨著其發展進步,應用領域不斷擴展,涵蓋了商業、教育、工程、科研及醫學等領域。在醫學領域,關聯規則用來發現數據間隱含的關聯關系,基于醫學數據非結構化、無序化及數量龐大的特點,應用關聯規則挖掘未知的知識顯得尤其重要。現已有多項醫學領域關聯數據研究:(1)發現疾病與癥狀間的關聯規則,如王華等[5]用其研究某癥狀可能伴隨發生其他癥狀,這些癥狀可能是由某疾病引發。(2)疾病并發癥的關聯研究,如余輝等[6]研究幾種病癥同時發生時糖尿病并發的概率,糖尿病引發某并發癥的風險。(3)用藥和方劑配伍規律研究,如吳嘉瑞等[7]用關聯規則和復雜系統熵聚類分析治療腹痛用藥規律。(4)病癥-辨證-處方關聯研究,歐鳳霞等[8]用關聯規則判斷癥狀組合出現時使用某種藥物的概率,是何種辨證及會用某處方的概率。(5)分析藥物間相互作用,如胡雙[9]用關聯規則分析心血管藥物的相互作用,包括避免合用、謹慎合用、可以合用的作用關系。(6)藥品分類和劑型關聯分析,如鄭銀麗等[10]通過藥品分類和劑型的關聯規則挖掘,發現用戶用藥需求、習慣及劑型偏好。關聯規則在臨床醫療領域有著出色的效用,在疾病、癥狀、并發癥、用藥等方面都做出了卓越貢獻。

2.2 人工神經網絡

人工神經網絡模擬大腦神經組織機制,由節點相互聯接的輸入、輸出結構,具有出色的學習能力,在醫療和金融領域都有良好的預測效果。人工神經網絡在醫學領域有以下幾方面應用:(1)危險因素分析,如錢玲[11]用BP神經網絡分析影響糖尿病并發癥發生的因素。(2)疾病診斷,如吳擁軍等[12]建立了基于BP 網絡的肺癌智能化診斷模型系統。(3)疾病預測,如溫變珍[13]針對原發大腸癌手術病例,建立經測試后效果良好的生存期預測模型。(4)基因型分類,如Rena等[14]嘗試用BP神經網絡對樣品3種基因型(GG、AA、GA)進行分類。臨床和基礎醫學中人工神經網絡都有很好的應用,在臨床預測方面發揮了重要作用。

2.3 決策樹

決策樹奉行自頂向下,分而治之,以樹狀圖來使結果可視化,是典型的分類方法,能發現分類規則,在醫學領域有重要應用:(1)疾病的分類,如楊開明[15]用決策樹對糖尿病病例數據辨證分類,可指導醫生臨床診斷。(2)致病規律,如蘇亞丁[16]提出一種基于決策樹的口腔診療方法,試圖利用其研究口腔疾病的致病規律。(3)疾病預測,如陳偉等[17]使用決策樹對絕經綜合征者預測便秘和腰酸。(4)疾病診斷,如王劍[18]用決策樹診斷慢性乙型肝炎不同型別,診斷肝炎肝硬化和原發性肝細胞癌,發現慢性乙肝患者中的高危人群;通過移動醫療設備疾病決策樹可以幫助患者一定程度上自己診斷和處理病情[19]。

2.4 聚類分析

聚類分析基于相似性將對象分類,主要用于模式識別和數據挖掘,在醫學領域主要有以下應用:(1)方劑配伍規律分析,如吳磊等[20]雙向聚類分析治療中風病方劑配伍規律,得到針對不同證型配伍用藥特點、治法和常用藥組。(2)基因表達數據分析,如Bittner等[21]于基因層次利用聚類分析黑色素瘤樣本,找出其間相關性。(3)疾病診斷,如景麗俊[22]對治療小兒抽動穢語綜合征的處方及腫瘤醫案聚類研究,發現方劑間及方劑和病證間關聯,確定腫瘤證型。(4)辨證論治,如李賽[23]聚類分析慢性腎衰竭癥狀,顯示隨著聚類次數的增加慢性腎衰竭的演變過程,對病機、臨床表現特點及發展變化的規律有整體觀念,指導論治。(5)用藥規律分析,如李健等[24]對治療肺癰的方劑聚類分析,發現方劑中藥物的關聯、核心組合及新方劑組合。(6)臨床癥狀、證型分析,如林蘭等[25]對癥狀聚類得到最常見癥狀,對證型聚類得到主要證型。(7)致病危險因素分析,如魏林節等[26]聚類分析影響高原地區發生高血壓腦出血的危險因素,得到危險因素的分類結果。(8)發現臨床數據異常點,如蔣小群等[27]對2型糖尿病患者分層聚類分析,發現指標異常點,輔助臨床診斷和治療。

3 4種方法的SWOT分析

SWOT(Strengths,Weakness,Opportunity,Threats)分析法又稱態勢分析法或優劣勢分析法,是由哈佛商學院的K.J.安德魯斯教授于1921年在其《公司戰略概念》一書中提出的,用于客觀分析研究對象所處的現實情況。本文使用此方法將數據挖掘方法的內部優勢、劣勢、外部機會及面臨的威脅4個要素按矩陣排列并做出分析,明確4種數據挖掘方法的優勢和存在的問題,找出解決辦法,協助對方法的選擇,見表1。

續表1

4 4種數據挖掘方法在醫學領域的適用范圍及其協同應用

4.1 適用范圍

4種數據挖掘方法由于各自的特點、功能、限制,應用情況有所不同。關聯規則反映變量間相互依存和關聯,主要挖掘數據的項目或屬性間關系,如病癥-辨證-處方之間關系、用藥規律、方劑配伍關聯,發現潛在、未知的規則和關聯度較強的規則。由于對數據預處理要求低,無需考慮數據的復雜度,可處理規范程度不高、結構不規整的數據。人工神經網絡需要學習訓練樣本,主要用于疾病預測、診斷和分類及危險因素分析等;可完成分類、聚類、特征挖掘等任務;挖掘因變量、自變量、輸出結果間關系。最好給出權重系數的可信區間、訓練樣本的標準及最優隱含層數。決策樹主要用于疾病診斷、分類、預測、致病規律研究等,可以通過挖掘臨床數據對是否會患病、患病概率、疾病類型等做出分析和判定;可挖掘內部節點和葉子節點的屬性和類間關系;處理離散型數據及連續型數據;對異常值、缺失值有良好處理效果。考慮局部最優,于全局最優上有所欠缺。聚類分析用于基因表達分析,可確定有相似表達模式的基因,提示未知基因功能;用于疾病分類、診斷;方劑配伍及用藥規律;藥物與癥狀間關聯;分析臨床癥狀、證型、證候間關聯及常見情況;分析致病危險因素及影響程度;可發現異常臨床數據,輔助診斷。聚類分析主要用于分類,可根據數據特征將樣本分類,根據數據屬性間相似度挖掘數據集類的情況及數據間關聯。對“臟數據”敏感,所以研究數據集最好沒有過多“臟數據”。

4.2 協同應用

在數據挖掘過程中,4種方法各有其側重,它們的功能在特定時有關聯,所以在一定程度上可以協同應用。關聯規則和聚類分析都可用于用藥規律和方劑配伍研究,人工神經網絡和決策樹都可以用于疾病預測、診斷、分類研究,所以可在進行數據挖掘分析時采用多種方法,以提高準確度和可信度。聚類分析可用于分類,在聚類的基礎上對數據屬性進行分析,關聯規則支持挖掘多個屬性間關聯并且不用考慮變量間復雜關系,對挖掘對象要求低,聚類分析可用于群分類,然后應用關聯規則對分類結果進行關聯挖掘。將數據先用聚類分析處理,使其更規范化,而后進行關聯分析,關聯分析在運行上時間開銷比較大,而在聚類操作后減輕了這種壓力,兩種方法可以互相彌補不足之處。決策樹可用于疾病分類,而后可用關聯規則從決策樹中提取規則。研究發現決策樹和人工神經網絡結合使用可以產生較好的預測模型[4]。決策樹模型效率高,可處理較大數據集,具有較高分類精度,決策樹先對數據做出處理,刪除不必要的數據,將有必要且符合要求的數據合并,再使用關聯規則分析。

5 結語

4種數據挖掘方法,能一定程度上滿足醫學研究及臨床醫療的需要,在醫學領域有較大發展空間及前景,但同時自身存在缺點及局限性,應重視克服其缺陷,以便能在醫學領域乃至大數據環境得到更好的發展。數據挖掘方法各自分析側重點不同,方法的選取對研究結果是否有效、是否可信影響巨大。已有的對數據挖掘方法的應用可為以后的使用者、研究者提供參考。數據挖掘方法在醫學領域應用于不同研究方向,可根據研究目的和需要對方法進行選擇,并且數據挖掘方法可以協同應用,有助于提高分析研究的準確性。

1 肖輝,周征奇,肖革新,等.公共衛生領域中的數據挖掘[J].醫學信息學雜志,2013,34(12):2-5.

2 高漢松,肖凌,許德瑋,等.基于云計算的醫療大數據挖掘平臺[J].醫學信息學雜志,2013,34(5):7-12.

3 石曉敬.數據挖掘及其在醫學信息中的應用[J].醫學信息學雜志,2013,34(5):2-6.

4 沈培.基于數據挖掘的甲肝醫療費用影響因素與控制策略研究[D].武漢:華中科技大學,2012.

5 王華,胡學鋼.基于關聯規則的數據挖掘在臨床上的應用[J].安徽大學學報:自然科學版,2006,30(2):21-25.

6 余輝,張力新,劉文耀,等.醫學數據挖掘系統研究——糖尿病并發癥流行病學知識發現[J].計算機工程與應用,2006,(18):229-232.

7 吳嘉瑞,張曉朦,張冰,等.基于關聯規則和復雜系統熵聚類的顏正華教授治療腹痛用藥規律[J].中華中醫藥雜志,2013,28(10):2884-2887.

8 歐鳳霞,王宗殿.基于關聯規則的數據挖掘技術在中醫診斷中的應用[J].河南工程學院學報:自然科學版,2011,23(2):53-58.

9 胡雙.關聯規則挖掘研究及其在藥物相互作用中的應用[D].昆明:昆明理工大學,2013.

10 鄭銀麗,相秉仁,趙國明.關聯規則技術在醫藥零售業藥品營銷組合中的應用[J].醫學信息學雜志,2011,32(4):55-58.

11 錢玲.人工神經網絡應用于糖尿病并發癥的影響因素研究[J].現代預防醫學,2005,32(12):1625-1628.

12 吳擁軍,吳逸明.人工神經網絡技術在肺癌診斷中的應用研究[J].中華微生物學和免疫學雜志,2003,23(8):646-649.

13 溫變珍.BP神經網絡在大腸癌預后分析中的應用[D].太原:山西醫科大學,2010.

14 Rena L,Wang WP,Gao YZ, et al.Typing SNP based on the Near-infrared Spectroscopy and Artificial Neural Network[J].Spectrochim Acta a Mol Biomol Sepectrosc,2009,73(1):106-111.

15 楊開明.糖尿病中醫臨床數據挖掘技術研究[D].昆明:昆明理工大學,2013.

16 蘇亞丁.基于決策樹的數據挖掘技術在口腔診療中的應用[D].石家莊:河北科技大學,2010.

17 陳偉,沈亞誠,蔡永銘,等.基于Web的數據挖掘系統設計及其在絕經綜合征中的應用[J].醫學信息學雜志,2012,33(7):33-36,44.

18 王劍.乙型病毒性肝炎及相關疾病蛋白質組學及臨床診斷的研究[D].石家莊:河北醫科大學,2009.

19 吳民.移動醫療的應用[J].醫學信息學雜志,2012,33(11):2-5.

20 吳磊,李舒.基于雙向聚類方法的中醫治療中風病方劑配伍規律知識發現[J].中國中醫藥信息雜志,2013,20(11):16-18.

21 Bittner M, Meltzer P, Chen Y, et al. Molecular Classification of Cutaneous Malignant Melanoma by Gene Expression Profiling[J].Nature, 2000, 406(6795):536-540.

22 景麗俊.基于聚類和關聯規則的名醫臨證思維及方藥應用規律挖掘方法[D].廣州:暨南大學,2011.

23 李賽.慢性腎衰竭中醫證治規律研究[D].北京:中國中醫科學院,2010.

24 李健,盧朋,唐仕歡,等.基于中醫傳承輔助系統的治療肺癰方劑組合方規律分析[J].中國實驗方劑學雜志,2012,18(2):254-257.

25 林蘭,倪青,龐健麗,等.基于數據挖掘技術的2型糖尿病辯證規范前瞻性研究[J].中國中醫藥信息雜志,2011,18(7):9-11.

26 魏林節,馮國君,董紅讓,等.聚類分析在高原地區高血壓腦出血危險因素分類中的應用[J].中國實用神經疾病雜志,2013,16(13):43-44.

27 蔣小群,匡金石,李艾紅.聚類分析在糖尿病中的應用[J].中國現代醫藥雜志,2008,10(2):100-101.

Application of Data Mining Methods in Medical Field as Well as SWOT Analysis

MUDong-mei,FENGChao,WANGPing,

InstituteofPublicHealth,JilinUniversity,Changchun130021,China

The paper elaborates the application status of four data mining methods in the medical field, including the association rules, artificial neural networks, decision trees and clustering analysis. It utilizes SWOT method to analyze the data mining methods from the perspectives of strengths, weaknesses, opportunities, threats and makes strategic analysis. The application scope and the synergy of the four data mining methods are pointed out, suggestions on the selection of data mining methods are put forward.

Data mining;Association rules; Artificial neural networks;Decision tree; Clustering analysis; SWOT analysis

2014-09-18

牟冬梅,教授,發表論文60余篇。

吉林大學基本科研業務種子基金項目“面向知識服務的領域多維知識庫構建研究”(項目編號:2014ZZ026)。

R-058

A 〔DOI〕10.3969/j.issn.1673-6036.2015.01.012

猜你喜歡
數據挖掘關聯規則
撐竿跳規則的制定
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規則和演變
探討人工智能與數據挖掘發展趨勢
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規則對我國的啟示
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 色香蕉影院| 最新国语自产精品视频在| 亚洲91精品视频| 国产福利拍拍拍| 欧美日韩精品一区二区视频| 99无码中文字幕视频| 国产成人AV综合久久| 麻豆精品在线播放| 制服丝袜国产精品| 欧美日韩中文字幕在线| 一本一道波多野结衣av黑人在线| 在线观看国产精品一区| 一本一道波多野结衣一区二区| 国产粉嫩粉嫩的18在线播放91| 国产欧美日韩综合一区在线播放| 人人澡人人爽欧美一区| 久久伊人色| 亚洲天堂区| 国产拍在线| 呦系列视频一区二区三区| 毛片基地美国正在播放亚洲 | 亚洲无码精彩视频在线观看| 少妇精品在线| 在线观看精品国产入口| 最新日本中文字幕| 婷婷色一二三区波多野衣| 国产成人毛片| 国产一区二区三区视频| 日本三级精品| 亚洲人成在线精品| 91po国产在线精品免费观看| 欧美天天干| 国产精品一区二区不卡的视频| 亚洲水蜜桃久久综合网站| 不卡视频国产| 中文字幕日韩丝袜一区| 欧美亚洲中文精品三区| 99这里只有精品在线| 国产网站一区二区三区| 亚洲人成影院午夜网站| 精品一区二区无码av| 91无码网站| 蜜桃视频一区| 欧洲成人免费视频| 国产一区二区精品高清在线观看| a毛片在线播放| 久久99国产综合精品1| 午夜高清国产拍精品| 欧美成人午夜在线全部免费| 一本大道东京热无码av| 欧美不卡二区| 色久综合在线| 国产香蕉国产精品偷在线观看| 一级黄色欧美| 国产主播福利在线观看| 狠狠色综合网| 欧美亚洲激情| 在线日韩日本国产亚洲| 免费a在线观看播放| 黄色网址免费在线| 国产人成网线在线播放va| 精品无码日韩国产不卡av| 国产精品第页| 国产乱子伦精品视频| 欧美区在线播放| 精品视频一区在线观看| 日韩在线2020专区| 亚洲 成人国产| 久久91精品牛牛| 99尹人香蕉国产免费天天拍| 亚洲一区免费看| 免费人成在线观看成人片 | 国产乱人乱偷精品视频a人人澡| 六月婷婷激情综合| 国产精品3p视频| 性视频久久| 亚洲天堂2014| 国产成人高清亚洲一区久久| 国产亚洲欧美在线人成aaaa | 天天婬欲婬香婬色婬视频播放| 中国丰满人妻无码束缚啪啪| 一级片免费网站|