999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關聯分析的中老年體檢數據的挖掘

2021-05-29 05:37:58郭慧敏
軟件工程 2021年5期
關鍵詞:數據挖掘

摘? 要:根據中老年體檢報告,運用Apriori算法挖掘各個指標之間的聯系,為醫生、患者提供診斷參考與建議。通過安徽省某三甲醫院的體檢數據,篩選出40歲及以上的中老年人群為研究對象,應用數據挖掘中關聯規則的Apriori算法對超重、心電圖、脂肪肝、血脂、血壓、血糖、尿常規、吸煙、飲酒、總膽固醇等體檢指標之間的關聯關系進行分析研究。研究表明,體檢者的個人不良習慣、超重、高齡、高血糖和脂肪肝等都密切相關,互相影響,提出中老年人群應加強對慢性疾病的預防,保持良好的作息習慣等相關建議。

關鍵詞:數據挖掘;關聯分析;Apriori算法;中老年體檢

中圖分類號:TP181? ? ?文獻標識碼:A

Data Mining of Physical Examination for the Middle-aged and

Elderly based on Association Analysis

GUO Huimin

(School of Economics, Anhui University, Hefei 230601, China)

17755895356@163.com

Abstract: This paper proposes to use Apriori algorithm to mine the links between various indicators in the medical examination report of middle-aged and elderly people, which provides diagnosis references and suggestions for doctors and patients. The middle-aged and elderly people aged 40 and above are selected as the research objects from the physical examination data of a Class A tertiary hospital in Anhui Province. Then, Apriori algorithm of association rules in data mining is used to analyze and study the correlation between physical examination indicators, such as overweight, electrocardiogram, fatty liver, blood lipids, blood pressure, blood sugar, urine routine, smoking, drinking, and total cholesterol. Research results show that personal bad habits, overweight, advanced age, high blood sugar, and fatty liver of physical examinees are closely related and affect each other. This paper proposes that middle-aged and elderly people should strengthen the prevention of chronic diseases and maintain good work and rest habits.

Keywords: data mining; association analysis; Apriori algorithm; middle-aged and elderly physical examination

1? ?引言(Introduction)

近年來,大部分醫院在移動醫療興起的形勢下,都建立了數字化醫療信息系統和患者的電子信息健康檔案[1],醫院內部積累了大量醫療相關的數據,使得醫療信息數字化程度越來越高[2]。醫療數據不僅與每個人的生活和生命健康息息相關,而且對疾病的診治與醫學研究具有重要價值。然而目前大部分醫院只是簡單地進行患者醫療數據的采集與存儲,缺乏對它們進行深層次的分析與利用,如何快速有效地在海量的醫療數據中發現潛在的有價值的信息是一項重大挑戰[1]。

關聯規則挖掘作為數據挖掘領域重要的研究分支,是當前在發展過程中比較重要、實用的技術[3]。在醫學領域中,通過關聯規則發現疾病患者中醫癥狀之間的關聯關系和其他癥狀之間存在的規律性,能夠根據這些規律分析病因,預測疾病的發展[4]。本文以醫院數據系統中的體檢數據為研究對象,利用關聯規則的Apriori算法,將每個病人的癥狀及其他病情診斷信息看作是一種購物籃,然后對其進行挖掘分析[2],為個人健康提供預警,為醫療診斷提供科學依據參考。

2? ?關聯規則算法(The Apriori algorithm)

2.1? ?Apriori算法概述

關聯分析是由R.Agrawal等人提出的一種簡單實用的非監督學習算法[5],反映了事物之間的依賴或關聯,試圖找到數據集中隱含的或感興趣的關系,其結果通常以頻繁項集或關聯規則的形式表示。最經典的案例就是“啤酒與尿布”。沃爾瑪超市根據詳細的原始交易信息來對顧客的購物行為進行數據挖掘,來了解顧客在其門店的購買習慣,適當地調整貨架,增加購買行為。然而,挖掘出來的規則在實際中并不是都有指導意義,比如說,如果一個客戶買了杯子,就會有40%的可能性買茶葉,但是我們不能依據這個就把杯子和茶葉放在一起出售,我們借助置信度和支持度這兩個評估指標來對關聯規則進行有價值的評估,設置最小的支持度和置信度使我們得到的關聯規則具有一定的參考價值。

2.2? ?相關概念

Apriori算法是關聯規則算法,是非常經典的一種數據挖掘的算法,應用十分廣泛,可以較好地發現數據之間的隱藏規則。

(1)項和項集。項為交易數據集中的每一種商品,項集為項的集合。

(2)事務。事務為交易數據集中對應的每一條記錄。

(3)關聯規則。關聯規則指的是在X出現的同時,Y也會出現,其中X、Y均是I的真子集,并且二者交集不為空。

(4)支持度。支持度計算公式為:

表示XY同時出現的概率占總數的概率,表示X和Y兩個事件同時發生的概率。

(5)置信度。置信度計算公式為:

表示在Y出現的條件下X出現的條件概率。

(6)頻繁項集。頻繁項集是指支持度不低于最小支持度的閾值的項集。

(7)強規則。強規則是指同時滿足最小支持度閾值和最小置信度閾值的規則。

2.3? ?Apriori算法基本步驟與實現

Apriori算法的過程主要分為兩步[6]:根據支持度閾值找出所有的頻繁項集;通過置信度閾值找出頻繁項集中的強關聯規則。Apriori算法的基本步驟如下:

(1)首先掃描所有的數據集D,產生候選1-項集的集合C1。

(2)由候選1-項集的集合C1根據最小支持度產生頻繁1-項集的集合L1。

(3)對k>1,重復執行步驟(4)、(5)、(6)。

(4)由Lk執行連接和剪枝操作,產生候選(k+1)-項集的集合C(k+1)。

(5)根據最小支持度,由候選(k+1)-項集的集合C(k+1),產生頻繁(k+1)-項集的集合L(k+1)。

(6)若L≠Ф,則k=k+1,跳往步驟(4),否則往下執行。

(7)根據最小置信度,由頻繁項集產生強關聯規則,程序結束。

設置好最小支持度閾值和最小置信度閾值之后,Apriori算法開始執行,掃描數據集首先產生頻繁1項集,將得到的頻繁1項集進行連接操作,再次掃描數據集D得到滿足最小支持度閾值的頻繁2項集,以此類推直到頻繁k項集[7]。

算法流程圖如圖1所示。

3? ?數據來源與處理(Data source and processing)

3.1? ?數據來源與特點

本文的數據來源是安徽省某三甲醫院2019年體檢中心的體檢數據,一共篩選2,345 份體檢數據報告,采集的指標主要包含基本人物信息(性別、年齡等)以及相關的檢查指標屬性特征。

醫療數據的數據類型繁多。醫療數據包括純數據、信號、CT、B超等醫療影像數據,文本類型有患者記錄的身份、癥狀描述、檢測和文本表示的診斷等多種模式,其數字類型有些是連續型數據,有些是離散型數據[8],存在缺失值、異常值和重復值。收集到的醫療數據往往是不完整的,病人由于隱私不愿意透露或者由于人工記錄的偏差、數據的不清晰表達、記錄本身的不確定性等都造成了醫療信息的不完整性,且醫院每天收集的大量數據可能會包含重復、無關緊要的數據[9]。數據中涉及個人的信息,如姓名、住址、身份證信息等,需要對隱私性、敏感性信息進行過濾。

3.2? ?數據預處理

數據預處理是進行數據挖掘必不可少的關鍵一步,目的是讓數據適應模型,匹配模型的需求。數據預處理分為四個部分:數據清洗、數據集成、數據變換和數據歸約[10]。

醫療原始信息包含體檢人員的基本信息表和體檢信息表,其中基本信息表包含姓名、住址、身份證號等一些敏感信息,這些涉及個人隱私的信息,需要進行脫敏處理;體檢信息表包括血壓、血脂、血糖等疾病情況,這些數據需要整理進行挖掘。數據清洗包括缺失值和異常值的處理。對于缺失值的處理,咨詢相關醫護人員或者查詢相關病例記錄進行空缺值填充,對于查詢不到的缺失值用均值填補,異常值直接刪除。數據集成是將多個數據源放在統一的倉庫中,本文重點研究的是中老年人體檢狀況,篩選出40歲及以上的群體,針對其性別、年齡、高血壓、高血脂、高血糖等檢驗指標信息之間的相關聯性,剔除那些與研究不相關的屬性記錄,通過數據集成將相關表中需要研究的屬性信息集成到一個表中,將數據類型和數據單位進行統一化處理。數據變換是對數據進行規范化處理,本文中主要是數據離散化,進行關聯分析。首先屬性項不能是數值型的,像年齡、膽固醇水平等都是連續數值型數據類型,不能進行數據挖掘,將數據格式轉換成英文或者數字化可以提高算法的運算效率,所以本文通過一定的標準把現有的文字數據格式進行英文字母、數字化或布爾值轉換處理。這樣做也是為了用關聯規則更好地挖掘中老年群體病癥之間的關系,滿足數據挖掘的要求,比如年齡可以劃分為兩個年齡段:[40,65)、[65,max),那么每個人的年齡就分別對應于相應的年齡段了,數值型數據變成離散化,其他幾列連續數值型也是采用類似的方法離散化[11]。

因此,本文結合Apriori算法和醫療數據特點,查閱相關醫學資料,對數據進行適當的離散化處理,將數據格式轉換成事務性庫,具體如表1所示。

得到事務項映射表之后,我們就可以利用該表得到具體需要挖掘的事務數據庫D。掃描關系數據庫中的數據表,對于每次掃描到的屬性值,根據已經定好的事務項參照表,將該屬性值所對應的具體編號寫入事務表中,如表2所示。

數據的預處理階段已經完成,接下來用Apriori算法挖掘的事務數據庫來進行關聯規則的分析。

4? ?應用與實現(Application and implementation)

運用Python軟件進行關聯規則挖掘,設置的最小支持度為0.03,置信度為0.80,由此挖掘得到以下有意義的規則和相關參數,如表3所示。

本文給出了置信度為前26的排名。通過以上規則,在中老年人群中,我們可以得出以下結論:

(1)吸煙、體重超重,還經常喝酒的以中老年男性群體為主。

(2)針對老年人群,心電圖異常、有脂肪肝,并且尿常規異常的,一般都體重超重。

(3)體重超重、心電圖異常并且膽固醇較高的中老年女性居多。

(4)年齡在65歲以上的老年人中,血糖較高的人群體重一般超重。

(5)心電圖異常、尿常規異常、有脂肪肝并且甘油三酯偏高的人群超重。

(6)中老年男性中,有脂肪肝和高血壓的體重一般偏重。

針對老年人群,在大多數人的認知里,“三高”等一系列慢性病似乎已經成為這個年齡段的代表符號。從本論文的研究結果可以看出,在中老年人這一群體中,隨著年齡的增加、生活方式的改變、基礎代謝率的下降,由于缺乏運動、社交增多以及其他不良的飲食習慣等原因,使得肥胖的發生率增加,偏重的體質大概率會伴隨高血脂和高血壓等一系列不良后果,給中老年人的生活質量帶來極大的影響。為了有效地避免這些病癥,引導中老年人群建立健康的生活方式,通過合理的飲食、科學的營養搭配、適當的鍛煉、良好的習

慣、保持身心愉悅,來維持合理的體重,有效地避免體重過高帶來的一些病癥,讓中老年人群有一個健康的晚年生活。另有研究發現,在中老年人群中,吸煙并體重超重還經常喝酒的大部分都是男性,男性成為吸煙最大的群體。吸煙帶來的危害與超重伴隨的病癥,會對老年生活帶來極大的影響,戒煙戒酒有利于健康的生活[12-13]。

5? ?結論(Conclusion)

本文利用中老年人群的體檢報告信息,使用數據挖掘中的關聯分析Apriori算法挖掘體檢報告中的各個生理指標之間的相關性,分析了疾病與疾病之間的潛在聯系 ,這樣可以在醫療大數據中發現潛藏的信息并且能夠得出關聯規則的可信度,為醫生診斷病情提供輔助和參考,避免因醫生的疏忽而產生誤診,也給患者提供了自身的病情預警,做到早發現、早診斷、早治療[14],同時也證明了利用關聯規則Apriori算法對醫療大數據進行數據挖掘所得出的規則有重要的參考價值。

參考文獻(References)

[1] 閆茜.海量醫療數據挖掘平臺的研究與設計[D].武漢:武漢理工大學,2014.

[2] 楊余壘.改進的關聯規則算法在慢性病數據挖掘中的研究[D].浙江:浙江理工大學,2017.

[3] 趙龍.基于多維關聯規則挖掘算法的應用研究[D].浙江:中國計量大學,2017.

[4] 呂石山.基于Apriori關聯規則算法的股票操縱行為識別研究[D].蘭州:蘭州大學,2020.

[5] AGRAWAL R, IMIELINSKI T, SWAMI A, et al. Mining association rules between sets of items in large databases[J]. ACM SIGMOD Record, 1993,22(2):207-216.

[6] CHARANJEET K. Association rule mining using apriori algorithm: A survey[J]. International Journal of Advanced Research in Computer Engineering & Technology, 2013, 2(6):2081-2084.

[7] 孫杏.基于關聯算法的人體檢測數據的處理與分析[D].西安:西安科技大學,2019.

[8] 王寧.基于Hadoop平臺的海量醫療數據挖掘算法的研究與實現[D].北京:北京郵電大學,2014.

[9] 尤婷婷.健康大數據預處理技術及其應用[D].四川:電子科技大學,2017.

[10] 張云洋.面向醫療質量的病案首頁數據關聯規則挖掘[D].天津:天津大學,2009.

[11] 王越,桂袁義.基于關聯分析的數據挖掘在體檢CRM中的應用[J].重慶理工大學學報(自然科學版),2010,24(03):36-42.

[12] 賀媛,曾強,趙小蘭.中國成人肥胖、中心性肥胖與高血壓和糖尿病的相關性研究[J].解放軍醫學雜志,2015,40(10):803-808.

[13] 張瑩,焦怡琳,陸凱,等.中國成年人超重肥胖影響因素meta分析[J].中國公共衛生,2015,31(02):232-235.

[14] 李強,陳東濤,羅先錄.關聯規則算法在醫療大數據中的應用探索[J].軟件工程,2019,22(01):12-15.

作者簡介:

郭慧敏(1995-),女,碩士生.研究領域:數據分析與挖掘.

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 亚洲欧美极品| 国产原创自拍不卡第一页| 91人人妻人人做人人爽男同| 国产玖玖玖精品视频| 欧美成人区| 亚洲第一视频网| 亚洲日韩精品综合在线一区二区| 亚洲天堂精品在线| 9999在线视频| 亚洲AV无码乱码在线观看代蜜桃 | 国产综合精品日本亚洲777| 国产主播一区二区三区| 巨熟乳波霸若妻中文观看免费| 免费黄色国产视频| 不卡国产视频第一页| 亚洲一区免费看| 欧美成在线视频| 最近最新中文字幕在线第一页| 精品久久久无码专区中文字幕| 亚洲国产天堂久久综合| 在线看AV天堂| 国产91精品调教在线播放| 国产1区2区在线观看| 人妻丰满熟妇啪啪| 中文字幕无码中文字幕有码在线| 成人福利视频网| 在线欧美一区| 国产成人夜色91| a毛片在线播放| 欧美中文字幕在线播放| 国产成人精品一区二区不卡| 伊人久久婷婷五月综合97色| 91无码网站| 国产理论最新国产精品视频| 一级全免费视频播放| 国产一级做美女做受视频| 国产欧美视频在线观看| 亚洲VA中文字幕| 沈阳少妇高潮在线| 国产精品久久久久久久久kt| 午夜精品国产自在| 欧美a在线看| 影音先锋丝袜制服| 九九热免费在线视频| 国产视频一二三区| 日韩在线第三页| 日本成人精品视频| 亚洲国产综合精品一区| 国产亚洲高清在线精品99| 亚洲视频欧美不卡| 国产精品任我爽爆在线播放6080| 黄色片中文字幕| 成年人视频一区二区| 久久久成年黄色视频| 国内a级毛片| 亚洲国产成人综合精品2020| 欧美精品1区2区| 亚洲第一极品精品无码| 国产福利一区视频| 丁香婷婷激情网| 久草国产在线观看| 视频国产精品丝袜第一页| 91亚洲免费视频| 国产小视频a在线观看| 久久一色本道亚洲| 狠狠ⅴ日韩v欧美v天堂| 国产午夜精品鲁丝片| 99精品免费欧美成人小视频| 亚洲AV无码一区二区三区牲色| 中国丰满人妻无码束缚啪啪| 蜜臀AVWWW国产天堂| 中国黄色一级视频| 久久精品亚洲热综合一区二区| 91精品国产综合久久不国产大片| 2021国产精品自产拍在线| 国产99在线观看| 极品av一区二区| 在线国产欧美| 久久狠狠色噜噜狠狠狠狠97视色| 国产亚洲欧美在线专区| 91久久夜色精品国产网站| 在线毛片免费|