999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘在胎兒心率上的規則預測研究*

2017-10-21 03:47:03黃立勤
網絡安全與數據管理 2017年19期
關鍵詞:數據挖掘規則

陳 宋,黃立勤

(福州大學 物理與信息工程學院,福建 福州 350108)

數據挖掘在胎兒心率上的規則預測研究*

陳 宋,黃立勤

(福州大學 物理與信息工程學院,福建 福州 350108)

瞬時胎心率是監測胎兒健康狀態的一種重要方式。當前,監控胎兒心率是重要而復雜的任務,正確的自動化分類和規則提取是非常必要的。醫療診斷自動化系統,不僅加強醫療保健,同時也可以降低成本。設計了一個有效挖掘規則,并根據給定的參數來預測胎兒的風險水平。采用C4.5、Classification and Regression Tree(CART)、隨機森林分類器來進行系統比較。該系統的性能評價由分類精度、產生規則數量構成。實驗結果表明,基于隨機森林分類器的系統具有高精度(99.4%)的預測胎兒健康狀態的潛力,同時,產生的規則數量精簡且可供于醫生決策。

隨機森林;瞬時胎心率;規則提取;C4.5;CART

0 引言

數據挖掘(也稱為數據庫中的知識發現)是一個過程,包括應用數據分析和發現算法。現今,數據挖掘在實踐中得到了有效的應用,如行為檢測、醫療診斷等。越來越多的用戶已經意識到數據挖掘在醫療中的意義。現今,在醫療領域,臨床試驗的結果往往是基于醫生的直覺分析和經驗,這會導致錯誤和巨大的醫療成本,甚至加劇患者病情。目前,許多醫院擁有了一些病人的信息收集管理系統來保存病人數據。這些信息系統通常會產生大量的數據,這些數據信息很少用于臨床決策。

本文專注于使用數據挖掘技術進行胎心監護數據預測。在實際使用中,觀察胎兒的健康狀態主要利用胎心監護數據,胎兒心率(Cardiotocogram,CTG)[1]包括兩個不同的信號,其瞬時胎心率(Fetal Heart Rate,FHR)和子宮活動的信息可用于早期識別病理狀態(即遺傳心臟不足、胎兒疼痛或缺氧等),協助醫生預測胎兒的健康狀態。

目前,醫生主要根據胎心監護儀的設備顯示信息來判斷胎兒狀態,無法知曉分類結果的規則。因此,本文研究將胎心數據應用在可解釋分類器上,在提高數據分類精度的情況下,產生直觀的規則供醫生決策。

1 相關工作

Miranda Lakshmi等人[2]挖掘學生的教學數據并利用ID3、C4.5和CART 算法來分析決策樹算法的性能。Seema Sharma等人[3]提出了一種基于C4.5分類器不同香農熵來分類。Badr Hssina 等人[4]提出了經典算法ID3,并詳細討論了C4.5,然后與CART分類器做詳細比較。Harvinder Chauhan和Anu Chauhan[5]使用WEKA[6]數據挖掘工具在不同大小的可用數據集上實現C4.5算法,同時,在包含有噪聲的數據、缺失的數據和大量的數據集上計算精度。但是,醫生僅僅依靠分類精度是遠遠不夠的,目前,越來越多的行業應用數據挖掘技術在提高分類精度前提下提取數據規則,提取的信息可用于基于回歸的決策醫療數據分析。規則提取算法首先在神經網絡下使用[7],但是該算法產生的是不可解釋的模型。隨后的幾年中,Nahla[8]和Chaves[9]等人提出基于支持向量機的規則提取算法,普遍基于黑盒模型,規則提取比較模糊。

正因為規則提取能提高行業工作效率、收益和成本、保持最高水平的護理[10],所以本研究應用數據挖掘技術提取胎心率規則并提高分類精度,能夠滿足醫院的短期目標和長遠需要。

2 材料和方法

2.1數據集

本研究所使用的數據集方法是從加州大學歐文分校(University of California Irvine,UCI)[11]上獲取,其中包括一些指示性的特征。三位產科醫生決定標記CTG數據為正常或病理狀態且給出了每個屬性的解釋。CTG數據有21個特征,8個是連續的,13個是離散的。每個樣本標記胎兒狀況正常或異常。

2.2C4.5決定樹分類器

C4.5是機器學習算法中的一個分類決策樹算法。C4.5利用“信息增益”得到一個新的測量稱為“增益比”。正是基于此,C4.5采用了信息增益率這樣一個概念。信息增益率使用“分裂信息”值將信息增益規范化。分類信息定義如下:

(1)

信息增益率定義:

(2)

選擇具有最大增益率的屬性作為分裂屬性。不過該分類器在構造樹的過程中,需要對數據集進行多次的順序掃描和排序,因而導致算法的低效。

2.3CART分類器

分類和回歸樹在20世紀80年代被提出,它的主要特征是屬性(節點)的分割,并在每個終端節點分配給類結果(或回歸的預測值)時做出決策。CART使用基尼指數選擇最好的分裂節點。每個子節點重復搜索過程,繼續遞歸,直到不可能進一步分裂或停止。在此過程中產生了大量的分支,而后,通過修剪分支產生最優節點。

CART使用基尼索引來選擇具有最大值的屬性信息。基尼指數公式:

(3)

2.4隨機森林分類器

隨機森林分類器是利用多棵樹對樣本進行訓練并預測的一種分類器。簡單來說,隨機森林是由多棵CART樹構成的。對于每棵樹,它們使用的訓練集是從總的訓練集中有放回采樣出來的,這意味著,總的訓練集中的有些樣本可能多次出現在一棵樹的訓練集中,也可能從未出現在一棵樹的訓練集中。在訓練每棵樹的節點時,使用的特征是從所有特征中按照一定比例隨機地無放回地抽取的。

決策樹中分裂屬性的兩個選擇度量:

(1)信息增益

如果選取的屬性為A,那么分裂后的數據集D的基尼指數的計算公式為:

(4)

對于特征選取,需要選擇最小的分裂后的基尼指數。也可以用基尼指數增益值作為決策樹選擇特征的依據。選擇具有最大信息增益的屬性為分裂屬性。

(2)基尼指數

分裂后的數據集D的基尼指數的計算公式為:

(5)

分裂屬性選擇規則:選擇具有最小基尼值的屬性為分裂屬性,在構造過程中,該算法會遍歷所有可能的分割方法。不需要對決策樹生成過程進行剪枝。

3 實驗結果及討論

3.1測量性能標準

真負類率(True Negatives,TN)、假負類率(False Negatives,FN)、真正類率(True Positives,TP)和假正類率(False

表1 分類器測量值

Positives,FP)是用來分類性能計算的。敏感性和特異性均為統計學檢驗測試樣本的度量。

在表1中,應用測量給出了它們的數學表達式。

3.2實驗結果

(1)精度對比

將所有CTG數據分為兩部分,一部分用于訓練,其余部分用作試驗組。該過程調用了10-fold交叉驗證[12],避免選擇特殊的數據用于訓練和測試。精度如表2所示。

表2 樣本分類精度的對比 (%)

(2)CTG數據集規則提取結果

字符為數據集的特征屬性,三類算法規則提取流程如圖1~圖3所示。英文字符為胎兒心率數據的特征屬性。冒號后的數值用數字2代表胎心率狀態糟糕,用數字1代表胎心率狀態正常。

3.3結果討論

實驗表明,隨機森林的分類精度最高達到99.40%。同時,隨機森林產生的規則更加精簡,對于醫生的決策幫助更有益。

圖1 C4.5算法在CTG數據集上提取規則

圖2 CART算法在CTG數據集上提取規則

圖3 RF算法在CTG數據集上提取規則

4 結論

胎心監護記錄廣泛用于檢測胎兒健康狀態,將其應用在機器學習上,可以依據分析結果采取必要的行動。未來工作將主要進行選取精準的規則算法研究。

[1] 王乃平. 胎心監護儀的產前應用[J]. 河北聯合大學學報(醫學版), 2009,11(2):188-189.

[2] MARSDEN C A, JR O J B, GULDBERG H C. An analysis on performance of decision tree algorithms using student’s qualitative data[J]. International Journal of Modern Education & Computer Science, 2013,5(5):18-27.

[3] SHARMA S, AGRAWAL J, SHARMA S. Classification through machine learning technique: C4.5 algorithm based on various entropies[J]. International Journal of Computer Applications, 2014,82(16):28-32.

[4] CERVONE G, FRANZESE P, EZBER Y, et al. Risk assessment of atmospheric emissions using machine learning[J]. Natural Hazards & Earth System Sciences,2008,8(5):991-1000.

[5] CHAUHAN H, CHAUHAN A. Implementation of decision tree algorithm C4.5[J]. American Journal of Sports Medicine, 2013,39(12):2611-2618.

[6] HALL M, FRANK E, HOLMES G, et al. The WEKA data mining software: an update[J]. Acm Sigkdd Explorations Newsletter, 2009,11(1):10-18.

[7] GALLANT S I. Connectionist expert systems[J]. Communications of the Acm, 1988,31(2):152-169.

[8] BARAKAT N H, BRADLEY A P. Rule extraction from support vector machines: a sequential covering approach[J]. IEEE Transactions on Knowledge & Data Engineering, 2007,19(6):729-741.

[9] CHAVES A D C F, VELLASCO M M B R, TANSCHEIT R. Fuzzy rule extraction from support vector machines[C]. International Conference on Hybrid Intelligent Systems, IEEE,2005.

[10] SILVER M, SAKATA T, SU H C, et al. Case study: how to apply data mining techniques in a healthcare data warehouse[J]. Journal of Healthcare Information Management Jhim, 2001,15(2):155-164.

[11] BACHE K,LICHMAN M.UCI Machine Learning Repository[EB/OL]. http://archive.ics.uci.edu/Irvine,CA:University of California, School of Information and Computer Science. 2013.

[12] 鄧蕊,馬永軍,劉堯猛.基于改進交叉驗證算法的支持向量機多類識別[J].天津科技大學學報,2007,22(2):58-61.

Study on rule prediction of data mining in fetal heart rate

Chen Song, Huang Liqin

(College of Physics and Information Engineering, Fuzhou University, Fuzhou 350108, China)

Fetal heart rate is an important way to monitor fetal health. At present, the monitoring of fetal heart rate is an important and complex task, and correct automatic classification and rule extraction are necessary. Medical diagnostic automation systems will strengthen health care, but also reduce costs. In this study, we designed an effective rule to predict the risk level of fetus. Then, we used C4.5, Classification and Regression Tree(CART), random forest classifier to evaluate the system. The performance of the system is evaluated by the classification accuracy, which produces the number of rules. The experimental results show that the system based on the random forest classifier has high accuracy(99.40%)in predicting the health status of the fetus, while the number of rules produced is simplified and can be used for decision making.

random forest; fetal heart rate(FHR); rule extraction; C4.5; CART

TP301.6;Q-332

A

10.19358/j.issn.1674- 7720.2017.19.005

陳宋,黃立勤.數據挖掘在胎兒心率上的規則預測研究[J].微型機與應用,2017,36(19):16-18.

國家自然科學基金重點項目資助(61471124)

2017-04-01)

陳宋(1989-),男,碩士研究生,主要研究方向:人工智能與機器學習。黃立勤(1973-),通信作者,男,博士,教授,主要研究方向: 高性能計算、人工智能與機器學習、醫學圖像處理等。E-mail:lqhuangfzu@163.com。

猜你喜歡
數據挖掘規則
撐竿跳規則的制定
數獨的規則和演變
探討人工智能與數據挖掘發展趨勢
規則的正確打開方式
幸福(2018年33期)2018-12-05 05:22:42
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
TPP反腐敗規則對我國的啟示
數據挖掘技術在中醫診療數據分析中的應用
搜索新規則
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 亚洲va视频| 欧美成人精品一级在线观看| 国产永久在线视频| www亚洲天堂| 亚洲国产精品美女| 亚洲一欧洲中文字幕在线| 亚洲美女一区二区三区| 亚洲经典在线中文字幕| 毛片视频网址| 91无码国产视频| 国产美女主播一级成人毛片| 午夜限制老子影院888| 久久99热这里只有精品免费看| 国产99视频在线| 福利一区在线| 91小视频在线观看免费版高清| 国产激爽大片高清在线观看| 欧美伦理一区| 午夜免费小视频| 一区二区三区国产精品视频| 精品色综合| 亚洲中字无码AV电影在线观看| 亚洲欧美在线精品一区二区| 超碰aⅴ人人做人人爽欧美| 国产精品福利导航| 国产97视频在线观看| 免费女人18毛片a级毛片视频| 国产一级毛片yw| 成人另类稀缺在线观看| 亚洲欧洲日本在线| 狼友视频国产精品首页| 狠狠做深爱婷婷久久一区| 亚洲啪啪网| 久久久久久久97| 丁香六月综合网| 91精品视频在线播放| 沈阳少妇高潮在线| 国产精品香蕉在线观看不卡| 日韩精品高清自在线| 99re精彩视频| 五月婷婷中文字幕| 欧美日韩第三页| 尤物在线观看乱码| 日本在线亚洲| 午夜在线不卡| 久久免费成人| 91麻豆国产精品91久久久| 女人一级毛片| 欧美啪啪视频免码| 亚洲综合二区| 亚洲高清在线天堂精品| 国产综合精品日本亚洲777| 精品在线免费播放| 精品无码日韩国产不卡av| 日韩av资源在线| 免费观看欧美性一级| 国产日韩精品一区在线不卡| 欧美一级视频免费| 97亚洲色综久久精品| 亚洲最大在线观看| 九九热在线视频| 波多野结衣二区| 亚洲欧美日韩久久精品| 日本欧美一二三区色视频| 中文字幕欧美日韩| 97视频精品全国免费观看| 国产精品9| 无码福利视频| 国产女人18水真多毛片18精品 | 精品国产网站| 免费一级毛片在线播放傲雪网| 丰满人妻久久中文字幕| 91午夜福利在线观看| 免费国产一级 片内射老| 欧美激情综合| 精品国产毛片| 亚洲全网成人资源在线观看| 伊人久久综在合线亚洲2019| 欧美三级视频网站| 99热在线只有精品| 国产精品香蕉在线观看不卡| www.av男人.com|