999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數(shù)據(jù)的分類算法研究-以乳腺癌TNM分期為例

2018-05-03 08:33:52王鐘廉
電子制作 2018年7期
關(guān)鍵詞:數(shù)據(jù)挖掘乳腺癌分類

王鐘廉

(西安交通大學(xué)附屬中學(xué),陜西西安,710000)

0 前言

隨著當(dāng)今世界經(jīng)濟(jì)、文化、政治等的高速發(fā)展,計(jì)算機(jī)自20世紀(jì)50年代產(chǎn)生以來,便經(jīng)歷著一代又一代的革新前進(jìn),并很快的滲透到社會生活的方方面面,為人們的工作、學(xué)習(xí)帶來了翻天覆地的變化,越來越成為了人們生活中不可分割的一部分。與此同時,近些年來,數(shù)據(jù)挖掘、大數(shù)據(jù)、云計(jì)算、機(jī)器學(xué)習(xí),深度學(xué)習(xí)等最新技術(shù)越來越受到科研工作者的青睞[1],引起了廣泛的研究興趣,并在許多領(lǐng)域中得到不同程度的轉(zhuǎn)化利用,成為促使我國經(jīng)濟(jì)發(fā)展與技術(shù)革新的一大驅(qū)動力量。我們每天被科學(xué)數(shù)據(jù)、醫(yī)療數(shù)據(jù)、金融數(shù)據(jù)、銷售數(shù)據(jù)等各式各樣的海量數(shù)據(jù)所淹沒,如何從大量的、有噪聲的、不完全的、模糊的實(shí)際應(yīng)用數(shù)據(jù)中提取出隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識成為當(dāng)前困擾著人們的一大難題。在此大背景之下,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。

數(shù)據(jù)挖掘是20世紀(jì)末逐漸形成的一個多學(xué)科交叉領(lǐng)域,它是一個融合了人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)以及知識工程等諸多領(lǐng)域技術(shù)的一個多學(xué)科交叉領(lǐng)域。目前,已經(jīng)成功地應(yīng)用在金融、零售、醫(yī)藥、通訊、電子工程、航空等有大量數(shù)據(jù)和深度分析需求的領(lǐng)域,是當(dāng)前數(shù)據(jù)庫和信息決策領(lǐng)域的最前沿研究方向之一[2]。例如,數(shù)據(jù)挖掘技術(shù)在CRM(客戶關(guān)系管理)中的應(yīng)用,成功地將數(shù)據(jù)庫中的海量數(shù)據(jù)轉(zhuǎn)變?yōu)闃O具實(shí)用價值的分析依據(jù),為生產(chǎn)新產(chǎn)品提供決策[3],幫助企業(yè)確定客戶的特點(diǎn),提供個性化的服務(wù);利用數(shù)據(jù)挖掘技術(shù)研發(fā)的指紋、虹膜,人臉等生物特征識別技術(shù),成功地應(yīng)用到現(xiàn)實(shí)安全加密,人事考勤之中,促進(jìn)了生產(chǎn)力的發(fā)展;分類算法在醫(yī)學(xué)影像上應(yīng)用,成功的鑒別出了精神疾病患者區(qū)別于健康人的生物標(biāo)志,促進(jìn)了醫(yī)學(xué)研究的不斷進(jìn)步,在輔助醫(yī)師做出正確的診斷,并及時的采取治療措施上取得了巨大成功。在此熱潮的推動下,各行各業(yè)都在加緊步伐利用數(shù)據(jù)挖掘技術(shù)發(fā)掘潛在價值,創(chuàng)造新的財(cái)富。

1 研究內(nèi)容

中醫(yī)藥物治療乳腺癌具有廣泛的適應(yīng)癥和獨(dú)特的優(yōu)勢。根據(jù)臨床醫(yī)生的經(jīng)驗(yàn),各項(xiàng)中醫(yī)癥素表現(xiàn)與乳腺癌不同分期階段存在一定的關(guān)聯(lián)關(guān)系,中醫(yī)癥狀間的關(guān)聯(lián)關(guān)系和諸多癥狀之間的規(guī)律性。但是這種單純依靠經(jīng)驗(yàn)的診斷方法缺乏統(tǒng)一的規(guī)范,難以做到診斷的標(biāo)準(zhǔn)化。其次,疾病的復(fù)雜性和體質(zhì)的差異,造成病人是多種癥素兼夾復(fù)合,有時臨床醫(yī)師可能會被自身的經(jīng)驗(yàn)所誤導(dǎo)。

因此,可以通過一定的規(guī)則,挖掘出各中醫(yī)癥素與乳腺癌TNM分期之間的關(guān)系。探索不同分期階段的乳腺癌患者的中醫(yī)癥素分布規(guī)律,指導(dǎo)乳腺癌的中醫(yī)臨床治療。數(shù)據(jù)挖掘技術(shù)發(fā)展較為成熟,具有堅(jiān)實(shí)的理論基礎(chǔ),充分利用它在處理大數(shù)據(jù)方面的優(yōu)勢,通過尖端的算法充分分析復(fù)雜無序數(shù)據(jù)背后潛在的信息。本論文研究的意義在于,通過對臨床醫(yī)學(xué)數(shù)據(jù)的分析,以期得到影響乳腺癌不同分期階段與各項(xiàng)中醫(yī)癥素的交互關(guān)系,并且依據(jù)規(guī)則分析病因、預(yù)測病情的發(fā)展以及為未來臨床提供有效借鑒。同時,針對其他類型的實(shí)際問題,可以利用類似的研究思想進(jìn)行分析[4]。

2 研究方法

本實(shí)驗(yàn)的主要目的是利用數(shù)據(jù)挖掘的算法對數(shù)據(jù)進(jìn)行處理,得到六項(xiàng)中醫(yī)癥素(肝氣郁結(jié)、熱毒蘊(yùn)含、沖任失調(diào)、氣血兩虛、脾胃虛弱、肝腎陰虛)得分與乳腺癌TNM(H1、H2、H3、H4)分期之間的關(guān)系。這是一個典型的分類問題,可以見四個乳腺癌TNM分期看作要劃分的類別,六項(xiàng)中醫(yī)癥素當(dāng)作屬性特折,因此可以簡化為利用特征進(jìn)行分類的問題。在各種分類算法中,我們采取基于樹的分類器方法。具體地,我們擬采用三種最常見的分類方法,分別是決策樹,分類與回歸樹(CART),隨機(jī)森林(randomforest)[5]。

■2.1 決策樹

決策樹,其核心是ID3算法,它是最簡單與基礎(chǔ)的分類器。它將一個樣本的屬性特征進(jìn)行層層分裂,最后得出其分類類別,因其上小下大的形狀酷似一顆倒懸的樹而得名。ID3算法就是在每次需要分裂時計(jì)算出每個屬性的信息增益,然后選擇信息增益率最大的屬性進(jìn)行分裂[6]。

所謂信息增益是針對一個一個特征而言的,系統(tǒng)有它和沒有它時的信息量各是多少,兩者的差值就是這個特征給系統(tǒng)帶來的信息量,即信息增益。計(jì)算信息增益首先要計(jì)算信息熵,信息上就是一個離散隨機(jī)事件出現(xiàn)的概率,一個系統(tǒng)越有序。

假如有變量X其可能的取值有n種,每一種取到的概率為Pi,那么X的熵就定義為:

如果系統(tǒng)中存在m個變量X,那么總的信息熵為:

分裂X所帶來的信息增益為:

通過選取信息增益最大的屬性結(jié)點(diǎn),就可以完成決策樹的構(gòu)建。

■2.2 分類與回歸樹

分類與回歸樹的英文是Classi fi cation and regression tree,縮寫是CART。分類與回歸樹與簡單的決策樹算法最大的不同在于,CART本質(zhì)是對特征空間進(jìn)行二元劃分(即CART生成的決策樹是一棵二叉樹),內(nèi)部結(jié)點(diǎn)特征的取值為“是”和“否”,左分支是取值為“是”的分支,右分支是取值為“否”的分支。對于目標(biāo)類別大于兩個的實(shí)際問題而言,CART算法在進(jìn)行樹的構(gòu)建的過程中通過考慮將目標(biāo)類別合并成兩個超類別,來進(jìn)行二元劃分。

具體地,CART是通過一種叫做Gini指數(shù)的指標(biāo)進(jìn)行最優(yōu)特征的選取。

GINI指數(shù)是一種用來度量樣本內(nèi)分布差異大小的一項(xiàng)指標(biāo),最開始來源于經(jīng)濟(jì)學(xué)家對某地區(qū)的收入分配差異。Gini指數(shù)是介于0~1之間的數(shù),0-完全相等,1-完全不相等;總體內(nèi)包含的類別越雜亂,GINI指數(shù)就越大?;嶂笖?shù)關(guān)注目標(biāo)變量里最大的類,它試圖找到一個劃分把它和其他的類區(qū)分開來。

■2.3 隨機(jī)森林

隨機(jī)森林英文Random Forest顧名思義,Random就是隨機(jī)抽取,F(xiàn)orest就是說這里不止一棵樹,而由一群決策樹組成的一片森林,連起來就是用隨機(jī)抽取的方法訓(xùn)練出一群決策樹來完成分類任務(wù)。

隨機(jī)森林用了兩次隨機(jī)抽取,一次是對訓(xùn)練樣本的隨機(jī)抽取;另一次是對變量(特征)的隨機(jī)抽取。對樣本的隨機(jī)抽取是指在對每一棵樹的模型構(gòu)建中,通過有放回的抽取與原始樣本大小相等的樣本來作為訓(xùn)練數(shù)據(jù)集[7]。一方面解決樣本數(shù)量有限的問題,另一方面由于每次抽取的樣本都是隨機(jī)的,可以保證構(gòu)建的樹之間存在差異。而對樣本的隨機(jī)抽取,是指每次構(gòu)建分類樹的時候都從所有特征里抽取相同數(shù)量的部分特征,從而使得每棵樹實(shí)際用到的特征都不是完全一樣的。RF的核心是由弱變強(qiáng)思想的運(yùn)用。每棵決策樹由于只用了部分變量、部分樣本訓(xùn)練而成,可能單個的分類準(zhǔn)確率并不是很高。但是當(dāng)一群這樣的決策樹組合起來分別對輸入數(shù)據(jù)作出判斷時,可以帶來較高的準(zhǔn)確率。有點(diǎn)類似于俗語“三個臭皮匠頂個諸葛亮”。由于構(gòu)建了多顆決策樹,每棵樹都可以做出分類決策結(jié)果,根據(jù)少數(shù)服從多數(shù)的原則,最后的類別由所有樹中票數(shù)較高的那個類別所決定。隨機(jī)森林有兩個重要的參數(shù)一是樹節(jié)點(diǎn)預(yù)選的變量個數(shù),二是隨機(jī)森林中樹的個數(shù)。隨機(jī)森林相較于前兩種分類器最大的特點(diǎn)是,隨機(jī)建立了多棵分類樹,通過投票決定最有優(yōu)分類,這樣做大大提高了分類的準(zhǔn)確性但增大了運(yùn)算量。

3 實(shí)驗(yàn)分析

圖1所示為四種乳腺癌TNM分期所包含的樣本數(shù)量,圖2表示的是六項(xiàng)中醫(yī)癥素中存在缺失值的情況。在實(shí)際應(yīng)用中,由于各種不確定因素,數(shù)據(jù)極易受噪聲、缺失值等因素的影響,導(dǎo)致數(shù)據(jù)的質(zhì)量變低。對于樣本量有限的數(shù)據(jù)而言,基于低質(zhì)量的噪聲數(shù)據(jù)構(gòu)建的模型常常會偏離實(shí)際的情況,從而使得模型的通用性變低,不能很好的應(yīng)用在其他場景之中。運(yùn)用數(shù)據(jù)預(yù)處理技術(shù),可以顯著的提高挖掘模型的總體質(zhì)量[8]。

圖1 TNM分期的樣本分布情況

在本試驗(yàn)中,分別采用了三種不同的分類器算法來對乳腺癌TNM分期階段進(jìn)行分類研究,并比價了三種算法的分類性能。在這里,分類性能好壞主要是通過分類準(zhǔn)確率來進(jìn)行衡量的。分類準(zhǔn)確性即為所有通過算法正確分類的樣本數(shù)占總樣本量的比例即:

分類準(zhǔn)確率=準(zhǔn)確分類數(shù)÷參與分類樣本總數(shù)×100%

圖2 屬性缺失值的分布情況

為了對缺失值進(jìn)行數(shù)據(jù)預(yù)處理操作,比較了兩種不同的缺失值替換策略,分別是直接去掉含缺失值的樣本以及利用對應(yīng)屬性特征的均值替換缺失值。表1所示即為實(shí)驗(yàn)結(jié)果,由表可知,三種分類算法中,隨機(jī)森林取得了最高的分了性能,說明隨機(jī)森林方法在該問題的研究中具有較大的優(yōu)勢;對于兩種確實(shí)只替換策略,取得的結(jié)果比較接近,其中去掉缺失值策略稍微高于利用均值替換缺失值,這可能是由于本實(shí)驗(yàn)中包含的樣本相對較多,去掉其中較少的包含缺失值的樣本沒有對構(gòu)建的模型造成影響。

表1 基于三種分類器算法在不同缺失值替換策略下的分類性能比較

表2 隨機(jī)森林中不同數(shù)量樹對分類結(jié)果的影響

此外,由于隨機(jī)森林是一種受包含樹的個數(shù)影響較大的算法,因此在此基礎(chǔ)之上,為了研究樹的數(shù)量對其分類性能的影響,我們將樹的個數(shù)分別設(shè)置為10,30,50,100,200,300,500,1000。由表2結(jié)果可知,隨著森林所包含的樹越來越多,分類性能由92.01%到96.12%逐漸升高。由此可見構(gòu)建決策樹的個數(shù)越多,分類的準(zhǔn)確率也就越高。但是因此所帶的是計(jì)算速度的降低。

4 總結(jié)

數(shù)據(jù)挖掘是一種針對海量數(shù)據(jù)進(jìn)行處理分析的技術(shù),能夠發(fā)現(xiàn)隱藏在數(shù)據(jù)之中的潛在有價值信息,將數(shù)據(jù)挖掘的知識應(yīng)用到臨床實(shí)踐當(dāng)中是一次有意義的嘗試過程。本論文主要利用數(shù)據(jù)挖掘中的分類算法對乳腺癌不同分期階段進(jìn)行分類研究,通過對決策樹,分類與回歸樹以及隨機(jī)森林三種方法的分析,我們發(fā)現(xiàn)隨機(jī)森林的分類性能要明顯的高于其他兩種。此外,隨機(jī)森林算法的性能受其所包含的樹的個數(shù)影響較大,一般情況下樹越多,分類結(jié)果越高。這可能是因?yàn)殡S著樹的增多,隨機(jī)采樣的樣本越均勻,最后構(gòu)建的模型就越穩(wěn)定,更具有代表性。

在現(xiàn)實(shí)生活中,數(shù)據(jù)挖掘技術(shù)處理可用于多種實(shí)際問題的分析處理之中,尤其是在醫(yī)療領(lǐng)域中的應(yīng)用可以大大促進(jìn)理論知識到臨床實(shí)踐的轉(zhuǎn)化。

* [1]趙倩倩, 程國建, 冀乾宇. 大數(shù)據(jù)崛起與數(shù)據(jù)挖掘芻議[J]. 電腦知識與技術(shù), 2014, 33): 7831—7833

* [2] 朱建平, 張潤楚. 數(shù)據(jù)挖掘的發(fā)展及其特點(diǎn)[J]. 統(tǒng)計(jì)與決策,2002,( 07): 71—72.

* [3] 李寶東, 宋瀚濤. 數(shù)據(jù)挖掘在客戶關(guān)系管理(CRM)中的應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用研究, 2002, 19(10): 71—74.

* [4]彭丹, 謝鵬.大腦認(rèn)知功能的神經(jīng)影像學(xué)研究現(xiàn)狀[J]. 中國臨床康復(fù) , 2006,38): 133—135.

* [5]趙紫奉,李韶斌,孔抗美.基于決策樹算法的疾病診斷分析[J].中國衛(wèi)生信息管理雜志,2011,8(05):67—69.

* [6]趙微,蘇健民.基于ID3算法決策樹的研究與改進(jìn)[J].科技信息(科學(xué)教研),2008,(23):383+392.

* [7]方匡南,吳見彬,朱建平,謝邦昌. 隨機(jī)森林方法研究綜述[J].統(tǒng)計(jì)與信息論壇,2011,26(03):32—38.

* [8]李曉菲. 數(shù)據(jù)預(yù)處理算法的研究與應(yīng)用[D].西南交通大學(xué),2006.

猜你喜歡
數(shù)據(jù)挖掘乳腺癌分類
絕經(jīng)了,是否就離乳腺癌越來越遠(yuǎn)呢?
中老年保健(2022年6期)2022-08-19 01:41:48
分類算一算
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
乳腺癌是吃出來的嗎
分類討論求坐標(biāo)
胸大更容易得乳腺癌嗎
數(shù)據(jù)分析中的分類討論
別逗了,乳腺癌可不分男女老少!
祝您健康(2018年5期)2018-05-16 17:10:16
教你一招:數(shù)的分類
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
主站蜘蛛池模板: 国产乱子伦手机在线| 性做久久久久久久免费看| 伊人色在线视频| 国产欧美日韩综合一区在线播放| 国产手机在线小视频免费观看| 日韩精品久久久久久久电影蜜臀| 国产午夜福利在线小视频| 亚洲最黄视频| 丝袜亚洲综合| 久久久久亚洲精品无码网站| 国产精品久久精品| 国产91在线|日本| 毛片免费网址| 亚洲精品麻豆| 日韩欧美中文字幕在线韩免费| 伊人久热这里只有精品视频99| 国产麻豆精品久久一二三| 久久免费成人| 久久精品66| 久久久成年黄色视频| 99精品视频播放| 91精品国产91欠久久久久| 美女免费精品高清毛片在线视| 国产一区在线视频观看| 亚洲区一区| 国产91丝袜在线观看| 72种姿势欧美久久久大黄蕉| 农村乱人伦一区二区| 日韩精品欧美国产在线| 国产成人精品在线1区| 91国内视频在线观看| 六月婷婷激情综合| 99精品视频在线观看免费播放| 国产人人射| 国产一级二级在线观看| 欧美日韩综合网| 国产偷国产偷在线高清| a毛片在线| 91在线激情在线观看| 国产成人精品三级| 国产呦精品一区二区三区下载 | 亚洲AV无码精品无码久久蜜桃| 狠狠色丁婷婷综合久久| 免费又黄又爽又猛大片午夜| 亚洲人在线| www.av男人.com| 九九热这里只有国产精品| a级免费视频| 欧美精品不卡| 国产成人啪视频一区二区三区| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 老司机久久99久久精品播放| 精品无码视频在线观看| 色欲色欲久久综合网| 国产麻豆va精品视频| 免费无遮挡AV| 国产对白刺激真实精品91| 久久久久久国产精品mv| 日韩欧美高清视频| 六月婷婷综合| 亚洲国产在一区二区三区| 成人午夜亚洲影视在线观看| 国产在线拍偷自揄拍精品| 在线视频97| 国产国产人在线成免费视频狼人色| 欧美一级一级做性视频| 综合网天天| 综合久久五月天| 国产福利一区在线| 亚洲日本韩在线观看| 亚洲不卡影院| 国产白丝av| 婷婷色一区二区三区| 香蕉久久永久视频| 天堂在线www网亚洲| 亚洲成人精品久久| 色有码无码视频| 免费jjzz在在线播放国产| 91区国产福利在线观看午夜| 日本在线亚洲| 丝袜久久剧情精品国产| 在线观看视频99|