999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據的分類算法研究-以乳腺癌TNM分期為例

2018-05-03 08:33:52王鐘廉
電子制作 2018年7期
關鍵詞:數據挖掘乳腺癌分類

王鐘廉

(西安交通大學附屬中學,陜西西安,710000)

0 前言

隨著當今世界經濟、文化、政治等的高速發展,計算機自20世紀50年代產生以來,便經歷著一代又一代的革新前進,并很快的滲透到社會生活的方方面面,為人們的工作、學習帶來了翻天覆地的變化,越來越成為了人們生活中不可分割的一部分。與此同時,近些年來,數據挖掘、大數據、云計算、機器學習,深度學習等最新技術越來越受到科研工作者的青睞[1],引起了廣泛的研究興趣,并在許多領域中得到不同程度的轉化利用,成為促使我國經濟發展與技術革新的一大驅動力量。我們每天被科學數據、醫療數據、金融數據、銷售數據等各式各樣的海量數據所淹沒,如何從大量的、有噪聲的、不完全的、模糊的實際應用數據中提取出隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識成為當前困擾著人們的一大難題。在此大背景之下,數據挖掘技術應運而生。

數據挖掘是20世紀末逐漸形成的一個多學科交叉領域,它是一個融合了人工智能、機器學習、統計學以及知識工程等諸多領域技術的一個多學科交叉領域。目前,已經成功地應用在金融、零售、醫藥、通訊、電子工程、航空等有大量數據和深度分析需求的領域,是當前數據庫和信息決策領域的最前沿研究方向之一[2]。例如,數據挖掘技術在CRM(客戶關系管理)中的應用,成功地將數據庫中的海量數據轉變為極具實用價值的分析依據,為生產新產品提供決策[3],幫助企業確定客戶的特點,提供個性化的服務;利用數據挖掘技術研發的指紋、虹膜,人臉等生物特征識別技術,成功地應用到現實安全加密,人事考勤之中,促進了生產力的發展;分類算法在醫學影像上應用,成功的鑒別出了精神疾病患者區別于健康人的生物標志,促進了醫學研究的不斷進步,在輔助醫師做出正確的診斷,并及時的采取治療措施上取得了巨大成功。在此熱潮的推動下,各行各業都在加緊步伐利用數據挖掘技術發掘潛在價值,創造新的財富。

1 研究內容

中醫藥物治療乳腺癌具有廣泛的適應癥和獨特的優勢。根據臨床醫生的經驗,各項中醫癥素表現與乳腺癌不同分期階段存在一定的關聯關系,中醫癥狀間的關聯關系和諸多癥狀之間的規律性。但是這種單純依靠經驗的診斷方法缺乏統一的規范,難以做到診斷的標準化。其次,疾病的復雜性和體質的差異,造成病人是多種癥素兼夾復合,有時臨床醫師可能會被自身的經驗所誤導。

因此,可以通過一定的規則,挖掘出各中醫癥素與乳腺癌TNM分期之間的關系。探索不同分期階段的乳腺癌患者的中醫癥素分布規律,指導乳腺癌的中醫臨床治療。數據挖掘技術發展較為成熟,具有堅實的理論基礎,充分利用它在處理大數據方面的優勢,通過尖端的算法充分分析復雜無序數據背后潛在的信息。本論文研究的意義在于,通過對臨床醫學數據的分析,以期得到影響乳腺癌不同分期階段與各項中醫癥素的交互關系,并且依據規則分析病因、預測病情的發展以及為未來臨床提供有效借鑒。同時,針對其他類型的實際問題,可以利用類似的研究思想進行分析[4]。

2 研究方法

本實驗的主要目的是利用數據挖掘的算法對數據進行處理,得到六項中醫癥素(肝氣郁結、熱毒蘊含、沖任失調、氣血兩虛、脾胃虛弱、肝腎陰虛)得分與乳腺癌TNM(H1、H2、H3、H4)分期之間的關系。這是一個典型的分類問題,可以見四個乳腺癌TNM分期看作要劃分的類別,六項中醫癥素當作屬性特折,因此可以簡化為利用特征進行分類的問題。在各種分類算法中,我們采取基于樹的分類器方法。具體地,我們擬采用三種最常見的分類方法,分別是決策樹,分類與回歸樹(CART),隨機森林(randomforest)[5]。

■2.1 決策樹

決策樹,其核心是ID3算法,它是最簡單與基礎的分類器。它將一個樣本的屬性特征進行層層分裂,最后得出其分類類別,因其上小下大的形狀酷似一顆倒懸的樹而得名。ID3算法就是在每次需要分裂時計算出每個屬性的信息增益,然后選擇信息增益率最大的屬性進行分裂[6]。

所謂信息增益是針對一個一個特征而言的,系統有它和沒有它時的信息量各是多少,兩者的差值就是這個特征給系統帶來的信息量,即信息增益。計算信息增益首先要計算信息熵,信息上就是一個離散隨機事件出現的概率,一個系統越有序。

假如有變量X其可能的取值有n種,每一種取到的概率為Pi,那么X的熵就定義為:

如果系統中存在m個變量X,那么總的信息熵為:

分裂X所帶來的信息增益為:

通過選取信息增益最大的屬性結點,就可以完成決策樹的構建。

■2.2 分類與回歸樹

分類與回歸樹的英文是Classi fi cation and regression tree,縮寫是CART。分類與回歸樹與簡單的決策樹算法最大的不同在于,CART本質是對特征空間進行二元劃分(即CART生成的決策樹是一棵二叉樹),內部結點特征的取值為“是”和“否”,左分支是取值為“是”的分支,右分支是取值為“否”的分支。對于目標類別大于兩個的實際問題而言,CART算法在進行樹的構建的過程中通過考慮將目標類別合并成兩個超類別,來進行二元劃分。

具體地,CART是通過一種叫做Gini指數的指標進行最優特征的選取。

GINI指數是一種用來度量樣本內分布差異大小的一項指標,最開始來源于經濟學家對某地區的收入分配差異。Gini指數是介于0~1之間的數,0-完全相等,1-完全不相等;總體內包含的類別越雜亂,GINI指數就越大。基尼指數關注目標變量里最大的類,它試圖找到一個劃分把它和其他的類區分開來。

■2.3 隨機森林

隨機森林英文Random Forest顧名思義,Random就是隨機抽取,Forest就是說這里不止一棵樹,而由一群決策樹組成的一片森林,連起來就是用隨機抽取的方法訓練出一群決策樹來完成分類任務。

隨機森林用了兩次隨機抽取,一次是對訓練樣本的隨機抽取;另一次是對變量(特征)的隨機抽取。對樣本的隨機抽取是指在對每一棵樹的模型構建中,通過有放回的抽取與原始樣本大小相等的樣本來作為訓練數據集[7]。一方面解決樣本數量有限的問題,另一方面由于每次抽取的樣本都是隨機的,可以保證構建的樹之間存在差異。而對樣本的隨機抽取,是指每次構建分類樹的時候都從所有特征里抽取相同數量的部分特征,從而使得每棵樹實際用到的特征都不是完全一樣的。RF的核心是由弱變強思想的運用。每棵決策樹由于只用了部分變量、部分樣本訓練而成,可能單個的分類準確率并不是很高。但是當一群這樣的決策樹組合起來分別對輸入數據作出判斷時,可以帶來較高的準確率。有點類似于俗語“三個臭皮匠頂個諸葛亮”。由于構建了多顆決策樹,每棵樹都可以做出分類決策結果,根據少數服從多數的原則,最后的類別由所有樹中票數較高的那個類別所決定。隨機森林有兩個重要的參數一是樹節點預選的變量個數,二是隨機森林中樹的個數。隨機森林相較于前兩種分類器最大的特點是,隨機建立了多棵分類樹,通過投票決定最有優分類,這樣做大大提高了分類的準確性但增大了運算量。

3 實驗分析

圖1所示為四種乳腺癌TNM分期所包含的樣本數量,圖2表示的是六項中醫癥素中存在缺失值的情況。在實際應用中,由于各種不確定因素,數據極易受噪聲、缺失值等因素的影響,導致數據的質量變低。對于樣本量有限的數據而言,基于低質量的噪聲數據構建的模型常常會偏離實際的情況,從而使得模型的通用性變低,不能很好的應用在其他場景之中。運用數據預處理技術,可以顯著的提高挖掘模型的總體質量[8]。

圖1 TNM分期的樣本分布情況

在本試驗中,分別采用了三種不同的分類器算法來對乳腺癌TNM分期階段進行分類研究,并比價了三種算法的分類性能。在這里,分類性能好壞主要是通過分類準確率來進行衡量的。分類準確性即為所有通過算法正確分類的樣本數占總樣本量的比例即:

分類準確率=準確分類數÷參與分類樣本總數×100%

圖2 屬性缺失值的分布情況

為了對缺失值進行數據預處理操作,比較了兩種不同的缺失值替換策略,分別是直接去掉含缺失值的樣本以及利用對應屬性特征的均值替換缺失值。表1所示即為實驗結果,由表可知,三種分類算法中,隨機森林取得了最高的分了性能,說明隨機森林方法在該問題的研究中具有較大的優勢;對于兩種確實只替換策略,取得的結果比較接近,其中去掉缺失值策略稍微高于利用均值替換缺失值,這可能是由于本實驗中包含的樣本相對較多,去掉其中較少的包含缺失值的樣本沒有對構建的模型造成影響。

表1 基于三種分類器算法在不同缺失值替換策略下的分類性能比較

表2 隨機森林中不同數量樹對分類結果的影響

此外,由于隨機森林是一種受包含樹的個數影響較大的算法,因此在此基礎之上,為了研究樹的數量對其分類性能的影響,我們將樹的個數分別設置為10,30,50,100,200,300,500,1000。由表2結果可知,隨著森林所包含的樹越來越多,分類性能由92.01%到96.12%逐漸升高。由此可見構建決策樹的個數越多,分類的準確率也就越高。但是因此所帶的是計算速度的降低。

4 總結

數據挖掘是一種針對海量數據進行處理分析的技術,能夠發現隱藏在數據之中的潛在有價值信息,將數據挖掘的知識應用到臨床實踐當中是一次有意義的嘗試過程。本論文主要利用數據挖掘中的分類算法對乳腺癌不同分期階段進行分類研究,通過對決策樹,分類與回歸樹以及隨機森林三種方法的分析,我們發現隨機森林的分類性能要明顯的高于其他兩種。此外,隨機森林算法的性能受其所包含的樹的個數影響較大,一般情況下樹越多,分類結果越高。這可能是因為隨著樹的增多,隨機采樣的樣本越均勻,最后構建的模型就越穩定,更具有代表性。

在現實生活中,數據挖掘技術處理可用于多種實際問題的分析處理之中,尤其是在醫療領域中的應用可以大大促進理論知識到臨床實踐的轉化。

* [1]趙倩倩, 程國建, 冀乾宇. 大數據崛起與數據挖掘芻議[J]. 電腦知識與技術, 2014, 33): 7831—7833

* [2] 朱建平, 張潤楚. 數據挖掘的發展及其特點[J]. 統計與決策,2002,( 07): 71—72.

* [3] 李寶東, 宋瀚濤. 數據挖掘在客戶關系管理(CRM)中的應用[J]. 計算機應用研究, 2002, 19(10): 71—74.

* [4]彭丹, 謝鵬.大腦認知功能的神經影像學研究現狀[J]. 中國臨床康復 , 2006,38): 133—135.

* [5]趙紫奉,李韶斌,孔抗美.基于決策樹算法的疾病診斷分析[J].中國衛生信息管理雜志,2011,8(05):67—69.

* [6]趙微,蘇健民.基于ID3算法決策樹的研究與改進[J].科技信息(科學教研),2008,(23):383+392.

* [7]方匡南,吳見彬,朱建平,謝邦昌. 隨機森林方法研究綜述[J].統計與信息論壇,2011,26(03):32—38.

* [8]李曉菲. 數據預處理算法的研究與應用[D].西南交通大學,2006.

猜你喜歡
數據挖掘乳腺癌分類
絕經了,是否就離乳腺癌越來越遠呢?
中老年保健(2022年6期)2022-08-19 01:41:48
分類算一算
探討人工智能與數據挖掘發展趨勢
乳腺癌是吃出來的嗎
分類討論求坐標
胸大更容易得乳腺癌嗎
數據分析中的分類討論
別逗了,乳腺癌可不分男女老少!
祝您健康(2018年5期)2018-05-16 17:10:16
教你一招:數的分類
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
主站蜘蛛池模板: 日本a∨在线观看| 欧美日韩中文字幕二区三区| 精品人妻无码中字系列| 91九色最新地址| 国产精品国产主播在线观看| 久久99热这里只有精品免费看| 国产精品人成在线播放| 精品欧美视频| 无码乱人伦一区二区亚洲一| 99免费在线观看视频| 99精品一区二区免费视频| a级毛片免费看| 午夜综合网| 久久久久亚洲Av片无码观看| 欧美日韩一区二区在线播放| 成人亚洲国产| 精品视频福利| 欧美日韩专区| 99久久精品国产精品亚洲| 婷婷午夜影院| 国产精品女人呻吟在线观看| 午夜高清国产拍精品| 欧美A级V片在线观看| 日韩午夜福利在线观看| 国产人前露出系列视频| 国产在线八区| 国产色婷婷视频在线观看| 久久青草免费91观看| 国产精品99一区不卡| 久久天天躁狠狠躁夜夜躁| 女人av社区男人的天堂| 国产va免费精品观看| 亚洲日韩在线满18点击进入| 国内精自视频品线一二区| 免费看a毛片| 超清无码一区二区三区| 91福利国产成人精品导航| 国产久操视频| 国产91精品久久| 日本不卡在线| 色妺妺在线视频喷水| 国产精品成人AⅤ在线一二三四 | 日韩精品无码一级毛片免费| 国产区网址| 亚洲中文制服丝袜欧美精品| 孕妇高潮太爽了在线观看免费| 秋霞一区二区三区| 91av国产在线| 在线无码av一区二区三区| 亚洲精品图区| 夜精品a一区二区三区| 亚洲欧美另类专区| 四虎亚洲国产成人久久精品| 欧美精品亚洲二区| 午夜毛片免费观看视频 | 日韩精品毛片人妻AV不卡| 欧美黑人欧美精品刺激| 国产色网站| 免费视频在线2021入口| 茄子视频毛片免费观看| 特级做a爰片毛片免费69| 亚洲无码一区在线观看| 996免费视频国产在线播放| 亚洲精品成人片在线播放| 亚洲欧美成人综合| 五月激激激综合网色播免费| 欧美国产菊爆免费观看| 99免费在线观看视频| 欧美一区中文字幕| 日韩欧美视频第一区在线观看| 国产人妖视频一区在线观看| 色窝窝免费一区二区三区| 99视频免费观看| 四虎永久免费地址| 成人毛片免费在线观看| 久操线在视频在线观看| 亚洲成人动漫在线| 亚洲精品国产精品乱码不卞| 亚洲天堂.com| 五月天丁香婷婷综合久久| 国产精品不卡片视频免费观看| 国产菊爆视频在线观看|