999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SMOTEboost的大腸癌不平衡數據集的癥型分類研究

2018-12-25 12:29:34劉芬劉秀峰
醫學信息 2018年23期

劉芬 劉秀峰

摘 要:目的 利用機器學習算法處理大腸癌中醫癥狀與證型數據,建立適用于大腸癌不平衡數據集的虛實證型分類模型。方法 量化收集的大腸癌中醫臨床病案數據以及文獻檢索數據,首先采用人工合成過采樣技術對數據集進行平衡處理,再結合集成學習算法Adaboost,將癥狀作為輸入,證型作為輸出,對比傳統機器學習算法分類效果,探討大腸癌的SMOTEboost分類模型在虛實證型中的分類性能。結果 SMOTEboost分類算法在大腸癌虛實證型分類模型中,F-mean較Adaboost提高了25.40%,G-mean提高了16.60%,表明構建的分類器具有較高的分類性能與泛化能力。結論 SMOTEboost復合分類器為大腸癌中醫證型分類提供很好的計算機網絡模型,也為其他中醫病癥的臨床證型判定提供借鑒意義。

關鍵詞:大腸癌;Adaboost;SMOTE;不平衡數據集

中圖分類號:TP311.13;R735.3+4 文獻標識碼:A DOI:10.3969/j.issn.1006-1959.2018.23.003

文章編號:1006-1959(2018)23-0010-03

Abstract:Objective To establish a classification model of deficiency and solid syndrome type suitable for unbalanced data set of colorectal cancer by using machine learning algorithm to process TCM symptom and syndrome type data of colorectal cancer.Methods The data of TCM clinical records and literature retrieval of colorectal cancer were collected quantitatively.First, the artificial oversampling technique is used to balance the data set, and then the integrated learning algorithm Adaboost, is used to deal with the data set balance.Take symptoms as input, syndrome as output,and then compared the classification effect of traditional machine learning algorithm in order to study the classification performance of SMOTEboost classification model of colorectal cancer in deficiency and solid syndrome.Results In SMOTEboost classification algorithm used in the classification model of colonic carcinoma,F-mean increased 25.40% and G-mean by 16.60% compared with Adaboost which shows that the constructed classifier has high classification performance and generalization ability.Conclusion The SMOTEboost compound classifier can provide a good computer network model for the classification of TCM syndromes of colorectal cancer, and also provide reference for other TCM syndromes.

Key words:Colorectal cancer;Adaboost;SMOTE;Unbalanced dataset

不平衡數據集(unbalanced data sets)是指在一個數據集中,某些類的數量遠遠大于其他類別的數量,其中類別數量多的為多數類,類別數量少的為少數類[1]。大多數的機器學習分類算法都是基于平衡數據集的假設,然而當數據集各類別的樣本分布不均勻時,分類器常常會傾向樣本中的多數類[2]。現實生活中,大多數屬于不平衡分類問題,如疾病診斷、人臉識別、文本分類、金融風險預測等[3]。人們往往需要知道少數類是否被正確分類,因此不平衡數據分類問題是近年來機器學習和數據挖掘的研究熱點[4]。

大腸癌(large intestinecancer)是下消化系統中一種常見的惡性腫瘤[5,6],中醫在降低大腸癌化療毒副反應,改善臨床證侯,提高生存質量,以及預防復發、轉移等方面顯示出了一定的優勢[7]。然而大腸癌臨床證型大多存在病例量小、地區差異、診斷不規范、各種癥型分布不均等問題,故為了實現大腸癌中醫癥型的有效分類,使得大腸癌辨病與辨證相結合,訓練大腸癌中醫癥型的高效分類器將為大腸癌中醫癥狀與癥型之間的臨床判斷提供便利。

1 資料與方法

1.1數據來源 本文訓練分類模型的一部分數據集來源于UCI機器學習數據庫,選用乳腺癌數據集(breast cancer)用以算法仿真實驗;另一部分數據集來源于人工收集的大腸癌數據(colorectal-cancer)用以分類器的驗證。Breast cancer數據集共286例,標號為非復發事件(no recurrence events)的數據有201例,而類標號為復發事件(recurrence events)的數據有85例,即兩類樣本量不平衡。

收集的大腸癌數據總共338例,其中150例收集于2007年廣東省臨床病案,另外188例來自文獻數據,分別來源于中國知網全文數據庫(CNKI)、維普全文數據庫(VIP)及萬方數據知識服務平臺,檢索年限為1990~2015年,關鍵詞為“大腸癌”“病機”“驗案”等。最終篩選出符合大腸癌病理學納入排除標準的數據有218例,其中虛癥143例(包含的證型有脾失健運、脾虛夾瘀、氣血虧虛、脾腎陽虛和肝脾不調),實證75例(包含的證型有濕熱內蘊、氣滯血瘀、淤毒內阻),構成了不平衡數據集。表1所列為兩組數據集描述,不平衡率為少數類樣本量與多數類樣本量之比,不平衡率越大,表明數據集整體不平衡度越高。屬性為表示數據集的特征集,其中Breast cancer數據集包含的屬性特征有患者樣本的年齡、乳腺腫瘤大小、位置、是否復發等10個;Colorectal cancer數據集包含里急后重、大便秘結、脈沉、舌紅、舌苔厚等28項癥狀屬性特征。

1.2數據預處理 本研究結合臨床數據與文獻數據,篩選出的癥狀輸入一共有28項,包含里急后重、大便秘結、脈沉、舌紅、舌苔厚等中醫體征變化,并將收集到的原始數據在EXCEL表中進性“0”“1”初步量化,有該癥狀賦1,無該癥狀賦0;同理量化證型輸出,結合專家意見,將大腸癌證型分為8類,分別為氣血虧虛、濕熱內蘊、氣滯血瘀、淤毒內阻、脾失健運、脾腎陽虛、肝脾不調、脾虛夾瘀。考慮到分屬于8種證型的樣本數據量太小不足以訓練模型,故進而將這8種證型轉變為虛實兩證,探討二分類問題。

1.3研究方法

1.3.1 SMOTE算法 最普通的上采樣技術為隨機上采樣(random over-sampling,ROS),此種方法實現簡單,通過不斷復制少類樣本來擴大平衡樣本量,但隨機上采樣會使得分類算法過度擬合從而降低分類器的靈敏度,本文在數據層面選用啟發式的基于“插值”合成少數類過采樣技術(synthetic minority oversampling technique,SMOTE),在數據層面對不平衡數據集作出改進。合成少類過采樣技術(SMOTE)相比隨機過采樣,SMOTE中插入的點位于少類樣本點和其周圍的樣本點之間,有效解決了過擬合問題。

1.3.2 Adaboost算法 針對不平衡數據集分類問題,目前主要的分類算法有支持向量機、模糊分類算法、Boosting算法、Fisher線性判別分析方法、代價敏感學習方法、Bagging算法和決策樹算法等。Boosting算法中存在一種損失函數為指數損失的Adaboost(adaptive boosting)算法,它可以根據所提供的一種框架,在框架內可以使用各種方法構建子分類器,而且可以使用任何簡單的弱分類器;此外,Adaboost算法不需要弱分類器的先驗知識,最后得到的強分類器的分類精度依賴于所有弱分類器,且不需要預先知道弱分類器的錯誤率上限,它根據弱分類器的反饋,自適應地調整假定的錯誤率從而具有深挖分類器的能力。綜合Adaboost算法在分類上的優點以及集成效果,本文在分類算法層面選取以單決策樹為弱分類器構建Adaboost強分類器模型運用于不平衡數據集的分類研究。

2 結果

2.1 SMOTE上采樣結果 在SMOTE算法中我們將鄰域K值設置為5,數據采樣后少數類比例與原始少數類比例見表2。可見在經過SMOTE過采樣后,少數類比例在某種程度上得到提升,從而起到平衡數據集的作用。

2.2不平衡數據集評價指標 我們通常使用預測準確率(ACC)作為評價指標來評估一般數據集分類器的性能。但對于不平衡數據集,由于精度會偏向多數類,而少數類很少可以產生影響,故ACC并不能夠正確反映分類器的分類性能。在包含兩類的數據集中,我們將樣本數量少但識別重要性高的稱為正樣本,反之稱為負樣本。經過分類,訓練樣本分成4 類,構成混淆矩陣(confusionmatrix),見表3。

一般來說準確率和召回率越高,預測的結果越好,但是實際上有時兩者會有矛盾,故采用使用兩者的調和平均值,更好的估計分類器對少數類的分類性能。G-mean是以少數類的分類正確率和多數類的分類正確率為基礎,較高的G-mean值說明分類器對于多數類和少數類樣本都有不錯的分類性能。

2.3建立基于SMOTE法的Adboost分類模型 為減少訓練時間,在導入數據之前,利用主成分分析將大腸癌的28個原始輸入降為10個。同時為了選取合適的弱分類器數目,我們將弱分類器數目設定為1~10000中幾個不同數字,多次運行Adaboost分類過程,最終根據錯誤率確定弱分類器的個數為50。為充分運用數據集,整個訓練過程采用5折交叉驗證法,循環訓練數據,當分類器錯誤率為0或者到達迭代次數時訓練終止。表4記錄了采樣后相對平衡的數據集在Adaboost分類器中的F-mean和 G-mean值,可以很直觀感受出SMOTEboost分類器較傳統Adaboost分類器在大腸癌虛實證型分類性能上得到了很大提升。

3討論

對于表現好的數據集,Adaboost的測試錯誤率會達到一個穩定值,并不會隨著分類器的增多而上升。但本研究在設定不同的弱分類器數目時,不平衡數據集的測試錯誤率在達到一個最小值之后便又開始上升,即訓練過程產生了過擬合。這也進一步說明了傳統分類算法運用于不平衡數據集所帶來的缺陷,故在進行分類器訓練之前對不平衡數據集進行過采樣等平衡處理是非常必要的。其次,本文采用SMOTE過采樣技術對數據集進行平衡處理的效果雖有得到提升,但效果依然值得進一步商榷改良,原因是它是基于隨機過采樣算法的一種改進方案,由于隨機過采樣采取簡單復制樣本的策略來增加少數類樣本,這樣容易產生模型過擬合的問題,即使得模型學習到的信息過于特別而不夠泛化。本文雖選取Adaboost集成算法作為分類器的原始模型,但對不平衡數據集而言,為提升分類器性能,考慮不同誤分類情況代價的差異性對算法進行優化也是之后需要深入研究的重要問題。

辨證論治是中醫藥治療大腸癌的核心,目前臨床研究對中醫證型的分析缺乏多中心、大樣本的流行病學研究,為辯證的客觀化、標準化帶來了一定的困難。癌癥數據存在極大的不平衡,準確率的應用更加有限,當某些重要類的代表樣本不足時,很容易引起漏診。傳統的學習方法以降低總體分類精度為目標,將所有樣本同等對待,造成了分類器在多數類的分類精度較高而在少數類的分類精度很低,故本文放棄采用單一準確率作為分類器性能衡量指標,引入F-mean與G-mean則更具合理性。而由于大腸癌中醫癥狀與證型之間存在明顯的非線性映射關系,即癥狀與證型之間并不是簡單的一一對應關系,這就說明在大腸癌中醫證型的臨床判別中醫生很容易根據經驗做出判定,缺乏一定的科普性。故將中醫藥與信息化結合起來,探討適用于處理臨床領域不平衡數據集的計算機網絡模型至關重要,也為中醫證型的規范化帶來裨益。本文從改善不平衡數據集出發,構建適用于大腸癌證型分類的網絡模型,為大腸癌中醫證型的辯證論治提供計算機領域的輔助模型,旨在推動大腸癌臨床證型判定的有效性。

參考文獻:

[1]胡小生,張潤晶,鐘勇.一種基于聚類提升的不平衡數據分類算法[J].集成技術,2014,3(02):35-41.

[2]姚宇,董本志,陳廣勝.一種改進的樸素貝葉斯不平衡數據集分類算法[J].黑龍江大學自然科學學報,2015,32(05):681-686.

[3]閆慈,田翔華,阿拉依,等.基于AdaBoost法在代謝綜合征不平衡數據分類中的應用[J].現代預防醫學,2017,44(21):3850-3852,3862.

[4]張文東,呂扇扇,張興森.基于改進BP神經網絡的非均衡數據分類算法[J].計算機系統應用,2017,26(06):153-156.

[5]駱學新,李志丹.大腸癌的中醫藥治療進展[J].浙江中醫雜志,2014,49(10):777-779.

[6]王國娟,余文燕.大腸癌中醫證型規律研究[J].中華中醫藥雜志,2016,31(03):837-840.

[7]閆霞,鄭佳露,胡兵.大腸癌證候及其現代生物醫學內涵研究[J].世界科學技術-中醫藥現代化,2017,19(07):1253-1257.

收稿日期:2018-10-9;修回日期:2018-10-19

編輯/成森

主站蜘蛛池模板: 欧美日韩精品一区二区在线线| 国产无遮挡猛进猛出免费软件| 欧美黄色网站在线看| 久久综合色天堂av| 国产日韩丝袜一二三区| 精品一区二区无码av| 人妻丰满熟妇αv无码| 激情爆乳一区二区| 在线免费亚洲无码视频| 国产精品制服| 精品一区二区无码av| 日韩天堂视频| 欧美成人区| 国产亚洲精久久久久久无码AV| 国产00高中生在线播放| 国产午夜福利在线小视频| 亚洲高清国产拍精品26u| 亚洲娇小与黑人巨大交| 粉嫩国产白浆在线观看| 美女被操91视频| 97精品国产高清久久久久蜜芽| 1769国产精品视频免费观看| 精品国产免费观看一区| 国产欧美日韩另类精彩视频| 欧美精品不卡| 天天色天天操综合网| 国产97公开成人免费视频| 国产第八页| 亚洲精品天堂自在久久77| 中文字幕av一区二区三区欲色| 黄色国产在线| 青青草原国产免费av观看| 国产成人综合在线视频| 91美女在线| 91精品专区| 久久亚洲国产最新网站| 国产精品亚洲片在线va| 一本综合久久| 日韩第一页在线| 亚洲无码在线午夜电影| 熟女日韩精品2区| 国产久草视频| 国产亚洲欧美在线人成aaaa| 久久一色本道亚洲| 亚洲成年人片| 久久精品国产国语对白| 亚洲不卡无码av中文字幕| 国产精品爆乳99久久| 女人18毛片久久| 中文字幕 91| 亚洲欧美精品一中文字幕| 97免费在线观看视频| 国产乱码精品一区二区三区中文 | 亚洲精品久综合蜜| 欧美综合成人| 亚洲成人手机在线| 无码专区第一页| 国内熟女少妇一线天| 91成人免费观看在线观看| 色婷婷视频在线| 久久黄色一级片| 2021亚洲精品不卡a| 五月天福利视频| 国产成人禁片在线观看| 香蕉色综合| 午夜无码一区二区三区| 久久福利网| 尤物国产在线| 免费毛片全部不收费的| 国产女人在线观看| 亚洲欧美日本国产综合在线| 91娇喘视频| 成人日韩精品| 亚洲最大看欧美片网站地址| 国产精品开放后亚洲| 日韩人妻少妇一区二区| 曰AV在线无码| 人妻精品久久久无码区色视| 伊人久久婷婷| 毛片在线区| 久久男人资源站| 福利视频一区|