999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的乳腺癌分期標志物檢測方法研究

2021-05-16 17:25:00辛瑞昊王甜甜李英瑞馮欣
現代信息科技 2021年22期
關鍵詞:特征提取乳腺癌

辛瑞昊 王甜甜 李英瑞 馮欣

摘? 要:癌癥是一種嚴重威脅人類健康和生命的疾病。文章以TCGA公開數據庫中的乳腺癌數據作為研究樣本,基于機器學習中T-test檢驗和卡方檢驗方法對乳腺癌數據進行特征篩選和特征提取,保留有效的特征信息,剔除冗余信息。采用5種分類器對乳腺癌的分類進行研究,篩選出排在前10位的乳腺癌生物標志物進行深入研究,實驗結果有助于探索遺傳信息和自然因素在乳腺癌致病機理中的角色,并為預后評估的精準醫療提供科學依據。

關鍵詞:乳腺癌;特征篩選;特征提取

中圖分類號:TP391.4? ? ? ? ? 文獻標識碼:A文章編號:2096-4706(2021)22-0095-03

Abstract: Cancer is a disease that seriously threatens human health and life. Taking breast cancer data in TCGA open database as the research sample, the T-test test and chi-square test method in machine learning are used to perform feature selection and feature extraction for breast cancer data, retaining effective feature information and eliminating redundant information. Five classifiers are used to study the classification of breast cancer, screening the top 10 breast cancer biomarkers for further study. The experimental results will help to explore the role of genetic information and natural factors in the pathogenesis of breast cancer, and provide scientific evidence for precision medical treatment on prognosis evaluation.

Keywords: breast cancer; feature selection; feature extraction

0? 引? 言

近些年,各種癌癥發病率持續上升(如乳腺癌、肺癌等),嚴重威脅著人們的身體健康和生命安全。隨著我國人口老齡化進程的不斷加快,各種傳染病的不斷突發,居民不健康生活方式和不利環境因素的累加,致使癌癥已經演變為嚴重威脅中國人群健康的公共健康問題之一。

世界衛生組織研究表明,2020年全球乳腺癌發病率達到226萬例,肺癌為220萬例,乳腺癌發病率已經逐漸超過肺癌,變為全球第一大癌癥。除此之外,我國癌癥新發人數超過美國,成為癌癥新發人數最多的國家[1],相關數據如圖1、圖2所示。

大數據在醫療健康領域發揮著重要作用,信息化時代的到來使得醫學數據的收集更為方便,醫療大數據的研究和應用成為信息化時代醫學研究的關鍵因素。為了給患者提供更好的治療方案和預后效果,多種形式的醫療信息系統已經在國內醫療機構中被大量采用。利用數據分析技術對這些醫學數據進行分析,可以幫助醫生更加便捷高效地掌握病人的身體狀況,有效提升乳腺癌的預后效果。

本文研究了基于機器學習的乳腺癌分類標志物檢測方法,將基因的轉錄特征與統計學方法相結合,利用特征選擇方法對乳腺癌早晚期特征基因進行篩選分類。首先,采用T檢驗(T-test)進行基因篩選,將P_value<0.05作為特征篩選條件;然后,采用卡方檢驗(Chi-square Test)對T檢驗結果進行特征選擇;最后,在卡方檢驗后特征選擇結果基礎上,分別采用Logistic Regression(LR)、GaussianNB、DecisionTreeClassifier、K-Nearest Neighbors(KNN)和Support Vector Machine(SVM)五種機器學習分類器進行乳腺癌分類研究,并分析其重要分期標志物。

1? 數據來源

研究所采用的乳腺癌患者病例數據來自TCGA公開數據庫。TCGA的全稱為癌癥基因組圖譜(The cancer genome atlas),它是由美國國家癌癥研究所(NCI)聯合美國國家人類基因組研究所(NHGRI)進行的研究項目,癌癥基因組圖譜收錄了人類多種癌癥類型(包括亞型在內的腫瘤)的臨床數據以及基因組變異,例如mRNA表達、miRNA表達、甲基化等數據,給癌癥研究人員提供了豐富的數據資源[2]。

本文實驗數據采用的是TCGA乳腺癌轉錄組組學數據,其中樣本數572例,包含早期癌癥樣本數436例以及晚期癌癥樣本數136例,樣本特征數共有17 814個。

2? 數據特征選擇和篩選

實驗選用的樣本數據有限,使用全部特征來設計分類器則會浪費大量計算資源且分類器的分類性能不佳。任何一個特定的機器學習算法都無法做到精準剔除所有無效特征,因此需要從所有特征中篩選出有利于機器學習算法的相關特征。利用部分高表達性的特征構建模型可以大大縮減機器學習算法的運行時間,節省計算資源,而且模型的可解釋性也會更高。特征選擇算法可以從原始特征中自動篩選出對模型表達最為重要的特征,使得篩選后的特征子集盡可能小。在這個過程中,原始特征數據集與篩選后的特征子集之間存在一種包含的關系,原始特征空間沒有改變,分類精度也沒有顯著降低,同時類分布以及特征子集還具有強魯棒性和高適應性等特點。

實驗中所采用的特征選擇方法為Filter(過濾式)特征選擇方法,其大致思想是先對數據集進行特征篩選,之后再訓練學習器。特征選擇過程中利用機器學習T-test檢驗和卡方檢驗集成的檢驗算法對乳腺癌數據特征進行特征篩選和特征提取。特征選擇過程與后續學習器無關,這相當于先對初始特征進行“過濾”,再用過濾后的特征訓練模型[3],保留有效的特征信息,剔除冗余信息,為后續癌癥分期預測提供數據資源。

2.1? T-test檢驗

T檢驗用于對兩個總體均值差的檢驗,因為當F分布在自由度趨向于無窮大的區間時,近似于正態分布,所以T檢驗通常用于兩個正態分布均值差的檢驗。其在特征選擇的過程中通過計算檢驗統計量值,比較特征之間統計量的大小,并進行降序排列,選取統計值較高的特征,去除差別不大的特征。實驗中經過T檢驗篩選后,特征數由17 814個減少為2 549個。

2.2? 卡方檢驗

卡方檢驗,也就是x2檢驗,是一種用途廣泛的計數資料的假設檢驗方法。它通常用來驗證兩個總體的某個比率之間是否存在顯著性差異[4],比較兩個或兩個以上樣本率(構成比)以及進行兩個分類變量的關聯性分析。其根本思想在于比較理論頻數和實際頻數的相似程度或者是擬合優度問題。實驗中利用卡方檢驗選擇并保留T檢驗結果中前1%的樣本特征,因此最終篩選出來的特征數由2 549個減少為26個。

卡方檢驗公式為:

其中,A為觀察值,E為理論值,k為觀察值的個數。

3? 乳腺癌分期預測

癌癥分期是臨床診斷的重要指標之一,不同分期(stage)癌癥的預后效果存在著顯著差異,臨床醫生往往通過預后來判斷癌癥治療的效果[5]。如果可以檢測出癌癥分期的精準標志物,有助于在臨床中確診癌癥發展階段、評估預后結果以及理解癌癥發生發展機理,由此提出實現乳腺癌分期識別的最佳方案。本文設置五種分類器用于乳腺癌分期預測,診斷為早期(I或II期)的乳腺癌患者通常具有較好的預后,而晚期(III或IV期)乳腺癌患者的死亡率較高[6]。可以通過工具欄按鍵選擇切換分類器,系統可以根據分類器預測結果,顯示最佳分類準確率。如圖3所示為五種分類器下五倍交叉驗證的乳腺癌分期預測準確率。經過T-test檢驗與卡方檢驗進行特征篩選之后,在五種分類器中對特征樣本進行訓練,并且將特征樣本放入獨立驗證集中進行驗證。從圖3中可以看出,在五種分類器中使用決策樹分類器驗證的準確率能夠達到100%,這是因為決策樹分類器通常是采用遞歸的方法來選擇最優特征,然后依據該特征對訓練數據進行分割。這一過程中各個子數據集都有一個最好的分類過程,為特征空間的劃分提供依據,同時也進一步支撐決策樹的構建。

4? 致癌基因特征排序

在癌癥分期預測過程中采用決策樹模型的準確率可以達到100%,但是對轉錄組學中影響因子的作用還不夠直觀,本文列出了通過卡方檢驗排序的前十個特征,致癌基因特征排序是根據值的大小對處理過的特征數據進行特征排序,致癌基因特征降序排序如表1所示。將前十個最優特征的均值結果進行可視化展示,如圖4所示為通過卡方檢驗排序的前十個特征均值,通過樣本分析可以看出,前十個特征的樣本分布具有非常明顯的差異性,各個特征之間的樣本均值有著不同的數值,這對模型的學習具有很大的幫助(尤其是對于癌癥患者的早晚期劃分),特征的差異性越大愈能讓模型學習到獨有的信息。從可視化圖中可以清晰直觀地看出影響乳腺癌分期準確率排名前十的特征(具有明顯的乳腺癌分期生物標志物),進而可以更有效精確地對個體的預后風險進行預測[7],并且為控制乳腺癌患病風險以及臨床個性化治療方案的制定提供了參考。

5? 結? 論

本文采用基于機器學習算法研究了乳腺癌癌癥分期問題,采用T-test檢驗和卡方檢驗的方法進行特征篩選和排序,之后使用五種分類器進行分類,實現了決策樹算法模型準確率達到100%的分類效果,篩選出排名前10位的乳腺癌致癌生物標志物。研究結果有助于從新的角度探索人類醫學疾病診斷方法和計算機科學臨床應用機制。檢測癌癥分期的精準標志物,分析遺傳信息和自然因素對癌癥發生和發展的影響,有助于臨床確診癌癥發展階段、評估預后結果以及理解癌癥發生發展機理,為癌癥診斷以及實現精準醫療提供科學依據。

參考文獻:

[1] 劉青,張英,周馨,等.2009—2018年北京地區單中心乳腺癌臨床流行病學及病理特征回顧性分析 [J].腫瘤,2020,40(6):431-439.

[2] TSAI C J,RIAZ N,GOMEZ S. Big Data in Cancer Research: Real-World Resources for Precision Oncology to Improve Cancer Care Delivery [J].2019,29(4):306-310.

[3] 楊劍鋒,喬佩蕊,李永梅,等.機器學習分類問題及算法研究綜述 [J].統計與決策,2019,35(6):36-40.

[4] 朱軍,胡文波.貝葉斯機器學習前沿進展綜述 [J].計算機研究與發展,2015,52(1):16-26.

[5] 孟小琴,屠俊標,魏萍萍.乳腺癌相關血清腫瘤標志物的臨床研究進展 [J].癌癥進展,2021,19(4):334-338.

[6] 陳冬靈.基于Qt和Wi-Fi的室內環境監測系統設計 [J].信息技術與信息化,2019(11):22-25.

[7] 李佳圓,郝宇,吳雪瑤.基于多組學數據的流行病學研究策略及其在乳腺癌研究中的應用 [J].中國普外基礎與臨床雜志,2020,27(11):1344-1347.

作者簡介:辛瑞昊(1989—),男,漢族,吉林梅河口人,講師,工學博士,研究方向:先進控制理論及應用、大數據分析等;王甜甜(1997—),女,漢族,陜西咸陽人,碩士研究生在讀,研究方向:大數據分析與挖掘;李瑞英(1998—),男,漢族,陜西西安人,碩士研究生在讀,研究方向:大數據分析與挖掘;通訊作者:馮欣(1989—),女,滿族,吉林吉林人,講師,博士,研究方向:大數據分析與挖掘。

猜你喜歡
特征提取乳腺癌
特征提取和最小二乘支持向量機的水下目標識別
絕經了,是否就離乳腺癌越來越遠呢?
中老年保健(2022年6期)2022-08-19 01:41:48
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
乳腺癌是吃出來的嗎
胸大更容易得乳腺癌嗎
男人也得乳腺癌
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
別逗了,乳腺癌可不分男女老少!
祝您健康(2018年5期)2018-05-16 17:10:16
Bagging RCSP腦電特征提取算法
吃錯了 小心得乳腺癌!
母子健康(2015年1期)2015-02-28 11:22:02
主站蜘蛛池模板: 亚洲欧美综合在线观看| 亚洲一区网站| 99热线精品大全在线观看| 欧美国产在线看| 日韩精品一区二区三区免费在线观看| 最新精品久久精品| 无码啪啪精品天堂浪潮av| 色婷婷成人| 亚洲开心婷婷中文字幕| 国产福利在线免费观看| 亚洲第一福利视频导航| 日韩欧美视频第一区在线观看| 国产精品第一区| 欧美国产综合色视频| 中文字幕在线不卡视频| 青青青视频蜜桃一区二区| 日本手机在线视频| 免费xxxxx在线观看网站| 91精品国产麻豆国产自产在线| 国产精品自在拍首页视频8| 亚洲综合片| 亚洲成综合人影院在院播放| 亚洲成人精品| 在线国产欧美| 福利国产微拍广场一区视频在线 | 天堂网国产| 国产欧美视频在线| 亚洲人成人无码www| 操国产美女| 蜜臀av性久久久久蜜臀aⅴ麻豆| 久久精品嫩草研究院| 国产亚洲欧美另类一区二区| 88av在线看| 久草青青在线视频| 国产一区二区三区在线无码| 成年人视频一区二区| 中文字幕资源站| 青青草国产一区二区三区| 国产亚洲精品无码专| 欧美笫一页| 日韩av资源在线| 久久免费视频6| 强奷白丝美女在线观看| 一级毛片免费高清视频| 亚洲视频免| 99热最新网址| 欧美精品啪啪| 欧美一级一级做性视频| 国产福利一区二区在线观看| 亚洲人成网7777777国产| AⅤ色综合久久天堂AV色综合 | 又粗又大又爽又紧免费视频| 四虎成人精品在永久免费| 日本人又色又爽的视频| 亚洲天堂免费在线视频| 3344在线观看无码| 99视频精品全国免费品| 国产成人在线小视频| 亚洲第一视频网站| 亚洲色图欧美视频| 亚洲日韩久久综合中文字幕| 欧美精品成人| 黄色在线不卡| 午夜免费小视频| 欧美日韩北条麻妃一区二区| 最近最新中文字幕在线第一页| 国产免费a级片| 国产精品综合色区在线观看| 在线观看国产精品日本不卡网| 中文字幕丝袜一区二区| 99无码中文字幕视频| 亚洲欧美日韩动漫| 久久精品人人做人人综合试看| 成人午夜视频网站| 99这里精品| 强乱中文字幕在线播放不卡| 9久久伊人精品综合| 91偷拍一区| 亚洲国语自产一区第二页| a在线亚洲男人的天堂试看| 久久窝窝国产精品午夜看片| 99这里只有精品免费视频|