張婷 曹沛瑩 金順姬 鄭粉善
【摘 要】隨著信息技術的不斷發展,醫療大數據的概念也逐漸被人類所熟知。通過對數據挖掘技術在乳腺癌各領域的研究現狀(乳腺癌基因研究、乳腺癌早期輔助檢查、力學藥物靶點識別、乳腺癌新中醫治療方法)的分析,展望數據挖掘技術應用于乳腺癌領域的前景,為數據挖掘技術在乳腺癌疾病的研究提供新思路。
【關鍵詞】數據挖掘;醫療大數據;乳腺癌
中圖分類號: R737.9;TP311.13 文獻標識碼: A 文章編號: 2095-2457(2019)15-0192-002
DOI:10.19694/j.cnki.issn2095-2457.2019.15.091
Progress in the Application of Data Mining Technology in Breast Cancer Research
ZHANG Ting1 CAO Pei-ying1 JIN Shun-ji2 ZHENG Fen-shan2
(1.Yanbian University,Yanji Jilin 133000,China;2.Yanbian Hospital,Yanji Jilin 133000,China)
【Abstract】With the continuous development of information technology,the concept of medical big data is gradually becoming well known by humans.Through the analysis of data mining technology in various fields of breast cancer research(breast cancer gene research,early breast cancer auxiliary examination,mechanical drug target recognition,breast cancer new Chinese medicine treatment method),prospective data mining technology applied to breast cancer field The prospects provide new ideas for data mining technology in the study of breast cancer diseases.
【Key words】Data mining;Medical big data;Breast cancer
0 前言
乳腺癌作為女性常見的惡性腫瘤之一,嚴重威脅著女性人群的身心健康[1]。臨床乳腺癌疾病的診察、治療以及術后的康復和護理等全方位醫療模式的研究,為乳腺癌疾病的診治提供了海量的醫療數據,促進了臨床乳腺癌診治技術的不斷發展,本文將針對數據挖掘技術在乳腺癌領域的應用現狀進行綜述,旨在為臨床醫務人員和科研人員進一步針對乳腺癌的數據挖掘提供借鑒。
1 什么是醫療大數據
醫療技術的不斷更新、發展,醫療數字化水平的不斷飛躍,將人類帶進了醫療信息時代,醫療大數據是指在醫療行業中產生的各類數字信息數據,其主要來源包括臨床醫療及實驗室數據、費用報銷及利用率、健康管理及社交網絡、生命科學及制藥企業等方面的信息來源[2]。醫療大數據的應用和研究在西方國家被廣泛認可,多種醫療數據和平臺被廣泛開發應用,隨著醫源性信息技術的進步與完善,醫療大數據的發展,定會成為促進醫療診治水平進步的主要動力。2016年國務院頒布了醫療大數據建設文件(簡稱《醫療大數據應用發展的指導意見》[3])文件中著重提到要構建權威、統一的人口信息平臺,不斷促進大數據平臺的共享和開放,體現了我國對建設自己的醫療數據庫的重視及未來醫療大數據的發展方向。
2 什么是數據挖掘技術
數據挖掘技術又被稱為數據采礦,是指從海量數據庫中挖掘出有用信息,并對這些信息進行分析的過程[4]。它的技術來源既包括統計學知識,同時也包含數據倉庫管理、模式識別系統和機器學習等,是一門多學科的交叉性科學。醫療大數據的分析應用,改變了以往的傳統疾病診治模式,為許多醫學未解難題的研究和解決,提供了新的研究方向。目前在我國,也有通過數據挖掘技術在醫護領域進行運用并取得成功的案例,例如肖爽等[5]通過運用數據挖掘技術,將重慶市內,某三甲醫院在2011年至2012年間上報的跌倒事件,運用關聯規則分析方法進行分析,最終發現7條與跌倒有關的關聯規則,與傳統跌倒的單因素分析方法相比較,通過運用數據挖掘技術分析的與跌倒有關的相關因素表現更為具體,通過運用數據挖掘技術建立的防范體系,對臨床工作也起到更加全面的指導意義。
3 數據挖掘在乳腺癌領域中的應用現狀
3.1 數據挖掘技術在乳腺癌臨床中的研究應用
沙曉妍[6]等通過文獻統計學分析方法,檢索Web of Science數據庫中關于乳腺癌護理的相關文獻,發現從2001年起至2015年為止,乳腺癌護理的發文量逐年遞增,這說明針對乳腺癌患者護理的關注度正在逐年上升。文獻顯示,關于乳腺癌護理方面,發文量最多的國家是美國,占總數的51.22%,其次為英國,占發文比總量的5.95%,再次為加拿大,占發文比總量的5.50%,這表明歐美國家針對乳腺癌患者的護理有著更為深入的研究,而美國則在乳腺癌護理領域中的起到領頭作用。通過關鍵詞分析,可以了解到目前臨床乳腺癌護理的主要研究方向在:生存質量(8.95%)、心理與社會支持(8.82%)、化療的癥狀困擾與癥狀管理(8.70%)、早期篩查(6.59%)等10個研究方向關注度較高。研究方向逐步從乳腺癌疾病病因治療轉向為運動干預、治療依從性等方面的研究。
何明艷[7]等運用Joinpoint回歸模型分析軟件,對《中國腫瘤等級年報》中2005~2013年中中國女性乳腺癌發病率及死亡率進行分析,計算出城市女性乳腺癌發病率與全國女性發病率持平,較農村女性發病率高,但農村女性發病率呈上升趨勢。同時計算出乳腺癌各年齡組的發病率與死亡率區間,城市女性在30~49歲年齡組為發病率快速上升期,50歲左右達到高峰期,農村女性發病率快速上升期為30~44歲上下,在45歲左右達到發病率高峰期。
通過數據的集中分析,我們可以明了地知道乳腺癌患者的發病及死亡組別狀況,了解當今乳腺癌患者的發病及護理趨勢,為今后護理工作及護理研究提供指導方向。
3.2 數據挖掘技術在乳腺癌基因研究中的運用
根據陳萬青等[1]研究顯示,我國乳腺癌患者的發病率呈現出上升態勢。運用數據挖掘技術分析乳腺癌疾病的相關數據,可以提早了解乳腺癌發生、發展的相關規律,在臨床應用中更有利于制訂相應的干預措施控制乳腺癌的發展速度及復發機率。
癌基因和抑癌基因的調控失調是導致腫瘤發生的主要原因,了解癌癥相關基因,可以更好的了解其發病機制,并可以確定早期檢測目標。Pranavathiyani G等[7]從7個公開的微陣列數據庫中收集了431份乳腺癌樣本,并通過運用分析軟件工具對431分乳腺癌樣本進行數據分析,發現癌細胞基因參與細胞蛋白質代謝過程,主要參與細胞周期和粘著斑途徑,同時還發現這些癌基因與皮膚病和病毒感染等其他疾病也有著密切的聯系,通過對乳腺癌中癌基因和腫瘤抑制基因的探索,可以幫助癌癥生物學研究早期診斷和制定有效治療方案。
3.3 數據挖掘在乳腺癌早期輔助檢查中的應用
針對乳腺癌,早治療是有效降低死亡率的根本方法,在早治療中早發現又是確診乳腺癌的關鍵因素,但在乳腺癌診斷過程中,乳腺攝片的檢測中10%~30%的乳腺癌沒有被檢測出來[8]。這主要一是由于影像學早期特征一般不是很明顯,二是有可能受到主治醫生主觀意念的影響,出現誤診和漏診的狀況。
張旭東[9]等通過分析積累的醫療數據,采用數據清洗,數據成像等技術,運用SMOTE算法對數據進行處理分析,研究構建出觸診成像乳腺癌智能診斷的初步模型,有望為臨床提供可以診斷乳腺癌腫瘤性質的診斷工具。李江、唐威[10]等通過檢索Pub Med、SCI、CNKI等多個數據庫,對乳腺癌篩查領域的系統評價進行二次評價,對所選文獻進行嚴格篩查后,得出結論為大規模乳腺癌篩查具有良好的篩查率,但其安全性能是否良好,由于原始數據較少,研究時限較長,尚未得到完整的數據支持,還需不斷進行論證研究。
3.4 數據挖掘技術在力學-藥物靶點識別的應用
醫療大數據的應用,不僅提高了生物醫學的發現速度,而且將腫瘤學的實踐研究也轉變為多信息科學,在乳腺癌的研究發展中,除受生物化學因素影響外,也受到力學因素的影響,有研究顯示,腫瘤力學的微環境的形成對腫瘤細胞的發生增殖及遷移等活動起到極為重要的影響[11]。
余靜蕓等[12]通過在基因表達數據庫(GEO)中所獲數據進行整理,對乳腺癌疾病的力學-藥物靶點進行深入研究,通過力學原理與藥物學原理相結合的方法,對所得數據進行深層次挖掘,識別出在乳腺癌疾病的發生發展過程中,有力學-藥學作用機制的靶點共計87個,其中有12個靶點,在靶向作用中發揮相關力學功能,被證實是乳腺癌治療的藥物靶點,而其余的靶點也被認為是,潛在的乳腺癌藥物靶點,并進行進一步的深入研究運用。這一研究結果的提出,證實了在乳腺癌疾病研究中,力學-藥學作用的分子機制,為乳腺癌的藥物治療方向提供了一定的研究依據,也為乳腺癌新藥的開發以及老藥新用方法提供理論參考。
3.5 數據挖掘技術在乳腺癌中醫治療方法的研究應用
目前在臨床上,針對乳腺癌患者的治療方法,仍是以西醫治療為主的聯合治療,其中主要包括外科手術、放療化療等治療手段,中醫技術源遠流長,作為乳腺癌患者的輔助性治療方法,適用于乳腺癌患者治療的各個階段。中醫藥治療,以內服外敷、針灸等多途徑、多靶點、多形式的方法,結合西醫治療起到減毒增效的作用,在一定程度上可以起到延長患者生存期,降低乳腺癌復發率及轉移率的作用[13]。
楊玉鳳等[14]通過運用中醫傳承輔助系統(V2.5),運用關聯規則分析方法等現代數據挖掘技術,對85位乳腺癌患者案例進行統計分析,計算出乳腺癌術后的基本證型、主要治療法則,通過分析乳腺癌患者在治療過程中,常用的中醫藥材使用頻次,發現了各中醫藥材之間的相互關聯,并從中發掘出16個核心的關聯配伍、以及8個藥材新處方。謝宛君、林毅等[15]運用中醫傳承輔助系統(V2.5),對林毅教授中醫門診診治有效的89位轉移性乳腺癌患者所使用處方的藥物、藥性等進行分析,診脈得出乳腺癌患者多為肝脾血虛者,計算出處方用藥原則多為甘性藥材,其次為溫性藥材,再次為平性藥材,少為涼性藥材,計算出用藥頻次最多的為白術、茯苓、山藥等前十位藥材。中醫學的數據分析及研究,為乳腺癌術后和轉移患者的中醫辨證論、治理論的可行性提供了有效的參考依據。
4 討論
數據挖掘技術是一項跨學科多領域的新興技術,在醫療大數據的背景下合理運用數據挖掘技術,可以解決很多問題,如有效提高臨床疾病診斷準確性、提高疾病預警機制、開展遠程醫療、提高醫療質量、減少醫患矛盾等[16]。目前我國數據挖掘技術正處在初步起始階段,雖然國務院辦公廳已經頒布了(《醫療大數據應用發展的指導意見》(簡稱)),但基于目前我國醫療數據管制體系的不健全,造成的醫療數據獲取困難,增加了醫療數據的統合分析難度。只有將所有醫療數據在錄入端及進行標準化統一模式,才能有效提高數據的搜索率,同時各醫療機構及領域間建立數據共享,實現醫療數據共享網絡,才能達到數據利用率的最大化。國家同時也應加大醫療信息研究復合型人才的培養,加快我國醫療信息平臺的建設,才能盡快與國際接軌,實現醫療信息現代化的快速發展。
數據挖掘技術是在海量數據庫中,對數據進行統一分析處理的一門技術,對醫學領域而言,發現潛藏在醫療數據庫中的有效信息,并將這些潛藏信息應用到臨床實踐的一次有意義的嘗試過程。乳腺癌已被公認為嚴重威脅女性健康的惡性疾病,通過對乳腺癌疾病的不斷深入研究,存在乳腺癌疾病下的信息被不斷探索,針對乳腺癌的診治方法,也將得到不斷創新,隨著醫療數據的持續積累,也許在將來的某一天,乳腺癌會變成可以被根治的疾病。
【參考文獻】
[1]陳萬青,鄭榮壽.中國女性乳腺癌發病死亡和生存狀況[J].中國腫瘤臨床,2015,42(13):668-674.
[2]張振,周毅,杜守洪,等.醫療大數據及其面臨的機遇與挑戰[J].醫學信息學雜志,2014,35(06):2-8.
[3]國務院辦公廳:《國務院辦公廳關于促進和規范健康醫療大數據應用發展的指導意見》http://www.gov.cn/zhengce/content/2016-06/24/content_5085091.htm.
[4]蔡斌.數據挖掘技術在軟件工程中的應用[J].電子技術與軟件工程,2018(21):148.
[5]肖爽,趙慶華.數據挖掘中的關聯規則在住院患者跌倒事件防范中的運用[J].中華護理雜志,2014,49(10):1215-1218.
[6]沙曉妍,劉竹韻,林細吟.2001~2015年Web of Science數據庫中乳腺癌護理研究論文的計量學分析[J].護理學雜志,2017,32(03):84-87.
[7]PRANAVATHIYANI G,THANMALAGAN R R,DEVI N L,Amouda Venkatesan:Integrated Transcriptome Interactome study of Oncogenes and Tumor Suppressor Genes in Breast Cancer[J]Genes & Diseases,2018.
[8]MOURA D C,LOPEZMA G.An evaluation of imagedescriptors combined with clinical data for breast cancer diagnosis[J].Intemational Joumal of computer Assisted Radiology and Surgery,2013,8(4):561-57.
[9]張旭東,孫圣力,王洪超.基于數據挖掘的觸診成像乳腺癌智能診斷模型和方法[J].大數據,2019,5(01):68-76.
[10]李江,唐威,王昕,等.乳腺癌篩查領域的系統評價再評價[J].中國腫瘤,2018,27(06):401-408.
[11]ANIKA N,JOHAN B,ALAN E.Span:The mechanical microenvironment in cancer:How physics affects tumours,Seminars in Cancer Biology 35(2015)62–70
[12]余靜蕓,李乾鵬,田地,等.基于表達譜數據的乳腺癌疾病力學-藥物靶點識別[J].北京生物醫學工程,2017,36(06):558-563+625.
[13]侯公楷.中醫藥防治乳腺癌進展[J].遼寧中醫藥大學學報,2016,18(05):249-253.
[14]楊玉鳳,亢小雨,李遠.從數據處理中挖掘乳腺癌術后的中醫證治規律[J].醫學研究與教育,2017,34(05):16-23.
[15]謝宛君,林毅,梁倩蓉,等.基于數據挖掘的林毅教授轉移性乳腺癌論治經驗[J].中國中藥雜志,2018,43(15):3198-3204.
[16]惠華強,鄭萍,張云宏.醫療大數據研究面臨的機遇與發展趨勢[J].中國衛生質量管理,2016,23(02):91-93.