摘要:醫學信息資源既是患者診療的重要依據,又是研究發病機制和規律的重要參考。然而,目前對大部分的醫學數據仍缺乏后期加工處理,不利于臨床的利用。本文通過發展現狀研究,利用數據挖掘直觀易懂、類似臨床循證思維的優勢,分析其用于腫瘤鑒別診斷的可行性。
關鍵詞:數據挖掘;腫瘤鑒別;循證醫學;診斷金標準
1數據挖掘的發展現狀
1.1研究背景 計算機技術的飛速發展,醫院信息系統積累了海量數據,涵蓋了患者的病史、診斷、檢查和治療的臨床信息、藥品管理信息、醫療財務信息和醫院管理信息。這些信息資源既是醫生對患者正確診療的重要依據,又是醫院管理層進行科學決策的重要參考,對促進人類健康,提高生活質量有重要作用[1]。然而,目前大部分醫院對醫學信息的處理仍停留在數據的錄入、修改、查詢、統計階段,屬于低層操作,缺乏對數據的后處理和分析,形成了\"醫學數據豐富而醫學信息貧乏\"的尷尬局面[2]。
1.2醫學數據挖掘的應用 基于數據庫、機器學習和醫學統計學的醫學數據挖掘應運而生,為醫務管理人員以及科研工作者處理、分析和利用這些數據對醫院進行科學管理、提高診療效果、開展學術研究等提供了技術支持。數據挖掘(Data Mining,DM)是從大量不完全的、有噪聲的、模糊的、非結構化的數據中提取隱含在其中的、不為人們所知的、卻又有潛在價值的信息和知識的過程,能智能分析數據,進行歸納性推理,挖掘出潛在的模式和規律,大大地提高了信息的利用率[3]。
目前,數據挖掘技術在醫學的多個領域也有了一定的研究基礎:
1.2.1 醫療診斷決策 在疾病診斷和預測中,通過對患者大量的數據資料的分析處理,挖掘出有價值的診斷規則,建立模型,再對此模型進行測試,得到合適的算法模型,利用該模型可以輔助臨床醫學診斷。例如,利用粗糙集算法對數據進行客觀有效的處理,可迅速獲得知識,在醫學上采用各種數據挖掘方法對肺癌進行診斷對比[4];使用神經網絡與決策樹分別預測乳腺癌的轉移發生率。
1.2.2 生物醫學領域 DNA序列的研究是生物醫學的熱點,找出導致各種疾病的特定基因序列模式成為關注的焦點,數據挖掘中的序列模式分析和相似檢索技術成為了DNA分析的有力工具[5]。支持向量機算法的計算復雜性與數據維度不成正比,只與樣本數有關,分類的準確率較高。其在醫學領域起步較晚,可用于生物學基因的分類、蛋白質二級的識別和預測細胞水平分布[6]等。
1.2.3 醫學圖像處理 數據挖掘應用于醫學圖像分析是其在醫學中的一個重要應用,它能從海量的圖像數據中挖掘出有效的模型、關聯、規則、變化、不規則以及普遍的規律,給醫師提供參考,提高診斷的準確度。
1.2.4 藥理學研究 在藥學研究中, 數據挖掘可以有效地存儲、管理、分析及整合大量的不同類型的生物和化學數據, 已成為國際上新藥研制過程中的關鍵技術支撐平臺。如應用貝葉斯神經網絡找出服用精神病藥物與心肌炎和心肌病發病的關系[7]。
1.2.5 醫院和衛生事業管理 運用數據挖掘技術,對醫院信息系統(Hospital Information System,HIS)產生的大量信息資源進行加工,可得到長期、系統、綜合的數據。通過決策樹、神經網絡、聚類等方法,對數據進行深層次的挖掘和有效利用,得到豐富的決策信息[8]。
2腫瘤的鑒別診斷
當今世界,惡性腫瘤已逐漸成為導致人類死亡的第一大病因。循證醫學(Evidence-Based Medicine,EBM)給腫瘤學科的發展帶來了深刻變革[9]。EBM是運用最新、最有力的科研信息,指導臨床醫師采用最適宜的診斷方法、最精確的預后估計和最安全有效的治療方法來治療患者。EBM的研究過程首先是研究數據的采集;其次是建立在科學詳盡的數據采集基礎上的科學定量分析,從而得出可靠結論;最后在系統評價的基礎上編寫臨床指引,形成針對某一特定疾病的臨床診療規范。EBM在腫瘤的病因研究、普查、治療中都有應用。
3數據挖掘用于腫瘤鑒別的可行性分析
目前,鑒別腫瘤的金標準仍然是患者的病理結果(包括腫瘤的類型、形態學、分期、分級、免疫組化、遺傳基因等),任何正確的腫瘤診斷都必須建立在準確的病理檢查基礎上。然而,病理組織標本需要經過手術或操作切除病損來獲取,從標本取材到最終得出病理結論往往需要1w或更長的時間,耽誤診療時機。因此,醫學專家考慮在無創的情況下,依據腫瘤EBM的思想,通過對患者的病理結果以外的其他信息如性別、年齡、是否有吸煙史、是否存在職業暴露,以及??茩z查、影像檢查、驗單結果等,來確定患者的疾病性質(如是否腫瘤、腫瘤的良惡性)、腫瘤類型(病理組織形態)、病變程度(腫瘤的分期分級)等。
3.1方法 利用數據挖掘算法建立腫瘤鑒別分析系統,對輸入系統的多個因素(如患者性別、年齡、吸煙史、職業暴露情況、醫學輔助檢查結果)進行分析,通過概率判斷腫瘤的性質;通過數據挖掘模型的構建過程計算各個影響因子的權重,從而探討各種危險因素與腫瘤形成的關系。
3.2 研究意義
3.2.1 排除由于醫學數據多樣性造成的干擾。在臨床診斷中,患者的生物學特征、遺傳基因、腫瘤的病理形態、生活習慣與職業、對藥物的敏感性、治療效果等存在多樣性,同一類疾病的患者其臨床表型可能相差較大。數據挖掘算法綜合了分類學習與回歸分析的優勢,通過生成樹、剪枝處理過程,改善每個觀察病例的異構性。
3.2.2 為后續治療及臨床研究提供重要參考。在不進行病理活檢手術的情況下,通過對潛在腫瘤患者其他醫療信息的鑒別分析,協助臨床醫師判斷腫瘤性質、類型以及程度,縮短診斷等待時間,減少患者的創傷,降低診療費用;以EBM為依據,結合臨床知識庫,為臨床診斷、患者后續治療提供了參考依據,為腫瘤的誘發因素、發病機制和規律的研究提供數據支持。
4結論
醫學數據挖掘能克服傳統數學分析方法的不足,很好地適應不同類型的數據結構,直觀地呈現結果,與臨床診斷思維相似。利用數據挖掘模型建立腫瘤鑒別分析系統,對輸入系統的多個腫瘤指標進行分析,協助醫生判斷腫瘤的性質;通過計算指標的權重,探討各種危險因素與腫瘤形成的關系,使分析結果更具權威性。
參考文獻:
[1]劉愛民,馬家潤,魯楊.病案信息學[M].北京:人民衛生出版社,2009:5-7.
[2]O'Neil P,O'Neil E著.周敖英,俞榮華,季問赟等譯.數據庫原理、編程與性能(第二版)[M].北京:機械工業出版社,2004:1-4.
[3]楊海青.數據挖掘技術在醫院管理中的應用[J].中華醫院管理雜志,2005,21(7):497-499.
[4]Kusiak A,Kern J,Kernstine K,et al.Autonomous decision-making:a data mining approach.IEEE transactions on information technology in biomedicine,2000,4(4):274.
[5]龔著琳,陳瑛,蘇懿,等.數據挖掘在生物醫學數據分析中的應用[J].上海交通大學學報,2010,30(11):1420-1423.
[6]Hua S,Sun Z.A novel method of protein secondary structure prediction with high segment overlap measure:support vector machine app roach[J].J Mo l Bio l,2001,308(2):397.
[7]Coulter D,Bate A,Meyboom R,et al.Antipsychotic drugs and heart muscle disorder in international pharmacovigilance:data mining study[J].BMJ,2001,322(7296):1207.
[8]左翔,劉方,胡學鋼.醫學數據挖掘的探究與應用[J].中國農村衛生事業管理,2011,31(3):268-270.
[9]王寧,王雅杰.在腫瘤學科教學中運用循證醫學原理指引實踐的思考[J].西北醫學教育,2011,19(1):164-166.
編輯/孫杰