楊岳
【摘要】數據挖掘技術應用于醫學領域,有助于從海量信息中提取有價值信息,為疾病的診治及臨床研究提供科學依據。醫學數據挖掘是一門涉及面廣、技術難度大的新興交叉學科。本文主要介紹數據挖掘概念,數據挖掘主要方法,數據挖掘過程及前景展望,為進一步深入研究打下理論基礎。
【關鍵詞】數據挖掘;挖掘特點;挖掘方法;挖掘過程
引言
隨著電子科技的飛速發展,在醫療機構中有大量的醫療數據被記錄下來。此外,有關病人和疾病的電子格式的數據日益增多,通過臨床日常工作和各項檢查數據進行的數據采掘研究也逐年增加。因此,掌握醫學數據挖掘的能力越來越成為開展基礎醫學和臨床醫學等醫學課題的先決條件。數據挖掘技術,是指從大量的、不完全的、有噪聲的、模糊的數據中,提取隱含的、未知的、非平凡的及有潛在的應用價值的信息或模式,幫助決策者調整市場策略,減少風險,做出正確的判斷和決策。下面介紹醫學數據挖掘特點以及幾種在醫學上常用的數據挖掘方法。
1.數據挖掘特點
挖掘醫學數據庫跟挖掘其它類型的數據庫相比,具有其自身的獨特性。具體特點如下:
1.1 醫學數據挖掘隱私性
醫學數據不可避免地涉及到患者的一些隱私信息,有些隱私涉及倫理甚至法律問題。電子資源共享之前須征得患者關于隱私共享公開的授權,否則不僅對患者造成不良影響,產生不良后果,而且也對醫院的整體形象及信譽諸多方面造成嚴重的負面效應。醫學數據挖掘者有義務和職責在保護患者隱私的基礎上進行科學研究,并且確保這些醫學數據的安全性和機密性。
1.2 醫學數據的多樣性
由于醫學數據是從醫學影像、實驗數據以及醫生與病人的交流中獲得的,所以原始的醫學數據具有多種形式。醫學數據包括影像、信號、純數據、文字、動畫,音頻,視頻等多種形式。醫學數據的多樣性是它區別于其它領域數據的最顯著特征。
1.3 醫學數據的不完整性
醫學數據搜集是以治愈患者為直接目的,而處理是以尋找某種疾病的一般規律為目的,關于一種疾病不可能有完整的全部信息,許多醫學信息的表達記錄本身就有模糊的特點。此外,人為因素也可能導致據記錄的偏差和殘缺,如病情敘述主觀性較強。這些因素都導致了醫學數據挖掘的不完整特性。
1.4 醫學數據的冗余性
醫學數據庫是一個龐大的數據資源,每天都會有大量的記錄存儲到數據庫中,其中可能會包含重復的、無關緊要的、甚至是相互矛盾的記錄。例如,有些患者信息差異較小,病種,診斷結果,檢查方式,治療方式,預后情況都幾近相同,這不僅增加了數據的樣本量,也為檢索帶來了很大困難,也就是說,醫學數據具有冗余性這一特點。
1.5 醫學數據挖掘的動態性
醫學數據挖掘的動態性,有時候也稱醫學數據挖掘的時間性,指數據與時間密切相關,如不同疾病的發病季節有著顯著特征。此外,醫學上的心腦電圖,心率,血壓等都是與時間密切相關的函數,因此,醫學數據挖掘具有動態性這一特點。
2.醫學數據挖掘方法
2.1 關鍵問題
關鍵問題主要包括數據的預處理,信息融合技術,快速的挖掘算法以及確保知識的準確性和可靠性。
2.2 主要方法
2.2.1 自動疾病預測趨勢和行為
通過對病例的數據挖掘,對人體病例的體征數據進行分析對比,從而學習到新的預測病例的方法,可以提前預測疾病的發生,及時挽救患者的生命。采用的技術主要有線性,非線性和廣義的回歸模型,以及神經網絡技術。其中人工神經網絡技術具有很強的自組織性,魯棒性和容錯性,在醫學數據挖掘上具有廣泛的應用。有學者以美國麻省理工學院的心律失常數據庫的心電圖為原始數據,采用不同分類模型,對心電圖的5種異性波形進行分類,為預測心臟病的發生提供了科學依據。
2.2.2 關聯分析
關聯是反映一個事件和其他事件之間的依賴或聯系。關聯分析主要用于DNA序列間相似搜索與比較、識別同時出現的基因序列、在患者生理參數分析中的應用、疾病相關因素分析等。其處理包括兩個步驟:第一步是利用標準關聯規則挖掘算法挖掘有關的關聯規則,第二步是基于所挖掘出的關聯規則構造出一個分類器。關聯規則有如下優點:可以產生清晰有用的結果;支持間接數據挖掘;可以處理變長數據;計算的消耗量可以預見。
2.2.3 聚類分析
聚類分析是對輸入集中的記錄進行分類。聚類分析是一種探索性統計分析方法,是在沒有經驗的情況下對數據進行分類。聚類技術主要包括傳統的模式識別方法和數學分類學,例如決策樹歸納,貝葉斯分類,神經網絡技術,基于知識的案例推理,遺傳算法,粗糙集等。
2.2.4 模糊系統
模糊系統是建立在模糊數學上的一種推理方式,經常與神經網絡聯合應用。可以從心臟圖像中分析心室過早收縮,也可以對肝臟超聲圖像進行分析。
2.2.5 進化計算
進化算法是從生物進化規律中得出的一種優化算法。在醫學數據挖掘中的主要應用有:為二尖瓣脫垂綜合征患者提供治療決策。也可以應用于對脊柱側凸進行分類。
3.醫學數據挖掘過程
醫學數據挖掘過程主要包括如下幾個步驟:(1)理解數據;(2)準備數據;(3)數據挖掘;(4)評估知識;(5)知識應用。
4.醫學數據挖掘展望
我國醫學數據極為豐富,但運用數據挖掘技術處理海量信息仍處于初級階段。醫學數據挖掘是一門涉及面廣,技術難度大的新興交叉學科,需要從事計算機,統計學的科研人員與醫務工作者廣泛合作。可以預見數據采掘技術在醫學領域中具有廣闊的應用前景,隨著大型數據庫和網絡技術的普及應用,必將有大量的電子格式的數據在國內的各行各業、尤其是醫療部門中出現,信息專業的研究與開發人員應當抓住機遇,做好技術上的準備,迎接挑戰。數據挖掘也為醫學更好的服務患者開辟的新的途徑,隨著理論研究的深入及不斷的實踐探索,相信數據挖掘技術會在醫學的方方面面發揮越來越大的作用。
參考文獻
[1]Han JW,Kamber M.Data mining: concepts and techniques.3rd Edition.San Francisco:Morgan Kaufmann,2011:1-8.
[2]陳功,范曉薇,蔣萌,等.數據挖掘與醫學數據資源開發利用[J].北京生物醫學工程,2010,29(3):323-328.
[3]朱凌云,吳寶明.醫學數據挖掘的技術方法及應用[J].生物醫學工程雜志,2003,20(3):559-562.
[4]李敬社,等.數據挖掘技術的方法和最新進展[J].現代電子技術,2004,6:54-56.
[5]武森.數據倉庫與數據挖掘[M].北京:冶金工業出版社,2003.