陳萌
[摘 要]由于醫(yī)療行業(yè)具有較強的復雜性與特殊性,且醫(yī)療大數(shù)據(jù)中的數(shù)據(jù)信息十分復雜,為了能夠?qū)颊卟∏檫M行更好地分析與決策,相關部門要發(fā)揮醫(yī)療大數(shù)據(jù)的作用,通過應用數(shù)據(jù)挖掘技術,實現(xiàn)對患者的有效治療。基于此,本文分析了遺傳算法中的數(shù)據(jù)挖掘技術,研究了其在醫(yī)療大數(shù)據(jù)中的實際應用,旨在為相關研究提供借鑒。
[關鍵詞]遺傳算法;醫(yī)療;大數(shù)據(jù);數(shù)據(jù)挖掘技術
doi:10.3969/j.issn.1673 - 0194.2019.08.077
[中圖分類號]TP311.13;TP18 [文獻標識碼]A [文章編號]1673-0194(2019)08-0-02
0 引 言
隨著科學技術水平的提升,計算機網(wǎng)絡技術被廣泛用于各個行業(yè)之中,尤其是在醫(yī)療事業(yè)中,不僅改善了醫(yī)療服務質(zhì)量,還提升了服務水平。治療過程中會產(chǎn)生大量的數(shù)據(jù),像醫(yī)療器械信息、患者個人信息數(shù)據(jù)等,為了發(fā)揮出醫(yī)療數(shù)據(jù)的最大價值,醫(yī)療機構(gòu)要加強數(shù)據(jù)挖掘技術在醫(yī)療大數(shù)據(jù)中的應用力度。
1 數(shù)據(jù)挖掘技術的概述
數(shù)據(jù)挖掘指從海量的數(shù)據(jù)信息中挖掘出有效的知識或模式,其在應用上主要由數(shù)據(jù)、算法以及知識3種要素構(gòu)成,其中,數(shù)據(jù)是數(shù)據(jù)挖掘的基礎,算法是重要手段,獲取知識是最終目的。以下是對數(shù)據(jù)挖掘3種要素的介紹。
1.1 數(shù)據(jù)
數(shù)據(jù)的形式多種多樣,如文本數(shù)據(jù)、影像數(shù)據(jù)以及音頻數(shù)據(jù)等。數(shù)據(jù)的描述主要從兩個方面進行,一是記錄數(shù),二是屬性數(shù)。在大數(shù)據(jù)時代,數(shù)據(jù)的記錄數(shù)量多,屬性涵蓋范圍廣。此外,屬性又被稱為特征、變量或維度,是刻畫對象特征或性質(zhì)的一種方式,會隨著對象及時間的改變而改變。數(shù)據(jù)的分析技術方式是由屬性決定的,對于屬性類型的判定可以通過明確數(shù)值性質(zhì)的方式找到對應性質(zhì)。常用的數(shù)值性質(zhì)有“=、≠”的相異性,以及“>、<、+、-、×、÷”等符號。
當數(shù)值性質(zhì)固定后,即可定義其屬性類型。首先是標稱,如顏色、醫(yī)囑類型等,如果只是數(shù)值的名稱具有差異,一般通過“=、≠”加以區(qū)分;其次是序數(shù),如收入水平等,數(shù)值能夠明確對象的序,一般通過“>、<”加以區(qū)分;再次是區(qū)間,如攝氏度、華氏溫度等,數(shù)值間的差具有一定的意義,一般通過“+、-”加以區(qū)分;最后是比率,如藥量、體重等,數(shù)值的差與比率存在實際意義,一般通過“×、÷”加以區(qū)分。此外,標稱與序數(shù)在一般狀況下被合稱為定性屬性或是分類屬性,而區(qū)間與比率被合稱為定量屬性或是數(shù)值屬性。
在明確數(shù)據(jù)屬性類型后,為了構(gòu)建出各個數(shù)據(jù)間的邏輯關系及模型,可以對相關數(shù)據(jù)信息進行描述性地統(tǒng)計與分析,主要從數(shù)據(jù)的均值、眾數(shù)以及中位數(shù)分析數(shù)據(jù)中心趨勢,從方差、極差以及標準差等方面分析數(shù)據(jù)離散趨勢,從而制作出直方圖、折線圖等描述性的圖表。
1.2 算法
算法是探尋數(shù)據(jù)間的規(guī)律,將其轉(zhuǎn)變?yōu)槿祟惪衫斫獾男问剑饕殖?類。第一類是分布探索。了解多個數(shù)據(jù)間的客觀分布狀況,一般采取聚類分析技術進行數(shù)據(jù)挖掘。第二類是關系探索。了解不同事物之間及變量之間的關系,一般采取關聯(lián)規(guī)則技術進行數(shù)據(jù)挖掘。第三類是特征選擇。了解高維變量事物的重要特征,一般采取特征抽取技術進行數(shù)據(jù)挖掘。第四類是異常探索。了解高維變量事物的個性離群案例,一般采取異常偵測技術進行數(shù)據(jù)挖掘。第五類是推測探索。按照已知變量數(shù)量判斷目標標量的值。第六類是趨勢探索。一般會按照時間次序?qū)κ挛锏淖兓厔葸M行考察與推測,一般采取時間序列進行數(shù)據(jù)挖掘。
1.3 知識
通常情況下,數(shù)據(jù)挖掘技術會被應用在固定數(shù)據(jù)挖掘任務模式中,此模式主要分為描述性與預測性兩種類別。其中描述性模式能夠刻畫出數(shù)據(jù)的基本性質(zhì),包含離群點、頻繁模式等;而預測性模式能夠歸納已上傳數(shù)據(jù),從而實現(xiàn)有效預測,可以對預測分析進行分類及回歸等。此外,描述性模式中的頻繁模式具有多種形式,包括頻繁子結(jié)構(gòu)、序列模式以及項集等。其中,頻繁項集是在事務數(shù)據(jù)中經(jīng)常出現(xiàn)的物品集合,如醫(yī)生開具的醫(yī)囑中經(jīng)常性出現(xiàn)的藥品;而頻繁序列模式是在醫(yī)生開具檢驗項目后,根據(jù)檢測結(jié)果所做出的治療方案及藥物使用的過程。
2 數(shù)據(jù)挖掘在醫(yī)學大數(shù)據(jù)中的應用
隨著醫(yī)療事業(yè)信息化建設速度的不斷提升,其產(chǎn)生的信息數(shù)據(jù)數(shù)量也在不斷增多,包含實驗室數(shù)據(jù)、患者治療信息以及臨床研究數(shù)據(jù)等,這些數(shù)據(jù)蘊含著許多高價值信息,需要使用數(shù)據(jù)挖掘技術進行價值挖掘。因此,在醫(yī)療大數(shù)據(jù)中使用數(shù)據(jù)挖掘技術,不僅能夠提升整個醫(yī)療事業(yè)的服務質(zhì)量與水平,還能提高治療效率與質(zhì)量。在實際使用過程中,若想對數(shù)據(jù)對象進行科學研究,醫(yī)療機構(gòu)要適當改進挖掘算法,從而增強數(shù)據(jù)挖掘的效果,優(yōu)化醫(yī)療服務水準。
2.1 明確數(shù)據(jù)挖掘?qū)ο?/p>
為了使數(shù)據(jù)挖掘技術在醫(yī)療大數(shù)據(jù)中發(fā)揮出最大效用,要先明確數(shù)據(jù)挖掘的對象。從實際醫(yī)療事業(yè)發(fā)展上看,數(shù)據(jù)挖掘?qū)ο笾饕ù嬖谟诨ヂ?lián)網(wǎng)中的一些患者信息、費用信息以及藥物信息、醫(yī)療設施信息等,只有明確好數(shù)據(jù)挖掘?qū)ο螅拍茉鰪姅?shù)據(jù)挖掘技術效果。此外,在進行正式數(shù)據(jù)挖掘前,要研究出挖掘的主要流程。數(shù)據(jù)挖掘主要分為7個步驟:第一,對挖掘問題進行定義,并選擇相應的數(shù)據(jù)信息進行分析,此步驟關乎后續(xù)數(shù)據(jù)挖掘的有效性與合理性,具有重要作用;第二,預先處理好所選擇的數(shù)據(jù),并將正確、有效、合理的數(shù)據(jù)輸入至數(shù)據(jù)庫中;第三,進行數(shù)據(jù)集成,處理好有關數(shù)據(jù)的共享問題;第四,清理數(shù)據(jù),將不合理、或存在漏洞的數(shù)據(jù)進行刪除處理;第五,交換數(shù)據(jù),此步驟能夠確保挖掘形式與數(shù)據(jù)一致,增強數(shù)據(jù)挖掘效果;第六,數(shù)據(jù)規(guī)約,通過刪除某列或某行等方式,保證挖掘運算量合理;第七,數(shù)據(jù)挖掘,采集目標信息,進行最終結(jié)果評價與展示。
2.2 以遺傳算法為基準的K-means聚類算法
K-means聚類算法是一種距離聚類迭代算法,將相似性較高的一些數(shù)據(jù)以點聚集的方式集中在某簇中,將相似性較小或具有差異的數(shù)據(jù)歸置到其他簇中,按照有關約束規(guī)定實現(xiàn)數(shù)據(jù)的有效迭代。為了加強數(shù)據(jù)挖掘技術在醫(yī)療大數(shù)據(jù)中的使用效果,醫(yī)療機構(gòu)要對K-means聚類算法進行適當?shù)馗倪M,從而促進我國醫(yī)療事業(yè)的進一步發(fā)展。
首先,要制訂編碼方案,做出種群的初始解。在對數(shù)據(jù)挖掘算法進行改進時,要將K-means聚類算法和遺傳算法進行有效結(jié)合。先定義出實際中心坐標,將其設定為d維,再設定每簇染色體的長度為k×d;每條染色體為{P1,P2,P3,P4,…,Pk},Pi={Pj1,Pj2,Pj3,Pj4,…,Pjd}。在制訂好編碼方案,做好種群初始化后,相關機構(gòu)要以隨機的方式從多個對象中明確K個初始中心坐標。其次,為了確保醫(yī)療大數(shù)據(jù)在使用數(shù)據(jù)挖掘技術上具有較強的合理性,要選擇好適應函數(shù)。所謂的適應函數(shù)就是計算各個數(shù)據(jù)的適應度,該過程有利于相關機構(gòu)獲得最優(yōu)解。一般情況下,適應函數(shù)的公式如下。
(1)
最后,進行操作選擇。為了增強實際操作性能,在數(shù)據(jù)迭代時可以適當引入一些免疫機制,以此實現(xiàn)更好的操作。改進算法的流程如下:先輸入原始數(shù)據(jù),設n為迭代數(shù),n=1;再對染色體編碼,產(chǎn)生初始種群;接著使用K-means操作優(yōu)化種群個體;然后計算出存在于種群中每個個體的適應度值;對失傳因子進行免疫機制篩選,做好自適應動態(tài)調(diào)整,若最后不滿足終止條件,則需要重新計算適應度值,待滿足終止條件后,選擇適應度最大的個體作為最優(yōu)解輸出,完成整個醫(yī)療大數(shù)據(jù)的數(shù)據(jù)挖掘工作。
2.3 案例分析
按照現(xiàn)階段醫(yī)療事業(yè)的發(fā)展情況,本文以醫(yī)療費用數(shù)據(jù)為例,對其進行數(shù)據(jù)挖掘。由于醫(yī)療費用數(shù)據(jù)具有冗雜性、隱蔽性及多樣性等特征,與醫(yī)療大數(shù)據(jù)特征相符,因此,通過應用數(shù)據(jù)挖掘技術,能夠增強費用結(jié)算與查詢效果的功能,提高醫(yī)療服務水平。在進行實際數(shù)據(jù)挖掘時,醫(yī)療機構(gòu)通過信息采集系統(tǒng)獲取患者的數(shù)據(jù)信息,再根據(jù)數(shù)據(jù)信息選擇出分類算法。一般情況下會選擇四分位數(shù)法,該方法相對于其他算法更易理解,通過將患者進行分組,獲得其主要數(shù)據(jù)信息,包括年齡、疾病或醫(yī)療費用等。本案例將醫(yī)療費用的25%、50%、75%作為分界線,對數(shù)據(jù)進行區(qū)間化處理。
按照傳統(tǒng)的四分位分類算法可以得出,在費用25%時,其醫(yī)療費用為853.01元,換病例數(shù)為42;在費用50%時,其醫(yī)療費用為1 446.28元,在25%~50%間的患病例數(shù)為44;在費用75%時,其醫(yī)療費用為3 184.52元,在50%~75%之間的患病例數(shù)為44,高于75%的患病例數(shù)為42。按照K-means聚類算法對以上醫(yī)療費用數(shù)據(jù)進行挖掘時,可以將其分為4個聚類中心,其總費用分別為1 123.48元、3 581.53元、8 828.64元、
14 369.25元,患病例數(shù)分別為112例、50例、5例、5例。通過對該算法進行分析,可以看出K-means聚類算法的分類挖掘效果十分顯著,可以表述出不同的聚類中心,得到更為詳細的醫(yī)療費用使用情況與例數(shù)。
3 結(jié) 語
醫(yī)療行業(yè)的快速發(fā)展,使大數(shù)據(jù)技術的應用范圍逐漸擴大,通過應用合理的數(shù)據(jù)挖掘技術,采集多種醫(yī)療數(shù)據(jù)信息,進行醫(yī)療大數(shù)據(jù)挖掘,不僅能夠提升醫(yī)療服務質(zhì)量,還能提高醫(yī)療信息利用率。此外,在醫(yī)療大數(shù)據(jù)中使用數(shù)據(jù)挖掘技術時,要按照選擇的數(shù)據(jù)對象對數(shù)據(jù)挖掘技術進行適當?shù)卣{(diào)整。
主要參考文獻
[1]張晴,李潔莉,朱家沐,等.基于物聯(lián)網(wǎng)的健康醫(yī)療大數(shù)據(jù)深層挖掘的應用與研究[J].中國醫(yī)學裝備,2019(1).
[2]羅堃,代冕.數(shù)據(jù)挖掘技術在醫(yī)療大數(shù)據(jù)中的應用研究[J].信息與電腦,2016(6).
[3]樊小毛,何晨光,盧東昕,等.醫(yī)療大數(shù)據(jù)特征挖掘及重大突發(fā)疾病早期預警[J].網(wǎng)絡新媒體技術,2014(1).