遺傳算法的數(shù)據(jù)挖掘技術在醫(yī)療大數(shù)據(jù)中的應用研究

2019-05-23 10:45:12陳萌

中國管理信息化 2019年8期

陳萌

[摘要]由于醫(yī)療行業(yè)具有較強的復雜性與特殊性，且醫(yī)療大數(shù)據(jù)中的數(shù)據(jù)信息十分復雜，為了能夠?qū)颊卟∏檫M行更好地分析與決策，相關部門要發(fā)揮醫(yī)療大數(shù)據(jù)的作用，通過應用數(shù)據(jù)挖掘技術，實現(xiàn)對患者的有效治療。基于此，本文分析了遺傳算法中的數(shù)據(jù)挖掘技術，研究了其在醫(yī)療大數(shù)據(jù)中的實際應用，旨在為相關研究提供借鑒。

[關鍵詞]遺傳算法；醫(yī)療；大數(shù)據(jù)；數(shù)據(jù)挖掘技術

doi：10.3969/j.issn.1673 - 0194.2019.08.077

[中圖分類號]TP311.13；TP18 [文獻標識碼]A [文章編號]1673-0194（2019）08-0-02

0 引言

隨著科學技術水平的提升，計算機網(wǎng)絡技術被廣泛用于各個行業(yè)之中，尤其是在醫(yī)療事業(yè)中，不僅改善了醫(yī)療服務質(zhì)量，還提升了服務水平。治療過程中會產(chǎn)生大量的數(shù)據(jù)，像醫(yī)療器械信息、患者個人信息數(shù)據(jù)等，為了發(fā)揮出醫(yī)療數(shù)據(jù)的最大價值，醫(yī)療機構(gòu)要加強數(shù)據(jù)挖掘技術在醫(yī)療大數(shù)據(jù)中的應用力度。

1 數(shù)據(jù)挖掘技術的概述

數(shù)據(jù)挖掘指從海量的數(shù)據(jù)信息中挖掘出有效的知識或模式，其在應用上主要由數(shù)據(jù)、算法以及知識3種要素構(gòu)成，其中，數(shù)據(jù)是數(shù)據(jù)挖掘的基礎，算法是重要手段，獲取知識是最終目的。以下是對數(shù)據(jù)挖掘3種要素的介紹。

1.1 數(shù)據(jù)

數(shù)據(jù)的形式多種多樣，如文本數(shù)據(jù)、影像數(shù)據(jù)以及音頻數(shù)據(jù)等。數(shù)據(jù)的描述主要從兩個方面進行，一是記錄數(shù)，二是屬性數(shù)。在大數(shù)據(jù)時代，數(shù)據(jù)的記錄數(shù)量多，屬性涵蓋范圍廣。此外，屬性又被稱為特征、變量或維度，是刻畫對象特征或性質(zhì)的一種方式，會隨著對象及時間的改變而改變。數(shù)據(jù)的分析技術方式是由屬性決定的，對于屬性類型的判定可以通過明確數(shù)值性質(zhì)的方式找到對應性質(zhì)。常用的數(shù)值性質(zhì)有“=、≠”的相異性，以及“>、<、+、-、×、÷”等符號。

當數(shù)值性質(zhì)固定后，即可定義其屬性類型。首先是標稱，如顏色、醫(yī)囑類型等，如果只是數(shù)值的名稱具有差異，一般通過“=、≠”加以區(qū)分；其次是序數(shù)，如收入水平等，數(shù)值能夠明確對象的序，一般通過“>、<”加以區(qū)分；再次是區(qū)間，如攝氏度、華氏溫度等，數(shù)值間的差具有一定的意義，一般通過“+、-”加以區(qū)分；最后是比率，如藥量、體重等，數(shù)值的差與比率存在實際意義，一般通過“×、÷”加以區(qū)分。此外，標稱與序數(shù)在一般狀況下被合稱為定性屬性或是分類屬性，而區(qū)間與比率被合稱為定量屬性或是數(shù)值屬性。

在明確數(shù)據(jù)屬性類型后，為了構(gòu)建出各個數(shù)據(jù)間的邏輯關系及模型，可以對相關數(shù)據(jù)信息進行描述性地統(tǒng)計與分析，主要從數(shù)據(jù)的均值、眾數(shù)以及中位數(shù)分析數(shù)據(jù)中心趨勢，從方差、極差以及標準差等方面分析數(shù)據(jù)離散趨勢，從而制作出直方圖、折線圖等描述性的圖表。

1.2 算法

算法是探尋數(shù)據(jù)間的規(guī)律，將其轉(zhuǎn)變?yōu)槿祟惪衫斫獾男问剑饕殖?類。第一類是分布探索。了解多個數(shù)據(jù)間的客觀分布狀況，一般采取聚類分析技術進行數(shù)據(jù)挖掘。第二類是關系探索。了解不同事物之間及變量之間的關系，一般采取關聯(lián)規(guī)則技術進行數(shù)據(jù)挖掘。第三類是特征選擇。了解高維變量事物的重要特征，一般采取特征抽取技術進行數(shù)據(jù)挖掘。第四類是異常探索。了解高維變量事物的個性離群案例，一般采取異常偵測技術進行數(shù)據(jù)挖掘。第五類是推測探索。按照已知變量數(shù)量判斷目標標量的值。第六類是趨勢探索。一般會按照時間次序?qū)κ挛锏淖兓厔葸M行考察與推測，一般采取時間序列進行數(shù)據(jù)挖掘。

1.3 知識

通常情況下，數(shù)據(jù)挖掘技術會被應用在固定數(shù)據(jù)挖掘任務模式中，此模式主要分為描述性與預測性兩種類別。其中描述性模式能夠刻畫出數(shù)據(jù)的基本性質(zhì)，包含離群點、頻繁模式等；而預測性模式能夠歸納已上傳數(shù)據(jù)，從而實現(xiàn)有效預測，可以對預測分析進行分類及回歸等。此外，描述性模式中的頻繁模式具有多種形式，包括頻繁子結(jié)構(gòu)、序列模式以及項集等。其中，頻繁項集是在事務數(shù)據(jù)中經(jīng)常出現(xiàn)的物品集合，如醫(yī)生開具的醫(yī)囑中經(jīng)常性出現(xiàn)的藥品；而頻繁序列模式是在醫(yī)生開具檢驗項目后，根據(jù)檢測結(jié)果所做出的治療方案及藥物使用的過程。

2 數(shù)據(jù)挖掘在醫(yī)學大數(shù)據(jù)中的應用

隨著醫(yī)療事業(yè)信息化建設速度的不斷提升，其產(chǎn)生的信息數(shù)據(jù)數(shù)量也在不斷增多，包含實驗室數(shù)據(jù)、患者治療信息以及臨床研究數(shù)據(jù)等，這些數(shù)據(jù)蘊含著許多高價值信息，需要使用數(shù)據(jù)挖掘技術進行價值挖掘。因此，在醫(yī)療大數(shù)據(jù)中使用數(shù)據(jù)挖掘技術，不僅能夠提升整個醫(yī)療事業(yè)的服務質(zhì)量與水平，還能提高治療效率與質(zhì)量。在實際使用過程中，若想對數(shù)據(jù)對象進行科學研究，醫(yī)療機構(gòu)要適當改進挖掘算法，從而增強數(shù)據(jù)挖掘的效果，優(yōu)化醫(yī)療服務水準。

2.1 明確數(shù)據(jù)挖掘?qū)ο?/p>

為了使數(shù)據(jù)挖掘技術在醫(yī)療大數(shù)據(jù)中發(fā)揮出最大效用，要先明確數(shù)據(jù)挖掘的對象。從實際醫(yī)療事業(yè)發(fā)展上看，數(shù)據(jù)挖掘?qū)ο笾饕ù嬖谟诨ヂ?lián)網(wǎng)中的一些患者信息、費用信息以及藥物信息、醫(yī)療設施信息等，只有明確好數(shù)據(jù)挖掘?qū)ο螅拍茉鰪姅?shù)據(jù)挖掘技術效果。此外，在進行正式數(shù)據(jù)挖掘前，要研究出挖掘的主要流程。數(shù)據(jù)挖掘主要分為7個步驟：第一，對挖掘問題進行定義，并選擇相應的數(shù)據(jù)信息進行分析，此步驟關乎后續(xù)數(shù)據(jù)挖掘的有效性與合理性，具有重要作用；第二，預先處理好所選擇的數(shù)據(jù)，并將正確、有效、合理的數(shù)據(jù)輸入至數(shù)據(jù)庫中；第三，進行數(shù)據(jù)集成，處理好有關數(shù)據(jù)的共享問題；第四，清理數(shù)據(jù)，將不合理、或存在漏洞的數(shù)據(jù)進行刪除處理；第五，交換數(shù)據(jù)，此步驟能夠確保挖掘形式與數(shù)據(jù)一致，增強數(shù)據(jù)挖掘效果；第六，數(shù)據(jù)規(guī)約，通過刪除某列或某行等方式，保證挖掘運算量合理；第七，數(shù)據(jù)挖掘，采集目標信息，進行最終結(jié)果評價與展示。

2.2 以遺傳算法為基準的K-means聚類算法

K-means聚類算法是一種距離聚類迭代算法，將相似性較高的一些數(shù)據(jù)以點聚集的方式集中在某簇中，將相似性較小或具有差異的數(shù)據(jù)歸置到其他簇中，按照有關約束規(guī)定實現(xiàn)數(shù)據(jù)的有效迭代。為了加強數(shù)據(jù)挖掘技術在醫(yī)療大數(shù)據(jù)中的使用效果，醫(yī)療機構(gòu)要對K-means聚類算法進行適當?shù)馗倪M，從而促進我國醫(yī)療事業(yè)的進一步發(fā)展。

首先，要制訂編碼方案，做出種群的初始解。在對數(shù)據(jù)挖掘算法進行改進時，要將K-means聚類算法和遺傳算法進行有效結(jié)合。先定義出實際中心坐標，將其設定為d維，再設定每簇染色體的長度為k×d；每條染色體為{P1，P2，P3，P4，…，Pk}，Pi={Pj1，Pj2，Pj3，Pj4，…，Pjd}。在制訂好編碼方案，做好種群初始化后，相關機構(gòu)要以隨機的方式從多個對象中明確K個初始中心坐標。其次，為了確保醫(yī)療大數(shù)據(jù)在使用數(shù)據(jù)挖掘技術上具有較強的合理性，要選擇好適應函數(shù)。所謂的適應函數(shù)就是計算各個數(shù)據(jù)的適應度，該過程有利于相關機構(gòu)獲得最優(yōu)解。一般情況下，適應函數(shù)的公式如下。

（1）

最后，進行操作選擇。為了增強實際操作性能，在數(shù)據(jù)迭代時可以適當引入一些免疫機制，以此實現(xiàn)更好的操作。改進算法的流程如下：先輸入原始數(shù)據(jù)，設n為迭代數(shù)，n=1；再對染色體編碼，產(chǎn)生初始種群；接著使用K-means操作優(yōu)化種群個體；然后計算出存在于種群中每個個體的適應度值；對失傳因子進行免疫機制篩選，做好自適應動態(tài)調(diào)整，若最后不滿足終止條件，則需要重新計算適應度值，待滿足終止條件后，選擇適應度最大的個體作為最優(yōu)解輸出，完成整個醫(yī)療大數(shù)據(jù)的數(shù)據(jù)挖掘工作。

2.3 案例分析

按照現(xiàn)階段醫(yī)療事業(yè)的發(fā)展情況，本文以醫(yī)療費用數(shù)據(jù)為例，對其進行數(shù)據(jù)挖掘。由于醫(yī)療費用數(shù)據(jù)具有冗雜性、隱蔽性及多樣性等特征，與醫(yī)療大數(shù)據(jù)特征相符，因此，通過應用數(shù)據(jù)挖掘技術，能夠增強費用結(jié)算與查詢效果的功能，提高醫(yī)療服務水平。在進行實際數(shù)據(jù)挖掘時，醫(yī)療機構(gòu)通過信息采集系統(tǒng)獲取患者的數(shù)據(jù)信息，再根據(jù)數(shù)據(jù)信息選擇出分類算法。一般情況下會選擇四分位數(shù)法，該方法相對于其他算法更易理解，通過將患者進行分組，獲得其主要數(shù)據(jù)信息，包括年齡、疾病或醫(yī)療費用等。本案例將醫(yī)療費用的25%、50%、75%作為分界線，對數(shù)據(jù)進行區(qū)間化處理。

按照傳統(tǒng)的四分位分類算法可以得出，在費用25%時，其醫(yī)療費用為853.01元，換病例數(shù)為42；在費用50%時，其醫(yī)療費用為1 446.28元，在25%～50%間的患病例數(shù)為44；在費用75%時，其醫(yī)療費用為3 184.52元，在50%～75%之間的患病例數(shù)為44，高于75%的患病例數(shù)為42。按照K-means聚類算法對以上醫(yī)療費用數(shù)據(jù)進行挖掘時，可以將其分為4個聚類中心，其總費用分別為1 123.48元、3 581.53元、8 828.64元、

14 369.25元，患病例數(shù)分別為112例、50例、5例、5例。通過對該算法進行分析，可以看出K-means聚類算法的分類挖掘效果十分顯著，可以表述出不同的聚類中心，得到更為詳細的醫(yī)療費用使用情況與例數(shù)。

3 結(jié) 語

醫(yī)療行業(yè)的快速發(fā)展，使大數(shù)據(jù)技術的應用范圍逐漸擴大，通過應用合理的數(shù)據(jù)挖掘技術，采集多種醫(yī)療數(shù)據(jù)信息，進行醫(yī)療大數(shù)據(jù)挖掘，不僅能夠提升醫(yī)療服務質(zhì)量，還能提高醫(yī)療信息利用率。此外，在醫(yī)療大數(shù)據(jù)中使用數(shù)據(jù)挖掘技術時，要按照選擇的數(shù)據(jù)對象對數(shù)據(jù)挖掘技術進行適當?shù)卣{(diào)整。

主要參考文獻

[1]張晴，李潔莉，朱家沐，等.基于物聯(lián)網(wǎng)的健康醫(yī)療大數(shù)據(jù)深層挖掘的應用與研究[J].中國醫(yī)學裝備，2019（1）.

[2]羅堃，代冕.數(shù)據(jù)挖掘技術在醫(yī)療大數(shù)據(jù)中的應用研究[J].信息與電腦，2016（6）.

[3]樊小毛，何晨光，盧東昕，等.醫(yī)療大數(shù)據(jù)特征挖掘及重大突發(fā)疾病早期預警[J].網(wǎng)絡新媒體技術，2014（1）.