摘 要:本文依據(jù)最新的電子病歷系統(tǒng),提出了用數(shù)據(jù)挖掘的方法,以電子病歷做為數(shù)據(jù)源建立重大疾病預(yù)警機(jī)制,描述了基于數(shù)據(jù)倉庫的疾病預(yù)警系統(tǒng)的框架,并討論了其中的關(guān)鍵技術(shù)。
關(guān)鍵詞:疾病預(yù)警 數(shù)據(jù)倉庫 數(shù)據(jù)挖掘
電子病歷是在計(jì)算機(jī)應(yīng)用技術(shù)發(fā)展較為成熟的基礎(chǔ)上實(shí)現(xiàn)的信息化病歷,是一個比較新的計(jì)算機(jī)應(yīng)用領(lǐng)域。使用電子病歷不僅能夠記錄紙制病歷中的所有信息,而且能夠使信息系統(tǒng)化、及時化,通過通用的電子病歷系統(tǒng)能夠?qū)崿F(xiàn)病人信息的采集、加工、存儲、提取、處理和預(yù)測等功能。
一、電子病歷數(shù)據(jù)挖掘可行性分析
隨著數(shù)據(jù)挖掘技術(shù)的快速發(fā)展,我們已經(jīng)可以從大量的數(shù)據(jù)中提取出對我們有用的數(shù)據(jù)進(jìn)行處理,并得到以前認(rèn)為無關(guān)信息間的密切關(guān)聯(lián)關(guān)系,或者根據(jù)現(xiàn)有經(jīng)驗(yàn)預(yù)測將來有可能發(fā)生的事情。據(jù)醫(yī)學(xué)相關(guān)領(lǐng)域研究成果顯示,許多重大疾病甚至造成嚴(yán)重后果的傳染病在發(fā)病前或多或少都會有一些癥狀產(chǎn)生。而對于不嚴(yán)重的病癥如體溫變化,腰部酸痛等,很多人都會忽略,致使醫(yī)生和研究人員無法掌握完整的信息和資料對重大疾病進(jìn)行預(yù)防性研究。
現(xiàn)在的電子病歷基本上能夠做到對有記錄的病人的身體情況做較為詳細(xì)的記錄,以電子病歷為數(shù)據(jù)源,利用數(shù)據(jù)挖掘技術(shù)可以研究重大疾病發(fā)生前的有關(guān)特征,并建立相關(guān)的疾病預(yù)警機(jī)制。比如:國家醫(yī)療衛(wèi)生機(jī)構(gòu)可以在某一時期內(nèi)對某種重大傳染病的傳播情況進(jìn)行實(shí)時追蹤(如:危及一時的非典傳染數(shù)據(jù),利用本方案,準(zhǔn)確感染人數(shù)和傳播范圍即時可得,并且可以根據(jù)發(fā)病比例做出重大疾病預(yù)警),國家可以根據(jù)病情實(shí)際傳染情況進(jìn)行及時、準(zhǔn)確的決策、預(yù)警。
二、數(shù)據(jù)挖掘開發(fā)環(huán)境及主要功能
1.開發(fā)環(huán)境與系統(tǒng)要求:SQL SERVER 2005,要求有統(tǒng)一的電子病歷標(biāo)準(zhǔn),以便便利地進(jìn)行數(shù)據(jù)提取和病歷信息的數(shù)字化。
2.主要功能:對電子病歷進(jìn)行數(shù)據(jù)提取、存儲,并且能夠建摸、訓(xùn)練模型和預(yù)測得到可能發(fā)生重大疾病的概率,發(fā)出預(yù)警信號;用于研究微小癥狀和重大疾病間的關(guān)聯(lián)關(guān)系。
3.觸發(fā)器預(yù)警:當(dāng)預(yù)測結(jié)果達(dá)到一定的可能性比例后,通過數(shù)據(jù)庫觸發(fā)機(jī)制觸發(fā)已有的重大疾病預(yù)警機(jī)制以發(fā)出預(yù)警信號。
4.對病歷書寫時限和內(nèi)容能實(shí)時監(jiān)控。
5.病歷信息查詢、檢索、統(tǒng)計(jì)和分析。
三、主要模塊及技術(shù)辦法
系統(tǒng)構(gòu)架:
(一)數(shù)據(jù)采集
1.確定以電子病歷為數(shù)據(jù)源,要求大量的數(shù)據(jù)源有統(tǒng)一的標(biāo)準(zhǔn),以便數(shù)據(jù)傳輸和提取。病歷信息在就診時,就可以通過互聯(lián)網(wǎng)傳輸?shù)娇偟碾娮硬v系統(tǒng)中,在與數(shù)據(jù)庫連接的條件下可同步進(jìn)入基礎(chǔ)數(shù)據(jù)庫,數(shù)據(jù)的實(shí)效性得到了強(qiáng)有力保證,這使得電子病歷的上述重大作用發(fā)揮到了極至。
2.建立系統(tǒng)工作日志表:利用SQL Server存儲過程建立工作日志,記錄登陸、退出系統(tǒng)的時間,書寫、修改、保存等操作。外部人員無法訪問日志表。同時,建立工作日志定期備份機(jī)制。
(二)數(shù)據(jù)處理
1.選擇。這里只是粗略地把一些冗余或無關(guān)的數(shù)據(jù)除去,或由于資源的限制、數(shù)據(jù)使用的限制和質(zhì)量問題而必須做出的選擇。主要根據(jù)知識庫中所要用的和有可能用到的數(shù)據(jù)來進(jìn)行選擇,祛除原始數(shù)據(jù)中的噪音。
2.信息傳送到電子病歷系統(tǒng)后,通過一定程序?qū)?shù)據(jù)進(jìn)行處理,可將病歷信息數(shù)據(jù)化(如:疼痛性質(zhì):針刺疼痛、刀割樣疼痛、灼痛、電擊樣疼痛、跳痛、抽痛、脹痛,可分別用1—7的數(shù)字將其提取保存),便于統(tǒng)計(jì)發(fā)生概率。將所得到的結(jié)果存入數(shù)據(jù)倉庫中。
(三)建立疾病模型和自動分析機(jī)制
1.在SQL SERVER 2005中按照疾病的種類建立相應(yīng)的模型。若是已知發(fā)病前兆,需要根據(jù)癥狀預(yù)測發(fā)生疾病的機(jī)率,則所填加的字段為知識庫中以有的病癥,使用貝葉斯算法預(yù)測發(fā)病概率;若是需要探測微小癥狀與重大疾病間的關(guān)聯(lián)關(guān)系,則要把病歷中有的所有癥狀都列為填加字段,使用決策樹算法可測試單獨(dú)或并列的微小癥狀與重大疾病的關(guān)聯(lián)關(guān)系。
2.建立知識庫和方法庫。知識庫用以存放根據(jù)經(jīng)驗(yàn)或已有結(jié)論能夠預(yù)測的重大疾病的特征癥狀、伴發(fā)癥和危險(xiǎn)因素,為預(yù)測疾病發(fā)生概率提供依據(jù);通過決策樹得到了正確的關(guān)聯(lián)關(guān)系,用來擴(kuò)充知識庫。方法庫是存儲相關(guān)的算法和預(yù)測方式的,可從多層次、多個角度考察數(shù)據(jù)的規(guī)律,用多種形式展現(xiàn)結(jié)果。從數(shù)據(jù)倉庫中挖掘出知識,并將其放入知識庫中,通過知識推理達(dá)到定性分析輔助決策。
(四)疾病預(yù)警機(jī)制
1.模型圖
其中推理機(jī)制是核心,它是以癥狀為線索,按照癥狀出現(xiàn)的緩急、程度、部位和時間等因素為主要參數(shù),再結(jié)合伴隨癥狀和該疾病的危險(xiǎn)因素等信息進(jìn)行疾病預(yù)警。
2.機(jī)器學(xué)習(xí)
疾病預(yù)警中的機(jī)器學(xué)習(xí)是運(yùn)用概率論與數(shù)理統(tǒng)計(jì)的原理及方法,結(jié)合醫(yī)學(xué)實(shí)際,通過對數(shù)字資料的搜集、整理分析與推斷,讓系統(tǒng)在不斷重復(fù)的工作中增強(qiáng)和改進(jìn)本身能力,使建立的智能模型能從有限的病人描述中歸納出可靠的預(yù)警算法。這種預(yù)警工具可以作為提高醫(yī)師的工作效率的輔助工具。
(五)采用的主要算法
1.預(yù)測疾病發(fā)生概率采用貝葉斯算法:使用條件概率和無條件概率的組合,即如果您有一個假設(shè)H和關(guān)于假設(shè)E的證據(jù),那么可以使用下面的公式來計(jì)算H的概率:
2.使用貝葉斯算法在SQL Server 2005上建立數(shù)據(jù)挖掘模型:
CREATEMININGMODELILLNESS
{
[ID]LONG KEY,
[NAME] CHAR,
[SUFFER] BOOL,
[TIME] DATETIME,
[BLOOD PRESS]CHAR,
......
} USING Microsoft_Naive_Bayes
訓(xùn)練模型:
INSERTINTOILLNESS
OPENQUERY([ILLNESS],‘SELECT*FROMILLNESS’)
預(yù)測:
SELECTPredict() FROMILLNESS
NATURALPREDICTIONJOIN
(SELECT@BLOOD PRESS AS[BLOODPRESS],
@TONGUE FUR AS [TONGUEFUR] ) as t
預(yù)測的結(jié)果將會基于參數(shù)中指定的值。
3.微小癥狀與重大疾病間的關(guān)聯(lián)關(guān)系鑒定采用決策樹算法:遞歸地將數(shù)據(jù)拆分成子集,以便每一個子集包含目標(biāo)變量類似的狀態(tài),這些目標(biāo)變量是可預(yù)測屬性。每依次對樹進(jìn)行拆分,都要評價(jià)所有的輸入屬性對可預(yù)測屬性的影響。當(dāng)這個遞歸的過程結(jié)束時,決策樹也就創(chuàng)建完了。
4.使用決策樹算法在SQL Server 2005上建立數(shù)據(jù)挖掘模型:
CreateminingmodelILL
(ID LONG Key,
NAMECHAR,
SUFFERBOOL,
TIMEDATETIME,
BLOODPRESSCHAR,
......
)UsingMicrosoft_Decision_Trees(Complexity_Penalty=0.5)
訓(xùn)練模型:
INSERTINTOILL
(ID,SUFFER,TIME,BLOOD PRESS,......)
OPENROWSET(‘Microsoft.Jet.OLEDB.4.0’,
‘DataSource=C:\data|CollegePlan.mdb;’,
‘selectID,SUFFER,TIME,BLOOD PRESS,......FROM ILL’)
瀏覽該模型:
Select*fromILL.Content
四、將來要研究的問題:
目前電子病歷還沒有一個統(tǒng)一的模式和標(biāo)準(zhǔn),導(dǎo)致在全國甚至全世界范圍的電子病歷無法進(jìn)入統(tǒng)一的電子病歷系統(tǒng),妨礙了大規(guī)模統(tǒng)一數(shù)據(jù)信息的提取,需要盡快解決標(biāo)準(zhǔn)問題。
在統(tǒng)一了標(biāo)準(zhǔn)的基礎(chǔ)上,要解決數(shù)據(jù)的實(shí)時計(jì)算概率問題,以便系統(tǒng)能夠達(dá)到真實(shí)、實(shí)時預(yù)警的效果。
參考文獻(xiàn):
[1]薛萬國.XML與電子病歷.國外醫(yī)學(xué)醫(yī)院管理,2002,1:33-34.
[2][荷蘭]J. H. Van Bemmel,[美國]M.A.Musen主編. 包含飛,鄭學(xué)侃主譯.醫(yī)學(xué)信息學(xué),第1版.上海:上海科學(xué)技術(shù)出版社,2002,100.
[3][荷蘭]J. H. Van Bemmel,[美國]M.A.Musen主編. 包含飛,鄭學(xué)侃主譯.醫(yī)學(xué)信息學(xué),第1版.上海:上海科學(xué)技術(shù)出版社,2002,435.
[4] [荷蘭]J. H. Van Bemmel,[美國]M.A.Musen主編. 包含飛,鄭學(xué)侃主譯.醫(yī)學(xué)信息學(xué),第1版.上海:上海科學(xué)技術(shù)出版社,2002,263.
[5]劉克新,李英,高艷華等.網(wǎng)上病歷的質(zhì)量現(xiàn)狀分析.中國醫(yī)院管理,2003,1:37-38.
[6] [美國]Jamie MacLennan,[美]Data Mining with SQL Server 2005.
[7] 陳曉美,王樹明,李德昌.基于數(shù)據(jù)倉庫的高校教師疾病預(yù)警模式研究.情報(bào)科學(xué),Vol. 23,No. 7,July, 2005.
四川省教育廳青年項(xiàng)目,項(xiàng)目編號:2006B095
注:“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。”