□ 王美艷 WANG Mei-yan 蔡建利 CAI Jian-li 劉麗娟 LIU Li-juan 姚敏 YAO Min 沈志昊 SHEN Zhi-hao 朱昊旭 ZHU Hao-xu
Medical records information is the important information of the hospital. Strengthening the utilization of medical records information can evaluate the diagnosis and treatment effect and prognosis of patients, and effectively improve the medical quality and comprehensive management level of the hospital. This paper focused on the application and practice of data mining of medical records information, analyzed the related contents of medical records information management and data mining technology, discussed the application of data mining technology in the extraction and analysis of medical record information, analyzed the influencing factors of recurrence of liver cancer patients by combining data mining of association rules, and discussed its application effect, so as to provide reference for medical record information mining and effective utilization.
隨著醫(yī)院就診信息的增加,對病案信息記錄和整理也提出了更高的要求,國內(nèi)大多數(shù)醫(yī)院均陸續(xù)開發(fā)了自己的醫(yī)院信息系統(tǒng)(hospital information system, HIS)以滿足對大量病案信息的妥善儲存,然而HIS 系統(tǒng)僅能實現(xiàn)對患者病案的各類信息進行記錄、儲存、查閱、簡單統(tǒng)計分析,缺少對信息數(shù)據(jù)的深度挖掘,不能對患者復(fù)雜多樣的疾病就診信息進行綜合分析并為臨床醫(yī)師和相關(guān)管理人員提供有用的數(shù)據(jù)支持,導(dǎo)致該系統(tǒng)對病案信息的利用管理效率較低[2]。數(shù)據(jù)挖掘技術(shù)是一種可對數(shù)據(jù)進行深度挖掘與利用的有效技術(shù),可通過對大量原始病案信息進行抽取、分析,從中提取隱含的、潛在有用的關(guān)鍵性信息和知識,實現(xiàn)醫(yī)療工作的高效處理和決策[3]。因此,本院積極引進數(shù)據(jù)挖掘技術(shù),通過數(shù)據(jù)挖掘技術(shù)來加強病案信息管理、強化醫(yī)療質(zhì)量。
醫(yī)院的病案信息主要是由患者診療過程中獲得,包括患者個人信息、與醫(yī)師的談話記錄、實驗室檢查數(shù)據(jù)、影像圖片與數(shù)據(jù)、醫(yī)囑信息等,具有種類多樣、數(shù)量大、不完整性、冗余性和隱私性的特點[4]。病案信息管理,采用科學(xué)化的方法,全面收集醫(yī)療實施過程中生成的病案相關(guān)資料,并進行檢查、整理、存儲,以便于病案信息在管理、醫(yī)療、科研、教學(xué)等方面均得到充分的利用,發(fā)揮其重要作用。其主要的目的在于對醫(yī)院患者的病歷信息進行一系列的整理,保證當(dāng)有病歷調(diào)閱需求的時候,可準確且迅速找到對應(yīng)病案,充分利用病案資源[5]。
醫(yī)院病案信息管理存在的問題。隨著現(xiàn)階段醫(yī)療事業(yè)迅猛發(fā)展,醫(yī)院管理系統(tǒng)中醫(yī)療信息數(shù)據(jù)也在不斷增加,相關(guān)信息和數(shù)據(jù)的查找及分析過程也變得更加繁冗,查詢速度和準確度遠不能滿足高效率的醫(yī)療工作需求。目前,醫(yī)院日常運行對于信息化技術(shù)的依賴程度越來越高,然而,這種系統(tǒng)往往采用的是傳統(tǒng)的數(shù)據(jù)庫類型,隨著數(shù)據(jù)量的持續(xù)增加,數(shù)據(jù)和信息處理過程中,為達到數(shù)據(jù)庫處理速度相關(guān)要求,可能導(dǎo)致歷史數(shù)據(jù)脫離實時處理系統(tǒng),存儲于備份數(shù)據(jù)庫,影響實時在線查詢,不能很好地為臨床醫(yī)務(wù)人員和管理者提供參考。同時,由于現(xiàn)階段醫(yī)院管理系統(tǒng)中存在著海量的病案數(shù)據(jù),對于不同數(shù)據(jù)在不同事件中的作用,數(shù)據(jù)處理過程也呈現(xiàn)多樣化特點,導(dǎo)致數(shù)據(jù)需求不能被及時滿足。
1.數(shù)據(jù)挖掘技術(shù)的定義與特點。數(shù)據(jù)挖掘技術(shù)即通過相關(guān)算法從大量數(shù)據(jù)挖掘出所需信息,并實現(xiàn)對其利用的技術(shù)[6]。數(shù)據(jù)挖掘技術(shù)的有效應(yīng)用,不但可直接處理海量數(shù)據(jù)信息,同時能夠有效幫助實現(xiàn)所需數(shù)據(jù)快速準確搜尋,基于數(shù)據(jù)挖掘手段,得到數(shù)據(jù)間存在的規(guī)律,以此實現(xiàn)信息傳遞[7]。數(shù)據(jù)挖掘技術(shù)已在金融、通訊、交通、零售、醫(yī)療等各大領(lǐng)域中進行廣泛應(yīng)用。
2.數(shù)據(jù)挖掘技術(shù)的方法與流程。根據(jù)數(shù)據(jù)挖掘角度的不同,可將其大致分為:聚類、分類、回歸、偏差、特征分析以及關(guān)聯(lián)規(guī)則六類[8]。該六大類數(shù)據(jù)挖掘方法在病案信息管理方面均具有較好的應(yīng)用價值。例如,分類分析可將某種疾病類型患者依照其地區(qū)進行分類,總結(jié)疾病是否存在地域分布規(guī)律,再進一步發(fā)掘該疾病的患病原因與地域的關(guān)系,探索疾病原因等。又比如,利用數(shù)據(jù)挖掘技術(shù)的偏差分析可對醫(yī)院預(yù)約掛號的病案信息進行挖掘分析,若出現(xiàn)預(yù)約率與就診率之間存在較大偏差,可分析其中原因,并采取針對性解決措施,提高就診率。
數(shù)據(jù)挖掘流程在整個設(shè)計中發(fā)揮關(guān)鍵性作用,通常情況下需要經(jīng)過數(shù)據(jù)選擇、數(shù)據(jù)準備等六個階段[9-10],并且在實際的應(yīng)用過程中為了獲得更好的挖掘效果,可重復(fù)進行其中的某些步驟,依據(jù)挖掘結(jié)果決定是否開始下一個任務(wù)。數(shù)據(jù)挖掘的主要流程見圖1。

圖1 數(shù)據(jù)挖掘的流程
1.醫(yī)院病案信息管理系統(tǒng)構(gòu)建。由系統(tǒng)結(jié)構(gòu)圖(圖2)可知,醫(yī)院病案信息系統(tǒng)結(jié)構(gòu)被分為數(shù)據(jù)層、業(yè)務(wù)邏輯層、功能表現(xiàn)層,其中數(shù)據(jù)層中可完成數(shù)據(jù)訪問接口管理;業(yè)務(wù)邏輯層可實現(xiàn)業(yè)務(wù)邏輯的相關(guān)定義;功能表現(xiàn)層可基于客戶端js 代碼等來完成UI 設(shè)計與布局,多層設(shè)計綜合提高系統(tǒng)的穩(wěn)定性以及可維護性[11]。

圖2 醫(yī)院病案信息系統(tǒng)體系結(jié)構(gòu)
2.病案數(shù)據(jù)挖掘數(shù)據(jù)庫設(shè)計。依本醫(yī)院實際情況,數(shù)據(jù)主要來源于病案首頁,病案信息主題確定過程中,主要包括如下信息:患者基本信息、診療相關(guān)信息(包括疾病、檢查、手術(shù)信息等)、醫(yī)生信息、費用信息。確定好病案信息主題以后,主要通過患者、診療、醫(yī)生、住院費用四個事實表,并以此作為維度模型的基本表,進行粒度與維度設(shè)計,建立多維度邏輯模型,見圖3。

圖3 數(shù)據(jù)挖掘體系結(jié)構(gòu)
數(shù)據(jù)訪問設(shè)計。數(shù)據(jù)的訪問設(shè)計主要依靠數(shù)據(jù)挖掘工具進行,本系統(tǒng)利用SQL Server2008 數(shù)據(jù)庫中的集成環(huán)境Business Intelligence Development Studio 建立數(shù)據(jù)倉庫模型。該數(shù)據(jù)庫中,DTS 相關(guān)工具多樣,可有效進行數(shù)據(jù)的抽取、清理等工作。
醫(yī)學(xué)領(lǐng)域中,關(guān)聯(lián)分析屬于其中很重要的一項使用規(guī)則,關(guān)聯(lián)規(guī)則挖掘的本質(zhì)特點在于發(fā)現(xiàn)并總結(jié)各項醫(yī)學(xué)數(shù)據(jù)之間存在的聯(lián)系。使用關(guān)聯(lián)規(guī)則分析進行醫(yī)院病案信息挖掘時,首先需要尋找到關(guān)聯(lián)規(guī)則中存在的頻繁項集,再依照頻繁項集間產(chǎn)生強關(guān)聯(lián)規(guī)則,預(yù)測需滿足最小置信度[12-13]。
1.數(shù)據(jù)準備。本次實踐主要采用本院病案信息系統(tǒng)中肝癌病例數(shù)據(jù)3120 例,采用SQL Server 開展數(shù)據(jù)挖掘。上述病例中有2218 例未出現(xiàn)復(fù)發(fā)現(xiàn)象,而902 例后續(xù)出現(xiàn)復(fù)發(fā)。通過與臨床醫(yī)生交流以及對肝癌疾病相關(guān)知識的大量查閱,本研究選取病例性別、年齡、腫瘤部位、數(shù)目、直徑、惡性級別、放化療情況以及是否出現(xiàn)復(fù)發(fā)等作為病例屬性,通過SQL Server 建立肝癌病例數(shù)據(jù)庫表,通過數(shù)據(jù)挖掘技術(shù)尋找導(dǎo)致肝癌復(fù)發(fā)的屬性。
2.實現(xiàn)關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘。選擇既往數(shù)據(jù)表作為數(shù)據(jù)源,建立數(shù)據(jù)源視圖與挖掘結(jié)構(gòu),以數(shù)據(jù)表為事實表建立模型,生成挖掘結(jié)果。本研究采用Microsoft 的關(guān)聯(lián)規(guī)則進行數(shù)據(jù)挖掘,通過概率來直接代替置信度,利用關(guān)聯(lián)規(guī)則重要性來表示兩種病例屬性之間有無相關(guān)關(guān)聯(lián)[14]。采用算法參數(shù)設(shè)置產(chǎn)生相應(yīng)項集,得到挖掘算法規(guī)則,依概率強度、關(guān)聯(lián)重要度進行屬性重要性排序,得出各個屬性與肝癌復(fù)發(fā)的關(guān)聯(lián)性。
本次實踐通過數(shù)據(jù)挖掘得出,病患中腫瘤直徑5cm 以上占比56.86%,且達最高級惡性程度,后期這些患者復(fù)發(fā)的可能性大約為63.15%;約有45.19%的患者會有2 個腫瘤,并且年齡多在60 ~69 歲范圍區(qū)間內(nèi);約有59.28%的患者接受放化療后出現(xiàn)再次復(fù)發(fā),并且年齡大多都集中在60 ~69 歲之間。依據(jù)挖掘的數(shù)據(jù)結(jié)果可以得出:患者腫瘤直徑越大,其發(fā)生惡性腫瘤的可能性越大,且復(fù)發(fā)風(fēng)險也越大;若患者在60 ~69 歲之間,且腫瘤數(shù)目越多,接受過放化療后復(fù)發(fā)的可能性也越大。此次應(yīng)用得出的結(jié)論與目前臨床上的多數(shù)研究具有一致性[15],因此可用于指導(dǎo)臨床治療、醫(yī)院科研等工作,也證明了數(shù)據(jù)挖掘技術(shù)可被有效應(yīng)用于肝癌病案信息管理中。
綜上所述,數(shù)據(jù)挖掘技術(shù)可對醫(yī)院大量的病案信息進行抽取、轉(zhuǎn)換、分析和其他模型化處理,實現(xiàn)數(shù)據(jù)的充分挖掘與利用,醫(yī)院應(yīng)該積極引進數(shù)據(jù)挖掘技術(shù),通過挖掘技術(shù)的應(yīng)用來高效利用病案信息,加強病案信息管理,為醫(yī)療、教學(xué)、科研和醫(yī)院管理提供更好的支持與服務(wù)。