李榮華 張燕 黃俊 黃程成 莫盡友
摘要:隨著醫院信息系統(HIS)在全國各大醫院的推廣和應用,會有大量和病人相關的臨床數據每天在醫院中記錄,而這些真實的數據隨著規模積累的增加,存在著對病人和醫生來說潛在、有價值的信息作用也會越來越大。本文會根據醫院信息系統(HIS),通過決策樹算法,針對疾病診斷的影響因子進行預測分析,得出一個有效幫助診斷的分析模型,通過一段時間論證分析,該模型會在臨床應用中有一定的指導作用。
關鍵詞:數據挖掘;疾病分類;醫療大數據;決策樹算法
中圖分類號:TP391.5 文獻標識碼:A
文章編號:1009-3044(2019)011-0004-02
1 引言
在醫療行業,隨著醫院信息系統 (HIS) 在全國各大醫院的逐步推廣和應用,醫院每天產生大量與患者相關的臨床數據, 這些數據的規模越來越大[1],而在這些真實的數據中有很多潛在的和有價值的信息,為患者和醫生。
有效利用這些真實的臨床數據,尋找一些有價值的規律和信息,對于患者的治療和醫生的診斷是非常重要的。它不僅可以有效地輔助醫生的診斷、決策和治療,而且可以提高醫生的工作效率,從而提高醫院醫療服務的質量和競爭。個人健康數據、醫療數據、人口健康數據。在個人健康數據方面,數據源主要是傳感器信息和在線信息。使用個人疾病數據可以幫助用戶更容易地實現健康管理和疾病管理。處理個人飲食和運動數據可以幫助用戶直觀地了解他們的身體狀況,并幫助他們保持健康。在醫學數據方面,數據源主要是醫學研究數據和電子案例數據。醫生無法跟上從這些數據中發現新的醫學知識并將其用于治療病人的速度, 而醫學可視化將為醫生提供直觀地理解新知識的機會。人口健康數據和疾病監測數據可以幫助用戶了解人口的健康狀況和疾病爆發狀態通過可視化技術 。
總之,如何有效地利用這些真實的臨床數據,并從中發現一些對病人治療和醫生診斷有價值的規律和信息十分關鍵,也是當前醫學信息處理研究中一個亟待解決的難題。上述問題的解決不僅能有效地輔助醫生診斷、決策和治療,提高醫生的工作效率,進而提高醫院的醫療服務質量和競爭力。
2 相關內容簡介
2.1研究背景
傳統醫生在診斷疾病預先通過對病人的基本情況的了解,包括病人年齡、狀態及一些基本的身體數據。然后根據以往的經驗對病人的病況進行分析并得出病人所患病型,然后對病人進行治療。若根據這些醫生仍然不能得出病況,或者病人在醫生初步治療后仍無明顯好轉,則需要讓病人借助各種醫學儀器及影像檢驗從而產生跟家準確詳細的數據然后醫生利用這些數據并根據自己的經驗及醫學知識診斷出病人的病情并開出相應的藥物。在這個工作過程的中,醫生的大腦就相當于一個計算機,而醫生做出的判斷則相當于一系列算法及數據挖掘得出的結論。然而人腦的工作效率遠不能和計算機相比,且只要計算機采用的算法足夠好,人腦的計算準確率也不遠低于計算機處理的準確率。因此,傳統醫生的診斷方法在現在看來已經具有一定的局限性,若能將這些病人的數據都交由計算機處理并結合醫生的醫學知識得出最后的病人的病情,這樣便大大增加了醫生的工作效率及診斷準確率。
若醫院已經建立并投入使用醫療大數據挖掘分析系統,將患者的所有數據錄入大數據系統,醫生在診斷疾病和給出治療方案時,因為大數據系統的數據來自各種各樣,成千上萬或上百萬上千萬的病人,醫生即可以通過決策樹、K-鄰近等數據挖掘分析算法,獲得類似癥狀或疾病機理,病因以及治療方法,醫生就可以有更好更高的把握將疾病診斷和治療。
2.2決策樹算法簡介
決策樹算法是數據挖掘技術中一種常用的分類預測方法 .該算法以研究對象的屬性為基礎,根據信息論的原理,通過多次遞歸的方式選擇信息增益量最大的屬性來作為決策樹的當前節點(即最佳節點),在決策樹的構建中,已經使用過的屬性在決策樹不能再作為節點來使用,即研究對象的每個屬性在決策樹種當且僅當出現有一次。在構建決議計劃樹的進程中,遞歸進程有三種終止情形[2]:
當前節點對應的所有研究對象都屬于同一類別。
沒有剩余屬性被用來進一步對當前研究對象進行分類。
對應于當前節點的屬性值的研究對象數為 0。
目前建立決策樹的主要算法有 ID3 、 C4.5/car 等方法。ID3 學習算法是基于信息熵的下降和熟悉度 (也稱為信息不確定性) 作為選擇測試的標準 。C4.5 算法是由昆蘭自己提出的擴大算法[3],是對算法的改良。C4.5 算法在收到新的訓練示例后更新決策樹。分類回歸樹車是典型的二叉樹,主要用于分類研究。連續變量和分類變量可以同時處理 。
2.3研究方法
2.3.1 研究過程
構建一個分類預測模型來解決實際的胸痛待診問題。該模型由三個子模塊組成:第一個子模塊主要作用是收集患者的基本信息數據(包括人口學資料、臨床發病癥狀、危險因素、既往病史)。第二個子模塊是分類算法-K 近鄰和決策樹兩種常用的數據挖掘。通過算法進行比較而得出適合與某一疾病的最優算法,從而提高模型的整體性能。通過病人在醫院的醫治方案、并發癥、用藥得到的數據來預測病人出院后會不會發生嚴重的不良反應。模型預測流程圖如圖1所示。
1) 預處理數據,如清洗、校正和缺失值填充;
2) 根據病人信息建筑決策樹。添加病人檢驗檢測數據,用LASSO(Least absolute shrinkage and selection operator, LASSO)算法篩選特征向量為接下來建模做準備[4];3) 構建了主動脈夾層分類的子模型 (包括 K 近鄰、決策樹兩種分類算法);
4)比較兩種分類算法,得到最適合主動脈夾層分類的算法模型;
5)在醫院添加治療數據后,采用 LASSO 算法對特征向量進行篩選,建立患者出院恢復狀態的子模型。
2.3.1數據準備
本文所使用的數據來自醫院體檢系統的經驗報告數據。在對疾病診斷數據進行匯總和數據泛化分析后,將疾病診斷數據進行匯總,并采用概念層次結構將低級 “原始” 數據替換為高級概念。分析處理后數據主要包含15共15種疾病診斷,總共有6131個體檢報告實例,我們把每個實例的體檢項目作為這些實例的屬性,共有261個檢查項目如表1所示。
2.3.2分類方法
根據每個屬性的不同值的數量,屬性按降序排列。其結果如下(每個屬性的不同值數目在括號中):疾病診斷分類(17)、檢查項目(261)、檢查項目明細(3602)。根據排列順序,層從上到下生成,第一個是熟悉頂層 ,最后一個屬性是在底層[5]。結果分析如圖2所示。最后,用戶可以檢查結果分層,如果需要,修改它以反映所需屬性滿足的連接。在這個例子中,顯然不需要修改產生的分層。
對于單列屬性的二進制拆分,選擇最小的 gtil 作為屬性列的合理劃分。而選擇作為節點的屬性列也要根據最小的Gini指標判斷,其中Gini指標是一種不等性的度量,可以用來度量任何不均勻分布,是介于0-1之間的數;下面的算法根據 Gini 指標實現二進制拆分時,選擇屬性項的真正子集。通過系統計算出各個屬性值分布和總樣本中各個屬性取值分,得出相應的治療意見,如針對本肥胖病人的治療選擇,根據訓練樣本中肥胖病人的檢查情況,發現需要治療的數量小于不需要治療的數量;需要進一步檢查的數量大于不應進一步檢查的數量。經計算機預測的結果由總督察協助提供更合理的治療意見 。
3 總結
3.1要解決的主要問題
3.1.1如何從大量的積累數據中得到有意義的信息
醫院電子病歷 EMRs (電子病歷) 有更多的數據類型 ,免費文本記錄從病人測試報告到電子病程[7], 這些數據構成了構建分類預測模型所需的變量。病人住院期間所積累的數據信息量大,需要從大量的積累數據中去除噪聲數據[8]以及對缺失值進行適當的處理,得到有意義的信息。
3.1.2如何選擇許多特征變量
由于不同的疾病對應的危險因素不同,所以不能對整體數據集應用特征變量選擇方法來篩選特征向量,而是選擇出具體某一種疾病的對應的重要特征來建立針對該疾病的分類模型。
對特征變量進行降維的方法有很多。其中嶺回歸和LASSO分析是最可用的。
3.1.2如何處理樣本不均衡問題
例如,對于非創傷性胸痛疾病,主要類別是急性心肌梗死、心絞痛、主動脈夾層等。不同類別的樣本量存在較大差異,數據不平衡導致模型分類預測的偏差。
針對具體疾病,如何對多種分類算法進行比較并選出合適的算法 。
數據挖掘技術中的分類算法有 K 近鄰、樸素貝葉斯、支持向量機、決策樹、隨機森林等。每種分類算法的優缺點不同,適應的數據類型也不同。針對具體疾病,每種分類算法表現各不相同。分類猜測模子評價指數成果的優勢直接影響算法的選擇。
3.2結論與展望
本文根據醫院HIS數據,通過決策樹算法,針對疾病診斷的影響因子進行分析預測,提出一個有效的輔助診斷分析模型,經過時間論證分析,該模型在臨床應用上有一定的指導作用。今后,有必要對 HIS 中包含的醫學數據進行深入的研究, 并應用決議計劃樹剖析算法構建醫學數據卷的聯系關系規矩,樹立了完美的數據剖析平臺。
參考文獻:
[1]李奮華, 趙潤林. 基于數據挖掘的疾病預測模型的構建與分析[J]. 現代計算機, 2016(18):14-17.
[2] 滕皓, 趙國毅, 韓保勝. 改進決策樹的研究[J]. 濟南大學學報(自然科學版), 2002, 16(3):231-233.
[3] 劉承啟, 黃學堅, 徐健鋒,等. 基于決策樹和粗糙集的高分辨率短時臨近雷電預報模型[J]. 南昌大學學報(理科版), 2014(6):559-563.
[4] 趙紫奉, 李韶斌, 孔抗美. 基于決策樹算法的疾病診斷分析[J]. 中國衛生信息管理雜志, 2011, 08(5):67-69.
[5] 萬曉莉. 數據挖掘中的分類和預測及其在決策支持系統中的應用研究[D]. 西南交通大學, 2003.
[6] 馬麗, 陳桂芬. 基于數據挖掘的決策樹算法應用研究[J]. 農業網絡信息, 2008(11):45-47.
[7] 鄭西川, 孫宇, 陳霆,等. 基于醫療大數據分析的臨床電子病歷智能化研究[J]. 中國數字醫學, 2016, 11(11):61-64.
[8] 馬秀紅, 宋建社, 董晟飛. 數據挖掘中決策樹的探討[J]. 計算機工程與應用, 2004, 40(1):185-185.
【通聯編輯:聞翔軍】