前沿:
近二十余年來,隨著我國衛計委對醫療信息化水平的要求越來越高,國內很多醫院建立了自己的信息系統[1]。醫院決策層每天面對這些海量的醫療數據,如何能夠將隱藏在后面的有效信息挖掘、展現出來以輔助管理決策,早已成為了一個急需解決的問題。為了將信息系統中的有價值信息運用到實際運用中來,數據挖掘(Data Mining)技術應運而生[2]。
隨我國國民生活水平的提高,國民飲食結構的不合理性、工作壓力大、生活節奏快,導致腦卒中的病人越來越多,甚至逐漸表現出年輕化趨勢。影響偏癱疾病預后的因素多種多樣,通過數據挖掘技術發現影響偏癱疾病的結構化數據的主要指標以及各指標間的關聯關系對診治偏癱疾病具有重要的意義。
1 數據來源
本文通過一家康復醫院中時間跨度為 2017年1月—2017年12月的診斷為腦卒中的出院病人的信息系統中的結構化病例數據,通過刪除了不含有偏癱相關診斷、康復治療非為0的記錄,共得到2020條記錄。
2 數據預處理
通過刪除缺失數據(刪除關鍵變量如診斷、轉歸、康復治療費用為空的記錄)、 噪聲處理(一些重復性數據,以及治療后退費、入院后當天又退院等情況的數據,予以忽略不計)、缺省值的處理(非關鍵變量的值缺省,予以忽略不計)、邏輯錯誤數據的處理(包含出院年齡小于入院年齡、出院日期小于入院日期等邏輯錯誤的記錄,予以清除不計)、數據變換即數據歸一化措施,得到了樣本數據。
樣本數據中含有以下30余個指標,分別為性別、年齡、婚姻狀態、入院護理級別、入院病情級別、入院白細胞、入院血沉、入院乳糜微粒、入院極低密度脂蛋白、低密度脂蛋白、入院高密度脂蛋白、入院血小板計數、入院凝血酶原、入院活化部分凝血活酶時間、入院纖維蛋白原、入院凝血酶原激活時間、入院ADL評分得分、輸液藥品(非溶質)、口服藥品、入院頭顱CT值、入院頭顱核磁值、出院白細胞值、出院血生化、出院入院血小板計數、出院凝血酶原、出院活化部分凝血活酶時間、出院纖維蛋白原、出院凝血酶原激活時間、出院乳糜微粒、出院極低密度脂蛋白、出院低密度脂蛋白、出院高密度脂蛋白、出院頭顱CT值、出院頭顱核磁值、出院護理級別、出院病情、住院時間長度、出院ADL評分得分等。
3 實驗研究
3.1 PCA降維研究
對上述經歸一和分組后的數據進行特征提取,以Anaconda為實驗平臺,以Python3.7、Microsoft Office 2010為工具進行了研究。
通過PCA數據降維,從具有27個特征的本數據中提取到了4個主要指標,實現了11:1。關鍵指標特征及貢獻率:
3.2 基于Apriori算法研究
上述4個指標(入院CT、入院APTT、入院ADL、入院LDL)數據經離散化處理后,進行基于Apriori算法的關聯規則研究,實驗得到10條關聯規則。經醫療人員無意義實際應用意義的關聯規則后,得到了2個主要關聯規則:A關聯規則(入院CT-入院APTT-入院ADL)、B關聯規則(入院CT-入院LDL-入院ADL)。該2條關聯規則的意義是當入院CT和入院APTT的值、入院CT和入院LDL的值分別在一定范圍內(本文不再說明具體研究數據)時,將會導致入院ADL某值的發生。
3.3 研究意義
入院腦CT是診斷偏癱和推測偏癱病情的主要檢查技術;入院ADL值是判定衡量入院時生活自理能力和反映患者綜合性病情的主要指標;部分活化凝血活酶時間(APTT)是用于監控腦卒中病人的出血和凝血情況;低密度脂蛋白(LDL)是導致相關心腦血管硬化、出血、閉塞等疾病的高危因素。
本研究表明,腦CT和部分活化凝血活酶時間(或低密度脂蛋白)是影響病人預后、反映病人腦血管病情的主要指標。
3 總結
因信息系統中的諸多信息數據是非結構化的,如吸煙史、便秘史、既往腦血管病史、自立情況、康復治療配合情況等仍是非結構化的,本人無法直接獲取相關數據,從而導致本研究納入的影響因子指標體系仍不夠全面。本人希望在今后的研究中能夠有結構化更全面的數據。
參考文獻
[1]張承江.醫學數據倉庫與數據挖掘.中國中醫藥出版社,2008.
[2]苗苗苗. 數據挖掘中海量數據處理算法的研究與實現 [D]. 西安: 西安建筑科技大學, 2012.
作者簡介:劉春玲,女,漢族,1984年2月出生,作者單位北方工業大學;研究方向數據挖掘。