張志彬
(中國人民解放軍陸軍第八十二集團軍醫院,河北 保定 071000)
隨著社會快速發展逐漸步入數字信息化的新時代,計算機信息化技術逐漸進入我們的生產生活之中,對于復雜多變的醫院信息管理工作也同樣需要引入計算機技術的輔助進行信息管理工作,通過引入計算機信息管理技術可以大大提高醫院信息化管理工作的執行效率,同時提高醫院信息化管理的水平。如文獻[1]中采用引入計算機數據倉庫技術進行決策分析,但是不能合理對醫療數據進行合理應用[1];在文獻[2]中通過云存儲技術對信息進行管理,但是沒有建立一個完整的管理方案[2];在文獻[3]介紹了對計算機信息管理系統的維護進行分析,但是僅對維護方面提出方案,無法使醫療信息管理更高效的應用[3]。
針對于上述文獻對醫院信息管理技術改進的不足,本文設計了一種醫院信息管理系統,并針對與醫院信息數據采用數據挖掘技術對醫院管理信息進行處理。下文是針對于醫院信息管理方案進行設計一種管理系統和對醫院信息進行數據挖掘的詳細論述[4]。
由于在醫院信息管理系統中不但包含整個醫院的與企業信息管理相類似的管理信息,同時還包含以患者信息為主進行的教學、科研以及整個治療過程的相關數據。在實際的醫院信息管理系統的設計中,對系統設計的需求主要是提高醫療水平、加強企業事務管理、提高整體的醫療服務質量以及增加醫院經濟效益[5-6]。其中對于信息管理系統所需要達成的目標如圖1所示。

圖1 信息管理需求目標
如圖1所示,由于醫院是一個特殊的環境,需要7天/24小時穩定提供服務的系統,以此需要絕對安全可靠性;由于醫院是一個多部門協調合作完成的工作,需要能夠提供穩定的聯機事務處理的能力。
為實現對醫院信息進行管理,需要對醫院進行業務的流程進行了解,如在醫院中看病進行的過程中,有著一定的操作流程,通過這個流程在各個部門中進行不同的操作,來完成具體的診斷和治療[7-8]。其醫院的業務的流程圖如圖2所示。

圖2 業務流程圖
如圖2所示,患者首先需要在掛號處進行排隊掛號,通過所掛號碼在需要診斷的門診科室由門診醫生進行診斷,如果病情很輕,很容易診斷,可以直接繳費、領藥后就可以出院了;但是如果病情比較復雜或嚴重就需要醫技科室對患者進行驗血等檢驗,通過簡易結果對其再進行診斷,分析其是否需要住院治療,通過這一套流程實現對患者疾病的檢驗[9]。
本文設計的信息管理系統不但包含常規企業的人事、財務等信息,更包含每一個患者之前的病歷、本次患病情況、治療方案、用藥情況以及主治醫師等信息,其中以醫院中各個不同部門工作進行分類所產生的醫院信息管理系統的數據流向圖如圖3所示。

圖3 醫院信息流向圖
如圖3所示,本文設計的醫院信息管理系統是為了實現完成對病人病歷信息的多層次的管理。門診管理主要管理進行治療相關的信息,其中包含的病歷、治療方案、檢查報告等信息較多;住院管理主要是對床位安排、護士人員安排以及相關收費等信息;藥品管理主要對醫院中各種藥品的使用情況、剩余情況以及采購情況等信息;財務管理是對醫院的每筆藥品和器材采購、每個患者的繳費情況以及每筆支出與收入信息記入系統;院長決策是對醫院的決策信息進行記錄;系統維護主要是對醫生護士等人員對該系統權限開放問題、信息的備份、維護以及配合醫生對病人數據進行查詢等相關問題[10-11]。本文設計的醫院信息管理系統軟件設計采用C/S三層結構,其結構如4所示。
如圖4所示,本文設計的事務管理系統結構采用三層C/S結構,其將管理系統的功能分成了表示層、功能層以及數據層三部分組成[12]。表示層主要安裝在用戶端,其主要特點是操作簡單,方便用戶的使用,用戶通過該端口封裝好的操作對底層數據和應用進行操作;功能層是應用的主體,在該處完成應用的邏輯,用戶的操作權限等功能都需要在該處實現;數據層是主要為DBMS,主要負責完成對數據庫的增刪改查,其通過功能層調用設計好的SQL語句對數據庫進行操作[13-14]。

圖4 信息管理系統C/S三層結構
隨著信息技術的發展,醫院信息管理系統中包含著大量的有用數據,其中就包含患者的檢查信息、治療方案及治療結果、藥物的使用等信息。主治醫生通過從病人以往的病歷入手,以病情發展順序進行查詢,通過對病情發展研究,對這個病人設計更具有針對性的治療方案;也可以通過對某種病癥為依據進行查詢,通過對醫院歷史上病人的病征、治療方案以及治療結果等數據進行研究[15-16]。
本文采用關聯法則算法和分類算法對醫院系統中的數據進行分析,其中針對于(1)建立疾病、處方和藥品的聯系,以此來對藥房藥品進行合理的排放;(2)通過全年各種藥品的使用情況,合理的選擇各種藥品的采購數據;(3)使檢查結果與治療方案建立聯系,提高醫生診治病人的效率和質量;(4)對單一病種的處方用藥信息進行分析,提高對單一病種的治療合理性等方向進行研究,可大大提高醫院管理和治療的效率。
為研究醫院信息之間的關系,本文通過關聯法則算法對醫院信息管理信息進行分析,從中發現醫院信息間的關聯性,建立醫院信息管理數據關系網,在醫院信息管理的信息數據量非常大,各種屬性豐富,在經過關聯法則算法進行計算后可以給出準確度高的預測和建議。其中在進行關聯法則進行數據挖掘時常采用Apriori算法來進行分析,其擁有運行簡單、使用方便等優點,但是Apriori算法同時也存在著一些問題:第一點是Apriori算法在進行運算時需要頻繁的對數據庫進行掃描;第二點是Apriori算法運算過程中會出現大量的候選項集,同時會出現多次檢查同一項集的現象。針對于上述兩項不足,本文提出增加標識和剪枝兩種改進方案[17]。
針對于該算法需要進行頻繁掃描數據庫的問題,本文采用對計算中產生的項集增加標識的方法減小對數據庫中數據進行掃描的次數。當算法需要進行計算支持度的時候對項集增加0、1標識,其中不包含此項集的標識為0,包含此項集的標識為1,這樣在對信息進行掃描時就可以先判斷其標志是否為1來判斷是否需要掃描,再對需要掃描的數據進行掃描[18]。針對于算法運算時出現大量候選項集的問題本文通過剪枝的方式進行解決。在算法進行計算中,其中頻繁項集的子集同樣也是頻繁的(其中不包含空集),在算法計算過程中,通過刪除掉頻繁項集中的頻繁項集的子集就可以大大減小該項集所包含元素數量,提高反映速度。其算法運行所需的偽代碼如下所示。
算法:改進Apriori
輸入:數據庫D,最小值初度閾值min_sup。
輸出:Result=中的頻繁項集
Result:={ };
for(x=1;x≤|DB|;x++)
begin
設項集為{a1,…,an}
for(y=1,y≤n,y++)
begin//進行判定
ifay首次出現,計數器cnt=0;
ay歸為Result;
continue;
else
cnt++;
end:
ifcnt=min_sup then
Result:=Result∪{ay};
end;
end;
如圖5所示,采用循環操作來實現算法的運行,直到沒下新的項集產生。首先算法讀取數據庫的第一項的數據,生成項集并把所用可能產生的所用組合形式標志為1;然后進行讀取下一項的數據,進行標識其可能的組合,組合里面為k-項集。若無k-項集標示為1,略過標識過的k-項集,若k-項集出現卻小于最小支持度閾值就在支持度技術加1。循環上述步驟就是算法的運行過程。

圖5 初步決策樹算法示意圖
分類算法就是通過建立合適的對醫院信息數據進行分類的標準來實現的,通過判斷不同標準使不同信息分入不同的類別之中[19]。在分類算法中常使用決策樹算法來對數據進行分析,但是常規的決策樹算法針對新增加的數據處理能力很差,為解決該問題,本文通過引入概率統計學中的貝葉斯分類方法來實現增量決策樹算法。
在增量決策樹算法中首先將醫院數據樣本分離成n個小數據樣本,這些小數據樣本在決策樹生成結點,決策樹通過把產生的節點分成普通葉結點和貝葉斯結點兩點兩種來進行劃分。其中進行產生決策的初步決策樹算法示意圖如圖5所示。
如圖5所示,通過將此種決策樹算法與貝葉斯分類相結合可以得到新產生的增量決策樹算法。在增量決策樹算法進行增量學習的兩個階段是產生初步決策樹和在初步決策樹上進行學習[20]。其中進行的增量決策樹算法的偽代碼如下所示。
算法:增量決策樹算法
輸入:決策樹T1,新增樣本b。
輸出:決策樹T
決策樹T1與新增樣本b進行匹配得到葉結點M;
{if 葉結點M為貝葉斯結點,
則新增樣本b修正貝葉斯結點參數,
返回決策樹更新為T2。
{if 葉結點為普通葉結點:
新增樣本b與該節點分類相同返回決策樹T1,
新增樣本b與該節點分類不同,
比較該節點貝葉斯分類準確率F1和決策樹分類準確率F2。
{ifF1>F2,本節點更改為貝葉斯結點,
返回T,反之返回T1}}}
增量決策樹算法的流程示意圖如6所示。
如圖6所示,第二個階段中出現新的訓練樣本,此算法會將數據書中的屬性與新的數據樣本匹配,在葉結點處結束匹配。如果到達普通葉結點,判斷是否分類錯誤。如果進行分類時發生分類錯誤就進行對比貝葉斯分類和決策樹分類的準確率,若貝葉斯分類準確率高則把該節點轉換為貝葉斯結點,分類正確則不變。如果到達貝葉斯結點,通過樣本修正貝葉斯參數。通過遞歸的方式不斷建立決策樹,可以修改貝葉斯參數或者增加貝葉斯結點,從而實現在數據樣本中的增量學習。

圖6 增量決策樹算法
為了驗證本文設計的進行醫院信息管理系統對于數據挖掘技術研究的優越性,針對于兩個方面分別設計了模擬仿真實驗[21]。在本次實驗中采用進行模擬試驗分析環境的參數設置為:選用Windows 10作為操作系統平臺,設置計算機內存為8 G,Intel Xeon W-2145 CPU 3.70 GHz,其中模擬仿真的數據庫數據采用仿真醫院檔案數據,試驗軟件為數據挖掘工具懷卡托智能分析環境(weka)。
為了說明改進Apriori算法在相關規則算法中的高效性,特設計本對比試驗,對比對象為Apriori算法,通過使用兩個算法來處理相同的醫院信息數據得出試驗數據,分析數據得出實驗結論。首先在數據挖掘工具懷卡托智能分析環境(weka)中置入Apriori算法和改進Apriori算法,其次從數據庫中提取醫院信息數據并從并分為五組,數據量分別為1 000,5 000,10 000,50 000,100 000。最后通過weka分別使用兩種算法對五組數據進行數據挖掘,得出實驗數據,其算法耗費時間統計圖如圖7所示。

圖7 算法耗費時間統計圖
由圖7可知,在醫院信息處理上改進Apriori算法處理時間比Apriori算法處理時間減少了90%。為表明改進Apriori算法的剪枝作用統計實驗中剪枝前后對比如表1所示。

表1 剪枝前后數據統計表
由表1可知改進Apriori算法剪枝的效果非常明顯,可以有效地減少對數據庫的掃描,以免造成不必要的算法操作。通過相關規則算法試驗過程可以得出結論,使用改進Apriori算法在醫院信息管理中進行數據挖掘能夠極大的提升醫院信息的處理效率。
為了驗證本文改進的增量決策樹算法在進行分類算法中的高效性,特設計進行對比實驗,本次對比實驗中的對比對象為常見的分類算法ID3算法和C4.5算法,通過使用3個算法在相同條件下處理相同的醫院信息數據得出實驗數據,分析實驗數據得出實驗結論[22]。首先在數據挖掘工具懷卡托智能分析環境(weka)中置入新型增量決策樹算法、ID3算法和C4.5算法3種算法,其次從數據庫中提取醫院信息數據并從并分為5組,醫院信息數據表如表2所示。

表2 醫院信息數據表
首先用3種算法分別進行不含增量學習的處理的結果如表3和表4所示,進行增量學習的處理的結果如表5和表6所示。其中新型增量決策樹算法簡寫為ZD。

表3 非增量分類算法準確率統計表

表4 非增量分類算法耗時統計表

表5 增量分類算法耗時統計表

表6 增量分類算法準確率統計表
由表3和表4可知,在處理不含增量學習的數據集時,新型增量決策樹算法、ID3算法和C4.5算法3種算法在耗時上相差不大,但是在分類的準確率上新型增量決策樹算法明顯優于另外兩個算法,新型增量決策樹算法的分類準確率比C4.5算法約高3%,比ID3算法約高6%。
由表5和表6可知,在處理含增量學習的數據集時,新型增量決策樹算法的耗時比ID3算法和C4.5算法少60%以上,準確率比C4.5算法約高6%,比ID3算法約高8%。
通過分類算法實驗過程可以得出結論,使用新型決策樹算法在醫院信息管理中心進行數據挖掘可以大幅度提升醫院信息數據的分類效率,新型增量決策樹算法分類的準確率比C4.5算法和ID3算法高5%以上,并且在進行增量學習中耗時是C4.5算法和ID3算法的40%以下。使用新型決策樹算法作為數據挖掘中的分類算法可以使醫院信息管理的準確率大幅提升。
為了解決醫院信息管理中人力耗費大、數據關系網不全面、數據調取緩慢等問題,本文通過改進一種醫院信息管理系統,并將數據挖掘技術應用到醫院信息管理中,利用數據挖掘技術模塊對醫院信息進行分類、處理、管理等應用。使醫院信息管理更加高效,建立醫院信息數據關系網,減少了人力的投入[23]。雖然本研究有一定的技術創新性,但是仍舊存在很多不足,比如改進Apriori算法的穩定性,系統對該算法的兼容性等,都是要研究的課題,這需要進一步的探索和研究。