摘 要:在醫院管理中運用電子計算機技術已經是今后的必然發展趨勢。本文的主要內容在于探討了數據倉庫在醫院決策管理系統中的原理和設計等內容。
中圖分類號:文獻標識碼:A文章編號:1674-098X(2011)06(a)-0021-01
1 數據挖掘的原理
1.1 數據倉庫的特點
在論述數據挖掘技術之前,需要了解一下數據倉庫。數據倉庫是關系型數據庫的一個延伸,但是它與原有的數據庫的組織結構是不同的:數據庫中的基礎數據和綜合數據是在一個層次的,但在數據倉庫中,這兩者被分成當前基本數據、歷史基本數據、輕度綜合數據、高度綜合數據、元數據五個部分分別放在了不同層次,這種結構使得數據倉庫具有這幾種特性:面向主體性、集成性、穩定性和隨時間變化性。
1.2 數據挖掘的工作模式
數據挖掘是將信息從數據庫、數據倉庫以及其他的信息庫中按照一定的原則篩選出來,篩選出來的的數據是特定人群所需要的,也是有效的信息。簡而言之,數據挖掘的過程也就是在數據庫中發現知識的過程,即知識挖掘的過程,從大量的未加工的數據出發,發現少量有價值的數據和規律。數據挖掘系統由5個部分組成:用來存儲信息的數據庫、數據表和數據倉庫;用來提取相關數據的數據庫或數據倉庫的服務器;用來將屬性分配到不同的層面并進行查詢和提取的知識庫;用來挖掘數據的數據挖掘引擎;最后是更深次得挖掘以及結果的可視化。挖掘的數據模式指導是挖掘到要找的模式類型的數據。挖掘一般兩種形式:描述型的,在挖掘的時候通過描述性的語言來搜索數據庫中所需要的數據;預測性的,在當前的數據中進行推斷和預測。數據挖掘有6種模式:概念描述、關聯分析、分類和預測、聚類分析、孤立點的分析和演變分析。限于篇幅,本文只對其中的關聯分析進行論述。關聯分析簡而言之發現關聯規則,但是發現的這些規則表示了屬性和值在一定數據集中頻繁的出現的時候,有什么樣的條件。關聯規則的表現規則如下所示:
上述的關聯規則可以說成是 “能夠使x成立的數據大部分也能使y成立”,例如在一個數據庫中發現這樣的關聯規則:
其中的X表示的是顧客。此關聯規則表示的意思是年齡在20到29歲,年收入在2萬元到2.9萬元的人,并且喜歡購買computer的人的顧客支持度是2%,在這個年齡段可能買電腦的概率是60%,也就是它的置信度。在上面這個例子中是age、income這樣的屬性以及buys這樣的謂詞是關聯的。如果用的是多維的數據庫,則每個屬性稱為一維,類似上面的規則叫做多維關聯規則。
2 決策支持系統的設計
決策支持系統(Decision Support System,簡稱DSS),指的是在半結構化或者非結構化問題上,提供給決策者一點的參考信息的決策系統。但是它不能代替決策者所做的決定。DSS 的結構特征由模型庫、數據庫、方法庫及其各自的管理系統以及交互式計算機硬件軟件和對用戶友好的建模語言等5個部分組成。醫院信息決策系統組織結構在本人中分成了如下的組織機構:醫院主管部門、掛號室、治療室、化價室、住院室以及取藥室。掛號室,主要是病人姓名、性別、編號索引值等信息。治療室,補充記錄病人的治療記錄,主要是主要的癥狀、需要用到哪些藥物、以及是否需要住院等等信息。住院室,補充說明病人在住院期間的身體狀況等等信息。劃價室,說明病人在醫院的費用等信息。取藥室,病人取走治療疾病所需要的藥物。根據以上的職能部門,我們可以將醫院的信息分成如下的幾類信息:病人個人信息、病人管理信息、庫存的業務信息以及病人的治療費用等這樣的幾個信息。病人信息指的是病人的個人信息、診斷治療信息、手術和住院信息以及醫生的結論和檢查結果等這樣的信息。病人管理信息指的是病人情況、每天平均住院人數以及醫院的效益等等信息。庫存業務信息指的是每日的出院轉院信息、藥品的庫存量以及預約情況等信息。根據上述要求,本文采用了是Apriori算法進行信息篩選,算法主要原理是將通過一種逐層搜索迭代的煩惱方法來實現的。首先查找頻繁1-項集的集合,將這個集合標記為L1,然后通過在L1相集中尋找頻繁2-項集的集合,將這個集合標記為L2,依次類推在L2中查找L3集合,在L3中查找L4結合,依次下去就可以找到最終的頻繁K-項集。
Apriori算法的偽代碼如下所示:輸入:事務數據庫以及最小的支持度閾值。輸出:事務數據庫中的頻繁項集L。
方法:
L1 = find_frequent_1_itemsets(D);
for (k = 2; Lk-1; k++) {
Ck = aproiri_gen(Lk-1,min_sup);
for each transaction t?D{ //scan D for count
Ct = subset(Ck,t); //get subsets of t that are candidates
for each candidate c?Ct
c.count++;
Lk={c?Ck | c.count ? min_sup}
}
return L = kLk;?
procedure apriori_gen(Lk-1: frequent (k-1)-itemset; min_sup: support)
for each itemset l1?Lk-1
for each itemset l2?Lk-1
if (l1[1]=l2[1])...(l1[k-2]=l2[k-2])(l1[k-1] c = l1l2;//join step: generate candidates if has_infrequent_subset(c,Lk-1) then delete c; else add c to Ck; } return Ck; procedure has_infrequent_subset(c:candidate k-itemset; L k-1:frequent (k-1)-itemset) // use priori knowledge for each (k-1)-subset s of c if c Lk-1 then return TRUE; return FALSE; 在數據庫中通過上面的算法找到了頻繁的項集以后,那么它的置信度與最小支持度是很好計算的。支持度S指的是事務集合中所所有包括A也包括B的一個集合占總的集合的一個百分比,即。置信度c則指的是在事務中同時包含A與B的集合占只包含事務B 的一個百分比,用公式表示如下所示:。 3 結語 通過分析數據挖掘的相關技術,將當前的信息管理系統與新的計算機數據挖掘技術和聯機分析系統結合起來,設計了基于數據倉庫的醫院管理系統,這為醫院管理人員的決策做出了很大的幫助,同時也對醫務人員的工作質量提供了很好的幫助,最重要的是它可以看到醫院的經營狀況,為醫院才去準確的措施提供了很大的幫助。