張寧
(石家莊市第五醫院, 河北,石家莊 050000)
隨著醫療衛生事業的蓬勃發展,海量的醫院檔案數據也被記錄和積累下來,如何有效地對這些海量數據進行分類對于充分發揮檔案資源以史鑒今的作用至關重要。而現有的醫院檔案數據分類方法主要為人工分類[1]以及傳統的數據庫技術[2]。前者過于依賴人工經驗并且耗時耗力;后者雖然可以滿意一般數據規模下的檔案分類,但是也難以適應突發公共衛生事件中醫療救治定點醫院的檔案管理[3]。
王紅等[4]利用注意力機制與雙向門控循環單元方法提取民航突發事件領域本體的關系,為獲取民航本體關系提供了新的方法。何喜軍等[5]提出基于語義相似聚類的技術需求分級方法,并在新能源領域得到了應用和推廣。TANG等[6]利用貝葉斯方法框架為每一個類別選擇確定的特征,并在多個真實的數據集中驗證了所提的文本分類方法的有效性。陳果等[7]提出融合領域元知識實體關系分類,并以心血管數據為例進行仿真實驗。近期,白亦霆[8]設計了一種醫院檔案信息化管理系統解決了傳統的檔案管理系統中缺少有效的管理數據庫問題。
本文利用改進的LDA模型結合GMM算法對醫院文檔數據進行特征提取和聚類,實現醫院檔案數據的準確和智能分類。主要貢獻如下。
(1) 加權的LDA模型(WLDA)不但可以提取文檔數據的特征,而且可以消除多種主題內相關度詞語之間的影響。
(2) 將提取的特征作為GMM模型的輸入并依關聯性的大小進行聚類,用已有的檔案數據訓練Naive Bayes模型,實現檔案數據的智能分類。
(3) 快速有效地應用現有檔案資料指導醫療救治、院感防控等工作的開展,充分發揮檔案資源的參考作用。
LDA模型是在PLSA模型基礎上改進得到的,其主要結構如圖1所示。
圖1中,α和β分別表示文檔和詞語的超參數,z和w為主題和詞語級的參數。LDA模型的聯合概率可表示為
p(θ,z,w,φ|α,β)=Πp(θ|α)p(zn|θ)p(φ|β)p(wn|θ)
(1)
經過N次循環之后,整個語料N的生成概率為
p(N|α,β)=Πp(wn|α,β)
(2)

圖1 LDA模型流程圖
醫院檔案數據中主題內部之間的相關性較高,主題間相關性和詞語相關性如下:

(3)
其中,w為詞語,sim為詞語之間的相似性,得到主題權重w′:
w′=2δ(S-S′)
(4)
其中,S′是S的均值,δ為平衡參數,用于調節S′和S對w′大小影響的程度。圖2給出了當δ=1時,w′、S′以及S間的關系。

圖2 權重w′、S′以及S之間的關系
GMM算法假設類別標簽服從多項分布,并對給定的標簽樣本滿足多值高斯分布:
(xi|zi=j)~N(μj,Σj)
(5)
進而得到聯合分布:
P(xi,zi)=P(xi|zi)P(zi)
(6)
假設Naive Bayes模型的后驗概率為P(y,x),由貝葉斯公式可知:
(7)
其中,x=x1,x2…為聯合事件。
此算法的具體步驟介紹如下。
離線建模:
(1) 將原始檔案數據輸入到LWDA模型中;
(2) 利用GMM模型對LWDA提取的特征依相關性進行聚類;

圖3 基于所提方法的醫院檔案數據智能分類框架
(3)將測試樣本的聚類結果保存。
在線分類:
(1) 將新采集的醫院檔案數據按照離線步驟1~2進行依特征的聚類;
(2) 計算相應的樣本概率P(xi,zi);
(3) 將樣本概率作為Naive Bayes模型的輸入,并計算得到相應的分類結果。
利用石家莊市第五醫院的真實檔案數據進行實驗,由于涉及病人的隱私,文檔數據用編號表示。該訓練集有8 425個檔案文檔,測試集6 896個檔案文檔,共包含16種文本數據。
本文只選擇其中的8種類別(C1~C8)進行聚類,如表1所示。

表1 8類檔案數據
通過準確率、F1值、召回率等來刻畫所提的WLDA+GMM模型在醫院數據聚類方面的可靠性。首先利用WLDA對檔案數據進行特征提取,得到與文本數據對應的維度為16的文檔特征向量,并利用GMM模型對這些特征進行聚類。由表1可知,所選擇的8種檔案數據具有類別不平衡性,所以加權平均的定量指標更能體現算法的聚類性能,具體實驗結果如表2所示。

表2 不同聚類算法的F1值比較
從表2中可以看出,由于本文所提的WLDA+GMM算法考慮了不同特征之間的關聯性并以概率的形式進行聚類準則,所以比傳統的LDA+k-means取得了更好的聚類效果。WLDA+GMM在表2中的四種評價指標上都比LDA+k-means方法有一定程度上的提升(最低10%,最高16%),說明本文方法能夠更好地對醫院文檔數據進行聚類。
為了驗證所提算法的醫院檔案數據分類精度,選擇其中的5種類別(C1~C5)共2 969個樣本進行仿真實驗,將所提取的特征作為輸入來訓練Naive Bayes模型,并以SVM作為對比算法,2種方法的分類結果分別如表3和表4所示。

表3 SVM模型分類結果

表4 Naive Bayes模型分類結果
由表3可知,SVM算法的宏平均、微平均和加權平均為90%,并且最高的指標為95%(C5的召回率和C3的F1),最低的定量指標只有82%(C5的精度),說明SVM模型在測試集中總體表現較差。由表4可知,所提方法取得了較好的分類結果,基本可以替代基于人工的醫院檔案分類。
為了更加直觀地展示所提方法的分類優勢,以F1指標為例來進行說明,結果如圖4所示。從圖4中可以看出,所提方法的分類精度在5個類別上的F1值都高于SVM,并且最高的F1值已經達到100%。

圖4 2種方法在5種類別上的F1值
本文提出一種新的醫院檔案數據的智能分類方法,可以進行檔案數據的智能分類,并在石家莊市第五醫院的檔案數據集中驗證了本文方法的有效性。但是針對醫院豐富圖片和聲音數據檔案還未有涉及,這將是未來研究的重點方向之一。