999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征提取與聚類的醫院檔案數據分類方法

2022-10-15 08:39:46張寧
微型電腦應用 2022年9期
關鍵詞:分類醫院方法

張寧

(石家莊市第五醫院, 河北,石家莊 050000)

0 引言

隨著醫療衛生事業的蓬勃發展,海量的醫院檔案數據也被記錄和積累下來,如何有效地對這些海量數據進行分類對于充分發揮檔案資源以史鑒今的作用至關重要。而現有的醫院檔案數據分類方法主要為人工分類[1]以及傳統的數據庫技術[2]。前者過于依賴人工經驗并且耗時耗力;后者雖然可以滿意一般數據規模下的檔案分類,但是也難以適應突發公共衛生事件中醫療救治定點醫院的檔案管理[3]。

王紅等[4]利用注意力機制與雙向門控循環單元方法提取民航突發事件領域本體的關系,為獲取民航本體關系提供了新的方法。何喜軍等[5]提出基于語義相似聚類的技術需求分級方法,并在新能源領域得到了應用和推廣。TANG等[6]利用貝葉斯方法框架為每一個類別選擇確定的特征,并在多個真實的數據集中驗證了所提的文本分類方法的有效性。陳果等[7]提出融合領域元知識實體關系分類,并以心血管數據為例進行仿真實驗。近期,白亦霆[8]設計了一種醫院檔案信息化管理系統解決了傳統的檔案管理系統中缺少有效的管理數據庫問題。

本文利用改進的LDA模型結合GMM算法對醫院文檔數據進行特征提取和聚類,實現醫院檔案數據的準確和智能分類。主要貢獻如下。

(1) 加權的LDA模型(WLDA)不但可以提取文檔數據的特征,而且可以消除多種主題內相關度詞語之間的影響。

(2) 將提取的特征作為GMM模型的輸入并依關聯性的大小進行聚類,用已有的檔案數據訓練Naive Bayes模型,實現檔案數據的智能分類。

(3) 快速有效地應用現有檔案資料指導醫療救治、院感防控等工作的開展,充分發揮檔案資源的參考作用。

1 所提方法

1.1 LDA模型

LDA模型是在PLSA模型基礎上改進得到的,其主要結構如圖1所示。

圖1中,α和β分別表示文檔和詞語的超參數,z和w為主題和詞語級的參數。LDA模型的聯合概率可表示為

p(θ,z,w,φ|α,β)=Πp(θ|α)p(zn|θ)p(φ|β)p(wn|θ)

(1)

經過N次循環之后,整個語料N的生成概率為

p(N|α,β)=Πp(wn|α,β)

(2)

圖1 LDA模型流程圖

1.2 WLDA模型

醫院檔案數據中主題內部之間的相關性較高,主題間相關性和詞語相關性如下:

(3)

其中,w為詞語,sim為詞語之間的相似性,得到主題權重w′:

w′=2δ(S-S′)

(4)

其中,S′是S的均值,δ為平衡參數,用于調節S′和S對w′大小影響的程度。圖2給出了當δ=1時,w′、S′以及S間的關系。

圖2 權重w′、S′以及S之間的關系

1.3 GMM模型

GMM算法假設類別標簽服從多項分布,并對給定的標簽樣本滿足多值高斯分布:

(xi|zi=j)~N(μj,Σj)

(5)

進而得到聯合分布:

P(xi,zi)=P(xi|zi)P(zi)

(6)

1.4 Naive Bayes模型

假設Naive Bayes模型的后驗概率為P(y,x),由貝葉斯公式可知:

(7)

其中,x=x1,x2…為聯合事件。

2 基于特征提取與聚類的檔案數據分類方法流程

此算法的具體步驟介紹如下。

離線建模:

(1) 將原始檔案數據輸入到LWDA模型中;

(2) 利用GMM模型對LWDA提取的特征依相關性進行聚類;

圖3 基于所提方法的醫院檔案數據智能分類框架

(3)將測試樣本的聚類結果保存。

在線分類:

(1) 將新采集的醫院檔案數據按照離線步驟1~2進行依特征的聚類;

(2) 計算相應的樣本概率P(xi,zi);

(3) 將樣本概率作為Naive Bayes模型的輸入,并計算得到相應的分類結果。

3 實驗結果分析

利用石家莊市第五醫院的真實檔案數據進行實驗,由于涉及病人的隱私,文檔數據用編號表示。該訓練集有8 425個檔案文檔,測試集6 896個檔案文檔,共包含16種文本數據。

3.1 WLDA+GMM聚類結果

本文只選擇其中的8種類別(C1~C8)進行聚類,如表1所示。

表1 8類檔案數據

通過準確率、F1值、召回率等來刻畫所提的WLDA+GMM模型在醫院數據聚類方面的可靠性。首先利用WLDA對檔案數據進行特征提取,得到與文本數據對應的維度為16的文檔特征向量,并利用GMM模型對這些特征進行聚類。由表1可知,所選擇的8種檔案數據具有類別不平衡性,所以加權平均的定量指標更能體現算法的聚類性能,具體實驗結果如表2所示。

表2 不同聚類算法的F1值比較

從表2中可以看出,由于本文所提的WLDA+GMM算法考慮了不同特征之間的關聯性并以概率的形式進行聚類準則,所以比傳統的LDA+k-means取得了更好的聚類效果。WLDA+GMM在表2中的四種評價指標上都比LDA+k-means方法有一定程度上的提升(最低10%,最高16%),說明本文方法能夠更好地對醫院文檔數據進行聚類。

3.2 檔案數據分類結果

為了驗證所提算法的醫院檔案數據分類精度,選擇其中的5種類別(C1~C5)共2 969個樣本進行仿真實驗,將所提取的特征作為輸入來訓練Naive Bayes模型,并以SVM作為對比算法,2種方法的分類結果分別如表3和表4所示。

表3 SVM模型分類結果

表4 Naive Bayes模型分類結果

由表3可知,SVM算法的宏平均、微平均和加權平均為90%,并且最高的指標為95%(C5的召回率和C3的F1),最低的定量指標只有82%(C5的精度),說明SVM模型在測試集中總體表現較差。由表4可知,所提方法取得了較好的分類結果,基本可以替代基于人工的醫院檔案分類。

為了更加直觀地展示所提方法的分類優勢,以F1指標為例來進行說明,結果如圖4所示。從圖4中可以看出,所提方法的分類精度在5個類別上的F1值都高于SVM,并且最高的F1值已經達到100%。

圖4 2種方法在5種類別上的F1值

4 總結

本文提出一種新的醫院檔案數據的智能分類方法,可以進行檔案數據的智能分類,并在石家莊市第五醫院的檔案數據集中驗證了本文方法的有效性。但是針對醫院豐富圖片和聲音數據檔案還未有涉及,這將是未來研究的重點方向之一。

猜你喜歡
分類醫院方法
分類算一算
分類討論求坐標
我不想去醫院
兒童繪本(2018年10期)2018-07-04 16:39:12
數據分析中的分類討論
教你一招:數的分類
萌萌兔醫院
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
帶領縣醫院一路前行
中國衛生(2015年8期)2015-11-12 13:15:20
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 成人毛片在线播放| 亚国产欧美在线人成| 97国产在线视频| 在线免费观看AV| 国产精品午夜电影| 亚洲精品成人福利在线电影| 国产色爱av资源综合区| 国产成人91精品免费网址在线| av在线人妻熟妇| 中国精品久久| 国产一线在线| 国产农村1级毛片| 亚洲日本韩在线观看| 日韩国产另类| 91香蕉视频下载网站| 国产一区二区精品高清在线观看| 在线观看欧美精品二区| 欧美19综合中文字幕| 国产福利观看| 国产区成人精品视频| 欧美中日韩在线| 狠狠综合久久| 97国产精品视频人人做人人爱| 久久久久人妻一区精品色奶水| 亚欧乱色视频网站大全| 日本人妻丰满熟妇区| 欧美黄网在线| 四虎精品免费久久| 欧美另类第一页| 国产屁屁影院| 国产精品亚洲综合久久小说| 日韩精品中文字幕一区三区| 日韩 欧美 国产 精品 综合| 在线精品亚洲国产| 国产一区二区三区视频| 欧美一级爱操视频| 日韩成人在线网站| 久操线在视频在线观看| 一级做a爰片久久毛片毛片| 成人亚洲国产| 亚洲激情区| 亚洲中文制服丝袜欧美精品| 人禽伦免费交视频网页播放| 国产亚洲欧美在线中文bt天堂| 精品国产网站| 亚洲人成人无码www| 国产正在播放| 国产亚洲欧美在线中文bt天堂 | 亚洲中文字幕在线精品一区| 99久久亚洲综合精品TS| 欧美日韩亚洲综合在线观看| 久久网综合| 国产免费久久精品99re丫丫一| 亚洲专区一区二区在线观看| 黄色网站在线观看无码| 99精品免费在线| 亚洲福利视频一区二区| 免费看美女自慰的网站| 毛片卡一卡二| 国产一区二区精品福利| 丁香婷婷激情网| 在线观看国产网址你懂的| 亚洲三级成人| 亚洲精品无码AⅤ片青青在线观看| 九色在线视频导航91| 亚洲第一极品精品无码| 一级在线毛片| 亚洲乱强伦| 国产H片无码不卡在线视频| 一边摸一边做爽的视频17国产| 国产色伊人| 国产91丝袜在线播放动漫 | 天天爽免费视频| 一级毛片视频免费| 91小视频在线| 中国特黄美女一级视频| h视频在线播放| 男人天堂伊人网| 亚洲天堂网视频| 青青青草国产| 99久视频| 日韩精品久久久久久久电影蜜臀|