





摘要:為了提高信息設備的可用性,減少信息運維人員的工作量并推動醫院運維智慧管理,利用R語言的jiebaR函數包 對信息故障記錄文本進行分詞處理,使用tm、slam、NLP等包對分詞結果應用TF-IDF(Term Frequency-Inverse Document Frequency) 算法分析信息設備的主要故障,并追溯故障的影響因素,用于調整運維管理方案。該研究結果對信息運維管 理具有良好的指導和實踐意義。
關鍵詞:R語言;TF-IDF算法;詞頻;文本挖掘
中圖分類號:TP391
文獻標識碼:A
文章編號:1009-3044(2025)13-0048-05
0 引言
醫療信息化發展迅速,近幾年醫院擁有的系統和 設備也隨之增多。智慧醫療雖推動醫院高質量發展 并為患者診療帶來便利,但也增加了醫院信息系統和 設備的運維數量。因此,亟須構建科學完備的運維管 理機制,輔助IT運維人員在運維時做到響應時間短、 故障排查快、故障預測準,提升醫院IT運維管理部門 的業務能力,使醫院信息化系統更加穩定、安全、高效 地運行[1] 。
免費 R ,主要用于統計分析和數據可視化 語言是近年來興起的一門計算機語言 [2] 。以一個快 ,開源且 速和簡單的方式來實現機器學習算法,構建預測模 型。目前在醫學、生物學、生態環境科學、經濟學、社 會科學等各領域都得到了廣泛的應用[3-5] ,是做數據挖 掘的首選工具。本研究將某三甲醫院的沉淀運維文 本數據和R語言統計挖掘分析結合起來,從中發現一 些問題和規律。通過制定相應的對策,減少運維人員 的工作量,為醫院智慧管理提供輔助支持。
1 數據來源與方法
某三甲醫院自建院以來就有故障運維文本記錄 系統,但是由于系統陳舊,數據以自然語言的非結構 化文本形式存在,數據提取十分困難,數據的價值難 以利用和體現。本文采用 R 語言 jiebaR 包作分詞處 理,采用 TF-IDF 算法(Term Frequency-Inverse Docu? ment Frequency 詞頻—逆向文件頻率) 計算每個分詞 的 TF-IDF 值,按降序排列,取排在最前面的一些分 詞。這些詞具有良好的類別區分能力,可作為關鍵詞 輸出,可用于制作可視化的詞云圖。具體流程如圖1。
1.1 數據來源
本研究選取某三甲醫院的信息運維記錄作為研 究對象,這些記錄中包含了操作人員、故障描述、登記對故障結果、處理時間等進行補充說明。本文通過對 這些數據的整理,分析醫院信息運維管理情況。
本次數據統計時間為2014年1月1日至2024年1 月1日,共計12 262條運維記錄數據,作為本研究所用 語料庫。
1.2 研究工具
本研究所有的程序都在 R-4.3.3 版本的 R Studio 平臺運行,并借助于 R 語言 readxl、jiebaR、tm、NLP、 slam、wordcloud等程序包進行編程。
1.3 數據預處理
由于數據庫中提取出來的內容未經整理,含有較 多不可用數據,需要進行數據清洗和預處理。數據預 處理的關鍵是對一句話進行分詞,也就是說要將內容 轉化成獨立的、有意義的詞語。例如,記錄描述為“打 印機無法打印”分詞之后為“打印”“機”“無法”“打印” “機器”“語言”??紤]到分詞解析并未將“打印機”和 “機器語言”分解為單個詞。因此,鑒于本研究語料庫 的專業性,在進行分詞時本文引入了自然語言處理及 計算語言學相關術語詞庫。
具體操作步驟如下:首先,刪除無用數據,尤其是 故障描述為空或與信息故障無關的記錄,如燈泡故 障、插頭沒電等誤報信息,使數據保持相對的純凈。 清洗后,共收集信息運維管理數據12 104條。
其次,利用R語言錄入數據。R語言提供了多種 讀取命令,可以讀取常用的csv、txt、Excel等格式數據。 本研究采用txt格式存儲數據,故讀取數據的R語言命 令為:
install.packages(\"readxl\")
library(readxl)
data lt;- read. csv(\"D:\...\MaintenanceRecordQ.txt\", stringsAsFactors = F)
title lt;- data$AskContent #提取需要的數據字段 接下來,須操作下載計算機詞典和剔除停用詞。
由于語料庫的專業性,本文研究在R語言中引入了自 然語言處理及計算語言學相關術語.scel,網上下載完 成詞典后,運用該詞典完成讀取數據的初步詞語切 分。由于分詞之后會出現某些虛字、詞和數字,如 “ 的 ”“ 了 ”“1”“2”等 ,這 些 詞 被 稱 作 停 用 詞 (Stop Words) 。本研究會通過導入基于醫療信息運維的停 用詞表對停用詞進行過濾,排除此部分內容對結果的 干擾,根據詞表移除這部分無用信息,以排除可能造 成的可視化分詞偏差,來提高結果分析的準確率。R 語言命令如下:
install.packages(\"jiebaR\")
library(jiebaR)
text lt;- readLines(\"D:\...\MaintenanceRecordQ.txt\")
#讀取文件內容
text lt;-gsub(\"[[:punct:]]\",\"\",text) #去除標點符號
text lt;- tolower(text)
#轉換為小寫字母
engine lt;- worker(type = \"mix\",stop_word = \"D:\...
\stopwords.txt\", idf =\"D:\...\自然語言處理及計算語言
學相關術語.scel\")
fclt;- segment(title,engine)
seg lt;- table(fc)
seglt;- sort(seg,decreasing = TRUE)[1:100]
#獲取詞頻最多的100個詞
最終,通過函數計算后,輸出本研究信息運維數 據 中 出 現 的 前 100 個 高 頻 詞 。 具 體 數 據 及 數 量 如圖2。
行分析,并通過圖像內的字體大小判斷其發展規律。 基于本研究的運維數據,利用 R 軟件中“Wordcloud” 包對詞頻最高的詞匯制作形成了詞云圖,其中每個詞 的字體大小與其詞頻數成正比關系,即字體越大,越 突出,相對來說對信息運維管理也就越重要。R語言 命令如下:
install.packages(\"tm\")
# 加載腳本所用的程序包
library(\"tm\")
library(\"NLP\")
doc_q=VCorpus(VectorSource(fc))
doc_q=tm_map(doc_q,stripWhitespace)
# 生成tf_idf特征
control = list(remvepunctuation=T, minDocFreq=1,
wordLengths=c(2,Inf),weighting =weightTfIdf)
q_doc.tdm = TermDocumentMatrix(doc_q,control)
mlt;-as.matrix(q_doc.tdm)
vlt;-sort(rowSums(m),decreasing = TRUE)
dlt;-data.frame(word=names(v),freq=v)
head(d,10)
#構建term-document矩陣
install.packages(\"wordcloud\")
set.seed(1234)
wordcloud(words=d $word, freq=d $freq, min. freq=1,
max.words=200,random. order=FALSE,rot. per=0.35, col?
ors=brewer.pal(8,\"Dark2\"))
命令執行結果如圖3。
通過計算,獲得文本關鍵詞后,為了更加直觀地 展示,本文采用詞云形式輸出。詞云圖[7] 是文本挖掘 結果的可視化展示,利用詞云圖可以清晰地對數據進行分析,并通過圖像內的字體大小判斷其發展規律。 基于本研究的運維數據,利用 R 軟件中“Wordcloud” 包對詞頻最高的詞匯制作形成了詞云圖,其中每個詞 的字體大小與其詞頻數成正比關系,即字體越大,越 突出,相對來說對信息運維管理也就越重要。R語言 命令如下:
install.packages(\"tm\")
# 加載腳本所用的程序包
library(\"tm\")
library(\"NLP\")
doc_q=VCorpus(VectorSource(fc))
doc_q=tm_map(doc_q,stripWhitespace)
# 生成tf_idf特征
control = list(remvepunctuation=T, minDocFreq=1,
wordLengths=c(2,Inf),weighting =weightTfIdf)
q_doc.tdm = TermDocumentMatrix(doc_q,control)
mlt;-as.matrix(q_doc.tdm)
vlt;-sort(rowSums(m),decreasing = TRUE)
dlt;-data.frame(word=names(v),freq=v)
head(d,10)
#構建term-document矩陣
install.packages(\"wordcloud\")
set.seed(1234)
wordcloud(words=d $word, freq=d $freq, min. freq=1,
max.words=200,random. order=FALSE,rot. per=0.35, col?
ors=brewer.pal(8,\"Dark2\"))
命令執行結果如圖3。
2 數據整理與分析
詞云圖反映了信息運維事件的幾個大類,但是從 詞頻上分析,仍出現了大量“無法”“不了”“謝謝”“問 題”等與事件無關的常用語。從詞云圖顯示的內容來 看,信息運維事件中的不同長度詞語頻繁出現,因此 需要提取更有價值的數據進行進一步分析[8] 。
2.1 詞頻數據分析
基于 TF-IDF 算法及可視化顯示結果,可獲得如 圖4的詞頻數據。主要信息運維問題集中在打印機和 電腦兩種設備的故障、安裝、無法工作等方面。
分析圖 4 結果,“打印機”出現的頻次占據首位, “電腦”位居第二,說明這兩個硬件出現故障是醫院信 息運維的主要內容。除此之外,運維信息中排名前十 的硬件還有“系統”。打印機故障、無法打印、需要安 裝打印機、電腦問題、系統問題等是現有運維信息中 出現較高頻次的數據。
2.2 詞頻相關性分析
詞云圖中最大的詞表示其出現頻率最高、重要性 最大;如果兩個詞距離越近,表示它們在文本數據中 心越可能存在某種聯系或者相似之處。
根據相關性分析,引起打印機故障的原因主要在 打印機卡紙、打印機脫機或連接失敗、打印機打印亂 碼字符、打印機無墨或缺紙、打印機硬件問題等方面。 引起電腦故障的主要問題有電腦網絡連接失敗、電腦 無法啟動或藍屏、電腦速度慢等方面。
排名前十的運維量還包括“系統”。系統故障包 括 HIS、Lis、自助機、EMR、PACS、金蝶移動支付、物 資、OA、HER、消毒供應追溯系統等各大子系統。不 同系統的維護對信息運維人員的專業性提出了更高 的要求。
2.3 運維趨勢分析
為了更好地研究信息運維管理問題,提高運維效 率,現將占運維量較大比例的“打印機”“電腦”“系統” 根據時間作趨勢分析。數據橫坐標以半年為一個單 位,縱坐標為運維次數,具體數據如圖5、圖6、圖7。 根據曲線圖繪制情況發現,隨著醫院規模擴大, 醫院信息運維量正在逐步上升。打印機維護量在 2021年后有所減緩,經分析,該時間段進行了設備外 包,打印機由第三方公司負責售后管理。電腦運維量 自2019年后逐年上升,該年度根據科室預算,完成了 全院電腦設備更新。系統運維量逐年攀升,這與近幾 年智慧醫院建設、院內引入大量第三方系統有關。
2.4 本章小結
隨著智慧醫療的推進,醫院信息化建設也在不斷 提升,醫院目前對接的系統越來越多,維護的數量隨 之增加。從早期的HIS系統、Lis系統、自助機系統,到現在的EMR系統、PACS系統、金蝶移動支付系統、物 資系統、OA系統、EHR系統,消毒供應追溯系統等第 三方平臺的深入對接,智慧醫療正在醫院內發揮越來 越大的作用。
就現狀而言,信息運維在事件響應上是具有滯后 性的,但是可以通過對運維過程中80%以上的關鍵問 題進行分析,形成一套運維管理方案 SOP,使運維問 題能從源頭得到有效解決,減少問題發生[9] 。
3 問題分析與討論
信息系統生命周期的四個階段:立項、開發、運維 和消亡中,運維會占到信息系統整個生命周期的80% 以上[10] ,因此,信息運維管理對醫院信息化至關重要。 本研究中,提取的數據量雖然豐富,但是數據質量并 不高,仍需醫院信息管理處加強運維數據管理,進行 問題修復,提升數據質量,為后續的決策支持提供更 為可靠、精準的數據支持。主要問題體現在以下兩 方面。
問題描述不清晰,表述模糊。在本研究的數據 中,問題的描述大多過于簡單,譬如有的運維記錄為 “打印機不打印”“打印機沒有打印”“打印機無法打 印”。三條記錄的情況一致,但是描述不同,在統計分 析時,就會被認為不同的記錄,這樣的記錄,在做知識 庫構建時就需要合并處理,增加了工作量。而且三條 記錄中既沒有打印機的型號,也沒有打印機報警的提 示。因此,需要統一規范和完善運維故障問題描述模 板,包含型號,設備提示和報警信息等,便于后續對打 印機和電腦的采購提供數據支撐。
數據記錄不完整,表述抽象。目前醫院系統較 多,但是在做運維記錄時,用戶均是描述系統異常癥 狀,沒有做系統定位,譬如:系統無法登錄。這條記錄 很難定位是哪里的問題,需要用戶在記錄時,選擇正 確的系統,以便運維人員可以獲取核心問題,及時給 出處理建議。也便于日后統計系統的運維情況,及時 和第三方運維人員溝通,促使他們改進相關功能。
4 實踐與管理
醫院在信息化期間要重視運維管理體系的有效 運用,除了提升人員專業管理技能,還需嚴格按照運 維管理體系規范人員工作行為。
4.1 技術管理
運維數據層面,可以新增運維記錄補充模塊,完 善運維內容。如運維子系統選擇、打印機型號維護、 報錯內容補充等,提高運維數據的質量,為進一步加 強信息運維管理奠定基礎,如圖8,借助故障報修軟件 持續改進信息運維管理水平和服務質量[11] 。信息技 術層面,針對本文的打印機、電腦、系統等運維,可以 從以下三個方面進行優化。
打印機定期保養和維修。1) 規范使用打印紙張, 定期清理打印機內紙屑、雜物、灰塵等。2) 定期檢查打印機網絡或者數據線,查看打印機的狀態。
電腦權限控制和硬件巡查。1) 采用用戶賬戶和 管理員賬戶進行管理,用戶賬戶無法修改本地網絡配 置和系統文件,不能安裝exe軟件,同時禁用U盤。2) 加強電路巡檢排查,避免突然斷電造成的電腦硬件 損壞。
第三方系統知識庫共享和服務器優化。1) 云端 存儲系統運維知識庫,便于團隊成員相互學習,對于 緊急事件,也可快速找到解決方案,提高系統運維效 率。2) 構建服務器預警系統,實時監測服務器CPU使 用率,硬盤存儲空間等,爭取在最短時間內排除故障, 將故障的損失降到最低[12] 。3) 提升服務器性能,采用 超融合服務器,減少因為服務器硬件損壞導致的系統 問題。
4.2 流程管理
雖然溫州醫科大學附屬眼視光醫院信息系統建 設起步早,但是隨著技術迭代升級,外接系統不斷增 加,各系統之間的耦合不緊密,導致系統應用不順暢, 運維量增加。這就需要業務科室及信息管理處做好 醫院信息化建設的頂層規劃[13] 。不同信息系統之間 建立有效銜接,做好公立醫院智慧運營信息化管理的 集成化建設[14] 。
其次,日常運維中常常會發現同樣的問題出現了 很多次但是仍需信息介入運維的情況,這部分運維可 以納入科室日常工作學習內容。如由信息管理處定 期為打印機使用者提供必要的培訓,尤其如何替換墨 盒和存放紙張等,減輕運維人員的工作量,提升業務 部門人員的工作效率。
此外,隨著醫院外接系統增加,信息需求驟增,每 上一個新功能,往往存在不同員工反復咨詢的現象。 對于這類第三方系統操作問題,須業務職能科室介 入,由老帶新,做好新功能培訓帶教工作。
5 結論
本研究基于R語言TF-IDF算法挖掘醫院信息運 維記錄的關鍵詞,能夠有效分析信息運維的主要問題 及設備特征,為同類故障提出統一整改措施,形成 SOP,提高運維效率,便于日后運維改進,降低故障發 生概率。同時,為醫院信息設備采購提供質量參考并 推進信息運維智能化。
參考文獻:
[1] 莊紹燕,楊保衛,林曉龍.醫院信息化運維整體解決方案探討 [J].中國醫療設備,2021,36(1):110-114.
[2] 張良均,謝佳標,楊坦,等.R語言與數據挖掘[M].北京:機械工 業出版社,2016.
[3] 王帥,林曉東,沈明輝,等.基于R語言的基層門診用藥大數據 分析[J].中華醫學圖書情報雜志,2015,24(3):54-58.
[4] CHEN R, CHEN Y, LIPSON M, et al. The Effect of Treatment Zone Decentration on Myopic Progression during Orthokeratol? ogy[J].Current Eye Research,2020,45(5):645-651.
[5] ZHENG B,CHEN Y,CHEN L, et al.Comparative Study on the Efficacy and Safety of Tumor Resection in Vitrectomy for Reti? nal Vasoproliferative Tumors 2019:7464123. [J].Journal of Ophthalmology,2019,
[6] 陳科文,張祖平,龍軍.文本分類中基于熵的詞權重計算方法 研究[J].計算機科學與探索,2016,10(9):1299-1309.
[7] ALAM S,YAO N.Big Data Analytics,Text Mining and Modern English Language 357-366. [J]. Journal of Grid Computing, 2019, 17(2):
[8] 沈亮,戴洪帥,王天嬌,等.基于文本挖掘的石化安全管理及 可視化研究[J].化工管理,2020(25):127-130,133.
[9] 張磊.一種基于服務元的醫院運維分級管理方法[J].電子技 術與軟件工程,2022(19):234-237.
[10] XU X,WANG P.Exploration on Application of ITIL Based Op? eration and Maintenance Management System in Hospital In? formation Management[J]. Academic Journal of Business amp; Management,2019,1(2):42-47.
[11] 姚偉.基于ITIL理念的運維系統在醫院信息科實踐[J].計 算機時代,2020(9):123-124,127.
[12] 張浩男,張渝,張碩果.醫院網絡安全監控及預警平臺的設 計 與 應 用[J]. 中 國 衛 生 信 息 管 理 雜 志, 2023, 20(2): 263- 267,272.
[13] 李生斌.醫院信息化建設的思考和探討[J].中國管理信息 化,2024,27(3):96-98.
[14] 蘇素永.基于大數據背景的公立醫院智慧運營管理研究[J]. 互聯網周刊,2024(5):46-48.
【通聯編輯:謝媛媛】