999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于R語言文本挖掘的信息運維管理研究

2025-07-20 00:00:00唐寧金斌彬劉宗寧
電腦知識與技術 2025年13期
關鍵詞:文本挖掘

摘要:為了提高信息設備的可用性,減少信息運維人員的工作量并推動醫院運維智慧管理,利用R語言的jiebaR函數包 對信息故障記錄文本進行分詞處理,使用tm、slam、NLP等包對分詞結果應用TF-IDF(Term Frequency-Inverse Document Frequency) 算法分析信息設備的主要故障,并追溯故障的影響因素,用于調整運維管理方案。該研究結果對信息運維管 理具有良好的指導和實踐意義。

關鍵詞:R語言;TF-IDF算法;詞頻;文本挖掘

中圖分類號:TP391

文獻標識碼:A

文章編號:1009-3044(2025)13-0048-05

0 引言

醫療信息化發展迅速,近幾年醫院擁有的系統和 設備也隨之增多。智慧醫療雖推動醫院高質量發展 并為患者診療帶來便利,但也增加了醫院信息系統和 設備的運維數量。因此,亟須構建科學完備的運維管 理機制,輔助IT運維人員在運維時做到響應時間短、 故障排查快、故障預測準,提升醫院IT運維管理部門 的業務能力,使醫院信息化系統更加穩定、安全、高效 地運行[1] 。

免費 R ,主要用于統計分析和數據可視化 語言是近年來興起的一門計算機語言 [2] 。以一個快 ,開源且 速和簡單的方式來實現機器學習算法,構建預測模 型。目前在醫學、生物學、生態環境科學、經濟學、社 會科學等各領域都得到了廣泛的應用[3-5] ,是做數據挖 掘的首選工具。本研究將某三甲醫院的沉淀運維文 本數據和R語言統計挖掘分析結合起來,從中發現一 些問題和規律。通過制定相應的對策,減少運維人員 的工作量,為醫院智慧管理提供輔助支持。

1 數據來源與方法

某三甲醫院自建院以來就有故障運維文本記錄 系統,但是由于系統陳舊,數據以自然語言的非結構 化文本形式存在,數據提取十分困難,數據的價值難 以利用和體現。本文采用 R 語言 jiebaR 包作分詞處 理,采用 TF-IDF 算法(Term Frequency-Inverse Docu? ment Frequency 詞頻—逆向文件頻率) 計算每個分詞 的 TF-IDF 值,按降序排列,取排在最前面的一些分 詞。這些詞具有良好的類別區分能力,可作為關鍵詞 輸出,可用于制作可視化的詞云圖。具體流程如圖1。

1.1 數據來源

本研究選取某三甲醫院的信息運維記錄作為研 究對象,這些記錄中包含了操作人員、故障描述、登記對故障結果、處理時間等進行補充說明。本文通過對 這些數據的整理,分析醫院信息運維管理情況。

本次數據統計時間為2014年1月1日至2024年1 月1日,共計12 262條運維記錄數據,作為本研究所用 語料庫。

1.2 研究工具

本研究所有的程序都在 R-4.3.3 版本的 R Studio 平臺運行,并借助于 R 語言 readxl、jiebaR、tm、NLP、 slam、wordcloud等程序包進行編程。

1.3 數據預處理

由于數據庫中提取出來的內容未經整理,含有較 多不可用數據,需要進行數據清洗和預處理。數據預 處理的關鍵是對一句話進行分詞,也就是說要將內容 轉化成獨立的、有意義的詞語。例如,記錄描述為“打 印機無法打印”分詞之后為“打印”“機”“無法”“打印” “機器”“語言”??紤]到分詞解析并未將“打印機”和 “機器語言”分解為單個詞。因此,鑒于本研究語料庫 的專業性,在進行分詞時本文引入了自然語言處理及 計算語言學相關術語詞庫。

具體操作步驟如下:首先,刪除無用數據,尤其是 故障描述為空或與信息故障無關的記錄,如燈泡故 障、插頭沒電等誤報信息,使數據保持相對的純凈。 清洗后,共收集信息運維管理數據12 104條。

其次,利用R語言錄入數據。R語言提供了多種 讀取命令,可以讀取常用的csv、txt、Excel等格式數據。 本研究采用txt格式存儲數據,故讀取數據的R語言命 令為:

install.packages(\"readxl\")

library(readxl)

data lt;- read. csv(\"D:\...\MaintenanceRecordQ.txt\", stringsAsFactors = F)

title lt;- data$AskContent #提取需要的數據字段 接下來,須操作下載計算機詞典和剔除停用詞。

由于語料庫的專業性,本文研究在R語言中引入了自 然語言處理及計算語言學相關術語.scel,網上下載完 成詞典后,運用該詞典完成讀取數據的初步詞語切 分。由于分詞之后會出現某些虛字、詞和數字,如 “ 的 ”“ 了 ”“1”“2”等 ,這 些 詞 被 稱 作 停 用 詞 (Stop Words) 。本研究會通過導入基于醫療信息運維的停 用詞表對停用詞進行過濾,排除此部分內容對結果的 干擾,根據詞表移除這部分無用信息,以排除可能造 成的可視化分詞偏差,來提高結果分析的準確率。R 語言命令如下:

install.packages(\"jiebaR\")

library(jiebaR)

text lt;- readLines(\"D:\...\MaintenanceRecordQ.txt\")

#讀取文件內容

text lt;-gsub(\"[[:punct:]]\",\"\",text) #去除標點符號

text lt;- tolower(text)

#轉換為小寫字母

engine lt;- worker(type = \"mix\",stop_word = \"D:\...

\stopwords.txt\", idf =\"D:\...\自然語言處理及計算語言

學相關術語.scel\")

fclt;- segment(title,engine)

seg lt;- table(fc)

seglt;- sort(seg,decreasing = TRUE)[1:100]

#獲取詞頻最多的100個詞

最終,通過函數計算后,輸出本研究信息運維數 據 中 出 現 的 前 100 個 高 頻 詞 。 具 體 數 據 及 數 量 如圖2。

行分析,并通過圖像內的字體大小判斷其發展規律。 基于本研究的運維數據,利用 R 軟件中“Wordcloud” 包對詞頻最高的詞匯制作形成了詞云圖,其中每個詞 的字體大小與其詞頻數成正比關系,即字體越大,越 突出,相對來說對信息運維管理也就越重要。R語言 命令如下:

install.packages(\"tm\")

# 加載腳本所用的程序包

library(\"tm\")

library(\"NLP\")

doc_q=VCorpus(VectorSource(fc))

doc_q=tm_map(doc_q,stripWhitespace)

# 生成tf_idf特征

control = list(remvepunctuation=T, minDocFreq=1,

wordLengths=c(2,Inf),weighting =weightTfIdf)

q_doc.tdm = TermDocumentMatrix(doc_q,control)

mlt;-as.matrix(q_doc.tdm)

vlt;-sort(rowSums(m),decreasing = TRUE)

dlt;-data.frame(word=names(v),freq=v)

head(d,10)

#構建term-document矩陣

install.packages(\"wordcloud\")

set.seed(1234)

wordcloud(words=d $word, freq=d $freq, min. freq=1,

max.words=200,random. order=FALSE,rot. per=0.35, col?

ors=brewer.pal(8,\"Dark2\"))

命令執行結果如圖3。

通過計算,獲得文本關鍵詞后,為了更加直觀地 展示,本文采用詞云形式輸出。詞云圖[7] 是文本挖掘 結果的可視化展示,利用詞云圖可以清晰地對數據進行分析,并通過圖像內的字體大小判斷其發展規律。 基于本研究的運維數據,利用 R 軟件中“Wordcloud” 包對詞頻最高的詞匯制作形成了詞云圖,其中每個詞 的字體大小與其詞頻數成正比關系,即字體越大,越 突出,相對來說對信息運維管理也就越重要。R語言 命令如下:

install.packages(\"tm\")

# 加載腳本所用的程序包

library(\"tm\")

library(\"NLP\")

doc_q=VCorpus(VectorSource(fc))

doc_q=tm_map(doc_q,stripWhitespace)

# 生成tf_idf特征

control = list(remvepunctuation=T, minDocFreq=1,

wordLengths=c(2,Inf),weighting =weightTfIdf)

q_doc.tdm = TermDocumentMatrix(doc_q,control)

mlt;-as.matrix(q_doc.tdm)

vlt;-sort(rowSums(m),decreasing = TRUE)

dlt;-data.frame(word=names(v),freq=v)

head(d,10)

#構建term-document矩陣

install.packages(\"wordcloud\")

set.seed(1234)

wordcloud(words=d $word, freq=d $freq, min. freq=1,

max.words=200,random. order=FALSE,rot. per=0.35, col?

ors=brewer.pal(8,\"Dark2\"))

命令執行結果如圖3。

2 數據整理與分析

詞云圖反映了信息運維事件的幾個大類,但是從 詞頻上分析,仍出現了大量“無法”“不了”“謝謝”“問 題”等與事件無關的常用語。從詞云圖顯示的內容來 看,信息運維事件中的不同長度詞語頻繁出現,因此 需要提取更有價值的數據進行進一步分析[8] 。

2.1 詞頻數據分析

基于 TF-IDF 算法及可視化顯示結果,可獲得如 圖4的詞頻數據。主要信息運維問題集中在打印機和 電腦兩種設備的故障、安裝、無法工作等方面。

分析圖 4 結果,“打印機”出現的頻次占據首位, “電腦”位居第二,說明這兩個硬件出現故障是醫院信 息運維的主要內容。除此之外,運維信息中排名前十 的硬件還有“系統”。打印機故障、無法打印、需要安 裝打印機、電腦問題、系統問題等是現有運維信息中 出現較高頻次的數據。

2.2 詞頻相關性分析

詞云圖中最大的詞表示其出現頻率最高、重要性 最大;如果兩個詞距離越近,表示它們在文本數據中 心越可能存在某種聯系或者相似之處。

根據相關性分析,引起打印機故障的原因主要在 打印機卡紙、打印機脫機或連接失敗、打印機打印亂 碼字符、打印機無墨或缺紙、打印機硬件問題等方面。 引起電腦故障的主要問題有電腦網絡連接失敗、電腦 無法啟動或藍屏、電腦速度慢等方面。

排名前十的運維量還包括“系統”。系統故障包 括 HIS、Lis、自助機、EMR、PACS、金蝶移動支付、物 資、OA、HER、消毒供應追溯系統等各大子系統。不 同系統的維護對信息運維人員的專業性提出了更高 的要求。

2.3 運維趨勢分析

為了更好地研究信息運維管理問題,提高運維效 率,現將占運維量較大比例的“打印機”“電腦”“系統” 根據時間作趨勢分析。數據橫坐標以半年為一個單 位,縱坐標為運維次數,具體數據如圖5、圖6、圖7。 根據曲線圖繪制情況發現,隨著醫院規模擴大, 醫院信息運維量正在逐步上升。打印機維護量在 2021年后有所減緩,經分析,該時間段進行了設備外 包,打印機由第三方公司負責售后管理。電腦運維量 自2019年后逐年上升,該年度根據科室預算,完成了 全院電腦設備更新。系統運維量逐年攀升,這與近幾 年智慧醫院建設、院內引入大量第三方系統有關。

2.4 本章小結

隨著智慧醫療的推進,醫院信息化建設也在不斷 提升,醫院目前對接的系統越來越多,維護的數量隨 之增加。從早期的HIS系統、Lis系統、自助機系統,到現在的EMR系統、PACS系統、金蝶移動支付系統、物 資系統、OA系統、EHR系統,消毒供應追溯系統等第 三方平臺的深入對接,智慧醫療正在醫院內發揮越來 越大的作用。

就現狀而言,信息運維在事件響應上是具有滯后 性的,但是可以通過對運維過程中80%以上的關鍵問 題進行分析,形成一套運維管理方案 SOP,使運維問 題能從源頭得到有效解決,減少問題發生[9] 。

3 問題分析與討論

信息系統生命周期的四個階段:立項、開發、運維 和消亡中,運維會占到信息系統整個生命周期的80% 以上[10] ,因此,信息運維管理對醫院信息化至關重要。 本研究中,提取的數據量雖然豐富,但是數據質量并 不高,仍需醫院信息管理處加強運維數據管理,進行 問題修復,提升數據質量,為后續的決策支持提供更 為可靠、精準的數據支持。主要問題體現在以下兩 方面。

問題描述不清晰,表述模糊。在本研究的數據 中,問題的描述大多過于簡單,譬如有的運維記錄為 “打印機不打印”“打印機沒有打印”“打印機無法打 印”。三條記錄的情況一致,但是描述不同,在統計分 析時,就會被認為不同的記錄,這樣的記錄,在做知識 庫構建時就需要合并處理,增加了工作量。而且三條 記錄中既沒有打印機的型號,也沒有打印機報警的提 示。因此,需要統一規范和完善運維故障問題描述模 板,包含型號,設備提示和報警信息等,便于后續對打 印機和電腦的采購提供數據支撐。

數據記錄不完整,表述抽象。目前醫院系統較 多,但是在做運維記錄時,用戶均是描述系統異常癥 狀,沒有做系統定位,譬如:系統無法登錄。這條記錄 很難定位是哪里的問題,需要用戶在記錄時,選擇正 確的系統,以便運維人員可以獲取核心問題,及時給 出處理建議。也便于日后統計系統的運維情況,及時 和第三方運維人員溝通,促使他們改進相關功能。

4 實踐與管理

醫院在信息化期間要重視運維管理體系的有效 運用,除了提升人員專業管理技能,還需嚴格按照運 維管理體系規范人員工作行為。

4.1 技術管理

運維數據層面,可以新增運維記錄補充模塊,完 善運維內容。如運維子系統選擇、打印機型號維護、 報錯內容補充等,提高運維數據的質量,為進一步加 強信息運維管理奠定基礎,如圖8,借助故障報修軟件 持續改進信息運維管理水平和服務質量[11] 。信息技 術層面,針對本文的打印機、電腦、系統等運維,可以 從以下三個方面進行優化。

打印機定期保養和維修。1) 規范使用打印紙張, 定期清理打印機內紙屑、雜物、灰塵等。2) 定期檢查打印機網絡或者數據線,查看打印機的狀態。

電腦權限控制和硬件巡查。1) 采用用戶賬戶和 管理員賬戶進行管理,用戶賬戶無法修改本地網絡配 置和系統文件,不能安裝exe軟件,同時禁用U盤。2) 加強電路巡檢排查,避免突然斷電造成的電腦硬件 損壞。

第三方系統知識庫共享和服務器優化。1) 云端 存儲系統運維知識庫,便于團隊成員相互學習,對于 緊急事件,也可快速找到解決方案,提高系統運維效 率。2) 構建服務器預警系統,實時監測服務器CPU使 用率,硬盤存儲空間等,爭取在最短時間內排除故障, 將故障的損失降到最低[12] 。3) 提升服務器性能,采用 超融合服務器,減少因為服務器硬件損壞導致的系統 問題。

4.2 流程管理

雖然溫州醫科大學附屬眼視光醫院信息系統建 設起步早,但是隨著技術迭代升級,外接系統不斷增 加,各系統之間的耦合不緊密,導致系統應用不順暢, 運維量增加。這就需要業務科室及信息管理處做好 醫院信息化建設的頂層規劃[13] 。不同信息系統之間 建立有效銜接,做好公立醫院智慧運營信息化管理的 集成化建設[14] 。

其次,日常運維中常常會發現同樣的問題出現了 很多次但是仍需信息介入運維的情況,這部分運維可 以納入科室日常工作學習內容。如由信息管理處定 期為打印機使用者提供必要的培訓,尤其如何替換墨 盒和存放紙張等,減輕運維人員的工作量,提升業務 部門人員的工作效率。

此外,隨著醫院外接系統增加,信息需求驟增,每 上一個新功能,往往存在不同員工反復咨詢的現象。 對于這類第三方系統操作問題,須業務職能科室介 入,由老帶新,做好新功能培訓帶教工作。

5 結論

本研究基于R語言TF-IDF算法挖掘醫院信息運 維記錄的關鍵詞,能夠有效分析信息運維的主要問題 及設備特征,為同類故障提出統一整改措施,形成 SOP,提高運維效率,便于日后運維改進,降低故障發 生概率。同時,為醫院信息設備采購提供質量參考并 推進信息運維智能化。

參考文獻:

[1] 莊紹燕,楊保衛,林曉龍.醫院信息化運維整體解決方案探討 [J].中國醫療設備,2021,36(1):110-114.

[2] 張良均,謝佳標,楊坦,等.R語言與數據挖掘[M].北京:機械工 業出版社,2016.

[3] 王帥,林曉東,沈明輝,等.基于R語言的基層門診用藥大數據 分析[J].中華醫學圖書情報雜志,2015,24(3):54-58.

[4] CHEN R, CHEN Y, LIPSON M, et al. The Effect of Treatment Zone Decentration on Myopic Progression during Orthokeratol? ogy[J].Current Eye Research,2020,45(5):645-651.

[5] ZHENG B,CHEN Y,CHEN L, et al.Comparative Study on the Efficacy and Safety of Tumor Resection in Vitrectomy for Reti? nal Vasoproliferative Tumors 2019:7464123. [J].Journal of Ophthalmology,2019,

[6] 陳科文,張祖平,龍軍.文本分類中基于熵的詞權重計算方法 研究[J].計算機科學與探索,2016,10(9):1299-1309.

[7] ALAM S,YAO N.Big Data Analytics,Text Mining and Modern English Language 357-366. [J]. Journal of Grid Computing, 2019, 17(2):

[8] 沈亮,戴洪帥,王天嬌,等.基于文本挖掘的石化安全管理及 可視化研究[J].化工管理,2020(25):127-130,133.

[9] 張磊.一種基于服務元的醫院運維分級管理方法[J].電子技 術與軟件工程,2022(19):234-237.

[10] XU X,WANG P.Exploration on Application of ITIL Based Op? eration and Maintenance Management System in Hospital In? formation Management[J]. Academic Journal of Business amp; Management,2019,1(2):42-47.

[11] 姚偉.基于ITIL理念的運維系統在醫院信息科實踐[J].計 算機時代,2020(9):123-124,127.

[12] 張浩男,張渝,張碩果.醫院網絡安全監控及預警平臺的設 計 與 應 用[J]. 中 國 衛 生 信 息 管 理 雜 志, 2023, 20(2): 263- 267,272.

[13] 李生斌.醫院信息化建設的思考和探討[J].中國管理信息 化,2024,27(3):96-98.

[14] 蘇素永.基于大數據背景的公立醫院智慧運營管理研究[J]. 互聯網周刊,2024(5):46-48.

【通聯編輯:謝媛媛】

猜你喜歡
文本挖掘
基于貝葉斯分類器的中文垃圾短信辨識
科技資訊(2017年5期)2017-04-12 15:18:52
基于潛在特征的汽車評論要素挖掘
基于評論信息的淘寶服裝類評分體系優化
商情(2016年32期)2017-03-04 00:27:28
數據挖掘技術在電站設備故障分析中的應用
軟件導刊(2016年12期)2017-01-21 15:55:21
基于LDA模型的95598熱點業務工單挖掘分析
文本數據挖掘在電子商務網站個性化推薦中的應用
商(2016年34期)2016-11-24 16:28:51
從《遠程教育》35年載文看遠程教育研究趨勢
基于文獻的中西醫結合治療腦梗死藥物使用情況分析
基于改進Hadoop云平臺的海量文本數據挖掘
慧眼識璞玉,妙手煉渾金
主站蜘蛛池模板: 中文天堂在线视频| 国产一级小视频| 免费观看国产小粉嫩喷水| 高潮毛片免费观看| 成年人视频一区二区| 2020最新国产精品视频| 潮喷在线无码白浆| 天天视频在线91频| 中字无码精油按摩中出视频| 免费观看欧美性一级| a级毛片免费看| 欧美日韩v| 在线播放91| 麻豆精品在线播放| 五月综合色婷婷| 国产第一福利影院| 91成人试看福利体验区| 狠狠色丁香婷婷| 日本精品视频一区二区| 国产打屁股免费区网站| 91啦中文字幕| 国产黄色免费看| 国产不卡网| 国产女人在线| 欧美色伊人| 成人无码一区二区三区视频在线观看 | 欧美激情网址| 国产大片黄在线观看| 国产自在线播放| 日本精品视频一区二区| 精品综合久久久久久97超人该| 成人年鲁鲁在线观看视频| 日韩无码视频播放| 国产精品制服| 一区二区自拍| 久热99这里只有精品视频6| 亚洲天堂网在线播放| 欧美在线伊人| 国产精品久久久久久影院| 99久久精品国产麻豆婷婷| 亚洲娇小与黑人巨大交| 国产主播福利在线观看| 精品人妻一区二区三区蜜桃AⅤ| 亚洲国产精品无码久久一线| 久久网欧美| 国产成人精品男人的天堂下载| 日韩精品亚洲精品第一页| 乱人伦视频中文字幕在线| 在线免费观看a视频| 99视频有精品视频免费观看| 亚洲三级色| 亚洲综合婷婷激情| 欧美日韩一区二区在线免费观看 | 丁香婷婷在线视频| 在线免费不卡视频| 国产精品精品视频| 91成人免费观看| 四虎国产精品永久一区| 欧美精品在线观看视频| 最新日韩AV网址在线观看| 97人妻精品专区久久久久| a毛片在线播放| 亚洲日本韩在线观看| 韩日免费小视频| 日本日韩欧美| 欧美一级在线| 日本人妻一区二区三区不卡影院| 乱系列中文字幕在线视频| AV无码一区二区三区四区| 欧美在线网| 91av成人日本不卡三区| 日韩精品专区免费无码aⅴ| 97精品久久久大香线焦| 欧美一级特黄aaaaaa在线看片| 无码又爽又刺激的高潮视频| 欧美日在线观看| 成人va亚洲va欧美天堂| 国产在线观看一区二区三区| 毛片视频网址| 国产又爽又黄无遮挡免费观看 | 国内丰满少妇猛烈精品播 | 国产欧美视频一区二区三区|