999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的醫療器械分類與預測方法研究

2024-02-05 12:36:50黃佳劉翔宇
科技創新與應用 2024年5期
關鍵詞:機器學習信息化

黃佳 劉翔宇

摘? 要:針對當前醫療器械分類仍然采用人工分類方式,費時費力的問題,提出一種基于機器學習的醫療器械分類與預測方法,通過引入機器學習和自然語言處理領域的經典算法,以新版《醫療器械分類目錄》為標準,提取醫療器械產品注冊證的關鍵信息作為語料庫,實現對醫療器械的產品類別劃分,達到真正意義上的醫療器械自動分類,為各級醫療機構的醫療器械分類管理信息化奠定基礎,提供借鑒和啟示。

關鍵詞:醫療器械;機器學習;自動分類;分類管理;信息化

中圖分類號:R197.39? ? ? 文獻標志碼:A? ? ? ? ? 文章編號:2095-2945(2024)05-0028-04

Abstract: The current manual classification method for medical devices is still time-consuming and labor-intensive. In order to address this issue, a medical device classification and prediction method based on machine learning is proposed. By introducing classic algorithms in the fields of machine learning and natural language processing, and using the new version of the "Medical Device Classification Catalog" as the standard, the key information from the medical device product registration certificate is extract as the corpus to classify medical devices into product categories, so the true automatic classification of medical devices is achieved, which lays the foundation and provides reference and inspiration for the informatization of medical device classification management in medical institutions at all levels.

Keywords: medical device; machine learning; automatic classification; classified management; informatization

醫療器械具有產品多樣化、學科跨度大、復雜程度高等特點,涉及機械、電子、臨床醫學、生命科學和材料等諸多學科門類,既具有很強的專業性,又具有跨專業、跨學科的綜合性,故對其進行科學高效的分類是有效實施監管、合理配置資源的關鍵所在[1]。但隨著各類數字化、智能化的醫療器械涌入醫院,傳統采用人工分類的管理運行方式已經變得捉襟見肘,如何利用信息技術手段對其進行分門別類的管理,為領導者、決策者掌握醫院醫療器械總體情況、編制發展規劃與配置方案,管理部門制定年度采購計劃提供快捷而準確的信息數據成為當務之急[2]。

自2018年8月1日開始實施的新版《醫療器械分類目錄》[3]以工程技術與應用領域為主線,側重于從醫療器械的產品功能和臨床使用的角度劃分產品品類歸屬,形成了包括《01有源手術器械》《02無源手術器械》《03神經和血管手術器械》《05放射治療器械》《06醫用成像器械》在內的22個產品管理類別,框架設置更合理、層級結構更清晰,在實際管理工作中更加具有指導性和可操作性,也為自動分類提供了科學指導和實踐依據[4]。

醫療器械注冊證是指醫療器械產品的合法身份證[5],包括產品名稱、注冊證編號等重要信息。醫療器械注冊證編號由6個部分組成,基本編排方式為:×1械注×2××××3×4××5××××6,其中×1為注冊審批部門所在地的簡稱;×2為注冊形式;××××3為首次注冊年份;×4為產品管理類別;××5為產品分類編碼;××××6為首次注冊流水號[6]。由此可見,通過注冊證信息可以建立起產品名稱與產品管理類別的對應關系,并由此為自動分類提供必備材料。

近年來,研究人員利用大量數據“訓練”機器,讓機器自己去學習,然后對世界上的某件事情做出決定或預測,這一類方法被稱為機器學習[7]。在機器學習中,文本分類是最常見的問題,也是應用最為廣泛的領域之一,在新聞分類、輿情監測、智能分診、商業決策和垃圾郵件過濾等眾多領域都有著重要應用[8]。因此,拋棄以往手工分類的管理方式,引入機器學習和自然語言處理領域的經典算法,以新版《醫療器械分類目錄》為標準,依據醫療器械注冊證的關鍵信息對醫療器械進行產品類別劃分,從而實現醫療器械自動分類與預測,是本文研究的主要課題。

1? 材料與研究方法

1.1? 數據收集

本文以境內醫療器械為主要研究對象,為了獲得足夠大的研究樣本量,從國家藥品監督管理局網站公開的醫療器械數據查詢欄目中,下載境內二類以上醫療器械注冊條目信息90 249條作為原始數據集,各個數據條目包括了產品名稱、產品分類編碼、產品管理類別等有助于自動分類的關鍵信息,文本數據示例見表1。

新版《醫療器械分類目錄》以“總局關于發布醫療器械分類目錄的公告(2017年第104號)”中的附件為準,從國家藥品監督管理局網站下載可得,新版《醫療器械分類目錄》提供了22個完整的產品分類編碼,以及與之對應的6 609個典型產品名稱舉例。

1.2? 數據處理及算法研究

本文的原始數據集采用新版《醫療器械分類目錄》與國家藥品監督管理局網站公開的醫療器械注冊條目信息共計9萬余條。如圖1所示,原始數據集在經過數據預處理、分詞和去停用詞、文本向量化、文本特征提取后,將按照4∶1的比例劃分為訓練數據集與測試數據集,并提供給Scikit-learn(簡稱sklearn)機器學習庫中的svm模塊、naive_bayes模塊,以及neighbors模塊構建的支持向量機(SVM)、樸素貝葉斯、K近鄰(KNN)3種分類器進行模型訓練及類別預測,同時返回評估算法與分類模型的關鍵性能指標進行模型效果對比驗證。

2? 實驗結果與分析

2.1? 數據預處理

在使用數據之前,有必要對原始數據進行預處理。本文使用Python語言進行編程實現境內醫療器械注冊條目數據的預處理工作,包括拆分原始數據,提取有用信息,處理缺失值、異常值并制作訓練數據集與測試數據集。如注冊條目數據“數字乳腺X射線攝影系統 (上海聯影醫療科技股份有限公司 滬械注準20192060485)”,將該條目進行拆分,可獲得產品名稱為“數字乳腺X射線攝影系統”,首次注冊年份為“2019”,產品管理類別為“2”類,產品分類編碼為“06”,對應新版《醫療器械分類目錄》中22個產品分類編碼下的“06 醫用成像器械”,與品名舉例中的“乳腺X射線機、數字化乳腺X射線機”高度相似。

2.2? 分詞和過濾

中文不同于英文,英文是以詞為單位的,詞與詞之間以空格分隔,而中文則是以字為單位,須要使用專門的分詞工具將中文字符序列通過分詞劃分為逐個的詞語,以作為文本向量化和計算機算術運算的基礎[9]。jieba庫是一款優秀的Python第三方中文分詞庫,通過jieba庫可完成中文分詞這一過程。與此同時,將產品名稱中一些非語義特征的字母和數字符號過濾可提高中文匹配的準確度,而且可以節省計算機的內存空間和計算時間。“數字乳腺X射線攝影系統”和“醫用血管造影X射線系統”在經過jieba精確分詞模式處理后,可分為[‘數字,‘乳腺,‘X射線,‘攝影,‘系統]、[‘醫用,‘血管,‘造影,‘X射線,‘系統]。

2.3? 文本向量化

經過數據清洗、中文分詞、去除停用詞之后得到的文本數據是中文詞語的集合,對于這種詞語數據集,計算機不能直接識別和處理,因此需要使用向量空間模型將詞匯映射到向量空間中進行數值化表示,同時數值型數據也可以提升計算機分析處理的運算速度。如果整個醫療器械詞語字典由{‘X射線,‘乳腺,‘醫用,‘攝影,‘數字,‘系統,‘血管,‘造影}組成,若想要向量化文本“數字乳腺X射線攝影系統”,其在分詞后可以轉換為以下向量:(1,1,0,1,1,1,0,0)。

2.4? 文本特征提取

在向量空間模型中,為了區別文本的特征,需要對文本中的核心字詞進行特征提取,并將其作為文本分類的主要依據。因此,本文引入了TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆文件頻率)算法進行文本特征提取。TF-IDF是一種用于信息檢索與數據挖掘的加權技術,其本質是一種統計方法,可以用來衡量字詞對于文本的重要程度。該方法的基本原理是:根據某個詞語在某篇文章中出現的頻率以及該詞在語料庫中出現的頻率來綜合評估該詞對分類的影響,詞的重要性僅與上述的2個頻率值有關。通過引入TF、IDF 2個指標,能使特征詞權重計算結果更加精確,文本分類準確性更高。經過TF-IDF特征提取后,文本“數字乳腺X射線攝影系統”的向量化表示(1,1,0,1,1,1,0,0),可以進一步轉化為(0.355 200 09,0.499 221 33,0,0.499 221 33,0.499 221 33, 0.355 200 09,0,0)。

2.5? 分類器構建及模型驗證

由上文所述,選擇使用向量空間模型和TF-IDF算法的目的,就是為了使醫療器械文本特征向量可以使用分類算法進行類別劃分,因此選擇何種分類算法將會直接決定分類與預測結果的優劣。

在中文短文本分類領域,常用的分類方法有K近鄰算法(KNN)、樸素貝葉斯算法、支持向量機算法(SVM)和決策樹算法等[10]。其中,KNN算法是一種應用于數據分類和預測的分類算法,它的基本原理是對于一個指定的預測樣本,KNN分類模型會從訓練數據集中找到與其距離最近的k個樣本,如果k個最近鄰樣本中的大多數屬于某一個類別,則該樣本也屬于這個類別。KNN算法既可以處理二分類任務,又可以處理多分類任務[11]。樸素貝葉斯是建立在概率統計基礎上的一種分類模型,該模型主要基于貝葉斯定理和特征條件獨立性假設來實現分類。算法的第一步是得到文本中每個詞屬于某一類別的概率,然后根據條件獨立性假設,可計算出文本屬于某一類別的概率,或者某一類概率最高。樸素貝葉斯算法具備非常快的訓練和預測速度,適用于實時分類任務[12]。SVM算法是一種基于統計學習理論的分類算法,它可以根據有限的樣本數據,結合結構風險最小原理,將原低維空間中的非線性問題變換為高維空間中的線性問題來進行計算,并最終得出分類結果。SVM算法在小樣本、非線性及高維分類問題中具有獨特優勢[13]。

本文主要選取了機器學習的3種經典算法(KNN算法、樸素貝葉斯算法、SVM算法)進行文本分類測試,并通過實驗比較這3種算法的分類效果。本實驗采用基于Python語言的sklearn機器學習算法庫,使用sklearn庫中naive_bayes模塊、neighbors模塊以及svm模塊構建的3種分類器進行模型訓練及類別預測,同時返回評估算法與分類模型的關鍵性能指標——準確率(Accuracy)、精確率(Precision)、召回率(Recall)和綜合評價指標(F1-Measure)。其中,準確率是對模型預測的正確數量所占總預測數量的比例進行評估的一項指標;精確率表示分類后的某個類別中正確分類的樣本占該類樣本的比例;召回率表示分類模型正確分類的樣本數占該類別總樣本數的比例;綜合評價指標是精確率和召回率的加權調和平均,常用于評價不同分類模型的優劣。樸素貝葉斯、SVM和KNN 3種算法的對比實驗結果見表2,其中最優指標加粗表示。

從整體的實驗結果來看,SVM算法的整體分類準確率達到86.2%,綜合評價指標也達到最高的84.1%,其中精確率高達90.2%,在本數據集上表現出較好的分類效果。樸素貝葉斯算法的分類表現整體優于KNN算法,召回率達到最高的82.6%,但是分類效果與SVM算法仍然存在差距。

3? 結束語

醫療器械具有多學科交叉、知識密集型等特點,產品繁多,組成迥異,風險跨度大,從最簡單的檢查手套、紗布、繃帶,到高技術含量的直線加速器、磁共振、CT等,都屬于醫療器械的范疇。科學合理地對其進行分類編碼是醫療器械精細化管理的基石,發揮著舉足輕重的作用。針對產生的大量醫療器械名目數據,人工分類存在效率低、成本高、專業難度大等問題,所以需要機器替代人工來進行分類。

本文為解決傳統的醫療器械人工分類費時又費力的問題,以新版《醫療器械分類目錄》為標準,提取醫療器械注冊證的關鍵信息作為語料庫,分別采用樸素貝葉斯算法、SVM算法、KNN算法進行了醫療器械自動分類實驗。從實驗結果的對比分析來看,SVM算法的總體表現更為優秀,在精確率方面有著最高的數值,能夠有效地處理產品名稱描述的文本分類問題,可達到較好的醫療器械分類效果。KNN算法在整體分類上的表現欠佳。樸素貝葉斯算法的表現相對好于KNN算法,但是仍與SVM算法有一定的差距。

參考文獻:

[1] 華長江,許鳴,張亮.醫療設備的分類管理研究[J].醫療衛生裝備,2014,35(10):133-135.

[2] 李文兵,王學軍.醫療器械分類編碼在醫院固定資產管理中的應用[J].醫療衛生裝備,2015,36(7):130-133.

[3] 母瑞紅,余新華.新版《醫療器械分類目錄》使用時應注意的問題和建議[J].中國醫療器械信息,2019,25(19):23-24,129.

[4] 侯羿,李子木,房琦,等.新版《醫療器械分類目錄》在醫療器械招標采購工作中的應用[J].醫療衛生裝備,2021,42(4):85-88.

[5] 李非.我國醫療器械注冊管理體系研究[D].沈陽:沈陽藥科大學,2019.

[6] 王蘭明.中國醫療器械注冊管理工作的現狀與思考[J].中國醫療器械信息,2012,18(11):28-34,39.

[7] MARC G, GENTON. Classes of kernels for machine learning: a statistics perspective[J].Journal of Machine Learning Research, 2002,2(2):299-312.

[8] WANG B K, HUANG Y F, YANG W X, et al. Short text classification based on strong feature thesaurus[J].Journal of Zhejiang University-Science C(Computers & Electronics),2012,13(9):649-659.

[9] 何莘,王琬蕪.自然語言檢索中的中文分詞技術研究進展及應用[J].情報科學,2008(5):787-791.

[10] 劉碩,王庚潤,李英樂,等.中文短文本分類技術研究綜述[J].信息工程大學學報,2021,22(3):304-312.

[11] 耿麗娟,李星毅.用于大數據分類的KNN算法研究[J].計算機應用研究,2014,31(5):1342-1344,1373.

[12] 賀鳴,孫建軍,成穎.基于樸素貝葉斯的文本分類研究綜述[J].情報科學,2016,34(7):147-154.

[13] 丁世飛,齊丙娟,譚紅艷.支持向量機理論與算法研究綜述[J].電子科技大學學報,2011,40(1):2-10.

猜你喜歡
機器學習信息化
月“睹”教育信息化
月“睹”教育信息化
幼兒教育信息化策略初探
甘肅教育(2020年18期)2020-10-28 09:06:02
“云會計”在中小企業會計信息化中的應用分析
活力(2019年21期)2019-04-01 12:16:40
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
基于支持向量機的金融數據分析研究
機器學習理論在高中自主學習中的應用
信息化是醫改的重要支撐
中國衛生(2014年1期)2014-11-12 13:16:34
主站蜘蛛池模板: 精品少妇人妻无码久久| 麻豆a级片| 亚洲国产成人在线| 1级黄色毛片| www.99在线观看| 制服无码网站| 亚洲91精品视频| 亚洲大学生视频在线播放| 久久男人视频| 久久综合结合久久狠狠狠97色| 污网站在线观看视频| 亚洲欧洲美色一区二区三区| 国产一级做美女做受视频| 久久精品国产免费观看频道| 亚洲综合色婷婷中文字幕| 日本日韩欧美| 久草视频精品| 国产一级裸网站| 国产又粗又猛又爽视频| 丝袜久久剧情精品国产| 国产亚洲视频在线观看| 她的性爱视频| 1769国产精品视频免费观看| 91欧洲国产日韩在线人成| 国产无码精品在线播放| 五月激激激综合网色播免费| 99精品影院| 爱做久久久久久| 精品一区二区三区中文字幕| 日本免费一级视频| 青青草国产在线视频| 伊人AV天堂| 久久久久久国产精品mv| 欧美亚洲第一页| 露脸国产精品自产在线播| 久久国产精品夜色| 亚洲另类色| 91香蕉国产亚洲一二三区| 日韩国产欧美精品在线| 日韩亚洲综合在线| 全部无卡免费的毛片在线看| 久久久久久久久亚洲精品| 国产成人免费观看在线视频| 欧美日韩国产在线播放| 五月婷婷丁香综合| 午夜精品国产自在| 欧美精品v欧洲精品| 91无码视频在线观看| 97精品国产高清久久久久蜜芽 | 婷婷色在线视频| 久久久成年黄色视频| 99久久这里只精品麻豆| 亚洲人成网站色7777| 狠狠v日韩v欧美v| 亚洲国产欧美目韩成人综合| 99免费视频观看| 97超爽成人免费视频在线播放| 国产一区亚洲一区| 国产精品漂亮美女在线观看| 成人国产精品一级毛片天堂| 2021国产v亚洲v天堂无码| 精品免费在线视频| 在线亚洲精品福利网址导航| 中文字幕欧美成人免费| 亚洲bt欧美bt精品| 欧美日韩国产一级| 国产91熟女高潮一区二区| 五月天香蕉视频国产亚| 一本大道东京热无码av| 成人精品亚洲| 无码中字出轨中文人妻中文中| 亚洲天堂精品视频| 国产欧美日韩va| 国产网站免费| 成人免费视频一区二区三区| 人妻一区二区三区无码精品一区| 2020精品极品国产色在线观看 | 婷婷六月综合| 91精品国产自产在线老师啪l| 欧美有码在线| 91精品专区| 婷婷六月天激情|