999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于組合語義相似度計算的疾病術語自動編碼

2020-09-02 07:14:46黃嘉俊
微型電腦應用 2020年8期
關鍵詞:語義方法

摘要:

當前國內醫療機構疾病編碼主要采用國際疾病分類ICD10標準并由人工完成,人工工作量大、時間成本高。提出了一種基于組合語義相似度技術進行疾病術語自動編碼的方法,其基于領域知識庫結合分詞、實體識別和詞向量表示技術進行術語相似度計算。通過在婦產科疾病中的應用表明,該方法在術語自動編碼精度能達到80%以上,可以有效輔助臨床醫生書寫診斷編碼,減少病案科審核工作量,提升總體工作效率。

關鍵詞:

自動編碼; 語義相似度; 實體識別; 詞向量

中圖分類號: TP 311

文獻標志碼: A

Automatic Coding Method for Disease Term Based on

Combined Semantic Similarity Calculation

HUANG Jiajun

(Information Department, Shanghai Changning Maternity & Infant Health Hospital, Shanghai 200050, China)

Abstract:

Currently, the national medical institutions mainly adopt the ICD10 standard for the disease code,and it iscompleted manually. The large amount of manual work and time cost are the main problems that we are facing. This paper proposes an automatic coding disease terms methodbased on domain knowledge, entity recognition and Word2vec technology for term similarity calculation. The application in the digestive diseases shows that the method can achieve more than 80% accuracy in the term automatic coding, which can effectively assist the clinician to write the diagnosis code, reduce the workload of the medical record review, and improve the overall work efficiency.

Key words:

automatic encoding; semantic similarity; entity identification; word embedding

0引言

近年來,隨著醫療信息化程度不斷加深以及國家衛計委對于全國醫療術語統一規范化的持續推進,各醫療機構對于醫生病歷書寫規范化要求進一步加強。根據衛生部門要求當前醫療機構對于臨床電子病歷信息系統(clinical electronic medical recordinformation system,CEMRIS)中疾病的診斷必須進行術語編碼。電子病歷 (electronic medical record,EMR)[12]作為病人入院就診信息的基本載體,記錄了大量有意義的信息,而這些病歷信息大多以自由文本形式存在,很難直接分析利用,并且由于醫生個人書寫習慣以及術語表達多樣性的因素,導致當前電子病歷書寫很難規范統一,通常存在縮寫,異型,拼寫錯誤或采用院內術語標準等。充分挖掘這些非結構化的電子病歷信息并實現術語統一編碼,尤其是疾病術語編碼,對于當前研究的疾病輔助診療、科研檢索、疾病分組(Diagnosis Related Groups, DRGS)以及智能醫保控費的研究具有重要的現實意義。

當前國內的疾病診斷術語編碼主要采用的是ICD10疾病編碼的標準體系(國際疾病分類,第10次修訂本),其是一套由世界衛生組織(WHO)制定的國際統一系統組織的關于疾病分類的術語標準集,它根據疾病的病因、病理、臨床表現和解剖位置等特性,將疾病分門別類,使其成為一個有序的組合,并用編碼的方法來表示的系統[3]。由于大多數臨床醫師對于該標準不是很了解,對于疾病的診斷書寫較為隨意,這樣就需要專業的編碼人員對臨床醫生的診斷進行二次編碼,而專業編碼人員必須了解編碼規則和相關專業知識,總體學習成本較高,并且人工編碼總體效率低下[4]。因此研究一種自動疾病術語匹配標準ICD10編碼技術對于推進醫療信息標準化建設以及編碼人員的工作量,提高工作效率具有重要的現實意義。

1當前現狀

針對術語診斷編碼問題,已有大量的醫生和技術人員進行了研究和探索,目前主要分為三類方法,即基于人工手動結合規則匹配進行編碼的方法、基于自然語言的有監督學習自動編碼技術和無監督學習自動編碼技術。從當前結果看,三類方法各有所長和不足,人工加規則的方法匹配精度較高,但是效率低下,并且該方法無泛化性能,無法滿足實時性需求。無監督編碼存在匹配精度不高,編碼人員校驗工作量大的問題,但是無需前期人工標注語料,該方法是當前需要重點研究和突破的領域。監督學習編碼算法匹配算法則是當前主流的應用方法,從目前看,其總體性能和精度表現優于前兩種方法。

文章在基于前人的研究基礎上,提出了一種組合語義相似度的疾病術語自動編碼技術,該方法針對現有術語匹配算法的優缺點進行改進組合,結合語義表示、分詞和實體識別技術進行語義相似度計算,能夠針對醫生書寫的疾病診斷術語快速生成其對應的標準ICD10術語及編碼。

2方法實現

組合語義相似度的疾病術語自動編碼技術主要包括術語拆分、術語識別和術語相似度計算三項任務。其中術語拆分即,對于疾病中的診斷術語進行分詞,生成最小粒度的術語;術語識別則是在第一部分拆分的基礎上識別小粒度的術語實體類型;術語相似度計算則是綜合評估原詞各部分與標準術語集目標術語相似度并根據歷史數據生成各部分權重從而計算原詞與標準術語詞相似度[5]。總體實現方法如圖1所示。

ICD10標準術語集Similarity=Softmax(wordj)wordj=∑wi*parti

2.1診斷疾病術語拆分與實體識別

從ICD10的編碼規范可知,當前診斷術語均由其更小粒度的“細目”構成,如“乳腺纖維囊性乳腺病”可以由“部位”+“性質”+“疾病”構成,即為“乳腺/部位”+“纖維囊性/性質”+“乳腺病/疾病”。又如ICD10中對疾病不同程度分別有不同的編碼,N81.251為Ⅰ度子宮脫垂,N81.252為Ⅱ度子宮脫垂,N81.351為Ⅲ度子宮脫垂。基于ICD10編碼的特點,我們對現有疾病按照發生方位、部位、程度、性質等屬性信息以及核心疾病實體進行拆分,將一個完整疾病看作“核心實體”+“屬性信息”的組合。

實現術語小粒度的切分可由采用基于統計模型的方法和基于領域詞庫的方法+統計模型方法,其中第一種方法當前主流技術為基于條件隨機場(Conditional Random Filed, CRF) +詞性特征或基于字/詞語向量BI_LSTM+CRF的深度模型的技術,第二種方法則是采用領域詞庫結合隱馬爾科夫模型(Hidden Markov Model, HMM)進行未登錄詞的識別。由于我們前期整理了部位、方位、程度等屬性詞庫以及核心疾病術語詞庫,故我們采用了第二種技術方案進行術語的識別。實驗中,將該部分領域詞庫結合自主研發的自然語言處理組件中進行細粒度術語切分和實體識別功能,總體準確率97%以上。

2.2語義相似度計算

文章提出的語義相似度計算包括基于字符串的相似度計算s1、基于細粒度實體屬性相似度計算s2以及基于詞向量語義相似度的相似度計算s3,根據三部分的相似度計算分別給出對應權重Wi,并給出源詞語與標準ICD10疾病術語的相似度,并將最高相似度的結果作為源詞語的最終術語編碼。組合語義相似度計算過程如圖2所示。

2.2.1基于字符串相似度計算

字符串相似度的計算方法已有較多研究成果,現有算法主要考慮字符匹配個數,字符順序以及字符距離等信息,文章采用了編輯距離jaroDistance(JD)和JaroWinklerDistance(JWD)字符串相似度的度量方法。前者又稱為Levenshtein距離,是指兩個字串之間,由一個轉成另一個所需的最少編輯操作次數,如式(1)。JWD為JD的改進,其通過設置preLen的開頭匹配來增加匹配置信度[6],

如式(1)、式(2)。

式(1)中m是匹配數目(保證順序相同),|s|為字符串長度,t是換位數目,

式(2)中JD(s1,s2)是兩個字符串的JD,prelen是前綴相同的長度,但是規定最大為4,

prescale則是一個恒定調整分數的比例因子,規定不能超過0.25,而Winkler將這個常數定義為0.1。

對于給定的兩個字符串,此處如術語s1“乳腺纖維腺瘤”與s2“乳腺良性腫瘤”、s3“乳腺炎”、s4“乳腺腫瘤”,通過計算JWD(s1,s2)、

JWD(s1,s3)和JWD(s1,s4)可以給出相似度分別為0.85和0.6和0.73。同樣的,還可以計算“乳腺纖維腺瘤”與“乳腺纖維瘤”的相似度為0.98。觀察發現該距離度量方法能夠從字面度量短語相似性,但是對于異形詞以及形態極度相似的術語沒有較好的識別能力。

2.2.2基于遠程監督的相似度評估

該方法是為了解決術語編碼中出現的異形詞語而剔除的解決方法,其核心思想是通過小粒度同義詞轉化實現大粒度術語的相似度計算。常見的同義異形詞語如“卵巢瘤樣病變”與“卵巢囊腫”,可以直接通過遠程監督[7]方法可以實現小粒度實體術語對齊。此處遠程監督算法主要通過利用開源醫療術語集合實現術語匹配[89],如百度百科中的醫療術語集合就是一個非常豐富的外源同義詞庫。結合小粒度分詞和實體識別以及遠程監督能夠很大程度識別異性詞語的識別問題。

2.2.3詞向量語義相似度評估

詞向量語義相似度是一種從詞語語義層面評估詞語相似度的方法,其通過詞向量化表示術語語義,并通過向量相似度計算兩個術語間的關系。目前主要采用Google開源的Word2vec進行詞向量的表示,代表性的算法分為CBOW(詞袋模型)[10]和

SkipGram[11]兩種,其通過對文本內容的處理簡化為K維向量空間中的向量運算,而向量空間上的相似度可以用來表示文本語義上的相似度。因此, Word2vec輸出的詞向量可以被用來作查找同義詞的任務。

對于訓練完成的詞語詞向量表示,文章采用余弦相似度來度量詞語相似度,相似度處于0-1之間,值越大代筆相似度越小,值越小則相似度越高。

其中,vs1表示s1的詞向量表示。如式(3)。

2.3語義相似度融合

針對上述3中相似度度量方法,實驗采用線性組合方法進行融合得到源術語與每個ICD10術語的相似度,通過softmax將最終輸出相似度歸一到[0,1]之間,最終,選出相似度最高的ICD10術語為源術語的編碼。如圖2所示。

3實驗結果分析

實驗數據來源于長寧區婦幼保健院婦產科病歷文書、病案首頁和門診診斷數據,其中病歷文書診斷抽取通過自然語言處理工具進行提取,將三部分診斷疾病術語整合,共得230 840條數據,剔除重復診斷數據后11 300條。實驗中,ICD10選用國際疾病分類標準編碼(國標版)。實驗過程按照第2章中所描述的網絡搭建方式,先對疾病中的診斷術語采用領域詞庫結合隱馬爾科夫HMM模型進行細粒度術語切分和實體識別,再利用同義詞詞庫進行同義詞轉換,最后分別按照三種語義相似度計算方式(基于字符串的相似度計算s1、基于細粒度實體屬性相似度計算s2以及基于詞向量語義相似度的相似度計算s3)進行概率相似度計算,取出5 000個診斷結果進行人為校驗評估匹配結果。具體結果如表1,表2所示。

表1為使用組合語義相似度進行疾病術語編碼的方法,匹配結果分為同位匹配和上下位匹配兩種形式,并均算入匹配正確序列。其中,同位匹配是指術語能夠完全匹配,即,同義詞的概念,如“子宮肌瘤”,匹配“子宮平滑肌瘤”。而上位匹配是指術語在沒有找到其同義詞的情況下匹配父類節點的情形,如“左乳腺浸潤性導管癌II級(T2N2M0)”無法在ICD10中查詢到其同位詞語細分,故將其歸為“乳腺惡性腫瘤”大類,此時認為此種匹配正確。表2從總匹配率上對比基于字符串的相似度s1、基于細粒度實體屬性相似度s2以及基于詞向量語義相似度的相似度s3以及組合語義相似度s進行疾病術語自動編碼的方法。

從實驗結果可以看到基于組合語義相似度進行術語自動編碼的方法由于其他三種相似度計算方法。對于組合語義相似度計算,在相似度概率為0.9及以上時,同位詞語匹配量遠大于上位詞匹配,可信度較高,在0.8以上時同位詞識別數量明顯小于上位詞,并且匹配精度隨匹配相似度概率逐漸降低。從同位詞與上位詞占比來看,上位詞總體占比較大,說明有較多診斷術語并沒有找到完全匹配的同義詞語。

4總結

文章提出了一種基于組合語義進行相似度計算的疾病術語自動編碼技術方案,技術能夠實時快速實現疾病術語的自動高效編碼。該研究成果可以應用于臨床醫生電子病歷輔助書寫以及病案科歷史病歷診斷編碼工作。從實驗結果可以看到較多術語尚未找到同位詞語,故后續需要通過校驗拓展同義詞術語庫以及ICD10診斷編碼,從而使更多診斷術語能夠歸一到同位詞標準編碼。

參考文獻

[1]Hornberger J. Electronic Health Records: a guide for clinicians and administrators[J]. JAMA, 2009, 301 (1): 110.

[2]Meystre S M, Savova G K, KipperSchuler K C, et al. Extracting Information from Textual Documents in the Electronic Health Record: a review of recent research[J]. Yearbook of Medical Informatics, 2008(35): 128144.

[3]Grider D J. Principles of ICD10CM Coding Third Edition[M]. American Medical Association Press. United States of America, 2014.

[4]Pereria S, Neveol A, Massari P, et al. Construction of a Semiautomated ICD10 Coding Help System to Optimize Medical and Economic Coding[J]. MIE, 2006: 845850.

[5]劉群,李素建.基于《知網》的詞匯語義相似度計算[C].第三屆漢語詞匯語義學研討會論文集.臺北,200208:5976.

[6]Cohen W W, Ravikumar P,Fienberg S E. A comparison of string distance metrics for namematching tasks[J]. KDD Workshop on Data Cleaning and Object Consolidation,2003(3): 7380.

[7]Mintz M, Bills S, Snow R, et al. Distant supervision for relation extraction without labeled data[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Association for Computational Linguistics, 2009(2):10031011.

[8]白龍,靳小龍,席鵬弼,等.基于遠程監督的關系抽取研究綜述[J]. 中文信息學報, 2019, 33(10): 1017.

[9]蔡強,郝佳云,曹健,等.采用多尺度注意力機制的遠程監督關系抽取[J].中文信息學報, 2018, 32(1): 96101.

[10]姜霖,王東波.采用連續詞袋模型(CBOW)的領域術語自動抽取研究[J].現代圖書情報技術, 2016(2):911.

[11]黃艷群,王妮,劉紅蕾,等.基于Skipgram詞嵌入算法的結構化患者特征表示方法研究[J].北京生物醫學工程, 2019, 38(6): 568574.

(收稿日期: 2020.06.27)

作者簡介:

黃嘉俊(1982),男,碩士,高級工程師,研究方向:醫院信息管理、云計算等。

文章編號:1007757X(2020)08015704

猜你喜歡
語義方法
語言與語義
學習方法
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
認知范疇模糊與語義模糊
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 亚洲精品国产乱码不卡| 亚洲成a人片| AⅤ色综合久久天堂AV色综合| 99精品欧美一区| 久久情精品国产品免费| 精品亚洲麻豆1区2区3区| 国产精品女人呻吟在线观看| 久久国产免费观看| 九九视频在线免费观看| 波多野结衣中文字幕久久| 狠狠综合久久| 国产成人精品免费视频大全五级| 伊人成人在线视频| 2021最新国产精品网站| 国产精品夜夜嗨视频免费视频| 最新痴汉在线无码AV| 日韩A∨精品日韩精品无码| 综合色区亚洲熟妇在线| 最新无码专区超级碰碰碰| 黄色网址手机国内免费在线观看| 欧洲亚洲一区| 国产一区二区三区免费观看| 亚洲视频欧美不卡| 日韩欧美中文亚洲高清在线| 国产乱人免费视频| 午夜一区二区三区| 久久综合丝袜长腿丝袜| 毛片视频网| 波多野吉衣一区二区三区av| 免费无遮挡AV| 午夜日本永久乱码免费播放片| 欧美一级专区免费大片| 亚洲人成日本在线观看| 国产精品福利尤物youwu | 国产日韩久久久久无码精品| 欧美精品亚洲日韩a| 欧美精品一二三区| 亚洲乱强伦| 在线观看亚洲人成网站| 在线国产毛片| 午夜精品一区二区蜜桃| 人妻91无码色偷偷色噜噜噜| 中文字幕在线看| 久久精品国产国语对白| 亚洲不卡无码av中文字幕| 欧美日韩精品综合在线一区| 最新国产成人剧情在线播放| 无码人中文字幕| 日本91在线| 91精品日韩人妻无码久久| 91小视频在线播放| 欧美国产精品不卡在线观看| 青草国产在线视频| 首页亚洲国产丝袜长腿综合| 亚洲欧州色色免费AV| 色欲综合久久中文字幕网| 久久久久久久久18禁秘| 国产成人资源| 亚洲第一综合天堂另类专| 美女啪啪无遮挡| 亚洲无线一二三四区男男| 亚洲国产成人麻豆精品| 思思热精品在线8| 制服丝袜一区| 欧美97欧美综合色伦图| 国产精品无码制服丝袜| 无码内射在线| 国产91小视频在线观看| 亚洲综合极品香蕉久久网| 极品私人尤物在线精品首页| 强奷白丝美女在线观看| 一区二区日韩国产精久久| 亚洲午夜18| 欧美a级在线| 国产在线一区视频| 国产十八禁在线观看免费| 91视频日本| 波多野结衣二区| av在线人妻熟妇| 伊人蕉久影院| 亚洲无码久久久久| 欧美成人午夜影院|