999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SNOMED-CT的醫療術語語義相似度計算方法

2021-02-16 00:40:10呂曉云
天津理工大學學報 2021年6期
關鍵詞:語義單詞概念

戴 敏,朱 森,呂曉云

(天津理工大學計算機科學與工程學院,天津 300384)

醫療物聯網(internet of medical things,IoMT)技術的發展推進了醫療服務、醫療保健的普及和發展。許多基于IoMT的工具、軟件和設施已用于遠程健康跟蹤、身體恢復鍛煉、慢性病人群和老年人群的護理[1-2]。當健康數據關聯到具體的個體時,若處理不當,可能會引發嚴重的用戶隱私曝光問題。

在醫學領域內已經制定了關于隱私保護的正式條例,如《健康保險攜帶和責任法案》規定了在醫療文件允許發布之前應刪除個人可識別信息[3]。美國許多州和聯邦法律也規定,在向第三方發布醫療記錄之前,必須對艾滋病狀況、藥物或乙醇濫用以及精神健康狀況等因素進行脫敏[3-5]。

醫療文本中很多文本術語在語義上都是相關的,單純刪除或涂黑敏感術語(如艾滋病)可能會提高潛在攻擊者的警覺性,并且未處理的語義相關術語(如免疫系統、流感和無保護的性行為)可能會增大敏感術語被揭露的風險[6]。因此,如何用語義泛化的形式來處理敏感術語,以及如何發現和處理語義相關術語成為了醫療文本脫敏工作的重點[7]。

文獻[8]提出了一種基于信息量(information content,IC)的醫療文本自動脫敏方法,該方法不僅對敏感術語進行脫敏,還檢測了語義相關的術語。該方法以搜索引擎必應(https://cn.bing.com)鏈接的資源來計算IC值以確定敏感詞,并利用知識庫將其泛化為通用術語。但互聯網中的數據存在流動性的特點[9],特定醫療數據在搜索引擎中所鏈接的資源的稀疏性受階段性流行病和社會輿論指向的影響。另外,依照數據稀疏性來判斷術語敏感與否,可能會使一些非常用的非敏感術語被識別為敏感術語。

醫學術語系統命名法-臨床術語(systematized nomenclature of medicine-clinical terms,SNOMEDCT)作為世界上最全面的臨床醫療術語,在國際上的臨床醫學數據分析的研究中應用極為廣泛[10-12]。因其收錄的大量醫學概念及詳細的分類結構,已被許多科研工作者用作醫療文本脫敏的知識庫[13-14]。本文在分析SNOMED-CT結構的基礎上,提出了一種基于SNOMED-CT的語義相似度計算方法,該方法可以有效地應用于醫療文本的語義脫敏。

1 SNOMED-CT結構分析

SNOMED-CT是目前最為全面的國際標準醫學術語系統,包含30多萬個醫學概念和130多萬個關系[15]。因具備完整、穩固的語義基礎和結構化的術語表達形式,被醫學領域許多信息模型指定為標準編碼系統,在國際醫療與健康領域中有著廣泛地應用。

SNOMED-CT概念模型由概念、描述和關系組成,并采取統一的數字標識符來唯一地表示各個概念、描述和關系,SNOMED-CT的邏輯結構如圖1所示,其中概念關系可分為2大類。

第1類是繼承關系(“IS_A”關系),又稱“上下位關系”或“父子關系”,從縱向上連接語義上具有包含與被包含關系的概念。IS_A關系是SNOMED-CT建立概念分類層級體系的基礎,眾多語義上具有包含與被包含的概念基于IS_A關系縱向聚合,形成了SNOMED-CT中不同的概念分類層級體系。除了頂級的“根概念”——“SNOMED Concept”外,每個概念均至少有一個IS_A關系與上位概念相關聯。

第2類是“概念模型屬性”關系,從橫向上連接兩個概念并確定概念間的語義關系[16]。如圖1中的“肺炎—肺結構”、“氣管支氣管炎—氣管支氣管結構”等都是概念模型屬性關系。SNOMED-CT實際運用了60種概念模型屬性,形成了數十萬條的橫向語義關聯關系。

圖1 SNOMED-CT的邏輯結構Fig.1 Logical structure of SNOMED-CT

2 語義相似度計算方法

結合SNOMED-CT的結構特點,本文利用SNOMED-CT中的2類概念關系來計算醫療術語的語義相似度,即計算2個概念的語義相似度時考慮2個因素:概念的具體化程度和語義距離。

2.1 具體化程度

在如圖1所示的SNOMED-CT的邏輯結構中,概念所在的層次(深度),即概念節點與根節點之間的縱向關系距離(即“IS_A”關系數量),代表了概念描述內容的具體化程度。每一層都是對上層概念的具體化,也是對下層概念的泛化,故深度越大,具體化程度越高。設c1和c2是SNOMED-CT中的2個概念,則這2個概念節點的具體化程度可表示為:

式中,h代表c1和c22個概念節點的最小公共祖先的深度。最小公共祖先的深度越大,概念的具體化程度越高,反之亦成立。

2.2 語義距離

在SNOMED-CT的邏輯結構中,概念節點之間的橫向關系距離(即“概念模型屬性”關系數量)代表了2個概念之間的語義距離。設c1和c2是SNOMED-CT中的2個概念,可以用兩個概念節點之間的最短路徑長度描述2個概念的語義距離,其公式為:

式中,d是概念節點c1和c2之間的最短路徑。

由此可見,兩個概念節點之間的最短路徑距離越大,它們之間的語義距離就越大,反之亦成立。

2.3 術語相似度的計算公式

綜合考慮SNOMED-CT中2個概念間的2類關系,2個概念的相似度計算公式為:

由于一個單詞可能具有多種概念含義,本文用與單詞相關的概念的相似度最大值來描述單詞之間的語義相似度。設單詞q1具有多個概念(c11,c12,…,c1a),單詞q2具有多個概念(c21,c22,…,c2b),則2個單詞q1,q2間的語義相似度的計算公式為:

一篇醫療文本中包含若干醫療術語,每個醫療術語通常由若干單詞組成。假設術語p1包含多個單詞(q11,q12,…,q1m),術語p2包含多個單詞(q21,q22,…,q2n),則2個術語之間的語義相似性的計算公式為:

3 實驗及結果分析

本文實驗數據為從維基百科(Wikipedia)選擇的6類共42篇醫療文本,這些文本分別從醫學角度描述了性傳播疾病、艾滋病毒、艾滋病、精神障礙和藥物濫用。為了評估本文方法的有效性,以2名醫療專家對各文本進行手動脫敏的結果為參照標準,從脫敏精度和實用度兩方面對本文方法與基于IC的脫敏方法進行了比較。

3.1 脫敏精度評估

本文用3個指標來評價脫敏的精度,分別是精準度(precision)、召回率(recall)和F-度量(Fmeasure,Fmea)。

精準度用來描述自動脫敏方法識別出敏感術語的準確率,其計算公式為:

式中,A代表自動脫敏識別出的敏感術語,B代表手動脫敏識別出的敏感詞。Ppre越高,表明自動脫敏識別敏感術語的準確率越高。

召回率用來描述自動脫敏方法對文本中敏感術語的識別率,其計算公式為:

Prec越高,說明敏感術語的識別率越高。在文本脫敏過程中,Prec通常比Ppre更重要,若Prec過低,則意味著有更多敏感術語未被識別出來,文本披露隱私風險越高。

Fmea用Ppre和Prec的諧波均值來表示脫敏的準確性,其計算公式為:

用本文方法與基于IC的方法分別對6類文本進行脫敏實驗,表1所示為精度實驗結果的對比。

表1 精度實驗結果的對比Tab.1 Comparison of accuracy test results

由表1可知,與基于IC的方法相比,采用本文方法對上述6類醫療文本進行脫敏,精準度、召回率和F-度量的平均性能分別提高了5.92%、3.13%和4.97%。

3.2 實用性評估

實用性代表了文本脫敏后的實用程度,即信息量的保留程度。本文采用文獻[8]提出的基于IC的評估方式評估脫敏后文本相對于原文本所保留的實用性。

某術語t所包含的信息量可用其CIC值表示,其計算公式為:

式中,p(t)為t在知識庫中出現的概率,這里以搜索引擎百度所鏈接的資源作為評估知識庫。CIC(t)越高,意味著t包含著更多的信息量。

一篇文本的信息量為該文本所包含術語提供的信息量的總和,假設文本D包含多個術語(t1,t2,…,tn),則其信息量的計算公式為:

式中,ti為文本中所包含的術語。

文本脫敏后的實用性保留程度Putility的計算公式為:

式中,D為脫敏前的文本,D′為脫敏后的文本。

采用對比本文提出的方法與基于IC的方法脫敏后的文本的實用性進行分析,表2所示為實用性對比實驗結果。

表2 實用性對比實驗結果Tab.2 Experiment results of practicability comparison

由表2可知,與基于IC的方法相比,采用本文提出的方法脫敏后文章的實用性平均提高了5.65%。

4 結論

本文在深入分析SNOMED-CT知識庫結構的基礎上,提出利用該知識庫中2類概念關系計算醫療術語的語義相似度計算方法,并將該方法用于醫療文本的脫敏。對從Wikipedia上選取的6類共42篇醫療文本進行脫敏提出的實驗,結果表明,與基于IC的脫敏方法相比,本文提出的方法在脫敏精度和實用度方面都有一定幅度的提高,適用于以SNOMED-CT作為知識庫的醫療文本敏感詞識別和脫敏。

猜你喜歡
語義單詞概念
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
單詞連一連
學習集合概念『四步走』
看圖填單詞
聚焦集合的概念及應用
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
最難的單詞
主站蜘蛛池模板: 婷婷六月天激情| 欧美笫一页| 成人毛片在线播放| 一本综合久久| 亚洲国产系列| 色综合天天综合| 日韩精品一区二区三区swag| 亚洲AV成人一区国产精品| 国产高清在线观看91精品| 国产主播在线观看| 伊人蕉久影院| 国产人免费人成免费视频| 国产女人18水真多毛片18精品 | 国产国模一区二区三区四区| 亚洲天堂视频网| 日本午夜影院| 日韩美女福利视频| 亚洲中文字幕在线精品一区| 亚洲AV电影不卡在线观看| 国产精选小视频在线观看| 久久黄色一级片| A级毛片无码久久精品免费| 国产欧美日韩va| 国产成人精品免费av| 亚洲第一成网站| 国产成人久久777777| 国产青青操| 8090午夜无码专区| 日韩国产无码一区| 国产欧美日韩综合在线第一| 精品视频免费在线| 色婷婷丁香| 精品无码一区二区三区电影| 高清久久精品亚洲日韩Av| 国产黄网站在线观看| 日本免费一级视频| 激情网址在线观看| 亚洲精品无码av中文字幕| av大片在线无码免费| 亚卅精品无码久久毛片乌克兰| 久久久久九九精品影院| 日韩精品无码不卡无码| 青青国产视频| 国产毛片基地| 精品视频福利| 国产特一级毛片| 国产办公室秘书无码精品| 日本精品视频一区二区| 国产打屁股免费区网站| 91欧美在线| 国产黄色片在线看| 国产精品女人呻吟在线观看| 99精品在线看| 亚洲男人天堂2020| 亚洲V日韩V无码一区二区| 亚洲天堂免费观看| 91年精品国产福利线观看久久| 国产亚洲现在一区二区中文| 白丝美女办公室高潮喷水视频| 亚洲码一区二区三区| 日韩色图区| 伊人久久福利中文字幕| 国产精品手机在线播放| 精品乱码久久久久久久| 成人午夜视频免费看欧美| 伊人天堂网| 鲁鲁鲁爽爽爽在线视频观看| 亚洲精品视频免费| 91视频首页| 91色爱欧美精品www| 精品1区2区3区| 色窝窝免费一区二区三区| 久久96热在精品国产高清| 自拍亚洲欧美精品| 久久青草精品一区二区三区| 中字无码精油按摩中出视频| 久久成人国产精品免费软件| 国产成人乱码一区二区三区在线| 在线亚洲精品自拍| 99人妻碰碰碰久久久久禁片| 国产丝袜第一页| 婷婷成人综合|