999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

MTI自動文獻標引系統研究*

2015-03-13 11:35:22李曉瑛夏光輝孫海霞
醫學信息學雜志 2015年3期
關鍵詞:概念

李曉瑛 夏光輝 孫海霞

(中國醫學科學院醫學信息研究所 北京 100020)

?

MTI自動文獻標引系統研究*

李曉瑛 夏光輝 孫海霞

(中國醫學科學院醫學信息研究所 北京 100020)

MTI是一個知名的生物醫學文獻自動標引系統,其基于醫學主題詞表MeSH推薦文獻標引結果。從處理過程、基本原理、應用效果等方面對MTI進行全面研究,試圖為開發高質量的中文生物醫學文獻自動標引系統提供一些有價值的借鑒與參考。

MTI;自動標引;MeSH;UMLS; MetaMap

1 引言

文獻標引簡稱標引,是指根據文獻內容特征賦于文獻檢索標識的過程。對檢索系統而言,標引是從檢索系統中查出文獻的關鍵詞和依據,其質量和效率直接決定了整個文獻系統的質量和速度以及標引結果的標全率和標準率[1]。傳統網絡環境下,標引工作大都依靠受過良好培訓的標引員來完成。隨著大數據時代的到來,研究者更多地探討自動標引算法,以期逐漸替代繁重的人工標引工作,如基于人工智能的自動標引、基于反饋規則學習的自動標引等[2]。MTI(Medical Text Indexer)是由美國國立醫學圖書館(National Library of Medicine, NLM)研發的生物醫學文獻自動標引系統[3],于2002年在PubMed數據庫中正式投入使用,極大地提升了生物醫學文獻自動標引效果。本文擬從處理過程、基本原理、應用效果等方面對MTI進行全面研究,試圖為開發高質量的中文生物醫學文獻自動標引系統提供一些有價值的借鑒與參考。

2 基本原理

2.1 概述

MTI通過從文獻的標題及摘要中發現MeSH主題詞,最終按照權重生成有序的標引術語列表。圖1展示了MTI自動文獻標引處理流程[4],主要包括PhraseX分詞、MetaMap映射、MeSH主題詞限制法、PubMed相關文獻查找法、提取MeSH主題詞法、聚類共6個模塊。在最后的聚類模塊處理之前,MTI分別從UMLS概念及PubMed相關文獻兩條不同路徑推薦MeSH主題詞。本文將從這兩條路徑所涉及的處理模塊著手,研究MTI實現文獻自動標引的基本思路。

圖1 MTI自動文獻標引處理流程

2.2 路徑1:從UMLS概念推薦MeSH主題詞

如圖1左上部分所示,從UMLS概念推薦MeSH主題詞這一路徑涉及PhraseX分詞、MetaMap映射及MeSH主題詞限制法3個處理模塊。

2.2.1 PhraseX分詞 PhraseX是一種分詞工具,用于將文本切分成若干個名詞短語,結果包括簡單名詞短語和復合名詞短語兩種。對于簡單名詞短語而言,PhraseX將連詞、情態動詞、介詞、動詞、逗號、句號等作為分隔符,兩個分隔符之間的部分認為是名詞短語;短語中的名詞為核心(Head),多個名詞接連時,最右端的名詞將作為核心;在含有from、of等介詞的短語中,介詞之后的部分認為是后置修飾詞,介詞之前的部分為核心。而對于復合名詞短語而言,PhraseX單純將動詞作為分隔符,動詞兩端的部分各認為是一個復合名詞短語。例如,輸入“Kupffer cells from halothane-exposed guinea pigs carry rifluoroacetylated protein adducts.”后,PhraseX將輸出簡單名詞短語“kupffer cells”、“halothane exposed guinea pigs”,“trifluoroacetylated protein adducts”以及復合名詞短語“kupffer cells from halothane exposed guinea pigs”,“trifluoroacetylated protein adducts”,其中,帶下劃線的單詞為各短語的核心。

2.2.2 MetaMap映射 MetaMap是一種將生物醫學文本映射到UMLS超級敘詞表,亦或從文本中發掘超級敘詞表中概念的程序。目前,MetaMap已被廣泛應用于信息抽取、分類、文本自動摘要生成、提問自動應答、數據挖掘、文獻發現、文本理解、UMLS概念索引與檢索、生物醫學文獻與臨床醫學文本的自然語言分析等領域。在MTI中,MetaMap首先利用以下3個匹配規則將各個名詞短語映射到UMLS超級敘詞表中的概念中:

(1)簡單匹配:將名詞短語精確匹配到超級敘詞表中,例如將“intensive care unit”映射到“Intensive Care Units”。

(2)復合匹配:將名詞短語中的部分單詞或詞組精確匹配到超級敘詞表中,例如將“intensive care medicine”映射到超級敘詞表中的兩個術語“Intensive Care”,“Medicine”。

(3)部分匹配:將名詞短語中的部分片段映射到超級敘詞表中術語的部分片段,分為以下3種形式:第一,一般部分匹配,如將“liquid crystal thermography”映射到“Thermography”;第二,間隔部分匹配,如將“ambulatory monitoring”映射到“AMBULATORY CARDIACMONITORING”、“obstructive sleep apnea”映射到“Obstructive Apnea”;第三,過度匹配,如將“ocular complications”映射到“Postoperative Complications”。

上述各步操作匹配到的UMLS超級敘詞表術語,稱為候選集;接著,MetaMap將利用向心度(Centrality)、變異度(Variation)、覆蓋度(Coverage)和內聚度(Cohesiveness)4個參數,從這些候選集中推薦出最優的UMLS超級敘詞表術語。每個參數的取值在0(最弱匹配)和1(最強匹配)之間。覆蓋度和內聚度可獲得兩倍于向心度和變異度的權重。最終,各個候選術語的上述4個參數評估結果的加權平均值將被規一化到0~1 000之內,0表示根本沒有匹配,1 000表示忽略大小寫的一致匹配。這4個參數的計算依據為:

(1)向心度:檢查候選術語是否包含原名詞短語的核心;例如,對于名詞短語“ocular complications”來說,候選術語“Complications”的向心度參數值為1,而“Eye”的向心度參數值為0。

(2)變異度:指候選術語與原名詞短語變異程度。計算這個參數,首先需要確定變異距離D。變異距離是在產生候選術語過程中,每一步產生的距離值的總和,見表1;變異距離決定了候選術語的變異度,其計算公式為:V=4/(D+4)。例如對名詞短語“ocular complications”來說,候選術語“Eye”的變異距離D是2,則V=2/3;“Complications”的變異距離是0,則V=1。

表1 變異距離

(3)覆蓋度:評估原名詞短語中的單詞在候選術語的包含程度。具體計算時,首先計算出候選術語和原名詞短語中相同單詞的個數,稱為跨度。而覆蓋度是跨度分別與候選術語長度、原名詞短語長度的比值的加權平均值,但這兩個比值的權重不同,前者是后者的2倍。例如,對于“ocular complications”與候選術語“Eye”或“Complications”而言,跨度都是1,覆蓋度值均為[2/3/×(1/1)+ 1/3×(1/2)],即5/6。

(4)內聚度:評估原名詞短語中相鄰單詞組成的片段在候選術語的包含程度。計算方法與覆蓋度類似,區別在于跨度指候選術語和原名詞短語相同相鄰單詞的個數。

2.2.3 MeSH主題詞限制法 MeSH主題詞限制法通過同義詞、概念間關系及類型3種途徑,將UMLS術語映射到MeSH主題詞。這兩種途徑可聯合使用形成一種算法,以最大化特征性(選擇的MeSH主題詞之間是相關的)及靈敏性(未映射到MeSH主題詞的UMLS術語僅為少數)。處理步驟分為以下4步:

(1)MeSH術語是UMLS原概念的同義詞,它們在超級敘詞表中共享同一個概念唯一標識符CUI;如果此步滿足,將不執行以下步驟。

(2)相關表達式(Associated Expression, ATX)是UMLS原概念的一種表達方式,可理解為表達式樹(Expression Tree), 樹上的葉子是概念(MeSH術語),節點是邏輯算子或主題詞到副主題詞關系標識符。如圖2所示,概念“Mumps pancreatitis”映射到以下的MeSH主題詞:“Mumps”與“Pancreatitis”(主題詞),“complication”與“etiology”(副主題詞);其中,主題詞(MH)受副主題詞(SH)的限定(QB);而兩個MH/SH表達式通過邏輯算子(AND)連接起來。

圖2 表示概念“Mumps pancreatitis”的表達式樹

(3)與UMLS原概念層次/等級相關的概念,可選作MeSH主題詞,具體處理時通過一種映射算法實現。這種映射算法可視為構建家族圖的過程,其中原概念是初始點(種子);之后,將從圖中選擇最近的MeSH術語。而除了原概念之外的概念將作為建立分支的初始點。當從原概念作為種子而構建的圖中選不出任何MeSH術語時,子概念或下位概念可結合起來作為圖的種子;從這種方式構建的圖中仍選不出MeSH術語時,以原概念的兄弟姐妹(同位)概念開始重新建圖。處理過程包括兩步:第1步,構建原概念的家族圖。對于指定概念而言,其家族可看作一個有向圖。從種子開始,增加其直接上位及廣義概念;接著,新增加概念的直接上位及廣義概念將遞歸地加入到圖中,直到沒有新概念可以再增加。第2步,從家族圖中選擇MeSH術語。首先,選擇圖中的祖先作為MeSH術語;其次,為了防止MeSH術語只來自種子的一個分支,已選中的MeSH術語必須來自種子的所有祖先;最后,去除已選中的MeSH術語中互相之間有上下位關系的術語。至此,這些選中的MeSH術語與原概念之間具有最近的語義關系。圖3是“Vein of neck, NOS”的家族圖,MeSH術語用雙線框表示;選中的MeSH術語為“Neck”與“Veins”;而箭頭指向直接上位或廣義概念。“Head”與“Veins”到種子的距離相等,但“Head”為另一個選中術語“Neck”的祖先,所以應去除。

圖3 “Vein of neck, NOS”家族圖

(4)最后,如果從祖先中選不出任何的MeSH術語,與原概念非等級相關(其它相關RO)的概念也可作為MeSH術語;再將前3步逐一應用到這些相關概念中,以選出MeSH術語。

2.3 路徑2:從PubMed相關文獻推薦MeSH主題詞

如圖1右上部分所示,從PubMed相關文獻推薦MeSH主題詞這一路徑涉及PubMed相關文獻查找法及提取MeSH主題詞法兩個處理模塊。

2.3.1 PubMed相關文獻查找法 PubMed相關文獻查找法預期在PubMed數據庫中查找與當前給定文獻相似的其他文獻。文獻的相似度一般通過文獻中共同出現的單詞及文獻長度來度量。本處理中,首先排除了310個常見的、毫無價值的停用詞,之后將使用詞干提取技術抽取來自文獻題目與摘要中的單詞并將它們都看作普通文本單詞,其出現頻次按實際出現次數計算。對于來自題目中的單詞,將其出現頻率增加1倍,以使它們具有較大的局部權重;對于同時為MeSH術語的單詞,如果該單詞(即術語)為MeSH副主題詞,那么將其出現頻次也增加1倍;對于帶星號的MeSH術語(星號表示文章的主題概念),忽略星號。而這些單詞就組成了文獻的代表。具體處理步驟包括以下兩步:

(1)得到可代表文獻的單詞(術語)之后,為兩篇文獻中同時出現的術語分配權重,而此權重為全局權重及局部權重的乘積,其中全局權重用于權衡術語在數據庫(多篇文獻)中的重要性,對于出現頻率較小的術語,全局權重較大。這種分法是合理的,因為如果一個術語在很多篇文獻中都出現,則說明該術語只能反映文獻的很少主題信息;另一方面,如果一個術語只出現在多達百萬篇文獻中的100篇里,那么該術語對限定感興趣的文獻集將至關重要;而對于只在10篇文章中出現的術語而言,該術語在提供這10篇文章主題信息方面的作用便更大,所以為該術語分配更高的權重。局部權重用于衡量術語在某篇特定文獻中的重要性,計算公式為Log(n+1),此處n為該術語在文獻中的出現頻次。

(2)兩篇文獻的相似度S即為它們所有共同術語的權重之和。計算公式為:

(1)

其中,LocalW(t1)、LocalW(t2)分別為兩篇文獻p1、p2中共同出現的術語t,對應于兩篇文獻中的局部權重;而GlobalW(t)為術語t在PubMed數據庫中的全局權重。目前PubMed數據庫中文獻之間的相似度都是事先計算好的,所以在用戶選擇具體的文獻時,系統只需要調用相似度列表,以提高效率。

2.3.2 提取MeSH主題詞法 提取MeSH主題詞法的目標是提取與當前處理文獻最相似的20篇文獻中出現的MeSH主題詞,作為推薦術語。處理過程包括如下幾步:

(1)從上步處理中獲得一個HTML格式的列表,其中記錄了20篇PubMed文獻的相似度值(已排序)及作者、PubMed的唯一編號PUID。

(2)對每篇文獻,提取其相應的相似度值與文章PUID。

(3)調用NCBI文本工具服務器,以便從PubMed數據庫中檢出每篇文獻。

(4)提取每篇文章中MeSH主題詞。

(5)判斷MeSH主題詞是否為主要主題詞(IM)。

(6)將每個主題詞與對應文章的相似度值及UI(唯一標識符)結合起來。

(7)按相似度值將所有MeSH主題詞排序,并形成且輸出最終的列表;其中,每篇文獻之間用“***”隔開,見圖4。

圖4 MTI所推薦的MeSH主題詞及出處列表

2.4 聚類

聚類的目標是將上步產生的MeSH主題詞聚集成一個最終所推薦標引術語的有序列表。通常,對于既有題目又有摘要的文獻,MTI默認顯示25個推薦標引術語;而對于只有題目的文獻,MTI默認只顯示前10個。聚類算法通過術語權重及排列公式實現。

(1)權重計算公式。代表對產生該MeSH主題詞的整個過程的置信度,計算公式為:

(2)

此處,i代表每個被推薦的MeSH主題詞;PathWeight指對該MeSH主題詞產生途徑的置信度(confidence);例如,相比MeSH主題詞限制法,提取MeSH主題詞法具有較高的置信度,因為所推薦的術語是直接從文章中提取的。MapScore與NavScore分別代表選擇UMLS術語、從UMLS術語映射到MeSH主題詞的置信度。

(2)排序公式。代表該MeSH主題詞與其他選中的MeSH主題詞的語義相關性,計算公式為:

(3)

此處,j、k分別代表除第i個MeSH主題詞之外其他被推薦的MeSH主題詞,其中,Title是一個常量,用于表示與該MeSH主題詞對應的名詞短語是否出現在文獻題目中;COT表示兩個選中的MeSH主題詞是否為PubMed的共現主題詞,REL表示兩個MeSH主題詞是否處于家族圖的同一層級(同為雙親或同位)。這些參數均可根據具體應用做相應調整。

2.5 應用情況

自正式投入使用以來,MTI經過了多次改進與優化,包括引入機器學習等方法,自動標引效果也持續平穩增長。表2是近幾年MTI的自動標引術語與人工標引術語的比較結果[5],其中最后一列是2008年與2012年各項指標的差值。表中數值反映了2008-2012年,標全率和標準率均得到提升,尤其是標準率,增加了23.4%。

表2 近幾年MTI自動標引效果統計值

3 結論

從20世紀末開始,國內學者陸續開始構建中文自動文獻標引系統,其中中國醫學科學院醫學信息研究所研發的中文生物醫學文獻主題標引系統是代表性的研究成果之一。中文生物醫學文獻主題標引系統與MTI的工作模式一致,均為先由計算機自動標引,最后人工進行審核確認;但中文生物醫學文獻主題標引系統的性能仍可持續優化與提升。就MTI自動文獻標引系統實現原理來看,筆者認為優化中文自動文獻標引系統可重點從以下方面開展相關研究和積累:開展中文同義詞發現算法、用戶輸入的自由詞與關鍵詞自動映射等關鍵技術研究工作,加快中文一體化醫學語言系統CUMLS、中文醫學主題詞表CMeSH等基礎知識組織系統建設,為中文生物醫學文獻主題概念和概念關系的準確提取奠定基礎。優化中文詞性標注、分詞等自然語言處理技術,為提升中文生物醫學文本概念提取效率提供理論依據與技術保障。充分利用現有人工標引文獻或經過人工干涉的標引文獻,以及標引人員經驗,開展計算機自動文獻標引系統的優化研究。

1 孫海霞, 李軍蓮,李丹亞, 等.MTI副主題詞自動組配標引機制解析[J]. 醫學信息學雜志, 2011,32(5):74-77.

2 肖曉旦.生物醫學文獻主題標引[M].長沙:湖南科學技術出版社,2005:322-326.

3 NLM Medical Text Indexer (MTI)[EB/OL]. [2014-03-07]. http://ii.nlm.nih.gov/MTI/.

4 James G M, Antonio J J, Alan R A. The NLM Medical Text Indexer System for Indexing Biomedical Literature[EB/OL]. [2014-03-24]. http://ii.nlm.nih.gov/Publications/Papers/MTI_System_Description_Expanded_2013_Accessible.pdf.

5 Interactive Medical Text Indexer (MTI)[EB/OL]. [2014-03-24]. http://ii.nlm.nih.gov/Interactive/mti.shtml.

關于《醫學信息學雜志》啟用“科技期刊學術不端文獻檢測系統”的啟事

為了提高編輯部對于學術不端文獻的辨別能力,端正學風,維護作者權益,《醫學信息學雜志》已正式啟用“科技期刊學術不端文獻檢測系統”,對來稿進行逐篇檢查。該系統以《中國學術文獻網絡出版總庫》為全文比對數據庫,可檢測抄襲與剽竊、偽造、篡改、不當署名、一稿多投等學術不端文獻。如查出作者所投稿件存在上述學術不端行為,本刊將立即做退稿處理并予以警告。希望廣大作者在論文撰寫中保持嚴謹、謹慎、端正的態度,自覺抵制任何有損學術聲譽的行為。

《醫學信息學雜志》編輯部

Research on Medical Text Indexer

LIXiao-ying,XIAGuang-hui,SUNHai-xia,

InstituteofMedicalInformation,ChineseAcademyofMedicalSciences,Beijing100020,China

MTI is a well-known biomedical text indexer, providing indexing recommendations based on the Medical Subject Headings (MeSH). The paper focuses on the details of the process flow, basic principle and application performance of MTI, which will provide valuable references for constructing high-quality Chinese biomedical text indexer.

Medical Text Indexer(MTI); Automatic indexing; MeSH; Unified Medical Language System (UMLS); MetaMap

2014-05-06

李曉瑛,博士,助理研究員,發表論文20余篇。

國家科技支撐計劃“信息資源自動處理、智能檢索與STKOS應用服務集成”(項目編號:2011BAH10B05)。

R-058

A 〔DOI〕10.3969/j.issn.1673-6036.2015.03.012

猜你喜歡
概念
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
概念飛行汽車,它來了!
車迷(2022年1期)2022-03-29 00:50:18
存在與守恒:《紅樓夢》中的物極必反概念探討
紅樓夢學刊(2020年4期)2020-11-20 05:52:48
TGY多功能多品牌概念店
現代裝飾(2020年4期)2020-05-20 08:56:10
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
衰老是被灌輸的概念
奧秘(2018年12期)2018-12-19 09:07:32
學習集合概念『四步走』
聚焦集合的概念及應用
論間接正犯概念之消解
深入概念,活學活用
主站蜘蛛池模板: 亚洲中文在线看视频一区| 精品乱码久久久久久久| 精品午夜国产福利观看| 亚洲成人高清无码| 国模私拍一区二区| 国产美女精品在线| 香蕉eeww99国产精选播放| 精品自拍视频在线观看| 美女视频黄又黄又免费高清| 91在线视频福利| 2021国产精品自产拍在线观看| 美女无遮挡免费网站| 一级毛片高清| 成人一级免费视频| 欧美一区二区啪啪| 97久久超碰极品视觉盛宴| 波多野结衣无码AV在线| 欧美成人综合在线| 亚洲AV无码乱码在线观看裸奔 | 亚洲精品天堂在线观看| 毛片a级毛片免费观看免下载| 久久久噜噜噜久久中文字幕色伊伊| 18禁高潮出水呻吟娇喘蜜芽| 亚洲欧美综合在线观看| 97se亚洲| 国产亚洲欧美在线视频| 亚洲av日韩av制服丝袜| 国产簧片免费在线播放| 在线观看视频99| 国产精品色婷婷在线观看| 婷婷六月激情综合一区| 久久免费精品琪琪| 深爱婷婷激情网| 91成人免费观看在线观看| 久久亚洲精少妇毛片午夜无码| 精品無碼一區在線觀看 | 91久久夜色精品| 欧美一级高清片久久99| 午夜国产不卡在线观看视频| 激情无码字幕综合| 国产无码精品在线播放 | 亚洲一区二区成人| 欧美另类图片视频无弹跳第一页| 人妻出轨无码中文一区二区| 日韩欧美国产另类| 四虎永久免费地址在线网站| 伊人久久久大香线蕉综合直播| 激情乱人伦| 亚洲中文字幕精品| 伊人91在线| 国产精品乱偷免费视频| 亚洲中文字幕在线观看| 2020国产精品视频| 色综合久久久久8天国| 欧美一级夜夜爽| 国产激情在线视频| 国产成人精彩在线视频50| 在线国产欧美| 欧美另类视频一区二区三区| 第一区免费在线观看| 国产麻豆精品在线观看| 成年女人a毛片免费视频| 午夜成人在线视频| 无码内射中文字幕岛国片| 欧美午夜小视频| 精品国产免费人成在线观看| 亚洲国产理论片在线播放| 免费人欧美成又黄又爽的视频| 国产一级特黄aa级特黄裸毛片 | 亚洲天堂日韩在线| 免费全部高H视频无码无遮掩| 国产日韩欧美成人| 伊人久久综在合线亚洲91| 日本高清在线看免费观看| 精品超清无码视频在线观看| 国产日本欧美亚洲精品视| 国产97公开成人免费视频| 欧美成人免费一区在线播放| 成人国产三级在线播放| 亚洲欧美人成电影在线观看| 日韩a在线观看免费观看| 成人字幕网视频在线观看|