999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

CRF與詞典相結合的疾病命名實體識別*

2017-11-20 01:51:08龍光宇
網絡安全與數據管理 2017年21期
關鍵詞:語義特征實驗

龍光宇,徐 云,3

(1.中國科學技術大學 計算機科學與技術學院,安徽 合肥 230027;2.中國科學技術大學 安徽省高性能計算重點實驗室,安徽 合肥 230027;3.國防科學技術大學 高性能計算協同創新中心,湖南 長沙 410073)

CRF與詞典相結合的疾病命名實體識別*

龍光宇1,2,徐 云1,2,3

(1.中國科學技術大學 計算機科學與技術學院,安徽 合肥230027;2.中國科學技術大學 安徽省高性能計算重點實驗室,安徽 合肥230027;3.國防科學技術大學 高性能計算協同創新中心,湖南 長沙410073)

生物醫學文獻中的疾病命名實體識別問題是疾病相關的生物信息學分析基礎,疾病命名實體中的醫學術語識別和邊界確定是該問題的難點和關鍵。文中提出了一種CRF(ConditionalRandomField)與詞典相結合的疾病命名實體識別方法。該方法利用網絡資源來構建含有語義信息的醫學術語詞典,并使用該詞典對醫學術語進行識別,獲得醫學術語的語義信息,然后CRF結合這些信息對疾病命名實體進行識別。實驗結果表明該方法有效。

疾病命名實體識別;醫學術語詞典;條件隨機場

0 引言

隨著基因技術的飛速發展,人們已經越來越清楚地認識到人類疾病的發生發展幾乎都直接或間接地與基因有著密切的聯系[1]。從生物醫學文獻中挖掘疾病與基因之間的關聯對于疾病預防以及新藥研制都有著重要的意義。伴隨著生物醫學文獻爆炸性的增長,通過人工的方式來獲取疾病-基因之間的聯系明顯是不可能的。隨著自然語言處理及大數據等技術的發展使得自動從文獻中發現疾病-基因之間的關系成為可能,其中疾病命名實體識別完成了這個任務的第一步。

目前解決疾病命名實體識別問題的主流方法是機器學習,但是識別效果還未達到基因、蛋白質的效果[2]。在對PharmGKB(Pharmacogenetics Knowledge Base)藥理學知識庫[3]中的大量疾病名稱進行了詳細的分析之后,發現絕大部分疾病名稱都是由一些具有相似語義的醫學術語組合而成,比如很多疾病命名實體都是由描述身體部分的詞語和基本疾病術語組合而成,例如“lung cancer”和“breast cancer”都是由描述身體部分的“lung”和“breast”結合基本疾病術語“cancer”構成。疾病名稱中的這些醫學術語對疾病名稱的識別具有很強的指示作用。

為了利用疾病命名實體中的醫學術語信息進一步提高對疾病命名實體的識別效果,本文提出了一種與詞典相結合的CRF(Conditional Random Field)模型去識別疾病實體。首先利用網絡資源構造了一個包含疾病相關醫學術語及其語義類別信息的詞典,再利用詞典獲取文本中詞語的語義類別信息,并把這些語義類別信息作為特征加入到CRF模型中。實驗表明,醫學術語詞典提升了CRF模型的識別效果。

1 相關工作

1.1命名實體識別

解決命名實體識別有三種基本方法:基于詞典的方法、基于規則的方法和基于機器學習的方法。

基于字典的方法是最簡單的命名實體識別方法,該方法使用詞典來匹配文獻中的實體名稱,其性能取決于詞典的質量以及選取的匹配算法的性能。由于詞典的容量有限,且該方法并不能識別未登錄詞,加上疾病命名不規范、變體多,單獨使用基于詞典的命名實體識別方法難以取得較好的結果。

基于規則的方法是利用正則表達式描述出命名實體中的詞形、詞性、語法等方面的特征,形成規則。基于規則的NER系統通常依賴于由領域專家設計的規則,耗時耗力,移植性很差。

基于機器學習的方法是目前解決命名實體識別問題的主流方法。目前常用的機器學習模型有很多,如支持向量機(SVM)、隱馬爾可夫模型(HMM)、最大熵模型(ME)、條件隨機場(CRF)等。近年來CRF模型被廣泛地應用于生物體醫學命名實體識別任務中,并取得了良好的效果。例如楊婭[4]等人提出了一個結合疾病詞典特征的CRF模型去識別疾病實體,再利用全稱-縮寫詞對進行后處理,在NCBI[5]語料庫上取得了83.82%的F值。

1.2CRF模型

CRF是由Laffetry等人在最大熵模型和隱馬爾科夫模型的基礎上提出的統計序列標注算法。CRF具有很多優點,不僅放松了隱馬爾科夫模型的條件獨立性,而且能在一定程度上解決標記偏置問題。目前已經成功應用于生物文本挖掘的諸多課題,例如生物命名實體識別、關系抽取等。

一階鏈式CRF是最簡單的CRF模型,本文使用的就是一階鏈式CRF。將CRF模型應用于生物醫學命名實體識別任務中,就是把輸入的句子中的單詞序列作為觀察序列o,標注的過程就是根據已知的單詞序列來推斷最有可能的標記序列s,即求解出p(s|o)取得最大值時的狀態序列s。一階鏈式CRF模型中的狀態序列s的條件概率如下式:

其中,z是歸一化因子,它是為了使所有狀態序列的概率和為1。fk(si-1,si,o,i)是二值特征函數,λk是特征的權重,通過訓練可以得到。通常采用L-BFGS迭代算法對CRF模型進行參數估計,使用維特比算法解碼。

2 CRF與詞典相結合的疾病實體識別

2.1CRF與詞典相結合的疾病實體識別思路

CRF與詞典相結合的疾病命名實體識別方法的具體思路如下:把疾病實體中的醫學術語按照語義分為:身體部分術語、臨床表現術語、疾病基本術語以及其他,并利用網絡資源構造一個包含這些醫學術語及其語義類別的詞典。先利用詞典獲得文中詞語的語義信息,并把語義信息傳遞給CRF模型作為特征去識別文中疾病實體。

2.2醫學術語詞典構造

通過對PharmGKB藥理學知識庫中大量疾病實體的詳細分析,本文把疾病實體中的醫學術語按語義分為四類:描述身體部分的術語(記為“BB”)、描述臨床表現的術語(記為“BS”)、疾病基本術語(記為“BD”)以及其他(記為“BO”)。醫學術語的具體分類信息見表1。

表1 醫學術語分類說明

本文使用PharmGKB藥理學知識庫中的疾病資源文件來構造包含身體部分術語、臨床表現術語和疾病基本術語的醫學術語詞典。下面介紹醫學術語詞典的構造步驟:

(1)把PharmGKB藥理學知識庫中的3 204個疾病實體名稱(不包括每個疾病實體所對應的同義詞)所對應的字符串,分割成單詞,得到一個詞匯表;

(2)對詞匯表去除重復項、根據PubMed停用詞表去除停用詞;

(3)人工把剩余的詞匯根據語義分為身體部分術語、臨床表現術語、基本疾病術語以及其他。把前三類的醫學術語詞匯連同它們的類別標記一起存入醫學術語詞典。

傳統的基于詞典的命名實體識別方法中的詞典存儲的是實體名稱及其同義詞,本文中構造的醫學術語詞典存儲的是醫學術語單詞及其語義類別。詞典里每個條目都包括醫學術語和它的類別,例如“lung,BB”、“ataxia,BS”、“nephritis,BD”等。

在醫學術語詞典構造完成之后,利用該詞典去匹配待處理文本中的醫學術語,結果返回醫學術語的語義類別。

2.3CRF與詞典相結合的疾病命名實體識別

一個好的特征集合是生物醫學命名實體識別任務取得成功的關鍵,本文中的特征集合主要包括詞法特征、領域特征以及醫學詞典特征三大類。

(1)詞法特征:包括單詞特征、詞塊特征、詞性特征。

(2)領域特征:包括構詞特征、詞形特征、詞綴特征、邊界詞特征、上下文特征、關鍵詞特征。

(3)醫學術語詞典特征

除了以上這些特征,本文還定義了一個醫學術語詞典特征,該特征就是醫學術語詞典對當前單詞的識別結果,包括“BB”、“BS”、“BD”和“BO”。因為絕大多數疾病命名實體的長度都是1~5,因此設定大小為5的上下文窗口,并設計了一元、二元、三元特征模板。

3 實驗與分析

3.1實驗語料

3.2實驗結果及分析

本文在NCBI語料上進行了兩組對比實驗。

第一組是利用詞法特征和領域特征作為特征集合的CRF模型,訓練集上訓練,測試集測試,以LEAMAN R[6]等人的疾病命名實體識別模型DNorm對比,實驗結果如表2所示。

表2 CRF與DNorm實驗結果對比

第二組是在第一組的CRF模型上加入醫學術語詞典特征,在訓練集上訓練,測試集測試。以第一組中的CRF模型實驗結果作為對比,實驗結果如表3所示。

表3 ours與DNorm實驗結果對比

第一組對比實驗結果表明本文中的CRF模型的實驗結果和DNorm相當,說明了利用本文中的詞法和領域特征集合建立的CRF模型是有效的。

第二組對比試驗表明結合了醫學術語詞典的CRF模型的識別效果有所提升。分析實驗結果發現,導致識別效果提升的原因是一些不具有明顯特征的疾病名稱也被結合醫學術語詞典的CRF準確地識別了出來,例如“demyelination of the cerebral white matter”。單一CRF模型是通過特征來區分實體和非實體,因此難以捕捉到那些特征不明顯的實體。本文中的醫學術語詞典能準確地識別出這些醫學術語(“demyelination of the cerebral white matter”中“demyelination”(脫髓鞘)、“cerebral”(腦)都是表示身體部分的醫學術語),并利用這些醫學術語的語義信息為CRF模型提供支持,這正是本文模型的優勢。

相比于未結合醫學術語詞典的CRF模型,醫學術語詞典提供了更多的語義信息,提升了CRF模型的識別效果。

4 結論

針對疾病命名實體識別問題,本文提出了CRF與詞典相結合的疾病實體識別方法。在NCBI語料上進行的實驗表明,含有語義信息的詞典提升了CRF的識別效果。本文的研究還可以進一步完善,比如可以考慮更多特征繼續提高疾病命名實體的識別效果。有效的疾病命名實體識別模型的建立,為后續從生物醫學文獻中自動抽取疾病-基因之間的關系打下了良好的基礎。

[1] BOTSTEIN D,RISCH N.Discovering genotypes underlying human phenotypes: past successes for mendelian disease,future approaches for complex disease[J].Nature genetics,2003,33: 228-237.

[2] JIMENO A,JIMENEZ-RUIZ E,LEE V,et al.Assessment of disease named entity recognition on a corpus of annotated sentences[C].BMC Bioinformatics.BioMed Central Ltd,2008,9(Suppl 3): S3.

[3] HEWETT M,OLIVER D E,RUBIN D L,et al.PharmGKB: the pharmacogenetics knowledge base[J].Nucleic Acids Research,2002,30(1): 163-165.

[4] 楊婭.生物醫學文本中的疾病實體識別和標準化研究[D].大連:大連理工大學,2015.

Combining CRF and dictionary based disease named entity recognition

Long Guangyu1,2,Xu Yun1,2,3

(1.School of Computer Science and Technology,University of Science and Technology of China,Hefei 230027,China;2.Key Laboratory of High Performance Computing of Anhui Province, University of Science and Technology of China, Hefei 230027, China;3.Collaborative Innovation Center of High Performance Computing, National University of Defense Technology, Changsha 410073,China)

The problem of disease name entity recognition in biomedical literature is the basis of bioinformatics analysis related to disease.The identification of the medical terms in disease named entity and determining the boundary of the disease named entity are the key and difficult points of the problem.This paper presents a method that compining CRF (Conditional Random Field) and a dictionary to solve the problem of disease named entity recognition.This method constructs a medical terminology dictionary which contains semantic information using network resources.Firstly,it uses the dictionary to identify the medical terminology,then obtains the semantic information of medical terminology.Then CRF combined with these semantic information to identify the disease named entity.The experimental results verify the effectiveness of the proposed algorithm.

disease named entity recognition; medical terminology dictionary; conditional random field

TP181

A

10.19358/j.issn.1674-7720.2017.21.016

龍光宇,徐云.CRF與詞典相結合的疾病命名實體識別J.微型機與應用,2017,36(21):51-53.

國家自然科學基金(61672480)

2017-04-14)

龍光宇(1991-),男,碩士研究生,主要研究方向:生物文本挖掘。

徐云(1960-),男,博士,教授,博士生導師,主要研究方向:大數據挖掘,生物信息學應用等。

猜你喜歡
語義特征實驗
記一次有趣的實驗
語言與語義
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 国产精品无码AV片在线观看播放| 一级毛片免费播放视频| 99久久亚洲综合精品TS| 色婷婷综合在线| 国产91丝袜在线播放动漫| 亚洲精品人成网线在线 | 欧美日韩北条麻妃一区二区| 一级看片免费视频| 亚洲欧美日韩天堂| 亚洲综合九九| 成人日韩欧美| 亚洲一区二区三区中文字幕5566| 久久99蜜桃精品久久久久小说| 91蜜芽尤物福利在线观看| 国产成人精品亚洲77美色| 欧美一区日韩一区中文字幕页| 激情综合网激情综合| a级高清毛片| 国产成人艳妇AA视频在线| 国产www网站| 亚洲床戏一区| 亚洲有码在线播放| 国产无码精品在线| 久久特级毛片| 波多野结衣久久高清免费| 国产欧美视频在线观看| 成人久久18免费网站| 欧美在线国产| 亚洲侵犯无码网址在线观看| 欧美在线一二区| 天天躁狠狠躁| 亚洲高清国产拍精品26u| 精品一区二区三区视频免费观看| 精品在线免费播放| 欧美视频在线播放观看免费福利资源| 成人中文字幕在线| 91国内在线观看| 欧美精品导航| 色天堂无毒不卡| 色综合五月| 欧美va亚洲va香蕉在线| 日韩小视频在线观看| 色婷婷久久| 亚洲永久精品ww47国产| 国产精品第三页在线看| 色香蕉影院| 91视频精品| 中文字幕欧美日韩| 农村乱人伦一区二区| 国产69精品久久| 久久青草免费91线频观看不卡| 91无码网站| 亚洲床戏一区| 伊人色天堂| 欧美成人二区| 91在线国内在线播放老师| 日韩东京热无码人妻| 亚洲人在线| 中文字幕欧美日韩高清| 污视频日本| 亚洲性视频网站| 国产成人精品优优av| 亚洲第一成年网| 免费国产高清视频| 亚亚洲乱码一二三四区| 久久九九热视频| 一本大道视频精品人妻| 国产黄在线免费观看| 国产黄色爱视频| 乱人伦视频中文字幕在线| 99精品国产自在现线观看| 欧美综合区自拍亚洲综合天堂| JIZZ亚洲国产| 亚洲成人77777| 国产美女视频黄a视频全免费网站| 久久亚洲AⅤ无码精品午夜麻豆| 一边摸一边做爽的视频17国产| 亚洲黄色视频在线观看一区| 国产精品成| 1769国产精品免费视频| AV不卡在线永久免费观看| 亚洲制服中文字幕一区二区|