999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于癥狀構成成分的上下位關系自動抽取方法

2017-12-14 05:22:22黃越圻殷亦超
計算機應用 2017年10期
關鍵詞:分類特征癥狀

王 婷,王 祺,黃越圻,殷亦超,高 炬

(1.華東理工大學 信息科學與工程學院,上海 200237; 2.上海中醫藥大學 附屬曙光醫院,上海 200021) (*通信作者電子郵箱wangting6524@163.com)

基于癥狀構成成分的上下位關系自動抽取方法

王 婷1*,王 祺1,黃越圻1,殷亦超2,高 炬2

(1.華東理工大學 信息科學與工程學院,上海 200237; 2.上海中醫藥大學 附屬曙光醫院,上海 200021) (*通信作者電子郵箱wangting6524@163.com)

針對癥狀間上下位關系具有較強結構特性的問題,提出一種基于癥狀構成成分的上下位關系自動抽取方法。首先,通過觀察癥狀實體,發現癥狀可以切分為原子癥狀詞、修飾詞等八種成分,且成分的構成序列滿足一定的規則。然后,利用詞法分析系統和條件隨機場模型對癥狀進行切分和成分標注。最后,把癥狀之間的關系抽取看作一個分類問題,選取癥狀成分的構成特征、詞典特征以及通用特征作為分類算法的特征;基于多種分類算法訓練模型,將癥狀間的關系分為上下位關系和非上下位關系。實驗結果表明,當選用支持向量機算法,同時選用三類特征時,取得了最好的效果,準確率、召回率和F1值分別達到了82.68%、82.13%和82.40%。在此基礎上,使用所提出的關系抽取算法,抽取了20 619條上下位關系,構建了具有上下位關系的癥狀知識庫。

上下位關系;癥狀構成成分;條件隨機場;關系分類;支持向量機;決策樹;樸素貝葉斯

0 引言

醫療行業蓬勃發展,對其研究越來越多。各種醫療知識庫逐漸被構建,如醫學主題詞表(Medical Subject Headings, MeSH)、醫學系統命名法-臨床術語(Systematized Nomenclature of Medicine-Clinical Terms, SNOMED-CT)和一體化醫學語言系統(Unified Medical Language System, UMLS) (https://www.nlm.nih.gov/research/umls/)等醫療分類體系和標準。更有知識庫針對某類醫療實體:疾病有國際疾病分類(International Classification of Diseases, ICD-10),藥品有DrugBank,臨床觀測指標有觀測指標標識符邏輯命名與編碼(Logical Observation Identifiers Names and Codes, LOINC)系統。但目前沒有專門的癥狀知識庫,因此,作者構建了一個癥狀知識庫[1]。在構建過程中,發現癥狀分類體系有重要的意義:在醫療問答和臨床決策系統等應用中,通常需要癥狀之間的上下位關系。例如,患者輸入問題“流黃鼻涕該吃什么藥”,雖然問答系統中沒有“流黃鼻涕”的對癥藥品,但可以找到其上位詞“流鼻涕”的適用藥,將其作為結果返回給患者。在現有的知識庫中,SNOMED-CT中有“臨床發現”(Clinical Finding)的上下位關系,但無中文版本可用。因此,需要依賴于SNOMED-CT在醫學上對“臨床發現”上下位關系的認知,建立中文的癥狀分類體系。

目前上下位關系的抽取主要有基于模式匹配[2]、詞典和統計的方法。基于模式匹配的方法是在大規模語料中進行模式的自動匹配,從而挖掘出符合模式的上下位概念。Hearst等[3]利用詞匯-句法模式(Hearst patterns)在文本中自動獲取上下位關系,例如詞匯L0和L1滿足句法模式“L1{,}including{L0,}{or|and}L0”,那么L0就是L1的下位詞。Cederberg等[4]使用潛在語義分析(Latent Semantic Analysis, LSA)對Hearst提出的方法獲取的候選上下位關系集合進行過濾,計算上下位關系對的相似度,過濾掉得分較低的候選上下位關系對。中文方面,劉磊等[5]提出基于“是一個”模式的下位概念獲取方法,利用半自動獲取的詞典和句型對“是一個”模式進行分析,然后根據規則獲取下位概念。該方法貼近人們的語言使用習慣,因此準確率較高。但模式的適用性與語料密切相關,可移植性差;而且模式的覆蓋范圍有限,關系獲取的召回率不高。

基于詞典的方法通常是根據一些現有的詞典中定義的上下位詞等知識來獲取概念間的關系。WordNet[6]被用來作為上位詞發現的基準,具有很高的準確率。Dong[7]編寫的通用領域詞典《知網》用義原樹來描述詞匯之間的關系。該方法準確率高,但詞典的規模和覆蓋范圍有限。在通用領域詞典中有很多專業詞匯難以查到,而且構建過程中需要大量專業知識,維護和更新的代價過高。

基于統計的方法主要采用聚類、分類等機器學習算法獲取上下位關系。Caraballo[8]通過上下文中名詞的連接關系和同位關系構造特征向量,然后通過余弦度量以及組平均策略自底向上聚類名詞,最終得到名詞間的上下位關系。Ritter等[9]基于Hearst patterns找到名詞短語e的候選上位詞集合ci,統計名詞短語對〈e,c〉(c∈ci)在每個Hearst pattern下出現的頻率并轉換為特征,訓練一個支持向量機(Support Vector Machine,SVM)分類器去識別對的上位詞。中文方面,黃毅等[10]基于條件隨機場(Conditional Random Field, CRF)獲取上下位關系,首先利用術語在百科名片中的上下文信息,總結相關模式;在詞和詞性的基礎之上,增加了特征詞詞典和標點信息這兩類特征,用CRF進行訓練和學習,建立分類模型。Fu等[11]基于詞匯分布表示(Word Embedding)抽取上下位關系,利用一個映射矩陣來刻畫上下位關系,即一個詞匯的分布表示乘以這個映射矩陣約等于其上位詞的分布表示。該方法適合處理大規模數據,覆蓋率高,但準確率要比基于詞典和模式匹配的方法低。

鑒于癥狀上下位關系抽取的重要性和現有工作的不足,本文提出了基于癥狀構成成分的上下位關系抽取方法。癥狀之間的關系只包含三種:上下位關系、同義關系和無關系,且這三種關系之間互斥(即兩個癥狀之間只可能是三種關系中的一種)。因此,本文把癥狀之間的關系抽取看作一個分類問題。考慮到本文只需抽取上下位關系,同義關系和無關系統一看作非上下位關系。癥狀間的上下位關系是下位詞E2對于上位詞E1在發作程度、發作頻率、發作時間以及發作部位等方面的細分。通過觀察癥狀庫中的癥狀名,發現癥狀可以切分成原子癥狀詞、修飾詞等八種成分。本文將這些成分的構成特征作為分類器的特征,還增加了成分的上下位詞典特征和通用特征這兩類特征。本文從醫療健康網站中抽取已有的上下位關系和同義關系,通過隨機負采樣得到無關系作為訓練集來訓練分類算法,并在測試集上進行測試。實驗結果表明,在同時選用三類特征的情況下,基于SVM的分類模型取得了最高的準確率、召回率和F1值。此外,將本文使用所提出的關系抽取方法應用到癥狀庫中,抽取了20 619條上下位關系,構建了癥狀上下位關系知識庫。

本文的主要工作有:1)基于SNOMED CT中“臨床發現”的分類層級體系和“IS_A”關系,給出了癥狀上下位關系的定義和分類;2)提出了利用癥狀構成特征來抽取癥狀之間的上下位關系,有利于識別出更多癥狀間的關系;3)抽取了癥狀之間的上下位關系,使癥狀不再是獨立存在,而是具有豐富的層次結構,擴充已有的醫療知識庫,從而優化醫療問答和臨床決策系統。

1 問題定義

本文參考并擴展了SNOMED CT中“臨床發現”的分類層級體系和“IS_A”關系,將上下位關系定義為:

定義1 下位詞E2對于上位詞E1在嚴重程度、發作頻率、發作時間等方面的細分,記為Hyponymy(E1,E2)。

關系的劃分依據主要有以下幾類:嚴重程度、癥狀頻率、發作時間、發現部位、癥狀性質、發展趨勢、偏側方位和誘因。例如,下位詞“運動后頭痛”是上位詞“頭痛”在發作時間方面的細分,表明“頭痛”是在運動后發作的。另外,上位詞的多個下位詞之間也可以存在上下位關系,這就構成了上下位關系中的語義層次。以“全身疾病所致牙齦嚴重出血”為例,其上位詞和劃分類別如圖1所示。

圖1 “全身疾病所致牙齦嚴重出血”上位詞及劃分類別

上下位關系具有非對稱性和傳遞性,即:

2 上下位關系識別算法

2.1 上下位關系識別流程

癥狀之間上下位關系抽取的流程如圖2所示。首先利用分詞工具和CRF對癥狀進行切分和成分標注,將癥狀切分為自定義的八種構成成分;然后將這些成分的構成特征作為分類器的特征,還增加了成分的上下位詞典和通用特征這兩類特征;最后訓練了樸素貝葉斯(Naive Bayesian)、決策樹(Decision Tree)和支持向量機等六類分類模型,將癥狀兩兩組合形成的癥狀對分為上下位關系和非上下位關系。分類器的正例來自于從醫療健康網站的半結構化和非結構化數據中抽取的部分癥狀間的上下位關系,負例來自于醫療網站中的同義關系。另外,本文采用隨機負采樣[13]將正例中的上位詞進行隨機替換,生成無關系也作為負例。例如,對于癥狀“發作性咳嗽”,“咳嗽”是從網站中抽取的已知上位詞,本文從癥狀庫中選擇“頭痛”進行替換,就得到負例〈頭痛,other,發作性咳嗽〉。

圖2 癥狀上下位關系抽取流程

2.2 訓練數據獲取

2.2.1 半結構化信息抽取

同一醫療健康網站對于癥狀實體的描述都有固定的格式和內容,因此本文從醫療健康網站的癥狀詳情頁面中抽取了上下位和同義關系。詳情頁面有以下幾部分組成:實體名、別名、描述、分類、可能疾病以及對癥藥品。其中,“分類”下的實體為當前實體的下位詞,“別名”為同義詞。例如,在“腹痛”的頁面下,存在“腹痛”的別名“肚子疼”,以及“腹痛”的分類:“左上腹壓痛”“急性腹痛”等,可以得到關于“腹痛”的同義關系和上下位關系:〈腹痛,sameAs,肚子疼〉,〈腹痛,Hyponymy,左上腹壓痛〉,〈腹痛,Hyponymy,急性腹痛〉等。

2.2.2 非結構化信息抽取

除上述半結構化信息以外,醫療健康網站對于實體的描述文本中包含了豐富的上下位關系和同義關系,而且對于兩種關系的表述又有固定格式,因此本文定義了句法模式(如表1所示)來抽取描述中的上下位和同義關系。例如,在“胃痛”的描述文本中,有“胃部隱痛是胃痛的一種”,滿足上下位中第一個模式,因此可以得到上下位關系〈胃痛, Hyponymy,胃部隱痛〉。

表1 同義關系和上下位關系發現的句法模式

2.3 特征選擇

2.3.1 通用特征

Jaccard相似特征:通過分析醫療健康網站中已有的上下位關系,發現存在上下位關系的癥狀對在字形上具有相似性,因此,本文用Jaccard相似系數來表示兩個癥狀實體E1、E2之間的相似度,系數值越大,實體相似度越高,其計算公式為:

其中:|E1∩E2|表示E1和E2相同文字的個數;|E1∪E2|表示E1和E2并集文字的個數。例如:癥狀“頭痛勞累后加重”和“晨起頭痛加重”之間的Jaccard相似系數為4/9。

實體長度特征:實體E1和E2的長度,例如:癥狀“噯氣時有腐敗雞蛋的氣味”的長度為11。

2.3.2 癥狀構成特征

1)癥狀構成成分定義。

癥狀可以切分為原子癥狀詞(AtomSymptom, AS)、中心詞(HeadWord, HW)、性質詞(NatureWord, NW)、時間詞(TimeWord, TW)、修飾詞(AdjWord, AW)、存在詞(ExistWord, EW)、方位詞(PosWord, PW)、連接詞(Conjunction, Conj)八個類別。即令E為癥狀的構成成分集合,E={EAS,EHW,ENW,ETW,EAW,EEW,EPW,EConj},那么對于癥狀X,可以被形式化地表述為:

X=〈x1,x2,…,xn〉

其中:xi∈E(i=1,2,…,n)。

下面給出各成分類別的定義和示例。

原子癥狀詞:癥狀名中描述患者異常感覺或體征的關鍵詞語。它是癥狀名的一部分,可以獨立表示某一癥狀的具體含義,且不可分成更細粒度。例如,“耳鳴”是一個獨立的癥狀詞,不可以細分為“耳”和“鳴”,因此“耳鳴”是一個原子癥狀詞。

中心詞:癥狀發生的部位或主體,包括人體的部位、器官(如心臟、腰部)以及生理指標(如血壓)等。

性質詞:反映原子癥狀詞或中心詞的特征和性質。例如,“急性背痛”中,“急性”反映了發病急、變化快的性質。

時間詞:癥狀發生或依賴的時間。例如“服藥后頭痛”中,“服藥后”說明“頭痛”是在患者服藥后產生的癥狀。

修飾詞:癥狀發作的頻率、嚴重程度及發展趨勢。例如,對于“背痛加劇”,“加劇”表明“背痛”正在惡化。

存在詞:表示癥狀的出現和存在。例如,有、可聞及、可觸及等。

方位詞:表示癥狀發生在某一部位的具體方位。例如,“小腿后側感覺障礙”中,“后側”就是方位詞。

連接詞:連接并列出現的多個中心詞或原子癥狀詞。例如,“發熱伴咳嗽”中,“伴”連接了兩個原子癥狀詞“發熱”和“咳嗽”。

2)癥狀成分標注。

癥狀成分標注的流程如圖3所示。本文從《現代漢語八百詞》[14]中收集了19連接詞和11個單音節方位詞(用Smpos表示),從《人體解剖學名詞》[15]中收集身體部位相關詞匯加入中心詞詞典中,并通過啟發式規則構建了癥狀成分詞典。然后基于成分詞典,使用分詞工具和CRF模型[16]對癥狀進行切分和成分標注。

圖3 癥狀成分標注流程

本文設計了一組啟發式規則對分詞產生的短語si(1lt;ilt;m)進行分類,并將收集到的詞匯擴充到用戶自定義詞典。這些規則主要依據詞性、依存關系和后綴詞等信息。例如,短語“輕度”因其詞性為形容詞而被劃分為修飾詞,“單純性”因其詞性為形容詞,且具有后綴“性”而被劃分為性質詞。最終,本文收集到了2 003個原子癥狀詞、3 893個中心詞、1 197個性質詞、414個時間詞、327個修飾詞、83個存在詞、100個方位詞和11個連接詞。本文用到的啟發式規則如表2所示。

表2 構建癥狀成分詞典的啟發式規則

用分詞工具進行成分標注能保證高準確率,但不能覆蓋所有癥狀。因此,對于未能被完全標注成分的癥狀,本文使用CRF模型進行后處理,保證所有癥狀都被劃分為預定義的成分。用于成分標注的特征包括字面特征和詞性特征。

字面特征:出現在上下文的詞語是序列標注模型可用的最明顯且信息豐富的特征。由于癥狀實體的描述語言精練,文獻[17]以漢字為單元,使用Unigram、Bigram和Trigram三種字面特征。它們可以覆蓋癥狀實體中大部分有意義的短語,如癥狀名的前綴、后綴信息。本文也采用這三種字面特征。

詞性特征:根據癥狀成分詞典可知,構成成分與詞性緊密相關。基于此,本文為成分標注模型增加了詞性特征。與字面特征相對應,詞性特征同樣包含Unigram、Bigram和Trigram三種特征。本文以字作為標注單元時,特征值Pi為Xi所在短語對應的詞性。

3)成分構成特征。

本文觀察癥狀的構成成分和語法結構,定義了癥狀構成特征用于上下位關系的發現。

成分特征:癥狀實體中各構成成分的個數。例如癥狀“脾腎兩虛/NW,夜間/TM,多尿/AS,”中,特征詞、時間詞和原子癥狀詞的個數為1,其余成分的個數為0。

位置特征:判斷癥狀E1和E2的公共成分在癥狀實體中的位置。例如對于癥狀對“劇烈的腹部持續疼痛”和“腹部疼痛”,分別被切分為“劇烈的/AW,腹部/HW,持續/AW,疼痛/AS”和“腹部/HW,疼痛/AS”,公共成分為“腹部”和“疼痛”,在E1中的位置分別為2和4,在E2中的位置分別為1和2。

(1)MRI檢查:平掃常規做橫斷面T1WI,橫斷面T2WI,層厚設置在7mm,層間距設置為0.7mm;T1WI:冠狀面和矢狀面[1]。靜脈注射0.1mmol/kg釓對比機,流速控制在每秒2ml;每隔30s,70s和240s給予患者橫斷面增強掃描,層間距設置為1.6mm,層厚控制在3.2mm。

類別特征:類別特征分為兩類,第一類是公共成分所屬類別,在上例中,公共成分“腹部”和“疼痛”的類別分別是中心詞和原子癥狀詞;第二類是公共成分的前后兩個成分所屬類別,在上例中,公共成分“腹部”在E1中的前兩個成分的類別是修飾詞和“Null”,后兩個成分的類別為修飾詞和原子癥狀詞。

2.3.3 詞典特征

現有的詞典中蘊含成分的上下位關系,本文抽取了《知網》[18]中已有的上下位信息構成上下位詞典Dhyp,對于癥狀對〈E1,E2〉,基于Dhyp得到的特征為:

1)是否E1中的其他成分數與E2中的其他成分數相同,且在Dhyp中存在對應上下位關系,是則該特征值為1;否則為0。例如,癥狀“小腹/痛”和“腹/痛”在去掉公共成分后都只剩一個成分,且“腹”和“小腹”在Dhyp中存在上下位關系,則特征值為1。

2)是否E1的其他成分數少于E2,且E1的其他成分都是E2其他成分在Dhyp中的上位詞,是則該特征值為1;否則為0。例如“上腹/疼痛”和“腹部/輕微/疼痛”去掉公共成分后還剩“上腹”和“上腹,輕微”,且“上腹”是“腹部”的上位詞,則特征值為1。

3)E2的其他成分數少于E1,且E2的其他成分都是E1其他成分在Dhyp中的上位詞。

3 實驗與分析

3.1 CRF標注結果及分析

3.1.1 實驗設置

詞性標注使用的語料是從醫療健康網站和百科網站中抽取的癥狀實體[1],選用中國科學院計算技術研究所漢語詞法分析系統ICTCLAS 2014對癥狀進行分詞和詞性標注等預處理。從能夠由ICTCLAS完全標注的癥狀中,隨機選取3 000條作為CRF標注的訓練數據;從未能進行完全標注的癥狀中,選取1 000條進行人工標注,作為測試數據。在人工標注時,每條癥狀都由2個人分別標注,結果不一致的標注由第三個人來決定。實驗使用了CRF++工具進行成分標注的后處理,選取的特征為字面特征和詞性特征。用BIE標記法進行標注,這里B表示詞的第一個字,I代表一個詞中間的所有字,E代表詞的最后一個字。上下文窗口為左右1~3個字(分別對應窗口大小為3、5、7)。

3.1.2 評價指標

對于CRF的標注結果,可采用準確率accuracy作為評價指標,以構成成分為單位進行評價:

accuracy=(Ncorrect/Nsum)×100%

其中:Ncorrect表示正確切分和標注的成分的數目;Nsum表示CRF標注的成分的總數目。

表3 不同特征模板的CRF標注準確率比較

3.1.3 實驗結果

CRF模型在不同特征模板和不同上下文窗口下的標注準確率如表3所示。從實驗結果可以看出:當CRF模型僅使用字面特征時,窗口越大accuracy越高。當加入了詞性特征后,accuracy與窗口大小不再正相關,且accuracy比只用字面特征要高,可見詞性特征對于CRF模型的準確率有極大的貢獻。最后可以得出結論:當窗口大小為5,同時采用字面特征和詞性特征時,accuracy最高,達到了90.06%。因此在后續實驗時,將窗口大小取為5,此時Unigram、Bigram和Trigram分別對應5、4和3個特征,共生成12個特征。

3.1.4 錯誤分析

對錯誤數據進行分析后,得到了兩類錯誤原因:

1)癥狀的表述形式多樣,訓練數據中很難包含所有的癥狀構成序列。對于未在訓練數據中出現的序列,CRF難以對其進行正確標注。例如“皮膚硬結冷時疼痛熱時瘙癢”的正確切分為“皮膚/HW,硬結/AS,冷時/TW,疼痛/AS,熱時/TW,瘙癢/AS”,訓練語句中沒有這種構成序列,CRF標注為“皮膚/ HW,硬結冷時疼痛熱時/NW,瘙癢/AS”。

2)醫療領域有大量專業術語,如果不加入外部字典,僅依靠CRF訓練得到的模型很難對其識別。例如對于“尿道口痛”,CRF無法將“尿道口”識別為HW,而導致將癥狀成分標注為“尿道/HW,口痛/AS”。

3.2 關系分類結果及分析

3.2.1 實驗設置

本文選取六個醫療健康網站抽取實驗數據,分別是:尋醫問藥網(http://www.xywy.com/)、快速問醫生(http://www.120ask.com/)、39健康網(http://www.39.net/)、99健康網(http://www.99.com.cn/)、家庭醫生在線(http://www.familydoctor.com.cn/)和飛華健康網(http://www.fh21.com.cn/)。從每個網站的“分類”中抽取實體的下位詞,并基于2.2.2節提出的啟發式規則從實體的描述文本中抽取上下位關系作為正例。從“別名”中抽取實體的同義詞,并基于啟發式規則從“描述”中抽取同義關系作為負例,另外,通過隨機負采樣得到癥狀間的無關系,同樣作為負例。最終,本文抽取了6 400條關系,其中3 300條為正例,3 100條為負例。

分類器使用Weka3.8.0版本,選取了通用特征Fc、癥狀構成特征Fz和詞典特征Fd三大類特征,分別基于樸素貝葉斯、決策樹、AdaBoost、隨機森林、Bagging和支持向量機六類模型進行關系分類,然后比較不同分類模型的分類結果。所有測試結果都是通過十折交叉驗證[19]得到,即實驗數據被隨機分成大小相同的10份,訓練集和測試集的比例為9∶1,最終取10次實驗的平均值作為最終結果。

3.2.2 評價指標

對于上下位關系的分類結果,本文采用準確率Precision、召回率Recall和F1值F1-measure作為評價指標,分類結果的混淆矩陣如表4所示。

表4 分類結果混淆矩陣

表1中:TP表示分類器將實際為正例(即上下位關系)的樣本識別為正例的數目,FP表示分類器將實際為負例(即非上下位關系)的樣本識別為正例的數目,FN表示分類器將實際為正例的樣本識別為負例的數目,TN表示分類器將實際為負例的樣本識別為負例的數目。根據混淆矩陣,準確率、召回率和F1值分別定義如下:

3.2.3 實驗結果

不同分類模型使用不同特征時的Precision、Recall和F1值如表5所示。從實驗結果可以看出,分類模型同時選用癥狀構成特征和通用特征的準確率和召回率要遠遠高于只選用通用特征,說明癥狀構成對上下位關系的發現有極大貢獻。另外,進一步加入詞典特征后,分類模型的準確率和召回率也都有明顯提升,說明詞典中成分的上下位信息有利于發現更多癥狀之間的上下位關系。例如對于癥狀“腹部/HW,疼痛/AS”和“上腹/HW,疼痛/AS”,通過構成特征和通用特征很難找到兩者之間的上下位關系,需要依靠詞典特征。樸素貝葉斯模型的結果最差,因為樸素貝葉斯模型假設特征之間相互獨立,而這個假設在本文方法中是不成立的。在同時選取三類特征的情況下,基于支持向量機的分類模型取得了最高的準確率為82.68%,召回率為82.13%,F1值為82.40%。

表5 不同分類模型使用不同特征的結果比較 %

3.2.4 錯誤分析

關系抽取錯誤的主要原因有:

1)上位詞原本是原子癥狀詞,但在下位詞中,其變成了修飾詞或加上“性”變成了性質詞,下位詞的原子癥狀詞并不是上位詞的原子癥狀詞。例如,“瘙癢”是一個原子癥狀,但在“無瘙癢、無肝膽疾病的皮膚黃染”中,“瘙癢”是修飾詞,用來修飾原子癥狀詞“皮膚黃染”。

2)用分詞工具和CRF進行分詞和詞性標注時出現錯誤,導致分類結果錯誤。例如,“咳嗽變異性哮喘”的分詞結果是“咳嗽/AS,變異性/NW,哮喘/AS”,找到了上下位關系〈咳嗽,Hyponymy,咳嗽變異性哮喘〉,但正確的分詞結果應為“咳嗽變異性/NW,哮喘/AS”,因此找到的上下位關系是錯誤的。

4 結語

癥狀之間關系的識別,可以豐富已有的醫療知識庫,使實體之間的關系更加豐富。基于擴充的醫療知識庫,實現醫療問答系統和臨床決策系統的優化,對輔助診療有重要意義。本文通過觀察癥狀實體名,發現癥狀可以切分成原子癥狀詞、中心詞、修飾詞等八種成分,另外,癥狀構成滿足一定的規則和模式。因此,本文把癥狀成分的構成特征作為分類器的特征,還增加了成分的上下位詞典和通用特征這兩類特征。本文把癥狀關系抽取問題看作分類問題,基于不同的分類算法訓練分類模型。最終,本文獲取了20 619條關系,得到了很好的準確率,并構建了具有上下位關系的癥狀知識庫。

References)

[1] RUAN T, WANG M, SUN J, et al. An automatic approach for constructing a knowledge base of symptoms in Chinese[C]// Proceedings of the 2016 IEEE International Conference on Bioinformatics and Biomedicine. Washington, DC: IEEE Computer Society, 2016: 1657-1662.

[2] FU R, QIN B, LIU T. Exploiting multiple sources for open-domain hypernym discovery [EB/OL]. [2017- 01- 10]. http://www.aclweb.org/anthology/D13-1122.pdf.

[3] HEARST, MARTI A. Automatic acquisition of hyponyms from large text corpora[C]// COLING 1992: Proceedings of the 14th Conference on Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 1992, 2: 539-545.

[4] CEDERBERG S, WIDDOWS D. Using LSA and noun coordination information to improve the precision and recall of automatic hyponymy extraction[C]// CONLL 2003: Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003. Stroudsburg, PA, USA: Association for Computational Linguistics, 2003, 4: 111-118.

[5] 劉磊, 曹存根, 王海濤, 等.一種基于“是一個”模式的下位概念獲取方法[J]. 計算機科學, 2006, 33(9): 146-151. (LIU L, CAO C G, WANG H T, et al. A method of hyponym acquisition based on “isa” pattern. [J]. Computer Science, 2006, 33(9): 146-151.)

[6] GEORGE A. MILLER, RICHARD B, et al. Introduction to WordNet: an on-line lexical database[J]. International Journal of Lexicography, 1990, 3(4): 235-244.

[7] DONG Z, DONG Q. HowNet — a hybrid language and knowledge resource[C]// Proceedings of the 2003 International Conference on Natural Language Processing and Knowledge Engineering. Piscataway, NJ: IEEE, 2003: 820-824.

[8] CARABALLO S A. Automatic construction of a hypernym-labeled noun hierarchy from text[C]// ACL 1999: Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics on Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 1999: 120-126.

[9] RITTER A, SODERLAND S, ETZIONI O. What is this, anyway: automatic hypernym discovery[C]// Proceedings of the 2009 AAAI Spring Symposium: Learning by Reading and Learning to Read. Menlo Park: AAAI Press, 2009: 88-93.

[10] 黃毅, 王慶林, 劉禹. 一種基于條件隨機場的領域術語上下位關系獲取方法[J]. 中南大學學報 (自然科學版), 2013, 44(2): 355-359. (HUANG Y, WANG Q L, LIU Y. An acquisition method of domain-specific terminological hyponymy based on CRF[J]. Journal of Central South University (Science and Technology), 2013, 44(2): 355-359.)

[11] FU R, GUO J, QIN B, et al. Learning semantic hierarchies via word embeddings[EB/OL]. [2017- 01- 10]. https://www.aclweb.org/anthology/P/P14/P14-1113.xhtml.

[12] 郭玉峰, 劉保延, 周雪忠. SNOMED CT的語義關系與連接概念[J]. 中華中醫藥學刊, 2008, 26(10): 2206-2209. (GUO Y F, LIU B Y, ZHOU X Z. Semantic relationship and linkage concept of SNPMED CT[J]. Chinese Archives of Traditional Chinese Medicine, 2008, 26(10): 2206-2209.)

[13] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]// NIPS 2013: Proceedings of the 26th International Conference on Neural Information Processing Systems. New York: Curran Associates, 2013: 3111-3119.

[14] 呂叔湘. 現代漢語八百詞[M]. 北京: 商務印書館, 2005. (LYU S X. Modern Chinese Eight Hundred Words[M]. Beijing: Commercial Press, 2005.

[15] 人體解剖學與組織胚胎學名詞審定委員會. 人體解剖學名詞[M]. 北京: 科學出版社, 2014. (Committee for the Examination of the Terms of Human Anatomy and Histology and Embryology. Human Anatomy Terms[M]. Beijing: Science Press, 2014.)

[16] LAFFERTY J D, MCCALLUM A, PEREIRA F. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]// ICML 2001: Proceedings of the Eighteenth International Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann Publishers, 2001: 282-289.

[17] WANG Y, LIU Y, YU Z, et al. A preliminary work on symptom name recognition from free-text clinical records of traditional Chinese medicine using conditional random fields and reasonable features[EB/OL]. [2017- 01- 10]. http://www.aclweb.org/anthology/W12-2428.

[18] 董強, 董振東.知網簡介 [EB/OL]. [2016- 01- 29]. http://www.keenage.com/. (DONG Q, DONG Z D. Introduction of HowNet[EB/OL]. [2016- 01- 29]. http://www.keenage.com/html/c_index.html.)

[19] ARLOT S, CELISSE A. A survey of cross-validation procedures for model selection[J]. Statistics Surveys, 2010, 4: 40-79.

Automatichyponymyextractingmethodbasedonsymptomcomponents

WANG Ting1*, WANG Qi1, HUANG Yueqi1, YIN Yichao2, GAO Ju2

(1.SchoolofInformationScienceandEngineering,EastChinaUniversityofScienceandTechnology,Shanghai200237,China;2.ShuguangHospitalAffiliatedtoShanghaiUniversityofTraditionalChineseMedicine,Shanghai200021,China)

Since the hyponymy between symptoms has strong structural features, an automatic hyponymy extracting method based on symptom components was proposed. Firstly, it was found that symptoms can be divided into eight parts: atomic symptoms, adjunct words, and so on, and the composition of these parts satisfied certain constructed rules. Then, the lexical analysis system and Conditional Random Field (CRF) model were used to segment symptoms and label the parts of speech. Finally, the hyponymy extraction was considered as a classification problem. Symptom constitution features, dictionary features and general features were selected as the features of different classification algorithms to train the models. The relationship between symptoms were divided into hyponymy and non-hyponymy. The experimental results show that when these features are selected simultaneously, precision, recall andF1-measure of Support Vector Machine (SVM) are up to 82.68%, 82.13% and 82.40%, respectively. On this basis, by using the above hyponymy extracting algorithm, 20 619 hyponymies were extracted, and the knowledge base of symptom hyponymy was built.

hyponymy; symptom component; Conditional Random Field (CRF); relationship classification; Support Vector Machine (SVM); decision tree; Naive Bayesian (NB)

2017- 04- 25;

2017- 06- 12。

國家863計劃項目(2015AA020107);國家科技支撐計劃項目(2015BAH12 F01-05)。

王婷(1993—),女,山東濰坊人,碩士研究生,CCF會員,主要研究方向:信息抽取、知識圖譜; 王祺(1993—),男,江蘇蘇州人,碩士研究生,CCF會員,主要研究方向:信息抽取、知識圖譜、機器翻譯; 黃越圻(1993—),男,浙江紹興人,碩士研究生,CCF會員,主要研究方向:知識圖譜、自然語言問答; 殷亦超(1983—),男,上海人,工程師,碩士,主要研究方向:醫院信息化; 高炬(1966—),男,上海人,主任醫師,碩士,主要研究方向:醫院行政管理、中西醫結合治療肝膽病。

1001- 9081(2017)10- 2999- 07

10.11772/j.issn.1001- 9081.2017.10.2999

TP391.1

A

This work is partially supported by the National High Technology Research and Development Program (863 Program) of China (2015AA020107), the National Key Technology Research and Development Program of the Ministry of Science and Technology of China (2015BAH12F01-05).

WANGTing, born in 1993, M. S. candidate. Her research interests include information extraction, knowledge graph.

WANGQi, born in 1993, M. S. candidate. His research interests include information extraction, knowledge graph and machine translation.

HUANGYueqi, boin in 1993, M. S. candidate. His research interests include knowledge graph and natural-language question answering.

YINYichao, born in 1983, M. S., engineer. His research interests include hospital informatization.

GAOJu, born in 1966, M. S., chief physician. His research interests include hospital administration, treatment of hepatobiliary diseases by integrating traditional Chinese and western medicine.

猜你喜歡
分類特征癥狀
Don’t Be Addicted To The Internet
有癥狀立即治療,別“梗”了再搶救
保健醫苑(2022年1期)2022-08-30 08:39:40
分類算一算
可改善咳嗽癥狀的兩款藥膳
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 国产夜色视频| 国产精品亚洲а∨天堂免下载| 91香蕉视频下载网站| 欧美色图第一页| 欧美视频二区| 国产精品美人久久久久久AV| 欧美成人在线免费| 亚洲精品麻豆| 无码免费的亚洲视频| 久久黄色小视频| 青青久视频| 国产精品三级专区| 2020亚洲精品无码| 免费a在线观看播放| 乱人伦视频中文字幕在线| 秋霞国产在线| 欧美不卡视频在线| 国产精品亚洲天堂| 91在线精品麻豆欧美在线| 色综合天天综合中文网| 国产成+人+综合+亚洲欧美| 亚洲欧美日韩成人高清在线一区| 91亚洲影院| 激情综合图区| 国产区网址| 国产网站一区二区三区| 视频国产精品丝袜第一页| 91成人试看福利体验区| 国产成年女人特黄特色毛片免| 国产一区成人| 永久天堂网Av| 伊人五月丁香综合AⅤ| 18禁不卡免费网站| 波多野结衣久久高清免费| 福利在线一区| 内射人妻无码色AV天堂| 麻豆精品在线| 毛片网站观看| 国产精品嫩草影院av| 色屁屁一区二区三区视频国产| 人妻少妇乱子伦精品无码专区毛片| 丝袜无码一区二区三区| 美女被操黄色视频网站| 欧美另类精品一区二区三区 | 激情六月丁香婷婷四房播| 亚洲一区毛片| 四虎成人精品| 免费一级全黄少妇性色生活片| 国产视频a| 精品久久久久久成人AV| 秋霞国产在线| 欧美区在线播放| 中文字幕日韩视频欧美一区| 国产乱人伦偷精品视频AAA| 浮力影院国产第一页| 亚洲男人的天堂在线观看| www.99在线观看| 超薄丝袜足j国产在线视频| 99re热精品视频中文字幕不卡| 成年午夜精品久久精品| 国产小视频在线高清播放| 丰满人妻久久中文字幕| 国产无遮挡裸体免费视频| 亚洲人成网站观看在线观看| 97超级碰碰碰碰精品| 免费在线看黄网址| 亚洲男人的天堂在线| 亚洲午夜天堂| 日韩亚洲综合在线| 99久久国产综合精品女同| 日韩色图在线观看| 麻豆精选在线| 色综合中文字幕| 国产二级毛片| 美女无遮挡拍拍拍免费视频| 久久a级片| 又大又硬又爽免费视频| 在线观看免费国产| 亚洲精品欧美重口| 国产精品理论片| 亚洲无线视频| 97se综合|