999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文中醫(yī)本體自動擴展的定量研究

2016-11-19 23:25:00王大禹李園白楊陽崔蒙
中國中醫(yī)藥圖書情報 2016年5期

王大禹 李園白 楊陽 崔蒙

摘要:目的 對利用新的知識源自動擴展中文中醫(yī)本體進行定量研究。方法 基于中醫(yī)醫(yī)療術(shù)語及術(shù)語間的關系構(gòu)建實驗用的本體,利用中醫(yī)藥學術(shù)論文中提及的病例作為知識源擴展本體,并用作測試集來評測本體擴展前后的質(zhì)量。結(jié)果 包含41 652個實例的本體可以通過3000個診次的醫(yī)療信息擴展,對真實臨床應用出現(xiàn)的疾病名稱的覆蓋率由52.3%增至72.4%,證候名稱覆蓋率由14.8%增至55.8%,藥物名稱覆蓋率由13.7%增至54.8%,治法名稱覆蓋率由25.8%增至77.2%。結(jié)論 利用學術(shù)論文中提及的病例作為新知識源來自動擴展本體可以顯著增加本體的覆蓋率。

關鍵詞:本體擴展;中醫(yī)藥本體;中醫(yī)藥術(shù)語集

中圖分類號:R2-03 文獻標識碼:A 文章編號:2095-5707(2016)05-0009-05

A Quantitative Study on Automatic Expansion of Chinese TCM Ontology

WANG Da-yu, LI Yuan-bai, YANG Yang, CUI Meng*

(Institute of Information on Traditional Chinese Medicine, China Academy of Chinese Medicine Science, Beijing 100700, China)

Abstract: Objective To conduct a quantitative study on the automatic expansion of Chinese TCM ontology with new knowledge sources. Methods The experimental Chinese TCM ontology was built based on TCM terms and relationships among different terms. Medical cases in TCM academic papers were set as knowledge sources for expansion of ontology. These cases were used as testing sets to evaluate the quality of the ontology before and after expansion. Results Ontology with 41,652 cases could be expanded through information in 3000 clinical visits. The coverage of this ontology on disease names in real clinical application increased from 52.3% to 72.4%, syndrome names from 14.8% to 55.8%, medicine names from 13.7% to 54.8%, and TCM therapy names from 25.8% into 77.2%. Conclusion Using medical cases in TCM acajemic papers as the new knowledge sources for automatic expansion of ontology can significantly increase ontology coverage.

Key words: ontology expansion; TCM ontology; TCM terminology set

基金項目:國家科技部重大專項(2012ZX09304003-001);國家中醫(yī)藥管理局行業(yè)專項(201207001-21);科技部科技基礎性工作專項(2009FY120300);中國中醫(yī)科學院創(chuàng)新團隊項目(PY1306);福建省2011中醫(yī)健康管理協(xié)同創(chuàng)新中心

第一作者:王大禹,博士后研究人員,研究方向為醫(yī)學信息學。E-mail: sywdy@qq.com

*通訊作者:崔蒙,研究員,研究方向為中醫(yī)藥信息學。 E-mail: cm@mail.cintcm.ac.cn

一個本體包含的概念、實例及關系的數(shù)量決定了這個本體可以支持的智能算法的廣度和深度。如果一個實例在本體中找不到,那么本體對于這個實例的處理和計算就無法提供準確支持。當然,也可以考慮利用相似度計算找到本體中與被查詢實例最接近的實例,但是這種方法會引入其他知識資源(如同義詞詞典)或計算模型(如向量空間模型等相似度計算模型),本體無法獨立工作,產(chǎn)生依賴關系;同時也降低了準確度,因為相似度計算本身可能是不夠完善和準確的。所以,構(gòu)建一個概念豐富、關系完整的本體對于解決復雜問題是必備的。

本體的構(gòu)建需要領域?qū)<业膮⑴c,并需要大量的手工工作,難以大規(guī)模構(gòu)建。在具有基本框架和內(nèi)容的本體上利用人工智能技術(shù)進行擴展是擴建本體的一種辦法。中醫(yī)領域的本體擴展對于醫(yī)學領域及其他領域的本體擴展都具有指導意義。

1 形式化定義

本體的常用形式化定義有很多種,例如,本體可以形式化為五元組,其中C為本體中包含的概念(或類別)的集合;R是關系的集合;F是一個函數(shù)的集合,其中每一個函數(shù)定義了一個或幾個概念通過某個關系ri映射到唯一的一個概念;A是公理集;ins是實例集。為簡化問題,本文僅研究二元關系。例如,在本論文研究的本體中,對于三元組<加味術(shù)苓湯,呃逆,治療>,“加味術(shù)苓湯”和“呃逆”分別屬于“中藥”和“病癥”類別下面的實例,“治療”是關系。EL和ER分別表示存在二元關系的2個實例,例如對于“治療”關系,EL是“加味術(shù)苓湯”,ER是“呃逆”,表示加味術(shù)苓湯可治療呃逆。

一個從帶標語料庫、結(jié)構(gòu)化文本或其他資源中抽取出的二元關系可用于本體擴展,它與本體的關系取決于這個二元關系中的2個實例和關系是否在原本體中。表1顯示了6種情況,除了“不支持擴展”這種情況,我們對其他5種情況(概念擴展I、概念擴展II、單純關系擴展、關系及概念擴展I、關系及概念擴展II)逐一進行定義。

1.1 概念擴展Ⅰ

在這種情況下,新的二元關系(ELn, ERn, Rn)中有一個概念在本體中,假設概念ELn在本體中,同時關系Rn也在本體中。新的二元關系把原本體中的某一個實例相關的一個關系擴展到了一個新的實例。例如,“治療”關系是中醫(yī)本體中最基本的關系之一,對于一種常見的疾病,如果新的二元關系是一種新的藥物或組方可以治療這種疾病,就可以利用概念擴展Ⅰ的方式對本體進行擴展。

1.2 概念擴展Ⅱ

在這種情況下,新的三元組中的2個實例ELn、ERn均不在本體中,而關系Rn在本體中,我們把這個二元關系加入本體。加入本體后如果不對本體內(nèi)部進行操作,這個新的三元組中的2個實例就是孤立的。仍以“治療”關系為例,如果發(fā)現(xiàn)某種新的藥物可以治療新的疾病,則符合概念擴展Ⅱ的方式。

1.3 單純關系擴展

在這種情況下,新的三元組中的2個實例ELn、ERn均在本體中,而關系Rn不在本體中,這意味著新三元組為本體中2個已經(jīng)存在的實例發(fā)現(xiàn)了新的關系,我們需要判斷新的關系和原有關系是否存在從屬關系。如果存在從屬關系,例如,直接上位詞或相鄰層級的上位詞關系是上位詞關系的子集。在這種條件下,如果新發(fā)現(xiàn)的關系沒有為本體提供新的信息,則不作擴展。例如,本體中已經(jīng)是直接上位詞關系,新發(fā)現(xiàn)的是上位詞關系,則不做擴展。如果新發(fā)現(xiàn)的關系提供了更準確的信息,例如本體中是上位詞關系,而新發(fā)現(xiàn)的是直接上位詞關系,則用新的關系代替原有關系。如果不存在從屬關系,則要檢查新關系和原有關系是否矛盾,或有條件限制。例如,2個人的關系可能在某個日期前是上下級關系,而在某個日期之后是匯報給同一個上司的同事關系。“上下級”和“同級”這2個關系在同一時間點是矛盾的,因此需要加入日期這個信息。很多情況下,2個關系是不矛盾的。例如,2個人的生物學父子關系會一直延續(xù),但在某個日期之后2個人增加了“同事”關系。這種情況下,增加日期信息會讓本體包含更多有用的信息。

1.4 關系及概念擴展Ⅰ和Ⅱ

在這種情況下,新的三元組中的關系Rn不在本體中,同時至少有1個實例不在本體中,這時需要把新的三元組所表示的關系加入到本體中。

1.5 本體的自完善

本體擴展應尊重并符合原本體的建立標準。我們提出一些衡量本體內(nèi)部一致性的評測指標,并定義在我們的研究中本體需要達到的標準。如果原本體已經(jīng)達到了這樣的標準,新添加的部分應符合同樣的標準。如果原本體沒有達到這樣的標準,則可以將原本體做自完善,使其符合定義的標準;然后再保證新添加的部分符合同樣的標準。

2 實驗設計

2.1 本體的構(gòu)建

本研究使用中國中醫(yī)科學院中醫(yī)藥信息研究所的病癥、臨床發(fā)現(xiàn)和處方三個分支結(jié)構(gòu)的術(shù)語集[1]及術(shù)語之間的二元關系來構(gòu)建本體。構(gòu)建后的本體包含41 652個實例,這些實例之間存在的二元關系及數(shù)量如表2所示。

例如,“被…治療”和“治療”是一對反向的關系,本體中包含“被…治療”的二元關系有57 170個,“治療”關系也有同樣的數(shù)量。“治療”關系的EL有31 879個,“被…治療”關系的EL有2293個,就是說這個本體中“治療”關系左側(cè)的藥物或方法有31 879個,而右側(cè)被治療的疾病或者證候有2293個。31 879個EL到2293個ER上的二元關系共有57 170個。

2.2 帶標語料庫情況

本研究使用本所對近年中醫(yī)領域中文學術(shù)論文中病案的標注[2],隨機抽取4000個診次,抽取條件是每個診次包含如下完整的信息:疾病名稱、證候、治法和用藥。例如,下面是一個診次的例子:

疾病名稱:'咳嗽'

證候:'風熱之邪侵襲肺衛(wèi)$肺失清肅$衛(wèi)表失宣'

治法:'祛風$疏表$宣肺$止咳'

用藥:'止嗽散加減'

本研究把4000個診次信息隨機分成4組,每組1000個診次。對4000個診次中疾病名稱進行統(tǒng)計,并按照出現(xiàn)頻率由高到低排序,統(tǒng)計信息見表3。可見“眩暈”和“咳嗽”是出現(xiàn)頻率最高的2個疾病名稱,分別出現(xiàn)116次和92次。有兩個疾病名稱分別出現(xiàn)53、51次,疾病種類數(shù)為2。

3 本體評測

為了定量評估擴展前和擴展后本體的質(zhì)量,我們定義了一些適合評測研究中所使用的本體的指標,這些評估指標也可以為其他本體質(zhì)量的評測提供一些幫助。

3.1 實例術(shù)語覆蓋率

這類指標包括可重復覆蓋率(RC)和不重復覆蓋率(UC),它們反映一個本體對測試集中的疾病名稱的覆蓋情況,即給出一個實例名稱,例如疾病名稱或證候名稱,在本體中是否可以查詢到這個名稱及相關知識。為了更好地呈現(xiàn)一個本體對真實應用的支持程度,測試集中的疾病名稱應直接來源于各種應用,例如醫(yī)案、病案或電子病歷。如果測試集中的疾病名稱是真實的隨機采樣,疾病名稱在測試集中是可以重復的,其所占比例代表實踐中的真實情況。有一些疾病是非常常見的,例如表3中使用的病案中“眩暈”和“咳嗽”就是出現(xiàn)頻率最高的疾病名稱。當測試集中的疾病名稱是可以重復的,一個本體包含這個測試集中的疾病的百分比被稱為RC;如果一個測試集中的疾病名稱都是不可重復的,則一個本體包含這個測試集中的疾病百分比被稱為UC。顯然,“可重復覆蓋率”給常見疾病增加了對結(jié)果的影響;而“不重復覆蓋率”把所有疾病都賦予相同的權(quán)重。

3.2 關系覆蓋率

這類指標也包括可重復覆蓋率(RC)和不重復覆蓋率(UC),它們反映一個本體對測試集中的二元關系的覆蓋情況。只有測試集中某一個二元關系的2個實例及關系都能在本體中找到,我們才確定本體覆蓋這樣一個二元關系。如果測試集中的二元關系來源于真實應用,則可以有重復的,本體稱這種測試集的覆蓋為RC;如果測試集中的二元關系都是不相同的,本體稱這種測試集的覆蓋為UC。

3.3 本體擴展效果評測

我們對構(gòu)建的本體分別使用1組、2組、3組診次中抽取的信息進行擴展,然后使用第4組診次中抽取的信息作為測試集進行評測。同時和原本體進行比較。為了減少不同診次對實驗結(jié)果的影響,我們借用N重交叉驗證方法,把未擴展的本體在4組診次上的疾病名稱覆蓋率的平均值作為基準,即表4中“0”所在列。使用1000個診次擴展本體時,如果用A組診次作為知識源擴展本體,會分別使用BCD其他3個組作為測試集,然后求平均值;再換B組作為知識源擴展本體,用ACD其他3個組作為測試集。這樣把12個實驗結(jié)果求平均值作為最終結(jié)果,即表4中“1000”所在列。使用2000個診次擴展時,也用任意2個組擴展本體后,分別在剩余的2個組上做測試,然后求平均值,也是12個實驗結(jié)果求平均值,即表4中“2000”所在列。使用3000個診次擴展本體時,取3個組診次擴展本體,然后在第四組上做測試,為4個實驗結(jié)果的平均值,即“3000”所在列。為了衡量覆蓋率隨診次增加的變化關系,使用最小二乘法對已知數(shù)據(jù)進行最佳線性擬合,把使用的診次數(shù)量視為自變量,疾病名稱覆蓋率視為函數(shù)值,把擬合后的直線斜率k放大10 000倍后呈現(xiàn)在表4中“k×104”所在列中。

4 結(jié)論

本研究通過構(gòu)建本體和新知識源,并通過構(gòu)建測試集來定量研究本體擴展后性能的提升。實驗表明,包含41 652個實例的本體通過3000個診次(另有1000個診次是測試集,不使用)的醫(yī)療信息擴展后,對真實臨床應用出現(xiàn)的疾病名稱的覆蓋率由52.3%增至72.4%,證候名稱的覆蓋率由14.8%增至55.8%,藥物名稱的覆蓋率由13.7%增至54.8%,治法名稱的覆蓋率由25.8%增至77.2%。隨著用于擴充本體的診次數(shù)量的增加,治法名稱的覆蓋率增加最快,平均每增加1000診次,覆蓋率增加16%;疾病名稱增加最慢,平均每增加1000診次增加6.5%。

目前研究僅為初步工作,因此包含很多簡化。例如,治療中藥物名稱的匹配,只考慮藥物名稱,而且方劑名稱后如果有“加味”及“加減”視為同一名稱。另外,治法的匹配只考慮了精確匹配,沒有做進一步的分析,如四字詞僅和自身做精確匹配,沒有和包含的二字術(shù)語匹配或計算相似度。例如“活血化瘀”在4000個診次中出現(xiàn)了81次,查找時沒有考慮“活血”或“化瘀”。而“活血”出現(xiàn)了389次,“化瘀”出現(xiàn)207次。如果考慮模糊匹配或相似度計算,可以更好地反映本體的質(zhì)量。

5 討論與未來工作計劃

本體的自動、半自動構(gòu)建和擴展一直是國際上人工智能、知識管理領域的重要研究課題。很多智能的方法已經(jīng)出現(xiàn),例如基于語義的方法從語料中抽取概念來擴展已有的本體的研究,其核心在于如何識別出候選的概念,這種方法已經(jīng)應用于中醫(yī)領域的本體擴展[3]。有的研究從網(wǎng)上的百科全書中抽取概念來構(gòu)建本體,例如使用維基百科的方法[4],在沒有標注的語料庫中概念和實例是難以區(qū)分的,因此上述研究借助維基百科的定義和種類標記,借助N元組統(tǒng)計及自然語言處理的方法。也有一些研究嘗試使用原有本體,從中抽取概念再構(gòu)成新的本體[5]。因為結(jié)構(gòu)化數(shù)據(jù)需要大量人工的工作,有研究人員[6]從文本中通過無指導的方式構(gòu)建特殊領域的本體,包含了同義詞、從屬、作用、屬性等語義及結(jié)構(gòu)明顯的關系。還有在已經(jīng)存在的本體上進行計算,構(gòu)建新的本體。例如,有的研究在已經(jīng)存在的本體中自動生成映射關系,通過抽取、匹配、合并技術(shù)來半自動地構(gòu)建本體[7];有的研究利用術(shù)語在特殊領域及一般領域出現(xiàn)頻次的比較來抽取概念和關系,進行半自動的本體構(gòu)建[8]。國內(nèi)也有一些通用領域的研究[9-12]和特定領域的研究,例如生物醫(yī)學領域[13]、氣象領域[14]、農(nóng)業(yè)領域[15]等,這些研究使用了維基百科、科技文獻等資源來擴展本體。

上述研究的普遍不足之處在于缺少對擴展前后或新構(gòu)建的本體的評測,有的研究即使有評測,卻沒有使用來源于實際應用的測試集。本研究彌補了本體測評的問題,并使用了來自真實應用的診次信息構(gòu)建測試集。從UC和RC的差值上,我們發(fā)現(xiàn)藥物名稱的差距最小而治法名稱的差距最大,說明絕大部分治法名稱的術(shù)語容易反復出現(xiàn),而藥物名稱不容易反復出現(xiàn)。從斜率k上看,隨著診次的增加,治法名稱覆蓋率最容易增加,而疾病名稱不容易增加。說明實際就診中常見病會經(jīng)常出現(xiàn),而中醫(yī)治法多元化的形勢明顯,與疾病名稱相比,同樣的疾病在中醫(yī)診治中會使用不同的治法。通過藥物名稱的RC和UC差異看,二者差異遠大于疾病名稱、治法和證候,說明實際治療中醫(yī)生傾向于使用常用藥物。

參考文獻

[1] 于彤,賈李蓉,劉靜,等.中醫(yī)藥學語言系統(tǒng)研究綜述[J].中國中醫(yī)藥圖書情報雜志,2015,39(6):56-60.

[2] 李園白,楊陽,朱曉博,等.基于文獻的“病-藥”關聯(lián)關系分析[J].中華中醫(yī)藥雜志,2014,29(1):253-255.

[3] ZHOU LP, ZHANG DZ, CHEN X, et al. A method for semantics-based conceptual expansion of ontology[C]// Association for Computing Machinery(ACM). Proceedings of the 2008 ACM symposium on Applied computing. New York,2008:1583-1587.

[4] CUI GY, LU Q, LI WJ, et al. Mining Concepts from Wikipedia for Ontology Construction[C]// IEEE Computer Society. Proceedings of the 2009 IEEE/WIC/ACM international Joint Conference on Web intelligence and intelligent Agent Technology. Washington,2009:287-290.

[5] BANU A, FATIMA SS, KHAN KUR. A re-usability approach to ontology construction[C]// Association for Computing Machinery(ACM). Proceedings of the Second International Conference on Computational Science, Engineering and Information Technology. New York,2012:189-193.

[6] MUKHERJEE S, AJMERA J, JOSHI S. Unsupervised approach for shallow domain ontology construction from corpus[C]// Association for Computing Machinery(ACM). Proceedings of the 23rd International Conference on World Wide Web. New York,2014:349-350.

[7] TOUMA R, ROMERO O, JOVANOVIC P. Supporting Data Integration Tasks with Semi-Automatic Ontology Construction[C]// Association for Computing Machinery(ACM). Proceedings of the ACM Eighteenth International Workshop on Data Warehousing and OLAP. New York,2015:89-98.

[8] CARVALHEIRA LCC, GOMI ES. A method for semi-automatic creation of ontologies based on texts[C]// Proceedings of the 2007 conference on Advances in conceptual modeling: foundations and applications. Auckland,2007:150-159.

[9] 侯鑫,張旭堂,金天國,等.面向知識與信息管理的領域本體自動構(gòu)建算法[J].計算機集成制造系統(tǒng),2011,17(1):159-170.

[10] 楊靖.領域本體自動構(gòu)建的關鍵技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學,2008.

[11] 程曉.面向半結(jié)構(gòu)化文本的領域本體自動構(gòu)建研究[D].哈爾濱:哈爾濱工業(yè)大學,2009.

[12] 盧文興,陳黎,朱洪波,等.基于本體翻譯的領域本體自動構(gòu)建[J].計算機工程與設計,2011,32(9):3203-3207,3230.

[13] 孫銳.生物醫(yī)學領域本體自動構(gòu)建系統(tǒng)的設計與實現(xiàn)[D].杭州:浙江大學,2013.

[14] 王磊,顧大權(quán),侯太平,等.基于維基百科的氣象本體的自動構(gòu)建[J].計算機與現(xiàn)代化,2014(6):129-131,136.

[15] 王超,李書琴,肖紅.基于文獻的農(nóng)業(yè)領域本體自動構(gòu)建方法研究[J].計算機應用與軟件,2014,31(8):71-74.

(收稿日期:2016-08-19)

(修回日期:2016-09-08;編輯:魏民)

主站蜘蛛池模板: 国产在线观看精品| 2020精品极品国产色在线观看| 91精品国产福利| 色国产视频| 国产成人调教在线视频| 亚洲欧美人成电影在线观看| 午夜福利视频一区| 国产主播一区二区三区| 欧美一级黄色影院| 欧美中出一区二区| 国产91精品调教在线播放| 老熟妇喷水一区二区三区| 国产在线观看人成激情视频| 先锋资源久久| 久久婷婷五月综合97色| 欧美成人怡春院在线激情| 亚洲无线国产观看| 色综合热无码热国产| 视频二区中文无码| 久久久久亚洲AV成人人电影软件 | 国产jizz| 黄网站欧美内射| 午夜激情福利视频| 精品乱码久久久久久久| 色妞永久免费视频| 成人在线天堂| 夜夜高潮夜夜爽国产伦精品| 88av在线| 97国产精品视频自在拍| 国产95在线 | 91口爆吞精国产对白第三集| 二级毛片免费观看全程| 国产精品99r8在线观看| 狠狠躁天天躁夜夜躁婷婷| 精品人妻一区无码视频| 国产精品欧美日本韩免费一区二区三区不卡| 国产成人高清亚洲一区久久| 亚洲天堂成人在线观看| 亚洲视频免| 久久久久久久97| 欧美成人日韩| 波多野结衣中文字幕久久| 欧美日韩一区二区在线播放 | 成人久久18免费网站| 国产视频一二三区| 日韩在线欧美在线| 日本午夜视频在线观看| 国产欧美自拍视频| 亚洲精品在线观看91| 手机在线免费不卡一区二| 毛片视频网址| 一区二区三区四区日韩| 国产精品久久久久鬼色| 激情无码字幕综合| 91精品网站| 99久久99这里只有免费的精品| 久久性视频| 欧美成人影院亚洲综合图| 国产在线精品美女观看| 99视频国产精品| 亚洲大学生视频在线播放| 亚洲无线观看| 精品视频在线一区| 亚洲中字无码AV电影在线观看| 日韩天堂在线观看| 一级香蕉人体视频| 毛片久久网站小视频| 国产成人精品一区二区秒拍1o| 欧美激情一区二区三区成人| 欧美午夜网| 国产另类视频| 女人爽到高潮免费视频大全| 久久精品国产精品国产一区| 四虎永久免费在线| 精品国产自在现线看久久| 国产三级国产精品国产普男人 | 国产在线观看91精品| 国产青青草视频| 亚洲区欧美区| 美女免费黄网站| 色婷婷色丁香| 国模视频一区二区|