999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Mesh詞表和共詞分析的疾病本體半自動構建方法研究

2009-04-29 00:00:00劉菊紅于建榮繆有剛
現代情報 2009年3期

〔摘 要〕分析了利用專業詞表和共現分析方法相結合半自動構造領域本體構建的方法。利用專業詞表抽取概念和等級關系,利用共現分析方法抽取非等級關系。

〔關鍵詞〕本體;半自動構建;Mesh;共現分析

〔中圖分類號〕G254.24 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)03-0208-04

本體是用來描述某個領域甚至更廣范圍內的概念以及概念之間的聯系,使得這些概念和聯系在共享的范圍內有著明確惟一的定義,達成一種共識,這樣人機就可以進行交流。N.Guarino提出將本體劃分為頂級本體(top—level ontology)、領域本體(domain ontology)、任務本體(task ontology)和應用本體(application ontology)。

1 領域本體概述

1.1 領域本體的概念、特征及其發展態勢

領域本體是用于描述指定領域知識的一種專門本體。它給出了領域實體概念及相互關系、領域話動以及該領域所具有的特性和規律的一種形式化描述。目前,領域本體模型的研究已經進入實際應用階段,許多研究領域都建立了自己標準的本體[1]。領域本體的發展非常迅速,不僅得到了廣泛的應用,在實際應用中也取得了積極的作用。國外文獻中涉及的領域本體,包括化學領域、生物醫學領域、地理學領域和其他領域。領域本體的應用展現出涉及學科領域廣、更加專業化、針對性更強、涉及多個學科的領域本體增多等特點[2]。

對數字圖書館而言,領域本體在數字圖書館對其知識進行語義層面的組織中扮演著至關重要的角色,領域本體的構建是語義網絡環境下數字圖書館知識組織不可或缺的關鍵步驟。

1.2 領域本體的構建

目前本體構建主要有手工構建、復用已有本體以及自動構建本體3種方法。手工構建領域本體費時費力、花費巨大,且由于手工構建本體尚缺少一套工程化的科學管理流程作為支撐,使得本體的構建主觀性太強,可行性和實用性都受到質疑。自動構建本體目前還處于研究階段,利用機器學習會產生大量的噪音數據,缺乏必要的語義邏輯基礎,抽取的概念關系松散且可信度無法得到很好的保障。盡管機器學習應用于本體自動構建有巨大的潛力,但是距離良好的可理解性尚有很大的距離。半自動構建本體是較為理想的模式,其關鍵技術在于領域概念的獲取和領域概念之間關系的獲取[3]。

1.2.1 領域本體構建的主要方法

目前主要的領域本體構建方法有TOVE法、METHONTOLOGY法、骨架法、KACTUS工程法、SENSUS法、IDEF5法和斯坦福大學醫學院開發的七步法。TOVE法專用于構建TOVE本體,由多倫多大學企業集成實驗室研制;METHONTOLOGY法專用于構建化學本體(有關化學元素周期表的本體);骨架法專門用來構建企業本體;KACTUS工程法的目的是要解決技術系統生命周期過程中的知識復用問題;SENSUS是開發用于自然語言處理的SENSUS語言本體的方法路線。IDEF5法開發用于描述和獲取企業本體的方法;斯坦福大學醫學院開發的七步法,主要用于領域本體的構建。目前大多數領域本體的構建都采用了七步法。

1.2.2 領域本體構建的流程

根據現有的本體構建方法進行總結,本體構建的一般流程如下:(1)明確研究對象和范疇;(2)對該領域的現有本體進行調查和研究,借鑒已有的研究成果;(3)提取核心概念;(4)對概念詞進行分類和合并,定義類和類的語義關系,主要包括等級關系和非等級關系;(5)定義函數和公理;(6)創建實例;(7)構建知識庫。

1.3 領域本體構建的關鍵技術

領域本體構建的關鍵技術包括領域概念的獲取和領域概念之間關系的獲取。領域本體領域概念獲取主要有以下兩個途徑:①專業詞典;②利用自然語言處理技術,直接從全文或者文摘、關鍵詞字段中抽詞。領域概念之間的關系主要分為等級關系和相關關系。等級關系獲取的方法主要有:①專業詞典;②聚類算法;③字面成族;④模式匹配。相關關系獲取的主要算法有:①共現統計算法;②關聯規則算法;③隱含語義索引;④Hopfield聯想算法等[3]。

2 疾病本體的構建

生物學領域涉及比較廣,與醫學、化學等多個學科多有交叉,相關本體也多是與其他學科相結合,其應用也比較成熟、廣泛。近年來在生物醫學領域出現的領域本體有:(1)SGDS(Similar genes discovery system),相似基因發現系統;(2)GOHSE系統,是一個支持瀏覽生物資源的應用程序;(3)FMA(the Foundational Model of Anatomy)是一個生物醫學信息學方面的參考本體。(4)OBO(Open Biomedical Ontologies),開放生物醫學本體[3]。

重大疾病通常具有以下2個基本特征:一是“病情嚴重”,會在較長一段時間內嚴重影響到患者及其家庭的正常工作與生活;二是“治療花費巨大”,此類疾病需要進行較為復雜的藥物或手術治療,需要支付昂貴的醫療費用。衛生部2006年統計報告指出,重大疾病導致的全國人口死亡總數占死亡總數的90.4%。因此,探討重大疾病本體構建的方法具有重大意義。

2.1 疾病本體的頂層構建

由于疾病具有相同的特征,如都可以從表型、病因學、治療手段等角度進行描述。因此,對疾病的特征進行分析,探討構建本體的方法是可行的。澳大利亞科庭大學Maja Hadzi等人對疾病本體展開了深入的研究,在第38屆國際系統科學會議上,展示了在疾病本體研究領域的研究成果,構建了疾病本體的頂層框架,認為疾病本體可以從疾病類型、表型、病因學、治療手段4個主要的維度進行描述(見圖1)[4]。人類基因組計劃后,人類對基因的認識突飛猛進,對現有生物醫學相關數據庫的調查發現,大部分數據庫僅限于基因組學等分子生物學領域。從基因的角度認識基因與疾病的關系尤其具有重要的意義。

2.2 疾病本體概念的獲取

由Medline數據庫收錄的生物醫學文獻,都由標引人員賦予了12個左右的MeSH主題詞來表達該文獻的主要內容。正是由于MeSH主題詞的存在,才保證了PUBMED海量生物醫學文獻的有效檢索。《醫學主題詞表》(Medical Subject Headings,簡稱MeSH),由美國國立醫學圖書館(NLM)編輯出版。MeSH詞表的以下特點,使MeSH詞表滿足為疾病本體構建提供概念的要求。

(1)詞表主題詞是在醫學文獻標引的基礎上編制的,并盡可能吸收反映專業文獻領域新出現的專業術語符合醫學文獻標引的需要。目前,MeSH已收入敘詞24 767個,入口詞97 000個[5]。

(2)樹形結構表劃分級別深,列類詳盡,遠超過一般敘詞表的范疇索引,有助于從分類的角度對敘詞表進行查找和使用。

(3)使用范圍廣:MeSH是國外生物醫學領域使用最廣泛的專業詞表,NLM利用MeSH敘詞表來標引MEDLINE數據庫和pubMED數據庫中的4 800種世界頂級生物醫學期刊的文章。

(4)更新速度快:MeSH詞表1960年出版,從1962年起每年更新1次,網絡版每周更新,使詞表 能收錄最新的詞匯,避免了辭典通常不能及時收錄新詞的缺陷。

2.3 等級關系的獲取

MeSH詞表從學科分類角度組織敘詞。樹形結構表從學科分類的角度,按MeSH收錄的主題詞的學科屬性分類編排而成,故又稱范疇表。它通過展示主題詞在學科體系中的邏輯關系,縱向反映主題詞之間的概念等級關系。樹形結構表將MeSH所有的主題詞分為17大類(見表1)[6]。

在各大類下,再根據情況劃分若干基本類目,按照需要按概念的等級關系逐漸展開子類,最多可達9級,用逐級縮格的方式來表達它們的邏輯隸屬關系,同一級的主題詞按字順排列,每一個詞給一個樹形結構號。下面為胰島抵抗樹形結構表的編排格式(見圖2):[6]

第1級Diseases疾病C

第2級 Nutritional and Metabolic Diseases營養和代謝疾病C18

第3級 Metabolic Diseases代謝疾病C18.452

第4級 Glucose Metabolism Disorders葡萄糖代謝紊亂C18.452.394

第5級Hyperinsulinism胰島功能亢進 C18.452.394.968

第6級 Insulin Resistance胰島素抵抗 C18.452.394.968.500

圖2 胰島抵抗樹狀結構片段

被Mesh詞表收錄的每一個概念詞,都存在于樹狀分類結構之中。因此,可以利用Mesh詞表的范疇表,提取糖尿病本體概念的等級關系。

2.4 非等級關系的獲取

目前,非等級關系的提取主要依賴于人工提取,通過領域專家的閱讀來建立概念間的非等級關系,手工構建領域本體不僅費時費力、花費巨大,且其隨意性大,可用性受到質疑,并且依賴于領域專家的參與。

2.4.1 共詞分析的相關理論

共詞分析是共現分析當中的一種,具體指通過分析在同一個文本主體中的款目對(單詞或名詞短語對)共同出現的形式,以發現科學領域的學科結構的定量分析方法[11]。在自然語言中,所有的概念之間都是直接或者間接相關的。對于全部概念,同一領域內概念之間的聯系要比不同領域間概念的聯系程度更密切。在這里用概念之間的距離表示概念之間關系的緊密程度,兩個概念越相關,那么這兩個概念的距離就越短,這種聯系的直接表現就是概念在文本中的共現,在一篇文章中,一個主題內容會出現多個概念,而這些概念就是要提取的[7]。

2.4.2 相關研究

Ying Ding在12屆國際數據庫和專家系統應用會議上提出可利用共現理論來構建本體[8]。Takeshi Morita,Yoshihiro Shigeta,Ying Ding等正在開發的DODDLE-OWL本體構建項目綜合利用了共現分析方法和現有詞表或本體中的分類學知識為特定知識系統構建本體。DODDLE-OWL項目利用已有本體中的類別信息構建本體中的基礎類別關系。同時,通過從該領域文本集中抽取的相關概念進行共現分析以確定概念之間的非分類關系;Ying Ding在構建IR和AI本體時,首先利用共現分析獲得具有語義關系的關鍵詞對,隨后利用現有的領域詞表提供的BT/NT關系豐富詞匯間的層次關系[8-9]。張學福利用詞共現進行了可視化的概念空間研究[10]。王曰芬等提出共現分析可用于構建本體[11]。

2.4.3 共詞分析的基本流程

按照共現分析的方法論基礎和研究的目的,本文針對疾病本體的構建,設計了如下共現分析流程:

(1)概念詞抽取:從題名、文摘、關鍵詞字段,提取出被MeSH詞表收錄的概念詞。從概念出現頻次及出現位置兩個角度進行加權計算,設置閾值,選擇部分與研究領域最相關的概念詞。

(2)概念間關系的提取:從概念對之間的共現頻率、共現時相隔的詞間距離等角度進行加權計算,選擇部分語義關聯概率最大的詞對。

(3)構造共詞矩陣:根據第二步提取出來的詞匯對,構造共詞矩陣。

(4)概念關聯度分析:分析兩個詞匯(或概念)間的關聯度的主要測度方法有Dice指數、余弦指數、Jaccard指數和H.Chen提出的共現算法等[11],選擇合算法進行概念關聯度分析。

(5)算法改良:分析概念間語義關系的提出質量,對算法進行改進。

3 總 結

利用詞表和共現分析方法構建本體,已有相關的理論探討和研究。本文認為,在生物醫學領域,可以將這2種方法相結合,實現本體的半自動構建。這相比手工構建本體而言,節省了從量的時間跟人力。如何利用共現分析方法,提高語義關系獲取的質量和效率,還有待在實踐中進一步改進。

參考文獻

[1]王梅.owl領域本體構建方法研究[J].圖書情報工作,2004,12(22):12-33.

[2]余倩.近年來領域本體的應用新進展[J].圖書館建設,2008,(8):95-99.

[3]何琳,杜慧平,侯漢清.領域本體的半自動構建方法研究[J].圖書館理論與實踐,2007,(5):26-27,38.

[4]Maja Hadzic,Elizabeth Chang.Ontology-based Support for Human Disease Study.Proceedings of the 38th Hawaii International Conference on System Sciences.2005,143a.

[5]http:∥www.nlm.nih.gov/pubs/factsheets/mesh.html[EB].2008-09-06.

[6]http:∥www.nlm.nih.gov/cgi/mesh/2008/MBcgi[EB].2008-09-07.

[7]耿騫,耿崇.利用詞語共現進行Ontology的概念獲取[J].現代圖書情報技術,2006,(2):43-49.

[8]Ying Ding IR and AI:Using Co-occurrence Theory to Generate Lightweight Ontologies 12th International Workshop on Database and Expert Systems Applications.0961.

[9]TakeshiMorita,Yoshihiro Shigeta,et al.DODDLE-OWL:On-the-fly Ontology Construction with Ontology Quality Management[EB].http:∥iswc2004.semanticweb.org/posters/PID-JURPMVUS-1090083983.pdf,2008-09-07.

[10]張學福.基于詞共現的可視化概念空間研究[J].情報學報,2008,(27):2,205-211.

[11]王曰芬,宋爽,苗露.共現分析在知識服務中的應用研究[J].現代圖書情報技術,2006,(4).29-34.

主站蜘蛛池模板: 午夜视频在线观看免费网站| 六月婷婷精品视频在线观看| 日韩欧美一区在线观看| 美女毛片在线| 日本伊人色综合网| 国内丰满少妇猛烈精品播| 亚洲二三区| 欧美日韩福利| 亚洲大学生视频在线播放| 欧洲高清无码在线| 不卡视频国产| 不卡无码h在线观看| 99国产精品免费观看视频| 久久一色本道亚洲| 91偷拍一区| 久久精品女人天堂aaa| 青青青亚洲精品国产| 日韩一级毛一欧美一国产| 日韩福利视频导航| 无遮挡一级毛片呦女视频| 亚欧乱色视频网站大全| 日韩视频免费| 国产乱人视频免费观看| 国产永久免费视频m3u8| 草草影院国产第一页| 99精品视频九九精品| 巨熟乳波霸若妻中文观看免费| 国产精品免费电影| 欧美一级视频免费| 婷婷激情亚洲| 一区二区影院| 欧美综合区自拍亚洲综合天堂| 国产一级毛片高清完整视频版| 欧美一级黄色影院| 日韩欧美中文在线| 91蜜芽尤物福利在线观看| 天天做天天爱夜夜爽毛片毛片| 午夜视频免费试看| 亚洲丝袜中文字幕| 精品三级网站| 久久久精品无码一区二区三区| 久久国产免费观看| 无码中文AⅤ在线观看| 亚洲日韩精品欧美中文字幕| 国产美女人喷水在线观看| 国产jizz| 欧美日韩国产精品综合| 免费aa毛片| 最新国产高清在线| 日韩欧美一区在线观看| 免费三A级毛片视频| 欧美a在线视频| 香蕉eeww99国产精选播放| 国产成人一区免费观看| 国产95在线 | av一区二区无码在线| 国产精品亚洲αv天堂无码| 亚洲视频免费播放| 久久久久久国产精品mv| 熟女日韩精品2区| 国产欧美另类| 精品少妇三级亚洲| 国产99视频精品免费视频7| 亚洲综合色婷婷中文字幕| 日本高清免费一本在线观看| 99在线观看国产| 日韩天堂视频| 久爱午夜精品免费视频| 亚洲V日韩V无码一区二区| 国产伦精品一区二区三区视频优播 | 亚洲国产日韩一区| 东京热av无码电影一区二区| 久久精品aⅴ无码中文字幕| 亚洲人妖在线| 高h视频在线| 亚州AV秘 一区二区三区| 伊人网址在线| 国产99精品久久| 97久久免费视频| 在线中文字幕网| 99精品免费欧美成人小视频| 亚洲欧美成人在线视频|