999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

知識圖譜及其在醫療領域的應用

2016-03-07 14:53:19張觀林歐陽純萍鄒銀鳳周志鋒
湖南科技學院學報 2016年10期

張觀林 歐陽純萍 鄒銀鳳 周志鋒

?

知識圖譜及其在醫療領域的應用

張觀林歐陽純萍鄒銀鳳周志鋒

(南華大學 計算機科學與技術學院,湖南 衡陽 421001)

文章首先對知識圖譜在過去幾年中在國內的發展趨勢和研究要點進行了歸納和總結。其次,本文以抽取互聯網上的知識構建圖譜為背景,對此類知識圖譜的類型和構建方法進行了闡述、分類和總結。最后,以醫療領域中知識圖譜的應用現狀為契機,分析了未來知識圖譜的應用趨勢。

知識圖譜;實體;實體關系;知識庫

引 言

近年來,隨著計算機科學與互聯網技術的飛速發展,人們的生活方式發生了巨大的改變。電子商務以及移動互聯網技術的風起云涌,使得人們平時并不在意的一些生活數據正在以洪水之勢從互聯網的四面八方向各大網站及數據中心匯集,引發了數據規模的爆炸式增長。據不完全預計到2020年左右,全球互聯網數據總量將達到35ZB(1ZB=270B),其中7成以上的將來自個人(其中主要由圖片、視頻、音樂構成),巨大的數據積累將超越人類自印刷術發明以來印刷材料的數據總量。如此大規模數據的形成與發展潛藏著豐富的知識,給知識工程研究領域提供了研究基礎,同時也帶來不可避免的煩惱。大量冗余、重復、凌亂的數據現存狀態,其中所蘊含的知識也呈現出松散和無序,這將嚴重影響人們日后獲取并判斷知識的正確性與便捷性。因此一種以動態,清晰,直觀,有效的狀態展示知識和知識內部結構及知識之間聯系的數據研究方式—知識圖譜(Knowledge Graph)應運而生[1]。

知識圖譜是以知識為對象,顯示知識和知識內部結構關系的一種圖形,具有“圖”和“譜”的雙重特性。知識圖譜最早的研究源于上世紀40年代的文獻計量學和科學計量學。到20世紀末,知識數量、種類和結構呈現快速變化,受復雜網絡系統和社會網絡分析的引入以及信息可視化技術的突破發展,基因圖譜、GIS和超文本的可視化影響,知識圖譜被正式提出。近年來隨著技術的成熟,知識圖譜的應用逐漸在互聯網領域得到推廣,知識圖譜的發展也開始呈現出逐漸由從文本中抽取指定類型的實體、關系、事件等事實信息向從海量數據中發現實體相關的信息方向發展[2,3]。

1 知識圖譜的類型

根據不同知識庫包含知識的范圍劃分,目前互聯網領域內的知識圖譜可以分為:領域無關知識圖譜;特定領域知識圖譜;跨語言知識圖譜[4]。

1.1領域無關知識圖譜

這類知識圖譜通常不限定特定領域,包含的知識涉及各個領域和行業的各個分支,內容十分廣泛。目前影響的最大的谷歌知識圖譜就是這類知識圖譜的典型代表,它包含5億實體對象和350億條實體間關系信息,并且規模隨信息的增長在不斷擴大。Probase是目前包含概念最多的知識庫,其中包含2653872個概念,20757545種關系,并且支持對短文本的語義理解。除此之外,領域無關知識圖譜還包括DBPedia,Yago,Freebase,WikiTaxonomy,WordNet,百度知心,搜狗知立方等。

1.2特定領域知識圖譜

特定領域知識圖譜一般是針對特定的領域,在內容的廣度上雖不如領域無關知識圖譜寬泛,但是在領域知識的深度上,其包含知識的更加全面和更具針對性。傳統的學科知識圖譜便是這類是指圖譜的典型代表,它們大多也是基于人工編寫的小規模的針對學科領域的知識圖譜,比如:HowNet,HNC ,同義詞林等。除此之外特定領域的知識圖譜還有:正在完善和擴展當中的基于RDF的社交知識圖譜FOAF,包含全球最全的地理知識的知識圖譜Geonames,全球最大的電影知識圖譜Linked Movie Database,FaceBook公司推出的基于社交網絡人物和興趣關系的社交知識圖譜產品Social Graph等。

1.3跨語言知識圖譜

跨語言知識圖譜一般是包含兩種及兩種以上語言的知識庫。因其需要跨越多種語言知識,因此其構建難度在領域無關知識圖譜和特定領域知識圖譜之上。跨語言知識圖譜的代表產品有:XLORE,BabelNet,DBpedia,YAGO,Freebase,WordNet等。

2 知識圖譜的構建方法

隨著知識圖譜的類型和應用的多樣化發展,知識圖譜的構建方式也呈現出發散式的發展狀態。按照知識圖譜構建過程中知識抽取的數據源和數據源中知識呈現出的方式,將知識圖譜的構建方法分為以下幾種[5,6]:

2.1基于外部知識庫的知識圖譜構建方法

基于外部知識庫的知識圖譜構建方法,主要是以在線百科類網站的數據為研究數據的主要來源。這些數據包含大量高質量的常識性知識,更新速度慢,并且具有一定的格式。以互動百科為例,通過摘要抽取各種相關實體,通過目錄模塊內子目錄對應的內錨鏈接獲得各種相關實體概念的上下位關系;通過開放分類抽取實體所對應的類別;通過信息模塊抽取實體所對應的屬性-值對和實體-關系對。通過類似互動百科中信息模塊抽取實體屬性-值和實體-關系對時,常用的一種重要方法是AVP知識抽取(Attribute-value Pairs Mining)。類似地可以從其他的多個在線百科知識網站抽取數據,來彌補單個百科知識網站上抽取知識不足的情況。百科類知識網站除了以上提及的中文在線百科互動百科之外,還有與互動百科并肩的百度百科,包含多種語言的全球在線百科維基百科。Freebase是另外一個重要的百科知識源,它包3900萬多個實體和18億條事實,占據著谷歌知識圖譜數據來源的半壁江,規模上遠勝于維基百科。Freebase另外一個重要特性是,直接結構化編輯實體及其包含的屬性和關系,以及實體所屬的類型等信息。使用Freebase作為數據源抽取知識時,不需要實現定制任何規則,便可獲得高質量的知識。

2.2基于結構化知識的知識圖譜構建方法

結構化知識數據一般都存儲在關系型數據庫中,基于關系型數據庫中數據的存儲特點,一個數據表(table)中存儲的都是同一個類的不同實例,或者是同一屬性的不同值。因此,在抽取信息時,一般是從關系型數據庫中選取一個類或者一組相似的類,將選取的記錄按列分組進行存儲。在知識存儲時通常是將存儲在關系型數據庫中的數據通過D2R轉化為RDF描述進行存儲。

D2R是一種基于XML語言的能夠實現將關系型數據庫中的數據轉化成Link Data的工具,簡而言之就是可以實現數據從關系型數據庫到RDF文件的映射。

RDF(Resource Description Framework)資源描述框架,通常將其稱為一種“語言”,但RDF實際上是一個數據模型(data-model)它由一系列類似“對象-屬性-值”三元組(object-attribute-value tiple)的陳述組成,可以結構化地表示信息,通常用來描述網絡語義資源。

2.3基于半結構化知識的知識圖譜構建方法

中文類百科網站雖然也包含廣泛的跨領域知識,但是在數據結構化程度上遠比不上維基百科。中文百科類網站上的大部分屬性都是以隱藏形式存儲在HTML表格或者列表當中,而且對于同一個站點來說不同的頁面一般都是由統一的程序自動生成的,因此它們之間具有相近的布局和數據分布結構。知識抽取時,一般可以通過先定制數據抽取模板,然后再建立面向站點的文本封裝器來實現信息自動抽取,這種常用的知識抽取方法叫模式匹配。通過模式匹配實現知識自動抽取的方法,自動學習模式時可能會遺漏部分屬性也可能引入一些錯誤的信息,甚至會得到錯誤的學習模式,因此需要通過人工方法來調整或附加新模型來進行改進。

2.4基于非結構化知識的知識圖譜構建方法

由于Web的去中心化結構,大部分知識都是以分散,異構,自治的形式存在,而不是一個統一的,一致的知識整體。因此對于特定領域知識圖譜的構建,采用百科類網站上的數據或者領域垂直網站上的數據并不能達到知識的充分抽取。另一方面,盡管百科類網站上的數據非常龐大,但是對于一些特定領域依舊缺乏相應的知識以滿足完整知識圖譜的構建需求,因此非結構化的知識的存在變得尤為重要。采用非結構化的知識數據,不但能夠滿足一部分特定領域的知識抽取來源,而且還可以在一定程度上滿足對基于百科類網站建立的知識圖譜進行擴展和補充。由于非結構化知識本身的分散性和多源性,在抽取過程中可能會面臨知識重疊,復雜的除噪音處理等問題,并且由于非結構化數據的來源大部分都未經過專業人員的鑒定和核實,其置信度普遍很低,因此在知識圖譜構建過程中非結構化數據的使用并不廣泛。

3 知識圖譜在醫療領域的應用

近年來,醫療衛生信息平臺、醫療設備在醫療衛生機構迅速普及開來,同時產生了大量的醫療數據。如何利用這些海量的醫療信息資源更好的為人們服務,已成為人們所關注的熱點問題。知識圖譜技術給解決這個問題,提供了一個新的技術手段。知識圖譜能夠解決醫療大數據中的知識分散、異構、冗余和碎片化的問題,提供有效的整合和組織醫療知識的途徑。

2015年2月,谷歌公司宣布將開始著重醫療資訊在搜索結果頁面的地位,將于近期內推出醫療版的“知識圖譜”,匯整使用者搜索醫療相關關鍵字的資訊一并列出,讓使用者一目了然。2016年,谷歌的醫療知識圖譜正式在印度上線,谷歌公司——Alexa 數據顯示,印度訪問量最大的兩個網站均為谷歌旗下網站——如今將通過谷歌主搜索引擎(全平臺)和 iOS、Android 搜索應用在用戶搜索疾病或癥狀時為他們提供超過400種健康狀況的數據,支持英語和印地語。谷歌公司把搜索引擎和知識圖譜與在線醫療進行了深度整合,對智能醫療的發展提供了重要的借鑒作用。

對于醫療知識圖譜,國內研究較國外稍晚點,不過醫療領域的從業者們也開始重視構建各類不同醫療領域的知識圖譜。2015年長沙的格爾智慧公司發布了國內首個“護理知識圖譜”研究中心,顧名思義,就是面向護理領域所提供的垂直類型的特定知識庫。也可以說護理知識圖譜是對護理領域的相關知識進行采集,整理和萃取,以滿足與該領域相關的各種對于知識服務的需求。它的本體知識庫是源自于護理領域專家,所反映的是在該領域內對于各種特定問題進行求解的知識集合,包括了相關的各種基本事實,規則和其他相關信息。北京康夫子科技有限公司則從智能診斷著手,康夫子欲建設“知識圖譜+推理邏輯”的醫療大腦。該公司的負責人表示,傳統的診斷學思維,大多使用人工編輯的知識庫,知識庫規模較小,在知識和信息更新上比較滯后,不能以自然語言處理,且采用決策樹的結構,在診斷效果上很快就會達到瓶頸。而康夫子基于知識圖譜推出的智能診斷系統在技術上會更有優勢。從技術原理上來說,康夫子智能診斷是經過三大步驟訓練出來的:(1)知識抽取:讓計算機閱讀理解海量醫療文獻,抽取針對某種知識總結出上萬條書寫規律;(2)知識表示:包括知識向量化表示和知識關系概率化表示;(3)邏輯應用:當用戶搜索某種癥狀后,是否還會有其他伴隨癥狀?這就涉及到查詢分析和人機交互,最終呈現搜索結果。

除了工業界的產品研發之外,學術界的學者們也對醫療垂直領域知識圖譜的研究產生了濃厚的興趣。其中,華東理工大學的王昊奮博士在調研國內外通用和醫療行業專用知識圖譜的基礎上利用文本抽取、關系數據轉換以及數據融合等技術,探索中醫藥知識圖譜自動化構建方法與標準化流程,以期實現基于模板的中醫藥知識問答和基于知識圖譜推理的輔助開藥[7]。中醫科學院的賈李蓉也從數據采集,內容抽取,圖形化展示幾個方面介紹了他們的中醫知識圖譜的構建工作,并預計開展基于中醫藥知識圖譜的檢索系統、基于中醫藥知識圖譜的知識地圖和中醫藥知識圖譜的維基百科等一系列應用研究[8,9]。

基于知識圖譜的知識推理,可以發現知識間隱藏的一些新知識,不僅可以擴展當前的知識圖譜而且可以讓知識圖譜包含的知識變得更加飽滿和充分[10]。因此,在醫療領域的知識圖譜應用在目前取得的成果可以應用到其他領域中,例如,利用知識圖譜識別互聯網金融的欺詐行為;知識圖譜與商業大數據分析結合,可以有效的提取商業領域的知識單元,提供輔助情報分析;知識圖譜與搜索引擎和智能問答的結合更加可以給我們的生活帶來純凈的信息環境[11]。

4 結 語

根據知識圖譜的發展背景和起源,文章首先對知識圖譜在過去幾年中在國內的發展趨勢和研究要點進行了歸納和總結。由于知識圖譜是引入的知識概念,在國內發展比較晚,因此到目前為止國內的知識圖譜并沒有實現統一的標準定義,并且知識圖譜的研究領域也集中在類似情報學、教育學、體育學、管理學等為數不多的比較狹窄的知識領域之內,研究對象也多以文獻為主,研究方法中的基于監督和半監督的研究方法占據著國內知識圖譜研究領域的半壁江山。其次,根據知識圖譜發展的新趨勢,文章以互聯網范圍內的知識圖譜為背景,對知識圖譜的類型,構建方法進行了闡述和總結,并宏觀的介紹了知識圖譜在醫療領域的應用前景。

隨著互聯網數據的爆炸式增長,以及國際知識圖譜領域研究的向前發展和推進,我國知識圖譜的發展將贏來新的轉變。另一方面,隨著中文分詞技術、實體及實體間關系的辨別技術及語義理解等技術研究的進一步成熟,構建大規模的中文知識圖譜,實現實體及實體間關系抽取的,多源知識融合與驗證的難點突破將成為可能。

[1]Hook PA.Domain maps:Purposes,history,parallels with cartography,and applications[C].Conference Proceedings of 11th Annual Information Visualization International Confe-rence(IV2007), Zurich, Switzerland, 2007:442-446.

[2]Garfield E.Scientography:Mapping the Tracks of Science[J]. Current Contents:Social&Behavioral Science,1994,(45):5- 10.

[3]Cobo MJ,López- Herrera AG,Herrera-Viedma E.Science mappingsoftware tools:Review,analysis,and cooperative study among tools[J].Journal of the American Society for Information Science and Technology,2011,(7):1382-1402.

[4]徐增林,盛泳潘,賀麗榮,王雅芳.知識圖譜技術綜述[J].電子科技大學學報,2016,(4):589-606.

[5]劉嶠,李楊,段宏,劉瑤,秦志光.知識圖譜構建技術綜述[J].計算機研究與發展,2016,(3):582-600.

[6]袁旭萍.基于深度學習的商業領域知識圖譜構建[D].華東師范大學,2015.

[7]阮彤,孫程琳,王昊奮,方之家,殷亦超.中醫藥知識圖譜構建與應用[J].醫學信息學雜志,2016,(4):8-13.

[8]于彤,劉靜,賈李蓉,張竹綠,楊碩,劉麗紅,李敬華,于琦.大型中醫藥知識圖譜構建研究[J].中國數字醫學,2015,(3):80- 82.

[9]賈李蓉,劉靜,于彤,董燕,朱玲,高博,劉麗紅.中醫藥知識圖譜構建[J].醫學信息學雜志,2015,(8):51-53.

[10]劉永彬,歐陽純萍,鐘東來,李涓子,袁博志,李奇.基于非線性全局上下文的詞嵌入[J].中國科學:信息科學,2015,(12): 1588-1599.

[11]劉永彬,楊炳儒,李廣源,劉英華.基于馬爾可夫邏輯網的聯合推理開放信息抽取[J].計算機科學,2012,(9):202-205.

(責任編校:何俊華)

2016-05-16

湖南省哲學社會科學基金(項目編號14YBA335);湖南省教育廳科學研究項目一般項目(項目編號16C1378);衡陽市科技局科技計劃項目(項目編號2015KG60)。

歐陽純萍(1979-),女,副教授,博士,研究方向為知識圖譜、命名實體識別與情感分析。鄒銀鳳(1988-),女,碩士,研究方向為數據挖掘與情感分析。

TP391

A

1673-2219(2016)10-0073-03

主站蜘蛛池模板: 国产91视频观看| AV在线天堂进入| 国产精品爆乳99久久| 精品一区二区三区无码视频无码| 日韩成人在线一区二区| 五月丁香伊人啪啪手机免费观看| 激情亚洲天堂| 中国国产A一级毛片| 国产精品青青| 91久久夜色精品国产网站| 成人韩免费网站| 六月婷婷精品视频在线观看| 国产尹人香蕉综合在线电影| 免费观看国产小粉嫩喷水| 亚洲精品无码不卡在线播放| 最新日本中文字幕| 成人综合在线观看| 精品久久综合1区2区3区激情| 丝袜美女被出水视频一区| 中字无码精油按摩中出视频| 中文字幕欧美日韩| 国内毛片视频| 欧美日本中文| 亚洲精品黄| 波多野结衣一区二区三区四区 | 日韩毛片在线播放| 制服丝袜亚洲| 国产福利一区在线| 精品三级网站| 精品国产一区91在线| 欧美色图第一页| 中国精品自拍| 亚洲色图欧美在线| 亚洲天堂高清| 尤物在线观看乱码| 久久免费观看视频| 婷婷亚洲最大| 91精品久久久久久无码人妻| 日韩专区欧美| 美女内射视频WWW网站午夜| 92精品国产自产在线观看| 二级特黄绝大片免费视频大片| 久久人搡人人玩人妻精品一| 国产免费一级精品视频| 久久这里只有精品66| 国产熟睡乱子伦视频网站| 老色鬼欧美精品| 成年人国产网站| 亚洲免费毛片| 国产黑丝视频在线观看| 久久亚洲天堂| 一级香蕉人体视频| 国产日产欧美精品| 久久精品国产91久久综合麻豆自制| 啪啪啪亚洲无码| 天天做天天爱天天爽综合区| 一级爱做片免费观看久久 | 国产精品成人啪精品视频| 欧美一区二区三区欧美日韩亚洲| 成年女人a毛片免费视频| 911亚洲精品| 97在线观看视频免费| 日韩无码真实干出血视频| 久久无码高潮喷水| 日韩在线第三页| 免费看av在线网站网址| 五月激情婷婷综合| 99久久人妻精品免费二区| 国产欧美高清| 国产91精选在线观看| 91国内在线观看| 香蕉综合在线视频91| 日韩欧美国产精品| 中文天堂在线视频| 毛片在线播放a| 国内精品久久久久鸭| 中文国产成人精品久久| 国产成人a毛片在线| 日韩第一页在线| 中文字幕有乳无码| 一区二区三区精品视频在线观看| 亚洲人成网站观看在线观看|