王仁武 袁毅 袁旭萍



摘 要: 將知識圖譜應用到商業領域是大數據時代企業的迫切需求。文章通過引入深度學習算法中的深度置信網絡,自動提取領域信息中蘊含的知識單元及單元之間的關系,以此解決知識單元提取這一難點。同時,采用Neo4j圖形數據庫來存儲知識圖譜中包含的知識單元及其關系。當需要對知識圖譜中包含的知識單元進行查詢時,可以采用該圖形數據庫的Cypher查詢語言進行查詢。文章的研究方法可為商業領域快速構建知識圖譜提供借鑒。
關鍵詞:知識圖譜;深度學習;圖數據庫;深度置信網絡
中圖分類號: G203 文獻標識碼: A DOI:10.11968/tsyqb.1003-6938.2016017
Study on the Construction of Chinese Knowledge Graph Based on Deep Learning and Graph Database
Abstract Application of Knowledge graph to business areas is the urgent need of the enterprises in big data era. In order to solve the knowledge element extraction difficulties, the author tries to automatically extract the knowledge units and its relationships contained in the given field by introducing the deep belief network learning algorithm. At the same time, the knowledge unit and its relationship in the knowledge graph are stored by using the Neo4j graphics database. When you need to query the knowledge unit in the knowledge graph, the Cypher query language of the graph database can be used. The research method of this paper can provide reference for the rapid construction of knowledge graph in the commercial field.
Key words knowledge graph; deep learning; graph database; deep belief networks
1 引言
近些年,隨著大數據時代的到來,傳統的用于學科研究的科學知識圖譜[1]也開始在其他領域有所應用。Google早在2012年就發布了其知識圖譜產品—Google Knowledge Graph[2]。2013年2月,百度也推出了自己的知識圖譜。“打開手機百度,用戶搜索‘王菲的時候不僅可以查到她的歌曲,還能知道她的前夫是李亞鵬,李亞鵬的前女友是周迅,周迅和湯唯恰好是同鄉”,這就是基于大數據技術的知識圖譜,百度為用戶編織了三維知識網絡,滿足其對日益增長的知識獲取需求。近年來,還涌現了一些較有影響的知識圖譜,包括YAGO[3] 、DBpedia[4] 、NELL[5] 、Freebase[6] 等,這些知識圖譜包含數以百萬計的節點和數十億的邊。另外,在社交網絡領域,Facebook和Twitter則推出了社交圖譜和興趣圖譜。知識圖譜在商業領域的應用,擴展了原先科學知識圖譜的內涵,也使得它的應用場景得到了延伸。
商業領域中的信息不同于學科領域的信息,以往對學科領域的知識圖譜研究多基于文獻來進行研究,關鍵詞、摘要等信息可以作為繪制知識圖譜的重要信息來源。而商業領域中的信息相比學科領域要更加雜亂無序,因此,對這些信息進行語義分析,提取出能用于繪制知識圖譜的知識單元并找出知識單元之間的聯系就顯得極為重要。
提取用于繪制知識圖譜的知識單元可以映射為對大量信息的命名實體進行識別,而尋找知識單元之間的關系也可以映射為對命名實體關系的抽取,兩者都可以通過機器學習的方法進行。以往在對命名實體的識別和實體關系抽取的時候,人們通常會選擇SVM(支持向量機)或CRF(條件隨機場)之類的淺層學習方法,系統還需要融入大量適用于特定學習任務的人工特征,從而會導致部分特征的丟失。
深度學習作為一種模擬人類認知行為的算法,它會像人類的大腦一樣按照層次來對概念進行組織。它會學習最簡單的概念,然后根據這些簡單的概念組成更加抽象的概念,逐層深入,通過對低層特征的組合,形成越來越抽象的深層表示,從而能達到更準確的認知。將深度學習用到對知識單元和單元之間的關系的提取中,可以為知識圖譜的繪制提供良好的基礎;同時,圖數據庫是使用節點、邊、屬性等圖數據結構來表示和存儲信息,比較適合知識圖譜的存儲。
2 知識圖譜構建的相關研究概述
2.1 商業知識圖譜的構建方法
目前商業領域知識圖譜構建方法根據知識圖譜數據來源劃分,可以分為以下幾種:
(1)基于網絡百科資源的知識圖譜構建方法。以維基百科為例,可以通過它的文章頁面的關系來采集各類實體、實體的同義詞、同音異義詞以及實體的概念及其上下文關系和實體對應的類別。AVP 知識抽取(Attribute-value Pairs Mining)是一種知識圖譜信息提取的重要方法,采用這種方法可以提取出百科類資源中包含的屬性-值對信息[7]。
(2)基于結構化數據的知識圖譜構建方法。RDF是一種資源描述框架,可以形式化地表示結構信息,它一般用來描述網絡資源,例如某個Web頁面的內容、作者等。采用RDF可以對知識進行結構化組織,進而采用圖形化的方式展示出來[8]。
(3)基于半結構化數據的知識圖譜構建方法。主要是一些中文百科類的站點中,數據的結構化程度遠比不上維基百科,許多屬性隱藏在一些半結構化的表格或列表中,可以采用模式學習的方法構建一個或多個模式來實現自動化的信息抽取,但是需要通過人工調整或新增模式等方法來進行改進與提高[9] 。
(4)基于非結構化數據的知識圖譜構建方法。許多特定領域缺乏結構化和半結構化的知識來源,此時非結構化數據是主要的知識數據來源。它比較復雜,目前應用并不廣泛。前面提到的NELL(Never-Ending Language Learning)系統旨在從數億的網頁中根據輸入的本體抽取知識實體以及這些知識間的聯系。
2.2 商業知識圖譜的構建過程
在知識圖譜的構建方面,葉六奇等[10]將知識圖譜的構建分為3個部分:要素識別、關聯分析、結構化展示。此外楊思洛等[11]也給出了知識圖譜的構建流程,這些流程雖然各有差異,但都提到了知識圖譜繪制中最重要的環節:構建知識單元、構建單元關系、知識圖譜的結構化展示。
在構建商業知識圖譜時,由于信息來源具有多樣性,如何對半結構化、非結構化的信息進行處理,抽取出有效的知識單元是一個重要的議題。當前采用較多的技術主要是利用文本挖掘對知識單元進行抽取。Hao等[12]通過TF-IDF算法抽取出文本中重要的單元,從而構建出某個領域的知識地圖。Ong等[13]利用詞頻統計和PAT-tree等技術從文本中抽取出重要的知識單元,隨后采用SOM神經網絡算法將知識單元進行分類,針對中文的金融和健康領域的在線新聞提供了一種可視化的圖形展示。Liu等[14]抽取復合電子服務的屬性元數據作為知識單元,通過主題圖的方法構建知識圖譜。張靜[15]認為可以采用自動標引技術解決這一問題。
為發現知識間的關系,更好地展示各單元,則需要樣本數據的進一步處理,即簡化分析。當前采用較多的方式有關聯分析、因子分析、多維尺度分析、自組織映射圖(SOM)、尋址網絡圖譜(PTNET)、聚類分析、潛在語義分析、最小生成樹法等。
在知識圖譜的存儲研究中,目前主要是RDF數據庫和圖數據庫,從頂向下設計的RDF數據庫沒有從底向上設計的圖數據庫成功,圖形數據庫在存儲知識圖譜的知識單元和單元關系上效果最佳。目前,圖形數據庫并沒有一套完整的標準,但是大部分圖形數據庫都包含了節點、關系、屬性這三個元素。節點可以用來存儲知識單元,關系可以用來展示知識單元之間的聯系,屬性可以表征知識單元的相關特性。目前使用較多的圖形數據庫主要有Neo4j[16]、FlockDB[17]、TAO等。
3 基于深度置信網絡的中文知識單元及其關系識別
在知識圖譜的構建中,最重要的三個環節就是知識單元的抽取、知識單元間關系的識別,以及知識圖譜的存儲與使用。其中尤以知識單元抽取和知識單元間關系的識別最為關鍵。本文為了研究方便,將知識單元的抽取、知識間關系的識別映射為命名實體的識別和實體關系的識別。命名實體識別是指識別文本中包含的以名稱為標識的命名實體,包括人名、組織名、地名等基于深度學習算法的商業知識圖譜構建流程(見圖1)。
這個流程中在命名實體識別階段,由于中文文本沒有明確的分詞邊界,需要首先對文本進行分詞,然后針對特定的場景,選擇適當的特征并構建特征向量用于后續模型的學習與測試,之后便是模型的訓練與測試。在實體關系識別階段,仍然需要選擇合適的特征并構建特征向量,然后進行模型訓練與測試。
3.1 深度置信網絡
深度置信網絡(Deep Belief Network,DBN)是深度學習領域的經典算法之一。它通常由多個受限玻爾茲曼機(RBM)和一層反向傳播網絡(BP)組成,其中受限玻爾茲曼機是無監督的,而反向傳播網絡則是有監督的。
在深度置信網絡的訓練過程中,首先會無監督地訓練每一層RBM網絡,以將數據樣本的內在特征映射到不同的特征空間中,然后利用BP網絡有監督地訓練,將之前學習到的特征組合進行分類,并且通過反向傳播對參數進行調整,最終獲取深度置信網絡的最優參數(見圖2)。
其中,深度置信網絡包括3個RBM層和1個BP層。其中V0是輸入層,接受原始的樣本數據,H0是第一層的隱藏層。樣本輸入至輸入層后,模型會先學習V0和H0層之間的參數W0。第一層訓練好后,第一層的隱藏層H0會作為第二層RBM網絡的可視層V1,V1和H1一起組成第二層的RBM網絡,此時模型會訓練第二層RBM的參數W1。假設以n代表RBM的層數,則第n-1層的輸出會作為n層的輸入,模型會學習第n層RBM網絡的參數Wn-1。結束所有的RBM網絡訓練后,深度置信網絡進入反向傳播階段,此時,BP網絡會根據輸出與期望輸出的誤差對參數進行調整,以達到深度置信網絡的最優參數。
3.2 中文命名實體識別
(1) 命名實體識別。目前,命名實體識別主要采用的有基于實體詞典的方法,基于實體規則的方法,以及基于機器學習的方法。與前兩種方法相比,機器學習的方法能夠利用標注過的語料來學習,學習后的模型可以直接應用到該領域的命名實體識別中。
(2) 命名實體識別中的特征選擇。深度置信網絡對命名實體進行識別時,需要輸入命名實體的特征向量。可以選取的命名實體的特征有字特征、詞特征、詞性特征、上下文窗口特征等。本文選擇詞特征、詞性特征、上下文窗口特征、詞典特征、其他統計特征來對命名實體進行描述。
①詞特征:將分詞后的所有詞組成字符表D={d_1,d_2,…,d_n},其中d_i表示一個詞,i∈[1,n]。將每個詞E的詞特征向量表示為V(E)={v_1,v_2,…,v_n},其中v_i代表該詞是否對應字符表D中的d_i,v_i的計算方式如下:
②詞性特征:詞性特征的構建與詞特征的構建方式一致。首先構建詞性表D={d_1,d_2,…,d_m},假設該詞E的詞性為p,則該詞的詞性特征向量為V(E)={v_1,v_2,…,v_m},其中v_i代表該詞的詞性是否對應詞性表D中的d_i,v_i的計算方式如下:
③上下文窗口特征:在一段文本中,連續多個詞組成的上下文窗口有時也會存在一定的規律,如新聞中闡述某個人的觀點時,通常會使用“陌陌CFO張曉松表示”類似的表述方式,此時分析該詞的上下文窗口就可以為該詞的識別提供依據。通過“張曉松”后面的“表示”一詞可以初步判定“張曉松”為人名,而通過“陌陌”后面的“CFO”可以初步判定“陌陌”為公司名。上下文窗口可以根據具體場景進行設置,如設置為3,則表示選擇該詞的前一個詞和后一個詞納入到分析中,如設置為5,則表示選擇該詞的前兩個詞和后兩個詞納入分析。
詞典特征可以選擇與實體相關的詞組成詞典,如人物的稱謂、組織機構的后綴等組成詞典。同樣采用上文提到的特征向量構造方式構造每個詞的特征向量,假設詞典為D={d_1,d_2,…,d_n},將每個詞E的詞特征向量表示為V={v_1,v_2,…,v_n},其中v_i代表該詞是否對應詞典D中的d_i,v_i的計算方式見公式(1)。
其他統計特征在命名實體識別時,同樣可以增加一些統計特征進行計算,如自然語言處理中經常使用的TF-IDF。
3.3 中文命名實體的關系識別
(1)實體關系識別。實體關系是指實體間存在的語義關系,其中這些語義關系可以是顯性的,也可以是隱性的。例如從“阿里巴巴負責人馬云”這個描述中可以看出,“阿里巴巴”和“馬云”是兩個實體,其中,“阿里巴巴”是組織機構名,“馬云”是人名,他們之間的聯系屬于角色關系,“馬云”隸屬于“阿里巴巴”。ACE(Automatic Content Extraction)是一個全球性的信息抽取項目,該項目主要解決信息抽取中的實體抽取、關系識別和事件識別。它將實體關系分為了以下幾類:Role(角色關系)、Part(整體與部分的關系)、At(位置關系)、Near(鄰近關系)、Social(社交關系)等。除了ACE列出的實體關系,還可以根據不同的情況定義不同的實體關系,如作者與著作之間的從屬關系等。
目前,實體關系識別主要采用三種方法:基于模式匹配的方法、基于特征的方法和基于核函數的方法。基于特征的方法采用句法分析及詞法分析將關系實例轉化為特征向量,繼而可采用機器學習模型進行處理,計算特征向量的相似度,并對實例關系進行分類。采用基于特征的方法,一般需要基于大量的數據構造完整的特征,常用的特征包括詞特征、詞性特征、語義特征、實體屬性特征等。這些特征的提取又依賴于對語料的預處理工作,一般預處理效果越好,實體識別效果越好。本文采用基于特征的方法,通過深度置信網絡算法對中文實體之間的關系進行識別,采用這種方法可減少大量的人工參與,使特征的提取更加簡單有效。
(2) 實體關系識別中的特征選擇。在實體關系識別中,將實體對作為分析的數據,一般選擇字符特征、實體的類型特征、實體對的相對位置、上下文窗口特征等特征進行判別。目前大部分實體關系識別的研究都是基于句子級的,即研究同一個句子中兩個實體之間是否存在關系。而對于一句話中研究的是兩個實體之間的關系還是兩個以上實體之間的關系沒有一個統一的規范[18]。本文也采用句子級的粒度,研究一句話中任意兩個實體之間是否存在聯系。
本文對實體對的定義如下:假設一個句子中包含實體集SE={E_1,E_2,…,E_n},若存在E_i∈SE,E_j∈SE,且i≠j,則{E_i,E_j}為一個實體對。
本文選擇實體特征、實體類型特征、實體對相對位置特征、實體間距離特征、上下文窗口特征作為實體關系識別的特征。
實體特征在命名實體識別階段,曾經構造了詞特征。這里的實體特征與命名實體識別的詞特征相似,只不過將基于詞的字符表改成了基于實體的字符表。加載實體特征中,字符表D存儲所有的實體字符。D={d_1,d_2,…,d_n},其中d_i代表一個實體。每個實體對E1和E2的特征向量為V={v_1,v_2,…,v_n,v_(n+1),v_(n+2),…,v_2n}。特征向量的維數為D的兩倍。v_i的計算方式如下:
實體類型特征:實體類型特征代表該實體屬于哪個命名實體類別,如人名、機構名、地名等。對于一些特定的實體關系,實體的類別對于實體關系識別非常重要。如判斷某人與某機構能否構成角色(Role)關系時,實體對必須滿足有一個實體為人名類型實體,另一個實體為機構名類型實體。該特征能夠描述實體對中的實體分別屬于哪個類別,為實體關系的判別提供依據。
實體對相對位置特征:實體對的相對位置特征能夠描述該實體對里的兩個實體之間的位置關系。按照常識而言,實體之間的位置關系越靠近,這兩個實體越有可能存在語義關系。實體間的相對位置關系一般有三種:嵌套、相鄰以及分離。其中嵌套代表某個實體嵌套在另一實體中,相鄰代表兩個實體之間是相鄰的,沒有字符相隔,分離代表兩實體之間由其他字符隔開了。
實體間距離特征:當兩個實體之間是分離狀態時,可以通過計算它們之間的距離來衡量它們分離的程度。實體間的距離特征主要計算兩個實體間由多少個詞隔開。
上下文窗口特征在實體關系識別中,上下文窗口特征仍然是一個重要的識別特征。尤其是兩個實體中間的內容,往往對于識別實體間的關系具有重要的參考價值。如“河貍家創始人孟醒”這個表述中,“河貍家”和“孟醒”分別為一個公司實體和一個人名實體。這兩個實體中間的“創始人”一詞就描述了這兩個實體之間的關系。因此,上下文窗口特征對于實體關系識別也有著重要意義。針對不同場景,可以建立不同的上下文窗口特征。
4 實驗及結果分析
4.1 實驗數據源及領域詞典構建
實驗采集了鳳凰網科技頻道下“移動互聯”子頻道的2014年1月1日到2014年3月31日5017條新聞文本,希望能準確識別出這些文本中包含的人名、公司名這兩種命名實體,繼而通過實體關系識別將形成角色關系的人名與公司名實體對識別出來。為了達到這個目的。實驗對這5017條新聞文本進行分詞,并人工標注分詞后的實體,為模型訓練和評估提供依據。
實驗環境為Windows7操作系統,采用MySQL和Neo4j進行數據存儲,其中MySQL用于存儲,用來進行命名實體識別和實體關系識別的語料及特征數據,Neo4j存放識別后的命名實體和實體關系。數據預處理和建模工作采用Python進行。其中采用Python的Theano模塊用來進行深度置信空間算法的訓練和測試。
因移動互聯網領域是個新興領域,目前并沒有完整的領域詞典,實驗對該領域詞典進行了構建,以提高分詞的準確性。詞典的構建過程如下:首先對百度百科的詞條標簽進行分析,選擇了“互聯網”、“移動互聯網”、“電子商務”、“科技”、“電子產品”、“數碼”等56個標簽;然后采用Python編寫爬蟲,爬取這56個標簽下的詞條,并對采集到的詞條進行去重,得到32380個詞條;最后由于采集的是百度百科的Tag頁面下的詞條,而Tag頁面中最多只列出了76頁詞條,那些沒有列出的詞條沒有辦法通過程序直接采集。基于這個原因,實驗通過人工查看數據集中的內容,補充沒有采集到的詞條,人工添加的詞條共有346個。
加入自建的詞典,對數據集進行分詞。5017篇新聞分詞及去停用詞后得到257059個詞。這些詞用來進行命名實體識別。
4.2 命名實體識別
(1) 命名實體識別。主要是構建前面提到的詞特征、詞典特征等。構建這些特征需要大量的數據預處理過程,具體的數據預處理過程如下:
①語料的清洗。基于Web新聞采集下來的文本語料的分段與分句。在上下文窗口特征中,由于跨句子的上下文窗口詞中包含的信息量較少,所以對每個詞的上下文窗口詞進行提取時,只提取該詞所在句子中的前兩個詞和后兩個詞。這就要求對語料進行分句,每一句進行單獨存儲。分句后的數據存儲至MySQL數據庫中。
②提取每個詞的上下文窗口詞。其中,句子中的第一個詞沒有上文窗口詞,故將其上文窗口詞都設為空值,句子末尾的詞的下文窗口詞也設為空值。
③計算詞特征、詞性特征、詞典特征。在計算上下文窗口特征時,為了盡可能多地獲取詞的上下文特征,將窗口設為5,提取該句子中當前詞的前兩個詞和后兩個詞進行分析。并對每個詞的上下文窗口詞建立基于計算詞特征與詞性特征的詞表和詞性表的特征向量。最后再計算每個詞對應與該新聞文本的TF-IDF值。
④本次實驗采取有監督的學習方法,因此在實驗前,需要人工對實體類型進行標注,經過標注和審查后,得到人名類的實體共3678個,公司名類的實體共5316個。
(2)實驗結果分析。實驗采用Python中的深度學習Theano包編寫了基于深度置信網絡(DBN)的命名實體識別程序,模型共包括三個隱藏層,各層節點均為1000個。采用70%的數據進行訓練,30%的數據進行測試。并將實驗結果(見表1)與人工神經網絡(ANN)作了對比后發現,實驗中深度置信網絡的結果均高于采用淺層學習的人工神經網絡,體現了深度學習的優勢。
4.3 命名實體關系的識別
(1)命名實體的關系識別。基于命名實體識別部分識別出來的人名和公司名,在實體關系識別中,希望能將人名與公司名對應上,找出實體關系中的角色(Role)關系。需要做以下的數據預處理工作:
①實體對提取。提取語料中所有的實體對。每一個句子中出現的任意兩個實體都標為一個實體對。每個實體對保存為如下格式:
其中,Sid代表該實體對所在的句子編號,Wid1 和Wid2代表這兩個實體在分詞后的詞編號,Eid1 和Eid2代表這兩個實體的實體標號,E1 和E2則存儲這兩個實體的具體內容,Etype1 和Etype2代表這兩個實體的實體類別。
②計算實體特征、實體類型特征、實體對相對位置特征、實體間距離特征、上下文窗口特征。
(2)實驗結果分析。實驗仍然采用Python中的Theano深度學習包構建深度置信網絡算法,仍然采用準確率、召回率和F-值衡量測試效果。從實驗結果(見表2)數據上看,深度置信網絡算法與人工神經網絡算法相比,在召回率和F-值上都取得了相對較好的結果。
表2 實體關系識別效果對比
4.4 知識圖譜的存儲與使用
實驗得到命名實體和實體關系后,將其存儲在Neo4j圖形數據庫中,以便知識圖譜的繪制和查詢。Neo4j是一個穩定且成熟的,具有較高性能的圖形數據庫。具有完整的ACID支持、高可用性、可擴展性,通過Neo4j的遍歷工具可以高速檢索數據。Neo4j的查詢語言是一種可以對圖形數據庫進行查詢和更新的圖形查詢語言Cypher,它類似于關系數據庫的SQL語言。Cypher的語法并不復雜,然而它的功能卻非常強大,它可以實現SQL難以實現的功能。例如,六度分割理論中曾指出任何兩個人之間所間隔的人不會超過六個。只要數據足夠完整,采用Cypher可以很容易地找到任何兩個人之間是通過哪些人聯系起來的,而這一點SQL很難實現。
一段完整的Cypher查詢通常是由一些子句組成的,Cypher的常用子句如下:
①MATCH子句:MATCH子句通常用來對數據庫中的數據進行匹配,從而獲取滿足查詢條件的數據。
②WHERE子句:WHERE嚴格意義上不能算是一個子句,它一般作為MATCH子句的一部分,指定查詢需要滿足的條件。這與SQL中的WHERE也是相似的。
③RETURN子句:RETURN子句指定查詢需要返回哪些內容。
④CREATE子句:CREATE子句可以用來創建節點、關系或屬性等。
假設我們需要創建一個名為“阿里巴巴”的節點,可以在查詢區域輸入“CREATE(n:Company {name:“阿里巴巴”});”。創建成功后,輸入“MATCH(company:Company{name:“阿里巴巴”}) RETURN company”既可以將該節點展示出來。
圖3展示了基于部分實驗數據所繪制的知識圖譜。其中圖的左上角采用圖示標注了不同顏色節點代表的實體類型,圖形區域展示了company類型實體、person類型實體及兩類實體之間的角色關系。
圖4是知識圖譜的一個查詢實例。假設我們需要獲取“中國手游”這個公司的公司成員,可以在Neo4j的查詢頁面輸入“MATCH (a:company{name:"中國手游"})<-[r:Role_of]-(p) return a,r,p”,從而獲得該公司的公司成員。從圖4中可以看出,“應書嶺”、“孫晶藝”、“肖健”與“中國手游”都有Role_of的關系,即這三個人都是“中國手游”公司的成員。
5 結語
商業知識圖譜與學科知識圖譜在構建方面存在很大的區別,在商業知識圖譜構建中,如何自動地提取大量文本中隱藏的知識單元和知識單元之間的關系一直是有待解決的技術難題。為了解決這兩大難題,本文將深度學習算法引入到商業知識圖譜的構建中,采用命名實體識別和實體關系識別這兩大機器學習的任務來解決知識單元抽取和知識單元關系抽取這兩個難題。此外,本文還將圖形數據庫納入到構建商業知識圖譜的體系中來,采用圖形數據庫對知識單元進行存儲及展示,為商業知識圖譜的繪制提供了一種思路。進一步的研究工作可以將深度學習用于商業領域的中文分詞及業務命名實體及其關系識別上,研究不同深度學習框架的應用效果;同時圖數據庫在商業知識圖譜構建上應有較大的空間,本文只是作了一些探索,深入研究還有待展開。
參考文獻:
[1] 梁秀娟. 科學知識圖譜研究綜述[J]. 圖書館雜志, 2009 (6): 58-62.
[2] A.Singhal,“Introducing the Knowledge Graph:things,not strings,”[EB/OL].[2015-11-20].http://googleblog.blogspot.com/2012/05/introducing-knowledge-graph-things-not.html.
[3] F. M. Suchanek, G. Kasneci, and G. Weikum,“Yago:A Core of Semantic Knowledge,” in Proceedings ofthe 16th International Conference on World Wide Web[C].New York, NY, USA:ACM, 2007:697-706.
[4] S. Auer, C. Bizer, G. Kobilarov, J. Lehmann,R. Cyganiak, and Z. Ives,“DBpedia: A Nucleus for a Web of Open Data,” in The Semantic Web[M]. Springer Berlin Heidelberg, 2007:722-735.
[5] A. Carlson, J. Betteridge, B. Kisiel, B. Settles, E. R. H.Jr, and T. M. Mitchell,“Toward an Architecture for Never-Ending Language Learning,” in Proceedings of the Twenty-Fourth Conference on Artificial Intelligence(AAAI 2010)[C].AAAI Press, 2010:1306-1313.
[6] K. Bollacker, C. Evans, P. Paritosh, T. Sturge, and J. Tay-lor, “Freebase: a collaboratively created graph database for structuring human knowledge,” in Proceedings of the 2008 ACM SIGMOD international conference on Management of data[C]. ACM,2008:1247-1250.
[7] Wu F, Weld D S. Autonomously semantifying wikipedia[C].Proceedings of the sixteenth ACM conference on Conference on information and knowledge management. ACM, 2007: 41-50.
[8] 項靈輝. 基于圖數據庫的海量RDF數據分布式存儲[D].武漢:武漢科技大學, 2013.
[9] 王昊奮.知識圖譜技術原理介紹[EB/OL].[2015-11-25].http://wenku.baidu.com/view/b3858227c5da50e2534d7f08.html.
[10] 葉六奇,石晶. 知識地圖的構建方法論研究[J].圖書情報工作,2012(10):30-34.
[11] 楊思洛,韓瑞珍. 國外知識圖譜繪制的方法與工具分析[J].圖書情報知識,2012(6):101-109.
[12] Hao J, Yan Y, Gong L, et al. Knowledge map-based method for domain knowledge browsing[J].Decision Support Systems, 2014(61): 106-114.
[13] Ong T H, Chen H, Sung W, et al. Newsmap: a knowledge map for online news[J].Decision Support Systems, 2005, 39(4): 583-597.
[14] Liu D R, Ke C K, Lee J Y, et al. Knowledge maps for composite e-services: A mining-based system platform coupling with recommendations[J].Expert Systems with applications,2008,34(1):700-716.
[15] 張靜. 自動標引技術的回顧與展望[J].現代情報,2009(4):221-225.
[16] Baranov D, Fender W R, Hamstra A N. Graph-based system and method of information storage and retrieval:,US8954441[P]. 2015.
[17] Klint Finley, 五個值得關注的圖形數據庫[EB/OL].[2015-12-10].http://www.csdn.net/article/2012-03-14/313107.
[18] 王晶. 無監督的中文實體關系抽取研究[D]. 上海:華東師范大學, 2012.