崔家旺 李春旺


摘 要:文章通過對CLOD、KIELD等關聯數據相關會議、谷歌學術、IEEE和Springer等數據庫基于關聯數據的知識發現技術文獻的調研與整理,分析和總結了基于關聯數據的知識發現技術發展現狀和發展趨勢。研究認為:根據對關聯數據的挖掘層次的不同,將檢索結果分為間接挖掘、直接挖掘和鏈接挖掘三類;總體而言,基于關聯數據的知識發現研究仍處于探索階段,相關研究較少且缺乏統一框架;基于關聯數據的知識發現統一框架的構建以及針對關聯數據知識發現技術的完善將是未來研究的重點。
關鍵詞:關聯數據;知識發現;述評
中圖分類號: G302 文獻標識碼: A DOI:10.11968/tsyqb.1003-6938.2016103
Abstract This paper discusses the current status and future directions of the related studies of knowledge discovery technology based on linked data。By Using IEEE,Springer,Google Scholar and other scholarly search engines and collects papers about this subject from related conferences,such as COLD and KIELD,this paper makes a comprehensive study in this subject of research and classifies related papers according to the different knowledge discovery methods. In general,knowledge discovery based on linked data is still in the exploratory stage. There still exists some problems in the knowledge discovery based on linked data, such as the quality problem of linked data;and there is no unified framework for those methods. Getting more convenient knowledge discovery methods based on linked data and building a unified framework for them will be the focus of future research.
Key words linked data; knowledge discovery; review
海量數據與知識貧乏導致了數據挖掘和知識發現研究的出現。知識發現(Knowledge Discovery)源于人工智能和機器學習,是機器學習、 人工智能、數據庫和知識庫等眾多學科相互融合而形成的一門適應性強的新興交叉學科。知識是數據元素間的關系或模式,知識發現就是從大量數據中,特別是從異構的數據平臺中提取出隱含的、未知的、潛在有用的并能被人們理解的規則與模式,并檢查趨勢、發掘出事實的高級處理過程[1]。當前有關知識發現研究主要集中在:粗糙集理論;概念格和形式概念分析;基于分類、關聯規則、領域知識和圖模型等領域[2]。
關聯數據的發布與應用為知識發現提供了一個新契機,特別是關聯數據預先建立了大量權威、準確的關聯關系,每個數據對象包括多種屬性和特征,從而為實現跨學科領域、跨數據源的精準知識發現提供有效支撐,使得基于關聯數據的知識發現成為研究熱點。
1 研究現狀
1.1 知識發現相關技術
目前的知識發現研究主要有兩大分支,即基于數據庫的知識發現與基于文獻的知識發現。數據庫知識發現主要針對結構化數據, 基于文獻的知識發現主要針對非結構化數據。知識發現的方法有統計方法、機器學習方法與神經計算方法。統計方法除了回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費舍爾判別、非參數判別等)、聚類分析(系統聚類、動態聚類等)及探索性分析(主成分分析、相關分析)等方法以外,還包括模糊集方法、支持向量機方法、粗糙集等方法。常用的機器學習方法包括規則歸納、決策樹、范例推理、遺傳算法等。常用的神經計算方法包括自組織映射網絡、反傳網絡等[3]。
基于文獻的知識發現按照文獻的相關性分為基于相關文獻的知識發現、基于非相關文獻的知識發現和基于全文獻的知識發現[4]。由于計算機直接從非相關文獻中發現新知識是非常困難的,應由計算機首先把文獻中的知識單元抽取出來,構成知識庫,然后再在知識庫里進行發現。語義網技術通過給文檔添加形式化語義信息的方式解決了計算機理解文獻的問題,而關聯數據是由W3C推薦的語義網最佳實踐。關聯數據將分散領域中的數據通過結構化描述以及數據之間的鏈接關聯起來,形成全球巨大數據空間,即數據網絡。這種數據網絡資源環境為信息的最大限度共享、重用以及發行提供了保障,也為人們的知識發現活動提供了新的機遇[5]。
1.2 基于關聯數據的知識發現研究進展
以“關聯數據”“知識發現”等為關鍵詞在CNKI數據庫中檢索發現,國內基于關聯數據的知識發現研究仍處于起步階段,相關研究數量較少且多屬于理論模型研究。如李楠[6]、李俊[7]等分別總結了基于關聯數據的數據挖掘相關研究,提出了基于關聯數據的知識發現模型;高勁松等[8]在關聯數據的知識發現過程金字塔的基礎上提出了基于關聯數據的知識發現模型;宋麗娜[9]提出了關聯數據環境下基于知識地圖的隱形知識發現模型;劉龍[10]提出了基于關聯數據的知識發現過程模型。
以“consuming linked data”“application of linked data”“Knowledge Discovery”等為關鍵詞在谷歌學術、ScienceDirect和Springer等學術搜索引擎上進行主題檢索,同時總結了COLD、KIELD和LDOW等關聯數據會議中有關知識發現的文獻。相較國內研究,國外基于關聯數據的知識發現方法更為豐富且付諸實踐。根據對關聯數據挖掘層次的區別,本文將基于關聯數據的知識發現技術歸結為3類:(1)間接挖掘,即通過格式轉化將關聯數據轉化或特征提取將關聯數據轉化為適合傳統數據挖掘算法的格式,如Venkata Narasimha等提出的Liddm關聯數據挖掘系統[11]以及Heiko Paulheim等提出的FeGeLOD特征提取器[12]為代表;(2)直接挖掘,利用事務構建、歸納邏輯程序設計(Inductive logic programming,簡稱ILP)等方法直接對RDF數據進行處理,如Reza Ramezani等提出的SWApriori[13]和Gabin Personeni等提出的ILP學習方法[14]是該類的典型研究;(3)鏈接挖掘,即對關聯數據的屬性鏈和節點等結構進行挖掘。如Ilaria Tiddi等提出的Dedalo遍歷系統[15-16]、Xiaowei Jiang等提出的頻繁子圖挖掘方法[17]及Kang Li等提出的深度學習方法[18]最具代表性。
2 間接挖掘
數據挖掘是基于數據庫知識發現的核心步驟之一,傳統數據挖掘技術主要針對關系型數據庫中的數據,而根據關聯數據的定義,關聯數據是采用RDF數據模型并利用URI命名數據實體的數據集合,因此如何將傳統的數據挖掘方法應用于關聯數據成為了一個新的研究熱點。間接挖掘的基本原理是針對不適用于傳統挖掘算法的關聯數據,通過特征提取或格式轉化的方式從關聯數據中提取出數值型特征,實現利用傳統數據挖掘算法對關聯數據進行挖掘分析的目標。
2.1 格式轉化
Venkata Narasimha等提出的Liddm[11]是一個可以與關聯數據有效交互的關聯數據挖掘模型,它支持從不同的數據源檢索、整合數據,為統計分析調整數據格式并支持數據挖掘及成果的可視化。Liddm利用SPARQL查詢從關聯數據云中獲取數據,通過數據預處理、數據輸入準備和數據挖掘等步驟進行關聯數據挖掘。其中,數據查詢結果以包含若干行和列的表格數據表示,行表示檢索到的實例,列表示該實例一個屬性的值。
數據預處理包含數據整合、數據過濾和數據分割等三個步驟。其中,數據整合是指將從多個關聯數據云中多個數據源中檢索的數據進行整合,整合基于每個數據源的共有關聯;數據過濾指通過人工篩選掉不符合數據挖掘需求的實例;數據分割指將不同列數據分為不同的類。在完成了數據的查詢和預處理后,Liddm通過數據輸入準備步驟完成數據格式的轉化。以Weka為例,Weka支持的數據輸入格式為ARFF(Artribute-Relation File Format,屬性-關聯文件格式),因此可將關聯名和屬性轉化為ARFF格式后進行挖掘。
類似的研究還包括Petar Ristoski等提出的基于RapidMiner的關聯數據挖掘方法[19]。與LiDDM相似,RapidMiner也需要終端用戶定義合適的SPARQL查詢來獲取所需數據,并將數據轉化為表格數據后進行挖掘。
2.2 特征提取
Heiko Paulheim等基于關聯數據的特性構建了關聯數據特征提取器FeGeLOD[12],它可以從關聯數據中提取數值型或二值數據特征并利用這些特征進行數據挖掘。FeGeLOD在Weka的基礎上,針對LOD提出了一系列不同的提取特征方法。特征的提取包含實體識別、實際特征構建、特征選擇等三個步驟,其中第二步實際特征構建是構建關聯數據挖掘特征的核心步驟。目前FeGeLOD采取了6種不同的特征構建策略。第一個構造器為一個實體的每個數據屬性創建了一個特征。數據屬性即元素的值,如城市的名稱或城市的人口數量;第二個構造器僅針對實體本身,即實體有謂詞rdf:type的語句,一個實體可能屬于多個類型或目錄。其余四個構造器考慮了實體與其他實體的關聯數。
2.3 技術分析
截至2016年9月7日,LOD中互相關聯的關聯數據集已達9960個,擁有超過1490億個三元組,這些大量的結構化、語義關聯的數據具有巨大的潛在價值。間接挖掘方法有效利用了關聯數據的關聯發現和數據整合的特性,通過數據集之間的關聯幫助人們更為準確、高效的發現和獲取相關數據。
然而,間接挖掘也存在著一些弊端,首先,間接挖掘需要用戶構建數據查詢,而構建關聯數據的查詢需要用戶事先對關聯數據集、SPARQL查詢以及屬性充分了解;其次,傳統挖掘方法往往只針對特定類型的知識,如LiDDM僅支持關聯規則的發現,由于傳統數據挖掘算法本身的局限性,間接挖掘的方式未能深入挖掘關聯數據內數據對象間的關聯(links)。
3 直接挖掘
相對于間接挖掘,本文將可以直接對關聯數據進行處理的挖掘方法定義為關聯數據的直接挖掘。值得注意的是,雖然關聯數據采用了RDF數據模型,但由于關聯數據的節點都是唯一的,因此并非所有RDF挖掘方法都適用于關聯數據。如圖核方法[20-21]適用于多圖的關聯規則發現,而關聯數據的挖掘屬于Single-graph型模式挖掘型問題。直接挖掘的典型研究包括事務(transactions)構建和歸納邏輯程序設計(Inductive Logic Programming,簡稱ILP)等。
3.1 事務構建
ARM(Association Rule Mining,關聯規則挖掘)等傳統的數據挖掘算法試圖尋找頻繁項集(Large Itemsets),并在此基礎上生成有趣的關聯規則。在關聯數據中進行關聯規則的挖掘存在著以下挑戰:數據結構的異構性、關聯數據不存在準確定義的事務、實體間的關系以及終端用戶在挖掘過程中的角色。為從語義網數據中構建事務,Ziawasch Abedjan等提出利用主語、謂詞和對象三元組中的一項組成事務,用其余兩項的值作為事務項,并從這些事務中進行關聯規則的挖掘[22](見表1)。
在Ziawasch Abedjan的研究基礎上,MA Nematbakhsh 和Reza Ramezani提出了SWApriori挖掘方法,SWApriori以三元組的方式從語義網數據集中獲取數據并直接從中自動發現關聯規則[13,23]。SWApriori的基本原理是在輸入數據的實例層創建頻繁二項集并將其用于后續挖掘,這些頻繁二項集由實體和關聯組成(實體對應對象,關聯對應謂詞)。
SWApriori的挖掘流程為:首先遍歷統計所有對象出現的頻次,選擇出現在三元組中出現頻次大于一定次數(人工設定的最小置信度)的高頻對象,然后對這些高頻對象兩兩組合直到產生所有長度為二的可能對象集合。如假設Saraee、Nematbakhsh 和IUT為高頻對象,則有{Saraee,Nematbakhsh}、{Saraee,IUT}、{Nematbakhsh,IUT}等組合。隨后,算法核實這兩個對象(及對應的兩個關系)是否被多個公共的主語所參引。因此,主語的數量是最重要的因素,而它們的值則不被考慮。頻繁二項集合構建完成后,采取與Apriori相似的方法生成頻繁多項集和關聯規則。
假如最終挖掘到的頻繁多項集為{(Nematbakhsh + Knows)、 (IUT + Student at)、 (M.Sc. + Degree)},其中Nematbakhsh、IUT和M.Sc是高頻對象,Knows、Student at和Degree是其分別對應的關系,生成的關聯規則為:
(1)Student at(IUT),Knows(Nematbakhsh)→Degree (M.Sc.)
(2)Knows(Nematbakhsh),Degree(M.Sc.)→Student at(IUT)
(3)Student at(IUT),Degree(M.Sc.)→Knows(Nematbakhsh)
其中第一條規則表示,一個在IUT學習且知道Nematbakhsh的人一般具有M.Sc學位。
3.2 歸納邏輯程序設計
為解決LOD中大量生物醫學資源缺乏有效挖掘方法的問題,Gabin Personeni等提出利用歸納邏輯程序設計方法對關聯數據進行學習[14]。ILP隸屬于機器學習與邏輯程序設計的交叉領域,它借助邏輯程序設計已有的理論與方法,在一階邏輯的框架下,試圖克服傳統機器學習存在的問題,建立新的機器學習體系,使機器更好地模擬人的思維。ILP想要完成的任務是,讓計算機考察具體的事例,然后概括出能夠刻畫這些事例特有屬性的一般性規則。ILP允許我們從觀察中學習概念的定義,如給定正例集(E+)和負例集(E-)和背景知識(B),目標是生成一系列具有一致性(Y∪B覆蓋或解釋每個正例集)和完備性(Y∩B不覆蓋任何負例集)的規則或理論T。使用ILP進行基于關聯數據的知識發現具有以下優勢:首先,ILP的輸入格式與關聯數據格式相近;其次,領域知識可以添加到輸入數據中并被ILP所學習。
基于ILP的關聯數據挖掘流程分為基于專家的領域數據選擇、數據整合以及基于ILP的關聯數據挖掘等步驟。首先依靠領域專家建立了實體關系(entity-relationship,簡稱ER)模型,確定了待挖掘數據。然后建立LOD與該ER模型之間的映射并利用SPQRQL查詢獲取數據,數據存儲于建立在實體關系模型基礎上的關系數據庫中。完成數據的準備工作后,作者利用Aleph(A Learning Engine for Proposing Hypotheses,ILP學習引擎)完成了ILP挖掘過程。
3.3 技術分析
直接挖掘的優點除了包括利用關聯數據的特點更準確、更有效、更便捷的發現相關數據外,與間接挖掘相比,直接挖掘方法針對關聯數據自身的特點對已有挖掘方法進行了改進和重構,使得這些方法更具有更強的易用性和可拓展性。
直接挖掘方法的缺點與間接挖掘相似,間接挖掘算法可以視為調整關聯數據以適應傳統挖掘算法,而直接挖掘可以視為改進傳統挖掘算法以適應關聯數據,就本質而言,它們的研究主題都是關聯數據的數據資源,并對關聯數據的另一重要主題——關聯數據的鏈接則未做深入的研究。
4 鏈接挖掘
圖是由若干給定的點及連接兩點的線所構成的圖形,這種圖形通常用來描述某些事務之間的某種特定關系,用點代表事務,用連接兩點的線表示相應兩個事務間具有這種關系。關聯數據是一個由RDF三元組構成的有向圖,圖中的點對應每個資源、邊對應每個屬性(鏈接)。因此,本文將針對關聯數據的鏈接這一研究主題的挖掘方法定義為鏈接挖掘。由于圖的搜索空間呈指數級增長,圖的挖掘是一項計算量繁重的任務,如何選擇有效的挖掘策略對于能否從關聯數據挖掘出有效知識的質量至關重要。根據挖掘方法的區別,我們將鏈接挖掘歸結為啟發式關聯遍歷挖掘、頻繁子圖挖掘、深度學習等三種類型并分別進行介紹。
4.1 關聯遍歷檢索
Ilaria Tiddi等提出了Dedalo啟發式關聯數據遍歷挖掘系統,Dedalo可以迭代檢索關聯數據尋找實體的共性(即共同路徑)從而生成解釋[15-16]。Dedalo的基本思想在于:給定一定數量的實體,在關聯數據中尋找這些實體存在共同的路徑(屬性鏈,表示為w→ι)及終值(屬性鏈終端的特定實體,表示為ei),這些路徑加終值便構成一條簇的解釋(表示為,expi=w→ι.ei)。基于此思想,Dedalo利用A*算法遍歷關聯數據尋找簇的解釋。
A*(A-Star)算法是一種靜態路網中求解最短路徑最有效的直接搜索方法,也是許多其他問題的常用啟發式算法,對于路徑搜索問題,狀態就是圖中的節點,代價就是距離。一條路徑的代價可以用啟發式的指標f(x)估算,公式為: f(x)=g(x)+h(x),其中g(x)是過去的路徑開銷函數,表示起始節點到當前節點的已知距離,h(x)是未來路徑開銷函數,用來估算當前節點到目標節點的最佳路徑的距離。在關聯數據中,待解釋簇內的項即初始節點,每個解釋expi中的實體ei是目標節點。路徑的開銷通過信息熵估算,熵主要考慮給定路徑的頻率(對應g(x))及其值(對應h(x))的分布。由于在迭代遍歷的過程中,事先不知道目標節點,因此在第n次迭代中將所有距初始節點距離為n的節點都視為目標節點。
關聯數據的迭代遍歷包含以下3個步驟:(1)URI參引,通過HTTP協議獲取初始節點相關的所有RDF屬性和屬性值;(2)路徑收集,利用URI參引從每個三元組中獲取的新的屬性Pi添加到已有的路徑中去構建新的路徑w→ι,新路徑將通過信息熵行數進行代價估算;(3)構建簇的解釋,在每一輪迭代之前都進行一次解釋的構建,并通過F值對解釋進行檢驗。
關聯數據鏈接挖掘的相關研究還包括:Vito Claudio Ostuni等提出的基于LOD的SPrank關聯推薦算法[24]以及Tommaso Di Noia等提出的利用LOD支持的關聯推薦系統[25],它們的共同特點是利用鏈向特定實體的共有路徑發現相關實體。另外,關聯數據的屬性鏈還被應用于語義相似度[26]和語義距離[27]等的計算。
4.2 頻繁子圖挖掘
在圖的集合中發現一組公共子結構,這樣的任務稱作頻繁子圖挖掘(frequent subgraph mining),常用的頻繁子圖挖掘方法包括AGM、AcGM、FSG等遞歸發現頻繁子圖的方法以及gSpan、CloseGraph和FFSM等拓展頻繁邊得到頻繁子圖的方法。由于關聯數據中關聯模式缺乏準確正式的定義和關聯數據圖結構的復雜性,頻繁子圖挖掘方法難以直接應用到關聯數據中。針對這一問題,Xiang Zhang和Cuifang Zhao等提出利用Typed Object Graph(類型化對象圖,簡稱TOG)數據模型簡化關聯數據結構并利用基于gSpan的模式挖掘算法從關聯數據中學習對象的關聯模式[28]。TOG圖通過一定的類檢測策略可以為RDF圖的每個實例賦予類型信息獲取(見圖1)。完成TOG圖的構建后,對TOG圖進行聚類后利用基于gSpan算法進行關聯規則的挖掘。
在Xiang Zhang 等的研究基礎上,Xiaowei Jiang提出了一種TOG圖壓縮策略進行實例層的關聯數據語義挖掘[15]由于關聯數據中存在大量的重復結構和相互依賴結構,因此在挖掘前可以利用這種機構特征進行圖的壓縮。根據關聯數據的結構特征,作者提出了兩種結合重復結構和壓縮互相依賴結構等兩種圖壓縮策略。壓縮的核心思想是利用鏈向TOG中一系列高度相關實例的單個實例代表一個可壓縮的圖結構。在完成了圖的壓縮后,關聯數據內的一些圖結構將變成一些所謂“超節點(hypernode)”實例的內部結構,原始的關聯數據圖也壓縮為較小的“超圖(hypergraph)”。
4.3 深度學習
深度學習的概念源于人工神經網絡的研究。深度學習通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發現數據的分布式特征表示。波爾茲曼機(Boltzmann machine,簡稱BM)是Hinton和Sejnowski于1986年提出的一種根植于統計力學的隨機神經網絡。BM具有強大的無監督學習能力,能學習數據中復雜的規則。但是,擁有這種學習能力的代價是其訓練(學習)過程耗時。此外,BM所表示的分布不僅無法確切計算,得到該分布的隨機樣本也很困難。于是Sejnowski引入了一種受限波爾茲曼機(Restricted Boltzmann machine model,簡稱RBM)。RBM具有一個可見層和一個隱層,層內無連接。RBM具有很好的性質,在給定可見層單元狀態時,各隱單元的激活條件獨立;反之,在給定隱單元狀態時,可見層單元的激活亦條件獨立。這樣一來盡管RBM所表示的分布仍無法有效計算,但通過Gibbs采樣(Gibbs sampling)可以得到RBM所表示分布的隨機樣本。目前RBM已經被成功運用到不同的機器學習問題[29]。
從關聯數據中學習知識的主要挑戰之一是如何在高效利用節點屬性的同時利用關聯數據的關聯抽取有效信息。當前對基于關聯數據的知識發現要么采取人工選擇的拓撲統計表示網絡結構,要么將節點屬性和網絡節點線性映射到一個共享隱含特征空間(shared latent feature space)。但基于統計的方法可能損失網絡結構中的重要模式,基于線性映射的方法可能無法捕捉到節點和關聯的非線性特征。為解決這些問題,Kang Li、Jing Gao利用深度學習理論,構建了基于受限波爾茲曼機對關聯數據進行表征學習的LRBM(Restricted Boltzmann Machines for Latent Feature Learning in Linked Data,學習關聯數據潛在特征的受限波爾茲曼機)模型,LRBM利用對比散度(Contrastive Divergence,簡稱CD)進行模型的訓練避免了大規模的采樣,同時模型可以與傳統RMB進行“疊加”以探索節點的深層特征和節點間的高階交互模式[16]。
LRBM不依賴任何主觀選擇的拓撲統計(topological statistics),可以在一個統一框架中同時獲取節點和屬性的特征,并根據這些特征構建節點關聯以及隱藏單元之間的非線性關系。模型的核心在于節點共享隱含特征,這些隱含特征可以用來構建節點、關聯關系和隱含單元的非線性關系。
作者首先用關聯矩陣表示關聯數據集中的節點和關聯關系,定義節點i到節點j的關聯L中節點i定義為關聯的發送者,節點j為關聯的接收者,并將每個節點的隱含表示(latent representation)定義為發送者行為Si和接收者行為Ri兩部分,分別對應節點的入鏈和出鏈。因此,節點i的屬性Ai與其隱含發送者行為Si和接收者行為Ri相關,且Si和Rj決定了節點i和j之間的交互。為將節點屬性A、關聯L和隱含特征表示R和S之間的交互建模,作者利用能量函數建立了一個隱含語義模型(Latent Factor Model,簡稱LFM),利用條件限制波爾茨曼機在模型加入了隱變量h以解決線性映射的問題,同時添加高斯噪聲為關聯關系賦予權重。最終,LRBM模型可關聯數據中提取出節點屬性、隱含特征S和R以及關聯關系的交互特征,并可將其應用到關聯預測、節點分類等知識發現活動中。
4.4 技術分析
在關聯數據集合中,數據集合和數據對象之間是以某種方式關聯的,對象之間的鏈接可能表示某種特定的模式,但這一模式通常很難用傳統的統計模型去獲取,因此,為該挑戰提供解決方案的鏈接挖掘成為了新的研究熱點。這一領域在鏈接分析、超文本和網絡挖掘、關系學習和圖挖掘等相關研究的交叉點上。
關聯遍歷挖掘、頻繁子圖挖掘、LRBM等分別利用了圖的遍歷、壓縮和深度學習的方法對關聯數據的鏈接進行挖掘,為基于關聯數據的知識發現提供了全新的方法和視角,但鏈接挖掘存在的問題是,由于當前研究仍處于探索階段,相關研究相對比較分散,缺少能將相關研究和應用統一到一個框架中的綜合體系,這一問題阻礙了已有研究之間的相互交流以及研究成果的拓展和共享。
5 結語
關聯數據通過數據間的鏈接支持結構化數據的關聯,這種攜帶語義的關聯遍及整個數據網絡,是關聯數據的核心價值。為實現關聯數據的價值,早期研究更多的關注了關聯數據的構建與發布,而隨著關聯數據資源的快速發展,更多的研究開始關注關聯數據的應用與消費,這些研究往往集中在“關聯數據的數據資源”和“關聯數據的關聯”等兩個主題。本文所介紹的間接挖掘和直接挖掘主要關注“關聯數據的數據資源”,這些研究促進了知識發現與關聯數據領域之間研究體系上的拓展和融合,一方面有助于從數據挖掘和知識發現的角度去發揮關聯數據的潛在價值;另一方面也可以借助數據挖掘和知識發現領域的知識解決關聯數據存在的問題。鏈接挖掘則更多的關注了“關聯數據的關聯”主題,圖論、深度學習等學科的引入為基于關聯數據的知識發現提供了全新的視角與方法,雖然當前的研究仍比較分散缺少統一的綜合框架,但這些方法和理論的引入已經為基于關聯數據的知識發現提供了新的活力和可能。
總體而言,基于關聯數據的知識發現技術仍處于快速發展階段,其作為一種新的知識發現技術已經體現了巨大的價值。隨著關聯數據數量的飛速發展和對關聯數據質量控制的加強,且已經有國內外的研究人員開始著手研究基于關聯數據的知識發現統一框架,未來的研究重點將更加傾向于基于關聯數據知識發現技術本身的豐富和完善。
參考文獻:
[1] 苗蔚,李后卿.知識發現及其實現技術的研究概述[J].現代情報,2005(1):12-15.
[2] 李楠.基于關聯數據的知識發現研究[D].北京:中國農業科學院,2012.
[3] 化柏林.數據挖掘與知識發現關系探析[J].情報理論與實踐,2008(4):507-510.
[4] 張樹良,冷伏海.基于文獻的知識發現的應用進展研[J].情報學報,2006,25(6):700-712.
[5] 賈麗梅.基于關聯數據語義相似度計算研究[D].鄭州:鄭州大學,2014.
[6] 李楠,張學福.基于關聯數據的知識發現模型研究[J].圖書館學研究,2013(1):73-77,67.
[7] 李俊,黃春毅.關聯數據的知識發現研究[J].情報科學,2013(3):76-81.
[8] 高勁松,李迎迎,劉龍,等.基于關聯數據的知識發現模型構建研究[J].情報科學,2016(6):10-13,18.
[9] 宋麗娜.關聯數據環境下基于知識地圖的隱性知識發現模型研究[D].武漢:華中師范大學,2014.
[10] 劉龍.基于關聯數據的知識發現過程模型研究[D].武漢:華中師范大學,2014.
[11] Narasimha V,Kappara P,Ichise R,et al.LiDDM:A Data Mining System for Linked Data[C].Workshop on Linked Data on the Web.CEUR Workshop Proceedings,2011:813.
[12] Paulheim H,Fümkranz J.Unsupervised generation of data mining features from linked open data[C].Proceedings of the 2nd international conference on web intelligence, mining and semantics.ACM,2012:31.
[13] Ramezani R,Saraee M,Nematbakhsh M A.Finding association rules in linked data,a centralization approach[C].21st Iranian Conference on Electrical Engineering(ICEE).IEEE,2013:1-6.
[14] Personeni G,Daget S,Bonnet C,et al.Mining Linked Open Data:A Case Study with Genes Responsible for Intellectual Disability[C].International Conference on Data Integration in the Life Sciences.Springer International Publishing,2014:16-31.
[15] Tiddi I,d'Aquin M,Motta E.Dedalo:Looking for clusters explanations in a labyrinth of linked data[C].European Semantic Web Conference.Springer International Publishing,2014:333-348.
[16] Tiddi I,d'Aquin M,Motta E.Walking Linked Data:a graph traversal approach to explain clusters[C].Proceedings of the 5th International Conference on Consuming Linked Data-Volume 1264.CEUR-WS.org,2014:73-84.
[17] Jiang X,Zhang X,Gao F,et al.Graph compression strategies for instance-focused semantic mining[C].China Semantic Web Symposium and Web Science Conference.Springer Berlin Heidelberg,2013:50-61.
[18] Li K,Gao J,Guo S,et al.Lrbm: A restricted boltzmann machine based approach for representation learning on linked data[C].Data Mining(ICDM),2014 IEEE International Conference on.IEEE,2014:300-309.
[19] Ristoski P,Bizer C,Paulheim H.Mining the web of linked data with rapidminer[J].Web Semantics:Science,Services and Agents on the World Wide Web,2015(35):142-151.
[20] L?觟sch U,Bloehdorn S,Rettinger A.Graph kernels for RDF data[M].The Semantic Web:Research and Applications.Springer Berlin Heidelberg,2012.
[21] de Vries G K D,de Rooij S.Substructure counting graph kernels for machine learning from RDF data[J].Web Semantics:Science,Services and Agents on the World Wide Web,2015(35):71-84.
[22] Abedjan Z,Naumann F.Context and target configurations for mining RDF data[C].Proceedings of the 1st international workshop on Search and mining entity-relationship data.ACM,2011:23-24.
[23] Ramezani R,Saraee M,Nematbakhsh M A.Finding association rules in linked data,a centralization approach[C].21st Iranian Conference on Electrical Engineering(ICEE).IEEE,2013:1-6.
[24] Ostuni V C,Di Noia T,Di Sciascio E,et al.Top-n recommendations from implicit feedback leveraging linked open data[C].Proceedings of the 7th ACM conference on Recommender systems.ACM,2013:85-92.
[25] Di Noia T,Mirizzi R,Ostuni V C,et al. Linked open data to support content-based recommender systems[C].Proceedings of the 8th International Conference on Semantic Systems.ACM,2012:1-8.
[26] Hulpus I,Prangnawarat N,Hayes C.Path-based semantic relatedness on linked data and its use to word and entity disambiguation[C].International Semantic Web Conference.Springer International Publishing,2015:442-457.
[27] Passant A.Measuring Semantic Distance on Linking Data and Using it for Resources Recommendations[C].AAAI spring symposium:linked data meets artificial intelligence,2010(77):123.
[28] Zhang X,Zhao C,Wang P,et al.Mining link patterns in linked data[C].International Conference on Web-Age Information Management.Springer Berlin Heidelberg,2012:83-94.
[29] 張春霞,姬楠楠,王冠偉.受限波爾茲曼機[J].工程數學學報,2015(2):159-173.
作者簡介:崔家旺(1991-),中國科學院文獻情報中心碩士研究生,研究方向:關聯數據;李春旺(1996-),中國科學院文獻情報中心研究館員,碩士生導師,研究方向:集成融匯技術、關聯數據、智能檢索、學科化服務、數字資源長期保存等。