耿江濤 匡增意 駱清霞
【摘 ?要】大數據技術的發展,催生了Google以語義網和領域本體為其關鍵技術的大規模語義網絡知識庫——知識圖譜(Knowledge Graph)的誕生和發展,不但在計算機科學領域發揮重大作用,且日益應用到其他領域。同時,在圖書情報領域基于引文分析可視化、知識地圖和知識網絡等研究產生的科學知識圖譜(Mapping Knowledge Domain)也在近二十年間得到了長足的發展。隨著研究領域的融合,有必要分析兩者的研究內涵,厘清兩者的關系,在知識管理方面優勢互補,發揮更大的作用。
【關鍵詞】科學知識圖譜; Google知識圖譜; 語義網; 大數據
引言
就中文字面而言,知識圖譜的研究既有在圖書情報領域廣泛使用的科學知識圖譜,又有在計算機科學領域的Google知識圖譜。雖然兩者在發展過程中都簡稱為知識圖譜,但其英文內涵、使用技術及應用都有本質的不同。
科學知識圖譜是在圖書情報領域基于引文分析可視化、知識地圖和知識網絡等研究產生的,采用可視化的圖譜,形象地展示所研究學科的框架、歷史、現狀和未來。
Google知識圖譜是在計算機科學領域,人工智能的深度學習技術賦能傳統語義網(Semantic Web)的研究,通過構建本體(Ontology)建構大規模語義網絡知識庫,并對相關信息進行可視化研究,是大數據時代知識管理的必然產物。
1.科學知識圖譜概述
科學知識圖譜通過文獻分析及可視化技術,繪制文獻計量圖(Bibliometric mapping)及文獻地圖(Literature mapping),以科學地圖(Science mapping)表現形式,緊扣英文Mapping地圖和向導的內涵,特別易于展現學科的結構、歷史沿革和發展趨勢、以及研究前沿等內容。
1.1基本概念
從知識管理的視角而言,科學知識圖譜是以學科文獻為研究對象,用“圖”(可視化圖形)和“譜”(結構化的譜系)的方式展示學科的發展與結構。
1.2知識可視化
知識有語言、文字、圖像等多種表達形式,但人類對視覺圖形則有更強的理解和識記能力,百聞不如一見、一圖勝萬言。在知識學習方面,廣泛使用概念圖、思維導圖等圖形工具展現概念、設計及關系等。
1.3科學知識圖譜
科學知識圖譜以文獻分析的引文分析和共引分析構建學科的知識基礎,通過建立數學模型和網絡結構,并繪制可視化圖形,以形象化地顯示學科結構、熱點、歷史與趨勢。
1.4知識管理及使用流程
樣本數據獲取。主要數據來源:Web of Science;科學文獻數據:SCI, SSCI;國際會議文獻數據:CPCI;其他國際文獻數據庫:Scopus,Science Direct
國內數據庫:CNKI、CSSCI、CSCD、萬方等。
網絡數據源:Google Scholar、arXiv。
(2)樣本數據清洗。樣本數據的質量決定了分析的質量。為此,需要對文獻數據庫采集的數據進行清洗預處理操作。包括對數據分段,修正原始數據的明顯錯誤,以及進行去掉重復數據的處理。
(3)選擇知識單元。選擇知識單元是進行知識處理的最基本工作。首先選擇話題(Topic):包括題名(Title)、關鍵詞、【摘 ?要】、作者等,此外資源類型、學科和研究方向等多種內容。
(4)構建知識單元關系。通過引文分析理論與方法,采用引文網絡的共引分析、貢獻分析、耦合分析等構建知識單元之間的關系。
(5)數據標準化。通過正交化、零值偏移化等方法,對知識單元的數據進行標準化。
(6)簡化分析。主要使用因子分析,使用主成分分析、多維尺度分析以及神經網絡聚類算法等分析方法。
(7)知識可視化。通過使用幾何圖、戰略圖、主題河圖和地形圖等多種可視化展示工具,系統地展示知識單元及其關系。
(8)科學知識圖譜解讀。主要從網絡分析,歷時、空間和突變分析等多方面,對科學知識圖譜進行分析和解讀。
2.Google知識圖譜概述
為提升搜索質量,Google從圖(Graph)模型出發,對傳統語義網重新賦能,構建了統一結構化的知識圖譜,即大規模語義網絡知識庫,成為大數據智能時代的前沿。
2.1本體
本體描述了概念及之間的關系,是對客觀世界存在及關系的抽象和建模。本體精確定義概念、關系及約束。通過形式化描述,便于人機交互和計算推理,同時也是領域內不同主體進行通訊的語義基礎。
本體 = 概念 + 實例 + 關系 + 【公理】
目前通用領域的本體庫產品,都是由數據驅動自動構建的,然后由人工審核進行修正。
2.2資源描述框架RDF
RDF(Resource Description Framework)是用于Web上數據交換的標準模型。RDF鏈接結構形成一個有向標記標簽圖,其中邊表示由圖節點表示的兩個知識單元之間的關系。
2.3知識圖譜研究的關鍵技術
大數據時代,如何從互聯網上積累的海量數據中提取出知識,組織為可用的知識庫,是知識圖譜所要解決的主要問題。關鍵技術包括:
(1)知識抽取。是指從各種結構化、半結構化和非結構化的海量數據中獲取知識。包括實體提取、屬性提取、實體關系提取。
實體抽取:采用命名實體識別技術,將實體及其屬性從文本中挖掘出來。
實體關系提取:提取實體間的語義關聯。在知識庫的構建過程中,實體關系提取與實體提取處于同樣重要的地位,也是知識庫構建與補全的關鍵步驟之一。
(2)知識融合。知識融合是將抽取到的知識,與知識庫已有的知識相整合。特別要解決實體的歧義性,包括相同的實體具有不同的名字,或者相同的名字指向不同的實體。解決這一問題需要用到的技術,主要分基于概率模型和基于機器學習模型兩類。
(3)知識加工。經過知識抽取與知識融合后,知識庫中就包含了一系列事實。但要形成可用的知識圖譜,還需要對知識進行進一步的加工處理。這一過程主要有本體構建,和知識推理。
3.結語
大數據時代,Google知識圖譜賦予語義網技術新的活力,且隨著深度學習技術的發展,廣泛地應用到各個學科領域。而科學知識圖譜則以知識可視化為核心方法,經過近二十年的發展,支撐理論、體系方法和應用成果都取得明顯的成效。當前,二者的交叉融合,互促發展,也為人工智能時代提供了創新的機會和研究領域。
參考文獻
[1] 馮新翎,何勝,熊太純,等.“科學知識圖譜”與“Google知識圖譜”比較分析---基于知識管理理論視角[J].情報雜志,2017,36(1):149-153.
[2] 楊思洛,韓瑞珍.國外知識圖譜的應用研究現狀分析[J].情報資料工作,2013(06):15-20.
基金項目: ① 廣東省教育廳2019年度普通高校特色創新類項目(2019GKTSCX152)成果;②廣東省教育廳2018年度廣東省特色創新項目(2018GWTSCX055)成果;③ 廣東省教育廳2018年省高職質量工程教改項目(GDJG2019309)成果。
作者簡介:耿江濤,副教授,博士生,廣州涉外經濟職業技術學院華文與國際教育學院院長。研究方向:大數據應用;
*通訊作者:匡增意,副教授,廣州涉外經濟職業技術學院常務副校長。研究方向:高職教育管理。
駱清霞,助教,廣州涉外經濟職業技術學院實踐教學管理室。研究方向:實踐教學管理。