劉小樂1 馬捷2
(1.天津科技大學圖書館,天津300457;2.吉林大學管理學院,吉林長春130025)
語義網環境下基于本體的知識集成研究進展
劉小樂1馬捷2
(1.天津科技大學圖書館,天津300457;2.吉林大學管理學院,吉林長春130025)
〔摘要〕本文以Web of Science數據庫為數據來源,利用文獻計量學方法,從文獻資源的著者、學科以及國家和地區分布等方面進行統計分析,探討語義網環境下基于本體的知識集成研究進展。同時利用CiteSpace3.7.R8可視化軟件對文獻的引文和關鍵詞進行可視化分析,發現熱點和經典文獻,為進一步的研究提供借鑒。
〔關鍵詞〕本體;知識集成;語義網;關鍵詞共現;文獻共引 與共現知識圖譜繪制步驟類似,利用CiteS-pace3.7.R8軟件設置相關參數,在選擇Node Types(節點類型)時選擇Cited Reference(文獻共被引分析)。運行程序,獲得文獻共被引頻次表(如表3所示)和文獻共被引知識圖譜(如圖2所示)。在圖中結點代表參考文獻,結點的大小能夠反映文獻被引頻次的高低程度,結點間連線表示文獻存在共被引的關系,結點間的連線越粗代表文獻共被引程度越高。通過文獻共被引分析,可以分析在這一學科領域的經典文獻。
語義網是萬維網的延伸和擴展,在語義網環境下,計算機通過語義化的信息標注對知識進行智能表達、自動處理,實現對知識的語義理解。本體是概念化形式化的說明,通過概念以及概念間的關系有效地表達不同領域間的通用知識。知識集成主要是對新的知識進行識別、處理、評估以及改造,實現新知識與原有知識之間的交互[1],促進知識組織化和結構化,使得知識能夠集成發展。語義網環境下基于本體的知識集成能夠解決不同網絡信息資源的語義異構問題[2],通過集成不同的知識結構和不同來源的知識,為用戶提供統一的知識訪問接口以及智能化的知識服務。本文主要研究語義網環境下基于本體的知識集成,明確這一領域的研究進展狀況,通過分析為以后的研究奠定基礎。
本文采用的數據來源于美國科學情報研究所(ISI)出版的Web of Science中的SCI-EXPANDED,CCR-EXPANDED,IC數據庫[3]。數據的檢索策略是主題=“knowledge integration”AND主題=“ontology”,時間跨度為2003-2013年。檢出的文獻包括Article、Proceedings paper、Review、Editorial material、Book Chapter等類型。刪除書評等非研究性文獻,經過數據的篩選和精煉獲得698篇文獻。
1.1文獻著者分析
筆者對檢出的698篇文獻的著者進行統計,通過統計結果分析基于本體的知識集成研究領域的著者發文數量,確定該研究領域的高產作者,從而能夠實現這一領域的合作研究。同時對作者合著情況分析,了解該研究領域的合作團體,從而能夠拓寬該領域研究的深度與廣度。根據統計,發表2篇以上論文的著者共有358位,發表10篇論文以上的著者共有2位,均是11篇,共有6個團體作者。
1.2文獻學科分析
通過分析這一領域文獻的學科分布情況,能夠了解該領域主要分布的學科,利用不同學科的研究方法來拓寬該研究領域,同時深化在不同學科的應用。依據統計,該領域698篇文獻分布在了83個學科領域,其中發文量超過50篇的文章主要集中在計算機科學、人工智能、信息系統、軟件工程、信息管理學、醫學信息學、管理科學等學科領域。通過分析,語義網環境下基于本體的知識集成類研究屬于計算機科學的文章較多,信息系統、軟件工程、人工智能也是在計算機技術支撐下發展起來的。計算機科學技術的發展推動基于本體的知識集成研究的發展,語義網、本體的發展同時豐富了計算機科學的研究。在計算機技術支撐和語義網環境下,基于本體的知識集成模型、分類、系統、管理等分布在信息系統、軟件工程、人工智能、管理科學等領域。
1.3文獻國家或地區分析
通過分析文獻的國家或者地區分布狀況,能夠幫助掌握基于本體的知識集成研究領域的科研分布情況,為該領域進行國際的科研合作提供借鑒和應用。依據統計結果,698篇文獻一共分布在59個國家和地區,排名前10位的國家和地區共發表論文669篇,占發文總量的95.84%,美國、英國、西班牙、德國、中國、法國、意大利、加拿大、中國臺灣、澳大利亞排在前10位。美國以193篇的論文數量排在第一位,在該領域美國的研究遙遙領先,其他國家可以借鑒其研究成果,同時與相關專家和機構進行合作,共同深化該領域的發展。英國以86篇的論文數量排名第二。中國以69篇的論文數量排名在第四,與第三名只有1篇之差,中國臺灣地區以24篇論文數量排名在第九位,這樣中國共有93篇相關文章,僅次于美國。雖然中國在數量上與美國有很大的差距,但也能夠表明中國基于本體的知識集成研究在國際舞臺上占有一定的地位。需要借鑒該領域研究前沿國家的研究成果,密切國家合作。如表1顯示排名在前10位的國家和地區。
2.1可視化文獻分析軟件——CiteSpace
CiteSpace是美國德雷克塞爾大學信息科學與技術學院

表1 論文數量發表排名前10位的國家和地區
的陳超美博士開發的基于JAVA平臺的文獻可視化分析軟件。CiteSpace利用文獻間的引用關系建立節點之間的關聯,通過繪制關聯知識圖譜來研究科學文獻。利用CiteSpace可以顯示某一學科或者是知識領域在一定時期的發展趨勢和動向,從而形成前沿領域的演進歷程[4]。CiteSpace用節點表示文獻,節點的大小表示文獻被引用次數,節點越大代表該文獻被引用次數越多。節點間的連線表示文獻之間的相互引用關系,連線的粗細代表相互引用次數,連線越粗代表文獻間相互引用次數越多[5]。本文利用CiteS-pace3.7.R8版本對國內外基于本體的知識集成文獻進行關鍵詞共現和文獻共引分析,繪制知識圖譜分析本領域的研究熱點和經典文獻,為進一步的研究提供借鑒和指導。
2.2研究熱點分析
2.2.1關鍵詞共現知識圖譜繪制
利用CiteSpace3.7.R8軟件導入Web of Science數據庫檢索出的698篇文獻信息,同時設置相關的參數。具體設置Time Slicing(時區分割)為2003-2013年;#Years Per Slice(單個時間分區長度)設為1年;Term Source(主題詞來源)勾選Title(標題)、Abstract(摘要)、Author Keywords(著者關鍵詞)以及Keywords Plus(擴展關鍵詞),閾值Thresholding(c,cc,ccv)設置為(2,2,20)(4,3,20)(4,3,20);Node Types選擇Keywords即關鍵詞共現分析。通過運行程序得到關鍵詞頻次表(如表2)以及關鍵詞共現圖譜(如圖1)。在圖1中,1個結點代表1個關鍵詞,結點的大小反映關鍵詞出現的頻次高低程度,結點間的連線反映關鍵詞間的共現關系。如果結點之間的連線越粗表示兩個關鍵詞共現的頻次就越高,結點的年輪結構則表示某一關鍵詞的出現時間。

表2 關鍵詞頻次表

圖1 關鍵詞共現知識圖譜
2.2.2關鍵詞共現分析結果——研究熱點領域
通過關鍵詞頻次表以及關鍵詞共現知識圖譜,可以分析基于本體的知識集成領域研究熱點。通過分析,知識集成研究熱點主要集中在以下幾個方面:
(1)語義網環境下基于本體的知識集成模型研究
由共現關鍵詞ontology(anthologies)-data Integrationknowledge-semantic web-model分析得出。
知識集成模型主要用來描述知識與知識、知識與過程以及知識與人之間的關系,指導如何進行知識集成[6]。知識集成模型主要分為兩種:一種是基于認識論的知識集成模型,主要包括顯性知識之間的集成、隱性知識之間的集成、從顯性知識到隱性知識的集成、從隱性知識到顯性知識的集成4種模型。具有代表性的是基于知識內容的顯性知識之間的集成模型(SECⅠ模型),嚴格意義上說屬于知識創造模型[7]。另一種是從本體論的角度出發將知識集成分為個體知識、團隊知識、組織知識以及組織間的知識,在不同的層面或者是同一層面對知識進行集成,即ITOI知識集成模型[8];Reimer主要研究在語義網環境下如何從更高層次的語言著手建立知識集成模型[9];Nonaka的研究成果偏重知識創造方面的研究[10];Sabherwal研究不同類型知識的集成機制,建立了理論模型[11]。
(2)語義網環境下基于本體的知識集成工具研究
由共現關鍵詞ontology(ontologies)-integration-knowledge-semantic web-tool得出。
信息技術的發展推動了知識集成工具的進步。語義網環境下基于本體的知識集成研究主要集中在計算機科學領域,通過分析,知識集成工具主要包括知識轉化工具、知識庫管理系統、知識挖掘工具以及知識集成平臺等。利用知識轉化工具和過濾、集體協作技術、語義網技術將隱性知識轉化成顯性知識;利用知識庫管理系統有效的管理顯性知識;利用知識挖掘工具將在數據庫挖掘到的重要知識進行分析與整合;利用知識集成平臺的中間件以及多媒體技術功能進行知識的表達、轉化和交流,實現知識的表達、異構環境下知識的獲取與重用、規則推理,從而形成知識集成系統。
(3)語義網環境下基于本體的知識集成管理
由共現關鍵詞ontology(anthologies)-data integrationknowledge management-semantic web得出。
在知識管理領域對知識集成的研究集中在知識集成的創新、知識集成的能力、知識集成的評價以及知識集成的應用方面。語義網環境下基于本體的知識集成管理將計算機技術與知識管理理論有效結合,利用本體技術、語義網代理技術對知識集成進行創新,保證知識創新的技術成果和應用。語義網環境下,強化本體論的應用研究,通過基于本體的知識集成,可以突破原有數據庫集成存在的問題和瓶頸,實現組織的知識管理。
(4)語義網環境下基于本體的知識集成系統設計
由ontology(anthologies)-integration-knowledge-semantic web-systems(system)-design得出。
知識集成是對知識的整合和優化,對隱性知識和顯性知識進行交流和協作,實現知識的共享。知識集成系統解決的關鍵問題是如何將分散的知識整合成為統一的知識,確保知識的擴展性。語義網環境下,知識集成系統構建基于建立統一的專家知識庫基礎上,將顯性知識和隱性知識整合成為標準的可以理解的本體知識。利用專門的轉化模塊,實現顯性知識和隱性知識的轉化,集成獨立的本體知識庫。異質知識源的集成成為知識集成研究的一大熱點。建立知識源之間的知識互用和共享平臺,表示和挖掘已有知識源中的隱性知識同時消除已有知識源的不一致性,從而準確解決問題。
2.3經典文獻分析
2.3.1文獻共被引知識圖譜繪制

表3 文獻共被引頻次表
2.3.2文獻共被引分析——經典文獻
結合表3、圖2文獻圖譜進行深入分析,在語義網環境下,基于本體的知識集成研究論文共同被引用的頻次超過30次的有10篇,本文將共被引頻次超過50次的引文作為該領域研究的經典文獻(如表4所示)。Ashburner Mz在2000年發表的Gene Ontology:tool for the unification of biology

圖2 文獻共被引知識圖譜
的文章共被引頻次最高達到178次,該文章被該領域內178篇文章引用,成為經典文獻。Gruber,T,R的文章是本體領域內的經典文獻,共被引106次,Grube,T,R在該文章中詳細系統的定義了本體的概念。通過分析經典文獻可以得出該領域研究的發展歷程、理論依據和技術基礎,并提供了基因本體和生物醫學知識集成例證,為知識集成的研究提供了有利借鑒。這些經典文獻在一定程度上反映了該領域在不同階段的研究水平。在做有關這一方面的研究時,仔細閱讀這些經典文獻可以更加深入的了解該領域研究的基礎和側重點,提高研究水平。

表4 經典文獻列表
本文利用CiteSpace3.7.R8文獻分析軟件,通過關鍵詞共現和文獻共被引分析了語義網環境下基于本體的知識集成研究進展,從文獻資源的著者、學科以及國家和地區分布等方面統計分析國際上知識集成研究基本狀況,分析出該領域研究集中在知識集成的模型、工具、管理以及系統構建等熱點領域,分析出5篇經典文獻。在研究過程中也發現了知識集成領域研究存在的問題:首先,語義網環境下基于本體的知識集成研究在集成異質知識源方面還需要構建更加高效的異構知識源平臺,實現知識結構化程度和知識表示方法的統一性;其次,在實現知識系統的互操作和共享方面存在欠缺,知識的表達方式沒有統一的標準;最后,知識集成的理論研究比較成熟,但是實際應用方面較少,知識集成理論和實際應用的脫節?;诒倔w的知識集成實踐不斷發展,研究人員需要運用不同的知識集成方法,不斷地開發新的知識集成工具,構建基于本體的知識集成平臺,解決知識集成方面存在的問題,從而真正有效地實現知識集成。
參考文獻
[1]羅海飛,吳剛,楊金生.基于貝葉斯的文本分類方法[J].計算機工程與設計,2006,27(24):4746-4748.
[2]楊學明,劉柏嵩.基于本體的知識集成研究[J].情報雜志,2006,(5):63-65.
[3]楊國立.國外數字圖書館研究進展:基于關鍵詞共現和文獻共被引的可視化研究[J].圖書館雜志,2012,31(6):20-25.
[4]Chen C.CiteSpaceⅡ:Detecting and visualizing emerging wends and transient patterns in scientific literature[J].Journal of the American Society for Information Science and Technology,2006,52(3):359-377.
[5]張紅巖.我國圖書館職業研究的實證分析[J].中國輕工教育,2012,(6):52-54.
[6]馬彪.國外知識集成研究綜述[J].情報理論與實踐,2007, 30(1):139-144.
[7]Grant.Prospering in dynamically competitive environments:Organization capability as knowledge integration[J].Organization Science,1996,54(4):375-387.
[8]Shin M.From knowledge theory to management practice:towards an integrated approach[J].Information Processing&Management,2001,37(2):335-355.
[9]Reimer Acknowledge integration for building organization all memories[J].Eleventh Workshop on Knowledge Acuisition,Modeling and Management,1998.
[10]Nonaka I.Adynamic theory of organizational knowledge creation[J].Organization Science,1994,5(1):14-37.
[11]Sabherwal R.Integrating specific knowledge:insights from the Kennedy space center[J].IEEET transactions on Engineering Management,2005,52(3):301-315.
(本文責任編輯:孫國雷)
The Development of Knowledge Integration Based on Ontology in Semantic Web Environment
Liu Xiaole1Ma Jie2
(1.Library,Tianjin University of Science and Technology,Tianjin 300222,China;2.School of Management,Jilin University,Changchun 130025,China)
〔Abstract〕The paper analyzed the development of knowledge integration based on ontology in semantic web environment from the author,subject,national and regional distribution of literature with literature metrology and the Web of Science database as the data source.At the same time,the author made visualization analysis of literature citations and keywords with CiteS-pace3.7.R8 visualization software for finding hot and classical literature in order to provide reference for the further study.
〔Key words〕ontology;knowledge integration;semantic web;co-word;document co-citation
作者簡介:劉小樂(1987-),女,助理館員,碩士,研究方向:數字信息資源管理、知識組織,發表論文5篇。
收稿日期:2014-10-22
〔中圖分類號〕G203;G252.8
〔文獻標識碼〕A
〔文章編號〕1008-0821(2015)01-0159-05
DOI:10.3969/j.issn.1008-0821.2015.01.031