唐亮 羅軒 王穎
摘 要:隨著數字時代和互聯網技術的發展,知識圖譜逐漸在科學研究和若干行業中得到應用。本文從概念、發展脈絡、數據類型、構建方法及應用領域等方面對科學知識圖譜和語義知識圖譜進行比較分析,重點辨析兩者的差異性。此外,本文列舉兩類知識圖譜在科技出版領域的應用案例,分析知識圖譜在未來的應用方向和前景。
近年來,“知識圖譜”一詞頻繁出現在各種通用和專業知識場景中,其他類似的名稱有“科學圖譜”“科學知識圖譜”等。盡管研究者眾,只要深究知識圖譜本質含義、發展脈絡、構建方法和應用場景,就會發現其實知識圖譜并不是指向同一個事物,而是分為發源于科學計量學、可視化的一類和發源于語義網的另一類。此前也有文章將后者稱為“Google知識圖譜”并從知識管理角度將其與“科學知識圖譜”進行比較。本文深入分析兩類知識圖譜完全不同的發展脈絡及在此基礎上的差異,并就其在科技出版領域的應用做一論述。
一、兩類知識圖譜的差異
在搜集各類文獻、媒體文章基礎上,筆者對其中所指的知識圖譜進行概念溯源,分析其數據特征和構建方法,并對其應用場景進行比較和歸類,發現總體上知識圖譜分為兩種類型,并從以下幾方面分析兩種類型之間的差異。
1.概念和發展脈絡上的差異
知識圖譜最早的名稱是科學知識圖譜,其英文名稱Mapping Knowledge Domains是在2003年召開的科學傳播領域著名的亞瑟·M.塞克勒研討會(Arthur M. Sackler Colloquia)上,由科學計量學奠基人之一Eugene Garfield提出的,2005年由國內學者陳悅和劉則淵于翻譯為“科學知識圖譜繪制”,科學知識圖譜由此得名。在科學計量學的范疇中,知識圖譜的定義是以科學文獻知識為對象,以科學研究范式為基礎,以引文分析方法和信息可視化技術為手段,顯示學科的發展進程與結構關系的一種圖形,主要是對文獻和文獻內容的知識單元進行可視化。
知識圖譜的另一個概念脈絡則來自完全不同的領域。經歷了20世紀70~80年代的專家系統、90年代的語義網、本世紀初的關聯數據和基于百科的大規模開放知識庫等發展階段,谷歌公司于2012年提出“知識圖譜(Knowledge Graph)”的概念,旨在描述真實世界中存在的各種實體或概念及其關系,以構建巨大的語義網絡圖,其中節點表示實體或概念,邊則由屬性或關系構成,因此知識圖譜提供了從關系的角度去發現知識、分析問題的能力,逐漸發展成為以語義網為基礎的新型海量知識管理和服務模式。
因此,從概念來源和發展脈絡上,兩者完全不同。本文中為進行區分,將前者稱為“科學知識圖譜”,將后者稱為“語義知識圖譜”。
2.數據類型上的差異
目前大多數應用場景中,科學知識圖譜主要建立在對科學文獻和科研相關數據進行分析的基礎之上。科學文獻之間存在的引用關系反映了科學知識之間的遞進過程和內在關聯性,因此對文獻的挖掘和分析可以揭示一個主題、領域或學科的發展的情況,以圖形化手段呈現研究結構、重點以及發展趨勢。科學知識圖譜重要的研究數據類型包括引文數據(如科學引文索引,SCI)、科研論文、合作關系、項目資助、關鍵詞、數據庫(如PubMed)等。因此,科學知識圖譜數據來源于并應用于科學研究領域。
相比于科學知識圖譜,語義知識圖譜所利用的數據類型則廣泛得多,而且尤其適用于解決關系復雜、類型繁多、結構多變的數據。根據不同領域和應用目標,語義知識圖譜所需數據也有所不同。比如在金融領域,既有來自互聯網輿情、監管機構的合規要求、內部報告等非結構化文本數據,也有財務、報告等半結構化數據,以及上百個業務系統產生的海量結構化數據;醫學領域數據有電子病歷、臨床醫學知識庫、醫學主題詞表(如MESH)、國際疾病分類(如ICD-10)等。
3.構建方法上的差異
根據應用目的的不同,科學知識圖譜有不同的類型及相應的繪制方法,總體上大致分為以下幾個步驟。①選擇數據源,獲取所需信息。比較常見的數據源是各類科學文獻,如期刊論文、專利、項目等數據庫。進一步抽取其中對于特定科學知識圖譜有用的信息,比如作者、機構、引用與被引、主題詞、關鍵詞等。②數據處理和分析:處理過程包括數據清洗、關系矩陣構建、數據標準化等,在此基礎上進行因子分析、多維尺度分析、聚類分析、共詞/共引分析、潛在語義分析等。③結果可視化:利用算法、軟件、工具等把經過采集、處理和分析的數據和轉化為可視化圖形,以快速、直觀和形象地揭示特定領域的發展現狀、規律、進程及其結構關系。
語義知識圖譜的構建過程則完全不同。①知識抽取,即從非結化數據中人工或自動地提取實體、關系和屬性。具體方法有基于規則、基于數據模型、基于神經網絡模型等。②知識表示。通常以基于本體的結構化知識描述框架RDF三元組進行直觀的表示,如“實體-關系-實體”或“實體-屬性-屬性值”。近年來以深度學習Deep Learning為代表的表示學習技術可以將實體的語義信息表示為稠密低維實值向量,進而在低維空間中高效計算實體、關系及其之間的復雜語義關聯。③知識融合。這一過程使不同來源和形態的知識在同一框架下進行整合、加工、消歧、驗證、更新等,為知識庫內部的邏輯性和規范表達奠定基礎。④知識計算和推理。基于融合后的知識信息,通過本體和規則推理技術推理得到更多隱含的知識,豐富和擴展知識庫。
4.應用領域上的差異
科學知識圖譜大多通過對科學文獻、數據資料的采集和分析,實現科學知識、研究信息和發展趨勢的可視化展示。具體應用可歸納為以下三方面:①研究內容智能檢索和分析。通過共詞分析、主題共現和論文被引聚類等方法發現研究領域的分類規律和現狀特征。②發現學科發展脈絡和趨勢。客觀、大規模、自動化地展示學科及其結構及其發展脈絡,展現局部和全局圖譜,實現各學科間的關系和學科前沿的可視化展示,發現新興學科。③輔助科研評價與決策。利用共現網絡可視化展示、二維圖和三維圖形成評價輔助工具。④支持科研合作和管理。分析和識別科研合作、交流情況和研究相似度,發現研究影響力,為調整相關科研政策提供依據。
語義知識圖譜主要建立在領域本體規范的基礎上,其強大的語義處理和互聯組織能力,為智能化信息應用乃至人工智能提供了基礎,因此在自然語言處理、語義標注、智能搜索、知識問答、關聯分析、決策支持、知識推理等方面有了廣泛的應用。尤其在商業智能、互聯網金融等在市場活躍的領域,由于受到資本和知本的雙重驅動,發展十分迅速。比如用語義知識圖譜構建復雜的關系網絡,可用來有效地揭示、識別出金融欺詐和避免金融風險。此外,語義知識圖譜在醫療、教育、交通等重要領域也有應用研究。例如醫學知識圖譜被應用于醫療信息搜索引擎、醫療問答系統、醫療決策支持系統等方面。
二、兩類知識圖譜在科技出版領域的應用現狀
科技出版是支撐科學技術交流和發展的重要一環,在經歷了本世紀以來的數字化、網絡化的傳播形態變革后,集成了期刊、圖書等資源的文獻數據庫成為科技出版最主流的科技出版產品形態。近年來,上述兩類知識圖譜在科技出版領域均有不同程度的應用。
1.科學知識圖譜:基于科學計量學的廣泛應用
在面向專業知識服務的應用上,科學知識圖譜主要還是從科學計量的角度出發,為專業科研工作者提供揭示學科發展歷史、研究熱點和前沿趨勢、學科間關系、不同層面的合作關系的可視化工具,為研究選題和評價等決策性活動提供數據分析上的支持。不少圖書情報機構長期進行科學知識圖譜的理論研究和工具開發,也不斷有面向情報分析應用的產品投入市場。因為科學計量學須建立在全面的文獻數據之上,因此只有擁有這些數據的機構才有條件發展科學知識圖譜服務。
國際方面,一些實力雄厚的信息服務商和出版商均推出了類似于科學知識圖譜的情報分析型產品,如科睿唯安公司(Clarivate Analytics)的深層次科研分析工具——ESI數據庫,基于其Web of Science覆蓋全球12000多種期刊的數據信息,可用于分析機構、國家和期刊的論文產出和影響力,發現各學科領域的發展趨勢,評估科研表現和發展潛力等。Elsevier推出的科研情報分析平臺SciVal以全球最大的文獻摘要與引文數據庫Scopus為基礎,通過全面利用各種工具和數據源,提供符合要求的定制化的分析報告,幫助用戶進行科研數量與質量分析、科研合作分析、人才流動分析、科研成果利用分析等。與Springer Nature同屬Holtzbrinck集團旗下的Digital Science公司與100多家研究組織和資助機構合作,整合旗下多家子公司的產品和服務,于2018年1月推出研究分析平臺Dimensions,不僅囊括了8900萬多篇期刊文章,還包括近360余萬個資助項目、38萬份臨床試驗資料、3400余萬項專利以及存在于這些記錄之間的40多億對關系。Dimensions不僅提供針對單篇研究文章的文獻計量學和替代計量學指標,還豐富了其他相關信息如資助項目,從多個維度反映研究成果價值和效率。利用科學知識圖譜技術,Dimensions不僅為科研用戶判斷科研發展態勢提供數據分析參考,也為科研經費提供者提供決策依據。
國內方面,幾個主要的文獻情報機構和數據商集成了海量文獻數據,成為這些機構發展科學知識圖譜的基石。中國科學院文獻情報中心建立了中國科學引文數據庫(Chinese Science Citation Database, CSCD),收錄我國各個學科領域出版的中英文科技期刊論文記錄500余萬條、引文記錄6600余萬條,不僅提供引文與文獻間的雙向關聯檢索服務,還能對檢索結果中的學科類別、來源出版物、作者、機構等要素進行分析,已經應用在一些學科的發展態勢分析中。中國科學技術信息研究所建立了基于期刊引用的檢索評價工具——中國科學引文索引(China Science Citation Index, CSCI),囊括了2000年來我國出版的科技類和部分社科類學術期刊約9000余種、論文4500多萬篇、引文記錄2億多條,能對國內學術機構、學者的科研論文產出、引用情況進行年度、主題等多維度查詢。中國知網(CNKI)、萬方知識服務平臺和超星發現平臺等學術文獻數據庫均利用科學計量學方法提供知識點共現、關注度變化等學術趨勢分析功能,用戶在利用數據庫獲取文獻的同時也可利用這些功能把握搜索主題的研究生命周期和方向。盡管上述平臺中只有超星發現平臺以知識圖譜來作為其情報分析模塊的名稱,其實所有這些功能均是基于科學知識圖譜而建立的。
2.語義知識圖譜:應用剛剛起步
相比于科學知識圖譜在專業科研領域的持續發展和創新,語義知識圖譜無論在技術還是應用方面都較少與專業知識服務產生聯系。雖然一些圖情機構、出版機構和信息技術公司也曾構建過以敘詞表或本體為代表的知識組織體系,但真正用語義知識圖譜的原理和方法做知識服務的卻很少。比較符合語義知識圖譜在專業知識服務中應用的案例是Springer Nature于2017年3月推出SciGraph關聯開放數據平臺,其本質是集成了機構、研究者、出版物、引用、項目、會議、專利等多種信息的關聯數據集,以開放的形式滿足科研情報分析的需求。SciGraph將上述信息建立為關聯開放數據中的實體類型,并建立實體類型之間的關系模型,同時采用多個三元組的N-Triples形式來表示RDF數據集,實現了數據關聯、互操作、數據挖掘等功能。但相較于其他行業領域的應用,SciGraph還只是從概念角度實現了對出版物信息的描述,未深入到知識本身的表示、融合和推理層面。近年來部分國內專業出版社開始嘗試構建知識圖譜,大部分處于實體和關系庫建設的階段,對于發展基于知識圖譜的應用尚處于探索階段。盡管步伐不像互聯網公司那樣迅速,但專業出版社往往選擇更為穩扎穩打的方式,重視質量和專業性,為下一步專業領域的應用打下良好的基礎。
三、結論與展望
近十幾年來,科學知識圖譜在科研領域得到了廣泛和多維的應用,從科學計量學的角度推動了科研的發展。而真正能夠深入知識本體層面的語義知識圖譜大多是由大型互聯網公司如谷歌、百度和人工智能創業公司開發。隨著自然語言處理、機器學習、大數據等技術的不斷深化,語義知識圖譜必將在科研知識服務領域大放異彩。從可利用的資源條件上看,國內科技出版機構發展基于文獻計量學的科學知識圖譜有很大的難度。但語義知識圖譜不受上述條件的限制,只需要將知識抽取、表示、融合和計算的模型建好,利用人工智能技術訓練計算機“理解”各類資源中的信息和知識,在此基礎上實現語義搜索、智能關聯推薦、隱性知識發現、邏輯推理等多種形式的應用,真正地在知識層面滿足甚至引領用戶的需求。
參考文獻:
1.胡澤文,孫建軍,武夷山.國內知識圖譜應用研究綜述[J]. 圖書情報工作,2013(3):131-137.
2.馮新翎,何勝,熊太純,等.“科學知識圖譜”與“Google知識圖譜”比較分析——基于知識管理理論視角[J].情報雜志, 2017,36(1):149-153.
3.陳志云,商月,錢冬明.基于知識圖譜的智能答疑系統研究[J]. 計算機應用與軟件,2018, 35(2):178-182.
4.陳悅,劉則淵.悄然興起的科學知識圖譜[J].科學學研究, 2005,23(2):149-154.
5.劉則淵,王賢文,陳超美.科學知識圖譜方法及其在科技情報中的應用[J].數字圖書館論壇,2009(10):14-34
6. 楊思洛,等.中外圖書情報學科知識圖譜比較研究[M].北京:科學出版社,2015.
7.陳超美.科學前沿圖譜——知識可視化的探索[M].陳悅,等,譯.北京:科學出版社, 2014.
8.魏瑞斌.國內知識圖譜研究的可視化分析[J].圖書情報工作,2011(8).
9.袁凱琦,鄧揚,陳道源,等.醫學知識圖譜構建技術與研究進展[J].計算機應用研究,2018(7):1929-1936.
10.王小梅,鄧啟平,李國鵬,等.ESI研究前沿的科學圖譜及在納米領域的應用[J].圖書情報工作,2017, 61(12):106-112.
11.劉嶠,李楊,段宏,等.知識圖譜構建技術綜述[J].計算機研究與發展,2016,53(3):582-600.
12.宋宇,真溱,湯珊紅.科學圖譜簡介:過去、現在和未來[J].情報理論與實踐,2015,38(07):145.
13.孫曉寧,閆勵,張強.科學知識圖譜在學科可視化研究中的應用[J].圖書館,2014(5):87-91.
[作者單位系中國科技出版傳媒股份有限公司。本文系2018 年文化產業發展專項資金重大項目(XW20180097)階段性成果]