


摘要:[目的/意義]科學知識圖譜作為新興的知識發現工具和可視化知識分析平臺,可以輔助科技智庫洞察科技領域的發展脈絡,預測未來科技發展趨勢。[方法/過程]本研究遵循科技智庫的工作邏輯和流程,構建科技活動全要素的科學知識圖譜,并開發知識圖譜分析發現系統。實施知識獲取、知識融合和知識計算。[結果/結論]實現知識深度挖掘、知識隱含關系發現、趨勢預測和其他智能化決策應用。
關鍵詞:科技智庫? ? 知識圖譜? ? 可視化? ? 知識庫? ? 趨勢預測? ? 輔助決策
當前全球科技創新步入空前活躍期,以信息技術、生命科技、新能源、新材料等為引領的新一輪科技革命正孕育爆發,引導著全球產業變革加速推進,影響著人們的生產生活方式,重構著全球科技創新的發展格局和競爭力。科技智庫是科技創新領域的智囊和參謀,對科技和產業的超前預測、戰略研究和政策評估深刻影響著經濟社會的治理,全球高端科技智庫的作用日益凸顯,表現出走向世界智庫中心舞臺的趨勢[1]。而今科技智庫已經由傳統的單純依賴專家經驗判斷轉向依靠現代信息技術和專家智慧綜合分析研判,尤其是通過構建科學知識圖譜系統,運用大數據分析、知識挖掘、人工智能和可視化等技術,進行復雜運算和分析,支撐研究戰略和結論。
知識圖譜是2012年由谷歌提出的基于互聯網語義搜索而構建的大數據本體和概念關聯關系知識庫體系,科學知識圖譜運用了知識圖譜的核心理念和技術,綜合運用圖譜學、計量學和科學數據庫技術,構建科學技術知識譜系,揭示多重知識單元和知識組織間的時間、空間等復雜關系,可推演新知識結構和科技發展趨勢。
本研究分析了我國科技智庫探索信息化、數據化、智能化輔助決策的發展脈絡,結合科技智庫的研究需求和知識圖譜的技術功能特征,構建了科技智庫科學知識圖譜系統,設計了系統數據模型和計算模型,研究了應用范式和運行流程,并實證應用于前沿技術跟蹤監測,驗證了其可行性和應用價值。
1? 研究綜述
2015年國家出臺《關于加強中國特色新型智庫建設的意見》[2],迎來了智庫大發展的機遇。在科技智庫領域,中國科學院系統、中國科協系統、高校科學管理學院以及全國各地的科技情報機構是骨干力量。這些機構長期從事科技情報服務、科技決策咨詢、科技政策研究和技術預見等工作,20世紀90年代初期,就開始探索建設和應用數據庫系統輔助研究,如中國科技情報所重慶分所的科技期刊題錄數據庫、清華大學的科技文獻原文數據庫、北京科技情報所聯合全國科技情報機構建設的科技成果數據庫等,2000年之后,隨著WEB2.0技術興起,開始將數據倉庫、信息挖掘、知識發現等技術運用到科技決策咨詢研究方面的探索,2005年中國科學院資源環境科學信息中心吳新年等[3]基于科技情報學研究的需求提出了將各類不相關聯的科學學科數據庫統一構建到一個平臺上,建立數據倉庫,通過數據加工和挖掘算法實現統一檢索,并設計了不同權限用戶的構想,之后在數據獲取和知識處理、數據挖掘和運算等方面做了諸多探索,中國科學院文獻情報中心譚宗穎等[4]運用本體技術對信息進行組織,運用文本聚類技術挖掘科技主題和相互關系,構建科技智庫科技發展前沿監測跟蹤平臺,預測科技發展趨勢;逯萬輝等[5]通過深度學習算法,對期刊文獻進行分群建庫,建立科學知識結構庫;蘇曉娟等[6]綜合運用科技大數據、人工智能,構建中英雙語料庫,2015年之后,中國科學院文獻情報中心開始探索基于知識圖譜技術的科研主體、科研活動、科研成果等面向科研全過程鏈條的知識組織構建,開發新型知識檢索發現服務,胡吉穎等[7]基于全球海量科技數據建設的學術知識圖譜構建了研究人員、機構、期刊、論文、項目、基金、專利等實體相互關聯的復雜網絡,實現了知識層面的數據融合與集成,并以知識圖譜為核心搜索引擎,完成了科技大數據知識發現平臺的建設;王穎等[8]設計和實現科研實體知識抽取、實體對齊和關系發現、知識融合與語義豐富化的知識圖譜構建方法。
知識圖譜是2012年由谷歌提出的 [9],是為實現更智能的搜索,它的本質是語義網絡(semantic network)知識庫,節點代表實體和概念,實體之間的鏈接線代表關聯關系,概念和關聯關系構成了知識庫,百度、搜狗等搜索引擎都先后推出了自己的知識圖譜系統,提供更強大的基于語義的搜索服務。科學知識圖譜運用到科技領域,國內尚沒有明確一致的定義,湯建民[10]認為科學知識圖譜是以可視化圖譜的形式展現學科發展總體圖景、親族關系和演化歷程等,劉則淵[11]等認為科學知識圖譜是以知識域為對象,是呈現科學知識的發展過程和結構關系的一種圖像,是用可視化的知識圖形來呈現序列化的知識譜系。在知識圖譜的應用研究方面,由于其具有較高的技術難度和較大的資源投入的特點,國內目前更多應用于商業價值高的搜索引擎領域和互聯網金融行業,如百度(Baidu Knowledge Graph)、搜狗(知立方)等,而在科技智庫這類公益性研究和公共政策服務為主的領域,尚處于探索起步階段,目前有實質進展的僅有中國科學院文獻情報中心在探索建設基于知識圖譜的科技大數據知識發現平臺[7],是包含人員、機構、期刊、論文、項目、基金、專利等結構化可計量數據的學術知識網絡圖譜,更加注重學術的特征,這符合中國科學院探索科學前沿的需求。
本研究構建的科技智庫科學知識圖譜是圍繞科技智庫戰略研究功能設計的可視化知識庫系統,遵循科技智庫的工作邏輯,數據來源既包含各類學術產出數據(論文、專利、成果、人才、機構等),還創新性引入替代計量數據,包括科技新聞資訊、新媒體、自媒體動態、垂直社交平臺言論等,充分體現當今科學技術發展的動態性和經濟社會各領域的交叉融合性。替代計量數據的結構多樣化、信息描述不規范化和文本抽取多噪音等特征,使數據融合的技術實現難度增大,對實體映射、關系識別、知識融合、實體鏈接和知識推理等技術交叉運用提出了挑戰,在科技智庫領域尚沒有成熟研究可借鑒。
2? 科技智庫特征和智能化需求
美國賓夕法尼亞大學的《2015年全球智庫報告》[12]認為科技智庫是發現和了解人類社會所面臨的挑戰,而后找到解決方法去克服它們,盡力持續開展能源、環境、教育、公共衛生、基礎設施建設等領域的相關研究,提供這些領域科技推動進步方面的相關政策建議。中國科學院科技戰略咨詢研究院萬勁波等[13]將科技智庫定義為“以科技戰略政策科學研究為主要職能,以科技戰略政策決策咨詢為主要功能的專業政策研究和咨詢機構”;于升峰等[14]認為科技智庫是匯聚社會各界智慧,研究科技創新發展規律,為決策機構提供知識產品,并向社會傳播政策信息的組織,通過廣泛聯接政府和科技、經濟、社會各界,影響科技創新政策的制定、選擇和實施。可見國外學者對科技智庫的定義,站在全人類發展的視角,提出了面臨挑戰、研究策略和政策引導應用,而國內學者定義是從目標導向出發,直接圍繞政策應用路徑相關問題展開,隱含了其中的研究范疇、策略和方法,其實是殊途同歸,就是要發現和識別科技創新的發展規律,并加以引導和應用。
全球科技智庫普遍具備3個方面主要特征。一是專業化特征。科學研究具有自身的研究方法和研究規律,科學學科分類精細、紛繁復雜,科技智庫需要具備很強的專業性,對各領域全球發展態勢要有準確的把握。二是多學科融合特征。現代科學技術發展呈爆炸性、交叉性、迭代性趨勢,需要科技智庫具備多元化、融合性、前瞻性特征,擅長研究領域交叉、學科交叉、產學研融合等復雜問題,把科學問題放到社會發展的大視野中,提出多視角、綜合性、全方位的政策建議。三是知識處理信息化、智能化特征。現代科技發展日新月異,全球科技競爭異常激烈,與科技有關的信息、知識和邏輯關聯爆炸性指數級增長,科技創新和經濟社會發展交叉融合呈現多元化趨勢,處理復雜性、綜合性問題的需求更加突出,科技智庫對知識工具依賴性越發明顯,亟需強有力的智能化知識處理工具支撐。
科技智庫的信息化、智能化特征是前兩個核心競爭力特征的有利支撐,美國賓夕法尼亞大學智庫與公民社會項目認為,以人工智能技術等為代表的第四次工業革命催發了四股社會趨勢,其中大數據趨勢在變革社會發展的同時,同樣將極大影響智庫的研究模式和效率。高水平科技智庫必須具備強大的大數據處理和智能化分析能力,這甚至成為一些全球頂尖智庫的核心優勢,比如美國布魯金斯學會就建有交互式智能數據分析系統,通過大數據多維度可視化的方式進行復雜數據的智能過濾、智能篩選和智能分析,并通過平臺共享機制實現全球智庫專家的合作交流[15]。
3? 科學知識圖譜的系統構建
3.1? 總體目標
科技智庫在科技創新戰略研究方面具有不可替代的核心優勢,一是在遴選科技優先發展領域方面,二是在預測關鍵核心技術方面,三是在謀劃構建科技創新系統方面[16]。科技智庫對智能化分析方法的需求強烈,科學知識圖譜作為新興的知識發現工具和可視化知識分析平臺,可以為科技智庫的更高要求提供可能,它通過揭示知識組元、知識族之間關聯、結構、融合和演化的復雜關系,可以發現科技領域的發展脈絡,預測未來發展趨勢。本研究基于此需求構建科技活動全要素的科學知識圖譜,開發知識圖譜分析發現系統,實現知識深度挖掘、知識隱含關系發現、隱含趨勢預測和其他智能化應用。
3.2? 系統設計
本研究把科技智庫知識圖譜作為搜索引擎,構建復雜網絡關系實體的可視化知識庫四層運算體系結構:第一層是知識獲取,抽取各類數據源中的科技活動實體、概念及關聯屬性,分別構建知識庫;第二層是知識融合,通過建立本體、實體和客體映射關系,將不同源數據、不同結構數據和不同屬值數據的知識庫融合成統一知識庫;第三層是知識計算,通過知識圖譜的運算和推理,發現知識內部隱含關系、隱含規律和隱含趨勢;第四層是決策應用,包括語義檢索、可視化分析、跟蹤檢測和規律預測等。
3.2.1? 知識結構? 基于科技智庫的需求模型,構建科學知識圖譜的知識結構和知識關系,依據知識詞匯與本體概念的映射關系,先對結構化數據進行知識抽取,即對期刊論文庫、專利文獻庫、科技成果庫、機構庫、人才庫、項目庫、基金庫等結構化、規范化數據庫進行數據抽取,對不同數據結構進行標準化、實體化處理,抽取研究者、機構、時間、標題、科研方向、合作關系等科研實體,同時抽取實體之間的關聯關系和語義組織;而后依據本體概念與數據源詞匯的映射關系,對科技資訊、網站信息、社交信息和自媒體信息等替代計量數據進行數據采集、數據清洗、數據解析、知識抽取、實體化處理、抽取本體、抽取語義組織和關聯關系。不同源數據依據相同的本體概念與源詞匯映射的關系構建的知識集,不同的詞匯指向相同的實體。知識圖譜的概念模型是經抽象化的相關實體概念的關系圖,包括概念、屬性、類型、關系、域及值域,對應主題(subject)、研究人員(researcher)、機構(institution)、基金(fund)、項目(project)、會議(meeting)、時間(date)、地點(site)、合作者(research team)等,實體間關系包括貢獻關系(contribution)、隸屬關系(membership)、資助關系(supportive)等(圖1)。
3.2.2? 知識獲取? 結構化數據和非結構化數據的知識抽取和實體關系抽取,結構化數據包含數據庫、數據表和結構化文本等按映射關系進行規范化處理,構建標準知識庫。非結構化數據包含web、Twitter、Wechat等信息,先要提取正文即過濾廣告信息后的文本信息,并運用自然語言處理技術對文本進行實體識別,與結構化數據抽取的標準知識庫進行實體鏈接,將候選實體鏈接到標準知識庫上面,并通過構建同義詞表的方式完成不同實體描述的對應關系。實體關系識別是通過語義解析和實體間的依存關系分析,識別關鍵語句中詞向量和角色的關系。
3.2.3? 知識融合? 把不同數據源抽取的知識和實體關系融合成統一的知識庫[17],核心是構建標準化數據詞典和數據關系詞典即構建本體,把本體作為錨定,在不同數據源進行知識抽取時,建立起實體與本體的映射關系,采用實體匹配和模式匹配技術消除不同數據源的抽取值不同的數據噪音,這種本體融合技術既要融合本體中描述相同的客體的不同術語,也要融合相同客體的數據術語差異,客體、實體、本體形成唯一映射關系,不同源數據、不同結構數據融合成統一知識庫。這里本體的構建是根據科技智庫的需求,可以靈活調整數據詞典和數據模型,遵循科技活動的特征和分析需要(圖2)。融合后的大型知識庫根據科技智庫應用場景采用MYSQL關系型數據庫索引,并采用成熟的SPARK和HADOOP技術進行大數據運算。
3.2.4? 知識計算? 通過知識圖譜計算和推理,發現隱含知識、隱含關系和隱含趨勢。運用自然語言處理、機器學習技術和智能語義技術,對大規模協同合作知識庫進行知識運算和情報分析,發現科學知識圖譜中的隱含知識,包括知識之間的隱含關系、通過數據推理處理后的知識隱含規律和知識的關聯路徑等。通過鏈接預測可以發現知識的移動規律,包括科研機構、科技專家的流向與合作網絡關系。通過知識圖譜的知識計算可提供大量智能決策應用,比如智能化知識搜索,結合用戶智能畫像,提供個性化智能搜索結果;通過跟蹤前沿技術,發現知識組織關聯關系和脈絡趨勢;通過領域技術隱含關系可發現技術發展規律隨時間、地域和其他影響因素的變化等(圖3)。
3.2.5? 決策應用? 通過科學知識圖譜的計算和推理,可以實現科技智庫所需的多種智能化應用。本研究列舉的可視化分析,可以通過直觀的方式,呈現某領域核心技術隨時間演進的規律,從而預測領域技術的發展趨勢和市場對該領域技術需求的發展脈絡;智能檢索可以針對科技活動的相關要素和關聯關系,反饋科技智庫專家基于語義的檢索需求[18];隱含關系發現,可通過融合知識挖掘幫助科技智庫專家發現技術族、研發人員和研發機構的時間、空間、實體、虛擬等維度上的復雜合作關系;還可以提供擴展性應用,比如通過提取領域交叉技術,不確定性技術,產業低關注度企業高聚焦度技術等,輔助識別顛覆性技術[19]等。
4? 應用實證
基于本研究的科學知識圖譜,在垂直領域實證構建深海潛器裝備技術可視化知識庫,通過文獻計量算法和替代計量算法實施領域前沿技術跟蹤監測。主要進行核心研發專家和機構精準畫像、主體聚類分析和技術發展趨勢分析,通過可視化的方式全景掃描深海潛器領域的技術、專家、機構、合作網絡、熱點技術、高關注度技術和技術發展趨勢,供智庫專家深度分析識別領域發展態勢、隱含規律特征,提出未來發展策略等,其中通過融合替代計量知識庫,包括web新聞、Wechat、Twitter等動態信息,豐富了知識分析結論的動態屬性,突出跟蹤監測特征。
4.1? 精準畫像
專家和機構精準畫像如圖4所示,基于知識圖譜的計算,精準提取深海潛器領域專家和機構的知識特征和知識關聯描述特征,識別專家、機構的研究方向、核心貢獻、合作網絡和全球影響力。
4.2? 聚類分析
聚類分析圖如圖5所示,是基于文獻計量算法,通過詞頻分析、共詞分析、熱詞云圖和熱詞發展趨勢聚類分析,識別基礎研究前沿、技術發展前沿和高關注度技術前沿,以及基礎研究、技術發展和產業技術需求相互作用共同演化發展趨勢。
4.3? 趨勢分析
圖6趨勢分析圖是通過技術熱點分析、技術發展趨勢分析和技術發展歷程描述,計算推理深海潛器領域技術發展趨勢,同時本研究構建的知識圖譜提供了開放的模型,可以通過設定基礎研究前沿、技術發展前沿和媒體關注度的不同權值,模擬推演領域技術發展的未來圖景。
5? 結語
科學知識圖譜是圍繞科技智庫的戰略研究需求構建的可視化知識庫,是將各類獨立的、散亂的數據源、知識庫、網絡信息進行融合,按科技智庫定義的知識圖譜引擎進行索引,既提供文獻計量、專利分析等標準功能,又開發了聯合挖掘、深度分析、智能搜索等拓展計算功能,并提供可視化表達。本研究探索構建的科學知識圖譜,在垂直領域進行了應用實踐,基本功能實現很好,拓展功能上還有待進一步深入研究,尤其在科學知識圖譜與知識推理和人工智能技術的深度融合方面,極具應用價值。
參考文獻:
[1] 袁秀, 李培楠, 萬勁波, 等. 從知識到政策: 科技智庫的知識轉化機制[J]. 科技導報, 2019, 37(12): 9-13.
[2] 中共中央辦公廳、國務院辦公廳印發《關于加強中國特色新型智庫建設的意見》[EB/OL]. (2015-01-20)[2020-06-20]. http://www.gov.cn/xinwen/2015-01/20/content_2807126.htm.
[3] 吳新年, 孫成權. 學科情報研究與科研決策支持平臺建設構想[J]. 情報雜志, 2005(6): 14-16.
[4] 譚宗穎, 王強, 蒼宏宇, 等. 科技發展前沿信息監測與分析平臺的構建[J]. 科學學研究, 2010, 28(2): 195-201.
[5] 逯萬輝, 譚宗穎. 基于深度學習的期刊分群與科學知識結構測度方法研究[J]. 情報學報, 2020, 39(1): 38-46.
[6] 蘇曉娟, 張英杰, 白晨, 等. 科技大數據背景下的中英雙語語料庫的構建及其特點研究[J]. 中國科技資源導刊, 2019, 51(6): 87-92.
[7] 胡吉穎, 謝靖, 錢力, 等. 基于知識圖譜的科技大數據知識發現平臺建設[J]. 數據分析與知識發現, 2019, 3(1): 55-62.
[8] 王穎, 錢力, 謝靖, 等. 科技大數據知識圖譜構建模型與方法研究[J]. 數據分析與知識發現, 2019, 3(1): 15-26.
[9] AMIT S. Introducing the knowledge graph: Things, not strings[EB/OL]. [2020-07-10]. http://googleblog.blogspot.co.uk/2012/05/introducing-knowledge-graph-things-not.html.
[10] 湯建民. 學科知識圖譜的繪制及在學科發展監測與評價中的應用[J]. 情報理論與實踐, 2009, 32(10): 55-59.
[11] 劉則淵, 陳悅, 侯海燕. 科學知識圖譜: 方法與應用[M]. 北京: 人民出版社, 2008: 3-11.
[12] MCGANN J G. 2015 Global go to think tank index report[EB/OL]. [2020-07-19]. http://repository.upenn.edu/cgi/viewcontent.cgi?article=1009&context=think_tanks.
[13] 萬勁波, 李培楠. 國家科技智庫體系建設態勢及政策建議[J]. 數字圖書館論壇, 2017(3): 6-10.
[14] 于升峰, 肖強. 科技智庫戰略決策平臺構建研究[J]. 智庫理論與實踐, 2020, 5(1): 22-27.
[15] 秦佳佳. 淺探布魯金斯學會數據可視化應用及對我國智庫的啟迪[J]. 中國管理信息化, 2019, 22(14): 157-159.
[16] 王雪, 褚鑫, 宋瑤瑤, 等. 中國科技智庫建設發展現狀及對策建議[J]. 科技導報, 2018, 36(16): 53-61.
[17] 漆桂林, 高桓, 吳天星. 知識圖譜研究進展[J]. 情報工程, 2017, 3(1): 4-25.
[18] 牛海波, 趙丹群, 郭倩影. 基于BERT和引文上下文的文獻表征與檢索方法研究[J]. 情報理論與實踐, 2020, 43(9): 125-131.
[19] 王超, 許海云, 方曙. 顛覆性技術識別與預測方法研究進展[J]. 科技進步與對策, 2018, 35(9): 152-160.