■ 陳挺 冷伏海 惠仲陽 葉京 葛春雷 李宏 黃龍光 陳曉怡
中國科學院科技戰略咨詢研究院 北京 100190
在海量信息匯聚與學科交叉融合的時代,智庫提供決策咨詢時需要科學詢證并預測研判未來發展趨勢,需要基于更加全面的數據和客觀事實作為判斷依據。情報監測借助專業的方法、工具和團隊,在數據檢索與收集、信息提煉與揭示、結合專家意見進行綜合研判時都具有充分的優勢與長期的經驗,基于情報監測產出的產品包括數據集、監測報告、調研報告、專題研究報告乃至決策建議報告,貫穿智庫DIIS 全過程,為智庫決策提供了有力支撐。
以國家高端智庫中國科學院科技戰略咨詢研究院為例,其科技戰略情報研究所建立了一支多國別、多學科、多領域研究背景的建制化情報團隊,通過矩陣式分工對重點國家、重點前沿科技領域、科技政策專門領域進行長期的情報監測,以主要國家、主要機構發布的公文、法律、報告、數據為來源,從科技體制、科技投入、科技人才、科技評估、科技合作、產業創新以及科技領域等維度進行跟蹤監測與趨勢研判,產出《科技政策與咨詢快報》、《科技前沿快報》、《全球基礎研究重點領域動態》等動態監測報告,疫情期間產出了世界主要國家抗擊新冠疫情系列報告等針對突發事件的應急調研報告等。在國家急需解決的問題上提供了中立、客觀的依據與可信服的判斷,得到了決策者的高度認可,充分說明情報監測是智庫服務決策值得依賴且行之有效的方法。
正如中科院戰略咨詢院潘教峰院長在光明日報文章中提到,智庫研究往往是綜合復雜的問題,需要建立持續積累的數據資源庫、方法工具庫、專家人才庫,需要大力發展基于新一代信息技術的深度數據分析工具[1]。隨著時間累計,情報監測團隊日常監測內容越來越多,各種多源異構、結構化、非結構化的情報數據不斷累積,傳統的情報監測與分析方法難以應對海量數據、不易挖掘深層信息。情報研究人員很難快速地針對海量信息展開分析,無法從中更加深入挖掘隱含的規律與不易被察覺的事實。下至情報研究人員、上至科技決策者面對海量、復雜、異構的情報信息以及極高的反饋時效性要求,都急需工具進行信息挖掘與關聯分析,從而快速分析出情報對象的結構、關系和來龍去脈。
近些年以來,為了處理海量數據,挖掘其潛在價值,全球各大研究機構和科技公司依靠語義網、Linking Open Data 等知識組織與知識抽取項目構建了各類全景知識圖譜與領域專用知識圖譜。知識圖譜具有直觀、定量、高效和知識發現等諸多優點,將這一知識抽取利器引入科技情報監測與分析中,可以幫助情報分析更具客觀性、可靠性和有效性,并且優化科技情報服務效果。然而,知識圖譜這一新興工具引入國內的時間還不長,在我國科技情報研究中的應用還非常有限。因此,有必要就知識圖譜在科技情報研究中的應用開展基礎性研究,探索其獨特模式,從而為知識圖譜在情報研究中的實踐應用提供理論基礎和方法依據。本研究總結了情報監測的科技政策文本中支撐情報分析的關鍵要素,嘗試提出基于政策要素的知識圖譜模型并初步構建了情報監測政策圖譜,探索基于智能計算的政策分析方法。
從最初的Google 搜索,到現在的聊天機器人、大數據風控、智能醫療、自適應教育、推薦系統,無一不跟知識圖譜相關。醫學領域是知識圖譜建設與應用最前沿的研究領域之一,一方面醫療信息化的發展累積了海量的醫學數據;另一方面醫學領域知識本體數據庫的建立相對規范,為醫學知識圖譜的構建打下了堅實的基礎[2]。比如IBM 研發的Watson Health 醫學知識圖譜[3],每秒能完成267 篇非結構化醫學文獻的知識自動抽取,并已在多個醫療領域輔助醫生診斷與治療;再比如由美國NIH主導的醫學知識圖譜項目SNOMED-CT,存儲了35萬個醫學實體,每個實體都有幾十個甚至上百個屬性描述[4]。此外在圖書情報領域,一些科研院校與科學成果出版商已開始以科技文獻數據作為基礎資料進行知識抽取與知識圖譜構建。如清華大學AMiner 平臺利用信息抽取方法從海量文獻及互聯網信息中自動獲取研究者相關信息,包括教育背景、基本介紹等,截至2019年平臺上已收錄2.3 億論文、1.3 億研究人員、800 萬概念和7.5 億引文關系[5];Taylor & Francis 出版集團開發了知識圖譜工具Wizdom.ai, 涵蓋了9000 萬出版物、1 億專利、5800 萬作者、8萬機構、6億概念映射和42億事實[6];上海交通大學Acemap 團隊的AceKG 學術知識圖譜收集了1.1 億學術實體,包括6100 萬論文、5200 萬作者、5 萬研究領域、1.9 萬機構、2.2 萬期刊等,為每個實體提供了豐富的屬性信息,并在網絡拓撲結構的基礎上加上語義信息,可以為眾多學術大數據挖掘項目提供全面支持[7]。
科技情報與科技政策方面的知識圖譜研究還相對處在起步階段,情報學與計量學中廣泛應用的“科學知識圖譜”其實是一個“簡版”的知識圖譜。每個學術對象比如作者、機構或者論文代表一個實體。通常利用科技分析對象之間的共性關系如引文共引、關鍵詞共現等構建“文獻計量圖”(Bibliometric mapping),通過圖譜挖掘、分析和展現知識之間的相互聯系,顯示知識演化進程和知識結構。中科院戰略咨詢院科技戰略情報研究所在“科學知識圖譜”領域有較長時間的耕耘,深知它與基于真實世界最直觀的知識本身的“知識圖譜”有著本質區別。“科學知識圖譜”無法存儲多種類型的分析對象或者實體,也無法展示實體間的真實關系,只能體現歸一化后的強度值,因而無法揭示多種分析對象間深層的關聯關系。
而真正的知識圖譜不再將科技政策存儲為文本文件,而是運用節點和關系組成圖譜,構建結構化的語義知識庫,以符號形式描述物理世界中的概念及其相互關系,為真實場景直觀建模。知識圖譜的基本組成單位是“實體-屬性-關系”,構成網狀的知識結構,融合碎片化信息,建立領域知識模型,挖掘復雜關聯關系并傳遞影響,輔助智能決策。相比傳統數據存儲和計算方式,知識圖譜擁有以下優勢:
1.1.1 對關系的表達能力強
傳統數據庫通常只能以表格、字段等方式進行讀取,而知識圖譜中關系的層級及表達方式多種多樣,且可以基于圖論和概率圖模型處理復雜的關聯分析,滿足各種實體之間關系分析和管理的需要。
1.1.2 像人類思考一樣去做分析
基于知識圖譜的交互探索式分析,可以模擬人的思考過程去發現、求證、推理,業務人員可以嘗試自己完成全部過程,減少甚至不需要專業人員的協助。
1.1.3 知識學習
利用交互式機器學習技術,支持根據推理、糾錯、標注等交互動作的學習功能,不斷沉淀知識邏輯和模型,提高系統智能性,將知識沉淀在業務邏輯內部,從而降低對專家經驗的依賴。
1.1.4 高速反饋
圖式的數據存儲方式與傳統方式相比,數據調取速度更快,反饋速度也更快。圖庫可計算超過百萬潛在實體的屬性分布,可實現秒級返回結果,真正實現人機互動的實時響應,讓用戶可以做到即時決策。
本研究對戰略咨詢院情報所監測的情報內容進行了一次知識化組織嘗試,提出一種面向情報分析的科技情報知識實體模型,將情報人員定期監測的科技情報內容基于情報分析的邏輯進行實體抽取與關系組織,初步形成科技情報知識圖譜,在圖譜的基礎上嘗試了情報監測內容的智能檢索與輔助分析。圖1為科技情報知識圖譜的構建流程示意圖,首先對情報人員收集的各國科技政策情報進行知識標注,標注內容包括其中涉及的技術、應用方向、技術所屬領域、研究機構等。再根據科技情報知識圖譜本體模型對抽取的知識內容進行關聯組織,形成專用的知識圖譜,支持后續的智能檢索、演化分析、關聯分析等。其中專用知識圖譜本體模型是一切后續工作的基礎,本文以科技政策知識圖譜為例,基于對情報分析涉及要素的抽象與歸納,設計了本體模型。

圖1 科技情報知識圖譜構建流程示意圖
知識圖譜本質上是一種語義網絡,將客觀經驗沉淀在巨大的網絡中,其中結點代表實體(Entity)或概念(Concept),邊(Edge)代表實體/概念之間的語義關系。所謂知識建模就是對數據中所含的知識進行抽象和歸納。一個知識圖譜本體模型就相當于一個特定領域的數據模型,包含了領域內有意義的概念、實體類型及其屬性,通過知識圖譜本體模型(Schema)定義概念、實體和關系是知識圖譜的重中之重,是能否支持后續深度分析的關鍵。知識建模通常有以下幾個步驟:(1)整合數據源,對不同來源的數據進行映射與合并;(2)抽象知識實體,確定數據源中最重要的實體并進行抽象歸納,確保能夠支持未來的檢索與分析;(3)完善實體屬性,利用屬性來提供實體的輔助信息,對實體進行全方位描述;(4)定義實體間關系,利用關系來描述各類抽象實體間的關聯關系,從而支持基于圖的關聯分析。
本文針對戰略咨詢院情報所監測的世界主要國家科技投入政策情報,提出一個科技投入政策知識圖譜本體模型,將分析要素進行抽象與歸納,并圍繞情報分析需求來設計模型中的實體與關系,從而滿足業務需求與應用場景。如圖2 所示,科技投入政策知識圖譜本體模型中包含實體、屬性與關系。實體為圖中的7個圓球,包括:國家、投入項目、投入資金強度、關鍵核心技術、技術所屬領域、技術應用方向、參與研究機構。這些均為情報人員最關心的科技情報分析要素。每個實體都有必要的屬性描述,如項目的立項時間、所屬國家等。模型還定義了實體與實體之間的7種關聯關系,包括“發布”、“包含”、“屬于”、“投資”、“應用于”、“研發”等,并為部分關系標記了屬性,比如“國家-發展-領域”這組實體與關系中,“發展”這個關系上就標記了年份與國家屬性,便于未來篩選分析。由于時間關系,本文撰寫時“應用方向”與“參與機構”兩個實體尚未完成數據抽取,本研究將會在未來繼續完善。上述這些實體與關系是科技投入政策領域中情報監測最核心的內容,也是情報分析人員與科技決策者在做相關研究或決策時最關心的內容。通過對以上情報監測內容的知識抽取與組織,希望能夠支持后續的深度檢索與分析。

圖2 科技投入政策知識圖譜本體模型示意圖
與傳統數據庫不同,知識圖譜不再將科技政策存儲為文本文件后以字符串匹配的方式進行檢索,而是提取分析要素,把節點和關系以圖的形式存儲在圖數據庫(Graph Database)中。圖數據庫以圖論為理論基礎,以節點和關系為基本元素,以網絡圖的形式為真實世界直觀地建模,支持百億量級甚至千億量級規模巨型圖的高效關系運算和復雜關系分析。因為圖譜中的實體與真實的分析需求內容一致,形成網絡圖后能將原本沒有聯接的離散數據整合到一起,能夠幫助情報人員發現關聯信息,甚至得到一些不易挖掘的深層次知識,提供更有價值的決策支持。
本文構建的知識圖譜采用圖數據庫中應用最廣的Neo4j 數據庫[8]進行儲存,以保障數據的快速檢索與分析。截至2020年10月,本文對美國、英國、法國、德國、日本和韓國近年的24 篇科技投入政策進行知識抽取與組織,根據知識圖譜本體模型提取情報人員最關心的分析要素,用“實體-關系-實體”三元組的形式儲存。通過對優先發展技術、技術涉及領域、資助項目、資助金額等實體的抽象與關聯,初步形成了基于國別的科技投入政策知識圖譜,共有實體122個,實體關系243條。
本研究尚處在起步階段,下面就部分完成的科技投入政策知識圖譜設計兩個實際分析案例,演示知識圖譜在情報分析或政策分析中的應用場景。
實例分析1:近年來美國科技政策中計劃資助哪些領域,領域中重點發展何種技術?
知識圖譜最常見的功能就是快速檢索并通過結構化可視化的形式呈現,讓用戶直觀快速地獲得想要的答案。比如回答近年來美國科技政策中計劃資助哪些領域,領域中重點發展何種技術?由于知識圖譜本體模型中已經包含了國家、領域、技術以及這些實體之間的關聯關系,因此可以通過簡單檢索式將國家、領域、技術、時間(年)這4 個分析要素查詢出來,以結構性可視化形式展示它們之間的關系。檢索式與可視化展示結果如圖3所示。
圖3 中每個圓球為科技投入政策知識圖譜中的實體,共3種。其中紅色圓球代表國家,綠色圓球代表科技投入政策中提到的技術方向,粉紅色圓球代表技術方向所屬的領域。圓球之間的連線代表了實體之間的關系,國家到領域之間的關系為發展關系,領域到技術之間的關系為包含關系。科技投入政策中發展技術的時間信息放在了領域到技術之間的關系屬性上,為了提升可視化效果,圖3 把時間數據標記在關系鏈接上。將部分數值型數據記錄在關系鏈接的屬性上是知識圖譜獨有的特性,這樣既可按照時間篩選對應數據,又可以在添加新實體的情況下直觀展示更多信息。
通過知識圖譜返回的查詢結果,可快速直觀地了解美國近年來科技投入政策主要涉及5 大研究領域,包括能源、醫療健康、空間、工業和國家安全,每個領域下重點發展若干種技術。此外還有哪些深層次的、不容易被人注意的信息可以從查詢結果中得出?以下為2條關聯分析結果:
(1)人工智能實體處在圖譜的中心位置,因為它被3個領域同時列為重點發展技術,是所有美國技術實體中最多的,并且該實體有5 個年份的鏈接接入(Degree),也是所有技術實體中最多的。說明對美國來說該技術的重要度高于其他技術。

圖3.科技投入政策知識圖譜中美國、領域、技術等要素檢索結果的可視化展示(左下方為檢索式)
(2)美國在國家安全、工業與空間三個領域中重點發展的技術較多,國家安全與工業領域共同發展的技術最多,共有自主系統、微電子、量子信息等5 項。說明美國這兩個領域發展路徑或者發展目標比較相近。相關情報研究人員或者科技決策者在分析時可能需要將這兩個領域統籌考慮。
實例分析2:近年來法國科技投入政策中計劃發展哪些技術群?
實例1分析了美國科技投入政策中科技領域和技術的情況,實例2以法國為例,在檢索式的國家、領域、技術3 個實體之外,增加了科技項目和資助金額2 個實體,共涉及5個實體,展示了更多的實體及其關聯關系,具體檢索式見圖4。新增的黃色圓球代表技術實體所屬的科研項目,藍色小圓球代表該項目獲得的資助金額,在圖中以億歐元為單位儲存。實體種類增加后,檢索結果中同時增加了所屬項目和資助關系兩個關聯關系。檢索實體與關系的增加,使圖譜看起來更復雜,但卻可能從中發現更多的隱含信息。

圖4 科技投入政策知識圖譜中法國、領域、技術、項目檢索結果(左上方為檢索式)
相比美國,法國科技投入政策提及的發展領域有4個,包括工業、醫療健康、能源和農業,前三個領域也是美國關注的重點領域。但與美國不同的是,法國圖譜中工業與醫療健康兩個領域非常接近,因為它們之間有大量的技術與科研項目重合。所有技術實體內人工智能技術依然處在圖譜中最重要的位置,與醫療健康、工業兩個領域產生了5 個關系,同時與5 個資助項目相連。這五個項目包含了綜合性項目、人工智能項目、信息與納米項目和醫療項目等各類型項目,總資助金額高達245 億歐元,可見人工智能在法國科技投入中的重要程度遠遠超過其他類型技術,這一結果也符合法國近年來的國家優先發展戰略。除人工智能技術外,大數據技術是關聯連接第二多的節點,被3 個項目列為重點發展技術。
除了重要節點分析外,我們還可以運用圖結構的社團劃分對圖譜進行深入分析,尋找哪些技術可能有更高的相關性,這些技術常常需要同時發展才能使這個領域有顛覆性發展。分析目標國家的技術群落可以為科技政策分析提供一個參考角度。在圖結構中,因為每個節點都被其相關節點相互牽扯,相同關系越多的節點往往會聚集在一起。通過對法國科技投入政策知識圖譜的觀察,我們發現有3個明顯的技術群,分別是醫療健康技術群、工業制造技術群和能源技術群。醫療健康技術群包括新一代網絡、生物數字化、人工智能、大數據、納米、癌癥治療等6 項技術。工業制造技術群包括先進材料、超級電容器、新型器件、新型計算等4項技術。能源技術群包括智慧城市、新能源、能源儲存等3 項技術。這3 個技術群是只考慮法國一個國家的情況,未來我們還可以將全部目標國家統一考慮,得出更完整的分析結果。
針對情報監測數據缺乏智能化處理技術的現狀,本文嘗試使用知識圖譜的方式解構科技政策情報,提出了針對特定情報監測內容的知識圖譜本體模型,根據已收集的數據源構建了國際科技投入政策知識圖譜,包含了國家、研究領域、優先發展技術、資助項目、資助強度等實體,并利用兩個實例演示了基于知識圖譜的情報檢索與分析效果。
然而情報監測數據的知識化研究尚處在起步階段,還有許多不足,有待未來進一步改進:(1)完善情報知識庫的建設。現階段仍缺少對應的知識庫,無法進行自動大規模的實體標注;(2)完善知識圖譜本體模型設計,現有的模型還是相對簡單,無法支持更細致的情報分析需求,未來將與情報分析流程更緊密地結合,并與專家智慧進一步結合;(3)增加數據源,擴張知識圖譜;(4)多圖聯動的知識圖譜可視化展示;(5)引用圖挖掘與圖計算算法,進一步完善基于知識圖譜的智能情報分析算法。比如在構建完成政策要素知識圖譜后,考慮如何基于知識計算來輔助科技決策。我們已經可以通過圖譜的圖查詢快速獲取政策要素概覽,因此這部分的研究重點在于政策要素隱含關系的發現。未來除了運用經典的圖挖掘算法比如最短路徑、權威節點挖掘、網絡社團劃分等方法外,我們還計劃利用深度學習數據將知識圖譜的異質網絡結構作為神經網絡的學習樣本,在高維空間重塑網絡結構,生成基于政策要素圖結構的空間特征,在高維空間中進行關聯預測、政策要素聚類,從中發現潛在的政策要素關聯。