林 珠,邢 延
(1. 廣東省科技基礎條件平臺中心 廣東省高性能計算實驗室,廣州 510033;2. 廣東工業大學 自動化學院,廣州 510006)
科研績效評估是指在科研活動完成后,按照預先設定的目標,對科研活動的實施過程、實施效果、完成情況及影響進行系統、客觀、公正地分析評價,并為今后的研發投入和決策提供意見或建議。2018年,我國政府發布了《中共中央國務院關于全面實施預算績效管理的意見》,明確我國將力爭用3~5年時間基本建成全方位、全過程、全覆蓋的預算績效管理體系,實現預算和績效管理的一體化,提高財政資源配置效率和使用效益[1]。
目前,科研績效評估通常針對各類科研工作制定評估體系,并需專家進行分類分項評估,加權綜合后形成統一的評價結論。然而,隨著績效數據類型和數量的不斷增加,傳統的專家評估方法急需改進。(1)數據來源日趨豐富,數據量急劇提升,使得評估時間和效率面臨極大挑戰;(2)科研績效評估體系的各評估環節雖相互關聯,但所運用的評估規則不盡相同,使得各環節形成的專家知識難以相互融合指導;(3)數據類型和各機構間的數據記錄大多相互關聯,隱藏更深層次的知識,難以進行精準評估[2]。
針對上述問題,本文根據科研績效數據類型多樣、知識稀疏、數據量龐大等特征,融合基礎知識、專家經驗和外延知識構建面向科研績效評估的多源融合知識圖譜,與專家評估相輔相成,完善評估結論,對科研績效評估工作的強化具有實際意義。
為更加精準、高效地進行科研績效評估,廣大科研績效評估工作者逐步引入大數據與人工智能技術進行輔助評估。知識圖譜作為一種大規模知識表示、反映知識關聯性的人工智能技術,能夠在績效評估過程中高效識別關聯信息,被廣泛地應用于科研績效評估領域。
目前,我國已形成了較為完善的科研項目績效、高??蒲锌冃А⒅攸c實驗室績效、新型研發機構等評估體系[3-5]。趙志耘等人[6]基于大數據分析方法,對中國科技創新圖譜進行了研究,對輔助科技創新管理與決策具有參考價值;劉愛辰[7]針對國內高校項目立項決策過程繁瑣、項目全生命周期管理把控能力弱等問題提出了一種在高??蒲泄芾硇畔⒒ㄔO領域使用大數據技術的方法;邱棟[8]設計了一種改進的知識圖譜方法,對福建省部分戰略新興產業進行專利分析,并為區域科技發展與管理提供參考。
國外專家學者同樣關注到現有科研績效評估方法需要知識圖譜相關技術的支撐。Hachey 等人[9]對專家經驗進行了數據編輯,并形成了將實體加入到知識庫中構建知識圖譜的方法;Medina 等人[10]通過應用引證網絡等方法對待定種子期刊進行了識別,并證明該圖譜相對于傳統的期刊分類系統具有一定優勢。
綜上,知識圖譜已廣泛應用于眾多領域,并取得了諸多成果,而對相關領域的知識整理也越來越離不開知識圖譜的支持。
為更真實、客觀地反映科研績效的實際情況,除分析投入與產出效益外,需從以下角度對科研績效進行評估。
影響科技資源利用率,提高科研績效的因素有許多,政策扶持、研究熱點、機構特征、科研壓力、激勵制度等均在一定程度上影響著科研績效。
目前,科研機構的科研績效評估工作通常根據團隊規模、優秀研發人才數量、投入資金設備數量等指標進行評估,其評估結果是進行科研機構考核等級劃分的重要依據,如優秀、合格等;通常情況下機構的等級越高,其獲得的資源配置(例如科研獎勵)越多,相應的產出也越多。
科研機構具有較為穩定的研究方向和內容,才能在某一領域持續發力,取得良好的科研效益。
因此,為更好地表達科研績效評估各組成部分的關系,本文通過構建多源融合知識圖譜來實現科研績效評估要素的關聯,在研究科研投入和產出間的關聯信息的同時,挖掘科研績效的隱性知識,使評估更加客觀、全面。
科研績效評估數據主要包括基礎數據、經驗數據和外延數據?;A數據是指科研機構在工作中收集的科研類型、分布、項目信息、投入信息和科研產出信息等;經驗數據為以往科研機構參與績效評估時所積累的專家評估信息;外延數據為網絡信息中能夠獲取的體現該機構科研成果的數據信息。各類數據間具有緊密的關聯性,例如:專家評審等經驗數據是在基礎數據的支撐下,從大量的評估工作中獲得的。
本文基于上述多源數據建立面向科研績效的多源融合知識圖譜,其實體節點與關系能夠反映科研績效評估內容關聯。知識圖譜多元融合過程如圖1 所示。

圖1 面向科研績效的知識圖譜多源融合過程
(1) 根據元數據標準、通用知識圖譜的本體結構、學科領域專家意見等信息,形成科研績效評估領域本體,其中,科技元數據標準參考國家標準《科技平臺資源核心元數據》等系列標準;通用知識圖譜本體結構采用Freebase 中N-Triple RDF 格式所形成的基礎三元組;學科領域專家意見是指在構建本體中咨詢多領域評估專家意見,在面向科研績效評估時通常需包含哪些方面的信息,從而使本體的基礎架構更加全面。在領域本體構建后,可用其指導3 類數據源的數據清洗和知識提取。
(2) 基礎數據通過知識提取和數據清洗形成標注知識,同時為外延數據的處理提供訓練數據;專家評審等經驗數據通過數據清洗和知識提取形成經驗知識;外延數據通過信息抽取和數據清洗等方法形成擴充知識。
(3) 經驗知識、標注知識進行知識合并后,形成基礎知識圖譜,擴充知識對基礎圖譜進行知識補全,最終形成面向科研績效的多源融合知識圖譜。
(1)基礎數據
本文采集了某省份200 多個科研機構從2012~2015 年的相關數據作為基礎數據,共 124524 條數據,具有93 個屬性值。主要屬性有科研機構的名稱、類型、成立時間、人才團隊等。其中,用于統計科研投入產出效益情況的數據有47422 條數據,具有43 個屬性值,主要包括項目、獎勵、專利、論文、產品等信息。
(2)專家經驗數據
專家經驗數據主要來源于相關學科領域的專家意見及經驗,本文采用某省2012~2015 年部分科研機構考核評估中專家對其科研成果產出、科研活動開展等情況評審的結論和意見,這些專家經驗數據往往基于已制定的考核評估體系。
(3)外延數據
外延數據的來源主要利用基于Python 3.6 編寫的網絡爬蟲軟件在各科研平臺進行科研相關數據抓取。數據集采集完畢后,根據各科研單位研究的學科領域方向及其近年來發表的論文關鍵詞進行關聯規則分析,針對計量單位或數據表達格式不統一的問題,本文應用Python 3.6 中基本數據處理方法和咨詢專家并人工修訂相結合的方法進行修改。
本文使用Python 軟件進行編碼,分別對基礎數據、專家經驗數據的中文表達進行了規范化顯示;對數據集進行數據預處理后,通過關聯分析得到最大頻繁項集;對數據集進行基本整理后,將該數據集導入到Neo4j 圖數據庫中,對數據重復部分使用Neo4j 圖數據庫的import 指令進行處理;參考專家建議對歧義消除部分進行人工處理;通過手動構建的人工編輯方式進行知識加工。面向科研績效的基礎知識圖譜如圖2 所示。

圖2 面向科研績效的基礎知識圖譜
該圖譜能反映科研機構、項目、科研人員、研究內容之間的數據關聯,反應傳統評估方法的基本內容和關注點。
以基礎知識圖譜和外延數據進行關聯分析后的知識作為輸入,通過知識補全技術,形成更加全面的科研績效評估知識圖譜。知識補全主要進行實體和關系的補全。例如,某科研人員在基礎數據中缺失的科研成果,可在外延知識中進行挖掘和發現,再歸并到相關節點。將最終提取的知識利用Neo4j 軟件的import 指令進行處理,從而實現知識的補全,形成面向科研績效評估的多源融合知識圖譜。該知識圖譜能直觀地反映科研單位各屬性間的聯系,從外延知識中新增了機構與成果間的支持度、論文關鍵詞等屬性,同時,可從科研機構形成的科研成果產出類別及數量,判斷研究方向是否具有穩定性。經知識補全后的多源融合知識圖譜如圖3 所示,其內容與圖2 相比更加豐富,關聯性更加突出。

圖3 知識補全后的多源融合知識圖譜
多源融合知識圖譜中每個實體節點的標簽都包含了各屬性對應的數據信息,具體節點內容如圖4所示。

圖4 知識圖譜中某實體節點包含的數據信息
(1) 該圖譜包含了跟科研績效相關的大量信息,可加速專家在考核評估中獲取信息的效率,使其對問題的評估更加全面;
(2) 該圖譜有益于挖掘信息的關聯,當專家想針對某方面信息進行考察時,通過圖譜可快速地了解該實體節點所關聯的信息;
(3) 該圖譜能快速地發現和定位科研機構中存在的問題,在針對科研機構的實體節點中,某些機構含有大量的產出信息,某些機構則極少,易發現機構間的差異,同時,其關聯信息中也能體現某項科研實力的強弱。
綜上,知識圖譜的構建有益于開展科研績效投入與產出分析,評估效益影響因素、績效評價合理性和研究方向穩定性等,對科研績效評估工作具有參考意義。
本文針對現階段科研績效評估數據量大、關聯性強和隱藏知識不易發現等問題,設計了一種面向科研績效評估的多源融合知識圖譜。該圖譜融合了大量科研機構評估過程中形成的基礎數據、專家評審過程中的經驗數據及網絡爬取的外延數據,通過數據層面的融合形成更加可靠、全面的面向科研績效評估的多源融合知識圖譜。該知識圖譜的構建能更好地輔助和支撐當前的科研評估活動,使得評估更加客觀、全面。