






關鍵詞: 三層數據治理; 青年科技人才; 人才畫像; 知識圖譜; 知識服務
DOI:10.3969 / j.issn.1008-0821.2024.10.009
〔中圖分類號〕G203; TP391.1 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2024) 10-0103-12
科技人才是推動創新發展的第一資源, 青年科技人才是我國科技事業發展的中堅力量。習近平總書記強調, “把培育國家戰略人才力量的政策重心放在青年科技人才上, 給予青年人才更多的信任、更好的幫助、更有力的支持, 支持青年人才挑大梁、當主角”[1] , 培養、使用好青年科技人才成為國家及地方人才高地建設的重要課題, 研究青年科技人才群體及個體特征, 構建青年科技人才的知識圖譜,繪制人才畫像, 對于培養和用好青年科技人才有著重要的意義。本文以多源科技數據融合為支撐, 建立具有實體關聯的青年科技人才資源池, 探索構建知識圖譜和精準畫像, 實現不同領域高潛質科技人才的智能化識別和知識服務, 為青年人才脫穎而出創造良好環境, 促進社會發展。
1研究現狀
1.1青年科技人才概念與特征識別
科技人才主要是指實際從事或有潛力從事系統性科學和技術知識的產生、促進、傳播和應用活動的人[2] , 具有高度創新創業意識、創新創業精神、創新能力、能創造性解決問題的能力[3-4] 。青年科技人才是在40 周歲以下(含40 周歲), 接受過良好的教育和學術訓練, 具有強烈的創新愿望, 具有較為突出的創新能力和科研潛力的科技人才[5] 。國內外學者對青年科技人才成長進行了大量研究, 基于社會學、心理學等角度, 對以下特征進行了探討。
從成長經歷角度研究。Zuckerman H[6] 針對美國諾貝爾獎得主開展的社會學研究, 開啟了科技人才成長規律研究之先河; Simonton D[7] 認為, 家庭背景和教育成就是影響科學家群體科學創造力的重要環境因素; 張建衛等[8] 發現, 高等教育經歷的連續性、高成就導師引領對青年副教授階段的職業晉升具有顯著影響。因此, 青年科技人才一般具有良好的家庭教育和連續教育背景, 具有高成就導師引領和終身學習能力。從科研環境角度研究。Ca?ibano C等[9] 探討了流動性與研究成果之間的聯系, 發現大多數國際流動性強的研究者通常更容易獲得國際項目資助和國際網絡; Stephan P E 等[10] 發現, 大部分諾貝爾獲獎者從青年時代就開始從事相關研究,在化學、物理領域特別明顯; 陳建俞[5] 發現, 終身學習是促進青年人才成長的必要條件, 學術環境對青年科技人才的成長有著重要影響, 青年科技人才流動性也不大; 王佳勻等[11] 發現, 青年學者一般具有良好的國內外聯合培養經歷和科研經歷。因此,青年科技人才大多數在環境優越和相對穩定的條件平臺下工作, 如果參與到強有力的科研團隊且具有國際合作經歷, 則協同創新能力更強, 優越的科研團隊、文化、制度都將正向激勵人才發展。從創新能力角度研究。陳韶光等[12] 構建了優秀中青年科技人才評價體系, 通過專家咨詢認為科研工作成績是重要特征, 學術造詣、選題能力、承擔課題和科研成果等指標權重較大;牛斌[13] 開展了青年科技人才指標調研, 問卷回收結果顯示創新能力最重要,而科研項目、成果專利、論文收錄指標提及率達到90%以上。因此, 青年科技人才具有較強創新能力,能積極參與國內外科研課題與成果轉化, 項目、論文、專利都從一定程度上予以反應。從不同學科領域研究。陳建俞[5] 對2012—2020 年國家自科基金優青人才學科專業領域進行分析, 人才學科專業領域分布不均, 工程材料、生命科學、信息、化學專業占比最多, 且不同學科專業領域的青年科技人才早期成長速度不同。因此, 不同學科背景在教育經歷、境外交流、產出成果的體現上都各不相同, 應把握不同學科特征, 分類培育, 差異化管理。
1.2基于科技大數據的知識圖譜
科技大數據不同于傳統期刊論文數據, 也不同于一般意義上的網絡及行業大數據, 數據內容包括各學科內的記錄數據、資料、文獻、報告、網絡科技報道等科技成果數據, 科技項目、學術會議、科技人才、科研機構、科技獎項、科技主題、科技概念、研究設備、研究模型、研究方法等科技實體及科技活動數據, 以及科技領域特色數據[14] 。各類結構化、半結構化、非結構化的科技數據資源, 為科技大數據知識圖譜構建提供數據支持, 數據融合治理過程中涉及實體抽取、實體消歧、關系抽取、關系推斷等問題[15-16] 。張勇等[17] 以科技論文為例,構建了涵蓋元數據獲取、記錄鏈接、關聯的元數據倉儲體系。黃琪等[18] 將元數據標準化加工后, 將元數據關聯特征項分為外部特征、內部特征和共享特征, 進行科技資源關聯聚合。李宗俊等[19] 以檢驗檢測、研發設計需求為導向, 研究儀器設備和實驗動物實體屬性關系, 構建科技服務資源元數據和資源池。
2012年, 谷歌提出知識圖譜技術概念, 將其應用于語義檢索、智能推薦、智能問答等方面[20] 。近年來, 隨著大數據云計算技術不斷完善, 國外搜索引擎、數字出版等龍頭企業紛紛開始建設各類知識服務平臺。Springer Nature[21] 不斷從期刊、文章、臨床試驗、會議系列、事件、引用網絡等方面擴展數據, 其目標是創建學術領域最先進的關聯數據聚合平臺。Elsevier 基于論文、圖書、引文、作者、機構、基金、化學物質、藥物、EHRs 等多源數據構建面向生命科學和醫療健康研究的知識圖譜[9] 。Tahir Mansoori構建的Wizdom.ai 通過對相關數據進行分析, 向科研人員提供全球新興的熱點和研究趨勢、最前沿的研究機構和人員、引文推薦、個人研究圖等[22-23] 。在我國, 清華大學開發了AMiner,上海交通大學發布了Acemap, 中科院文獻情報中心開發了中國科學院知識服務平臺, 從專利期刊、期刊報告等多維度組織學者和機構實體畫像[24-26] 。
人物畫像是知識圖譜應用比較廣泛的場景之一。許明英等[27] 提出, 從論文數據生成科研團隊立體畫像, 包括科研團隊識別、科研團隊研究主題預測、精準立體畫像。馮嶺等[28] 應用專利數據,從專利數據中抽取發明人的各個特征, 構建多層感知機模型, 發現技術創新人才。武帥等[29] 從海量科技文獻數據進行信息融合關聯, 結合人才評價指標體系, 建立人才創新能力自動感知方法模型, 并在機器人領域予以應用。
通過對現有科技文獻和平臺系統可以發現, 當前研究缺少以青年科技人才為實體對象, 關聯論文、期刊、項目、機構、平臺等多源科技數據, 建立分領域分層級的科技人才數據資源池; 同時由于各領域創新特點不同, 人才科研成果體現形式也有所不同, 缺少以挖掘發現高潛青年科技人才為目的, 分領域智能化精準描繪相關備選人才的知識服務系統。因此, 筆者基于國內外研究成果, 從成長經歷、科研環境、創新能力、科技領域凝練青年科技人才特征, 構建知識圖譜本體模型。
2青年人才知識圖譜本體構建
國家標準《科技人才元數據元素集》[30] 從科技人才基本信息、工作履歷、社會任職、教育培訓、獎勵、榮譽、課題項目、專著、論文、專利、科技報告、科研誠信等維度, 規定了科技人才元數據標準。重慶出臺地方標準[31] , 從專業資質、代表論文、著作、知識產權、科研項目、科技獎勵來體現科技人才的非核心元數據實體。朱焱等[32] 基于用戶畫像, 以學者為中心,構建了涵蓋學者與論文、項目、任職單位、研究領域、研究方向、合作作者等實體關系的知識圖譜。趙偉等[33] 從創新知識、創新技能、影響力、創新能力、創新動力、管理能力等方面構建基礎研究、工程技術和創新創業人才評價體系。本文參考國內人才數據標準及用戶畫像指標體系, 基于青年科技人才的特征, 構建相關知識圖譜本體, 如圖1 所示。
1) 實體類型。青年科技人才是從科技人才庫中獲取的40周歲以下對象, 是知識圖譜本體構建的核心, 圍繞成長經歷獲取的個人基本履歷信息是實體之一, 其中包括人才的工作經歷和學習經歷; 根據科研環境特點屬性, 實體類型包括機構、科研平臺、合作團隊3類信息實體; 根據創新能力特點屬性, 實體類型包括科技項目、獎勵、論文、專利。
2) 實體關系。本研究定義了對象屬性來描述科技人才知識本體中實體之間的關系。其中以人才實體出發, 基本信息中的工作經歷和學習經歷是個體人才的履歷; 單位機構、科研平臺是人才實體工作的環境, 企業/ 機構、科研平臺共同構成人才經歷, 合作團隊體現人才的科研合作網絡, 合作團隊包括企業/ 機構、科技平臺內部科研團隊、與外部機構的產學研合作團隊及師生團隊; 獎勵、論文、專利、科研項目是人才產出的科研成果, 都體現了人才的創新能力; 將人才的科研成果按照主題詞進行分類, 可以從產業、學科、科技領域多維度體現領域特征。
3青年科技人才畫像系統平臺設計
3.1基于三層數據治理的青年科技人才知識圖譜系統設計
數據治理是指有關數據采集、加工、控制、傳輸、保存等活動,本質是實現數據組織結構的規范、數據價值的涌現, 決定著數據建設的成敗[34-35] 。數字環境所帶來的元數據種類、層級、來源、渠道、形態和格式不同, 帶來了多源異構數據融合、元數據關聯、挖掘應用的問題[36] 。一是多源異構數據融合問題。大數據時代的人才信息來源豐富多樣,不僅有期刊論文等傳統文獻元數據, 也包括科技管理所需的科技計劃項目、獎勵、技術合同等, 多來源異構元數據如何融合集成, 形成具有一致性的大數據倉儲是基礎。二是元數據關聯問題。海量人才數據的知識元數據抽取與集成, 關聯關系的構建,乃至后期數據服務都有賴于人才元數據知識組織,青年科技人才知識圖譜要對論文、專利的作者與機構、項目的參與人通過知識之間的關聯, 進行挖掘應用, 則急需在概念語義體系與自然語言術語體系之間建立映射關系, 通過對人才知識單元進行規范化、關聯化表述, 從而基于大數據形成結構清晰的人才語義層面知識是關鍵問題。三是元數據分析應用問題。在知識關聯、數據鏈接的進一步發展中,統計不同區域、不同學科的人才數量, 建立科學評價體系識別有潛力、可培育的人才隊伍, 進而形成知識服務、人才發現等高階功能, 是海量數據實現價值提升的核心要義。
基于以上問題,本文設計了三層數據治理體系與系統架構來予以解決, 即第一層需通過多源人才數據進行采集、標準化處理, 建設形成資源庫, 解決數據融合的問題; 第二層通過實體識別、實體及實體屬性抽取、實體消歧與實體歸一、實體關聯、實體分類標識等數據治理活動, 建設形成主題庫,解決數據關聯的問題;第三層通過分類統計、聚類分析、精準匹配等活動, 形成專題庫, 面向應用服務開發終端模塊, 解決數據應用的問題。科技青年人才知識圖譜旨在揭示青年科技人才在成長經歷及科研活動中存在的實體及其之間的關系,即揭示青年科技人才科技實體關系的語義網絡。為提煉和抽象化科技人才的多源科技大數據,構建以上實體類型和實體關系為核心的知識圖譜, 本文設計了如圖2所示的基于三層數據治理的青年科技人才畫像系統架構。
1)通過數據采集建設資源庫。制定科技人才數據描述標準和存儲規范, 對科技人才、科研機構、科研平臺、科技項目、科技獎勵、科技期刊、專利等科技大數據進行資源匯聚和集成。建設數據交換采集平臺, 對接各類科技管理、科技服務、期刊專利數據庫等系統平臺, 匯交各類科技數據資源, 應用自主安全可控的大數據分布式存儲與索引技術,對多源異構的科技大數據進行采集、集成和標準統一, 建立科技人才數據資源庫。
2)通過知識抽取融合建設主題庫。按照青年科技人才的知識圖譜本體, 對科技大數據中的各類信息進行實體類型和實體關系的抽取, 建設以科技人才為中心的主題庫。通過運用結構化/ 半結構化文本信息抽取、實體識別、實體屬性抽取, 從多源異構的科技大數據中抽取青年科技人才結構化信息節點, 通過實體歸一、實體消岐, 建立實體庫。通過唯一標識將實體庫之間進行關聯, 對實體的科研成果進行分類標識, 抽取人才的科研合作關系, 將分散的信息節點融合實體關系庫。
3)通過數據分析挖掘建設專題庫。抽取主題庫中的實體和實體關系元數據屬性, 建立青年人才專題庫, 通過聚類統計建設科技人才統計專題庫,為群體和個體人才畫像可視化提供支撐。
4)面向應用服務開發終端模塊。面向科研人員、企業機構與政府管理者的人才搜索、人才對接、統計決策等需求, 建立群體畫像、人才檢索、個體畫像等服務端口,將其嵌入各類科技管理服務系統,應用于青年人才評價、評審專家推薦、技術咨詢服務等場景。
3.2多源數據采集與資源庫建設
基于成長經歷、科研環境、創新能力與科技領域特征來設計青年科技人才數據資源規范, 采集融合多源異構數據, 應用數據處理與存儲技術建設科技數據資源庫。
1) 科技數據資源規范。按照青年科技人才特征識別, 人才畫像系統所用的科技數據資源主要包括個人基本信息、機構平臺、科技項目、獎勵、論文、專利、領域分類信息。參考已有成熟的元數據標準, 將實體屬性轉化為元數據進行規范化管理,本文參考國家標準《科技人才元數據元素集》來規范個人基本信息; 應用《科技平臺資源核心元數據》[37] 描述科研機構、科研平臺等實體機構; 應用DC 元數據[38] 方案, 來描述科技項目任務書、科技獎勵申報書、科技論文、科技期刊等文獻和報告;應用國家統計局發布的高技術產業分類、湖南省科技領域分類來描述人才領域分類。
2) 多源數據采集與存儲。依據數據資源規范,筆者對實踐工作中的多個管理系統數據分析研究,發現科技管理信息系統中擁有大量基本信息與科技成果相對完整的青年科技人才數據。如青年科技人才的學歷、畢業學校、學習經歷、工作簡歷等成長經歷信息可以通過科技計劃項目負責人信息、系統用戶注冊信息、評審專家庫專家信息中獲取。青年科技人才的科研環境體現在所工作的機構、科研平臺、導師關系、團隊關系以及產學研合作關系中,故機構單位、機構性質、機構負責人、平臺成員、平臺科研成果等信息可通過科技管理系統中的科技平臺認定與績效評價系統中獲取; 而導師關系、產學研合作團隊則來源于學位論文、專利信息平臺。青年科技人才的創新能力主要體現在參與的科研項目, 獲得的科技獎勵, 產出的科技論文、專利, 這些科技數據來源于科技管理信息系統、科技獎勵系統、SCI、CNKI、萬方、維普、國知局專利信息數據庫等。
使用RDFS(RDF Schema) 對數據規范進行描述, 它是為RDF 提供一個數據模型的詞匯表, 由描述RDF 的基本概念和抽象語法的一些配套文檔組成, 用于描述資源類型和資源之間的關系。根據各數據源提供的接口和下載地址, 利用OAI 協議、FTP 接口、JDBC 接口以及Webservice 接口等方式對數據進行采集。針對不同格式的數據源分別開發對應的采集引擎, 通過配置數據源IP、端口、FTP目錄、數據庫信息等方式, 調用采集引擎將數據采集到HDFS 集群中。針對不同的數據格式, 使用解析引擎對HDFS 集群中的不同來源數據進行解析、抽取和結構化處理, 保證從各數據源采集的數據可以在后續ETL 環節通過ETL 引擎進行統一的清洗、轉換和規范化等處理, 并嚴格按照統一數據標準進行存儲、管理和使用。
3.3知識抽取融合與主題庫建設
主題庫是將采集的多源數據經統一集成后, 對不同實體進行抽取和屬性填充, 通過實體消岐、分類標識、關聯分析等知識抽取融合技術, 建設以人才為主題的實體庫和關系庫。
1) 實體庫建設。實體庫是將資源庫中的元數據通過實體抽取、屬性填充、實體消岐處理后建成的主題庫, 主要包括人才實體庫、機構實體庫、平臺實體庫和成果實體庫。人才實體庫圍繞人才成長特征, 主要包括人才的職稱、履歷、學習等信息,機構和平臺實體庫圍繞科研環境特征, 主要包括高校、科研院所、企業、重點實驗室、工程中心等信息, 成果實體庫圍繞創新能力特征, 主要包括科研項目、論文、專利、獎勵等信息。
實體抽取與屬性填充。將青年科技人才數據資源中的實體轉化為數據規范中的“類” 進行處理,經過采集融合后的科技資源數據包括結構化(元數據)、半結構化(XML)和非結構化(摘要文本)數據, 依托大數據平臺中分布式計算引擎Spark, 對海量科研數據進行預處理。從資源庫元數據中提取結構化數據, 生成人才、機構、平臺、成果實體,并進行履屬性填充。以科研項目數據為例, 將一份項目申請報告作為一個成果實體, 并提取項目名稱、項目類別、依托單位、項目負責人、手機、電子郵箱、申請經費、研究期限、中文摘要、關鍵詞、項目組主要參與者等作為實體屬性。
實體消岐。首先針對不同實體進行去重, 將不同數據來源中表示同一對象的實體合并為具有統一標識符的實體添加到數據庫中, 例如, 使用項目編號唯一標識符對科技項目去重, 使用標題、作者、出版年份對期刊論文進行去重, 使用標題作者、畢業院校、指導教師對學位論文去重, 使用姓名、身份證號碼、郵箱、手機判斷重名的青年人才。然后對科技人才進行郵箱拆分、多個從屬機構拆分, 設定強規則下身份證號碼、E-mail 相同的為同一人,弱規則下姓名、一級機構、二級機構、研究領域等相似度計算結果相近的為同一人, 避免同名同姓、同一機構有多個重名的情況出現。再借助已有的規范庫和詞表, 包括區域與區域編號、大學院校名稱規范、科研院所名稱規范、企業名稱規范、機構縮寫與映射形式規范, 對機構、區域進行數據清洗和規范。
2) 關系庫建設。關系庫是按照外部特征、內容特征、共享特征將實體間關系和元數據元素進行關聯聚合, 形成實體與實體之間的關系數據庫。針對科技大數據中的不同來源問題, 對不同類型的科技數據以人才唯一標識(身份證號、手機號、郵箱)進行關聯, 形成“人才—機構” “人才—平臺” “人才—成果” 對應關聯的實體關系庫。針對數據資源的內容特征, 以項目、論文、專利等文本信息關鍵詞為特征提取, 實現從語義角度建立不同實體之間的關聯, 對科技領域分類進行自動標識, 形成“人才—領域” 對應關系的領域標識庫。針對科技數據的共享特征, 對科研成果合作人員網絡進行挖掘, 形成“人才—人才” 之間的合作關系庫。
領域分類標識。利用自然語言處理技術從報告文摘的非結構化文本中提取關鍵詞和主題實體, 進行自動分類輔助以人工審核, 達到將科技人才劃分至相關科技領域和產業分類的目的。首先, 以湖南省重點科技領域分類為基準, 將科技領域分類與高新技術產業分類建立映射關系, 形成分類本體。然后, 合并提取項目、獎勵、論文、專利中的文摘信息, 建立底層文本數據庫以備分析, 抽取關鍵詞作為自定義詞典, 導入自定義詞典、停用詞表等, 使用Jieba 對文摘報告進行分詞處理, 基于TF-IDF算法對分詞處理后的文摘關鍵詞進行抽取統計。最后, 挑選科技項目按照科技領域分類的結果作為訓練集, 將人才項目數據作為測試集, 采用貝葉斯分類器基于文摘分詞結果與詞向量, 對科技人才進行自動化分類, 從而得到青年科技人才的科技領域和高新技術產業分類結果。
科研合作關系抽取。由青年科技人才本體可得,實體間的關系主要可以分為從屬、合作、活動、產出4 類關系。從屬、活動、產出關系比較簡單, 可以以身份證號碼、組織機構代碼、姓名等為唯一標識, 關聯其關系。而合作關系是沒有數據可以直接表達的, 需要從人才的學位論文、科研項目、專利成果信息中抽取出來。合作關系主要包括導師合作關系、科研團隊合作關系、產學研合作關系。以魯某為例, 首先從魯某關聯的學位論文提取導師信息,形成(魯某, 秦某, 師生)關系; 再從魯某關聯的科技項目、獎勵、論文提取科研團隊信息, 形成(魯某, 曾某, 同事)關系; 最后從魯某關聯的專利和論文提取關聯企業, 形成(魯某, 山東某某企業, 產學研合作)關系等931條關系數據。圖5展示了通過關系抽取后, 以魯某為核心的科研社會網絡關系圖。
3.4數據挖掘分析與專題庫建設
將經過數據治理和分類標識后的主題庫人才數據進行聚類匯總, 按照人才類別、區域、產業、年齡等特征, 建立青年科技人才統計專題庫; 從成長經歷、科研環境、創新能力、分類領域4 個維度,抽取實體與實體關系元數據屬性建設個體畫像專題庫, 應用社會網絡分析、共詞分析等數據挖掘技術,展示個人的平臺數量、成果數量、科研合作網絡等各項能力指標。
3.5人才畫像與知識圖譜服務
面向統計決策、人才搜索、人才對接等用戶需求, 建立人才群體畫像、檢索、個體畫像知識圖譜服務端口。群體畫像子模塊可以根據用戶需求, 對各區域、各年齡階段、各產業、各學科領域的人才進行智能化組合統計; 信息檢索子模塊可根據人才類別、研究領域、年齡階段等條件進行精準匹配;個體畫像則圍繞青年人才特征, 全面展示青年人才的履歷、機構、科研成果、合作網絡等詳細情況。在青年人才培育場景中, 科技部門可制定檢索策略,精準發現各高新技術產業的后備領軍人才, 也可針對特定人才特征, 個性化制定培育策略; 在項目評審場景中, 管理人員可通過推薦算法的高準確度,精準判斷項目承擔人員團隊的能力, 篩查掉關聯關系人員, 以提高評審公正與客觀性; 在技術轉移場景中, 需求方可以將技術需求與技術供給精準匹配,提高成果轉化效率。
4湖南省科技管理系統青年科技人才畫像系統平臺構建應用實踐
近年來, 湖南省科技信息研究所啟動了湖南科技云平臺研究建設工作, 對全省科技大數據開展治理與應用。在科技人才治理與應用方面, 首期研究團隊以湖南省科技信息管理系統中科技項目青年負責人及湖湘青年英才等青年科技人才為對象, 圍繞青年科技人才特征識別, 開展了基于三層數據治理的實踐應用, 建設資源庫、主題庫和專題庫, 開展知識圖譜應用服務。
4.1基于三層數據治理的人才資源建設實踐
多源數據采集與資源庫建設實踐。以湖南省科技管理信息系統公共服務平臺、高新技術企業評審系統、高新區數據填報系統、科技獎勵系統、萬方數據庫、維普數據庫為來源, 采集匯聚個人基本信息、機構平臺、科技項目、獎勵、論文、專利等信息1 100余萬條, 按照數據資源標準, 構建科技數據資源庫。
知識抽取融合與主題庫建設實踐。將人才知識圖譜數據分成實體屬性信息、實體關系兩部分分別存儲。開展實體抽取與消岐, 將實體各個屬性作為存儲字段, 分別為人才、機構、平臺、項目、獎勵、論文、專利等創建Elastic Search(ES)索引進行存儲。以40 歲以下青年人才為標準, 抽取科技實體288 773項, 涵蓋青年科技人才實體24 850項、企業機構實體55426項、科技平臺實體1 000項、科研成果實體208 397項(項目30 000條、論文50000條、專利110000條、獎勵2000條)。基于實體數據開展分類標識與關系抽取, 關系庫創建包含實體關系三元組的索引, 存儲實體關系數據409 451條,其中“人才—項目” 關系數據57 783條, “人才—獎勵” 關系數據2 934條,“人才—論文”關系數據77 127條,“人才—專利” 關系數據247 545條,“人才—人才”關系數據24062條。
數據挖掘分析與專題庫建設實踐。青年科技人才專題庫根據主題庫的分類標識與關聯抽取結果,抽取人才姓名、所學專業、科技領域分類、人才類別、區域等元數據屬性進行存儲, 以支撐人才畫像和知識圖譜服務中的按區域、領域、人才類別等條件組合統計。如圖6所示, 數據管控平臺建立了“資源庫—主題庫—專題庫” 三層數據治理體系。
4.2青年人才畫像與知識圖譜服務
應用服務層是基于知識圖譜搭建的知識服務功能層,在青年科技人才畫像系統平臺的應用服務層,包括人才群體畫像、資源檢索、個體畫像等服務模塊。
群體畫像模塊。群體畫像主要從區域分布、產業集群分布、高新技術領域分布等維度可視化展現湖南省青年科技人才結構特征; 同時可分年份、區域、產業、人才類型等條件智能化組合統計全省青年人才數量, 并鏈接到人才列表明細, 實現了按照科技領域和學科發展特征, 將青年人才分類分層描繪。
資源檢索模塊。以知識圖譜為引擎的人才檢索服務模塊, 通過科研人才實體搜索、分科技領域搜索、分高新技術產業搜索和分區域搜索等功能, 實現科技人才、科技項目、科技企業、科研機構、科技平臺、論文、專利、科技獎勵等各類科技數據檢索發現。以青年人才姓名為關鍵詞進行檢索, 可以一鍵發現與該科研人員相關的所有科技項目、科技獎勵、專利、論文等關聯數據。以高新技術產業“生物與新醫藥” 進行分類檢索, 可以一鍵發現平臺內該產業領域所有青年科技人員資源, 并快速進入人才畫像與相關聯的項目、機構畫像。
個體畫像模塊。從成長經歷、科研環境、創新能力、所屬領域等特征方面可視化青年科技人才畫像基本信息, 通過關聯鏈接青年人才的機構、成果、合作團隊關系, 揭示了該青年學者的研究方向、研究機構、研究成果的發展趨勢和熱點主題, 輔助用戶全方位了解當前個體人才的成長軌跡及科技活動特征。面向科技管理服務, 可以對接基于知識圖譜的青年科技人才知識服務接口, 分別應用于不同系統模塊, 例如青年人才分類培育、項目管理專家評審、技術轉移人才對接等應用場景。
5結束語
本文從青年科技人才的概念和特征出發, 從成長經歷、科研環境、創新能力、科技領域等維度,設計青年人才的知識圖譜本體及涵蓋的實體和實體屬性, 形成科技人才實體關系, 提出了從采集多源科技數據、抽取實體知識融合、數據統計挖掘分析到開發人才知識圖譜可視化展示與接口服務的知識圖譜技術架構。并以湖南科技云平臺為應用, 構建了湖南省青年科技人才知識圖譜系統, 實現了科技人才的分類展示、精準畫像、實體關聯、關系挖掘等功能。與現有人才畫像研究相比, 該知識圖譜關聯了科技項目、科技平臺、科技獎勵等科技活動及成果數據, 較為全面地刻畫青年科技人才在科技創新方面的軌跡與特點, 可廣泛用于科技人才畫像、科技人才評價、科技人才遴選等創新人才工作實踐。
但本文也有不足之處。數據主要來源于國內數據庫, 下一步有待覆蓋關聯國外科研成果數據。同時, 本研究的科技人才知識圖譜系統架構, 雖然是圍繞青年科技人才特征構建, 但其三層數據治理模式, 實體消歧、關系抽取、數據關聯、領域分類標識等數據治理方法及人才畫像與知識圖譜服務場景等可適用于各區域科技人才數據治理與應用服務。在未來研究中, 考慮將青年科技人才畫像的構建方法擴展至其他科研人才畫像中, 并嵌入科技管理、科技決策、科技服務系統, 在人才選拔、項目評審、科技特派員管理、成果轉化等場景中予以應用。