,, , , ,贊梅
隨著大數據時代的來臨和科學研究范式的轉變,科學數據已成為國家科技創新和經濟社會發展的重要基礎性戰略資源。數據匯交是指在建立數據質量標準、元數據標準的基礎上,將物理數據提交到指定數據平臺。作為產生科學數據的重要源泉,科技計劃項目的數據匯交和共享逐漸受到高度重視。歐美發達國家自20世紀90年代開始制定數據匯交政策,陸續開展了實質性的科技計劃項目數據匯交[1]。我國通過探索后,于2018年正式出臺《國家科技資源共享服務平臺管理辦法》和《科學數據管理辦法》,對政府預算資金資助的各級科技計劃(專項、基金等)項目所形成的科學數據要求進行強制性匯交。
人口與健康領域在我國處于優先發展的戰略地位[2],隨著科研項目資助不斷加強和科技創新能力不斷提升,其科學數據呈現出“井噴式”增長。由于長期以來我國科研項目匯交較側重報告和論文的產出和匯交,而對“數據匯交”的要求不是很明確,導致這些數據大多分散在項目承擔機構或個人手中,被匯集到不同平臺甚至流失國外,面臨長期丟失的危險。因此迫切需要開展統一的數據匯交工作,促進科學數據的規范管理、長期保存和開放共享。科研項目是尋找科學數據的線索,因此可以通過調查科研項目追蹤科學數據,為項目數據匯交提供路徑,為了解人口與健康領域的關注熱點和科研成果提供幫助。
本文在對國內外科技計劃項目數據匯交政策及實踐研究的基礎上,分析科研項目調查對象和范圍,重點研究人口與健康領域科研項目調查的方法,為科學數據資源調查的全面開展提供指導。
除醫學外,美國國家科學基金會(National Science Foundation,NSF)資助所有領域的基礎研究,于2011年1月發布的數據匯交政策[3]要求項目申請書中須附帶“數據管理計劃”、科研項目產生的數據要及時匯交到指定平臺Dryad、數據完成后應馬上匯交和多年的研究項目應逐年匯交等。NSF下屬各學部根據領域特殊性細化了數據匯交政策,如社會、行為和經濟學部(SBE)要求在項目申請時指出計劃匯交的公共數據中心,并在項目結題后1年內完成匯交[4]。
美國國家衛生研究院(National Institute of Health,NIH)每年提供320億美元資助生物醫學研究,2003年制定的《數據共享政策和實施指南》[5]要求申請項目經費超過50萬美元的科研人員提交數據共享計劃,包括數據共享的預期進度、最終數據集格式、共享數據的存儲地點等。NIH采用數據分類匯交并提供自助模式、數據歸檔模式、數據飛地模式和分等級混合模式等4種數據共享模式,研究者可自行選定數據共享模式并在項目最后一批數據發表之前完成匯交。
英國研究委員會(Research Councils UK,RCUK)是英國最高科研資助機構,主要資助對象是英國高等教育機構、經批準的獨立研究組織以及研究理事會研究所。它自2013年開始要求資助項目在學術論文發表6個月內匯交其論文中使用的數據[6]。RCUK下屬的7個研究理事會制定了各自的數據匯交細則,如醫學研究理事會(MRC)和生物技術與生物科學研究理事會(BBSRC)分別規定研究者將數據提交到英國公共醫學中心(UK PMC)和歐洲公共醫學中心(Europe PMC)[7]。
由此可見,歐美發達國家的科研項目管理機構很早就制定了明確的數據匯交政策,規定了數據匯交的時間、地點、格式和知識產權等內容,并且將數據匯交作為項目管理的起點,保證項目數據能夠被及時匯集到Dryad、Europe PMC等指定的公共數據倉儲。
為便于開展數據匯交和共享,國家科技基礎條件平臺中心于2006年和2009年先后兩次開展了人口與健康科學數據資源調查,分別編寫了《醫藥衛生科學數據共享網資源手冊》第一版和第二版。第一次資源調查的方法是組織基礎醫學、臨床醫學、公共衛生、中醫藥學和藥學等數據分中心提供本領域的數據資源;第二次資源調查的方法在第一次基礎上,進一步通過不同網絡系統調查了1979-2008年各類科技成果59 833項和2000-2008年國家級科研項目19 430項,并且參照《學科分類與代碼》(GB/T 13745-1992)將資源進行分類編碼并按照基礎醫學、臨床醫學、公共衛生、藥學、中醫藥學和人口與生殖健康順序排列,形成了一個較為完整的人口與健康科學數據資源體系,作為追溯科學數據的線索[8]。
2010年6月,科技部印發了《關于加強“十一五”科技計劃項目總結驗收相關管理工作的通知》,提出將科技計劃項目課題形成的科技資源匯交到國家級資源平臺,并于2011年試點啟動了人口與健康領域“十一五”國家科技計劃項目科技資源匯交工作,分地區組織召開了匯交工作會議,推動“973項目”、“863項目”、“科技支撐計劃”、“國家科技合作計劃”,以及“科技基礎性工作專項”等項目所形成的研究實驗報告、科學數據集(庫)、專利、論文論著、大型科學儀器等科技資源向“國家科技計劃資源匯交系統”匯交。據統計,論文的實際匯交量為14 505篇,占計劃的85.42%。國家科技基礎條件平臺中心統計了科研項目承擔單位通過“國家科技計劃資源匯交系統”匯交的人口與健康領域科技計劃項目科技資源情況,發現人口與健康科學數據計劃匯交量為464個,實際匯交量為289個,實際匯交百分比為62.28%[9]。
與歐美發達國家相比,我國長期沒有明確的科技計劃項目數據匯交政策,匯交的標準、規范和運行機制都不夠完善,匯交系統建設和技術保障也有待加強,導致人口與健康領域科研項目數據的匯交效率不高。上次人口與健康科學數據資源調查距今已有10年,橫跨國家的3個“五年計劃”階段,在此期間國家科技計劃體系發生了較大變革,“十一五”期間國家科技計劃體系主要由基本計劃和重大專項構成,如“國家自然科學基金”、國家科技重大專項、“973計劃”、“863計劃”、“國家科技支撐計劃”、“科技基礎條件平臺建設計劃”、政策引導類科技計劃以及其他專項;“十二五”期間新增了創新人才推進計劃和重大科技創新基地建設專項兩大類,并對諸多項目進行調整;“十三五”期間國家科技計劃全面整合成國家自然科學基金、國家科技重大專項、國家重點研發計劃、技術創新引導計劃、基地和人才專項五大類。2018年國務院辦公廳發布的《科學數據管理辦法》首次從國家層面明確要求建立科學數據匯交制度,指明政府預算資金資助的各級科技計劃(專項、基金等)項目所形成的科學數據應由項目牽頭單位匯交到相關科學數據中心,并建立先匯交科學數據再驗收科技計劃項目的機制。此外,《學科分類與代碼》標準更新、網絡系統更迭等諸多變化都是本次資源調查需要考慮的因素。
人口與健康科學數據主要來源于各級科技計劃項目,其結構復雜、規模龐大、種類繁多、分布廣泛。為保證本次調查可行,擬針對政府預算資金資助的國家科技計劃(專項、基金等)項目開展調查,以便通過科研項目追蹤科學數據。對于部分無法直接獲取的項目,可以通過查詢相關科技成果庫和科技報告庫收集項目信息。科研項目調查對象見圖1。
本次資源調查范圍包括2009-2018年的人口與健康領域國家科技計劃(專項、基金等)項目、科技成果和科技報告。其中,科技報告作為輔助手段,可歸到科技成果和科研項目中。本次重點選擇人口與健康領域可能有科學數據產出的項目進行資源調查。項目范圍見表1。

圖1 科研項目調查對象

表1 人口與健康領域科技資源調查項目范圍
根據人口與健康領域科學數據管理和共享的發展需求及《國家科技資源共享服務平臺管理辦法》和《科學數據管理辦法》,基于大數據和科技改革的新形勢,參考前兩次資源調查方法,開展人口與健康領域科研項目調查實施方案研究。技術路線見圖2。

圖2人口與健康領域科研項目調查技術路線
經過專家咨詢和項目調研,本次項目調查選取較權威、收錄量大的網絡系統進行查詢,并對系統進行數據獲取可行性分析,確保獲得完整的、結構化的項目信息。科研項目查詢來源包括科學基金共享服務網的醫學科學部和生命科學部部分、國家社科基金項目數據庫的人口學部分以及科學技術部官網、國家科技計劃申報中心、科技部生物醫學發展中心、國家國際科技合作專項網、衛健委科教司官網等網站對人口與健康領域項目的公示信息,科技成果查詢來源包括中國科技項目創新成果鑒定意見數據庫(知網版)的醫藥衛生科技部分、國家科技成果網的醫藥衛生部分和萬方中國科技成果數據庫的醫學衛生部分,科技報告查詢來源為國家科技報告服務系統的科學技術部科技報告部分。
合適的檢索策略是查準、查全項目信息的關鍵,檢索策略包括檢索資源、檢索詞、檢索式、檢索途徑、檢索方法等方面[10]。通過分析數據庫或網絡系統的功能和特點,以專業性原則與文獻類型原則為準則有針對性地制定檢索策略。以科學基金共享服務網[11]為例,該網站公布了國家自然科學基金資助項目信息,提供資助項目檢索、結題項目檢索和成果檢索3種檢索方式以及項目名稱、項目類別、申請領域等多個檢索要素。首先選擇“結題項目檢索”,“申請領域”選擇“醫學科學部”,“批準年度從”選擇“2009-2018”,“項目類型”選擇“所有項目類型”;然后選擇“資助項目檢索”,“申請代碼”選擇“H.醫學科學部”,“批準年度”依次選擇“2009”至“2018”,“資助類別”選擇“全部”。由此可查詢到近10年醫學科學部的所有結題項目和資助項目信息。
由于項目查詢來源多樣,既包括完善的基金項目庫、科技成果庫和科技報告庫,也包括多個網站的公示信息,所以,采用自動化和人工相結合的采集方式,并且在采集過程中需要進行信息監測、過程監控和數據檢查。采集方法見圖3。

圖3人口與健康領域科研項目采集方法
3.2.1 基金項目庫
“國家社科基金項目數據庫”提供了完整的國家社會科學基金資助項目信息,直接進入數據庫進行檢索、采集即可。“科學基金共享服務網”則需要分別采集檢索到的國家自然科學基金結題項目和資助項目,然后進行查重,將包含在結題項目中的資助項目信息補充完整,并補充未包含在資助項目中的結題項目,最終得到完整的資助項目信息。
3.2.2 網站公示項目
首先通過在各大搜索引擎中輸入科技計劃項目的關鍵詞,如“973項目公示”,查找到有項目公示信息的網站;接著進入網站公示頁面,通過網站瀏覽、關鍵詞查找等方式獲取符合條件的項目信息;然后執行導出下載、復制粘貼、手工錄入或自動抓取等操作,將項目信息采集到本地;最后對采集到的數據進行格式轉換和整理檢查。必要時開展線下咨詢,確定數據完整后將項目數據和操作日志保存到數據庫中。
3.2.3 科技成果庫
“中國科技項目創新成果鑒定意見數據庫(知網版)”提供了詳細的科技成果信息,首先輸入檢索條件查找近10年的醫藥衛生科技成果,然后執行“自定義引文格式”導出操作,完成成果采集。“國家科技成果網”和萬方“中國科技成果數據庫”的成果數據可作為參考和補充。
3.2.4 科技報告庫
首先進入“國家科技報告服務系統”,按來源依次選擇各類國家科技計劃,獲取該計劃項目的公開科技報告;然后采集報告并篩選出近10年與人口與健康領域相關的科技報告;最后根據報告類型、項目名稱等字段將科技報告歸到科研項目和科技成果中。
由于網絡資源的復雜性,采集的數據可能會出現項目信息不正確、重復和不屬于人口與健康領域等情況,因此有必要進行項目遴選和審核。
遴選標準包括屬于2009-2018年立項的人口與健康領域國家科技計劃(專項、基金等)項目及成果、屬于表1包含的項目來源范圍但排除政策引導類科技計劃等產生科學數據概率較小的項目、項目記錄至少包含3項有效信息且項目名稱和項目編號至少一個不為空、成果記錄至少包含3項有效信息且成果名稱與課題立項名稱和課題立項編號至少一個不為空。
對項目資源的審核采用二級審核,并分為審核項目資源是否有重復記錄、是否符合遴選標準以及檢查元數據質量3個步驟。其中前兩步審核可自動化進行,二級審核確認后刪除問題記錄。元數據質量審核主要包括兩個方面:一是采用自動審核方式,參照元數據標準檢查元數據規格的符合性,包括項目名稱、立項時間、項目經費等字段是否符合填寫要求以及明確規定的必填字段是否缺失等;二是人工審核程序無法自動檢查的元數據具體內容,包括是否涉及國家機密、描述是否準確、關鍵字是否恰當、分類是否合理等內容,由各領域專家審核、評價并提出修改意見。
為了準確識別和有效管理資源,本次調查組織基礎醫學、臨床醫學、公共衛生學、藥學、中醫藥學和人口與生殖健康等六大學科的領域專家對人口與健康項目資源進行分類編碼。資源分類編碼方案參考國家標準《學科分類與代碼》(GB/T 13745-2009)[12]及其第2號修改單(XG2-2016)[13]制定,采用二級分類。每條資源記錄用ID號唯一標識,其編碼規則為“一級學科+二級學科+順序號”(表2)。ID號總長度為8位,第1位為一級分類,將《學科分類與代碼》一級學科代碼中用數字表示的頭3位編碼改為用1位英文大寫字母表示;第2、3位為二級分類,與《學科分類與代碼》的第4、5位相同,以2位數字表示;第4-8位為順序號,以5位數字組成。如“31021人體生理學”第一個資源記錄的ID號為“A2100001”。

表2 資源記錄ID號構成
原《學科分類與代碼》中沒有“人口與生殖健康”分類,本次增設“人口與生殖健康”一級分類,代碼為“F”,將“社會學”中的“人口學”和“心理學”中的“發展心理學”納入此類。學科代碼與項目資源代碼對照見表3。
項目調查最終要構建人口與健康項目資源目錄,提供項目名稱、簡介、負責人、承擔單位等信息,為下一步追蹤科學數據提供路徑。通過分析采集的項目信息和成果信息,遵循典型性、科學性、兼容性和可擴展性原則設計人口與健康項目資源目錄元數據,包括科研項目和科技成果兩個實體及多個屬性。人口與健康項目資源目錄E-R模型見圖4。

表3 學科代碼與項目資源代碼對照

圖4 人口與健康項目資源目錄E-R模型
我國科技計劃項目產生的海量科學數據是國家的寶貴財富,國家政策要求對其進行強制性匯交。摸清數據家底,厘清其形成時間、地理分布、生產/擁有者、種類和數量等要素,是進行數據匯交的第一步。本文在前兩次人口與健康科學數據資源調查的基礎上,利用先進理論技術,結合工作實際,提出對我國近10年人口與健康領域科研項目進行調查的思路,從項目查詢來源和檢索策略、采集和保存、遴選和審核、分類和編碼以及目錄構建等多個層次提出建議,以保障項目調查工作的有序進行和項目數據的順利匯交。目前已采集整理人口與健康領域科研項目75 349個、科技成果81 039個。
本文存在以下兩點不足:一是受條件限制,未能收集到10年來政府預算資金資助的全部科研項目,特別是省部級資助項目以及國際合作項目,這些項目也是我國科學數據資源的重要組成部分;二是資源調查需要多部門配合完成,包括聯系資源擁有者進行資源描述和采集、邀請領域專家進行資源分類和審核等,本文對此沒能給出進度安排和人員保障。
下一步我們將充分利用本次科研項目數據調查所獲得的科研項目和科技成果數據,促進項目數據的匯交共享,提高科技計劃項目的管理水平,實現國家科技投入的最大效益。具體工作包括以下幾點:一是對科研項目和科技成果數據進行跨領域、跨項目、分要素的規范化整編和全鏈條管理,并以此為線索,開展科技計劃項目數據匯交工作;二是對科研項目和科技成果的學科分布、經費來源等信息進行統計、分析和挖掘,了解10年來人口與健康領域的關注熱點、國家重點科研投入方向以及經濟發展情況,為今后科研管理者的科研投入決策提供參考;三是分析科技成果的主要產出機構、成果完成人以及成果完成人合作網絡情況,了解人口與健康領域相關科研成果的分布格局,為評價科研績效提供依據。