馬千淳,王 楠
(首都師范大學教育學院,北京 100037)
STAR METRICS 是“美國再投資中的科學與技術:測量研究工作在創新、競爭力與科學上的影響”(Science and Technology for America's Reinvestment:Measuring the Effects of Research on Innovation,Competitiveness and Science)項目的簡稱。該項目是近年來美國聯邦政府實施的最具代表性的國家層面的科研評估框架之一。STAR METRICS 項目旨在建立一個基于計量指標及數據分析的評估模型,通過設計一系列評估指標,整合現有但分散的數據集,測量并評估美國聯邦政府公共研發投入為社會帶來的廣泛非學術影響。
本研究聚焦STAR METRICS 項目的評估內容與評估流程,并對該項目目前的最新實施情況進行討論,為我國科研評估政策與評估實踐的改革提供了有益的啟示。
目前關于STAR METRICS 項目的相關研究主要集中于項目意義、實施原則、項目第一階段的運行過程、存在問題及改進策略等方面。
如美國學者Mark 等[1]提出,在美國面臨因缺少足夠的數據為政府政策決策提供支撐的困境下,實施STAR METRICS 項目并為政府提供更多決策信息的必要性。美國國家科學院(National Academy of Science)[2]基于該項目第一階段運行過程中存在的問題,提出項目的第二階段應重點關注數據收集與傳輸過程中的質量保障工作以及數據保密工作。歐洲蘭德公司(RAND)于2013 年出版了針對全球14 個科研評價框架進行的評估報告,其中針對STAR METRICS 項目第一階段的六個評估步驟以及五類數據指標開展了追蹤和評估[3]。德國的獨立非營利機構勞動力研究中心(The Institute for the Study of Labor,簡稱IZA)以STAR METRICS 項目的數據模型及初步結果為基礎,就如何創新管理數據以描述和分析科技人力資源展開討論[4]。我國學者李攀等[5]提出在構建我國科技評估框架的過程中,應借鑒STAR METRICS 項目的評估理念和方法,注重科研投資的非學術影響以及構建跨部門的數據共享平臺,從而滿足政府決策的信息需求以及公眾對于履行知情權和監督權的要求。楊國梁等人[6]也基于該項目第一階段的運行情況,提出我國今后應重點關注科研投資所產生的實際影響、關注科技政策及科技評價的學科發展,并構建跨部門的科研活動全過程的數據平臺與數據分析工具。
總體而言,STAR METRICS 項目作為美國促進科技政策科學發展的重要評估項目,對其開展研究具有重要的理論和現實意義,因此國內外學界和政策領域對其關注度較高,但系統研究相對較少,且存在一些不足:第一,STAR METRICS 項目是一項基于數據模型而開發的定量評估項目,但目前大多數研究是針對該項目的設立緣起、運行原則、實施流程等方面進行的概覽與介紹,并未深入細致地梳理項目具體的評估指標、數據分析方法等。第二,現有研究主要聚焦于STAR METRICS 項目第一階段的實施,對第二階段的系統研究較少。該項目在開發和試點運行之初獲得了學界的密切關注,但伴隨項目推進,學界的研究熱度也隨之漸弱。目前項目已穩步進入第二階段,而相關研究亟待加強。
本研究通過在STAR METRICS 官網以及與該項目有關的美國政府部門網站上收集了大量的第一手數據和資料,對項目進行了長期追蹤,并展開了系統研究。一方面,通過追蹤該項目的前沿發展動向,對項目第一階段和第二階段的實施分別進行了梳理,呈現了該項目的最新動態;另一方面,對項目開展評估的核心——數據收集指標及評估指標進行了全面、多維的分析,力求從內容廣度和研究深度方面豐富相關研究,以期通過本研究為我國科技政策與科研評估改革提供可資借鑒之處。
伴隨科學技術在社會發展中發揮著越來越重要的作用,如何保證國家的科研投資能夠發揮最有效的作用,如何了解科學技術的進步與社會發展之間的聯系,成為了各國科技政策研究者們所關心的問題。而美國的科技政策發展進程中也面臨著同樣的難題。作為美國科研經費的主要支持者,美國聯邦政府每年會撥付巨額經費用于科學研究,但由于缺少完備的數據分析模型,缺乏精確的數據作為支撐,美國聯邦政府一度難以獲知其科技研發投入所產生的效益,對投資結果的錯誤判斷也導致了嚴重的決策失靈,引發了公眾的不滿。這諸多矛盾背后,存在著一系列與科技政策決策密切相關的問題。
首先,政府缺少完備的數據分析模型作為決策支撐。美國聯邦政府對于科研投資所產生的外部影響的絕大部分分析來源于美國經濟分析局的一個比較過時的數據分析模型[7],美國聯邦政府在進行科研投資的政策決定時,由于缺少科學化的數據分析模型及精確的數據作為支撐,通常只能憑借經驗甚至是猜測來制定政策,這極有可能使決策者做出錯誤的判斷,使得一些科研投資無法發揮其應有的作用,甚至導致公共資源的浪費。因此,美國聯邦政府需要更加與時俱進的數據分析模型以便為科研投資以及科技政策決策提供堅實的數據基礎[7]。
其次,科研投資產生的收益難以得到準確測量。在大多數的政策領域,數據通常能夠提供決策和結果之間的某種聯系。但由于缺少數據分析模型,美國聯邦政府無法精確地計算出某一筆投資所產出的具體收益,無法對投資的效益——即某項科研投資所產生的價值進行正確的分析,也因此難以得知本次投資的收益與相關的影響。
再次,公眾的知情權難以得到充分保障。《2009美國復蘇與再投資法案》要求聯邦政府向美國納稅人提供他們的投資是有價值的切實證據[3]。但由于無法計算科研投資所產生的效益,政府無法向公眾進行信息公開,社會公眾也無法獲知相關的信息以及其自身的受益程度,進而也導致了美國聯邦政府的科研決策難以更好的被公眾所理解和支持。
在這樣的背景下,社會對科技政策決策科學化的呼聲不斷高漲,科技政策科學作為一門科學應運而生[8]。2005 年,美國政府倡議發展科技政策學,提出將科技政策研究作為一門新興交叉學科發展,并要重點開展定量化、可視化、邏輯化的方法和工具的研究[6]。STAR METRICS 項目也因此誕生。
STAR MTERICS 項目主要由美國的科技政策辦公室(Office of Science and Technology Policy,簡稱OSTP)、國家衛生研究院(National Institute of Health,簡稱NIH)以及國家科學基金會(National Science Foundation,簡稱NSF)合作負責。同時,美國的國家能源部(Department of Energy,簡稱DOE),農 業 部(US Department of Agriculture,簡稱USDA) 與環境保護局(Environmental Protection Agency,簡稱EPA)也為該項目提供了必要的支持[3]。
該項目旨在開發一種全新的數據分析模型,來評估美國聯邦政府的科研投資對社會各方面所產生的影響,并以此來完善美國聯邦政府在科技研發方面的政策制定,明確其在科研投資上的責任與作用,保證并增強公眾對于科研投資的知情權。2009 年,該項目開始試點,提出了兩個階段性目標。第一個階段性目標是開發一個統一的、可更新的、標準化的數據分析模型,利用全美的研究機構擁有的數據記錄,測量科研投資對就業崗位的影響[7]。第二個階段性目標是利用該模型測量聯邦政府科研投資在科學知識(scientific knowledge)、社會產出(social outcomes)、勞動力產出(workforce outcomes)以及經濟增長(economic growth)[3]四方面對社會所產生的更為廣泛的影響。
STAR METRCS 項目分兩個階段實施,其總體目標是開發一套基于計量學的,同時包含研發投入與產出指標的評估模型,測量公共研發經費的投入產出比,進而觀測并評估科研投資為社會帶來的積極影響。
STAR METRICS 項目第一階段的重點是測量美國聯邦政府的科研投資對就業崗位產生的影響。該階段旨在開發一個數據分型模型,構建包括科研經費投入及其流向的指標體系,收集相應數據,計算科研投資與產出比(特指勞動力產出方面),進而評估科研經費對就業崗位的影響。目前,該階段的目標基本完成,數據收集工作也于2016 年1 月1 日停止。
3.1.1 實施步驟
STAR METRICS 團隊在官網上公布了該項目第一階段的六大具體步驟[9]。
第一步:初步溝通。STAR METRICS 項目團隊會首先以網絡研討會或是視頻會議的形式,為參與該項目的科研機構安排介紹會議。在會議上團隊會對STAR METRICS 項目的內容、規劃以及實施步驟等進行簡要的介紹,與科研機構進行初步的溝通。有意參與的科研機構會安排IT 人員、合同財務人員和人力資源代表以及部門領導參加會議。
第二步:簽署協議。在雙方初次會晤之后,科研機構需要與國家衛生研究院之間簽署一份“諒解備忘錄協議”。在簽署諒解備忘錄并將其送交國立衛生研究院之前,科研機構與STAR METRICS 團隊之間尚不得進行數據的傳輸。
第三步:科研機構發送樣本數據。協議生效之后,科研機構即開始為STAR METRICS 團隊提供他們所接受的聯邦政府經費的相關信息、間接成本信息、科研機構中的人員信息、供應商信息以及子經費的相關信息。
第四步:STAR METRICS 團隊提供反饋報告。在接收到科研機構的原始樣本數據后,STAR METRICS 團隊會對這些數據進行初步的分析,并且就其對就業崗位所產生的影響以及就業崗位發生的變化撰寫相關的報告。
第五步:研究機構發送近期和歷史數據。在STAR METRICS 項目團隊確認科研機構所提交的數據符合要求之后,就會要求科研機構繼續發送近期數據與歷史數據,即開始雙方的正式合作。
第六步:STAR METIRCS 團隊撰寫季度報告。在接收到科研機構的正式數據后,STAR METRICS項目團隊會繼續對數據進行分析,根據這些數據的分析結果撰寫相關的季度報告,并將其結果送交回科研機構供其參考。
3.1.2 評估指標
STAR METRICS 項目第一階段設計的指標體系包括投入指標(科研經費信息、子經費信息、間接成本信息)和產出指標(具體人員信息、供應商信息)兩個一級指標及若干二級指標,STAR METRICS項目團隊通過收集這些指標下的數據,將科研經費的投入與產出相關聯,并通過數據模型來計算和評估科研投資對于科研崗位和社會崗位的就業所產生的影響,見表1。

表1(續)
具體而言,美國聯邦政府的每一筆科研經費都擁有唯一的經費編號,因此可以通過追蹤某一經費編號獲悉該筆經費的相關信息。當一筆科研經費由美國聯邦政府撥付給科研機構后,該筆經費將會以分解成若干筆子經費的形式撥付給更微觀的組織或個人,或將會以購買服務的形式支付給供應商,進而完成經費的使用。STAR METRICS 項目團隊以上述經費的投入和產出流向作為抓手,分別針對科研人員以及社會人員兩個不同的就業群體開展評估。
首先,STAR METRICS 團隊評估了科研投資對科研就業崗位的支持和影響。團隊將科研機構中相關科研崗位進行了明確的分類,分為(1)技術人員/工作人員專家(2)教師(3)研究分析師(4)研究生(在讀)(5)本科生(6)研究生(7)臨床醫生(8)研究支持者八個類型[10]。通過分析經費的走向以及科研機構中接受資金的具體人員信息,便可以獲知和評估政府的科研投資對科研人員就業崗位產生的影響。
其次,STAR METRICS 團隊評估了科研投資對社會就業崗位的支持和影響[3]。美國聯邦政府將科研資金撥付給科研機構有利于間接增強科研機構的服務購買力。在科研機構購買社會服務的同時,供應商方面的社會就業崗位也將在一定程度上有所增加。基于此,STAR METRICS 團隊通過分析科研投資的信息以及供應商方面的信息,便可以獲知和評估政府的科研投資對社會人員就業崗位帶來的積極的影響。
STAR METRICS 項目在第二階段的重點是測量美國聯邦政府科研投資對科學知識(scientific knowledge)、社會產出(social outcomes)、勞動力產出(workforce outcomes)以及經濟增長(economic growth)[3]四方面產生的影響。與第一階段相同,STAR METRICS團隊在第二階段通過制定評估指標,收集數據并建立分析模型,將投入與產出相關聯,測量科研投資在上述四方面的影響。
3.2.1 實施步驟
STAR METRICS 項目第二階段主要包括三大步驟:設計指標體系、提交數據以及進行數據的分析與公開。
第一步:設計指標體系。STAR METRICS 項目團隊分別面向大學、科研機構以及項目負責人三方主體,有針對性地設計了能夠測度與衡量美國聯邦政府的科研資金對科學知識、社會產出、勞動力產出與經濟增長四個方面產生積極影響的產出指標體系(見表2)[11]。
第二步:填報數據信息。STAR METRICS 團隊要求大學、科研機構以及項目負責人盡可能多地根據已經確立的指標體系,填報指標下的具體數據信息,并進行提交。這些數據是STAR METRICS 團隊推進項目研究的重要基礎。同時,團隊還希望大學、科研機構以及項目負責人能夠對數據收集的方式提出具有參考價值的建議,進而完善數據采集過程[11]。
第三步:分析數據并公開發布。STAR METRICS團隊將對收集的相關數據進行整合,同時通過網頁技術手段以及行政手段收集美國聯邦政府科研投資信息,并將投入指標與產出指標進行關聯,進而評估聯邦科研投資在上述四方面發揮的積極作用。最后,STAR METRICS 團隊會將評估報告公開發布在data.gov 數據庫(美國政府公開數據庫)上[11],以增加公眾的參與度,保障公民的知情權。
3.2.2 評估指標
在該項目的第二階段,STAR METRICS 團隊繼續搭建測量投入與產出的指標框架,其中,投入指標依舊是美國聯邦政府所提供的科研資金的相關信息,而產出指標將面向大學(National Science Foundation,2014)、科研機構(Nation-al Science Foundation,2014)以及項目負責人(National Science Foundation,2014)分別設計關于科學知識、社會產出、勞動力產出與經濟增長四個方面的指標體系,相比第一階段而言,第二階段的指標體系更加復雜,而針對不同的主體所關注的核心指標也各有側重,見表2。

表2 STAR METRICS 項目第二階段指標體系
通過上述的指標體系,可以看出,STAR METRICS項目在第二階段,針對不同的主體——大學、科研機構以及項目負責人,分別設定了不同的指標體系,同時所關注的核心數據也存在較大的差異。
在科學知識方面,面向大學的指標主要關注教師在科學知識生產與創新方面獲得的成果,如教師的出版物、文獻被引情況等[12]。面向科研機構的指標一方面關注科研人員的知識的生產與創新情況,另一方面更加關注所生產的知識在社會中被吸納、使用與傳播的程度。如某一科學研究成果的下載率或在教育、司法等多領域被應用的情況等[11]。面向項目負責人的指標則更多關注科學知識通過網絡、講座等方式,在社會上被公眾所認知與了解的程度[13]。在社會產出方面,面向三方主體的指標體系所關注的內容大致相同,均為健康、公平、安全、治安、基礎設施以及環境六大指標。在勞動力產出方面,面向大學與科研機構的指標主要聚焦于接受STEM 教育的本科生與研究生學生數量的變動以及其就業和職業生涯軌跡的發展變動信息。而面向項目負責人則關注本科生與研究生參與某一項目的工作時間以及該項目合作者的相關信息[13]。在經濟增長方面,面向大學與科研機構的指標均主要聚焦于就業崗位變動情況。而科研機構還需關注諸如專利創新、公司創業及上市等影響經濟發展的指標[11]。
STAR METRICS 團隊將對收集的上述相關數據進行整合,計算和評估美國聯邦政府對不同機構所進行的科研投資在科學知識、社會產出、勞動力產出以及經濟增長四方面的影響,并以此為未來的政府科技政策的制定與評價提供數據支撐。
STAR METRICS 作為一個評估美國聯邦政府科研投資與科技政策效益與成果的項目,發揮著其特有的優勢。
4.1.1 創建了大規模的數據源
STAR METRICS 項目是世界上第一個能夠在全美范圍內通過微觀的指標對學術科研組織和基金進行橫向收集的數據庫。宏觀上,該項目可以覆蓋全美各州,進行不同州之間的橫向的數據比較;微觀上,該項目可以針對某一個學術機構中的個體的相關信息進行數據的收集和分析。目前,世界上能夠與其相提并論的龐大數據源并不多見[2]。
4.1.2 可實時監測經費的流向
STAR METRICS 數據庫可以對科研資金的分配與使用進行全方位的監測。該項目通過收集某一筆資金在學術機構中如何進行分配和使用的相關數據信息,可以了解該筆資金的使用情況,并進行相關的研究和分析。如通過收集公立大學和私立大學支付給教師工資的數據,可觀測和比較不同類型的大學支付給教師的工資占總經費的比例的差異[2]。據此,可以研究不同類型的大學、或是某一類型的大學所接受資金的分配與使用方式的差異,或對其科研成果的生產情況所產生的影響的差異等。這些相關的研究對于政府進行下一步的科研投資決策發揮著重大的作用。
4.1.3 繪制可視化學術網絡地圖
STAR METRICS 項目所收集的部分數據帶有地理位置的相關信息,通過這些信息,STAR METRICS項目人員可繪制出可視化的學術網絡地圖。如通過收集上述數據中的DUNS 編碼,可以實現地理位置的追蹤,并依據相關信息繪制出可視化的學術網絡地圖。通過可視化的學術網絡地圖,公眾可以清晰地了解到在不同地區的學者所集中研究的學術領域,或者通過學術網絡地圖追蹤經費的去向,從而獲知美國聯邦政府撥付經費的集中地等情況。
4.1.4 具備可拓展的數據潛力
單一的STAR METRICS 項目數據庫能夠發揮的作用仍然是有限的,但是在未來,如果STAR METRICS 項目的數據庫能夠與其他機構的數據庫相關聯,將會拓展其數據收集與分析研究的領域,從而有可能在更廣泛的領域發揮更大的作用[2]。例如,對大學或聯邦機構的投資組合以及跨學科研究組織的特定研究領域的生產力進行更細致的分析;再如,聯邦政府投資之后,對相關的經濟市場所起到的作用進行評估(如聯邦政府將一筆經費撥付給一所大學后,該所大學可利用這筆經費購買商品,促進經濟市場的變動);再如,針對不同學科所吸引的經費的差異,從而進行不同學科領域間的比較研究;又如,可以對教育、研究、大學的職能開展相關的研究[2]。
雖然STAR METRICS 項目為政策評估者們提供了很多支持,但是隨著該項目的運行,STAR METRICS 在數據收集與評估范圍、數據管理水平以及數據保密與共享問題等幾個方面都面臨著質疑與挑戰。
4.2.1 數據范圍仍需擴大
目前,從學科領域方面來看,STAR METRICS項目的評估領域主要集中于自然科學,缺乏對人文社會科學的相關研究[1]。從其關注的地理位置信息來看,STAR METRICS 項目的數據收集范圍僅局限于美國國內。在未來,STAR METRICS 項目需拓展其數據收集和評估領域,比如,若能打破國家的界限,并將其數據收集領域擴展到全球范圍和多個學科領域,相信將會更加有利于在各學科領域內的國際科技政策制定及評估的發展。
4.2.2 數據管理水平尚待加強
通過觀測STAR METRICS 項目運行至今的數據收集和分析情況,可以看出該項目還需繼續提升數據的管理水平。首先,STAR METRICS 項目的數據收集屬于靜態數據收集,無法進行動態追蹤,導致無法實現對其后續情況的持續調查。其次,學術機構所提供的數據無法細化到學科、部門。目前STAR METRICS 項目的的運行仍停留在較為宏觀的層面,而無法深入到某一學科或機構部門內部進行精確的評估[2]。另外,該項目在數據傳輸、合并的過程中曾出現過錯誤。在以往進行研究時曾發現,STAR METRICS 項目曾有過源數據出現錯誤、季度數據過渡到年度數據時出現錯誤等情況,因此,STAR METRICS 項目仍需完善數據的管理,提升數據質量。
4.2.3 數據保密與共享問題仍需商榷
STAR METRICS 項目是基于合作與共享的原則創立的,因此在研究過程中,評估人員有機會得到STAR METRICS 項目所收集的精確數據,以此作為研究的數據支撐。然而,在該項目運行過程中,一方面強調數據的共享原則,但另一方面也涉及到數據的保密問題。STAR METRICS 項目組致力于在不違反數據隱私原則或遵循數據提交機構的保密要求的前提下,盡可能多地開發數據訪問協議,但相關政策在短期內還不能夠出臺[2]。因此,數據的共享與保密問題仍存在沖突。
近十年來,美國的科技政策學發展迅速,得到了其他國家的廣泛關注,已經成為新的科技政策研究的風向標[14]。而美國聯邦政府所實施的STAR METRICS 項目,表明未來美國的科技政策將會朝著更加系統化、科學化、標準化的方向發展,這也為我國的科技政策的發展帶來了一些啟示。
開展科研成果的非學術影響評估,一方面順應了科研活動在知識生產模式現代轉型時需要擁有跨學科領域、多研究主體、多服務對象、多形態特征等特點的趨勢[15],另一方面,也可以有效評估研究產出為外部社會所帶來的積極改變與影響。而STAR METRICS 項目正是通過評估科研活動成果的廣泛的非學術影響,為美國聯邦政府科技政策的制定與評價提供了充足的證據基礎。因此,關注并開展科研成果的非學術影響評估,已成為世界各國促進科技政策與科研活動發展的一個重要議題。
STAR METRICS 項目的一個最大的亮點在于它的數據共享性。目前,該項目已建立以自身數據庫為核心,聯結科研機構、大學等學術組織的數據共享網絡,通過收集并整合科研機構與大學等組織所上傳的數據,從而為科技政策決策與評估提供了充足的數據基礎。因此,在對科技政策決策制定與評估方面進行完善時,應重視機構之間的數據共享網絡在科研評價等工作中的重要性,在保證數據安全的前提下,建立以數據為基礎的廣泛的機構交流網絡,發揮其服務科技政策決定的重要作用。
STAR METRICS 項目在數據分析與結果呈現的過程中,采用了嚴謹的計量統計、數據挖掘、可視化地圖繪制等方法,為科技政策決策提供了堅實可靠的、標準化、直觀化的數據支撐,為其他國家的科技政策的決策發展與改革提供了一個優秀的范本。因此,在制定政策和評估結果時必須要采用更加科學嚴謹的決策程序與評估方法,將政策建立在事實和證據的基礎上[16],從而保障政策制定的科學性以及政策評估的準確性。