如何開展科研元評價：來自英澳的啟示

2022-10-14 05:49:36楊佳樂

科技管理研究 2022年17期

關鍵詞：評價

楊佳樂

（中國社會科學評價研究院，北京 100732）

如何評價高等教育機構科研績效是一個全球性難題。不同國家結合各自科研體系特征開展科研評價，如英國的科研卓越框架（Research Excellence Framework,REF）、澳大利亞的卓越科研（Excellence in Research for Australia,ERA）和參與和影響評價（Engagement and Impact Assessment,EI）等。英國對高等教育機構進行科研評價可追溯至20 世紀80年代，經過不斷調試完善，2014 年啟動首輪REF，2021 年最新一輪REF 落下帷幕。21 世紀初澳大利亞也宣布面向本國高等教育機構實行科研評價。2009 年試行ERA，目前已完成2010、2012、2015、2018 和2021 五輪評估工作，下一輪預計將于2023年進行。2018 年EI 和ERA 共同推出，旨在評價科研人員與行業、政府、社區等科研最終用戶的互動，以及大學如何將研究成果轉化為經濟、社會、環境、文化或其他影響。EI 要求參評大學提供影響案例，由評估組專家對影響力（即科研成果帶來的各種影響）和影響方式（即大學將科研成果轉化為影響力的方式）作出高中低三檔評級。每輪評估結束后兩國都會對科研評價本身進行再評價（即科研元評價），以保證新一輪科研評價能夠不斷適應科研新發展環境與新組織模式，及時回應高等教育部門、政府和社會公眾等利益相關者訴求，可以說科研元評價是英澳科研評價體系保持與時俱進的重要治理機制。

在中國，高等教育機構科研評價也日益成為政府關注、學界關心和社會關切的焦點問題，“雙一流”建設成效評價、學科評估、學位點評估等均涉及科研評價，并嘗試構建具有中國特色、世界水平的科研評價體系。圍繞他國歷次科研評價的組織實施［1］、指標體系［2-3］、評價流程［4］、評價方法［5-6］、演變邏輯等［7］，國內已有諸多文獻予以介紹，為優化我國科研評價實踐提供了寶貴經驗參考，但對于科研元評價卻鮮有涉及。科研元評價作為一種治理手段，發揮著監測科研評價目標達成、完善科研評價方案制定、發現科研評價執行偏差、優化科研評價實施方式、改進科研評價結果使用等重要功能，是構建高質量評價體系，實現以評促建的必要一環，不過目前我國尚未建立完善的科研元評價制度。而英澳兩國開展的科研元評價對我國具有借鑒意義：從時間上看，英國和澳大利亞于2020 年正式啟動最新一輪科研元評價，能夠體現兩國科研元評價的最新動向；從內容上看，英澳兩國已在跨學科評價、非學術影響評價等熱點難點問題上作出先期探索，其科研元評價中總結的經驗以及風險點可以為他國建立健全科研元評價制度貢獻行動指南和風險前瞻。因此本研究將采取平視視角，在總結英國和澳大利亞科研元評價成功經驗的同時也客觀呈現其不足之處，繼而提出我國開展科研元評價的可行之策。

1 分析框架

元評價最早是由Scriven［8］在20 世紀60 年代末評估教育產出時創造的術語，意指評價的評價。Stufflebeam［9］將元評價定義為描述一項評價活動，并對其是否為一項好評價進行價值判斷的過程。他提出元評價的8 個假設：（1）評價是對價值的判斷，因此元評價就是對評價活動的價值判斷；（2）評價服務于決策和問責，因此元評價既要提供服務于評價活動的前瞻性決策信息，也要提供服務于評價活動問責的回溯性信息；（3）評價應對目標、設計、執行和結果做出判斷，因此元評價應該對評價目標的重要性、評價設計的適當性、評價執行的充分性和評價結果的質量作出判斷；（4）評價應提供描述信息、評判信息和適當建議，因此元評價應描述和評判評價活動，并就如何改進評價與合理利用評價結果提出建議；（5）評價應服務于全部評價對象，因此元評價應服務于全部評價者及對評價活動感興趣者；（6）評價通常（但不總是）由局內人進行形成性評價，由局外人進行總結性評價，因此元評價應由評價者進行形成性元評價，同時接受來自外部的總結性元評價；（7）評價過程包括描述問題、收集和分析數據、使用數據來決策和問責，元評價過程也應遵循上述步驟；（8）評價必須滿足技術可行性、有用性和有效性，元評價必須滿足相同標準。從類型看，元評價分為總結性元評價（summative meta evaluation）和形成性元評價（formative meta evaluation），前者關注評價績效對評價標準的完成度；后者則側重考察評價方案設計以及評價實施流程情況，并通過提供持續反饋不斷優化評價實踐［10］，已成為保障評價質量的重要手段［11］。

元評價濫觴于美國教育評價領域，后逐步擴散至其他領域。我國在20 世紀90 年代即有學者探討教育元評價的原則與應用［12］，學術元評價［13］、學科元評價和科研元評價也紛至沓來［14-16］。開展元評價需要明確誰來評價、評價什么、如何評價以及怎樣使用評價結果4 個關鍵問題，因而本研究圍繞主體維、內容維、方法維和結果維4 個維度構建科研元評價分析框架。其中，內容維參考弗蘭克·費希爾［17］提出的公共政策評估綜合框架，根據實證評估與規范評估相統一原則，不僅從操作層面評估科研評價制度的執行情況，而且注重對科研評價制度進行價值判斷。該框架涵蓋兩個層面，第一個層面評價政策結果和出現這些結果的情景，弗蘭克·費希爾［17］將之概括為專業驗證和情景確認兩部分內容。專業驗證多通過實證量化手段重點評價政策是否完成既定目標，以及還帶來哪些未曾預料的后果；情境確認則通過訪談、現場觀察和案例研究等方法確認政策目標之外的情況。第二個層面轉換到更大的社會系統之中,評價政策對社會系統的影響,以及社會秩序背后的價值判斷，可概括為社會論證和社會選擇。社會論證借助社會系統分析或結構功能分析考察政策目標對社會整體的貢獻和價值，以及所導致的意想不到的社會后果；社會選擇則使用構建理想型、哲學思辨、邏輯推理等方法評價維持社會秩序的意識形態是否為公平合理地解決價值沖突奠定基礎（見圖1）。

圖1 科研元評價分析框架

本研究基于英澳兩國發布的《理解英國科研人員對REF 的看法：REF 實時評估》（Understanding Perceptions of the Research Excellence Framework Among UK Researchers: The Real-Time REF Review）、《對澳大利亞研究理事會2018 年EI 中影響力部分的評估：發現和觀察》（An Evaluation of the Impact component of the Australian Research Council's 2018 Engagement and Impact Assessment:Findings and Observations)、《2020 年ERA 和EI 評估咨詢報告》（ERA EI Review Consultation Paper 2020）等科研元評價報告，遵循“主體—內容—方法—結果”四維框架剖析英國和澳大利亞科研元評價經驗啟示，同時也對他國經驗的適用性予以必要反思。

2 英澳科研元評價

2.1 元評價主體

英國REF 元評價分為預評價和正式評價兩個階段。預評價在謝菲爾德大學、卡迪夫大學、蘇塞克斯大學和林肯大學4所大學中進行評價可行性試點，正式評價委托第三方蘭德公司以及卡迪夫大學和謝菲爾德大學共同實施，蘭德公司屬于第三方評估機構，卡迪夫大學和謝菲爾德大學因其參與過預評估，已經積累了一定經驗，所以可以一定程度保證科研元評價的順利進行。

澳大利亞委托第三方專家咨詢委員會對ERA 和EI 實施元評價。該咨詢委員會成員由四方面專家組成。一是政府部門專家，包括：澳大利亞聯邦科學與工業研究組織戰略主管，教育、技能和就業部高等教育處一等助理秘書，國家衛生和醫學研究理事會首席執行官，澳大利亞國際農業研究中心專員，工業、科學、能源和資源部科學和商業化政策司司長等；二是大學及其他組織專家，大學中人文與社會科學、自然科學領域專家均有涉及，并且特別邀請高等教育領域以及本土研究領域（針對澳大利亞原住民和托雷斯海峽島民的系列研究）專家參與評價，其他組織專家包括澳大利亞國家博物館主管以及工業集團首席執行官；三是澳大利亞首席科學家；四是科研評價專家，如高等教育標準專家組主席等。

除組建專家咨詢委員會外，ERA 和EI 元評價還設有公開咨詢、專家工作組咨詢和利益相關者咨詢環節，就具體問題向專家咨詢委員會提供意見建議。公開咨詢的反饋意見來自大學、科研人員個人、學會和引文數據供應商。3 個專家工作組分別就ERA評估方法、參與敘述和本土研究提供專業意見。ERA 評估方法工作組由2018 年ERA 8 個科研評估委員會主席組成，職責是回應各界對于科研評估學科差異的顧慮，確保新一輪科研評估能夠符合人文和社會科學，以及STEM 學科各自特點。參與敘述工作組成員來自2018 年EI 評估專家組，職責是就如何評價科研參與、EI 定義等核心問題提供建議。本土研究工作組由從事原住民研究或具有相關文化背景的人員構成，職責是保證科研評價能夠兼顧本土研究。其他利益相關者咨詢針對的問題更加聚焦，集中解決如何評價科研影響力、如何提高科研評價結果的使用價值、其他科研體系評價參與和影響的經驗借鑒，以及數據收集方式、評價基準和等級設定等技術細節。

2.2 元評價內容

借鑒弗蘭克·費希爾的公共政策評估綜合框架，REF、ERA 和EI 元評價可歸納為項目驗證、情景確認、社會論證和社會選擇四部分內容，各項評價的內容分布見表1。

表1 英澳科研元評價內容分布情況

（1）項目驗證。英國REF 元評價通過問卷調查評估科研人員視角下REF2021 的目標達成情況，以及REF 對所屬科研共同體、英國科研人員群體和科研人員個人的積極或消極影響。題項設置為-3 至3 的7 級量表，-3 代表極大降低，0 代表沒有影響，3 代表極大提高。鑒于本輪REF 受到新冠肺炎疫情沖擊，問卷同時還考察新冠肺炎疫情對科研人員個人及所在機構的影響。為了解處于不同職業發展階段科研人員對REF 的體驗有何異同，REF 元評價問卷也調查了科研人員的職業發展情況，問題涵蓋：獲得最高學位的年份；是否正式參與REF；全職還是兼職；固定合同還是臨時合同；所在機構名稱；分配在科研活動上的時間占比；研究領域在REF 中的歸屬；是否處于職業生涯早期。

澳大利亞ERA 元評價調查問卷關注ERA 的目標達成情況、評價過程、評價指標、評價方法和評價影響。在評價過程方面，聚焦數據收集周期和收集方式的合理性，數據公開范圍，評價等級設置，以及科研產出統計口徑。在評價指標方面，考察科研產出數量、科研經費收入、科研成果轉化等指標是否納入下一輪評估。在評價方法方面，比較引文分析法和同行評議法各自的優劣勢，評價不同方法的適用性、評價結果的穩健性和可比性，重點調查目前的評價方法是否能夠滿足ERA 的評價目標，以及如何改進評價方法，特別是如何用好先進技術和現有數據簡化評價流程。EI 元評價共設計兩套調查問卷：大學代表問卷和評估組成員問卷。前者面向大學高級主管、大學行政管理人員、青年科研人員和資深科研人員等群體，主要調查EI 的評價過程、評價方法與評價影響。評價過程模塊詢問影響力定義及范疇，案例提交要求、評價指南、案例模板、評價單元的合理性。評價方法模塊詢問以敘述方式呈現案例、影響評價時間范圍設定的合理性。評價影響模塊則涵蓋對科研人員行為的影響與對組織文化的影響兩個層面。后者圍繞EI 評價目標達成情況，影響力和影響途徑分級評價的合理性，案例提交要求的合理性，EI 評價的積極和消極影響，以及改進建議設計相應題項。

（2）情景確認。作為問卷調查的補充，英國REF 元評價還通過訪談形式深度了解科研人員的個性化情況，如對REF 的態度、REF2021 的準備情況、對REF2021 新變化的看法、REF 未來的改進方向等主觀性、開放性題目，并且詳細詢問問卷調查中暴露出的典型問題，如REF 是否損害科研質量、參評機構是否采取策略性包裝、填報評估數據是否帶來負擔、是否影響科研人員的心理健康等。

澳大利亞EI 元評價分別對評估組專家、大學代表、國際專家和澳大利亞科研理事會代表組織訪談，訪談內容均涉及對EI 的總結性評價，但在分項評價上各有側重。面向評估組專家的訪談在評價方法上側重詢問目前方法的優缺點，對評估組角色、構成、規模、工作量、專業技能、學術視角和非學術視角各自價值等的看法；在評價過程上側重詢問對評級標準、影響案例模板、案例提交要求、案例指南、影響敘述方式、未來潛在可用于評價影響的技術與定量指標等的看法。面向大學代表的訪談側重下述內容：機構識別和案例遴選、評估過程的合理性；對之后科研工作和與科研最終用戶溝通的影響，以及這種影響是否存在學科差異；準備影響案例的時間、精力和經濟成本；在此過程中科研人員、科研輔助人員、管理人員和校外人員各自的角色；在何種程度以及通過何種方式改變所在大學的行為；對科研人員個體乃至研究生的影響；未來改進建議。面向國際專家和澳大利亞科研理事會代表的訪談側重詢問分別評價參與和影響的合理性；影響力評價在方法和理論方面有何新進展。

（3）社會論證。EI 的目標之一即通過評估促進澳大利亞高等教育系統與更廣泛的科研最終用戶加強聯系，并不斷產出發揮積極社會、經濟、環境和文化影響的科研成果。因此，考察EI 目標達成情況相當于觀測科研評價對高等教育外部系統的影響。

（4）社會選擇。REF 元評價通過設置調查問卷題項采集調研樣本人口統計學信息，據此分析科研評價過程中是否存在年齡、性別、種族、婚姻、健康和家庭社會經濟地位的歧視現象，從而實現科研元評價的價值判斷。

2.3 元評價方法

REF 元評價采用混合方法，一方面面向科研人員開展線上問卷調查，預調查（146 份回復）與正式調查（2 934 份回復）共回收問卷3 080 份；另一方面面向機構領導、科研主管及科研人員組織一對一訪談和焦點小組訪談，共計訪談126 人。

EI 元評價于2017 開展預評估并向有關專家征求意見，正式評估也采用混合方法，合計訪談大學代表12 人，評估組成員15 人，來自英國、澳大利亞、歐盟和北美的國際專家8 人，澳大利亞科研理事會工作人員5 人。EI 共分為5 個評估組：社會科學組、創意藝術和人文組、科學與技術組、健康和生命科學組、原住民和托雷斯海峽島民研究組。同時通過郵件向參與EI2018 的12 所大學代表、評估組成員發放調查問卷131 份，回收97 份。大學抽樣綜合考慮地理位置、院校定位和院校規模，從院校定位看，樣本包括4 所G8 聯盟高校 (Group of Eight)、澳大利亞技術聯盟高校（Australian Technology Network）、創新研究高校（Innovative Research Universities）、區域大學聯盟高校（Regional Universities Network）和其他高校各2 所。院校規模根據累積全時當量和向ERA 提交的科研產出比例判斷，占比前50%屬于大規模高校，占比51%～80%屬于中等規模高校；占比后20%屬于小規模高校。

由此可見，英國和澳大利亞的科研元評價方法仍以傳統的問卷調查與利益相關者訪談為主，元評價方法的規范性、豐富性不足也形成若干潛在風險。首先，問卷設計上的缺陷致使調查數據質量并不高，只能滿足簡單的描述性統計需求，并不能支撐深入的數據挖掘需要，所得到的評價結論中因果關系是否真實可信，會不會存在樣本選擇偏誤、反向因果、遺漏變量等內生性問題，凡此種種其實都要打上問號。其次，元評價方法的單一也嚴重制約了發現新穎評價結論的可能性。盡管已有學者嘗試在元評價中使用文獻計量［18］、模糊邏輯（fuzzy logic）等方法［19］，但英澳目前開展的科研元評價中并未涉及。

2.4 元評價結果及使用

（1）評價目標達成度。元評價的首要目的是考察科研評價對既定目標的達成度。REF、ERA 和EI元評價結果顯示，兩國科研評價較好達成促進卓越、輔助決策、展示質量和方便比較4 項目標。其一，由于嚴格評價科研質量，引導兩國高等教育系統更加注重科研質量而非數量。其二，評價結果提供了關于高等教育系統科研活動的豐富信息，能夠有力支撐大學、行業、政府和社區利益相關者決策。其三，特別是向政府和公眾呈現本國高等教育系統科研質量的證據，為政府選擇性分配科研經費以及公眾投資科研提供問責依據。其四，樹立科研績效標桿，使得國際國內比較成為可能。

（2）評價影響。除既定目標外，元評價結果還表明科研評價會帶來意料之外的影響。如大多數科研人員認為REF 雖然促進了科研繁榮，加強了科研活動的公共聯系，并且增加了研究開放性，使得科研成果，研究方法或研究數據更廣泛可得，但在跨學科研究方面，REF 的影響并不顯著。同時被評價機構為最大化科研評價績效會采取操縱教師招聘或包裝科研影響力等策略，而這些策略行為還可能給科研誠信及科研傾向造成負面影響，特別是反映科研人員知識興趣的自主性研究以及原創性研究比例有所降低，REF 損害科研自主權已然引起學界反思［20］。此外，大部分受訪者認為REF 對其個人幾乎沒有影響［21］（見表2）。不過科研評價影響也存在院校與學科差異，研究型大學感受到的負面影響高于非研究型大學，藝術和人文學者感受到的負面影響高于自然科學學者。

表2 REF 對科研共同體及科研人員個體的影響

（3）評價不足及改進。透過元評價，英澳科研評價至少在3 個方面存在不足，亟待改進。第一，評價數據填報負擔壓力大。REF 等科研評價普遍要求參評機構填報數據，繁瑣的填報流程可能干擾正常的學術工作［22］，尤其是在新冠肺炎疫情背景下，英澳大學普遍面臨財政預算收緊以及國際學生減少的雙重挑戰，在此背景下特別需要減輕大學填報評估數據的負擔。元評價中提出4 點改進建議。一是和已有填報數據合并。如使用Researchfish、教育、技能和就業部收集的高等教育科研數據合集（Higher Education Research Data Collection）和高等教育師資數據合集（Higher Education Staff Data Collection）以及其他既有科研數據。二是借助技術手段。有研究發現機器學習預測結果與REF 以同行評議為主的實際評價結果具有較高一致度，因而可以考慮引入機器學習等技術手段輔助評價［23］。三是管理高峰工作量。2018 年首輪EI 和ERA 同時進行導致科研評價高峰工作驟增，因而元評價建議ERA 和EI 繼續作為單獨項目以每3 年評估一次的頻率運行，二者安排在連續的歷年。四是刪除不必要的評估指標。例如元評價發現在絕大多數情況下，ERA 中的科研應用指標并不影響評價單元的評價結果，因而這類指標可能由于不再具有評估價值而被取消，這類指標具體包括科研商業化收入、專利和注冊設計等。對REF 的元評價也顯示，產出、影響和環境3 個評價指標高度正相關，即使刪除其中一個指標高等教育機構的排名也不會發生太大變化［24］。

科研評價等級設置不合理。目前ERA 采取五級評分，最高分5 分表示被評價對象的科研績效突出，遠高于世界標準；3 分表示符合世界標準，1 分表示遠低于世界標準。但隨著澳大利亞大學科研質量近年來的快速提高，2018 年ERA 評價結果顯示，90%的大學科研績效達到3 分及以上，致使ERA 無法有效區分高績效組，這一現象被形象地稱為“不斷膨脹的舒芙蕾”（souffle keeps on rising）［25］。EI 三級評分的等級設置則存在無法精確區分兩端大學科研表現的問題，因而元評價結果建議采用更細粒度的評級，同時提升評價基準。這就需要召集專家工作組與利益相關方合作，共同修訂科研評價量表、引文和同行評議基準、世界標準的定義和適用性，以及相關評價指南。

參評資料收集方式易操縱。2018 年ERA 使用人口普查日期（census date）的方法確定科研人員及其產出的參評資格。在這種方法下，如果一所大學于ERA 評價支撐資料收集截止日期前聘用一名高水平科研人員，那么該科研人員即使在另一所大學取得科研產出也有資格參評，這就留有操縱ERA 的風險。因此，元評價認為根據附在科研成果上的大學來確定參評資格是一種更公平的評價方式。

3 啟示與反思

3.1 元評價主體：學術同行與最終用戶相結合

生產原創知識是科研活動的核心旨歸，科研評價通常圍繞科研成果及其學術影響展開。伴隨知識生產方式從模式1 向模式2 轉型，科研評價除捕捉學術影響外還需考量更廣泛的經濟、社會、文化、環境等非學術影響，英國REF 已將科研影響作為3個評價指標之一（其余兩個分別為科研成果和科研環境），澳大利亞則在ERA 之外單設EI 專門評價科研影響力。在EI 中，澳大利亞引入科研最終用戶的概念，意指學術界外直接使用或直接受益于科研成果的個人、團體或組織。典型的科研最終用戶包括政府、企業、非政府組織、社區和社區組織［26］。作為對科研評價的評價，科研元評價一方面依賴學術同行從專業視角判斷科研成果及學術影響力的評價過程是否合理以及評價結果可靠與否，另一方面也需要最終用戶從體驗視角審視非學術影響力是否得到有效評價以及科研評價活動本身的成本收益。因此學術同行與最終用戶相結合的多主體模式無疑成為我國開展科研元評價的占優策略。考慮到跨界合作可能面臨思維方式與行動風格的大相徑庭，由學術同行與最終用戶組成專家組協同開展科研元評價必須建立順暢的溝通機制。在科研元評價開始前，由委托方組織專家組成員協商評價標準、熟悉評價流程、確定評價分工。在科研元評價過程中，設立溝通聯絡專員負責協調專家意見，促進共識達成。

3.2 元評價內容：實證評價與價值評價相結合

理論是實踐的燈塔，相比數據驅動，理論驅動下制定的科研元評價內容邏輯性、系統性更強。英澳兩國科研元評價以弗蘭克·費希爾的公共政策評估綜合框架為理論基礎，覆蓋項目驗證、情景確認、社會論證和社會選擇四部分內容，既從操作層面對REF、ERA 和EI 的執行情況展開實證評價，又從價值層面判斷REF、ERA 和EI 與更龐大社會系統的互動，以及科研評價環節潛在的公平風險。中國在設計科研元評價內容時，弗蘭克·費希爾的公共政策評估綜合框架同樣值得借鑒。從該理論框架的視域觀之，科研元評價的維度選取可分為兩類4 種：實證評價類指標具體包括驗證科研評價執行情況的客觀指標，以及確認科研評價情境差異的主觀指標；價值評價類指標具體包括反映與社會系統耦合關系，以及社會倫理道德規范的相關指標。其中，驗證科研評價執行情況的客觀指標可對照評價目標逐級設定，確認科研評價情境差異的主觀指標可在評價目標基礎上適當延伸，深度了解評價目標實現的前因后果，以及目標之外的衍生影響。價值評價類指標可考察科研評價活動的社會輿情、價值導向、公平與效率等。

3.3 元評價方法：定量評價與定性評價相結合

評價方法的科學性決定評價結果的可靠性，方法不恰當不但難以實現預計評價目標，甚至得到錯誤結論，將科研評價引入歧途。從國際經驗看，科研元評價采取定量與定性相結合的混合評價方法已成大勢所趨。問卷調查、利益相關者訪談是常用的元評價數據收集手段，目前評價設計與后續數據分析技術均較為成熟。但仍需注意的是，混合評價法絕不是定量評價與定性評價的簡單組合，而在于根據不同的評價內容選擇適合的評價方法，元評價內容的豐富性決定了評價方法的混合性。通常而言，實證類評價內容中客觀部分采用定量評價更合適，主觀部分和價值類評價內容則更適合使用定性評價，且無論是定量評價還是定性評價都必須遵循規范步驟以保證數據質量。此外，中國在科學規范使用傳統評價方法的基礎上還需不斷創新評價方法工具箱，可嘗試引入大數據、模糊邏輯、人工智能、機器學習、神經網絡等數智手段全方位、全要素、全流程開展科研元評價，提升元評價專業化程度。

3.4 元評價結果使用：總結性評價與形成性評價相結合

從評價階段看，元評價主體、內容和方法主要對應評價前端，順利實現元評價根本目標還有賴評價后端元評價結果的合理使用。按照性質不同，科研元評價結果可大致歸為兩類：一類是圍繞科研評價目標達成度的總結性結果；另一類是圍繞科研評價外溢影響、不足之處與改進建議的形成性結果。不同類型的評價結果所承載的功能各異、缺一不可。英澳科研元評價中無一例外囊括兩類結果，總結性評價結果肯定了REF、ERA 和EI 基本達成質量導向、支撐決策、問責循證和標桿比較的既定目標，相當于為各項科研評價繼續存在的合理性背書；形成性評價結果則提醒委托方科研評價在發揮正面作用的同時也可能引致逆向激勵策略包裝參評材料、損害科研誠信、科研原創性和自主性等負面影響，REF、ERA 和EI 在實施過程中暴露的評價數據填報負擔重、評價等級設置不合理和參評資料收集易操縱問題為下一輪科研評價改革指明了方向。全面覆蓋兩類評價結果，以及充分發揮不同性質評價結果的比較優勢也是中國開展科研元評價必須突破的重點問題。科研元評價首先需對照科研評價活動的既定目標，總體判斷其實現程度，這是開展科研元評價的核心任務，總結性評價結果將作為科研評價問責依據。但目標導向的評價屬于封閉式評價，難以揭示目標之外的非預期影響，因而必須結合開放式的影響評價，盡可能全面呈現科研評價活動對個人、組織、系統等不同層面評價對象的異質性影響。同時，科研元評價的根本目的仍在于發現科研評價活動存在的典型問題，所以還需要通過形成性評價結果明確科研評價的改進方向。

3.5 反思

最后，英澳兩國與中國國情存在較大差異，評價情境的不同決定了中國不能照搬英澳經驗，必須在參考借鑒基礎上探索適合中國國情的科研元評價制度。英國和澳大利亞的高等教育規模遠小于中國，2020 年英國高等教育在學總規模275.19 萬人［27］；澳大利亞高等教育在學總規模162.29 萬人［28］，而根據中國教育部公布的數據，同年全國（未包括香港特別行政區、澳門特別行政區和臺灣省。）在學總規模達到4 002 萬人［29］。科研評價活動本身已然占用不少的人力物力財力，鑒于中國超大規模的科研系統體量，科研元評價可能進一步加劇評價成本，干擾科研工作正常運行，造成資源效率雙重浪費，評價異質性和復雜性也隨評價規模擴大成指數級增長，簡單移植他國實踐具有南橘北枳風險。另外，英澳科研元評價也并非無可挑剔的金科玉律，其局限性同樣值得反思。除元評價方法有待進一步豐富完善外，元評價結果中指出的不足之處與改進建議也更多停留在操作層面，未能觸及更深層次的評價理念、評價文化問題。事實上英澳兩國科研元評價興起背后有其特定的社會思潮根源，深受新自由主義、新公共管理主義催化，這也從另一角度表明必須批判借鑒兩國科研元評價經驗。