學術評價的元評價機制

2010-04-29 00:00:00朱少強唐林柯青

重慶大學學報(社會科學版) 2010年3期

摘要：元評價是對評價的評價，它對于規范各類評價活動，發現評價中存在的問題和偏差，提高評價質量具有重要作用。當前中國學術評價體系中存在一定的混亂現象，需要建立相應的元評價機制來加以引導和規范。可以考慮從對評審專家的評價、對評價機構的評價、評價行業協會、學術出版認證等角度來構建中國學術評價體系的元評價機制。

關鍵詞：元評價；學術評價；規范化；認證；行業協會

中圖分類號：C931 文獻標志碼：A 文章編號：1008-5831(2010)03-0081-05

評價的根本目的是服務于管理，是要為管理者提供輔助決策的關鍵信息。尤其是當今“大科學”時代，學術評價的結果幾乎都會直接影響各學術機構和學術從業人員的切身利益及各種資源的分配。自20世紀90年代以來，隨著以量化評價為代表的各種評價考核方式的大規模應用，由學術評價引起的爭議也越來越大。人們逐漸認識到，學術評價能否發揮預期的作用，很大程度上取決于評價自身的質量。某種意義上，評價是一柄雙刃劍，可能促進也可能扭曲學術事業的發展。因此，對于規范和衡量學術活動成效的學術評價自身，也很有規范和衡量其好壞的必要。這就涉及到所謂的“元評價”問題。

一、“元評價”概念及對學術評價的元評價

“元評價”即“對評價的評價”，其最初提起及應用主要是在教育領域。“元評價”概念最早是由美國評價理論專家麥克·斯克里溫(Michael Scriven)在1969年的教育產品報告中首次引入的，當時是為了描述一個對教育產品設計的評價之評價，即對評價進行再評價的過程。國外學者對于元評價比較權威的解釋是：“元評價一般是指對評價技術的質量及其結論進行評價的各種活動。元評價就是對于評價的評價。其目的是向原來的評價者們提出他們工作中存在的問題和片面觀點。”“在中國，對評價自身質量問題的研究是從20世紀80年代中期開始的，中國學者把元評價又稱為“元評估”、“再評估”、“再評價”、“后設評價”等。元評價的重要意義在于：對評價活動自身的好壞進行反思，總結成功經驗，糾正評價過程中的失誤和編差，有利于實現評價活動的科學化和規范化，從而提高評價活動的質量或適用性。可以認為，元評價是評價活動從純粹的實踐探索，逐步走向理性化、科學化和系統化的一種表現形式。

如同對評價活動自身的關注一樣，可操作性和規范性正在成為元評價的核心話題。1981年、1988年美國教育評價標準聯合委員會先后公布了《教育方案、計劃、材料評價的專業標準》和《人事評價標準》。1991年由美國教育統計局資助的合作性教育數據收集和報告標準項目工作小組公布了《教育數據收集與報告標準》。1994年由美國教育評價標準合作委員會制定了“項目評價標準”，1995年由美國評價協會制定了“美國評價協會指導原則”，這是判斷項目評價質量的兩個主要工具，它們之間相互協調和補充，共同作為項目評價元評價標準的基礎。1999年，丹尼爾·斯塔弗爾比姆在西密歇根大學評價中心以教育評價標準合作委員會的項目評價標準為基礎，開發了項目評價的元評價標準檢核表，包括四個標準，即實效性標準(utility)、可行性標準(Fea—sibility)、適合性標準(Propriety)和準確性標準(Ac—curacy)。元評價人員可以根據該檢核表和量化的公式，采用定量計算和定性描述相結合的方法，綜合得出科學、公正的元評價結論。

關于元評價的內容和方法，國內外諸多學者進行了有益的探討。例如，王從雙等認為，以具體評價活動為對象的元評價主要有以下內容和標準：一是對評價方案進行評價，包括評價對象和評價目的、評價標準、評價指標和權重分配、評價方法、信息收集和處理方法等幾個方面；二是對評價的組織實施進行評價，包括對評審專家組成員和評價組織工作的再評價；三是對評價的結果進行評價，包括評價結果被接受的程度，評價的信度與效度等。王敏提出內容分析法、經驗總結法、評價信度分析、評價效度分析等四種元評價方法。馬寧鋒等按評價活動中的各種要素來劃分元評價的對象，將元評價分為對評價主體的評價、對評價內容的評價、對評價方法的評價、對評價結果的評價四種類型。錢存陽等用多元統計分析中的克倫巴赫(L.J.Cronbach)α法和因子分析來分別檢驗評價體系的信度和結構效度。馮暉借鑒軟件工程中軟件測試的原理方法，提出了基于黑盒測試和白盒測試的元評價方法。楊毅等采用斯皮爾曼等級相關系數對科技進步綜合評價指標進行分類，確定強相關和弱相關指標，借以分析在指標設立方面存在的問題，優化指標體系等。

目前國內關于“元評價”的研究文獻主要集中在教育評價領域，學術評價領域內涉及“元評價”的極少。其主要原因可能在于：目前中國學術評價的理論和實踐發展，還遠遠沒有教育評價那樣成熟，還處于實踐摸索的初級階段，而缺少科學性和規范性。但近來隨著對學術進行量化考核引起的爭議越來越大，一些學者也開始認識到“元評價”之對于學術評價的重要意義。例如在“人文社會科學評價問題”學術研討會上，與會專家認為“與評價問題相關的還有‘對評價的評價’問題。由于普遍存在的評價程序不公正，使評價常常出現‘外行評內行’現象，必須對評價者進行審定。要建立相互制約、彼此監督的社會機制來解決對評價的再評價問題”。當前學術評價實踐中的“工具至上”思維十分流行，管理操作的觀點主導了評價實踐；對于評價主體、評價目的、評價標準認識不清，各種評價方法、指標任意套用、胡亂搬用，象把數量當水平(以發文數量評教授)、把投入當效益(科研項目和科研經費的多少)，或者籠而統之搞“綜合”的現象比較多；由于缺少科學和規范的理論指導，造成許多問題、爭議。因此與教育評價領域相比，當前中國學術評價體系也迫切需要建立一種元評價的機制。

由于元評價是“對評價的評價”，即以評價活動自身為評價對象的。而根據對評價活動的構成要素進行分析，一項完整的學術評價活動，應該包括2個實體性要素——評價主體、評價對象，以及8個非實體性要素——評價目的、評價標準、評價內容、評價程序、評價方法、評價指標、評價數據、評價結果等的參與；其中評價主體又分為委托方、評價方、被評價方三方。因此，可以考慮以評價活動的10個要素為線索，構建學術評價的元評價體系和機制，例如對評價主體的元評價，對評價方法和指標的元評價，對評價標準和數據來源的元評價等。

二、對評審專家的元評價

評價方是貫穿整個評價活動的主要實施者。“元評價”的主要目的是對評價方建立約束機制。如果說程序公正機制是著眼于建立一種基于“過程”的約束機制；那么“元評價”則主要著眼基于“結果”的約束機制。評價主體的各方相對獨立、分離，并處于一個委托／代理關系的鏈條中；這是實施“元評價”的基本邏輯前提。

最重要的元評價機制，可能是對同行評審專家的評價。權利與責任對等，這是實現公正、公平的基本原則；然而現有的同行專家評審體制，基本上是有權、無責。以“雙盲”通訊評審為例，看起來似乎很公正，但這要建立在選對了真正的同行專家，且專家認真負責、人品高尚可信賴的假設基礎之上。同行專家手里握著無形的權力，掌握著學術成果、研究人員乃至重點學科、重點研究基地等的命運；但除了良心以外，對專家本人似乎沒有更多的約束——就算專家把通訊評審的工作交給他的學生來做，或者假公濟私、搞人情關系，或者潦草塞責、隨便應付，既難以明眼看出，也難以采取懲罰措施，因為專家畢竟有權發表自己的任何意見。隨機遴選專家的規則只是降低了搞人情關系現象的可能，并不能解決專家是否稱職、是否有能力勝任、是否認真負責的問題。理論上，也可以公開評價過程與結果，如果評價結果不公，可以提出申訴，但也只是再另外找人復審而已，作弊的專家一般并不會有什么損失。因此，需要對評審專家建立一種事后的、基于信譽的約束機制。

對同行評審專家的“元評價”，卜衛等人提出了一系列方法，包括評估者整體信度分析、評委個人信度分析、評委嚴格度分析、評委個人一致性檢驗等。其基本思想是：信度分析的任務實質上是測量評委間態度的一致性。而每個評委的信度，即是該評委與其它評委態度的一致程度。評委間對成果評價的一致性程度越高，就認為這個評委組信度越高——而這可以用統計學的方法來加以判別。評估者整體信度用肯德爾系數w或卡方值x²估計。評委個人信度用相關系數R或協方差COV估計。評委嚴格度用評委打分均值與總體均值之差來代表。如果評委對各成果打分未能保持基本一致的寬嚴程度，則判定該評委在某些成果打分上可能不公正；該評委對該成果的打分應在匯總計分時去掉。筆者認為，除上述分析之外，對評審專家的專業水平、評審態度、信度等信息，還應該納入一個可以在學術界共享的、保存有連續累積數據的數據庫系統中，納入到一個信譽、信用管理機制當中。如果某評審專家有多次不良信用記錄，則他的評審權利就將被取消。這樣才能真正形成“元評價”的機制。

三、第三方評價機制和對評價機構的元評價

評價機構也是重要的評價主體。由于評價活動是由評價機構具體組織，有關評審的操作流程、方法和指標一般都是由具體執行評價的機構來設計，評審專家也多數是由該機構來聘請，所以評價機構的專業水平如何、組織是否健全等，對于評價的科學性和公正性有極大的影響。對評價機構進行元評價的主要障礙在于：當前作為“評價方”的評價機構和作為“委托方”的科研行政管理部門基本上是兩位一體的，致使評價活動及其評價機構沒有相對獨立性，妨礙元評價機制的發揮。

對于評價機構的“元評價”，首先需要市場化的、多元競爭的環境。發展獨立的“民間”第三方評價機構，委托方基于這些機構的專業水平、特長、信譽等，與其中某一機構簽訂委托評價合同。委托方可以對這些中立的第三方評價機構建立信用、信譽管理體系。只要有充分的市場競爭存在，市場本身就足以成為評價機構的“元評價”機制，就會自動對評價機構構成強有力的約束。

如前所述，掌握科學研究資源分配的科研行政管理部門，雖然在形式上是直接的評價委托方，但根據公共行政理念，它自身也是作為科學共同體或公眾的“代理人”而執行其使命。因此，更有必要把“評價”的職能從科研行政管理部門中獨立，以接受社會監督和保障公平。基于學術評價過程中行政干預因素過多，如搞“平衡”、講“照顧”等情況；許多學者建議，應大力發展獨立的第三方評價機構，許多評價活動可以交給這類機構去做，既把科研行政管理部門從具體的評價組織活動中解放出來，又可以保證評價的獨立性、避免外來因素的干擾。按照市場經濟邏輯，有壟斷就有不公，有競爭才有約束。應該發展一批獨立的第三方評價機構，以便相互形成競爭局面，而不是另設新的官僚機構和形成新的壟斷。“官方”的評價機構和民間的評價機構可以并存，并在一個評價行業協會的認證和監管之下，做到相互監督、相互競爭和行業自律。

四、評價行業協會和評價活動的規范化

如果第三方評價機構比較繁榮、規模相對較大，還需要建立科學研究評價的行業協會，用以對科學研究的評價標準、評價辦法、評價指標、評價主體資格、評價程序等實施認證、規范等活動，進行行業信息披露、行業自律和監管。評價行業協會可以代替所有委托方，對眾多第三方評價機構及同行評審專家統一信用管理。與競爭性市場一樣，行業協會也是一種重要的元評價機制。

對評價指標、評價方法、評價程序進行標準化、規范化，也是評價行業協會的一項重要“元評價”職能。目前國內各單位學術評價往往各行其是，沒有統一的標準和操作規范；從許多關于“指標打分法”的研究來看，依靠個人主觀感覺、好惡設計評價指標體系的很多。一些評價體系試用的結果，缺少嚴格的實驗數據支撐，僅僅是感覺試用效果“良好”。這些指標體系、方法，沒有經過長期、多次的試驗，很可能并不成熟，就在實踐中使用，難免會造成問題。而建立元評價機制，對這些評價程序、方法、指標形成穩定的指導性規范，將有助于解決當前學術評價中出現的種種問題。

當前國內學術界的功利與浮躁情緒，不僅表現在評價指標的數量化導向上，也反映在評價方法、指標本身的形成程序上。蔣國華曾經指出，早期的諸計量學量化指標主要是用于為了科學決策而開展的科學質量和科學發展趨勢的研究，也就是宏觀層面的應用；應用于科學家個人成就的評估，是后來的事。在科學計量學的理論研究方面，西方發達國家自始至終走在前列；而在實踐運用科研計量評價方法方面，前東歐社會主義國家卻更加積極、激進，西方發達國家則顯得保守。至今為止，美國、英國仍然實行以同行評議為主的科學研究評價體制。筆者認為，西方發達國家這種“慢決策，快執行”的謹慎態度，值得我們學習。

謹慎的態度，要求有相應的“元評價”機制。對于一切量化評價方法、指標，以及同行評議的方法、程序，或者如數據庫、網絡等現代化技術手段，不管新的或舊的，應該持一種開放的、批判的態度。在不同的環境下，允許不同的評價方法、指標進行一定程度的試驗，但在得到公認、發展成熟之前，使用應該謹慎。在不同的評價機構、評價方法、評價指標、評價標準、評價程序之間，應該存在一種開放、有序的競爭機制，最終讓優異者在競爭中脫穎而出。這種開放的環境和態度，本身就是一種“元評價”機制。但與此同時，需要警惕“工具至上”思維和簡單的“拿來主義”，認真區分研究性評價和實踐性評價；注意實踐性評價的要求，對于任何應用于大規模評價實踐的評價指標體系、評價方法、評價程序等，一定要經過實驗的反復檢驗，證明比較成熟、可靠才行。為此，建立類似評價行業協會等有形的“元評價”體系也是極有必要的，其作用就在于對于各類評價機構、評價專家、評價方法、評價程序等進行研究、管理、規范和認證，加強評價活動本身的規范性。

五、學術出版認證機制和對評價標準的元評價

學術規范的普遍遵循是定量指標評價方法有效的邏輯前提。否則，即便采用看似客觀、公允的定量指標評價方法，也不能挽救學術評價的失效和學術研究的失范。大力加強學術規范，改善學術生態環境，不僅是科學研究事業健康繁榮發展的需要，同時也是完善學術評價體系的需要。但學術環境、學術規范的改善，是一項復雜的系統工程，非一朝一夕之功。當務之急是把好“杠桿”——學術成果發表規范，以求“四兩撥千斤”的效果。具體地說，就是要加強學術論文、著作“雙盲”評審的同行評議審稿規范：同時，仿照ISO9000等認證體系，對學術期刊、學術出版社進行學術認證。

學術期刊之所以是“學術”期刊，不僅僅因為它刊載科學研究論文；同時也因為它決定論文發表的過程符合學術規范，即所有發表的科學研究論文都通過了學術同行的嚴格審查，并認定其確有創新價值。這才是“學術”期刊的真正奧義。對學術期刊的論文稿件實行雙向匿名評審，一直是國際上通行的做法，并已久經考驗，運作良好。1997年，中國政法大學張保生副校長作為中國高校社會科學代表團成員訪問美國加州大學伯克利分校，一位期刊主編在介紹匿名審稿制時反復強調：匿名審稿制是發現高水平論文的唯一有效辦法。沒有匿名審稿制，就不可能有高水平的科學研究。但目前由于種種原因，匿名審稿制并沒有在我國得到普遍遵守，許多學術期刊沒有足夠的經費支持，或本身辦刊就是為了賺錢而不是為了學術；出于辦刊成本等考慮，沒有穩定的審稿專家，僅僅靠編輯把關，制度不嚴格、不健全，人情關系稿泛濫，發文隨意性很大。這就嚴重損害了學術成果發表的應有程序規范，給學術評價也造成了困難。為此，應在學術期刊發文及出版社出版學術著作過程中，大力推行基于同行評議的雙向匿名審稿制度，充分發揮同行評議作為學術“看門人”的角色。

為了增強各學術期刊、出版社貫徹匿名審稿制的積極性，作為輔助措施，可以仿照美國各大學院系進行專業認證的做法，建立基于品牌、信譽管理的學術期刊認證制度。如果某學術期刊擁有相對穩定、高水平的評審專家隊伍，且在決定論文發表過程中嚴格遵循匿名審稿制度，就將之列入認證名單中，以表明該期刊具有可靠的學術水準。否則，就從認證名單中撤銷。這種做法并不稀奇，如SCI源刊的說明中，就顯著地標明該刊是否經過同行評議。

六、結語

元評價就是對評價體系或評價活動本身的再評價，它有利于從體制上規范各類評價體系和評價活動，發現評價實踐中存在的問題和偏差，提高評價質量。元評價機制的建立，是一類評價活動走向成熟和規范的標志。當前我國各類學術評價活動比較豐富，但以量化考核為代表的評價體系引起了一定的混亂和爭議，契需建立相應的元評價來對學術評價活動加以引導和規范。從對評審專家的評價、從評價機構的評價、評價行業協會、學術出版認證等角度來建構學術評價的元評價機制，將有助于推動學術評價事業的健康發展，從長遠來看也將進一步推動人文學術的繁榮。

重慶大學學報(社會科學版)2010年3期

重慶大學學報(社會科學版)的其它文章: 網絡信息傳播績效評估的基本要素分析; 壟斷競爭市場; 對解決農村土地征收補償收益分配糾紛的法律思考; 基于資產定價理論的保險費率研究; 城鄉統籌發展中反哺農業的社會公共政策創新:一個制度供給的視角; 中國古代詩歌用典的符號學分析