宋旭紅,高 源
(1.濟南大學高等教育研究院,山東濟南250022;2.南京師范大學教育科學學院,江蘇南京210046;3.山東交通學院威海校區基礎教學部,山東威海,264200)
傳統意義上的代表作是指具有時代意義或最能體現作者水平、風格的著作或藝術作品。大學教師評價中的代表作最初是作為教師研究能力的一種體現,主要是指最能體現其學術成就、研究價值或學術潛力的著作和論文。本研究將代表性成果評價限定為代表性科研成果評價。
我國大學較早采用的教師代表作評價,更多地指向了人文社會科學(文科)的教師評價。例如:2003年南開大學在教師學術成果評定和職務晉升評審中試行代表作制度;2004年清華大學在人文與社會科學院系實行代表性學術成果評價;2005年北京大學中文系等系在教師崗位考核中試點論文代表作制度;2009年中國人民大學在全校范圍推行論文代表作制;2010年復旦大學在部分人文社會學科試行代表作學術評價制度并在2011年推廣至所有人文社會學科。
人文社會學科的性質和特征決定了對人文社會科學很難做到純量化、純當下和純客觀的評價,與自然科學評價存在明顯的差異性。首先,自然科學具有研究對象客觀性、研究價值和評價標準統一性、研究程序可重復性、研究成果直觀可測量等特征;而人文社會科學由于其理論學說和思想體系的創新性需要在歷史和現實的兩個時空中做出價值和意義判斷,需要經長期實踐檢驗,所以其成果評價具有滯后性、多樣性和復雜性的特點。其次,自然科學研究成果更容易被引用,其影響力更多遵循指數衰減曲線規律;而人文社會科學成果獨立研究作者多,合作作者論文相對少,文獻引用的半衰期較長,引用的時間窗口被拉長,引用著作比引用期刊論文多[1]13-25。再次,在某些人文社會學科領域具有重要社會意義的本土研究對象具有文獻引用本土化特征,難顯國際化特征,難獲更多引用。文獻計量評價對某些人文社會科學成果評價會產生功能性障礙,存在更大難度和更多不可控因素,其跨學科比較具有不公平性[2]。人文學科需要相當廣泛的質量指標,這些指標必須符合該領域中成果、目標人群和出版文化的多樣性[3]。代表作評價始于人文社會科學,正是基于此。
與“代表作”相聯系的另一個概念是“代表性成果”。“代表性成果”概念的最初提出可以追溯到2004年發表的兩篇論文,作者認為,代表性學術成果就是能夠反映該學科領域的學術水平和學術地位的成果,可分解為代表性學術著作和代表性學術論文兩項具體的指標[4-5]。以此可認為,至2004年,代表性成果概念的內涵和外延可以等同于代表作,兩者內涵和外延發生變化的時間,大致可以2012年為界。
一是從代表作評價到代表性成果評價,概念的內涵和外延發生了變化。從實踐層面看,2012年復旦大學正式在全校教師高級職務聘任中實施“代表性成果”評價機制[6]。從最初部分文科院系中的代表性論著評價,擴展到全校所有學科教師的教學、科研、社會服務不同維度的評價,在政策演變路徑中體現出代表性成果概念的開放性和多樣性。從國家政策層面看,自2013年教育部在《關于深化高等學校科技評價改革的意見》中提出分類評價,“對主要從事創新性研究的科技活動人員實行代表性成果為重點的評價”以來,代表性成果評價機制先后在《關于深化高校教師考核評價制度改革的指導意見》《關于加快直屬高校高層次人才發展的指導意見》《關于分類推進人才評價機制改革的指導意見》《深化新時代教育評價改革總體方案》等國家政策文本中被強調。代表性成果評價作為大學教師評價、高等教育綜合評價中的特定概念開始出現在地方政府及其教育行政部門的政策文件里,并在不同類型高校中得到推廣和實施。
二是代表作內容和形式的變化導致其概念的內涵和外延發生變化。在2018年《關于深化項目評審、人才評價、機構評估改革的意見》、2019年《關于深化自然科學研究人員職稱制度改革的指導意見》、2020年《關于規范高等學校SCI論文相關指標使用樹立正確評價導向的若干意見》中,都明確提出了代表作評價機制。前者將代表作評價應用到不同學科門類的項目申請、人才評價和機構評估之中,豐富了代表作形式,明確規定項目成果、研究報告、專著譯著、技術標準規范等均可作為代表作;后兩者將代表作評價應用到自然科學領域,指向了自然科學的論文評價。代表作概念內涵和外延的變化,無疑將代表作評價等同于代表性成果評價。
代表作和代表性成果概念內涵和外延的變化,更加鮮明地體現了我國新時代教育評價改革在摒棄以量代質、強化學術本體價值之路上的積極應對和有益探索,但同時也導致了代表性成果評價在理想與現實、統一性與多樣性之間更加復雜的關系。當學科評價范圍從人文社會科學(文科)教師評價向自然科學(理工科)教師評價、從進行創新性研究的科技人員向不同類型的科技人員、從個別世界一流大學建設單位向不同層次和類型高校延伸之時,代表性成果的認定方式和評價方式就需要再審視。在“三流學校數論文篇數、二流學校數論文的影響因子、一流學校不對論文發表提要求”[7]存在現實客觀性和局部合理性的情況下,代表性成果評價中原創性和創新性的核心標準和評價目的就需要再審視。當學術評價內容和形式從單純的論文、著作、作品等方面的評價向項目成果、研究報告、技術標準規范、重大成果轉化與推廣等評價方面延伸,從科研領域的代表性成果向教學領域的代表性成果擴展,代表性成果評價的程序、方法和實現路徑就需要再審視。
從國家政策看,代表性成果評價只是一種倡導和探索的評價機制,并不是強制性的硬規定。優化和深化我國大學教師評價是一個系統工程,代表性成果評價只是大學教師評價的一種重要機制。它是一劑良藥,但并不能包治百病。學術晉升之路的奮力攀升是學術職業生命意義的全部呈現,無論是否存在代表作或代表性成果評價的概念和模式,大學教師在每一次職稱晉升和評聘的關鍵點上都會把自己最好的代表性學術成果優先呈現出來。無論國內國外,只要是大學就概莫能外。
從嚴格意義上說,代表作與代表性成果是兩個有差別的概念,代表性成果的內涵和外延比代表作寬泛。代表作只是代表性成果一個最重要的組成部分,應保持其原始意義中的論文、著作和創作作品的外延不變。當代表性成果評價呈現出學科多樣、高校層次和類型多樣、評價內容和形式多樣等復雜形態,并且相互交織、彼此滲透,代表性成果的概念及其呈現出來的意義比代表作更具現實合理性。
從我國高校實施的代表性成果評價看,可概括為3種模式,分別可稱為武漢大學模式、復旦大學模式和北京大學模式①。
武漢大學模式,是在教師專業技術崗位聘任和破格聘任有序進行的基礎上,將代表性成果評價作為一種獨立評價機制運行。武漢大學分學科、類型,按年度進行教師專業技術崗位評聘。與此并行,實行代表性成果評價制度:由教師個人按“代表性成果評價制度”條款申報,填寫《武漢大學代表性成果同行專家鑒定表》,提交3項標志性突出成果(論文、著作、項目、獲獎、咨詢報告等)的證明材料;各單位確定申報人申報資格,組織5名校內外同行專家,以通訊評審或會議評審的方式進行評議,評議結果分為“達到”“未達到”兩個等級,回收的評議結果至少要有3份“達到”,方可進入下一輪評審程序。
復旦大學模式,歷經兩個階段,以鼓勵教師潛心科研,做出高質量、創新性乃至突破性的優秀成果為宗旨,以“小同行”評價為核心標準,以分類評價和綜合準入為基礎標準,以“青年杰出人才”申請為專門渠道的“代表性成果”評價機制。第一個階段始于2010年,基本做法是:對于學校和院系制定的學術標準難于判別的、個別真正優秀的文科申請人,可以自主向學院提出申請,提交1~3篇代表作;學院學術評估通過后,由學校隨機選擇5位校外具有較高學術聲望的學者,匿名對申請人是否“真正優秀”“能否破格”“是否勝任”等問題進行學術評估。候選人能否參加高級職稱競聘的核心標準是同行專家的學術評價。第二階段始于2012年,在全校教師高級職務聘任中正式推出“代表性成果”評價機制,并對代表性成果做出了明確界定:教師在穩定的學科方向上,通過持續的研究,形成能代表自己學術水平的創新性成果。此后,學校不斷完善代表性成果機制,如:精準實施校外“小同行”評議;將正高和副高申請人的外審份數從3~5份和2~3份增加至8份和5份;建立人文與社科、理科、工科、醫科、教學為主5類學術評價指導標準;通過“青年杰出人才”專門渠道申請正高級專業技術職稱的候選人,可不受學校規定的“代表性成果數量”或“任職資歷”限制;完善綜合準入基礎上的“代表性成果”評價機制,在堅守依法教學、教書育人、為人師表等教育質量標準的基礎上,將教師個人高質量的學術成就作為教師專業技術崗位聘任根本標準。
北京大學模式主要包括兩種形式:第一種是在教學科研系列中的長聘職位和教授職位晉升中,對主要學術成就中的著作、論文設置提交數量,采用代表性學術成果評價;第二種是對講席教授、人文講席教授等人才稱號職位聘任和正高級專業技術二級、三級崗位聘任,主要采用代表性學術成果評價。在第一種形式中,規定提交主要學術成就中的代表性著作、論文總計不超過10篇(部);而在主要科研項目、科研成果應用轉化情況、有重要影響力的研究報告方面,均未做出具體數量限制。在第二種形式中,要求提供近5年的教學科研工作和成果目錄,代表性學術論文或專著不超過5篇(部);對于符合學校規定的激勵條件類型,在教學獎勵、教學責任、科研獎勵、科研責任、社會服務等類型中,每一類只列舉一項。
雖然,3種模式共同強調了教師學術成就的高質量和影響力,更加注重學術專長和學術創新,但高質量的評價標準在3種模式之間顯然不具有絕對意義上的一致性。復旦大學模式是教師評聘的基本形式,武漢大學模式是教師評聘形式中的一種形式,北京大學模式則是教師評聘中的一個方面。在3種模式中,北京大學以著作和論文為主體的代表性成果評價,最接近代表作評價的原本意義。
武漢大學模式從制度上鼓勵僅憑重大成果就能脫穎而出的學術創新人才,營造呵護甘于沉潛寂寞的學術發展環境。申請代表性成果評價的教師明顯是以質取勝,其代表性成果的學術水平不僅要高于正常晉升教師的成果水平,而且還要得到教師個人、學校和學術共同體的集體公認。
復旦大學模式在評價范圍普遍化的過程中,個人高質量學術成就的評價標準必將會與當年度教師崗位評聘的數量和候選人的學術水平產生內在關聯,其評價標準也因此具有一定的相對性。在大致同等學術水平教師之間的競爭中,其提交代表性學術成果之外的學術產出數量與質量無疑也是衡量教師能否晉升聘任的一個砝碼,但這個砝碼由于被評價成果的數量限制而變得無處安放并難以衡量。面對這一問題,復旦大學通過增加代表性成果的數量進行了部分緩解。
北京大學模式無疑更加接近美國一流大學的教師晉升和終身教職評價模式,在堅持教師發展綜合評價和業績全面呈現的基礎上,突出教師個人代表性成果評價。既重視教師評聘的主要學術成就,重視高質量著作和論文的代表性,又不輕易將教師學術成果的質量與數量絕對分離,從而將大學教師的社會職責通過教師評聘制度立體化地呈現出來。
有學者認為,大學教師代表性成果評價主要是借鑒國外大學教師評價的成功經驗。的確,很多國外大學在教師評價中都十分強調教師學術的內在品質,但并沒有完全放棄將學術成果數量和學術生產力作為教師評價的一個重要方面,也并沒明確提出代表作或代表性成果這樣一種評價機制。例如,美國哈佛大學在其教師手冊里提到,副教授晉升到教授需要提交的出版成果包括精選重要文章和最新文章(或其他作品)、未發表的重要手稿、候選人出版作品的所有重要評論;藝術成果包括重要的創意作品、最新作品以及所有重要評論的清單;引用信息包括候選人作品的總被引次數、候選人每份出版物的引文計數[8]。斯坦福大學在終身教職評估中對研究績效或前景的考慮因素包括學術活動和生產力,學術影響、創新和創造力,在相應領域的認可度和知名度等[9]。有研究認為,盡管世界頂尖大學晉升和終身教職評價中所謂的“卓越”包含很多要素,但其中一個主要因素是個人出版物的質量和數量[10]。對于這一數量的要求,南加州大學認為:學術生產力是學者未來學術發展前景的有力證明,聘用、晉升、終身教職決策雖與完成數字的目標無關,但學術貢獻和影響力通常來源于累積的成果數量,如果學術成果的數量低于通常的水準就會造成一些問題[11]。北京大學雖與南加州大學教師評價模式最為接近,但在著作、論文方面對于候選人的要求恰好相反:南加州大學重點強調候選人應在影響力大的期刊上發表足夠數量的論文,而北京大學卻對候選人的著作和論文數量做了限定。
大學教師評價制度中的數量和質量的關系非常復雜,重數量與輕質量、重質量與輕數量并不具有互為前提的、直接因果關系。費斯特(Gregory J.Feist)[12]根據出版物的特點,將美國加州頂級研究型大學的99位男性科學家分為4個類型:多產型(prolific,既出版物多,又引用廣泛),沉默型(silent,出版物很少,引用也很低),大量生產型(mass producer,出版物很多,但引用很少)和完美主義型(perfectionist,出版物很少,但引用廣泛)。判斷科學家卓越聲譽的原始標準是成為美國國家科學院(NAS)的成員。根據1980-1984年及1990年這6年的數據,在99位科學家中,沉默型科學家被引16次,大量生產型的被引少于25次,完美主義型和多產型分別有123和150次被引;沉默型和完美主義型的出版物數量為65和75,大量生產型和多產型平均擁有200多種出版物;99位科學家中有31位是NAS成員,在31位NAS成員中,沉默型占3%,完美主義型占14%,大量生產型占62.5%,多產型占54.8%②。實證研究結果表明,至少在相對精英的科學家群體中,卓越度既與質量相互影響,又同樣取決于數量:對于大量生產型和多產型來說,無論其作品是否被高引用,數量優先于影響力;但對于完美主義型來說,質量非常重要,高質量的成果可以帶來更高的卓越度和享有盛譽的獎項。
學術成果的數量積累在一定程度上是學術影響力和學術生產力形成的基礎和科學家卓越的標志,同樣也是科學家進一步進行學術創新的資本。雖不缺少僅憑數量不多而水平極高的學術成果獲得聘任和晉升的教師,但這樣的教師群體評價并沒有成為大學教師整體評價的基本標準和基本方式,就如同沒有將數量的要求作為大學教師評價硬性規定或前置條件一樣。
唯論文并不僅僅是重數量和輕質量的問題,重數量與論文低水平重復發表并不是完全等同的概念,重質量在絕對意義上也并不一定要輕數量,數量少并不一定等同于質量高,質量高也并不等同于數量少。代表性成果的質量與數量并不對立、不矛盾,而這一重一輕則把數量和質量對立了起來,這種非此即彼的二元對立思維方式,無法從根本上破解教育評價乃至科學創新中的“卡脖子”難題。
在我國高等教育評價中,通過行政干預在較短時期解決重數量的現實問題并不難,但需要在很長時期內花大力氣去解決怎樣重質量的問題,需要進一步論證和反思不同科學家的工作類型、不同高校的類型、不同教師的學科類型在量化評價與質性評價中的共融空間,以及在科學研究活動中數量與質量的共生價值。
首先是代表性成果由誰界定的問題,其關鍵是高校要確定代表性成果認定的主體。
對于代表性成果評價對象個體來說,代表性成果就是教師自我認定的最高水平的學術成果,評價標準源于教師個人的學術判斷。但是,教師自我認定的“那桿秤”,究竟是自己的,還是所在大學同一學科內的最高水平成果?是國內的,還是國際的同一個研究領域的最高水平成果?
南加州大學認為,教師每次聘用、晉升、終身教職決策都應符合一流大學的國內和國際標準,提高學術單位的整體地位。校方要求候選人的學術或藝術作品應是杰出的,在同行中獲得廣泛認可,在其學術領域中享有良好的聲譽[11]。南加州大學將教師評價過程的自我學術水準認定和同行學術水準認定從整體上做了統一。代表性成果不僅僅是教師自我認定的“那桿秤”,同時又是教師學術成就在所在大學、所在國家乃至全世界同行中的一個水平認定的過程;在教師自我認定的最高學術水平成果的基礎上,還要有一個基于學術共同體能夠達成基本共識的認定水準。這其中真正考量的既是被評價者在國內外同一研究領域中的內在質優,又是同行評價者的學術水準、學術誠信和學術良知。
其次是代表性成果怎樣界定的問題,其關鍵是代表性成果認定標準的問題。
最能得到學術共同體公認的代表性成果是那些具有原創價值和重大社會貢獻度的創新性、標志性成果;評價的是大學教師中最具有特殊天賦和特殊貢獻的非常規和超常規人才,這一群體的學術影響力以質取勝足矣,數量限定確是畫蛇添足。但是,任何一個國家的學術職業都不是只由頂尖學術精英構成,也不是任何一個教師都能成為學術領軍人物和原始創新的開拓者。不是所有類型高校的所有教師都具有“數十年鑄一劍”的創造力,成為摘得國際學術桂冠的頂級科學家。
當代表性成果成為大學教師評價的共同尺度和基本制度時,代表性成果中的科學桂冠和頂峰之作的指向意義就會在一定程度上消減,而代表性成果評價本體價值的象征意義就成為制度的邏輯起點,合理的數量認定和明確的質量標準就成為這一制度構建不得不面對的關鍵問題。
一是構建科學的代表性成果數量限定。統一的、硬性的數量限制很難公平公正地評價出不同學術生產力類型教師的學術影響力。在實施代表性成果評價的高校中,代表性成果的數量是由教師評價管理部門規定,但這些規定很難在政策文本和研究文獻中找到一個嚴謹而清晰的科學依據。與一個統一的數量規定相比,申請人自我認定的高水平成果,抑或是其同一研究領域的系列發表或出版,抑或是其全部學術成果中的前10%~20%,在應然上更具合理性。而具體到不同模式的代表性成果評價,武漢大學模式更要突出高水平成果在專攻領域的原創性和影響力;復旦大學模式則更要突出個人成果自我認定的代表性,在評價標準上要盡可能地兼顧成果的數量與質量。3種模式都要在數量限定的同時平衡不同學科的差異性,以及系列出版物在同一研究領域創新過程中的內在關聯性。
二是構建具有共識的代表性成果認定標準。具有共識的評價標準是代表性成果在學術共同體內具有可比性的前提條件。如美國國家科學基金會的同行評議,其中通信評議有一份用于總體評價的5級評價標準,分別為優秀、良好、好、尚好和差,其中優秀的評分標準是:“可能落到在這一分科中最好的10%的申請上;最優先支持的申請。該評分僅適用于真正杰出的申請。”[13]再如,武漢大學代表性成果同行專家評議的5級水平評價標準:頂尖(前10%)、優秀(前30%)、良好(平均水平)、一般(平均水平以下)、較差。如果按總體評價的5級評價標準,正高級職位的候選人代表性成果評價標準至少應該屬于國內同一時期同一個專攻領域中最好的10%,或是國際同一時期同一個專攻領域中前30%;副高級職位的候選人代表性成果評價標準至少應該屬于國內同一時期同一個專攻領域中前30%。
三是文獻計量學在代表性成果評價中價值定位的問題。文獻計量學自20世紀90年代以來普遍成為評價科研和科研人員的主要工具,其原因恰是因為同行評價越來越多地被認為過于主觀,需要用更為客觀的數據來加以補充甚至替換[1]8。但是,研究者又發現文獻計量學評價存在著自身難以克服的缺陷:如論文的引用不多有時并不代表論文本身質量不高,只是反映了科學家們還沒有對這一主題感興趣;在人均論文數量不變的情況下,被引頻次也取決于學術共同體的規模;一些真正具有創新價值的成果可能在一段時間內處于零引用,許多重大發現可能很多年后才會被引用,像愛因斯坦的發現或DNA結構一樣,一個較低h指數的背后也許隱藏著一位高水平的科研人員等[1]13-64。文獻計量學中的“睡美人”現象[14]及其不同學科論文引用存在的差異性同時又為同行評價的合理性提供了反證,為文獻計量學評價提供了反對和批評的證據。從總體來看,除了引用行為的多樣性和差異性外,引用仍然對成果的科學影響力評價有積極作用,因為它隱含多種用途的全球顯示度(包括修辭學引用的說服功能)[15]。
我國大學教師代表性成果評價已經存在的弊端體現在三個方面:一是以刊評文、以被引頻次論質的評價思維慣性導致評價的主客體對于成果的創新性、貢獻度的關注不夠,論文發表刊物的級別、影響因子成為同行評價的基本依據;二是代表性成果評價范圍的擴大帶來評價難度和成本的提高,以及同行評價專家遴選目標針對性的降低,大文科、大理科同行評價也就在所難免;三是我國同行評價制度體系有待健全,還沒有作為本質存在嵌入科學之基,與整個科技大廈融為一體。
同行評議是支持最優質研究和成果的根本依據[13],致力于關注那些被認為是最“好”的且最為重要的研究活動。從代表性成果評價外在指標凸現到內在質優的轉化,同行專家的通訊評議起著關鍵作用。而同行專家要對研究者的能力、研究內容和研究價值做出客觀、公正的學術判斷,在堅持保密政策和避免產生利益沖突的基本前提下,其專業水準及其與申請者申請內容的契合度和精準度成為至關重要的決定因素。
小同行評議,從同行評議專家的遴選范圍來說,是一個縮小的同行評議專家圈,一個具有相同或相似研究主題聚集而成的小型學術群體;從學科分類的角度來說,是由學科門類-一級學科-學科研究方向下的研究領域,或是研究領域下的一個研究方向,聚集而成的學術群體中的領先專家。絕大多數學科都包含范圍廣泛的子專攻領域,主要形成了基于理論、基于技術、基于共同研究主題三種專攻類型,這三種專攻類型往往相互交集而存在;同一專攻領域的學者,他們專業身份上往往具有共同的定義[16]。小同行評議專家是一個專攻領域中的領先者。小同行評議作為代表性作品評價最適切的方式,其核心價值和意義正在于它能夠有效而可靠地去測度候選人學術成果的科學性和優質程度,從而確保學術資源達到最合理的配置。
南加州大學對于小同行評議專家及其來源做了三方面界定:在許多領域中擔任領先期刊的編輯或編委,在專業協會中擔任領導職務,在許多領域應邀出席戈登研究會議(Gordon Research Conferences)的學者[11]。將小同行評議與第三方評價綜合運用,共同培育提升國家自主創新能力的學術生態,是代表性成果評價機制良性運行的一條有效路徑選擇。
大學教師評價的“第三方”,更多的是指政策制定者和政策執行者之外的非行政隸屬、無利益關系、具有獨立法人資質的專業化組織和機構。第三方評價功能有效發揮的先決條件是具有獨立性和專業性資質。第三方機構是依法獨立設置、具有法人資格的機構,能夠獨立承擔民事責任,與第一方和第二方既無行政上的直接附屬關系,也無經濟上的利益關聯,能夠客觀、公正、中立、負責地做出自主評價。當然,第三方機構還要具有專業倫理精神、專業自律能力和超越個人私利進行利他服務的道德水準。
在我國大學教師代表性成果第三方評價中,可構建委托型第三方評價+小同行評議運行模式:由高校作為委托方,按照“小同行評價”標準和要求,通過購買服務的方式對代表性成果進行第三方評價。著作、論文代表性成果可依托國內外高水平學術期刊,充分利用這些期刊長期累積形成的國內外審稿專家群和編輯委員會進行小同行專家評議;項目和成果獎勵代表性成果可依托國內外行業學會協會、高等教育行業評價機構等進行小同行專家評議;應用研究和技術開發代表性成果可依托第三方中介機構進行由用戶、市場和專家共同參與的多元評價,以期對技術實現的可能性、可行性、經濟性等做出綜合判斷。
一個國家自主創新的基石,一是基于由基礎研究而形成的原創性突破,二是基于事關國家安全和人民生命健康關鍵核心技術的突破。雙重突破的關鍵是造就一支以科學為志業、以科學精神為身份標識和靈魂象征、具有國際創新水準和原始創新能力的科學家隊伍。
代表性成果評價制度設計的初心和根本是厚植學術創新土壤,倡導和弘揚勇攀高峰、敢為人先的創新精神,保障學術人員對科學本身的好奇心和激情,以及大膽質疑的勇氣、由懷疑抵達真理的執著。代表性成果評價制度是對大學教師無功利無私利自由探索的呵護,以及靜心篤志、耐得住寂寞、“數十年鑄一劍”的包容和支持。代表性成果評價為破解大學排名與教師評價相互疊加的功能異化以及由此產生的學術不端行為、學術急功近利行為、學術投機行為和論資排輩行為,為建立更具競爭力的科技創新生態系統,實現國家自主創新與關鍵核心技術自主可控提供最強智力支撐。
代表性成果評價制度設計的關鍵是以科學研究活動的創新力和影響力為評價的首要和核心標準,是對以“績效和競爭”為核心形成的泰勒主義、“文獻計量學評價=科學研究活動評價”等評價制度邏輯的再審視。代表性成果評價是以成果的開創性、可持續性、同行的廣泛認可性等內在優質評價和廣泛影響(社會福祉和社會效益)來矯正絕對量化和精確化的評價模式,矯正將科學研究活動質量評價指標簡單、機械地轉化為外在的量化評價指標和外在的知名度評價。值得注意的是,代表性成果評價是對以上現象的矯正,而不是全盤的否定,不同層級、不同類型的高校、學科、教師,對于代表性成果的數量與質量關系的認定和評價是不同的,具有普遍意義和同一數量限定的評價標準在跨學科比較中不具有公平性和客觀性。以量取勝只是文獻計量學評價中的一種情況,量化評價和數量評價不是完全對等的兩個概念,代表性成果評價不是必須非要限定為一個一成不變的、全校統一的成果數量范圍。尤其對于人文社會學科來說,一個具有重大創新價值理論體系的構建,可能是一生沉潛的寥寥珍本,也可能是大量論著積累而成的系統支撐,數量的限定要服務于教師在塑造和建設中國特色理論學派中的價值引領、思想原創和體系貢獻。矯枉過正,代表性成果評價制度的正確價值取向同樣會被扭曲和破壞,會成為催生偽代表性成果的溫床。
代表性成果評價既是同行評價認定標準的價值回歸,又是對文獻計量學評價標準的一種理性的揚棄,也是對依靠行政權力進行學術評價的一種制衡。“定量指標(例如基于引文的數據)在單獨使用時不能充分提供精細或有力的質量評價標準”,“質量需要被視為任何一個指標都無法捕捉的多維概念”,“不可能有一個放之四海皆準的評價標準:成熟的研究系統需要有定量和定性評價相結合的,保持可變的專家評審體系”[3]。代表性成果評價中同行評價的價值內核,是學術共同體內部共同守護的學術自治、學術自由、真理至上,是基于學術共同體作為學術良知和學術內在質量的守門人價值判斷,是對行政權力干預學術評價的有效防御和抵制。值得注意的是,代表性成果評價不是完全等同于同行評價,恰如文獻計量學評價不是完全等同于評價一樣。文獻計量學評價從本質上說反映的是科學研究活動的外在影響力,但外在影響力在一定程度上又是科學研究活動內在質量的外在顯現。代表性成果評價不是對于文獻計量學評價的全盤否定,文獻計量學評價在克服同行評價的主觀性和公信力不足等弊端、評價從無到有和非共識項目原創價值等方面具有客觀優勢。代表性成果評價要放棄的是將計量文獻學評價作為教師科學活動質量判斷唯一、直接、全部的依據,杜絕的是將量化指標作為教師評價的前置條件和絕對標準。
注釋
①概括出3種模式的依據主要來源于這3所高校職能部門官網公布的材料,以及具體政策文本和教師手冊。
②該研究中這四種類型的劃分不是獨立分類,中間存在交叉。即,有的科學家雖然不屬于沉默型,但可能同時屬于完美主義型、大量生產型和多產型中的兩種或多種。所以,分類的數值上可能存在重疊,占比之和不等于100%。