摘 要:當前大學學術評價面臨諸多困境:評價理念重視管理導向,難以滿足學術成長價值期待;評價主體執(zhí)念人為主宰,難以應對知識增長評價需求;評價方法倚重量化指標,難以呈現(xiàn)學術成果本質樣貌;評價程序追求價值隱涉,難以確保評價結果公平公正。生成式人工智能技術的勃興,為大學學術評價范式的轉型升級提供了新機遇:構建面向未來的大學學術評價,彰顯價值理性;超越人為主宰的大學學術評價,提升評價效能;打破形式主義的大學學術評價,反映真實樣貌;削弱主觀偏見的大學學術評價,促進結果正當。然而,生成式人工智能技術賦能大學學術評價也面臨諸如評價工具理性強化、評價主體失序、全面評價數據缺失、評價信任危機等挑戰(zhàn)。相應的應對措施包括:平衡張力,響應多元評價訴求;人機共生,重塑雙重主體位序;信息共享,推動開放科學發(fā)展;算法透明,增強評價可解釋性。在中國式高等教育現(xiàn)代化的背景下,應高度重視生成式人工智能技術對大學學術評價治理現(xiàn)代化的重大意義。
關鍵詞:生成式人工智能;學術評價;機遇;挑戰(zhàn);應對
近年來,以ChatGPT為代表的生成式人工智能技術的勃興引起了廣泛關注,將對人類經濟社會帶來極為深遠的影響。大學組織作為社會經濟發(fā)展的重要智力支撐,不可避免受到以ChatGPT為代表的智能技術的巨大影響和沖擊。特別是大學學術評價更可能首當其沖受到直接沖擊。眾所周知,學術評價改革是世界性的難題。數十年來,國際學術界各種改革嘗試因為傳統(tǒng)觀念和各種復雜因素的制約而步履艱難。在國內,2020年頒布的《深化新時代教育評價改革總體方案》已整整滿三年,但學術評價仍然是大學教育治理中一個難以言狀的難點和痛點,民間甚至有所謂破“五唯”“越破越唯”“越改越卷”的說法。我們相信,隨著生成式人工智能技術作為一種新質生產力在經濟社會各細分領域的加速賦能及應用,未來學術評價智能體(Agent)的創(chuàng)建有望為化解大學學術評價的困境提供有效的外部驅動力量,對創(chuàng)新大學學術評價理論、推進學術評價范式轉型升級、推動大學學術評價實踐改革具有重大意義。
一、當前大學學術評價面臨的主要困境
學術評價是以追求真理和知識創(chuàng)新為尺度,對學術活動效果做出價值判斷的過程。大科學時代,知識生產模式轉型升級,知識數量爆炸式增長,傳統(tǒng)的學術評價方式難以有效應對知識合理性、管理有效性、社會貢獻性與主體發(fā)展性等多元訴求,學術評價的工具理性和價值理性內在張力不斷凸顯。審視當前整個大學學術評價體系,我們認為,在學術評價理念、評價主體、評價程序等方面面臨諸多困境。
(一)評價理念:重視管理導向,難以滿足學術成長的價值期待
學術評價的理念是多元的、復雜的,不同的評價理念會導致不同的評價方式和標準。從大學管理的角度來看,學術評價以決策和目標為中心,把評價結果當作獎懲和資源分配的依據。基于管理的有效性,大學學術評價往往需要提供一個穩(wěn)定、可靠的參考框架,以便對學術成果、研究者和研究機構等進行評估和管理。以大學學術評價中典型的“以刊評文”現(xiàn)象為例,它采用固定的、預先設定的評價標準來評價論文的質量和價值。學校期刊級別的界定,尤其依賴于期刊的影響因子?!耙钥u文”的確提供了一個簡單、明確的評價標準,簡化了評價過程,提高了管理效率。但是,不難發(fā)現(xiàn):SCI、SSCI、CSSCI與學術評價量化管理相結合的理念,“隱藏的是方便行政管理的考慮,其以客觀數據的話語形式對科學和公正的權威性進行詮釋,成為行政權力部門在學術資源分配和科研管理中最為需要和最好用的評價方法”[1]。然而,這種以期刊影響因子高低論英雄的傳統(tǒng)評價方式實際上是一種面向過去的靜態(tài)評價,它采用的是自上而下的評價方式,缺乏與研究者的交互,忽略研究者的聲音和訴求。第四代評價理論對這種傳統(tǒng)的“預定式評價”提出了嚴厲批判,認為其過分強調“科學實證主義”方法,且進一步支持和強化了學術評價的管理主義傾向。實際上,這種長期以來占主導地位的量化評價深受泰勒“科學管理主義”思想的影響,采用行為目標模式,雖然便于管理,但不利于對學術成果進行綜合和全面的評價,也不利于促進評價對象的專業(yè)發(fā)展。
(二)評價主體:執(zhí)念人為主宰,難以應對知識增長的評價需求
在學術評價過程中,評價主體是維護學術質量的關鍵因素,是學術品質的重要守護者。從古至今,人在各類評價體系中占據絕對主宰地位,大學學術評價也不例外。這是因為人的評價不僅僅是基于邏輯和理性,更是基于情感、價值觀和文化背景,人的評價總是具有深度和多樣性。然而,特別是進入大科學時代以來,全球學術成果發(fā)表數量呈顯著增長趨勢,人的評價能力很難滿足日益增長的學術評價需求。2018年,美國自然科學基金會報告提出,過去十年全世界同行評議的科學和工程類期刊論文以及會議論文數量以平均每年約4%的速度增長。[2]同年,國際科學、技術和醫(yī)學出版商協(xié)會(STM)則統(tǒng)計出,自17世紀以來同行評審期刊數量以每年3.5%的速度穩(wěn)步增長,2008年至2018年增速達到每年5%-6%,每年平均發(fā)表150萬至300萬篇文章。[3]隨著學術論文出版數量的不斷增長,同行評議面臨越來越大的壓力。不僅如此,從知識生產模式的轉型升級來看,知識生產模式Ⅰ、模式Ⅱ和模式Ⅲ的知識生產結果顯著不同,呈現(xiàn)出從學科知識,到社會彌散的、具有社會問責和反思性的知識,再到形成多種集群、創(chuàng)新網絡和創(chuàng)新生態(tài)特征的知識。可以發(fā)現(xiàn),知識生產模式日趨復雜,對傳統(tǒng)評價主體知識有限性提出了更為嚴峻的挑戰(zhàn)。概而言之,理論上重視人在評價中的主導作用無可厚非,但評價實踐中過于強調人為的絕對性,把人當成評價的絕對主宰,就容易走向偏執(zhí),必然會導致評價的局限性。
(三)評價方法:倚重量化指標,難以呈現(xiàn)學術成果的本質樣貌
“引文分析評價具有事實上的客觀性、數量上的可積累性、學科上的公平性、實踐上的易操作性等優(yōu)點?!盵4]因此,作為科研量化評價指標的引用次數一直是國際上通行的做法和普遍趨勢。引用次數已成為一種廣泛認可的評價標準,深刻影響著全球的學術評價體系。審視當下的大學學術界,從SCI、SSCI、Aamp;HCI、CSSCI等學術期刊索引,到H指數、P指數等學者評價指標,再到ESI、QS、THE、軟科等學科與大學排名,均將學術引用次數視為學術評價體系的基石。以引文分析為基礎的量化評價簡單、直觀,反映了現(xiàn)代社會對于效率的追求,為大學學術界帶來了一種明確的激勵機制。然而,量化評價的局限性顯而易見。從引用目的來看,學術引用是研究者出于學術創(chuàng)作的一種建構行為,并不具備直接的學術評價功能。為了提供更有說服力的證據,研究者更青睞于引用名刊、名家與主流語言國家學術成果,這種片面性會引發(fā)學術引用的“馬太效應”,導致某些獨特的、創(chuàng)新的學術成果被低估或忽視。實際上,引用次數更多是對學術影響力的測度,并不能呈現(xiàn)學術成果的整體性樣貌。學術評價實踐中過于推崇甚至神化學術引用次數、影響因子等量化評價指標,并將其簡單與學術質量畫上等號,對于知識生產和創(chuàng)新存在極大的風險。
(四)評價程序:追求價值隱涉,難以確保評價結果的客觀公正
比貝(C.E.Beeby)在1975年第一次提出了“價值判斷”才是評價本質的觀點。[5]事實證明,評價不可能只是對信息作簡單描述,它總是包含著對一定價值關系及后果的預見和推斷。有研究者進一步指出,學術評價是學術共同體的“專屬領地”,自由裁量權成為學術評價與生俱來且永不可能消失的權力。而且,學術評價符合程序不能代表程序正當,程序正當并不意味結果公正。[6]因此,學術評價主體秉承的價值觀會以隱蔽的方式滲透到評價的各個環(huán)節(jié),致使評價結果難以避免存在主觀性。以傳統(tǒng)的引文分析法為例,一直存在規(guī)范主義與社會建構主義的流派之爭,引用的公正性遭受質疑。規(guī)范主義流派代表人物莫頓(Merton)認為,引文被認為代表作者對前人研究的一種關注,進而對前人研究的借鑒作用表示感謝和認可。[7]社會建構主義流派卻認為,引用絕非對他人貢獻表示認可和感謝那么簡單,而是有著復雜的經濟、社會和政治上的原因。[8]事實上,當代大學學術評價的結果直接關系到研究者的資金支持、專業(yè)發(fā)展和學術地位,與研究者的實際利益息息相關。因此,引文分析看似以數字測量的方式客觀表征學術影響力,但其背后隱涉著復雜動機,不論對于研究者個人還是學術期刊來說,引用存在文化、利益、語言等價值偏見和主觀操縱已成為學界公開的秘密。
二、生成式人工智能技術賦能大學學術評價的機遇
微軟CEO薩提亞·納德拉(Satya Nadella)稱ChatGPT的出現(xiàn)“對于知識型工作者來說,這就完全等于工業(yè)革命”??梢灶A見,生成式人工智能技術將重塑知識生產行業(yè),對大學學術評價范式變革顯示出巨大潛力,將為重構大學學術評價的理念、主體、方法和程序帶來新的機遇。
(一)構建面向未來的大學學術評價,彰顯價值理性
北京師范大學前校長董奇教授在題為《面向未來的智能化教育評價》的主題報告中提到,面向未來的智能化評價的重要新趨勢是評價功能的變化,即從過去的甄別、選拔,到精準改進、促進發(fā)展。[9]這與第四代評價理論的主要觀點不謀而合。第四代評價理論以“回應和協(xié)商”為主要特征,強調評價對象在評價活動中的主體地位,重視形成性評價的作用,注重對評價對象的改進作用。面向過去的學術評價主要基于已有的引用次數、影響因子等數據,以評估學術成果的水平、研究者和學術機構的貢獻,而面向未來的大學學術評價更加關注研究者的學術成長、研究潛力和創(chuàng)新能力。未來,ChatGPT、文心一言、KIMI等通用大語言模型經過專業(yè)調適后形成垂直的學術評價模型,通過API接入學術文獻數據庫,以網站或APP等應用程序呈現(xiàn),即可創(chuàng)建面向用戶使用的學術評價智能體。用戶可以自如地與學術評價智能體對話,自然而且流暢,其即時交互性功能將對構建面向未來的評價發(fā)揮關鍵作用。這種實時交互的云溝通媒介,為多元評價主體與評價對象之間實現(xiàn)如第四代評價理論所主張的基于學術成果評價的“詮釋辯證循環(huán)圈”提供了可能。大學學術評價不再是一個單向的、靜態(tài)的過程,而是一個多向的、動態(tài)的互動。“回應和協(xié)商”不再是空中樓閣,它將成為現(xiàn)實,通過多元主體開展深度的學術對話,將促進對學術成果的批判性思考和深入理解,不僅有助于研究者發(fā)現(xiàn)自身研究的局限,而且能夠激發(fā)他們發(fā)現(xiàn)新的研究方向和機會。學術評價智能體可以同時開展面向過去的評價和面向未來的評價,既可以滿足學術管理的需要,也可以很好地促進研究者的學術成長。
(二)超越人為主宰的大學學術評價,提升評價效能
2018年,麻省理工學院(MIT)啟動的智能探索計劃,將機器逼近人類智能的層級劃分為“識別”“感知”“學習”“意義”“創(chuàng)造力”等五大類型,而ChatGPT表現(xiàn)出的技術特征已逐漸觸及 “意義”層面。可見,生成式人工智能表現(xiàn)出了一定程度的類主體性,意味著學術評價可以不再完全依賴于人類專家。作為一個高級機器學習模型,它雖然不具備真正的自我意識,但在處理和生成評價文本時展現(xiàn)出了一定的“策略”。這種能動性使其在某種程度上超越了傳統(tǒng)的工具和機器的范疇,更接近于一個有“意圖”的實體,表現(xiàn)出類似于人類主體的特質。以ChatGPT為例,每一代模型的參數量都呈爆炸式增長。Open AI公開數據顯示,2019年2月發(fā)布的GPT-2參數量為15億,而2020年5月的GPT-3,參數量達到了1750億,預訓練數據量從40G升級到45TB。以此推測,不難想象ChatGPT4及未來更高版本的參數量可能達到萬億級別,預訓練數據量可能達到百T級別,這種超級大腦遠遠超過人類個體大腦的數據存儲量。可以大膽預測,一旦人工智能通用語言模型實現(xiàn)100萬億參數規(guī)模,就可以堪比人類大腦,意味著這一系統(tǒng)開始具備人類思維能力,并有可能在某一方面或其他方面替代人類。在未來的大學學術評價過程中,生成式人工智能技術可以減少學術評價中的重復勞動和無效勞動。更為重要的是,它可以憑借強大的算法和算力,對大量的學術數據進行快速、準確的分析,提供客觀、理性的評價建議,滿足未來更大規(guī)模知識生產和更為復雜的知識創(chuàng)新生態(tài)的評價需求。《自然》(Nature)雜志預測,對話式AI技術將會取代人類的編輯和審稿人,可以評估和審查文章。盡管離這種情境還有一段距離,但毫無疑問,它將越來越多地影響學術成果出版和發(fā)表過程的各個階段。
(三)打破形式主義的大學學術評價,反映真實樣貌
構建基于生成式人工智能技術驅動的學術評價方法將成為未來的趨勢。弗朗西斯科·隆扎諾(Ronzano Francesco)等提出利用文本挖掘和語義建模等人工智能技術來識別學術論文中的創(chuàng)新點、亮點等以評價學術成果價值。[10]曾建勛提出學術評價應從文獻計量、替代計量走向語義計算,創(chuàng)設信息化、語義化、智能化評價工具,構建基于語義內容創(chuàng)新科技成果評價的工具和模式。[11]生成式人工智能技術為打破形式主義評價帶來機遇。以ChatGPT為例,它摒棄了傳統(tǒng)的循環(huán)神經網絡(RNN)和長短時記憶網絡(LSTM),轉而采用自注意力機制來捕捉文本中的長距離依賴關系。這意味著模型可以更加高效地處理大量文本數據,捕捉到文本中的細微關聯(lián),在自然語言領域具有顯著優(yōu)勢。在大學學術評價中,學術評價模型可以被訓練來理解和評估學術文本的質量和重要性。具體來看,學術評價智能體憑借自然語言處理技術,可以檢查學術成果語法和拼寫的正確性以及評估語言流暢性。通過深度學習技術,對學術文本進行深入的語義分析,可以捕捉到學術成果的內在質量。例如,它可以識別出文本中的關鍵觀點、論證結構和邏輯關系,從而評估學術成果的論證深度和邏輯嚴密性。它還可以對學術文本進行詳細的比較和對比,識別出學術成果與現(xiàn)有研究的差異,發(fā)現(xiàn)新穎之處,更為準確地評估學術成果的原創(chuàng)性和創(chuàng)新性??傮w而言,生成式人工智能技術可以對學術成果內容的表現(xiàn)力、創(chuàng)新力、貢獻力等開展多維度評價,對傳統(tǒng)基于引文分析形成的學術影響力評價予以補充和拓展,從更為本質意義上反映學術成果的整體樣貌。
(四)削弱價值偏見的大學學術評價,促進結果正當
在大學學術評價實踐中,當評價主體對利益的追逐放在第一優(yōu)先位置時,就遮蔽了對科學事實的觀照,評價結果的科學性和公正性必然受到質疑,知識生產的創(chuàng)新進程勢必遭受極大的負面影響。因此,如何削弱學術評價中主客體之間異化的價值關系成為構建學術評價程序合法性的重要基礎。未來學術評價智能體以一種新的評價主體身份出現(xiàn),一定程度上可以超越傳統(tǒng)評價主體與評價對象之間的價值關系。從學術評價智能體的特性來看,它本質上是一個工具,而非具有真正情感和道德觀念的人。因為缺乏情感和自我意識,這意味著它不會因為情感、信仰、利益或個人偏好而影響評價結果。從其背后的運行主體來看,這些不同類型主體包括:建模并預訓練大模型的開發(fā)者,根據應用需求或單獨或與開發(fā)者合作進行參數微調的部署者以及最終與生成型人工智能互動并決定生成型人工智能具體用途的用戶。不論是學術評價訓練數據的提供者、算法的開發(fā)者,還是學術評價模型的部署者與評價對象之間并無直接的利益關系,而用戶作為使用者一般并無修改預訓練評價數據和算法的能力。因此,學術評價智能體具有“價值中立”的潛力,可以為大學學術評價提供一個相對中立的工具,減少人為偏見、權力結構和利益網絡的影響,從而有可能提供更為公平公正的評價。
三、生成式人工智能技術賦能大學學術評價的挑戰(zhàn)
生成式人工智能被視為對學術評價范式變革有潛力的技術,但是,在使用中其局限性必須引起足夠的重視。我們進一步審視,發(fā)現(xiàn)在大學學術評價理念、主體、方法和程序等方面可能存在一系列挑戰(zhàn)。
(一)數字圍城:生成式人工智能技術可能強化評價工具理性
在大學學術評價中,學術評價智能體作為一種基于自然語言處理的數字技術工具,為大學學術評價帶來前所未有的便利和效率,但以數據驅動和表征的評價邏輯致使人們過分信賴數據和算法,可能強化大學學術評價的工具理性,進而陷入“數字圍城”的境地。
1.可能加劇知識本真性價值的偏移。學術評價智能體通過語義識別、情感分析和知識圖譜等先進技術,可以提高引文分析的精確性,強化引用次數和影響因子等量化指標在學術評價中的地位,但這將進一步加深對這些指標的過度依賴,使學術評價被數字化裹挾以致出現(xiàn)本真性價值偏移。正如有學者所言:“可測量的變成了唯一關鍵的事實,其余的則毫無用處與價值?!盵12]當過分強調其表面價值,知識的本質和內在價值容易被忽視。引用次數和影響因子雖然能在一定程度上反映學術影響力,但它們無法全面衡量學術成果的創(chuàng)新性、社會貢獻和實際應用價值。研究者在追求高引用率和高影響因子時,可能會傾向于選擇那些更容易獲得高評價的研究方向,而忽視那些雖然創(chuàng)新但難以在短期內獲得高引用的領域。這樣的選擇不僅限制了學術研究的多樣性,還可能抑制真正具有長遠育人價值、學術價值和社會意義的研究。同時,這種評價的數據表征邏輯還可能進一步導致對某些研究領域的過度關注和資源傾斜,而其他難以量化或不符合主流評價標準的研究領域則被邊緣化。
2.可能引發(fā)技術決定論與人的異化?!靶畔⒒?、大數據、人工智能,諸如此類帶有計算機主義特征的概念響徹知識界,缺乏實踐關懷的‘數字化’評價體系大行其道?!盵13]這容易導致技術決定論的思維,即認為學術評價智能體的技術和算法本身就是目的,進而忽略人的主體性和創(chuàng)造性。當大學學術評價變得過于自動化和機械化時,人的判斷、經驗和直覺被邊緣化,導致評價出現(xiàn)片面和失真現(xiàn)象。而且,還可能會致使大學學術評價失去人文關懷和情感關聯(lián),日漸變得冷漠。學術研究不僅是對客觀事實的探究,更是對人類社會和文化的深刻理解與關懷。當評價體系忽視這些人文因素時,學術研究的溫度和深度也隨之下降,評價結果往往缺乏對研究者個體創(chuàng)造力和情感投入的尊重。為了迎合數字化評價標準,研究者知識生產的多樣性和創(chuàng)新性一定程度上受到壓制,逐漸失去對知識探索的真正熱情和興趣,知識生產的功利主義傾向被進一步強化。
(二)邊界迷宮:生成式人工智能技術可能引發(fā)評價主體失序
“智能機器人的快速發(fā)展模糊了人機界限,對人的本質、人的主體地位等形成強烈的沖擊,令‘人是什么’和人機關系凸顯為挑戰(zhàn)哲學常識的時代難題?!盵14]學術評價智能體的創(chuàng)建可能致使人和機器的邊界變得模糊,一定程度上導致大學學術評價主體的混亂和失序,引發(fā)“邊界迷宮”現(xiàn)象。
1.學術評價智能體的主體性增強,可能導致人的評價權威被削弱。強人工智能在處理問題的能力上都不低于甚至超出人類水平,因而也就不必完全服從于人類的指令而可以自主運行。未來學術評價智能體將具備強人工智能的部分特征。因此,“智能化使技術的自主性更強,人對智能技術的依賴性也更嚴重,人在有意無意中將更多屬人的本質讓渡給了機器”[15]。一方面人的主體地位弱化,由主導評價轉向數字依賴;另一方面人工智能的主體地位凸顯,由輔助評價轉向適度自主。不可否認的事實是,傳統(tǒng)的基于人的評價方式通常被視為權威,但由于學術評價智能體的出現(xiàn),這種權威正在被削弱。傳統(tǒng)的基于人的評價主體,如同行評審和學術委員會,將逐漸被學術評價智能體所補充甚至替代。
2.學術評價智能體的意志自由難以確立,可能滋生評價主體責任推諉。自由意志是法律主體性和責任的基礎。人工智能的責任界定可分為兩種情形:一是人工智能的行為已完全被編程所控制,這樣就可以直接歸責為人工智能的編程人員或所有者;二是人工智能要是目標導向的、有意識的存在,作為一個可獨立學習行為模式的神經網絡來發(fā)揮作用,就有可能考慮受到法律制裁。目前來看,我們只是不能否定強人工智能體擁有自由意志的可能性,但是肯定地說也面臨著巨大的技術、道德與法律難題??梢姡瑢W術評價智能體目前是否具備意志自由還很難確定,與傳統(tǒng)大學學術評價主體的責任邊界難以清晰界定。當學術評價結果出現(xiàn)問題或爭議時,學術評價智能體與傳統(tǒng)評價主體容易相互推諉責任。傳統(tǒng)評價主體會認為是技術工具或算法的缺陷導致的問題,而不是他們的決策錯誤。相反,學術評價智能體開發(fā)者或供應商,會認為是使用者沒有正確使用工具或沒有提供準確數據。這種責任推諉反映了一個更深層次的哲學和倫理問題:當人與機器共同參與決策時,責任到底應如何分配?這需要我們重新檢視現(xiàn)有的法律和倫理準則,以適應學術評價智能體在大學學術評價中新的主體角色。
(三)信息孤島:生成式人工智能技術可能缺乏全面評價數據
“科學文獻分布在數以千計的出版商、存儲庫、期刊和數據庫中,這些出版商、存儲庫、期刊和數據庫通常缺乏通用的數據交換協(xié)議和其他互操作性支持。即使有協(xié)議,缺乏收集和處理這些數據的基礎設施,以及限制性的版權,而且OA還不是世界大部分地區(qū)的默認出版途徑這一事實,也使機器在處理科學知識時更加復雜?!盵16]可以看出,科學文獻數據存在“信息孤島”現(xiàn)象,以及由此引發(fā)的數據壁壘等問題,導致學術評價智能體缺乏全面評價數據。
1.學術評價數據的訪問受限。大學學術文獻的分散性意味著學術評價智能體需要從多個來源收集數據,不僅增加了數據收集的復雜性,還導致數據的重復和冗余。學術數據庫如SCOUPS、Web of Science、知網(CNKI)等收錄了大量的學術論文和研究成果,但是這些數據庫的封閉性阻礙學術評價智能體訪問和處理這些科學文獻。即使文獻是公開的,版權也可能限制其再分發(fā)和再利用。因此,學術評價智能體在學術評價時會遺漏大量的重要研究,導致評價結果的不準確。
2.學術評價數據的交互受限。學術數據庫因采用各自獨特的數據格式且缺乏統(tǒng)一的學術數據交換協(xié)議,容易形成數據壁壘。這可能會阻礙學術信息的順暢流通,導致學術數據在不同平臺之間難以交互,形成數據的孤立和碎片化現(xiàn)象,從而限制學術數據的整體可訪問性和可用性。盡管學術數據在物理上有可能實現(xiàn)共享,但由于學術數據庫采用的格式、結構和標準存在差異,數據整合過程需要耗費大量的時間和資源,將增加學術評價智能體在執(zhí)行評價任務時的難度。
3.學術評價數據的開放受限。雖然開放訪問(OA)正在成為一個趨勢,但它在世界許多地方仍然不是默認的出版途徑。這意味著大量的學術文獻仍然被鎖定在付費墻之后,限制了學術評價智能體的可訪問性和可用性。以Sci-Hub為例,作為大學學術界“開放獲取運動”的一部分,它通過為科研人員提供免費的科學文獻,來抗議日益上漲的學術期刊價格。Sci-Hub成立以來,已經受到許多來自學術出版公司訴訟的打擊。它們堅持認為Sci-Hub不合法,并且指控Sci-Hub侵犯版權并提供盜版。受到法律訴訟的影響,Sci-Hub在一些國家甚至被封殺。
(四)算法黑箱:生成式人工智能技術可能遭遇評價信任危機
信任是學術評價系統(tǒng)的基石,研究者和研究機構需要可信賴的評價工具,才能接受其評價結果并據此做出決策。由于學術評價智能體存在“算法黑箱”的特性,研究者會對評價結果的公正性持懷疑態(tài)度,進而引發(fā)信任危機。這主要源于學術評價智能體評價決策過程不透明且難以解釋,以及評價數據可能存在的偏見。
1.學術評價決策過程可能不透明且難以解釋。學術評價智能體采用了深度學習技術,內部結構包含數百萬甚至數十億的參數,這些參數共同決定了學術評價模型的輸出。更為關鍵的是,“在人工智能輸入的數據和其輸出的答案之間,存在著我們無法洞悉的‘隱層’,它被稱為‘黑箱’(black box)。這里的‘黑箱’并不只意味著不能觀察,還意味著即使計算機試圖向我們解釋,我們也無法理解”[17]。這種復雜性使得評價模型的決策過程變得不透明且難以理解。正因如此,大學研究者難以確定評價的具體依據和標準,從而導致學術評價智能體面臨評價信任危機。如果大學研究者和研究機構對學術評價智能體這類新興評價工具產生不信任,他們會選擇忽略或反對其評價結果,這不僅會影響大學學術評價的效率,還會導致學術界錯過某些有價值的研究。
2.學術評價數據偏見可能引發(fā)新的不公正。如前文所述,學術評價智能體具有“價值中立”的潛力,但這并不意味著它在執(zhí)行學術評價任務時的結果是絕對公平公正的,其可以被各種不同的幕后之手不動聲色地操控,可能在生成的答案中潛藏著不易察覺的意識偏見。也有研究者表達出類似的擔憂,即學術評價智能體無法表達出自己的立場和價值觀,但訓練有素的語言模型一定可以表達出人類的立場與價值觀,只不過這里的人類不是全部,而是在模型背后能夠控制數據來源及知識立場的那些人。[18]可見,學術評價數據存在偏見會影響大學學術評價結果的公平公正。從數據起源看,學術評價智能體所依賴的學術評價數據不是在真空中產生的,它是從現(xiàn)實世界中收集來的,而現(xiàn)實世界充滿了各種偏見和不平衡。有時數據中的偏見不是明顯的或直觀的,這種隱性偏見源于某些群體在數據中被低估或過度表示,或由于數據收集過程中的微妙選擇。即使數據收集者試圖保持中立,數據仍然可能包含這些偏見。當學術評價智能體算法使用這些數據進行訓練時,數據中的偏見會被學習甚至被放大,進而生成評價模型內部的“黑箱”,引發(fā)評價結果產生新的不公正。
四、生成式人工智能技術賦能大學學術評價的路徑
生成式人工智能技術為大學學術評價范式變革帶來前所未有的機遇,但它并不完美,仍然存在諸多挑戰(zhàn)。面對這些挑戰(zhàn),我們從評價理念、評價主體、評價程序以及評價方法所依賴的學術數據四個方面采取有效應對措施,消解各種挑戰(zhàn)帶來的風險,探索大學學術評價改革可能的方向。
(一)平衡張力,響應多元評價訴求
我們需要重新審視大學學術評價的核心價值和目的,確保大學學術評價既有廣度又有深度,既關注學術研究的數量,也關注其質量和價值,既強調技術賦能的效率,也強調人文關懷的過程。通過響應多元評價訴求,實現(xiàn)對“數字圍城”現(xiàn)象的超越。
1.超越單一學科視角,激發(fā)知識活力。從學科視角來看,學術評價智能體在執(zhí)行評價任務時,不應局限于文獻計量學單一學科的視角,應支持教育學、管理學、哲學、政治學等多學科的維度,將管理有效性、政治合法性、知識合理性、社會貢獻性和主體價值性等多元價值訴求納入學術評價的議程。具體來看,一項學術成果在數字化指標上表現(xiàn)不佳,但它在社會貢獻或主體發(fā)展等方面可能有著不可忽略的意義。通過跨學科的合作和更全面的評價標準,使學術評價更具多樣性,激發(fā)知識生產的活力。學術評價智能體將成為數字化評價的有益工具,而不是限制和偏見的來源。
2.超越技術至上思維,注入人文關懷。技術只有堅持在人文關懷的前提下開發(fā)和利用,其工具價值才能真正實現(xiàn)解放人、發(fā)展人的人文價值訴求。首先,應重視人的主體性和創(chuàng)造性,將人的判斷、經驗和直覺重新引入評價過程。在復雜的學術評價事務中,人工評審是不可或缺的。人工評審可以提供對研究深度和質量的專業(yè)判斷,彌補單純依靠技術手段評價的不足。通過人工評審與智能評價的結合,可以確保評價結果更加全面和公正。其次,應增強評價過程中的人文關懷和情感關聯(lián),激發(fā)研究者對知識探索的熱情和興趣,推動學術研究的多樣性和創(chuàng)新性發(fā)展。學術研究不僅僅是冷冰冰的數據和事實的堆砌,它更是研究者情感、激情和熱忱的體現(xiàn)。學術評價智能體開展學術評價時需要尊重和理解這些情感,不能將其忽視或邊緣化。而且研究者不僅僅是評價的對象,更是評價的參與者。他們可以與評價者建立真實的人際關系,共同探討、反思和完善評價標準和方法。在技術和人性之間找到平衡點,可以在一定程度上克服評價過程中技術決定論和人的異化問題,推動學術研究回歸其本質和初衷。
(二)人機共生,重構雙重主體位序
在之后的人工智能時代,人和技術之間會逐漸變?yōu)橄嗷サ奈姓摺⒀由煺吆唾x能者,雙方在改造世界的途徑中不再是主客二分,而是主體共在。這或許將成為未來大學學術評價范式革新的邏輯起點。
1.重新塑造學術評價主體的權威。在大學學術評價的傳統(tǒng)框架中,人作為評價主體的權威性源自其對特定領域的深入研究、長期實踐以及豐富的經驗積累,這些因素共同賦予了評價主體在價值判斷上的優(yōu)勢。然而,隨著學術評價智能體的出現(xiàn),這種以人為核心的評價權威面臨挑戰(zhàn)。學術評價智能體的決策過程主要依賴于數據和算法,它們在處理大量科學事實和快速分析方面表現(xiàn)出色,這在一定程度上補充了人作為評價主體在知識廣度、深度及評價效率方面的不足,還可以減少人為因素導致的偏見和誤差。在一些復雜的評價任務中,人類評價主體的深度理解、批判性思維和直覺仍然不可或缺。因此,將人的這些能力與智能體的數據分析能力相結合,形成一種人機協(xié)作的評價模式,將有助于實現(xiàn)更加全面和深入的評價。在這種模式下,智能體可以提供基礎性的評價結果,而人類評價主體則在此基礎上進行進一步的分析和判斷,以增強評價的質量和可靠性。通過這種方式,學術評價智能體不僅不會削弱人作為傳統(tǒng)學術評價主體的權威性,反而有可能通過人機協(xié)作,提升評價的整體質量和有效性,從而在學術界獲得廣泛的認可和信任。
2.重新定義學術評價主體的責任。在大學學術評價領域,責任的歸屬是一個復雜的問題。人工智能在預先設定的程序指令中運行,即使通過深度學習使程序擺脫了人類的控制并在客觀上造成法益侵害結果,但人工智能本身缺乏對外在行為的真實理解,無法認知自身行為對客觀世界產生的影響,因而無法認識自身行為的社會屬性,也就不具有規(guī)范評價意義上的行為“目的性”與獨立控制行為的意志自由可言。由此可以看出,學術評價智能體根據預先設定的算法和程序運行,盡管深度學習等技術可能賦予了一定程度的自主性,但它們仍然無法超越其編程范圍進行思考,無法理解超出評價程序執(zhí)行之外的意義,缺乏對行為后果的真實理解和對客觀世界影響的認知能力。只有當學術評價智能體擁有真正的自由意志和意識開展評價決策時,它們才被視為學術評價責任的主體,才能為其選擇承擔責任。此外,當人類評價主體過度依賴學術評價智能體的輸出,而未能進行必要的批判性思考和審查,這可能導致評價錯誤。在這種情況下,責任應由參與評價過程的人類評價主體承擔,因為他們有責任確保評價的準確性和公正性。因此,從現(xiàn)階段可適用性和可操作性角度來看,責任必須由人而不是機器承擔。這要求人類評價主體在使用智能體進行評價時,保持警惕,進行充分的審查,并對其輸出進行批判性分析。通過這種方式,可以確保學術評價的權威性和有效性,同時促進人工智能技術在大學學術評價中的合理應用。
(三)信息共享,推動開放科學發(fā)展
將生成式人工智能應用于各個專業(yè)領域,面臨的首要問題便是訓練語料的開發(fā)、選擇和動態(tài)更新。因此,學術評價智能體離不開全景式學術數據的支持,最終將有賴于開放科學的發(fā)展。
1.制訂開放科學的相關支持政策。全球各國政府積極制定鼓勵學術數據共享和開放訪問的政策和法規(guī),為打破科學文獻數據“信息孤島”現(xiàn)象提供法律和政策保障。例如,美國國家科學院于2018年發(fā)布了《設計開放科學》報告,推動科技論文開放獲取與科學數據開放共享。歐盟委員會發(fā)起的開放獲取S計劃(Plan S)提出,從2021年起,所有由國家、區(qū)域、國際研究理事會和資助機構提供的公共或私人資助產出的研究成果,其學術出版物必須發(fā)表在開放獲取期刊、開放獲取平臺,或通過開放獲取知識庫立即獲得,不受封鎖。日本的“Open and Close”計劃構想通過劃定開放獲取的邊界,大致厘清了知識產權保護、信息安全和開放共享之間的關系,為日本開放獲取政策的制定和實施指明了方向。此外,革新大學科學文獻數據庫傳統(tǒng)的商業(yè)模式,使出版商和數據庫等傳統(tǒng)利益主體能夠在開放科學的生態(tài)系統(tǒng)中找到新的商業(yè)機會,包括但不限于提供增值服務、定制化解決方案等,推動建立科學數據利益相關主體的權益平衡機制。
2.建立學術數據的科學運行機制。推行統(tǒng)一的開放獲取標準,包括通用標識符、存儲格式、交換協(xié)議和元數據標準等,對提升學術評價智能體的工作效率和準確性至關重要。比如,采用國際通用的標識符,如DOI(數字對象標識符)或URN(統(tǒng)一資源名稱),以確保文獻的唯一標識和可持久性,使其能夠被學術評價智能體準確地定位和引用。統(tǒng)一規(guī)定開放獲取文獻的存儲格式,確保能夠被多種系統(tǒng)和工具順暢訪問和處理,提高互操作性,降低數據受限問題。建立通用的數據交換協(xié)議,以促進文獻的有序傳遞和共享,減少數據碎片化和孤立化,有利于學術評價智能體整合數據。統(tǒng)一元數據標準,明確定義文獻信息的格式和內容,包括作者、標題、摘要、關鍵詞等,以便更容易進行檢索和分析。通過建立這些標準,確保開放獲取文獻在國際范圍內的一致性和互通性。這些措施有助于提高學術數據的可訪問性和可利用性,使學術評價智能體能更有效地支持大學學術評價活動。
(四)算法透明,實現(xiàn)評價可解釋性
人工智能算法的可解釋性是指“算法模塊的輸入、輸出和性能及其系統(tǒng)結果可以被理解,并提供闡釋說明,幫助用戶充分理解算法的決策機制、決策過程和決策結果的公正性”[19]。為確保學術評價智能體算法在大學學術評價中的可解釋性,提升算法透明度、糾正評價數據偏見尤為關鍵。
1.構建嚴格的責任體系,確保學術評價的算法透明。從法律責任角度看,政府應當制定和完善相關法律法規(guī),確保未來學術評價智能體在大學學術評價中的合法性。這不僅包括明確算法的邏輯、算法的種類和算法的功能等,還涉及如何公開算法的設計理念、數據來源和評價標準等。從行政責任角度看,政府應當設立專門的審查和監(jiān)管機構,全面監(jiān)控未來學術評價智能體在學術評價中的應用。這意味著從數據的收集、處理到具體算法的采用以及評價結果的發(fā)布,整個過程都應受到嚴格的行政監(jiān)管。技術公司需要對其評價結果承擔相應的責任,確保算法的公正性和透明性。從道德責任角度看,學術評價智能體的技術開發(fā)公司應當遵循一套明確的倫理指導原則。這不僅要求技術公司提高算法的透明度,還要求其定期進行倫理審查,確保其應用既科學又符合倫理規(guī)范。同時,使用SHAP(Shapley Additive Explanations)等模型可視化和解釋工具,展示學術評價智能體的決策過程,增強評價的可解釋性。
2.構建科學的工作機制,糾正學術評價的數據偏見。數據偏見一定程度上會致使評價模型對不同群體或領域造成新的不公正,這種現(xiàn)象不容易被直觀地解釋。通過糾正數據偏見,可以更容易理解學術評價模型的決策過程,從而提高評價的可解釋性。首先,采集來自不同文化、地區(qū)、學術領域的數據,確保學術評價模型的訓練數據具有多樣性和代表性。這有助于防止模型在特定群體或領域內出現(xiàn)偏見,提高評價的普適性。其次,利用數據分析工具識別評價數據中的潛在偏見和不平衡。通過檢查研究領域、研究者背景或研究方法等因素在數據中是否存在低估或過度表示,可以及時發(fā)現(xiàn)模型的問題,確保評價模型的公正性。第三,建立學術評價的反饋機制,允許研究者和其他利益相關者對模型的評價結果提出質疑和反饋。這種機制為參與者提供了監(jiān)督的機會,幫助識別潛在的數據偏見問題,并在評價體系中及時進行調整和改進,以此提高學術評價的可信度。
五、結語
2023年,《自然》雜志刊文發(fā)現(xiàn),過去幾十年里(1945-2010年),雖然科學技術論文的發(fā)表數量出現(xiàn)了井噴,但這些論文的“突破性”卻在遞減。有研究者認為,這種遞減趨勢可能有一部分來自科研工作性質的改變。但是,找到下滑的真正原因并不容易。我們認為,造成這種現(xiàn)象的原因與學術評價制度密切相關。然而,以學術引用為基礎的量化評價已運行數十年,早已經深刻影響和規(guī)制著大學知識生產體系和學術評價體系。因此,破除傳統(tǒng)的大學學術評價路徑依賴并非易事。雖然“第五代評價”及全球學術評價改革的號角已經吹響,但大學學術評價理論和實踐并未有實質性突破,甚至在評價實踐中對量化評價的依賴和崇拜有加劇之勢。生成式人工智能技術將為大學學術評價改革帶來前所未有的契機,值得高度重視。尤其在中國式高等教育現(xiàn)代化的背景下,如何通過生成式人工智能技術創(chuàng)建學術評價智能體,對推進大學學術評價治理的現(xiàn)代化與構建中國自主知識體系具有重大戰(zhàn)略意義。
參考文獻:
[1]朱劍.“三大核心”:拿什么來取而代之:學術評價的困境[J].濟南大學學報(社會科學版),2019,29(2):27.
[2]KAREN WHITE.Publications Output:U.S.Trends and International Comparisons[EB/OL].(2019-12-17)[2023-11-01].https://ncses.nsf.gov/pubs/nsb20206/.
[3]RobJohnson,AnthonyWatkinson,MichaelMabe.The STM Report:An overview of scientific and scholarly publishing[EB/OL].(2018-10)[2023-11-01].https://www.stm-assoc.org/2018_10_04_STM_Report_2018.pdf.
[4]姜春林,魏慶肖.人文社會科學評價研究的爬梳與展望:基于人大復印報刊資料《社會科學總論》的分析[J].甘肅社會科學,2018(1):84-91.
[5]齊宇歆.當代教育評價理論及其歷史演進過程中的知識觀分析[J].遠程教育雜志,2011,29(5):78-84.
[6]宋旭紅.論我國學術評價中的程度正當和結果公正[J].清華大學教育研究,2019,40(2):77-87.
[7]MERTON R K.The Sociology of Science:Theoretical and Empirical Investigations[M].Chicago:University of Chicago Press,1973:177.
[8]MAY K O.Abuses of Citation Indexing[J].Science,1967,156(3777):890-892.
[9]董奇:面向未來的智能化教育評價[EB/OL].(2019-08-04)[2023-11-01].https://tech.ifeng.com/c/7osKZPbNi6K.
[10]RONZANO F,SAGGION H.Knowledge Extraction and Modeling from Scientific Publications[C].Springer,Cham,2016:11-25.
[11]曾建勛.推動科研論文語義評價體系建設[J].數字圖書館論壇,2021,1(11):1.
[12]洛倫佐·菲爾拉蒙蒂.大數據戰(zhàn)爭:數據在全球市場的使用與濫用[M].張夢溪,譯.北京:中華工商聯(lián)合出版社,2018:215.
[13]張卓,劉冬冬.高校教師學術評價的數字規(guī)訓及其突圍[J].大學教育科學,2023(1):74-82.
[14]孫偉平.人工智能與人的“新異化”[J].中國社會科學,2020(12):120-138.
[15]閆坤如,曹彥娜.人工智能時代主體性異化及其消解路徑[J].華南理工大學學報(社會科學版),2020,22(4):31-38.
[16]KNOTH P,HERRMANNOVA D,CANCELLIERI M.Corea Global Aggregation" Service for Open Access Papers[J].Scientific Data,2023,10(366):1-19.
[17]許可.人工智能的算法黑箱與數據正義[N].社會科學報,2018-03-29(6).
[18]王建磊,曹卉萌.ChatGPT的傳播特質、邏輯、范式[J].深圳大學學報(人文社會科學版),2023,40(2):145-153.
[19]孫波.可解釋的人工智能:打開未來智能教育“黑箱”的鑰匙[J].中國教育信息化,2022,28(4):7-8.
(責任編輯 劉第紅)
收稿日期:2024-03-06
作者簡介:石秀選,深圳大學高等教育研究所特聘副研究員,深圳大學與澳門城市大學聯(lián)合培養(yǎng)博士生;李均,深圳大學教育學部執(zhí)行主任,高等教育研究所所長,教授,博士生導師。(深圳/518060)
*本文系廣東省哲學社會科學“十四五”規(guī)劃項目“新時代我國人文社科學術評價治理機制研究”(項目編號GD22XJY11)、廣東省高等教育學會“十四五”規(guī)劃項目“我國人文社科學術評價異化現(xiàn)象及其生成機理研究”(項目編號22GYB067)的階段成果。