摘要:生成式人工智能在社會科學研究中的廣泛應用給當前科研評價體系帶來了機遇與挑戰。新時期社會科學在研究范式、組織形式、科研生態三個層面的演變,對社會科學科研評價基于新的科研規律優化評價標準與方法,加強跨學科及團隊成果評價,引導研究增強人的主體性與現實關懷提出了新要求。人工智能的發展為社會科學科研評價理念與時俱進、評價方法提質增效提供了可能,但在意識形態、價值判斷、人文關懷等方面應注意人工智能的應用限度,并有效防范模型局限、偏見引入、數據安全等風險。因此,應協同推進人工智能科研評價大模型建設,提高科研評價人員知識素養、人工智能應用能力和責任意識,加強模型開發規范和不當使用追責法律體系建設。
關鍵詞:生成式人工智能;社會科學科研評價;評價理念;評價方法;風險防范
中圖分類號:C1" " " " 文獻標識碼:A" " " "文章編號:1003-8477(2025)03-0016-11
生成式人工智能在科學研究中的廣泛應用,引起了研究范式、科研組織形式的變革,也將進一步影響科研生態。深入思考生成式人工智能對科研評價帶來的機遇與挑戰,對于抓住科技革命機遇,科學應對生成式人工智能發展對科研評價帶來的挑戰,推動科研評價優化具有重要意義。當前學者所關注的重點是生成式人工智能對研究對象、[1](132-142)科研方式、[2](147-159)科研范式[3](1-9)的影響。一些學者探討了生成式人工智能在科研評價中的應用前景,認為生成式人工智能為開展公正評價、彰顯價值理性提供了可能。[4](5)在具體應用層面,有學者提出,生成式人工智能可用于概括文獻的主要貢獻、為分析文獻價值提供信息和見解、輔助建立小同行評審專家庫,并集成評價信息。[5](40-41)但目前學界對人工智能時代基于科研規律變革的科研評價優化需求與挑戰關注不足。本研究在分析人工智能時代社會科學研究規律演變的基礎上,總結社會科學科研評價的適應性優化需求,以及基于技術賦能的優化思路,以期為社會科學科研評價有效應對挑戰、把握機遇提供參考與借鑒。
一、人工智能時代社會科學研究規律演變
生成式人工智能在社會科學研究中的廣泛應用從研究范式、組織形式、科研生態三個層面系統形塑了科研規律。在研究范式上,生成式人工智能驅動產生第五研究范式,研究主體從傳統的“人人互動”轉變為“人機互動”,使社會科學研究呈現新特點;在組織形式上,跨學科合作呈跨度更大、合作范圍更廣的特點,科研重心向企業轉移,研究規模可能會經歷由團隊化向個體化的轉變;在科研生態上,可能引發學術倫理失范風險,加劇科研領域等級分化。
(一)研究范式:智能化科研范式
生成式人工智能在社會科學研究中的深度應用驅動形成第五科研范式(AI for Research,簡稱AI4R),也有學者將其稱為“Science by Human Being+AI”,其核心是科學研究從傳統的“人人”互動轉為“人機”互動,機器涌現智能成為科研組成部分。[3](4)具體而言,新的科研范式在研究主體、研究對象、研究方法、知識生產范式等方面均有所變化,而最核心的是研究主體的變化。
1.研究主體:從“人人”互動轉變為“人機”互動
新的研究范式中,研究主體由科研人員及其之間的互動(“人人”互動)轉變為研究人員和生成式人工智能之間的互動(“人機互動”)。生成式人工智能具有一定的技術自主性和主體性,在參與科研活動中具有一定的意向性,由此機器不再是被動的工具而成為科研組成部分,從而顛覆了以往科學研究的人類中心主義假設,使研究主體從“AI for Science”向“Science by Human Being+AI”轉變。[6](143-151)人類與大模型緊密的認知互動和創新協同,在延展人的感官和計算能力的同時,也促使機器在不斷學習進化中反過來塑造人的思維和行為,人機協同將成為生成知識的新范式。[7](6)
2.研究對象:生成式人工智能提供了重要研究議題
生成式人工智能對經濟發展、社會治理等領域的廣泛影響為社會科學提供了重要研究議題。學者們在“技術決定論”思路下研究生成式人工智能技術對社會產生的各種影響,也在“技術建構論”思路下研究生成式人工智能的特征,并思考如何使其符合人類社會的基本倫理和價值。[1](133)在生成式人工智能影響下,研究對象從傳統的自然現象、社會現象逐漸轉變為數據化、結構化的研究對象。[8](22)
3.研究方法:生成式人工智能的強大優勢
生成式人工智能能有效應對計算復雜性較高的組合爆炸問題,在解決不確定性問題方面有強大優勢,[3](1)能夠實現高精度因果建模、輔助構建多尺度理論模型,在多模態可用數據中形成對基礎理論的理解。[2](149)生成式人工智能還能基于人類整體知識積累和強大的多維信息采集能力,幫助跨越個人認知和有限理性局限,改變人類決策方式,解決“哈耶克難題”。[7](7)生成式人工智能能夠實現多種學科、多種方法的有機融合,以多學科的整體智慧綜合分析社會現象,實現更大范圍的跨學科研究,甚至“無學科”研究。[7](7)
4.知識生產范式:“發現—驗證”式研究路徑與知識創新、知識傳播、知識擴散邊界融合
知識生產范式從目的論和解決論范式轉向生成性和可能性的范式,生成式人工智能基于數據驅動的科研活動是被動式的事件導向研究路徑,基于多維度、多層次的事件信息形成多維度、全局性的新認識,能更好反映和解釋現實規律,深入探索和挖掘其他潛在可能性,呈現“發現—驗證”的路徑特點,與之前人類主導的“假設—驗證”式的問題導向研究路徑不同。[7](6)在知識生產范式上,知識創新不再是知識精英的特權,知識傳播不再只是學校的領地,知識擴散也不再只是媒介的專屬,知識需求與知識滿足在人機之間彌散,知識創新、知識傳播、知識擴散的邊界融合,包括知識精英在內的廣泛人類主體和機器智能共同成為知識生產的主體,知識創新、知識傳播、知識擴散之間的關系從線性傳遞轉變為同步演進和相互促進。[9](30-40)
(二)組織形式:跨學科、跨領域合作與科研重心轉變
社會科學研究范式的轉變,必將引起科研組織形式的變遷,使跨學科合作更加普遍。在生成式人工智能大模型開發過程中,科研活動趨向團隊化且由企業承擔重要角色。生成式人工智能大模型成熟后,科研活動或將趨向個體化。
1.跨學科合作跨度更大、范圍更廣
生成式人工智能強大的知識整合與傳播功能為更大范圍的跨學科合作提供了知識基礎,其模型的開發與訓練又有開展更大范圍、更多領域的跨學科合作的現實需求,兩方面因素共同推動科研組織形式呈現更深層次、更大范圍的跨學科合作特點。一方面,生成式人工智能大大降低了專業知識的學習門檻,為研究者基于多學科知識解決問題提供了便利,夯實了更大范圍的跨學科合作基礎。另一方面,生成式人工智能大模型的開發既需要特定學科專業人員闡明需求、進行決策,并與技術人員合作實現特定功能,也需要人文社科研究人員介入其中搭建倫理框架,制定算法審核流程,開展偏見、隱私等風險審查,引導科技向善,本身即具有人文社會科學與自然科學跨學科合作的需求。
2.生成式人工智能模型開發過程中,科研活動趨向團隊化且科研重心向企業偏移
一方面,如前所述,生成式人工智能模型開發所具有的跨學科合作需求,必將導致科研活動趨向團隊化。另一方面,生成式人工智能模型開發費用高昂,但在開發成功后具有巨大的應用前景和盈利空間,鑒于企業資金雄厚,又有基于科技前沿營利的內生動力,生成式人工智能及相關的跨學科研究重心將極有可能向企業轉變,而不再主要由科研院所和高校進行。這種趨勢已經初見端倪,研究發現生成式人工智能研究方面的核心論文出自谷歌和微軟等私營公司的可能性越來越高。[10](79-85)
3.生成式人工智能模型成熟后,科研活動可能趨向個體化
由于具備知識儲備豐富、互動成本低、高效、便捷等優勢,在生成式人工智能模型建成之后,學者對學術思想的檢索、整合、深化可能主要通過與大模型的對話來完成,科研生產方式或將趨向個體化,高校、科研機構等知識生產的中間組織將面臨解體與重塑。[11](16)
(三)科研生態:等級化與分化
生成式人工智能深度參與知識生產活動,對科研范式、組織形式的形塑也將進一步影響學術生態,可能導致特定類型研究式微、學術倫理失范、科研領域等級分化加劇等問題。
1.特定類型研究式微
生成式人工智能可能導致開放性、常規性等特定類型研究式微。一方面,生成式人工智能在科研中的廣泛應用將大幅提升科研效率、縮短科研成果生產周期,可能加劇科研內卷,不利于依靠開放性探索、科研周期長的成果在競爭中取得有利地位。另一方面,一些常規性研究或將被生成式人工智能取代,[12](161-166)理論性不強的調查研究以及在很大程度上可由生成式人工智能完成的思辨類、綜述類研究可能式微。[13](53-64)
2.學術倫理失范危機
人機互動形成的科研成果導致學術責任分散,生成式人工智能強大的改寫能力使抄襲等學術不端行為更具隱蔽性,學術傳播加速則會加劇學術造假和錯誤知識引發的信任危機,三方面因素共同作用,可能引發學術倫理失范危機。一是生成式人工智能在知識生產中的深度參與會導致學術責任分散。生成式人工智能在知識生產中的深度參與,使研究者在科研過程中原本受保護的知識產權和承擔科研過失責任的穩定秩序被多次且難以清晰剝離的“人機合作”打破,導致學術責任分散、著作權劃分不清。[14](19)生成式人工智能在科研活動中的權責不統一,可能引發一些失范現象。二是生成式人工智能出色的改寫、總結能力加大了學術不端檢測難度,可能加劇科研不端行為,某些學者可能會利用生成式人工智能快速產出低質量科研成果,助推浮躁學風。三是生成式人工智能在知識生產與傳播中的深度參與加劇了錯誤或偽造知識傳播的風險,可能引發信任危機。生成式人工智能強大的文字處理能力增加了錯誤或偽造知識的隱蔽性和識別難度,其快速傳播、定制化推送等功能,也會加劇上述知識的傳播危害,引發公眾對科研成果的信任危機。[14](21)
3.加劇科研領域等級分化,產生“知識寡頭”
一方面,生成式人工智能在知識生產中的深度參與,可能使科研成果質量、產出效率的主要影響因素逐步由人類個體的智慧與努力,轉變為生成式人工智能的技術發展和生成式人工智能大模型的訓練成效。另一方面,生成式人工智能模型的建立與訓練高度依賴資源投入,因此科研資金雄厚,有能力組織技術人才和理論研究者開展協同合作的科研機構在模型搭建方面具有先天優勢。而模型訓練完成后又能極大提高科研效率,并面向市場應用產生經濟收益,加強前期優勢,造成馬太效應,加劇科研領域的等級分化。這一分化發展到極致可能帶來知識權力的集中,最常用的生成式人工智能平臺形成知識壟斷,成為硅基意義上的知識權力中心和新的“知識寡頭”,[11](14)不利于科研生態的多樣性。
二、基于規律演變的社會科學科研評價優化需求
社會科學科研評價是配置科研資源、激勵學術創新、涵養學術生態的重要治理工具,人工智能時代社會科學的研究范式、組織形式和科研生態已經發生轉變,社會科學科研評價體系也應與時俱進,以適應社會科學研究新的規律與發展趨勢,有效發揮科研治理功能。
(一)基于新的科研規律升級評價標準與方法,適應科研范式變化
為適應新的科研范式及科研規律的轉變,社會科學科研評價應及時優化評價標準,拓展評價內容,有效防范科研風險。
一是重新審視評價對象界定標準。生成式人工智能在知識生產中的參與對評價對象的界定標準形成了沖擊。首先,生成式人工智能涌現的知識,以及人類對生成式人工智能生成內容進行解釋所形成的知識[11](16)是否屬于傳統的知識范疇,當然地成為科研評價的對象,是一個需要重新研究的問題。其次,在生成式人工智能深度參與科研活動,并在關鍵創新部分發揮重要作用的情況下,超越人的主體性的成果可否成為傳統科研評價對象,也是一個需要進行明確的問題。中國科學院科研道德委員會發布的《關于在科研活動中規范使用人工智能技術的誠信提醒》,反對將人工智能生成內容作為核心創新成果,反對使用人工智能生成整篇成果及參考文獻。[15]目前廣泛采用的做法是將人作為科研成果的唯一責任者,由其對科研成果中的生成式人工智能生成內容負責。若將以生成式人工智能為主體形成的科研成果納入科研評價,不僅會在知識產權歸屬劃分上面臨難題,還會在科研錯誤的社會后果責任承擔方面面臨更大挑戰。因此,可能需要為生成式人工智能占主導地位,甚至作為主體產生的科研成果,以及生成式人工智能生成的不可解釋、不可復制,但具有實效性的知識單獨開辟評價通道。
二是有效識別實質性創新,提高評價效率。生成式人工智能在科研中的應用,對科研成果的創新性評價帶來了難度和效率上的雙重挑戰。一方面,生成式人工智能強大的改寫、綜述能力可能使形式創新、表述創新與實質創新相混淆,這就需要在科研評價中對實質創新進行有效識別,盡力規避對低水平重復和文字游戲類研究進行不正當激勵的行為,充分發揮科研評價的正向作用;另一方面,如前所述,生成式人工智能將大幅縮短科研成果的生產周期,使科研評價任務驟增,這就要求評價機構在人工智能協助下提高評價效率,或設置合理的遴選程序選擇真正有價值的科研成果參與評價,將評價精力投入到真正重要、有價值的科研成果上。
三是增加生成式人工智能參與部分真實性審查和生成式人工智能應用風險審查。真實可信是重要的科研評價標準。生成式人工智能在科研活動中的廣泛應用加大了科研成果可信性的評價難度與復雜性,應及時拓展、深化可信性評價標準的內涵和評價參考點,并及早規避應用生成式人工智能帶來的偏見、隱私侵犯、價值誤導等風險。對于使用生成式人工智能形成的科研成果,在傳統的數據準確翔實、研究方法科學得當、研究過程可檢驗、研究結果可復制、研究過程遵守科研誠信等要求之外,還可借鑒歐盟的《在科研活動中負責任地使用生成式人工智能》(Living Guidelines on the Responsible Use of Generative AI in Research)文件,[16]在可信性評價中增加以下要求:(1)提供完整的生成式人工智能使用聲明,包括其參與程度、參與方式、互動過程1;(2)提供對生成式人工智能生成的結果是否具有各種偏見,是否存在知識偽造、整理錯誤以及隱蔽性、滲透性價值誤導,是否可檢驗、侵犯隱私等方面的檢驗資料,甚至提供便捷的檢驗方法,以規避潛在風險;(3)核查生成式人工智能提供的內容出處,盡量引用原始文獻,尊重科研人員的知識產權;(4)不能使用生成式人工智能生成的數據得出研究結論。
四是在科研成果社會影響評價中納入反映成果在生成式人工智能大模型開發訓練中所起作用的指標。科研成果的社會影響(也被稱為非學術影響)是科研評價的重要方面,反映了科研成果的應用價值和社會貢獻。隨著科研成果越來越多地應用于生成式人工智能模型構建與訓練,科研成果的社會影響評價指標應及時更新應用范圍和應用途徑,增加在生成式人工智能模型構建、訓練、應用中的貢獻與影響(如成果有助于訓練生成式人工智能模型,是生成式人工智能生成內容的重要參考等),以提高社會影響評價的全面性與科學性。
(二)加強跨學科及團隊成果評價,適應科研組織形式變化
人工智能時代社會科學研究的跨學科、跨領域、跨機構合作更加普遍,呈跨度更大、合作范圍更廣的特點,因此社會科學科研評價優化應朝向加強跨學科成果評價和團隊成果評價、靈活確定評價層次的方向發展。
一是加強跨學科成果評價,尤其要加強對橫跨自然科學、社會科學、人文科學的綜合性科研成果的評價。應根據跨學科成果特點優化評價標準與方法,構建能勝任跨學科成果評價任務的同行評審專家庫,加強跨學科成果的貢獻認定、權屬劃分實踐探索與經驗總結。
二是加強團隊成果評價。依托生成式人工智能大模型開展科學研究是重要的發展方向,模型的訓練需要技術人員和多學科科研人員通力合作。因此這一類型的科研成果是由多學科科研人員和多種類專業技術人員組成的科研團隊的集體成果,難以準確劃定知識產權界限。應根據其成果特點及時制定團隊成果評價標準與方法,并探索團隊成果中的個人貢獻計算方法、總結知識產權劃分經驗,加快探索科研團隊、生成式人工智能大模型平臺層面的綜合評價,以針對新的科研組織特點進行有效激勵。
三是靈活確定評價層次。根據新的科研組織形式特點,加快平臺、實驗室、研究機構層次社會科學知識生產規律研究與科研評價實踐探索,探索組織協調能力、團隊協調力等軟實力評價,提高科研評價與科研實踐的適配度。
(三)增強導向作用,有效應對科研生態變化
生成式人工智能在社會科學研究中的廣泛應用可能導致科研領域等級分化,科研活動對資金投入、基礎設施建設、生成式人工智能模型的依賴增強。基于此,社會科學科研評價應拓展評價功能,加強四個方面的引導,推動科研活動健康可持續發展。
一是引導在科研活動中加強人的主體性,提倡科研人員獨立思考,避免過度依賴生成式人工智能。生成式人工智能深度參與科研活動可能帶來知識生產不再依賴科研人員的創新性貢獻,科研人員要被迫接納和學習生成式人工智能創造的知識,過度依靠智能化技術的極端情況。[8](22-25)基于此,應設置相應的評價指標,充分發揮科研評價突出人在科研活動中主體性的導向作用。
二是引導社會科學研究增強問題意識、凸顯現實關懷。社會科學以個體和社會現象為研究對象,生成式人工智能的盛行為社會科學研究提供了豐富、多元的數據化研究資料,借助生成式人工智能采集、分析數據能夠大大提升研究效率,但仍應重視從社會實踐中采集鮮活、具體的研究素材,發揮人的實踐感知、批判性思維、情感認知和道德觀念[17](81-96)等獨特優勢,避免社會科學研究走向概念化、空心化和懸浮化。
三是引導營造尊重多元科研生產方式的科研文化,避免對未利用生成式人工智能大模型的傳統研究形成歧視,推動社會科學研究多元發展。傳統科學研究在保持人類獨立科研能力、維持科研人員批判性思維、突破知識寡頭的知識權力壟斷、推動科研生態多樣發展等方面發揮著重要作用。但多種因素不利于這類研究在科研評價中取得良好成績:一方面,不借助生成式人工智能的科學研究在效率上處于劣勢地位;另一方面,當有生成式人工智能參與的科研成果成為主流,生成式人工智能科研評價大模型也將主要以這類研究訓練數據,由此生成的評價標準和權重設計很可能對傳統科研不利。因此應適當調整科研評價的標準和指標權重,對傳統科研成果予以適當保護,以維護科研生產方式和科研文化的多樣性和包容性,推動科研生態健康發展。
四是引導支持開放性探索與非共識性研究,有效應對生成式人工智能廣泛應用可能帶來的科研同質化和知識壟斷風險。受人類理性、研究條件等因素制約,科學探索具有不確定性,科學理論和研究范式也具有一定局限性。突破這些局限性的范式革新和學術革命往往是創新的重要源泉,因此開放性探索和非共識性研究是推動科學發展的重要力量。但生成式人工智能深度參與科研活動可能便利了常規科研成果快速產出,使學術界迷失在短平快的學術泡沫中,忽視了科學研究固有的不確定性,降低對耗時長、投入大、結果不確定的開放性探索的包容度。基于已有知識和類似算法的生成式人工智能在科研活動中生成的內容有同質化風險,基于已有研究范式訓練的生成式人工智能科研評價大模型具有標準化、固化、開放性不足等局限,不利于非共識性研究在各類科研評價中取得良好成績。因此新的科研生態下,應在科研評價中為開放探索和非共識性研究開辟特殊通道,給予一定比例的特殊支持,保護推動科研創新的重要力量。
三、基于技術賦能的社會科學科研評價優化理路
生成式人工智能的發展為與時俱進升級評價理念、推動評價方法提質增效提供了技術基礎,為優化社會科學科研評價開辟了廣闊空間。
(一)評價理念的與時俱進
1.從片面評價到全面評價
綜合知識生產、傳播、應用全過程數據,全面采集學者、讀者、政策制定者等利益相關者的反饋,全面刻畫科研成果在學術、社會等方面的貢獻與影響是實現全成果評價、全息評價和全過程評價的基本路徑。生成式人工智能強大的數據采集和分析能力,為全面評價科研成果、科研項目和科研人員提供了可能。
全面評價體現在評價主體、評價對象、評價維度等多個層面。從評價主體層面看,生成式人工智能可以廣泛采集學者、期刊工作者、實踐工作者、第三方評價機構、新聞媒體等主體在學術活動中自然形成的海量學術痕跡數據,使科研評價主體不再局限于同行專家。[18](101-114)從評價對象層面看,在生成式人工智能幫助下,評價機構可以將期刊論文和專著之外的大眾讀物、網絡文章等各類成果納入視野開展全成果評價,全面評估科研人員的各方面貢獻。從評價維度層面看,借助生成式人工智能,評價機構可以對科研成果、科研項目、科研人員的學術貢獻、社會影響開展長周期、全過程的全面評價。
2.從事后評價到前瞻性評價
生成式人工智能可以推動科研成果評價從事后評價延伸至前瞻性評價。前瞻性評價在微觀層面體現為預判科研成果的未來影響力、應用前景和潛在風險。《科研社會影響的負責任評價框架》(A Responsible Framework for Evaluating the Societal Impact of Research)報告指出,可以從相關性、參與度、合作、傳播、可轉讓性、關注度等方面對科研成果的未來社會影響進行評價。[19]借助生成式人工智能可基于已有數據和同類研究規律從更科學、多元的角度對科研成果的應用前景、創新價值進行科學預測,提高成果評價的全面性和科研資助的科學性。前瞻性評價在中觀層面體現為診斷科研機構的發展戰略、儲備性科研布局和發展潛力,以幫助科研機構提升應對不確定性、滿足新科研需求的能力。生成式人工智能在解決維度爆炸、不確定性問題方面的功能優勢,有助于利用多維數據對科研機構科研發展戰略及實施情況進行綜合評價,為科研機構的差異化、特色化發展提供精準指導。前瞻性評價在宏觀層面體現在推動科研活動可持續發展上。數字孿生是將物理世界的對象或事件在數字空間進行高精度模擬的技術,可用于對對象或事件的多維認識、觀測,總結演變規律,進行未來預測。[20]基于數字孿生技術采用動態數據流和大模型實時捕捉和處理不同時間、空間和領域的評價活動和科研生態狀況,模擬評價活動與科研生態的互動關系,全面掌握評價活動對各利益相關主體的影響,可提高評價活動與科研生態及社會發展的協同性,為科學制定科研管理政策提供指導。
3.從結果性評價到發展性評價
智能化評價的重要新趨勢是評價功能的變化,即從過去的甄別、選拔,到精準改進、促進發展。[21]第四代評價理論以“以人為本”“回應和協商”為主要特征,提倡在評價實踐中推動人的成長和發展,[22](76-93)注重幫助評價對象改進的作用。
生成式人工智能強大的深度挖掘、模式識別和預測未來趨勢能力[23](88)為實現人才識別與精準培育功能提供了可能,有助于深入貫徹落實發展性評價理念,推動教育科技人才一體化改革。貫通科研人員的教育經歷、科研貢獻與成長軌跡數據,基于長時段、多維數據建立科研人才發展模型,總結創新領軍人才成長規律,完善科研人才分類分層評價體系,有助于加快建立多措并舉、精準施策、廣泛聯動的科研人才培育體系。
(二)評價方法的提質增效
生成式人工智能強大的計算能力可以彌補現有的科學計量學、同行評議、替代計量學等方法的缺點,提高評價的科學性與實效性,提高評價效率。
1.提高科學計量學、替代計量學的科學性和全面性
生成式人工智能可以提升科學計量學和替代計量學指標的精確性、針對性,從而幫助評價機構提高定量評價的科學性。基于大語言模型等技術,未來生成式人工智能可準確區分引用類型、引用情感,從而提高引用指標精確性。基于生成式人工智能強大的數據采集和計算能力,評價機構也可根據學科、研究類型特點針對性地設計量化評價指標,破解跨學科成果計量指標計算難題,推動學術多元、健康發展。此外,評價機構還可借助生成式人工智能采集多元主體對全類型科研成果、成果全生命周期的傳播和應用數據,提高計量指標的全面性。
2.提高同行評議公正性與效率
生成式人工智能既可提高同行評議的過程與結果公正性,又可提升同行評議效率。生成式人工智能可根據論文主題與研究方法匹配專家,根據作者單位、主要合作關系、師承關系等設置回避條件,高效遴選學科知識匹配、利益無涉、評價信用良好的專家,提高同行評議專家匹配度和評價過程的公正性,有效規避人情關系、本位主義等因素的影響,解決同行匹配難題。評價機構借助生成式人工智能,可將科研成果、同行評議過程性數據、專家特點等結合起來分析同行評議公正性的影響因素,并進行必要調控,以提高同行評議結果的公正性。生成式人工智能在統計、整理信息方面的優勢既可應用于科研成果的規范性檢驗、評價組織、為同行評議提供參考信息等方面,還可為專家提供成果概況總結、與同類文章的橫向對比數據來提高同行評議效率。當前人工智能技術在實踐中已用于科研成果的科研誠信檢測、生成式人工智能生成內容檢測,以及實證方法統計規范檢測。[24]
3.改進社會影響評價方法
社會科學成果的社會影響具有復雜交互性、潛在性、滯后性,測量難度大等特點,更難以貨幣形式進行量化比較。生成式人工智能可以通過采集與分析網絡文本信息、與生成式人工智能的交流互動等過程性信息,測量社會科學成果在公眾意識、批判性思維、重大政策接受度/認可度等方面的貢獻,提高社會科學成果社會影響的顯示度,凸顯社會科學的重要性,扭轉社會科學科研資源處于劣勢的局面。
四、社會科學科研評價中生成式人工智能的應用限度與風險防范
(一)社會科學科研評價中生成式人工智能的應用限度
社會科學成果具有較強的意識形態屬性、科研評價中的價值判斷比例更高等特點決定了生成式人工智能不能取代人類在社會科學科研評價中的主體地位。因此,在社會科學科研評價中應明確生成式人工智能的應用范圍與應用限度,使其主要在輔助性、規范性評價中發揮作用,而不能介入決定性評價,要保證同行評議專家在意識形態審查、價值判斷、人文關懷評估三方面的決定性作用。
1.社會科學成果的意識形態審查需由專家綜合判斷
社會科學的研究對象、研究方法、研究過程、研究發現體現了一定的政治性、民族性和階級性,具有較強的意識形態屬性。對社會科學研究成果進行意識形態審查對于維護國家統一和民族團結,避免社會分裂,引導公眾形成正確的社會價值觀具有重要意義。社會科學成果的意識形態審查是一項復雜的綜合性工作,要在立場獨立客觀、文獻梳理全面、問題導向科學、研究方法適切、理論基礎包容、結果解讀客觀等多方面基礎上進行綜合判斷,且具有隱蔽性,因此,需由同行專家進行把關。
2.社會科學科研評價中的價值判斷需由同行專家評判
社會科學具有闡釋性、政治性和階級性,在研究視角、結果解讀等方面具有更強的主觀性,因此其科研評價的客觀性和共識性低于自然科學,價值判斷比例更高,且具有一定預測性,無法簡單通過程序與代碼進行決定性判斷。社會科學成果的創新價值不僅在于發現前人未留意的現象,提出前人未提出的理論、觀點,更在于對未來學術與社會發展的貢獻。默頓很早就指出,在人類活動的諸多領域中,我們難以把值得承認的真正創新與不值得承認的新穎之物區別開來。[25](629)因此社會科學領域的科研評價依然要保證人在評價中的主體地位,由具有深厚學術積淀和敏銳社會洞察力的同行專家對創新價值進行判斷,不能過于依賴技術,片面強調可測量性與表面價值,而忽視難以被數據化的本真價值、本質和內在價值。[4](9)
3.社會科學科研評價中的人文關懷需由同行專家來主導
社會科學領域的科研評價活動不能僅遵循效率和資源配置邏輯,還應具備一定的人文關懷,體現多元價值。對人文關懷的評估,應由同行專家綜合各種信息,協調多種制度邏輯與利益關系,進行復雜決策。過于依賴技術和算法的科研評價忽視人的經驗、直覺、人文關懷,會導致人在科研評價中喪失主體地位,強化知識生產的功利化趨勢,不利于維護平等、多元、開放的科研生態。[4](9)生成式人工智能在學術評價中應處于輔助地位,主要用于提升學術評價效率,而不能替代同行評議專家的獨立思考和判斷。總之,學術評價的人文屬性不應改變,應以人類評價為主導。[5](37)
(二)社會科學科研評價中應用生成式人工智能的風險防范
1.生成式人工智能科研評價大模型科學性局限風險防范
生成式人工智能科研評價大模型的科學性局限可能帶來評價結果偏差、科研資源配置失衡,不利于社會科學多樣化和可持續發展,應制定針對性的應對策略。科學性局限主要來自以下兩個方面:一是人類理性與算法設定自身的系統偏差。受人類的有限理性、對科研規律認識不全面、科研評價模型擬合不足等因素影響,生成式人工智能科研評價大模型的程序、算法設定可能存在系統偏差和算法局限,導致特定學科、類型的研究成果在評價中處于不利地位。過度依賴可量化、可模型化的數據可能導致McNamara謬誤,忽視其他不可量化但重要的因素。[26]二是社會科學多元性帶來的科學性局限挑戰。生成式人工智能科研評價大模型算法的明確性、統一性與社會科學研究的經驗性、本土性、內部多元性和成果多樣性[5](41)之間存在張力,社會科學在研究范式、成果形式、傳播規律等方面均具有多元性特點,采用生成式人工智能科研評價大模型要處理好針對性與可比性之間的矛盾。
基于此,可從以下方面應對生成式人工智能評價模型科學局限性帶來的風險:一是在模型訓練過程中充分考慮社會科學的多樣性,提高訓練數據的全面性、代表性,探索多元的評價方法與指標,提高模型的科學性和全面性;二是深化分類評價理念,根據學科差異、成果類型、評價需要及時調整評價標準,針對性優化指標權重和模型參數,提高生成式人工智能科研評價大模型的科學性、有效性;三是加強生成式人工智能科研評價大模型的元評價,采集多元信息評估評價模型的準確性、科學性、有效性、公正性,及時糾偏,并加強與各學科科研人員的溝通交流,及時了解科研人員需求,持續優化模型。
2.生成式人工智能模型的偏見引入風險防范
生成式人工智能科研評價大模型在訓練數據、算法等環節都可能引入性別、民族、社會經濟狀況、語言、意識形態等偏見,以及難以覺察的潛在偏見、非意識偏見,訓練數據和算法中的微妙偏見被學習甚至放大,會導致評價體系的設計偏差,算法決策的不透明、不民主、不公正也會損害評價結果的公正性。筆者認為,可從以下幾方面入手有效防范偏見引入:一是形成負責任開發生成式人工智能科研評價大模型的原則和共識,如遵循許多倡議中經常提及的開發原則,采用良好、開放的數據,透明、客觀的算法,便于審查與進一步開發利用;[27]二是借鑒美國國家標準與技術研究院(National Institute of Standards and Technology,簡稱NIST)的《生成式人工智能風險管理框架》(Artificial Intelligence Risk Management Framework,簡稱AI RMF)配套工具、[28]歐盟的“可信賴生成式人工智能系統評估清單”(Assessment List for Trustworthy Artificial Intelligence,簡稱ALTAI)自查工具,[29]提供有效的偏見自查工具,引導模型開發團隊全面開展偏見自查自糾,前置偏見審查環節;三是加強生成式人工智能模型開發監管,建立健全內外部相結合的監管體制機制,組建多學科團隊對生成式人工智能模型進行偏見審查;四是結合評價結果、利益相關人反饋開展元評價,根據評價結果公正性、評價影響反饋持續優化,形成全流程的偏見審查機制。
3.生成式人工智能科研評價大模型中的數據安全風險防范
生成式人工智能科研評價大模型的訓練需要依托龐大的科研成果數據,若管理不當可能產生侵犯數據隱私、數據泄露等數據安全風險。具體來說:其一,生成式人工智能科研評價大模型的訓練以大量科研成果數據為基礎,可能涉及對知識產權的侵犯,并存在數據泄露風險。其二,社會科學的意識形態屬性決定了特定學科或特定類型成果(如黨的理論闡釋、重大政策決策闡釋以及與國家安全相關的成果等)具有一定的保密性,對這些對象進行模型訓練時應充分考慮這一點,避免失密泄密。可從以下幾方面入手有效防范生成式人工智能科研評價大模型的數據安全風險:一是構建并完善生成式人工智能科研評價大模型數據采集、處理、利用的框架、原則、標準,如遵循“合法、公開、透明”原則,敏感數據處理須以“公共利益或法定職權”為合法處理基礎,通過目的性、必要性和利益平衡測試;[30](26-27)二是完善相關監管規范與追責法律法規,根據學科、研究類型制定分級監管規范,加快制定侵犯數據安全的責任認定及懲處法律法規,推動追責規范及時與已有法律體系對接;三是從技術、制度、機構等多方面入手加強生成式人工智能科研評價數據安全監管,加快數據安全審查技術研發,制定并完善數據規范制度,設立專門的監管機構履行監管職責。
五、我國社會科學科研評價中合理應用生成式人工智能大模型的建議
(一)加強頂層設計,高效協同建設生成式人工智能科研評價大模型
科研創新是深刻影響世界發展格局和國家競爭力的重要因素,科學高效的科研評價是推動科研創新的重要方式。建設我國自主的生成式人工智能科研評價大模型,對于提高科研管理的科學性和效率、保障數據和科研安全、有效防范西方意識形態滲透具有重要意義。2023年7月10日,國家網信辦、國家發展改革委等部門聯合發布《生成式人工智能服務管理暫行辦法》,其中第六條提出:“推動生成式人工智能基礎設施和公共訓練數據資源平臺建設。促進算力資源協同共享,提升算力資源利用效能。推動公共數據分類分級有序開放,擴展高質量的公共訓練數據資源。”[31]生成式人工智能科研評價大模型在全國甚至世界范圍內具有通用性,應在基礎設施建設、訓練數據接入、評價標準方面做好頂層設計與統籌規劃,提高基礎設施和訓練數據利用效率,避免類似模型的重復訓練造成資源浪費,著力提升評價標準的科學性、公正性與全面性。一是國家層面制定生成式人工智能科研評價大模型分級訓練目標和差異化評價功能規劃框架,在全國范圍內開展有組織的生成式人工智能科研評價大模型訓練,聚合全國力量聯合攻關提高資源利用效率。二是在國家層面統籌打破管理權限及機構壁壘,推動社會科學研究成果數據分類分級有序接入生成式人工智能科研評價公共訓練數據資源平臺,推動算力資源協同共享,提高訓練效率。三是牽頭組織專家對意識形態、知識產權、偏見、歧視等風險進行審查,并對評價標準、評價指標、權重設計等在內的生成式人工智能科研評價體系進行應用前審查把關,保證評價體系科學、公正、安全、有效。
(二)全面提升科研評價人員的知識素養、技術能力與責任意識
全面提升科研評價人員的科研評價知識素養、生成式人工智能應用能力和負責任地使用生成式人工智能的責任意識,確保人在科研評價中的主體性,有效規避技術決定論的不良后果。
在知識素養方面,科研評價人員要為主導人機交互科研評價過程構建合理的知識結構,具備生成式人工智能輔助科研評價實踐方面的元認知能力。為構建工作所需的知識素養,科研評價人員一方面要深刻理解科研評價領域的原理、理論、價值等“硬知識”,即不僅要掌握該領域被確證的、可信度最高的那部分知識,還要掌握這部分知識被發現、被驗證的過程及其與所揭示對象的關系,[23](23-33)以幫助科研評價人員有效甄別、批判性運用生成式人工智能生成的內容。另一方面,要從大量的科研評價實踐感知中發現問題,提取關鍵要素,總結抽象關系,凝練理論,深化對科研評價實踐的感知和思考。
在技術能力方面,科研評價人員應掌握利用生成式人工智能開展科研評價的基本技術,深刻理解相關功能的技術邏輯與局限,能夠科學地為生成式人工智能布置任務,并對生成式人工智能生成的內容進行評估、選擇、進一步優化和合理使用。
在責任意識方面,通過舉辦負責任地使用生成式人工智能開展科研評價的相關培訓,傳授有效規避風險的經驗做法,并提供風險自查工具箱,幫助科研評價人員在開展相關工作時有效規避應用風險。
(三)加強安全開發生成式人工智能科研評價大模型規范建設,完善不當使用追責法律法規
生成式人工智能科研評價大模型的安全開發與應用不僅關系到我國哲學社會科學的健康發展,而且關乎意識形態安全,應遵循“發展和安全并重、促進創新和依法治理相結合”的原則,[31]及時出臺安全開發與倫理審查規范以及不當使用追責法律法規。當前國家網信辦、中國科學院、中國科學技術信息研究所等機構已出臺了《人工智能生成合成內容標識辦法》[32]《關于在科研活動中規范使用生成式人工智能技術的誠信提醒》[15]《學術出版中AIGC使用邊界指南2.0》[33]等文件,提出了對生成式人工智能生成合成內容進行標識的要求,并指出了在科研活動中使用AIGC的邊界和責任,但這些規范仍處于準則、指南階段,法律效力不高,且具有部門管轄權局限性,針對生成式人工智能不當使用的審查、問責機制尚不完備,對科研評價活動中不當使用生成式人工智能行為的約束力有限。生成式人工智能科研評價大模型的設計、訓練與應用涉及科研管理者、技術人員、科研評價人員等多方責任主體,明確各主體職責、不當行為責任認定及懲治辦法,對于規范生成式人工智能科研評價大模型的正當使用具有重要意義。
對生成式人工智能科研評價大模型的安全開發及合理使用監管要從正面規范和負面問責兩方面同時發力,有了明確的職責劃分及不當行為懲治辦法,規范性引導才有實踐約束力。一方面,加快出臺生成式人工智能科研評價大模型安全開發和倫理審查規范。《生成式人工智能服務管理暫行辦法》已提出提供和使用生成式人工智能服務,應堅持社會主義核心價值觀,在算法設計、訓練數據選擇等環節,“采取有效措施防止產生民族、信仰、國別、地域、性別、年齡、職業、健康等歧視”,尊重知識產權和他人合法權益,提升生成式人工智能服務的透明度、生成內容的準確性和可靠性。[31]這為進一步深化出臺針對科研評價領域的生成式人工智能管理規范提供了框架。將來還應結合科研評價的具體場景對其進一步細化,制定具有較強可操作性的風險審查管理規范,明確評價模型安全開發的基本原則、各環節的開發指南與監管規范,以及對評價模型的科學性、有效性、公平性進行審查的審查主體、審查程序及審查標準。另一方面,加快制定生成式人工智能科研評價大模型不當訓練與應用后果級別劃分、追責標準、取證規范及相關懲處規定,并及時對接已有法律體系,及時補上法律空白,杜絕相關人員鉆法律空白的僥幸心理。
參考文獻:
[1]政光景,呂鵬.生成式人工智能與哲學社會科學新范式的涌現[J].江海學刊,2023,(04).
[2]劉三女牙,郝曉晗,李卿.教育科研新范式:人工智能驅動的教育科學研究[J].教育研究,2024,(03).
[3]李國杰.智能化科研(AI4R):第五科研范式[J].中國科學院院刊,2024,(01).
[4]石秀選,李均.生成式人工智能技術賦能大學學術評價:機遇、挑戰及應對[J].高教探索,2024,(04).
[5]葉繼元,郭衛兵.生成式人工智能參與學術評價的反思[J].中國社會科學評價,2024,(01).
[6]李倫,劉夢迪.人工智能驅動的科學研究范式革命:態勢與未來[J].探索與爭鳴,2024,(10).
[7]米加寧.生成式人工智能十大認識論問題[J].探索與爭鳴,2024,(11).
[8]姜利標.數據內爆時代認知范式變革下的知識生產[J].探索與爭鳴,2024,(11).
[9]邱澤奇.人機互生:范式革命與知識生產重構[J].探索與爭鳴,2024,(11).
[10]Frank M R, WANG D S, Cebrian M, et al.The Evolution of Citation Graphs in Artificial Intelligence Research[J]. Nature Machine Intelligen, 2019, (01).
[11]陳昌鳳,黃陽坤.ChatGPT的知識功能與人類的知識危機[J].現代出版,2023,(06).
[12]鄭若婷,于文軒,趙昊雪,等.“AI驅動的社會科學研究與公共治理新范式的構建”高端學術論壇綜述[J].公共管理學報,2024,(01).
[13]肖珺,廣少奎,李滋陽.破局、重構與協同:生成式人工智能視域下的“破五唯”審思[J].高校教育管理,2024,(02).
[14]駱飛,馬雨璇.人工智能生成內容對學術生態的影響與應對——基于ChatGPT的討論與分析[J].現代教育技術,2023,(06).
[15]中國科學院科研道德委員會.關于在科研活動中規范使用人工智能技術的誠信提醒[EB/OL].https://www.cas.cn/glzdyzc/jdsj/kycxjs/202409/t20240923_5033523.shtml,2024-09-11/2025-02-07.
[16]European Commission.Living Guidelines on the Responsible Use of Generative AI In Research[EB/OL].https://research-and-innovation.ec.europa.eu/document/download/2b6cf7e5-36ac-41cb-aab5-0d3 2050143dc_en?filename=ec_rtd_ai-guidelines.pdf,2024-03-20/2025-02-07.
[17]米加寧,董昌其.大模型時代:知識的生成式“涌現”[J].學海,2024,(01).
[18]楊紅艷,盧思佳,徐擁軍.自然評價:人工智能驅動下的學術成果評價模式重構[J].重慶大學學報(社會科學版),2023,(04).
[19]Filchenko D, Pendlebury D, Quaderi N, et al. A Responsible Framework for Evaluating the Societal Impact of Research[EB/OL].https://clarivate.com/academia-government/wp-content/uploads/sites/3/dlm_uploads/2024/09/ISI_Societal_Impact_Framework_Sept26_2024.pdf,2024-09-01/2025-02-10.
[20]Semeraro C, Lezoche M , Panetto H, et al.Digital Twin Paradigm:A Systematic Literature Review[J].Computers in Industry, 2021, (130).
[21]北師大校長董奇:教育評價進入新的發展階段,智能化評價趨勢已出現[EB/OL].https://mp.weixin.qq.com/s?__biz=MjM5NDA1Njg2MA==amp;mid=2651996010amp;idx=3amp;sn=968842aed5141dcb96984e3b14eb73aaamp;chksm=bd6b00998a1c898f7a3940c5d2d70b4af40bb368bf65ee17861b653fee9ba5b554681b6f937aamp;scene=27,2019-08-02/2025-02-10.
[22]石雪怡,曲柳凝,楊頡.何以實現以人為本的高校科研卓越發展?——人文主義評價理念視角下英國“科研卓越框架”的改革及啟示[J].外國教育研究,2024,(09).
[23]劉華,戴嶺,祝智庭.智能革命與人的素養重構——基于技術哲學的教育審思[J].中國遠程教育,2024,(08).
[24]Kousha K, Thelwall M. Artificial Intelligence Technologies to Support Research Assessment: AReview[DB/OL].extension://oikmahiipjniocckomdccmp lodldodja/pdf-viewer/web/viewer.html?file=https%3A%2F%2Farxiv.org%2Fpdf%2F2212.06574.2024-06-30/2025-02-11.
[25][美]R.K.默頓.科學社會學[M].魯旭東,林聚任,譯.北京:商務印書館,2004.
[26]National Institute of Standards and Technology. Towards a Standard for Identifying and Managing Bias in Artificial Intelligence[C].tension://oikmahiipjniocckomdccmplodldodja/pdf-viewer/web/viewer.html?file=https%3A%2F%2Fnvlpubs.nist.gov%2Fnistpubs%2FSpecialPublications%2FNIST.SP.1270.pdf,2022-03-15/2025-02-11.
[27]Holm J, Waltman L, Newman-Griffis D, et al. Good Practice in the Use of MachineLearning amp; AI by Research Funding Organisations: Insights from a Workshop Series[C].https://figshare.com/articles/report/Good_practice_in_the_use_of_machine_learning_AI_by_research_funding_organisations_insights_from_a_workshop_series/21710015/1?file=38515406,2022-12-12/2025-02-11.
[28]National Institute of Standards and Technology. Artificial Intelligence Risk Management Framework(AI RMF 1.0)[C].https://www.nist.gov/publications/ artificial-intelligence-risk-management-framework-ai-rmf-10,2023-01-26/2025-02-11.
[29]European Commission. Assessment List for Trustworthy Artificial Intelligence (ALTAI)[C]. https://futurium.ec.europa.eu/en/european-ai-alliance/document/ai-hleg-assessment-list-trustworthy-artificial-intelligence-altai,2020-07-16/2025-02-11.
[30]趙悅.如何監管生成式人工智能在科學研究中的應用:風險與策略——基于歐盟和美國人工智能政策的分析[J].現代遠程教育研究,2024,(06).
[31]國家互聯網信息辦公室,國家發展和改革委員會,教育部,等.生成式人工智能服務管理暫行辦法[EB/OL].https://www.gov.cn/zhengce/zhengceku/20 2307/content_6891752.htm,2023-07-10/2025-02-05.
[32]國家互聯網信息辦公室,工業和信息化部,公安部,等.關于印發《人工智能生成合成內容標識辦法》的通知[EB/OL].https://www.gov.cn/zhengce/zhengceku/202503/content_7014286.htm,2025-03-07/2025-02-10.
[33]中國科學技術信息研究所,愛思唯爾,施普林格·自然,等.學術出版中AIGC使用邊界指南2.0[EB/OL].http://www.hf.cas.cn/sbpy/yjsc/gzzd_2/kycx/202411/P020241106550322999836.pdf,2024-09-26/2025-02-12.
責任編輯" "孔德智