





摘要:以生成式人工智能(GenAI)為代表的智能技術推動了科研范式的轉型,有助于復雜科研問題的解決。分析GenAI在科研場景中的使用差異及其影響因素,有利于高校智能化科研建設。基于對浙江大學1226位研究生的問卷調查發現:在科研中使用GenAI占比最多的前四個場景為文獻翻譯、信息檢索、文獻綜述和潤色降重;學科背景在信息檢索、頭腦風暴和代碼生成三個場景中顯著影響研究生使用GenAI;而人工智能素養在文獻翻譯、頭腦風暴、文獻綜述、選擇研究問題、實驗設計、數據處理、代碼生成和潤色降重8個場景中顯著影響研究生使用GenAI。此外,針對其中部分研究生的訪談分析發現:研究生認為能評估GenAI生成內容質量高低是合理使用GenAI的前提;GenAI應用技巧決定了GenAI輔助科研的效率;除學科背景和人工智能素養水平外,導師對GenAI的態度與使用水平以及高校GenAI資源開發與集成情況同樣影響其在科研中使用GenAI。為促進研究生更好地利用GenAI賦能高質量科研創新,建議高校開發適配各專業教科研所需的垂直領域大模型,面向不同學科背景研究生設計融入GenAI使用的課程,全面提升高校師生人工智能素養。
關鍵詞:生成式人工智能;人工智能素養;科研場景;學科背景
中圖分類號:G434 " 文獻標識碼:A " "文章編號:1009-5195(2025)02-0092-11 "doi10.3969/j.issn.1009-5195.2025.02.010
基金項目:2024年度國家自然科學基金面上項目“基于垂直領域大語言模型的智能中文寫作平臺設計、研發與應用研究”(62477040);浙江大學研究生教育研究課題“基于生成式人工智能(AI)的研究生科研訓練及學術寫作行為研究”(YJSJY20240101)。
作者簡介:李艷,博士,教授,博士生導師,浙江大學教育學院(浙江杭州 310058);朱雨萌(通信作者),博士研究生,浙江大學教育學院(浙江杭州 310058);孫丹,博士,副教授,碩士生導師,杭州師范大學經亨頤教育學院(浙江杭州 311121);許潔,博士研究生,浙江大學教育學院(浙江杭州 310058);翟雪松,博士,特聘研究員,博士生導師,浙江大學教育學院(浙江杭州 310058)。
一、問題提出
以生成式人工智能(Generative Artificial Intelligence,簡稱GenAI)為代表的人工智能技術正在推動全球科研范式發生深刻變革,實現從數據密集型的第四范式向“智能化科研”(AI for Research,簡稱AI4R)新范式轉變(李國杰,2024)。AI4R有助于研究者從海量數據中快速篩選、分析和定位有價值信息,發現研究趨勢,模擬實驗過程,創新研究方法,提升科研效率和創造力。它將人類獨有推理優勢與機器的高效率搜索完美融合,促進了復雜科研問題的解決。
1.GenAI對科研的影響
在傳統的高校科研工作中,師生通過搜索引擎、數據處理軟件等工具完成文獻查閱、數據分析等活動。在AI4R范式下,GenAI在內容創作方面的強大能力使其有可能成為高校師生的得力助手(徐嵐等,2023)。為推動高校使用GenAI,聯合國教科文組織拉丁美洲及加勒比海地區國際高等教育研究所(UNESCO IESALC)在2023年發布的《在高等教育中利用ChatGPT和人工智能:快速入門指南》中指出,以ChatGPT為代表的人工智能能夠在科研構思、文獻綜述、數據分析、論文撰寫等科研場景中輔助科研人員,提升其科研效率(UNESCO IESALC,2023)。
已有研究顯示:基于大語言模型的工具在文獻翻譯和信息檢索場景中能夠幫助研究人員快速理解多語種文獻內容,降低外文文獻閱讀門檻(Rahman et al.,2023);其通過自然語言生成技術提供多樣化的啟發性建議,引導研究人員從多維視角分析問題,激發科研靈感(周文輝等,2024);在文獻綜述階段能夠自動生成研究的概述性內容,協助研究人員高效整理和提煉文獻中的關鍵主題(Imran et al.,2023);此類工具還可以通過對已有研究方法的整合與自動化解釋,為研究人員提供系統化和易于理解的技術指引(趙悅,2024)。在研究問題選擇方面,GenAI的語義理解能力能夠對科研領域進行系統性分析,促進研究人員深度思考,幫助其發現具有理論意義和實踐價值的研究問題(周文輝等,2024)。在實驗設計環節,GenAI憑借強大的數據分析能力和模擬功能,可以優化實驗流程,分析海量生物數據(陳銘,2024)。在數據處理環節,GenAI能夠進行初步的數據分析和結果闡釋,甚至幫助研究人員發現復雜模式和潛在關系;其生成基礎代碼的能力還為研究人員專注于高層次的邏輯設計和理論創新提供了可能(吳青等,2023)。GenAI還可以對論文進行語言潤色和降重處理,在提高寫作質量的同時確保內容的學術規范性(Atlas,2023)。
綜上,GenAI可以在文獻翻譯、信息檢索、頭腦風暴、文獻綜述、方法介紹、選擇研究問題、實驗設計、數據處理、代碼生成以及潤色降重等場景中幫助研究人員開展科研。不過,GenAI在助力科研創新的同時,也有可能給科研帶來負面影響。在實驗設計、數據分析、寫作等場景中使用GenAI可能會損害高校師生的創造性、獨立性和學術誠信,甚至可能導致學術抄襲剽竊等問題(Atlas,2023)。過度使用GenAI還可能讓學生產生工具依賴,帶來高階思維發展不足以及認知能力退化等問題(徐嵐等,2023)。
2.學科背景對GenAI使用的影響
由于不同的學科在研究問題、研究內容、研究方法上差異較大,高校不同學科師生在科研中使用GenAI的行為可能存在較大差異(Qu et al.,2024)。李艷等人(2024)調查發現浙江大學不同學科背景的大學生對GenAI有不同的體驗和看法。Qu等人(2024)按照硬/軟和理論/應用維度將學科分為四個類別,即硬理論(理學)、硬應用(工學)、軟理論(人文藝術和社會科學)以及軟應用(商學),探究本科生的GenAI知識水平、使用意愿及其在認知任務和日常任務中使用GenAI的程度。結果表明,學生對GenAI的使用存在顯著學科差異:與理論學科背景的學生相比,應用學科背景學生的GenAI知識水平和使用意愿均較高。此外,不同學科的本科生在科研、寫作、編程和頭腦風暴等認知任務中使用GenAI存在顯著差異,應用學科學生使用GenAI更多。羅怡帆等人(2024)對26名信息資源管理方向的研究生進行半結構化深度訪談發現,被訪者傾向于在潤色英文論文、生成代碼、閱讀文獻等場景中使用GenAl。陳銘(2024)指出,生物信息學研究者更多在分析海量生物數據、預測蛋白質結構、自動化實驗等場景使用人工智能來提升科研效率。
3.人工智能素養對GenAI使用的影響
人工智能素養起初是指未來工作者應了解的人工智能相關知識與技術(Kandlhofer et al.,2016)。隨著以GenAI為代表的人工智能技術對人類社會的影響日益深化,學界對人工智能素養的定義進一步轉向了一種綜合素質,不僅包括人工智能相關的知識和能力,還包括與人工智能技術使用相關的情感、態度、價值觀和倫理等。Ng等人(2021)提出了一個包含有認識和理解人工智能、應用人工智能、評估和創造人工智能以及人工智能倫理等四維度內容的人工智能素養框架,基于此框架,有學者設計了人工智能素養評價量表(Zhao et al.,2022)。現有研究發現,大學生的人工智能素養水平對其人工智能產品接受度和使用意愿有顯著影響(Chan et al.,2023;Acosta-Enriquez et al.,2024;Jiang et al.,2024)。Al-Abdullatif(2024)研究發現人工智能素養水平顯著正向影響大學教師對GenAI的接受程度。
4.研究問題
綜上所述,現有研究較多聚焦GenAI在大學生科研或學習中的整體使用意愿或使用行為,對GenAI賦能科研的討論往往局限于單專業視角(羅怡帆等,2024)或僅從理論層面進行探討(周文輝等,2024),對于研究生群體在典型科研場景中如何使用GenAI、學科背景和人工智能素養如何影響其對GenAI的使用有待深入探究。科研活動是一個系統性的研究過程,涉及從知識輸入和積累到創新成果輸出與轉化等多個環節,不同環節對科研技能的要求不同,GenAI賦能各環節的方式也可能存在差異。基于此,本研究擬采用混合研究方法,通過問卷調查和訪談數據,探究學科背景和人工智能素養水平是否以及如何影響研究生使用GenAI,以期為高校更好地制定GenAI使用規范和開展人機協同科研活動提供實證依據,并為國家和高校出臺優化智能化科研環境的政策提供思路與對策。
二、研究設計
1.研究工具設計
(1)問卷工具
研究編制了“研究生GenAI使用狀況調查問卷”,共三個模塊(見表1):①研究生的基本信息,包括性別、學段和學科背景;②研究生在科研中使用GenAI的情況,包括使用GenAI的概況以及在科研的10個典型場景中是否使用GenAI;③研究生人工智能素養,參考Zhao等人(2022)和Wang等人(2023)編制的人工智能素養量表工具,根據研究生在科研中使用GenAI的語境,改編已有量表工具的題項內容并合并表意相同題項,最終形成了包含4個維度12個題項的研究生人工智能素養量表。
(2)訪談工具
半結構化訪談時的提問主要聚焦學科背景和人工智能素養水平兩大因素對研究生在典型科研場景中使用GenAI的影響,例如“你認為你所在專業相比于其他專業,在科研中使用GenAI的特殊點在哪里?”“你認為對人工智能的了解程度會如何影響你在科研中使用GenAI?”“除學科背景、人工智能素養水平(了解程度、使用熟練度等因素)外,你認為還有哪些因素影響你在科研中使用GenAI?如何影響?”等。
2.研究對象與數據采集
(1)研究對象
本研究選取浙江大學研究生作為研究對象。浙江大學涵蓋哲學、文學、歷史學、藝術學、經濟學、法學、教育學、管理學、理學、工學、農學、醫學、交叉學科等13個學科門類,這些學科按學科大類又分別歸屬在7個學部,包括人文學部、社會科學學部、理學部、工學部、信息學部、農業生命環境學部和醫學部。截至2023年12月底,浙江大學在校中國籍研究生有4.4萬余人,為研究提供了較大的樣本基數。
(2)問卷數據
調查問卷通過問卷星于2023年11月15日至11月25日向浙江大學研究生群體隨機發放,問卷起初發布于學校論壇,采用滾雪球和方便抽樣的方法收集樣本。發放一周后,研究團隊根據問卷填寫情況,兩次有針對性地向樣本量較少的院系進行問卷發放,以保證問卷抽樣的代表性。被調查者在填寫問卷之前,被告知調研目的并知情同意。研究共收集問卷1436份,剔除未指定學部(學科背景)、作答時間過短(通過計算回答時間的均值和標準差,按照“3σ原則”剔除)或反向題不一致的樣本,保留1226份有效問卷,有效率為85.38%。研究者通過AMOS檢驗問卷信效度并通過SPSS26軟件對問卷數據進行描述性統計及邏輯回歸分析。
(3)訪談數據
2024年7—8月,采用滾雪球和方便抽樣的方法進行對象選擇,邀請參與過問卷調查的16位研究生進行訪談,被訪者的基本信息見表2。每位被訪者的訪談時長為45~60分鐘。訪談在征得被訪者同意后進行全程錄音,最終獲得14.59小時的錄音資料,經“訊飛語記”轉錄后獲得19.22萬字的文本資料,研究者將所有文本資料導入Nvivo11進行編碼分析。
3.變量設置及方法模型
本研究將研究生在10個典型科研場景(Ai,i=1,i=2,…,10)中是否使用GenAI作為因變量,將學科背景及人工智能素養作為自變量,性別和學段作為控制變量。
研究采用混合研究方法,首先進行問卷調研,再通過訪談細化、擴充、解釋和澄清問卷調研結果,提高調查結果的可解釋性、意義性和有效性(陳娬,2010)。對于調研數據,由于因變量為二分類變量(是或否),研究使用二元邏輯回歸方程進行建模。二元邏輯回歸是一種用于二元分類的統計方法,其目標是將事件發生的概率作為一個或多個預測變量的函數來建模(Hayes et al.,2009),適合描述和檢驗分類結果變量與一個或多個分類(連續)預測變量之間的關系假設。本研究構建的二元邏輯回歸方程為:
其中,P(在科研場景Ai中使用GenAI)表示研究生在科研場景Ai(如文獻綜述)中使用GenAI的概率,其值介于0~1;β0~β4為回歸系數;X0~X4分別為性別、學段、學科背景和人工智能素養水平。由于性別、學段、學科背景是無序多分類自變量,需將其處理為啞變量以納入回歸分析方程中。考慮到信息學部研究生科研內容與GenAI聯系密切,選擇信息學部作為參考類別;人工智能素養水平通過研究生人工智能素養量表12道題目求平均值獲得,為連續自變量。
4.數據處理與分析
研究使用描述性統計分析研究生在科研中使用GenAI的概況及其人工智能素養水平,使用驗證性因子分析檢驗人工智能素養問卷信效度。對10個典型場景分別建立二元邏輯回歸方程,以分析學科背景以及人工智能素養水平是否以及如何影響研究生在各個場景中使用GenAI。為了檢驗自變量之間是否存在多重共線性問題,研究通過計算公差或方差膨脹因子(VIF)來診斷自變量之間的多重共線性;如果公差小于0.1或VIF大于10,則表明存在多重共線性(Kock et al.,2012)。最終,采用前向似然比(LR)法構建邏輯回歸模型。通過綜合測試(The Omnibus Tests)衡量邏輯回歸模型的顯著性;通過霍斯默—萊梅休檢驗(Hosmer and Lemeshow Test)評估邏輯回歸模型的擬合優度(Menard,2002)。本研究報告了包括偏回歸系數、顯著性、優勢比等回歸結果,通過優勢比減1計算并報告了自變量對因變量的影響,即當連續變量增加一個單位或當虛擬(類別)變量切換到相反類別時,P(在科研場景Ai中使用GenAI)的變化情況。最后,研究總結訪談結果,并對回歸分析結果進行進一步驗證。
三、研究發現
1.問卷信效度檢驗和模型驗證
人工智能素養量表各子維度的Cronbach系數信度分析結果均大于0.86,表明內容一致性良好。所有量表的AVE值均大于0.5,CR值均大于0.7,表明量表具有良好的收斂效度和組合信度。根據驗證性因子分析,卡方比自由度(CMIN/DF)值為7.618,筆者認為是由于樣本量導致該指標過大。進行多次樣本量為300的隨機抽樣后發現,每次模型CMIN/DF均小于3且其他擬合指標均達標,因此造成CMIN/DF過大的原因確實是樣本量過大,本研究遂選取其他擬合指標來檢驗量表效度。如表3所示,擬合指標RSMEA小于0.80,CFI、AGFI、GFI、TLI和NFI均大于0.90,模型擬合較好,證實研究模型適合進行詳細解釋分析。
根據多重共線性分析,10個邏輯回歸模型的容差(TOL)值從0.800到0.989不等,遠高于閾值0.1。VIF值從1.011到1.250不等,低于閾值10,表明預測變量之間不存在多重共線性。根據綜合測試,所有回歸模型的p值均小于0.05,表明模型整體顯著。根據霍斯默—萊梅休檢驗,除“方法介紹”場景外的9個回歸方程模型的p值最小為0.059,最大為0.919,均大于顯著性水平(0.05),表明當前數據中的信息已被充分提取,模型的擬合程度較高。因此,得到的邏輯回歸模型(除“方法介紹”場景)具有統計學意義,適合進一步分析。
2.描述性統計
參與問卷調查的研究生中,男生562人(45.84%),女生664人(54.16%);碩士生832人(67.86%),博士生394人(32.14%)。共有244人(19.9%)來自農業生命環境學部,299人(24.4%)來自醫學部,150人(12.2%)來自信息學部,136人(11.1%)來自理學部,101人(8.2%)來自社會科學學部,99人(8.1%)來自人文學部,197人(16.1%)來自工學部。
調查發現,近三分之一的研究生在OpenAI發布ChatGPT-3.5(2022年11月30日)之前就初次使用GenAI,5.55%的研究生尚未使用過GenAI。研究生使用的GenAI產品按使用頻率排序為ChatGTP、New Bing、文心一言、訊飛星火、NotionAI、ChatGLM和Gamma。研究生在科研中使用GenAI最多的場景是文獻翻譯(70.47%),之后依次是信息檢索(69.41%)、文獻綜述(39.97%)、潤色降重(39.97%)、方法介紹(31.24%)、代碼生成(31.00%)、頭腦風暴(27.08%)、選擇研究問題(26.10%)、數據處理(21.45%)以及實驗設計(11.50%)。
參與問卷調查的研究生的人工智能素養處于一般水平(M=2.74,SD=0.92)。在人工智能素養的4個子維度中,研究生在“倫理”維度(M=3.14,SD=1.15)和“應用”維度(M=3.10,SD=1.15)水平相對較高,在“認識和理解”(M=2.73,SD=1.73)以及“評估和創建”維度(M=2.01,SD=1.06)水平較低。
3.學科背景的影響
如表4所示,學科背景對于研究生在信息檢索、頭腦風暴和代碼生成3個場景中是否使用GenAI有顯著影響,在其他7個場景中則沒有顯著影響。與來自信息學部的研究生相比,其他學部研究生在信息檢索和代碼生成場景中使用GenAI的概率存在顯著差異。
在信息檢索場景中,來自農業生命環境學部、醫學部、理學部、人文學部、社會科學學部和工學部的研究生使用GenAI的概率比來自信息學部的研究生分別低61.5%、55.0%、47.2%、44.3%、33.0%和13.9%。訪談結果顯示,在信息檢索場景中,部分來自農業生命環境學部和醫學部的被訪者(3/16)表示習慣于使用專業的數據庫或直接查閱論文來進行信息檢索,如蛋白質名稱及結構、致病基因位點等,GenAI在特定專業領域無法達到現有數據庫及論文本身的準確度和時效性。
在頭腦風暴場景中,學科背景整體對研究生是否使用GenAI有顯著影響,但非信息學部研究生與信息學部研究生(參照組)在該場景中使用GenAI的概率無顯著差異。訪談結果發現,來自不同學部的研究生開展頭腦風暴的形式各不相同。人文學部和社會科學學部的部分被訪者(4/16)表示,他們需要對一個研究問題進行多方面的論證和解釋,因此,他們經常使用GenAI來提出、分析、解釋問題以發散思維,讓自己的思考更全面;來自理學部的研究生(2/16)表示,他們的研究側重公式或證明方法的邏輯推理,GenAI生成的內容往往具有一定的不確定性或發散性,導致他們對該工具在頭腦風暴場景中的依賴程度較低;部分來自農業生命環境學部和醫學部的研究生(3/16)認為,GenAI無法生成小眾專業研究領域的“新鮮”內容,因此,他們傾向于采用與導師和同門討論的方式開闊思路。
在代碼生成場景中,相較于來自信息學部的研究生,來自人文學部、社會科學學部、農業生命環境學部、醫學部、理學部和工學部的研究生使用GenAI的概率分別低88.6%、80.3%、79.4%、73.1%、65.9%和49.3%。訪談結果部分驗證了這一結果。來自信息學部的被訪者表示,他們的研究往往涉及大量編程工作,GenAI能夠有效幫助其生成基礎性代碼。來自社會科學學部和人文學部的被訪者(3/16)表示,他們的科研任務較少涉及生成代碼,除少數交叉研究需要編寫代碼外,其科研活動更多需要翻譯、點擊式軟件分析或寫作相關應用。部分來自農業生命環境學部和醫學部的被訪者(2/16)表示,生物信息學等交叉研究領域需要編寫代碼來分析生物問題,因此可能會用到代碼生成,然而,大多數研究仍采用傳統實驗室做實驗的方式,沒有生成代碼的需求。
4.人工智能素養水平的影響
如表5所示,人工智能素養水平對于研究生在科研的文獻翻譯、頭腦風暴、文獻綜述、選擇研究問題、實驗設計、數據處理、代碼生成和潤色降重8個場景中是否使用GenAI有顯著影響。
在文獻翻譯場景中,人工智能素養水平每增加一個單位,研究生使用GenAI的概率會增加29.4%。訪談結果顯示,在文獻翻譯場景中使用GenAI需要研究生應用GenAI和評估其生成內容的能力;部分被訪者(5/16)表示大語言模型的出現能夠提升翻譯文字的質量,用詞更加符合語境,但要人工審查翻譯文字是否為原文表意。
在頭腦風暴場景中,人工智能素養每增加一個單位,研究生使用GenAI的概率增加81.9%。訪談結果顯示,部分被訪者(2/16)認為在掌握了提示工程方法后,可以利用GenAI快速生成多視角觀點和想法,拓展自己的思路;部分被訪者(2/16)強調頭腦風暴的目的以及所提供思路是否有幫助應由使用者來評估。
在文獻綜述場景中,人工智能素養每增加一個單位,研究生使用GenAI的概率增加17.0%。訪談結果顯示,部分被訪者(2/16)認為,在使用GenAI生成文獻綜述之前,應花一些時間來構思提示語,這樣能夠提高生成內容質量,幫助其更好地了解某一領域概況;另一部分被訪者(4/16)擔憂GenAI生成錯誤信息而選擇通過閱讀綜述論文來了解某一領域的研究現狀。
在選擇研究問題場景中,人工智能素養每增加一個單位,研究生使用GenAI的概率增加54.0%。訪談結果顯示,多數被訪者(13/16)認為,能夠評估GenAI生成內容質量好壞是合理使用GenAI幫助選擇研究問題的前提;自身不能評估GenAI生成內容質量的被訪者(4/16)偏向于僅通過文獻及與導師討論的方式選擇研究問題;越是對GenAI持批判性態度和有倫理考量的被訪者(4/16),其在選擇研究問題場景時更加強調研究者自身分析與選擇研究問題的重要性,并認為研究者的邏輯難以被GenAI取代。
在實驗設計場景中,人工智能素養每增加一個單位,研究生使用GenAI的概率增加74.8%。訪談結果顯示,部分被訪者(3/16)提及因無法應用GenAI生成其所需實驗設計而放棄使用的經歷;能夠評估GenAI生成實驗設計質量的被訪者會分配部分時間對GenAI生成內容進行人工評估并在與導師討論前完善自己的實驗設計(S3)。
在數據處理場景中,人工智能素養每增加一個單位,研究生使用GenAI的概率提升128.5%。訪談結果顯示,部分被訪者(3/16)認為需要具備提示工程或寫代碼的能力來調用GenAI的接口,才能使用GenAI完成特定的數據處理任務;被訪者S15表示,其導師鼓勵用GenAI的接口來進行文本數據標注,最后進行人工抽查。
在代碼生成場景中,人工智能素養每增加一個單位,研究生使用GenAI的概率提升122.1%。訪談結果顯示,工學部和信息學部的被訪者(3/16)往往具有更強的人工智能基礎知識和應用技能,而其科研任務往往涉及代碼編寫,因此更可能在該場景中使用GenAI。
在潤色降重場景中,人工智能素養每增加一個單位,研究生使用GenAI的概率提升51.7%。訪談結果顯示,應用GenAI的能力決定了研究生是否能在科研寫作中利用GenAI提升效率。例如,被訪者S12表示盡管初步嘗試在寫作中使用GenAI,但認為大模型生成內容偏向于人文社科專業的論文風格,對于理工科來說“寫得太文藝”;而部分被訪者(3/16)表示會利用大模型來改進理工科學術論文寫作。訪談還發現,是否使用GenAI進行潤色降重還受到導師的GenAI使用態度與狀況的影響。對GenAI持保守和觀望態度的導師(5/16),其科研組往往并未過多在科研中使用GenAI。例如,被訪者S9表示“我導師從來不用GenAI,都是自己來(寫論文)的,所以我們課題組的人也沒用。”相反,部分被訪者(7/16)表示導師鼓勵并支持在科研中使用GenAI,推薦特定產品,甚至科研組統一購買付費賬戶。例如,被訪者S1表示導師鼓勵自己先用GenAI潤色一遍再交給其進行修改討論。
四、結論與建議
1.研究結論
基于對浙江大學1226名研究生進行問卷調研以及對16名被調查者進行半結構化訪談,本研究探析了研究生的GenAI使用現狀以及學科背景和人工智能素養水平對其在10個典型科研場景中使用GenAI的影響。研究發現:絕大多數研究生都使用過GenAI,使用頻率最高的GenAI是ChatGTP,其次是New Bing和文心一言。研究生在科研中使用GenAI最多的場景是文獻翻譯,之后依次是信息檢索、文獻綜述、潤色降重、方法介紹、代碼生成、頭腦風暴、選擇研究問題、數據處理以及實驗設計。研究生的學科背景對其在信息檢索、頭腦風暴和代碼生成三個場景中是否使用GenAI有顯著影響。整體而言,研究生的人工智能素養處于一般水平。個體的人工智能素養對其在文獻翻譯、頭腦風暴、文獻綜述、選擇研究問題、實驗設計、數據處理、代碼生成和潤色降重8個場景中是否使用GenAI有顯著影響。訪談結果顯示,研究生認為能夠評估GenAI產生的結果質量高低是合理使用GenAI的前提,應用GenAI的技巧決定了GenAI輔助科研的效率。除學科背景和人工智能素養水平外,導師對GenAI的態度與使用水平以及高校GenAI資源的開發與集成情況同樣影響研究生在科研中對GenAI的使用。
2.研究建議
基于上述發現,本研究從開發適配各專業教科研所需的垂直領域大模型、面向不同學科背景研究生設計融入GenAI使用的課程、全面提升高校師生人工智能素養三方面提出以下建議。
(1)國內高校亟須開發適配各專業教科研所需的垂直領域大模型
調研結果顯示,超過八成的研究生最常使用的GenAI產品是ChatGPT,接近四成的研究生還使用了New Bing和國產通用大語言模型。該結果與我國大學生GenAI使用的調研結果一致(李艷等,2024;馬銀琦等,2024)。然而,ChatGPT和New Bing等大模型是面向全球用戶的通用模型,訓練的語料以英文為主,內容并非專門為教育和科研場景而設計,國產通用大語言模型也是為“通用”而研制的,語料庫龐雜,很多專業教育和科研所需內容并未涉及。訪談結果發現,不同學科背景學生(尤其是理工科)一致認為,GenAI生成的文字內容和風格不一定符合其學術寫作需求;當大模型無法生成符合預期的內容時,他們會放棄使用大模型;高校GenAI資源的開發與集成情況均影響研究生科研中GenAI的使用。此外,大多數被訪者均提及以ChatGPT為代表的GenAI的潛在負面影響,這與前人研究一致(Daher et al.,2024),即大模型被發現存在幻覺(Hallucination)、用戶諂媚(Sycophancy)等現象,若研究生未經驗證和審查就將生成內容用于文獻綜述、數據處理等科研場景中,可能會導致學術造假(Hwang et al.,2023),其對研究生科研能力和創新的影響猶未可知(Sharma et al.,2023)。
由此可見,為充分發揮GenAI在高校教學和科研中的作用,國內高校亟須加強合作,通過最大程度地匯聚專業優質資源,開展有利于各專業教科研的垂直領域大語言模型的研制和開發。盡管幻覺現象難以徹底根除,但可以通過精細調試(Fine-Tune)大型語言模型來減少幻覺現象的出現頻率,例如優化輸入/輸出架構、增設用戶反饋機制、采用檢索增強生成(RAG)技術、特定領域的微調以及結合帶有人類反饋的強化學習(RLHF)等方法(Minaee et al.,2024)。Sovrano等人(2023)將ChatGPT與Achinstein提出的解釋哲學理論相結合,設計了名為ExplanatoryGPT的模型。該模型不僅生成了互動性強、以用戶為中心的解釋,而且在減少幻覺現象和克服記憶限制方面取得了顯著成效。另一方面,雖然GenAI的幻覺現象可能會阻礙學生對知識的準確理解,但其也可能激發學生的創造力(Jiang et al.,2024)。同時,未來的研究可以調研各專業學生在科研各環節的具體提示需求,通過將各專業科研中常用的提示工程封裝在垂直領域大模型中,減少使用大模型的壁壘,更好地提升人機協同科研的效率和效果。
(2)高校應面向不同學科背景研究生設計融入GenAI使用的課程
本研究發現,絕大多數研究生都有過使用GenAI的經歷,其GenAI使用行為呈現出自發性和先導性的特點,研究生在科研中使用GenAI最多的場景是文獻翻譯和信息檢索,而數據處理和實驗設計等科研關鍵步驟中使用GenAI的頻率并不高,這表明當前研究生在科研中的GenAI使用還停留在較為淺表的層次。此外,不同學科背景的研究生在信息檢索、頭腦風暴、代碼生成等科研場景中是否使用GenAI存在顯著差異。
考慮到不同學科背景研究生的先驗知識和對人工智能知識技巧需求的差異,高校可以為不同學科背景的研究生設計不同難度的GenAI課程,在不同學科課程中使用具有學科特色的GenAI,并鼓勵研究生自主學習相關知識技能。例如,來自信息學部的研究生通過已有專業課程和大量專業資源了解并學會了GenAI的基本知識和技能。對于這些學生,高校可以通過構建學習社區來發展他們使用GenAI的高級技能(Fischer et al.,2006;Hur et al.,2013)。對于GenAI知識基礎和應用技能較薄弱的研究生,高校可通過提供分層人工智能選修課程、講座、研討會及工作坊,將GenAI基本知識和使用技能融入其教學活動中。
(3)高校應全面提升師生人工智能素養以激發科研創新
調研和訪談結果顯示,研究生人工智能素養處于一般水平。而研究生的人工智能素養顯著影響8個典型科研場景中研究生是否使用GenAI。該結果表明提升大學生人工智能素養是智能時代高校科研轉型的關鍵路徑之一(Kelly et al.,2023)。訪談結果還發現,研究生導師對GenAI的態度及使用水平也會影響其科研中GenAI的使用。GenAI對研究生導師在知識傳授方面的要求逐漸弱化,對導師的角色和能力結構提出了新的要求(王喆等,2023)。在智能時代,研究生導師一方面需要通過學習培訓、開展教改和科研項目來持續提升自身的人工智能素養水平,以適應新時代的教學和科研創新需求。另一方面,研究生導師需要持續引導學生對GenAI的正確使用并關注其人工智能素養的提升。例如,研究生導師可以引導研究生辯證思考GenAI對研究工作帶來的變革,討論如何發揮GenAI的潛在優勢以提升科研創新能力和質量;通過強調學術道德和學術誠信,引導研究生在科研中正確使用GenAI。
訪談結果顯示,被訪者會通過社交媒體等渠道自主學習GenAI相關知識技能。這說明研究生群體有提升自身人工智能素養的要求。高校可以通過組織課程和培訓活動來全面提升研究生人工智能素養。例如,教師可以鼓勵研究生在課程中使用GenAI,報告其使用體驗并引導其思考使用GenAI的利弊。以代碼生成場景為例,問卷和訪談顯示信息學部和工學部的多數研究生會利用GenAI生成代碼來提升效率。已有研究建議使用者在利用GenAI生成代碼時,不僅應注解其生成的代碼,還應解釋GenAI模型本身,如使用約束的信息、生成代碼正確性指標、代碼效率等(Sun et al.,2022;Prather et al.,2023)。此外,高校圖書館也可以開展面向研究生群體的GenAI使用培訓,幫助研究生在科研中合理規范地使用GenAI。如在針對潤色降重(寫作)的培訓中,培訓者可以初步介紹GenAI的基本原理,指導研究生有效提示大語言模型潤色其寫作,比較和反思個人原創寫作與潤色后內容差異,進而提升研究生學術寫作能力(Tseng et al.,2023)。通過各種校內教育和培訓活動,全面提升高校各學科背景師生的人工智能素養,對于智能時代高校科研創新和人才培養意義重大。
參考文獻:
[1]陳銘(2024).人工智能時代生物信息學學科發展和人才培養模式研究[J].人民論壇·學術前沿,(16):21-27.
[2]陳娬(2010).混合方法研究:遠程教育值得推廣的研究范式[J].現代遠距離教育,(5):26-29.
[3]李國杰(2024).智能化科研(AI4R):第五科研范式[J].中國科學院院刊,39(1):1-9.
[4]李艷,許潔,賈程媛等(2024).大學生生成式人工智能應用現狀與思考——基于浙江大學的調查[J].開放教育研究,30(1):89-98.
[5]羅怡帆,劉一迪,儲節旺(2024).信息資源管理研究生使用AIGC工具的科研行為影響因素研究[J/OL].[2024-12-22].圖書館雜志:1-13.http://kns.cnki.net/kcms/detail/31.1108.G2.
20241218.1648.004.html.
[6]馬銀琦,黃恒,毋磊等(2024).“技術賦能”還是“工具依賴”:生成式人工智能對研究生科研創新力的影響研究[J].電化教育研究,45(12):58-66.
[7]王喆,夏清泉(2023).生成式人工智能對研究生師生角色的消解與重構[J].研究生教育研究,(5):48-54.
[8]吳青,劉毓文(2023).ChatGPT時代的高等教育應對:禁止還是變革[J].高校教育管理,17(3):32-41.
[9]徐嵐,魏慶義,嚴弋(2023).學術倫理視角下高校使用生成式人工智能的策略與原則[J].教育發展研究,43(19):49-60.
[10]趙悅(2024).如何監管生成式人工智能在科學研究中的應用:風險與策略——基于歐盟和美國人工智能政策的分析[J].現代遠程教育研究,36(6):20-29.
[11]周文輝,趙金敏(2024).ChatGPT對研究生創新能力培養的價值與挑戰[J].高校教育管理,18(2):42-52.
[12]Acosta-Enriquez, B. G., Farro?an, E. V. R., amp; Zapata, L. I. V., et al. (2024). Acceptance of Artificial Intelligence in University Contexts: A Conceptual Analysis Based on UTAUT2 Theory[J]. Heliyon, 10(9):e11750.
[13]Al-Abdullatif, A. M. (2024). Modeling Teachers’ Acceptance of Generative Artificial Intelligence Use in Higher Education: The Role of AI Literacy, Intelligent TPACK, and Perceived Trust[J]. Education Sciences, 14(11):1209.
[14]Atlas, S. (2023). ChatGPT for Higher Education and Professional Development: A Guide to Conversational AI[EB/OL]. [2023-07-10]. https://digitalcommons.uri.edu/cba_facpubs/548.
[15]Chan, C. K. Y., amp; Zhou, W. (2023). An Expectancy Value Theory (EVT) Based Instrument for Measuring Student Perceptions of Generative AI[J]. Smart Learning Environment, 10(64):1-22.
[16]Daher, W., amp; Hussein, A. (2024). Higher Education Students’Perceptions of GenAI Tools for Learning[J]. Information(2078-2489), 15(7):416.
[17]Fischer, G., amp; Sugimoto, M. (2006). Supporting Self-Directed Learners and Learning Communities with Sociotechnical Environments[J]. Research and Practice in Technology Enhanced Learning, 1(1):31-64.
[18]Hayes, A. F., amp; Matthes, J. (2009). Computational Procedures for Probing Interactions in OLS and Logistic Regression: SPSS and SAS Implementations[J]. Behavior Research Methods, 41(3):924-936.
[19]Hur, Y. J., amp; Lee, S. Y. (2013). Difference in Characteristics of Self-Directed Learning Readiness in Students Participating in Learning Communities[J]. Health Science, 33:135-140.
[20]Hwang, S. I., Lim, J. S., amp; Lee, R. W. et al. (2023). Is ChatGPT a “Fire of Prometheus”for Non-Native English-Speaking Researchers in Academic Writing?[J]. Korean Journal of Radiology, 24(10):952.
[21]Imran, M., amp; Almusharraf, N. (2023). Analyzing the Role of ChatGPT as a Writing Assistant at Higher Education Level: A Systematic Review of the Literature[J]. Contemporary Educational Technology, 15(4): ep464.
[22]Jiang, X., Li., J., amp; Chen, C. H. (2024). Enhancing Critical Thinking Skills with ChatGPT-Powered Activities in Chinese Language Classrooms[J]. International Journal of Chinese Language Teaching, 5(1):47-73.
[23]Kandlhofer, M., Steinbauer, G., amp; Hirschmugl-Gaisch, S. et al. (2016). Artificial Intelligence and Computer Science in Education: From Kindergarten to University[C]// 2016 IEEE Frontiers in Education Conference (FIE). San Diego: IEEE:1-9.
[24]Kelly, A., Sullivan, M., amp; Strampel, K. (2023). Generative Artificial Intelligence: University Student Awareness, Experience, and Confidence in Use Across Disciplines[J]. Journal of University Teaching amp; Learning Practice, 20(6):1-16.
[25]Kock, N., amp; Lynn, G. S. (2012). Lateral Collinearity and Misleading Results in Variance-Based SEM: An Illustration and Recommendations[J]. Journal of the Association for information Systems, 13(7):546-580.
[26]Menard, S. (2002). Applied Logistic Regression Analysis (No. 106)[M]. Thousand Oaks: Sage Publications:17-24.
[27]Minaee, S., Mikolov, T., amp; Nikzad, N. et al. (2024). Large Language Models: A Survey[EB/OL]. [2024-12-01].
https://doi.org/10.48550/arXiv.2402.06196.
[28]Ng, D. T. K., Leung, J. K. L., amp; Chu, S. K. W. et al. (2021). Conceptualizing AI Literacy: An Exploratory Review[J]. Computers and Education: Artificial Intelligence, 2:100041.
[29]Prather, J., Denny, P., amp; Leinonen, J. et al. (2023). The Robots Are Here: Navigating the Generative AI Revolution in Computing Education[C]// Proceedings of the 2023 Working Group Reports on Innovation and Technology in Computer Science Education. New York: ACM:108-159.
[30]Qu, Y., Tan, M. X. Y., amp; Wang, J. (2024). Disciplinary Differences in Undergraduate Students’Engagement with Generative Artificial Intelligence[J]. Smart Learning Environments, 11(1):1-18.
[31]Rahman, M. M., amp; Watanobe, Y. (2023). ChatGPT for Education and Research: Opportunities, Threats, and Strategies[J]. Applied Sciences, 13(9):1-12.
[32]Sharma, M., Tong, M., amp; Korbak, T. et al. (2023). Towards Understanding Sycophancy in Language Models[EB/OL]. [2023-12-01]. https://doi.org/10.48550/arXiv.2310.13548.
[33]Sovrano, F., Ashley, K., amp; Bacchelli, A. (2023). Toward Eliminating Hallucinations: GPT-Based Explanatory AI for Intelligent Textbooks and Documentation[C]// CEUR Workshop Proceedings (Vol. 3444). Aachen: CEUR-WS:54-65.
[34]Sun, J., Liao, Q. V., amp; Muller, M. et al. (2022). Investigating Explainability of Generative AI for Code Through Scenario-Based Design[C]// Proceedings of the 27th International Conference on Intelligent User Interfaces. New York: ACM:212-228.
[35]Tseng, W., amp; Warschauer, M. (2023). AI-Writing Tools in Education: If You Can’t Beat Them, Join Them[J]. Journal of China Computer-Assisted Language Learning, 3(2):258-262.
[36]UNESCO IESALC (2023). ChatGPT and Artificial Intelligence in Higher Education: Quick Start Guide[EB/OL]. [2024-12-23]. https://unesdoc.unesco.org/ark:/48223/pf0000385146.
[37]Wang, B., Rau, P. L. P., amp; Yuan, T. (2023). Measuring User Competence in Using Artificial Intelligence: Validity and Reliability of Artificial Intelligence Literacy Scale[J]. Behaviour amp; Information Technology, 42(9):1324-1337.
[38]Zhao, L., Wu, X., amp; Luo, H. (2022). Developing AI Literacy for Primary and Middle School Teachers in China: Based on a Structural Equation Modeling Analysis[J]. Sustainability, 14(21):1-16.
收稿日期 2024-09-30 責任編輯 楊銳
Analysis of Variability in the Use of Generative Artificial Intelligence in Typical Research Scenarios: The Influence of Disciplinary Background and AI Literacy
LI Yan, ZHU Yumeng, SUN Dan, XU Jie, ZHAI Xuesong
Abstract: The advancement of intelligent technologies, represented by generative artificial intelligence (GenAI), has facilitated a paradigm shift in scientific research and contributed to the resolution of complex research problems. Analyzing the variability in the use of GenAI in research contexts and its influencing factors is essential for fostering the development of intelligent research in higher education institutions. Based on a survey of 1,226 graduate students at Zhejiang University, the study reveals that the four most frequently utilized research scenarios for GenAI are literature translation, information retrieval, literature review, and language refinement and text simplification. Disciplinary background significantly influences graduate students’ use of GenAI in the scenarios of information retrieval, brainstorming and code generation. AI literacy exerts a significant impact on its use in literature translation, brainstorming, literature review, research question selection, experimental design, data processing, code generation, and language refinement and text simplification. Furthermore, interviews with a subset of graduate students indicate that the ability to assess the quality of GenAI-generated content is a prerequisite for its appropriate use; proficiency in GenAI application techniques determines its efficiency in supporting research. In addition to disciplinary background and AI literacy, factors such as advisors’ attitudes toward and proficiency in GenAI, as well as universities’ efforts in developing and integrating GenAI resources, also shape its adoption in research. To enhance graduate students’ ability to leverage GenAI for high-quality research and innovation, it is recommended that universities develop domain-specific large models tailored to the needs of various disciplines, design courses that integrate GenAI use based on students’ disciplinary backgrounds, and comprehensively enhance AI literacy among faculty and students.
Keywords: Generative AI; AI literacy; Research Scenario; Disciplinary Background