999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大模型在高等教育中的應用:大模型寫作輔助能力測評

2024-12-31 00:00:00尹珺瑤
電化教育研究 2024年9期
關鍵詞:高等教育

[摘" "要] 大規模語言模型引發了高等教育領域的深層變革。研究基于人—技關系理論,聚焦人文社會學科研究生學位論文寫作輔助場景,構建包含知識、邏輯和應用能力三大維度15項任務的能力框架,及包含2,990道題項的測試數據集,以ChatGPT、Qwen-72B-Chat和Qwen-14B-Chat為樣本模型進行寫作輔助能力測評。研究發現:大模型在人文社會學科學位論文寫作輔助場景下表現出較好的知識型能力與應用型能力,邏輯型能力也存在較強的發展潛力,Qwen-72B-Chat在高等教育與科研垂類表現較好。研究針對大模型在科研方法、社會關系和因果關系三方面的不足,探索了有效的補充指令改進策略,從學習者、研發者、管理者和研究者視角提出了建議,以科學規范與指引學生的技術行為,推動高等教育與科研垂類大模型的建設。

[關鍵詞] 高等教育; 學位論文; 寫作輔助能力; 大模型測評; 人—技關系理論

[中圖分類號] G434" " " " " " [文獻標志碼] A

[作者簡介] 尹珺瑤(1997—),女,湖北武漢人。博士研究生,主要從事教育經濟與管理、高等教育研究。E-mail:648204413@qq.com。

一、引" "言

數智時代,以ChatGPT為代表的大規模語言模型(以下簡稱“大模型”)在自然語言處理領域已經展現出驚人的通用能力和應用潛力,引發了高等教育領域的深層變革,發展學生與人工智能協作共處的智慧,規范人工智能技術在高等教育領域的應用勢在必行[1]。學位論文寫作是高等教育人才培養的“最后一公里”,大模型已被學生廣泛應用于輔助學位論文資料檢索、校對、潤色等方面[2],但由于學生缺乏科學的大模型寫作能力測評結果作為參考和指引,加劇了學術精神異化與學術不端風險,這一風險性在人文社會學科領域尤其明顯[3]。探析人文社會學科學位論文寫作場景中的大模型作為輔助工具的能力邊界,對于科學引導、監管與規范學位論文寫作中的人工智能技術使用行為,降低技術濫用引發的人才培養質量風險而言至關重要。

“技術之所是,包含著技術為之效力的各種需要和目的”,基于人的需求和實踐的技術才有意義[4]。在海德格爾觀點的基礎上,伊德提出“人—技關系”理論,將人技關系視作包含具身關系、解釋學關系、他者關系和背景關系的連續統[5],適應具體情境需求的技術具身是技術變革與人技關系發展的理想目標與必然趨勢[6]。評估和發展大模型滿足具體情境需求的能力,對于推動人技關系走向技術具身而言至關重要。教育場景中的大模型能力測評研究逐年增多,EduNLP團隊針對K12教育發布首個CALM-EDU評測框架與報告,從教學知識、學生發展與內容知識三個維度評估各模型在教育領域的綜合性能,組織了ChatGPT教學能力診斷[7],為模型評測框架與數據集構建提供了一定參考。為彌補當前大模型能力測評研究在高等教育垂類以及在具體科研輔助應用任務中的空白,聚焦人文社會學科學位論文寫作輔助場景下的大模型能力,構建具有更細粒度的大模型學位論文寫作輔助能力評測框架與數據集,評估樣本模型在高等教育垂類的任務表現,并探尋模型問題與改進策略,對于高等教育與人文社會科學研究場景下的垂類大模型應用與發展有重要價值。

二、研究設計

(一)研究方法與樣本選擇

針對相同場景、相同度量下的標準化模型評估,國內外多所研究機構已構建了較成熟的大模型能力評測框架與數據集,形成了系統評測結果[8],為研究設計與樣本模型選擇提供了一定的指引和參照。2023年7月,上海人工智能實驗室推出了開源大型模型評估平臺OpenCompass,評估范圍涵蓋學科、語言、知識、理解和推理五個維度[9],能夠全面評估大型模型的能力,提供了一種全面成體系的評測范式。仿照OpenCompass的評測任務設置,自主構建測評數據集,并實現了自動化評測,得到了可靠的結果。

樣本模型的選取綜合考慮代表性與可得性,參考開源大型模型評估平臺OpenCompass在語言、知識、推理等維度的模型排行,以及大模型領域的主流評測任務MMLU[10]、C-Eval[11]和GSM8K[12]上的表現,我們選取OpenAI在2022年11月發布的ChatGPT(GPT-3.5-Turbo),以及阿里云通義千問對話模型Qwen-Chat系列中的Qwen-72B-Chat與Qwen-14B-Chat作為樣本模型。其中,ChatGPT代表國外大模型的領先水平,可付費用于學術研究;Qwen-72B-Chat作為國內最大參數規模的開源大語言模型,其數學邏輯、意圖理解與通用知識能力在基線測評排行中表現突出,代表中文大模型的前沿水平;Qwen-14B-Chat開源且運算成本較低,在各大基線測評中其通用能力顯著超出同規模模型,代表高可控與高性價比。

為實現規?;尚磐评恚诠皆瓌t,開源對話模型Qwen-72B-chat和Qwen-14B-chat的評測運行于8張A100-SXM4-80G GPU,基于PyTorch 2.1.0和Cuda 11.8的環境,vLLM 0.2.2高速推理框架,完成了樣本模型在人文社會學科學位論文寫作輔助任務上的能力評測;而對于閉源的ChatGPT,選用基于API(GPT-3.5-Turbo)的模型推理方式,公平地完成了相同人文社會學科學位論文寫作輔助任務設置上的能力評測?;谠u測結果的差異分析,對特定問題進行補測與個案分析,有助于探究大模型在真實應用場景中存在的問題與改進策略。

(二)研究過程

研究過程大致分為四個階段:

第一階段,搭建研究框架。圍繞學位論文輔助工具能力的內涵與要素,對教育領域與人工智能領域專家開展結構化訪談。訪談文本資料共詞分析結果顯示,大模型等人工智能技術作為學位論文寫作輔助工具的能力要素大致劃分為:規范論文寫作、查找知識信息和提供多樣表達三類。在此基礎上,綜合OpenCompass提出的大模型通用能力框架與C-Eval、MMLU等大規模基線評測任務內容,將研究框架劃分為知識型能力、邏輯型能力與應用型能力三大維度,每個維度包含5個二級指標,共計15個指標(見表1)。

2.問題設計主要根據各項指標測試的實際需要,由于各項指標測試難度存在差異,故對應的問題數量不完全相同。

第二階段,設計測試問題?;谘芯靠蚣?,邀請國內3位人工智能領域專家與9位教育領域專家針對每個維度中的5個二級指標進行問題設計。在參考OpenCompass框架,結合C-Eval、MMLU等基線測評數據庫,中國國家公務員考試、普通高等學校招生全國統一考試與全國碩士研究生統一招生考試等大型權威考試真題庫的基礎上,課題組專門針對人文社會學科學位論文寫作場景,經過多輪試測與評估,反復修訂題目內容與表述方式,設計了包含2,990道單項選擇題的測試數據集。值得強調的是,相較于現有的通用能力評測數據集,本研究所構建的垂類測評數據集聚焦人文社會學科學位論文寫作輔助具體場景下的大模型能力表現,對具體任務進行了更細粒度的劃分,問題設計更加突顯專業性和應用性,測評結果在人文社會學科學位論文寫作輔助應用場景下更有參考價值。

第三階段,對樣本模型進行準確性測試。對樣本模型ChatGPT、Qwen-72B-Chat和Qwen-14B-Chat在15項任務上進行測試訓練并統計結果,以各項任務的準確率為該模型人文社會學科學位論文寫作輔助能力的代理變量。

第四階段,針對特定問題進行追加補測與個案分析。在真實應用場景下,提供更詳細的補充信息和更具體的指令要求能夠提高大模型的輔助能力。通過模擬學位論文寫作輔助真實場景下的開放問答,對準確性測試階段出現的特定錯題進行追問,發現樣本模型在實際應用中存在的問題并從補充指令的角度探究改進路徑。

最終,基于第三、四階段研究結果的分析,形成研究結論并提出討論與建議。

三、研究結果

(一)整體描述

從模型能力得分情況來看,在三個樣本模型中,Qwen-72B-Chat的學位論文輔助能力最強,整體準確率達到81%,各維度能力準確率均高于70%;其次是Qwen-14B-Chat,準確率為71%;ChatGPT的學位論文輔助能力最弱,準確率僅48%(見表2)。整體上,Qwen-72B-Chat具備更強的人文社會學科學位論文輔助能力。經檢驗,樣本模型在知識型能力、邏輯型能力和應用型能力三個維度上準確性得分與整體準確性得分具有一致性,表明測試數據集具有較好的魯棒性,準確性測評得分能夠代表大模型人文社會學科學位論文輔助能力水平。

從模型能力得分分布來看,三個樣本模型的能力得分分布均較離散。其中,Qwen-72B-Chat的離散程度最低,標準差仍可達0.12,大模型的學位論文輔助能力建設均衡性有待提升。經檢驗,樣本模型能力分布狀況基本一致,排除了數據集對得分平衡性的內生干擾,能力得分分布情況能夠體現大模型人文社會學科學術論文輔助能力建設的均衡性。

從各維度得分情況來看,ChatGPT在應用型能力維度上表現較好,擅長根據指令處理文本內容,但相較于OpenCompass框架內其他通用任務測評結果,ChatGPT在學位論文寫作輔助這一具體任務上的知識型能力和邏輯型能力表現欠佳。Qwen-72B-Chat與Qwen-14B-Chat在知識型能力與應用型能力維度上表現更好,邏輯型能力相對較差。綜合而言,在學位論文寫作輔助場景下,大模型具備的知識能力與應用能力能夠滿足學生資料收集、論文潤色等基本需要,但在信息不充分的情況下,大模型難以準確理解和分析人文社會科學研究中復雜的邏輯關系,輔助學位論文寫作的邏輯能力還存在很大提升空間。鑒于此,在個案分析部分,重點探討大模型在人文社會學科學位論文寫作輔助場景中的邏輯能力問題與改進路徑。

(二)差異分析

通過對15項具體指標在模型內部和模型之間的能力差異進行分析,分別比較樣本模型在各維度具體任務上的表現(如圖1所示)。經檢驗,樣本模型的具體指標得分與在所屬維度上的能力表現具有一致性,說明數據集問題匹配任務的穩健性較高,測評結果能夠較客觀地反映模型能力。

1. 模型內部能力差異分析

ChatGPT的學位論文寫作輔助能力整體較弱,有12項指標準確率低于60%。其中,應用型能力相對較強,文意理解指標準確率達到80%;邏輯能力維度上的歸納推理與演繹推理指標準確率僅有22%和26%。ChatGPT雖然在一定程度上能夠理解輸入內容的含義,但缺乏邏輯關系的理解能力和邏輯問題的解決能力,人文社會科學研究相關知識掌握不足。在人文社會學科學位論文寫作輔助場景下,ChatGPT仍存在許多不足,在缺少充足信息補充的情況下使用ChatGPT輔助學位論文寫作的風險性較高。

Qwen-72B-Chat的學位論文寫作輔助能力整體較強,有11項指標準確率不低于80%。其中,知識型與應用型能力維度的指標準確率大體在80%以上,其中有政策知識、歷史知識與文意理解指標準確率高于90%,邏輯型能力維度的概念判斷指標準確率接近100%,但邏輯型能力維度的其余4項指標相對偏弱,演繹、類比和常識推理的準確率僅64%、63%和69%,歸納推理的準確率僅54%。Qwen-72B-Chat能夠為學位論文寫作提供相對豐富和準確的知識資料,對人文社會科學研究內容的理解和抽象概括的能力較強,病句糾錯、同義改寫等論文寫作規范應用的效果相對更好,但該模型在解決社會關系問題上的邏輯推理能力有待提升。

Qwen-14B-Chat的學位論文寫作輔助能力處于中等水平,有4項指標準確率低于60%。其中,應用型能力相對較強,標題概括、中心提煉、文意理解和同義改寫任務的準確率均高于80%;但邏輯型能力相對較弱,歸納、演繹、類比和常識推理任務的準確率均低于53%。Qwen-14B-Chat能夠為學位論文寫作提供一定的相關史實與社會信息,能夠幫助學生規范論文寫作格式與語言表達,但該模型的邏輯推理能力暫時無法滿足輔助人文社會科學研究的基本需要。

2. 模型間能力差異分析

知識型能力維度測評結果如圖2所示。測評結果表明,Qwen-72B-Chat在學科知識、政策知識、歷史知識和文化知識指標得分最高,準確率在80%~91%之間;Qwen-14B-Chat在社會知識指標得分最高,準確率達89%;ChatGPT在5項指標上都表現得相對較弱,準確率均低于60%。相對而言,Qwen-72B-Chat所提供的學科知識、政策知識、歷史知識和文化知識更加準確、可信,Qwen-14B-Chat所提供的社會信息資訊更加可靠??傮w而言,大模型為人文社會科學研究者提供了一條更加便捷的資料搜集渠道,但無法保障知識信息的科學性,特別是對于中國歷史與中華傳統文化相關知識掌握不足,難以提供準確的文化知識信息。

邏輯型能力維度測評結果如圖3所示。測評結果表明,Qwen-72B-Chat在各指標上處于領先,其中,概念判斷任務準確率接近100%,而另外4項準確率僅60%左右,未達到該模型平均水平;Qwen-14B-Chat的概念判斷任務得分達68%,其余4項指標的準確率僅50%左右;ChatGPT在5項指標上都表現得相對更弱,5項指標準確率均不高于50%。相對而言,Qwen-72B-Chat在人文社會學科學位論文寫作輔助場景中理解邏輯關系和解決邏輯問題的各項能力位于領先水平??傮w而言,在人文社會學科學位論文寫作輔助場景下,大模型能夠抽象出事物的共同本質特征并推廣到同類事物上,但歸納、演繹、類比和常識推理能力有很大提升空間,特別是從個別性知識推導出一般性結論的歸納推理能力難以滿足人文社會學科研究在發現和分析社會規律方面的內在需求。鑒于此,在個案分析部分,重點探討大模型在人文社會學科學位論文寫作輔助場景中的歸納推理邏輯能力問題與改進路徑。

應用型能力維度測評結果如圖4所示。測評結果表明,Qwen-72B-Chat在5項指標上都表現得更好,準確率不低于83%,其中文意理解能力指標準確率高達92%;Qwen-14B-Chat和Qwen-72B-Chat在標題概括上的準確率均為86%,5項指標的準確率均高于77%;ChatGPT在5項指標上都表現得相對更弱,大部分指標準確率低于70%。相對而言,Qwen-72B-Chat滿足人文社會學科學位論文規范性相關應用需求的能力位于領先水平??傮w而言,大模型能夠理解和判斷輸入文本的含義,能夠滿足學生在應用層面的學位論文輔助需求,但同義改寫指標準確率相對較低,利用大模型修改論文措辭有可能造成論文原意變化。

(三)問題分析與改進策略

由前所述,歸納推理能力是當前大模型人文社會學科學位論文輔助能力發展的薄弱環節。考慮到Qwen-72B-Chat的人文社會學科學位論文輔助能力相對最強,邏輯能力位于領先水平,故選取Qwen-72B-Chat作為個案模型,以其歸納推理測試錯題為原型,追加問答題補測,剖析其在歸納推理任務上的具體問題并探究有利于完善模型能力的補充指令。

通過對Qwen-72B-Chat在歸納推理任務上的所有錯題進行追加多輪問答補測,發現主要存在:人文社會科學研究方法掌握不足;基本社會關系識別存在偏誤;復雜因果關系推斷不準確三方面問題,分別選擇歸納推理任務中的第21、44和46題作為典型案例進行問題分析。

1. 研究方法掌握不足

形成科學且清晰的研究方法和思路是人文社會學科學位論文的基本要求,但Qwen-72B-Chat作為輔助工具,對人文社會科學研究方法掌握不足,通過細化提問內容的補充指令能夠有效改進這一問題。具體補測記錄如下① 。

測試者(Q1):一位社會學家對兩組青少年作了研究。第一組成員每周看有暴力內容的影視的時間平均不少于10小時;第二組則不多于2小時。結果發現第一組成員中舉止粗魯者所占的比例遠高于第二組。因此,此項研究認為,多看有暴力內容的影視容易導致青少年舉止粗魯。以下哪項如果為真 ,將質疑上述研究的結論?

A.第一組中有的成員的行為并不粗魯 。

B.第二組中有的成員的行為比第一組有的成員粗魯。

C.第一組中有的成員的文明行為是父母從小教育的結果,這使得他們能抵制暴力影視的不良影響。

D.第一組成員中很多成員的粗魯舉止是從小養成的,這使得他們特別愛看暴力影視。

Qwen-72B-Chat(A1):選項C指出第一組中有的成員的文明行為是父母從小教育的結果,這使得他們能抵制暴力影視的不良影響。這個選項提供了一個可能的原因,說明第一組成員中的舉止粗魯者所占的比例較高,并不一定是因為看了更多的暴力影視。選項D雖然提到了第一組成員愛看暴力影視,但它并沒有解釋為什么第一組成員中的舉止粗魯者所占的比例較高。

測試者(Q2):一項社會學研究根據每周看暴力影視的平均時長將青少年分為兩組,第一組為每周看暴力影視的平均時長不少于10小時的青少年;第二組為每周看暴力影視的平均時長不多于2小時的青少年。對比這兩組青少年的粗魯行為,發現第一組舉止粗魯者所占的比例遠高于第二組。據此,提出研究結論:多看有暴力內容的影視容易導致青少年舉止粗魯。以下哪項如果為真,最能質疑上述研究結論?(選項同Q1)

Qwen-72B-Chat(A2):選項D最能質疑上述研究結論。因為第一組成員中很多成員的粗魯舉止是從小養成的,這使得他們特別愛看暴力影視,也就是說,是先有粗魯舉止,后有多看暴力影視,而不是多看暴力影視導致了青少年舉止粗魯。因此,這個研究結論可能是因果倒置的結果。

根據A1回答推斷,Qwen-72B-Chat缺乏社會實驗抽樣分組的基本常識。通過補充指令Q2進一步明確研究分組的具體過程以及兩組青少年之間的關系,在此基礎上重新提問,Qwen-72B-Chat輸出了正確答案。

綜上所述,大模型對社會科學研究方法、技術和過程的相關知識掌握不足,需要警惕其對于研究結果解釋和描述上的偏誤。在利用大模型輔助學位論文寫作時,利用補充指令細化提問內容,盡可能詳細、清晰地描述研究技術路線與操作流程,在一定程度上能夠幫助大模型準確理解研究的思路和過程,輸出符合邏輯的答案。

2. 社會關系識別存在偏誤

厘清社會關系是人文社會科學研究的基本前提,但Qwen-72B-Chat對基本社會關系的識別存在偏誤,通過提供先驗條件的補充指令能夠有效改進這一問題。具體補測記錄如下。

測試者(Q1):專家說:“最近,大學X專業的畢業生去其他專業崗位的人更多了。這說明X專業崗位不受歡迎?!毕铝心捻椬钅芟魅鯇<业目捶??

A.X專業領域沒有足夠的崗位。

B.現在獲得X專業學位的畢業生比過去少了。

C.在過去的10年里,X專業領域的工作崗位增加了許多。

D.許多X專業學位的畢業生在就讀時就從事過X專業領域的工作。

Qwen-72B-Chat(A1):分析專家的看法:X專業的畢業生去其他專業崗位的人更多了,因此得出結論X專業崗位不受歡迎。分析選項:A項說明X專業領域沒有足夠的崗位,這與專家的結論無關;B項說明現在獲得X專業學位的畢業生比過去少了,但這并不能削弱專家的看法;C項說明X專業領域的工作崗位增加了許多,這與專家的結論相反,可以削弱專家的看法;D項說明許多X專業學位的畢業生在就讀時就從事過X專業領域的工作,這也與專家的結論無關。綜上所述,本題答案選C。

測試者(Q2):如果Y專業工作崗位的減少,會導致有意愿在Y專業崗位就業的大學生不得不去其他專業的崗位就業。根據此參考范例,再次回答上題。

Qwen-72B-Chat(A2):根據提供的參考范例,某專業工作崗位的減少會導致有意愿在該專業崗位就業的大學生不得不去其他專業的崗位就業。分析選項:A項說明X專業領域沒有足夠的崗位,這與提供的條件一致;B項說明現在獲得X專業學位的畢業生比過去少了,但這并不能削弱專家的看法;C項說明X專業領域的工作崗位增加了許多,這與提供的條件相反,不能削弱專家的看法;D項說明許多X專業學位的畢業生在就讀時就從事過X專業領域的工作,這也與提供的條件無關。綜上所述,本題答案選A。

根據A1輸出答案可以推斷,Qwen-72B-Chat并未意識到除了父母離異外,父母其中一方去世也是單親家庭形成的原因之一。通過第二輪補測加以修正,補充指令Q2輸入內容在追加了“父母離婚和父母其中一方去世都會導致孩子成為單親兒童”這一社會關系解釋作為補充條件后,Qwen-72B-Chat輸出了正確答案。

綜上所述,在利用大模型輔助學位論文寫作時,需要警惕其對于社會關系理解和判斷失誤。利用補充指令為大模型提供研究相關主體及社會關系的基本邏輯解釋作為先驗條件與參考依據,在一定程度上提高了大模型對于社會關系判斷的準確性,有助于激發大模型的學位論文寫作輔助能力。

3. 因果推斷不準確

因果推斷是人文社會研究的重要思路之一,人文社會科學研究的意義在于深刻剖析復雜因果關系,但Qwen-72B-Chat對人文社會科學研究中復雜因果關系的推斷不準確,通過提供參考范例的補充指令能夠有效改進這一問題。具體補測記錄如下。

測試者(Q1):專家說:“最近,大學X專業的畢業生去其他專業崗位的人更多了。這說明X專業崗位不受歡迎?!毕铝心捻椬钅芟魅鯇<业目捶ǎ?/p>

A.X專業領域沒有足夠的崗位。

B.現在獲得X專業學位的畢業生比過去少了。

C.在過去的10年里,X專業領域的工作崗位增加了許多。

D.許多X專業學位的畢業生在就讀時就從事過X專業領域的工作。

Qwen-72B-Chat(A1):分析專家的看法:X專業的畢業生去其他專業崗位的人更多了,因此得出結論X專業崗位不受歡迎。分析選項:A項說明X專業領域沒有足夠的崗位,這與專家的結論無關;B項說明現在獲得X專業學位的畢業生比過去少了,但這并不能削弱專家的看法;C項說明X專業領域的工作崗位增加了許多,這與專家的結論相反,可以削弱專家的看法;D項說明許多X專業學位的畢業生在就讀時就從事過X專業領域的工作,這也與專家的結論無關。綜上所述,本題答案選C。

測試者(Q2):如果Y專業工作崗位的減少,會導致有意愿在Y專業崗位就業的大學生不得不去其他專業的崗位就業。根據此參考范例,再次回答上題。

Qwen-72B-Chat(A2):根據提供的參考范例,某專業工作崗位的減少會導致有意愿在該專業崗位就業的大學生不得不去其他專業的崗位就業。分析選項:A項說明X專業領域沒有足夠的崗位,這與提供的條件一致;B項說明現在獲得X專業學位的畢業生比過去少了,但這并不能削弱專家的看法;C項說明X專業領域的工作崗位增加了許多,這與提供的條件相反,不能削弱專家的看法;D項說明許多X專業學位的畢業生在就讀時就從事過X專業領域的工作,這也與提供的條件無關。綜上所述,本題答案選A。

A1輸出答案顯示,Qwen-72B-Chat判斷,X專業不受歡迎導致X專業畢業生去其他專業崗位就業,這是一個單向因果關系,X專業崗位數量的變動僅被理解為因果關系作用的結果,并未認識到X專業崗位數量變動與X專業畢業生去其他專業崗位就業之間存在雙向因果關系。通過第二輪試測進行驗證和改進,補充指令Q2輸入在追加了“Y專業工作崗位的減少,會導致有意愿在Y專業崗位就業的大學生不得不去其他專業的崗位就業”這一相同因果關系的參考范例作為補充條件后,Qwen-72B-Chat輸出了正確答案。

綜上所述,在利用大模型輔助學位論文寫作時,需要批判地看待其對于因果關系的推斷結論。利用補充指令為大模型提供研究中基本的因果關系與歸因邏輯作為前提條件,在一定程度上能夠提高大模型因果關系推理的準確性,激發大模型能力以更好滿足學生的學位論文寫作的需要。

四、結論與建議

(一)研究結論

綜合來看,大模型在人文社會學科學位論文寫作輔助場景下表現出較好的知識型能力與應用型能力,邏輯型能力也存在較強的發展潛力,豐富、準確的補充指令能夠有效激發大模型能力。為進一步推動大模型教育與科研能力發展,將進一步探究高等教育與人文社會科學研究輔助場景下的大模型補充指令使用策略與技巧作為下一階段研究的重點。

具體而言,大模型的通用知識數據庫為人文社會科學研究提供更便捷的信息獲取渠道,其所具備的概念判斷和文意理解能力為質性文本分析技術提供創新選擇,在收集資料、規范寫作和方法創新上起到一定的輔助作用。另一方面,大模型作為學位論文寫作輔助工具的各項能力還存在很大提升空間,其輸出內容的嚴謹性、準確性暫未達到學位論文寫作輔助的要求,邏輯能力問題突出,具體表現為:對人文社會科學研究方法掌握不足,對基本社會關系識別存在偏誤,對復雜因果關系推斷不準確。通過細化輸入內容、提供先驗條件、提供參考范例等形式的補充指令能夠有效激發大模型能力。

在三個樣本模型中,Qwen-72B-Chat的人文社會學科學位論文輔助能力位于領先水平,ChatGPT表現相對較弱。產生這一結果的原因可能在于,Qwen-Chat系列模型在中文語言背景測試中具有一定優勢,使用的預訓練數據類型覆蓋多語言,并且使用中文偏好的SFT和RLHF實現對齊。CLEVA等基線測評排名也證實了Qwen-Chat系列模型在理解與執行中文指令的能力上更勝一籌[13]。

事實上,目前僅有極少數業界領先的大模型具備人文社會學科學位論文輔助能力,且其本地部署門檻和運行成本較高,例如,Qwen-72B-Chat在本研究測評過程中需要運行于8張A100-SXM4-80G GPU,暫不適用于日常場景。而樣本模型Qwen-14B-Chat本地部署成本僅需Qwen-72B-Chat的八分之一,其測評結果對于考量當前日常場景中所接觸的大模型能力表現而言更有參考價值。除了本地部署的方式以外,伴隨大模型的產品化和商業模式創新,基于API調用的使用方式和基于token數量的計費方式將更加適應低成本的日常使用場景,大模型作為日常科研輔助工具的部署成本將逐漸降低。

(二)討論與建議

為實現人與技術的相互作用與形塑,需從多主體視角出發,深入、全面剖析大模型輔助寫作場景下的多元人技關系,探討高等教育領域人技關系走向常態化技術具身的可行路徑。

從學習者視角來看,應有意識地培養創造力與批判性思維等高階思維,提升問題意識,學習和訓練大模型使用中的提示語組織技巧。一方面,有意識地培養創造力、批判性思維與抓住事物關鍵問題的能力,在使用大模型輔助寫作過程中,批判地看待大模型所提供的信息,加強信息甄別、篩選與核實,同時提升創新性的問題意識,培養人機共生思維與較強的大模型使用技能。另一方面,學習和訓練大模型使用中的提示語組織技巧,在寫作過程中,科學、靈活使用大模型通用指令技巧,有效激發大模型寫作輔助能力。

從研發者視角來看,應加強具有中國特色的大模型中文知識庫建設,推動高等教育與人文社會科學研究垂類大模型建設。一方面,建議加強大模型對中華優秀傳統文化、中華文明歷史、中國社會關系等方面知識的中國特色社會主義知識庫建設,全面提高大模型理解中國本土文化,輔助解決中國問題的能力。另一方面,建議加快推動高等教育與人文社會科學研究垂類大模型建設,滿足高等教育人才培養與人文社會科學研究場景的需要,豐富大模型在人文社會學科領域中專業知識與傳統文化知識,提升大模型對于中國獨特社會關系的理解與推斷能力。

從管理者視角來看,針對高等教育領域大模型輔助寫作可能產生的學術不端現象,需要加強制度、評價、治理體系等多維度創新。在制度層面,出臺大模型輔助科研寫作規范制度,明確AI的工具定位與使用原則,結合中國實際,并制訂科研領域的大模型工具使用指南;在評價層面,加強論文原創性審查與過程性評價,助力學生創造力和批判性思維發展。在治理層面,將AI治理作為高等教育治理體系建設的重要內容,成立專門的AI指導工作組,通過專題研討與實證調查等途徑,探究AI在高等教育領域的使用機會和潛在風險,制定更加切合中國高等教育發展生態的大模型使用原則。

從研究者視角看,關于大模型作為學習輔助工具的研究應更突顯情境性與教育性。一方面,建議更加全面、深入地測評大模型在高等教育各類具體情境中的輔助能力,為使用和研發者提供參考和指引使用指南。本研究對大模型在人文社會學科學位論文寫作輔助場景下的各項能力進行了針對性測評,但受制于研究條件,測評內容和范圍仍存在一定的局限,研究結論難以遷移到其他應用場景中,未來將以高等教育其他重要垂類應用中的大模型能力測評為下一階段研究的重點。另一方面,考慮到研究的科學性,建議教育領域的大模型應用能力測評研究進一步加強教育理論的指引。大模型在教育領域的應用測評框架與數據集的構建應該遵循人學習、教育與發展的普遍規律,必須堅持教育理論的指導。

①Q1代表測試者第一輪輸入問題,A1代表模型針對Q1的第一輪輸出回答;Q2代表測試者在第一輪答案的基礎上,進一步輸入的第二輪補充條件及提問,A2代表模型針對Q2的第二輪輸出回答,以此類推,下同。

[參考文獻]

[1] 張絨. 生成式人工智能技術對教育領域的影響——關于ChatGPT的專訪[J]. 電化教育研究,2023,44(2):5-14.

[2] 尚智叢,閆禹宏. ChatGPT教育應用及其帶來的變革與倫理挑戰[J]. 東北師大學報(哲學社會科學版),2023(5):44-54.

[3] 吳曉林,邢羿飛. 知識復制抑或創新激發?——人工智能(ChatGPT)對社科類研究生教育的挑戰與機遇[J]. 廣西師范大學學報(哲學社會科學版), 2023, 59(2):66-74.

[4] 海德格爾. 演講與論文集[M]. 孫周興,譯.北京:三聯書店, 2005:4.

[5] 唐·伊德. 技術與生活世界:從伊甸園到塵世[M]. 韓連慶,譯. 北京:北京大學出版社,2012:77-117.

[6] 鄧敏杰,李藝. 走向技術具身:信息技術時代學習者主體性再認識[J]. 電化教育研究,2023,44(8):26-32.

[7] 賀樑,應振宇,王英英,等. 教育中的ChatGPT:教學能力診斷研究[J]. 華東師范大學學報(教育科學版),2023,41(7):162-176.

[8] LIANG P, BOMMASANI R, LEE T, et al. Holistic evaluation of language models[J]. Transactions on machine learning research, 2023,775:1-162.

[9] OpenCompass. CompassRank[EB/OL]. (2024-02-26)[2024-05-31]. https://rank.opencompass.org.cn/home.

[10] HENDRYCKS D, BURNS C, BASART S, et al. Measuring massive multitask language understanding[C]// ICLR.9th International Conference on Learning Representations. Wshington D.C.:ICLR,2021:1-27.

[11] HUANG Y, BAI Y, ZHU Z, et al. C-eval: a multi-level multi-discipline Chinese evaluation suite for foundation models[C]// NIPS. 37th Conference on Neural Information Processing Systems. New York: Curran Associates, 2023:62991-63010.

[12] COBBE K, KOSARAJU V, BAVARIAN M, et al. Training verifiers to solve math word problems[J]. ArXiv, 2021:2110.14168.

[13] LI Y, ZHAO J, ZHENG D, et al. CLEVA: Chinese Language Models EVAluation Platform[C]//IEEE. 2023 Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Computer Society, 2023:186-217.

The Application of Large Model in Higher Education: Assessment of

Large Model Writing Assistance Abilities

YIN Junyao

(School of Education, Central China Normal University, Wuhan Hubei 430079)

[Abstract] Large-scale language models(LLMs) have triggered profound transformations in the field of higher education. Based on the theory of human-technology relationship, this study focused on the scenario of writing assistance for postgraduate students' dissertations in humanities and social sciences, constructed a competency framework containing 15 tasks in three dimensions of knowledge, logic and application ability, and a test dataset containing 2,990 items. ChatGPT, Qwen-72B-Chat and Qwen-14B-Chat were used as sample models to assess the writing assistance ability. It is found that the LLMs demonstrate better knowledge-based and application-based abilities in humanities and social sciences dissertation writing assistance scenarios, and there was a strong development potential for logic-based abilities. Qwen-72B-Chat performed better in higher education and scientific research vertical category. This study explores effective strategies to improve the supplementary instruction for the large model with regard to its shortcomings in three aspects of scientific research methods, social relations and causality, and puts forward suggestions from the perspectives of learners, developers, administrators and researcher to scientifically regulate and guide students' technical behaviors, and to promote the construction of large models in higher education and scientific research vertical category.

[Keywords] Higher Education; Dissertation; Writing Assistance Abilities; Large Model Evaluation; Theory of Human-Technology Relationship

猜你喜歡
高等教育
教學和管理層面的高等教育服務思考分析
科教導刊(2016年27期)2016-11-15 21:03:53
高校雙語教學現狀與創新分析
科教導刊(2016年26期)2016-11-15 20:12:30
在線性代數課程教學中引入MATLAB的簡單介紹
考試周刊(2016年86期)2016-11-11 07:44:56
法津實驗教學的思考
新形勢下加強高校師德建設的對策研究
科技視界(2016年18期)2016-11-03 22:22:25
大數據對高等教育發展的推動研究
人間(2016年26期)2016-11-03 17:51:57
各地區高等教育與經濟發展水平協調性分析
時代金融(2016年23期)2016-10-31 13:56:28
關于應用型計算機專業培養方案的研究
中國市場(2016年36期)2016-10-19 04:33:08
基于Flash+XML技術的護理技能虛擬教學平臺設計與實現
中國高等教育供給側改革研究:起源、核心、內涵、路徑
大學教育(2016年9期)2016-10-09 07:53:44
主站蜘蛛池模板: 亚洲国产成熟视频在线多多| 日本道中文字幕久久一区| 99中文字幕亚洲一区二区| 亚洲天堂视频在线播放| 欧美人在线一区二区三区| 好久久免费视频高清| 国产在线日本| 亚洲人视频在线观看| 亚洲天堂网2014| 亚洲三级a| 亚洲有无码中文网| 国产精品性| 欧美日韩中文字幕在线| 欧美日韩专区| 毛片手机在线看| 国产91麻豆视频| 欧美19综合中文字幕| 日韩区欧美区| 亚洲av无码久久无遮挡| 男人天堂亚洲天堂| 福利在线不卡一区| 色首页AV在线| 97成人在线观看| 午夜欧美在线| 亚洲国产中文综合专区在| 99re精彩视频| 视频一区视频二区日韩专区| 国产精品女主播| 久久精品中文字幕免费| 亚洲综合亚洲国产尤物| 四虎成人在线视频| 国产精品嫩草影院视频| 午夜欧美理论2019理论| 亚洲最大综合网| 国产美女无遮挡免费视频网站 | 国产女人在线观看| 国产成人精品18| 国产精品毛片一区视频播| 亚洲性一区| 国产女人在线视频| 高清乱码精品福利在线视频| 国产成人亚洲精品无码电影| 亚洲中文无码av永久伊人| 污污网站在线观看| 好久久免费视频高清| 干中文字幕| 成人国产精品一级毛片天堂| 中文字幕av无码不卡免费 | 91极品美女高潮叫床在线观看| 91久久精品国产| 9久久伊人精品综合| 色噜噜狠狠色综合网图区| 热久久综合这里只有精品电影| 国产精品永久不卡免费视频 | 成人伊人色一区二区三区| 亚洲日韩国产精品综合在线观看| 亚洲天堂自拍| 日本道综合一本久久久88| 亚洲精品无码日韩国产不卡| 国产欧美日韩视频怡春院| 白浆免费视频国产精品视频| 91麻豆国产精品91久久久| 国产精品久久久久久久久久久久| 亚洲日韩在线满18点击进入| 在线日韩日本国产亚洲| 久久网欧美| 国内精品手机在线观看视频| 潮喷在线无码白浆| 精品无码视频在线观看| 亚洲伊人天堂| 久久精品66| 亚洲天堂视频在线观看免费| 五月激激激综合网色播免费| 精品黑人一区二区三区| 亚洲日本精品一区二区| 亚洲第一极品精品无码| 99国产精品一区二区| 久久女人网| 日韩123欧美字幕| 中文纯内无码H| 五月婷婷综合网| 国产欧美日韩免费|