生成式人工智能賦能批判性思維測評

2024-12-03 00:00:00冷靜盧弘煥代琳

現代遠程教育研究 2024年6期

摘要：以生成式人工智能技術賦能教育評價創新，已成為數字時代教育評價改革的熱點話題。為了能真實地反映個體的批判性思維水平，其測評已逐漸由單純的技能評估轉向在真實情境中進行推理、提供論據以及信息可信度等綜合能力的評估。將ChatGPT應用于批判性思維測評，有助于豐富評估內容、創新交互模式以及提升評估效率和精度，為批判性思維的多維度評估提供新視角和方法。基于批判性思維框架及五維測評量規，利用基于ChatGPT的在線平臺對31名大學生在186篇論證作文中反映出的批判性思維水平進行評價發現，作為寫作輔助工具的ChatGPT能夠顯著提升學生對“說明利弊類”“圖文情境類”和“對立觀點類”三類主題作文的論證寫作能力；并且利用ChatGPT進行的批判性思維評估也表現出較高的精準度，但在不同主題任務的測評中存在細微差異。這一結果表明，ChatGPT在捕捉和評估具有直接性和明確性的批判性思維要素方面較為高效，但在評估邏輯推理和論證深度方面仍存在局限。未來可進一步優化提示詞設計，引導ChatGPT深入理解人機對話中體現出的批判性思維水平，提升其在復雜認知任務處理中的適應性和準確性，進而實現個性化批判性思維評價與培育。

關鍵詞：生成式人工智能；ChatGPT；教育評價；批判性思維測評；提示工程技術

中圖分類號：G434 文獻標識碼：A 文章編號：1009-5195（2024）06-0102-10 doi10.3969/j.issn.1009-5195.2024.06.011

一、引言

批判性思維作為一種具有合理性、批判性、反思性等特質的思考方式，旨在增強個體對信息進行深入分析、評估和推理的能力，并形成獨立和批判的觀點。批判性思維能力在培養高水平的創新人才方面起著重要作用，受到國際社會的廣泛關注（方中雄等，2023）。然而，在評估教學干預對學生批判性思維提升的作用方面，元分析結果顯示：技術的使用并未對教學效果產生顯著影響（冷靜等，2020a）。2020年，國務院印發的《深化新時代教育評價改革總體方案》強調，充分利用信息技術提升教育評價的科學性、專業性和客觀性（新華社，2020）。2021年，教育部等六部門聯合發布《關于推進教育新型基礎設施建設構建高質量教育支撐體系的指導意見》，也強調要通過“人機共教、人機共育”提高教育教學質量（中華人民共和國教育部，2021）。隨著人工智能技術的發展和教育數字化的深入，人工智能有望為教育評價帶來更高效、更客觀的策略方案，以彌補傳統評價手段的不足。例如，將自然語言處理、預測分析、語音識別等引入測評，可以更全面、精準地評估學生的學業表現和思維能力；教師基于智能測評的結果實施相應的教學干預，以更好地提供基于數據的有效反饋（況姍蕓等，2021）。

當前，生成式人工智能在教育領域的應用潛力被越來越多的教育研究者和從業者所重視（陳向東等，2023）。生成式人工智能作為一種具備智能化、個性化、便捷化等特性的教育工具，可以被用于情感智能整合、智能教學輔助、跨學科與跨文化支持等多種教育實踐場景，并展現出實時反饋和全面性評估的價值。同時教育研究者也需要全面審視生成式人工智能產品在教育評估中的潛在風險，并確保其在教育場景下的公平應用（王煒等，2024）。在此背景下，以ChatGPT為代表的生成式人工智能產品是否會對學生批判性思維能力的提升產生影響，引發了學界廣泛的關注與思考。有研究者認為ChatGPT能夠促進學生的批判性思維、閱讀、寫作能力（王佑鎂等，2023）。同時，教師可以通過優化提問設計來充分發揮ChatGPT應用于教學評價與反饋的潛力（王麗等，2023）。然而，也有研究者指出ChatGPT可能會降低學生對信息的批判性分析和過濾能力，阻礙學生批判性思維能力的培養（Else，2023）。基于此，如何將以ChatGPT為代表的生成式人工智能技術轉變為驅動學生學習變革和思維能力培養的重要手段，已經成為數字時代教育評價改革的熱點話題。

本研究通過梳理批判性思維測評的發展歷程，探討生成式人工智能在批判性思維測評中的方式轉變、內容創造、場景應用的可能性，構建了ChatGPT賦能的批判性思維測評模型，并將其應用于批判性思維評估實踐，以期推動生成式人工智能在教育測評中的創新應用，為批判性思維測評提供技術路線與實踐參考。

二、批判性思維測評的發展趨勢

作為21世紀學生必備的核心能力之一，批判性思維的培養已經成為各國教育的重要目標（Supena et al.，2021）。批判性思維最早由美國哲學家、教育家和心理學家杜威提出，本質上是為了決定相信什么或做什么而進行的合理的、反省性的思維（Ennis，1989）。對學生批判性思維能力的培養離不開批判性思維測評，隨著智能技術的發展與教育評價目標的轉變，傳統測評工具的局限性日益凸顯（姜力銘等，2022）。對批判性思維測評發展趨勢的分析有助于對其進行適應性改進。

傳統的批判性思維測評主要關注批判性思維技能，強調對推理演繹、論證分析等技巧的評估。如沃森—格拉澤批判性思維評估（Watson-Glaser Critical Thinking Appraisal）將批判性思維分為推斷、假設識別、演繹推理、解釋和論證評估5個維度（Watson et al.，1980）。相比結果取向的測評工具，也有一些批判性思維測評工具更聚焦于批判性思維的動態過程。例如，Newman等人（1995）提出的批判性思維分析框架包含相關性、拓展性、合理性等10個指標；Ennis和Weir（1985）共同編制的《恩尼斯—韋爾批判性思維作文測驗》著眼于評估被試者的要點把握、假設提出、推論能力、理由發現等能力，以及情緒性語言運用等特質。但從測評情境來看，傳統測評工具大多與情境無關，鮮有基于真實情境的測評工具。

1.測評形式注重情境化

近年來，對批判性思維的測評越來越強調情境性，測評題目的形式逐漸從封閉式向開放式轉變。例如，Halpern（1998）提出的《Halpern批判性思維測試》，就是一種基于日常生活場景將批判性思維人格傾向和技能融合在一起的綜合測評。當前，越來越多的基于真實問題情境的測評工具不斷涌現，能夠讓學生在真實的問題情境中進行思考，權衡各方利弊后作出判斷，從而反映更為真實、全面的批判性思維能力。例如，Zlatkin-Troitschanskaia等人（2019）強調批判性思維的整體性和分析方法的互補性，注重在構建的現實生活情境中考查學生的批判性思維；Wang等人（2022）使用Toulmin模型開發了一種基于游戲的交互式自動化評估方法，學生通過在兩個真實的模擬故事中完成互動任務，并獲得批判性思維的分數；冷靜等人（2020b）基于問題情境的批判性思維測評，開發了一款面向中小學生的批判性思維測評游戲——“星球歷險記”。開放性測評工具雖能夠較為全面地體現批判性思維能力，但其測評成本較高。因此，教育領域亟需更為全面且精準的批判性思維測評工具。

2.生成式人工智能支持下的測評范式轉變

生成式人工智能能夠以自動化的方式創造信息，滿足用戶個性化的需求（Du et al.，2023），使內容生成過程越來越自動化和智能化（蔣華林，2023）。ChatGPT作為生成式人工智能的典型代表，展現了高度擬人化的交互體驗、強大的自主學習能力，并在增進學生深度參與方面具有顯著特點（朱永新等，2023），為設計科學、可靠、客觀的批判性思維能力測評工具提供了新的思路。

（1）創新測評方式

基于生成式人工智能所具備的交互問答和智能推薦等技術優勢，其支持下的批判性思維測評可實現以下三方面的創新。

一是實時反饋和精細指導。ChatGPT有較強的聯系上下文的能力，擅長在與學生的交互中不斷分析其對批判性思維的理解和運用。由于ChatGPT的交互問答是基于規則推理而并非預設答案的簡單匹配，學生需要根據自己的需求進行追問，表露自身最真實的想法，使測評者從人機交互中獲得更為精細的可評估數據（沈成等，2023）。此外，以智能技術為基礎的教學反饋還可以提供個性化指導，促進學生反思改進，在有效提高反饋效率的同時對學生的認知、情感等帶來積極的影響（于文軒等，2023）。

二是更為自然的評價過程。伴隨知識社會對人才批判性思維能力需求的日益增長，傳統的問答和測試方式已難以滿足學生批判性思維測評的多元化評價指標。ChatGPT具有的強大信息搜索與整理能力，能夠為學生的疑問提供更豐富的答案（Aljanabi，2023）。特別是，很多生成式人工智能產品能夠以對話的形式為學生提供方法、資料和論述支持，以針對性反饋消除學生在知識背景上的障礙，彌合學生認知水平與思維延伸之間的“鴻溝”，促使學生在探究模式下自由地進行深層次的問題剖析，更能全面地體現學生對問題批判性解決的深度認知加工過程。由此，在智能技術的推動下，通過構建明確具體的應用測評場景，建立基于無打擾評價的測評實施框架，能夠保障內隱批判性思維過程的可視化與可測量，進而實現更為全面的測評。

三是生成式人工智能結合大數據技術有望全面刻畫批判性思維能力。教育測評技術，如自適應出題、智能推薦等，能夠有效提升測評精度和效率。在生成式人工智能產品支持下，教師還可以采用更加科學、客觀和直觀的評價方式，兼顧終結性評價與過程性評價，通過對學生項目作業、角色扮演、實際場景模擬等數據的監測、挖掘和分析，更好地了解學生的學習過程和效果（張峰等，2023）。例如，可以通過創設一系列真實的問題情境，讓學生在多學科領域中對知識和信息進行鑒別、分析和綜合評估，最終形成自己的理解和判斷。除此之外，生成式人工智能技術不僅能夠識別學生的思維偏差和錯誤，還有能力生成詳細的解答和分析，從而更深入地梳理復雜思維，幫助教育者更好地了解學生的需求，制定更有針對性的教學策略。

（2）生成多樣化測評內容

當前，生成式人工智能技術能夠理解并分析復雜的語言結構，已具備生成文本、圖像、音頻、視頻、3D模型等多種模態內容的能力（萬力勇等，2023）。同時，隨著生成式人工智能技術不斷地拓展知識邊界，其具備的海量知識將遷移到教育測評領域，強化批判性思維測評的深度。將ChatGPT有效地引入教育測評，除了能夠突破傳統測評的局限性以及革新測評內容，還能幫助學生在各個學科領域乃至跨學科領域中將課程知識與現實情境相結合，運用多學科知識與方法解決問題，進而幫助研究者更加準確、有效地評估學生的批判性思維能力。

（3）衍生多功能應用場景

相比傳統的測評手段，生成式人工智能技術有助于診斷學生思維發展水平的現狀，能在多個測評場景下為個體和組織發展提供重要的支持。一是作為智能化教育輔助工具。在寫作場景下，生成式人工智能可以為學生提供實時、個性化的反饋，不僅涵蓋學生語法和拼寫錯誤識別，還可包括批判性思維的要素提示。二是作為情感智能整合工具。生成式人工智能產品具備情感智能的功能，可以分析學生的情感狀態，有助于教育者更好地捕捉學生的情感狀況并提供針對性的支持，以促進批判性思維的穩步發展。三是作為跨學科和跨文化支持的工具。生成式人工智能能夠適應不同領域和不同種類的文化背景，這一突破將大力推動批判性思維教育的普及化發展。

三、批判性思維測評模型構建

本研究以測評目標為邏輯起點，通過融入ChatGPT作為測評工具，旨在建立一個科學、合理的批判性思維測評模型（如圖1所示）。在評估導向方面，本測評模型通過對學生的批判性思維水平與思維傾向表現進行測量與分析，并基于測評結果培養與提升他們的思維能力。在測評內容方面，明確測評維度和可量化的批判性思維能力測評指標，并設計批判性思維測試題，明確測評內容。從學習者評價的角度看，除了評價目的、評價內容等方面，基于ChatGPT開展的批判性思維測評還需要特別考慮兩類內容的設計，即提示語設計和測評工具設計。

1.提示語設計

學術界普遍認為，良好的提問設計有助于利用ChatGPT生成高質量、可靠的反饋，并適應特定的任務場景（Liu et al.，2023）。當前，提示工程（Prompt Engineering）已成為與大語言模型（如ChatGPT）進行有效對話不可或缺的交互方式。如何充分利用ChatGPT的潛力，理解和掌握提示工程的技術至關重要，設計和優化輸入提示可提升大語言模型響應效能（Giray，2023）。本研究參考Ekin（2023）提出的有效提示工程策略（即任務約束—清晰說明—實驗嘗試），將寫作任務作為其應用場景。為增強生成內容的相關性和深度，本研究為ChatGPT指定具體的角色來豐富其輸出，經過廣泛的實驗測試與不同類型問題比較，最終根據以下步驟展開提示語設計：（1）提供相關材料。將相關材料提供給ChatGPT，并使用提示詞引導ChatGPT僅回答與文本材料有關事實性知識。（2）制定交互原則。設計簡單、合理的提示鏈，實現互動內容與測試情境材料的強相關，進而提供知識層面問題的解決方案。（3）選取測評量規。通過簡潔清晰的方式組織量規，以確保ChatGPT能夠理解并有效應用。（4）輸入樣例庫。根據Hattie等人（2007）提出的有效反饋原則，讓ChatGPT扮演批判思維領域測評專家，提供具體的測評任務的范圍和要求，以及高質量的點評范例，說明ChatGPT應輸出的評分與評語格式，從而實現有效的評估和反饋。

2.測評工具設計

在測評工具設計方面，本研究初步設計了批判性思維智能測評平臺。此平臺引入生成式人工智能（ChatGPT）作為思維測評輔助工具，本質上是為了發揮生成式人工智能產品在文本理解和互動反饋方面的優勢，識別學生的批判性思維水平，進而為培養學生的批判性思維能力提供技術支撐。測評過程中，學生根據給定的信息，評估不同觀點，為證據尋求可靠支持，最終作出判斷與評價。因此，在本研究的測評中，批判性思維測評不再僅僅關注結果，而是將批判性思維看作是一個連續、動態的交互過程。綜上，本研究擬進一步探究以下兩個方面：

一是根據ChatGPT支持下的批判性思維測評結果，判斷學生的批判性思維能力是否有所提高。

二是ChatGPT在不同主題寫作任務下的測評性能（精確度）是否存在差異。

四、實驗設計

1.研究對象和工具

本研究以華東某高校修讀《專業英語文獻精讀》課程的31名本科生為研究對象，該課程中設置了三個主題（包括說明利弊類、圖文情境類以及對立觀點類）的寫作任務。這些學生使用基于ChatGPT的批判性思維測評平臺進行在線閱讀和寫作，共產生186份論證寫作文本，共計約5.6萬詞。

2.實驗環境

本研究的批判性思維測評平臺基于開源的Moodle平臺進行開發，將測評內容文本作為學生與ChatGPT交互的切入點，融合基本閱讀寫作功能和大語言模型的實時問答，實現基于ChatGPT的實時反饋與評價。在該平臺上，教師可以設置相應的寫作任務，學生可以進行文本閱讀標注、使用翻譯功能以及在寫作的過程中與ChatGPT實時互動。所有的在線數據都可以從后臺導出并進行分析。

本研究中教師采用了雅思寫作評價量規（包括任務響應、連貫性與銜接、詞匯豐富性以及語法范疇與準確性）來衡量學生的寫作質量。此量規綜合考慮了文章的多個關鍵方面，以確保全面而準確的評估，即不僅關注學生表達能力的各方面，也強調了批判性思維和論點闡述的重要性。此外，本研究參照文秋芳等人（2009）構建的作文測評量規來分析學生的批判性思維論證能力，由此構建出批判性思維能力評測量規（見表1）。該量規包含5個維度的批判性思維核心能力：闡釋、分析、評估、推斷和自我調節，每一維度又可分為5個等級（見表1）。為提高評分的準確性和可靠性，本實驗向ChatGPT提供了詳盡的批判性思維能力測評量規描述、高質量的閱讀材料和作文范例，依據提示詞設計進行輸入，并預先測試了ChatGPT的有效性。

3.實驗流程

本研究依托批判性思維測評系統展開實驗，圖2展示了本實驗的具體實施過程。課程中學生共需要完成6個寫作任務（每一類別有2個寫作任務）。在課程之初，教師會向學生解釋批判性思維的定義以及作文的雙重評分機制。開始寫作之前，學生需要先在線閱讀長文本材料，并可以利用ChatGPT進行提問，同時可以質疑信息來源、探索不同觀點、總結和歸納，在此基礎上進行論證式文本寫作，ChatGPT會在限定范圍內合理反饋，學生可以隨時根據反饋修改文章內容，最終提交平臺。

隨后，本研究采用雙重評分機制進行測評，即由兩位經驗豐富的教師對雅思寫作評價量規和批判性思維測評量規進行充分結合和校準。雅思寫作評價量規主要用于評估作文的語言表達能力，包括任務響應、連貫性與銜接、詞匯豐富性及語法準確性、論證能力等方面。其中，論證能力維度側重評估學生在闡釋、分析、評估、推斷和自我調節等關鍵批判性思維維度上的表現。兩位英語教師按照批判性思維能力測評量規（見表1）分別對25%的文章進行論證維度的評分，通過充分討論和協商，最終一致性系數達到0.88，接著由其中一位教師完成剩余所有文章的評分。同時，本研究利用ChatGPT基于不同的評價維度對所有文章進行獨立評分。根據闡釋、分析、自我調節等5個維度進行分類統計，計算不同主題下ChatGPT對于論證文本測評的精確度和召回率。本研究以專家測評打分評級結果為標準，用ChatGPT正確測評出的專家打分項數除以ChatGPT測評的總項數計算精確度，用ChatGPT正確識別出的專家打分項數除以專家打分總項數計算召回率。最后，隨機抽取13位學生進行半結構化訪談，訪談內容包含測評體驗、ChatGPT提供的支持以及受訪者對測評結果的認識三個方面。

五、數據分析與發現

1.學生的批判性思維測評結果前后測比較

本研究基于ChatGPT對31名高校學生的作文（共6次寫作任務）進行分析，有效個案數為186個，并對測評結果進行了描述性統計（見表2）與配對樣本T檢驗（見表3）。如表2所示，百分制標準下ChatGPT評分顯示學生批判性思維的整體表現處于中等偏上水平（M＝62.50）。而ChatGPT評分存在一定的變異性（SD＝9.47），表明學生之間在批判性思維能力上存在差異。從批判性思維的5個測評維度可以發現，學生的批判性思維各維度的發展并不均衡，盡管學生在闡釋維度上的平均評分最高（M＝14.04），這表明他們在解釋觀點方面表現較好，但在評估（M＝11.75）和自我調節（M＝11.99）等維度上的表現則相對較弱。圖3的箱線圖展示了三類寫作主題下學生6次作文測評任務的ChatGPT評分結果，展示了學生在批判性思維寫作測試中成績的差異度。表3中的T檢驗數據結果表明，每一類寫作主題中學生的第二次得分均高于第一次，且存在顯著差異（p＜0.05）。其中，學生作文得分在圖文情境類中的前、后測差異最顯著（MD＝-9.58，t＝-4.628，p＜0.001）。

2.ChatGPT在不同主題任務中測評精準度比較

基于批判性思維能力測評量規，ChatGPT對于學生寫作論證測評得分的精確度如表４所示。綜合各類寫作任務來看，ChatGPT的總體評分精確度（87.04%）與召回率（84.41%）均較高。這一結果表明，ChatGPT作為測評輔助工具，在評估學生批判性思維能力方面表現出較高的準確性和全面性。

具體而言，在不同主題的測評任務中存在細微的精確度差異。在評估涉及明確立場和論點的“說明利弊類”寫作任務中，ChatGPT展現出了較高的評分精確度（89.98%），可見ChatGPT在捕捉和評估具有直接性和明確性的批判性思維要素方面體現出高效性。“對立觀點類”寫作任務的評分精確度（84.87%）次之，這表明ChatGPT在評估學生對復雜論證的理解和評價方面具有一定的效能，但在處理高度復雜和多維度的批判性思維時，其對論證內容測評的精確度還有待提高。對于“圖文情境類”寫作任務，ChatGPT的評分精確度（84.01%）相對稍低，這一結果表明ChatGPT在處理復雜認知任務時存在潛在局限性，尤其是在需要深層次數據解釋和推理的情境中。可見，ChatGPT可以作為一個有效的測評工具，輔助教師在批判性思維教學和寫作教學中評估學生的思維水平。

從測評的召回率來看，“說明利弊類”寫作任務的測評召回率最高（88.71%），這一任務要求學生明確地闡述一個觀點或立場的正反兩面，ChatGPT在這類任務中的高召回率表明，它能夠有效地捕捉到學生在論證過程中的關鍵點，包括對利弊的分析、證據的列舉以及結論的合理性。這可能是因為這類任務的結構相對明確，學生在表達時更容易遵循一定的邏輯結構，從而使ChatGPT能夠較為準確地識別和評價學生的批判性思維。召回率排在其后的是“圖文情境類”寫作任務（82.26%）和“對立觀點類”寫作任務（80.65%），這兩類任務通常涉及對多個觀點、圖表數據的深入分析和比較，這意味著學生可能需要進行更復雜的邏輯推理和解釋。因此從召回率的差異來看，ChatGPT在全面捕捉批判性思維要素方面仍有提升空間。

六、研究結論與展望

1.研究結論

通過比較不同主題任務下ChatGPT對于學生論證寫作中批判性思維水平的測評結果，分析以ChatGPT為代表的生成式人工智能技術在批判性思維能力測評中的應用潛能，本研究得出以下結論：

第一，ChatGPT作為應用批判性思維開展論證寫作的輔助工具，能夠有效評估學生論證語言表達和寫作的準確性，但在評估學生邏輯推理和論證深度方面存在局限。本研究通過應用ChatGPT工具支持學生進行論證寫作及修改，學生的批判性思維能力后測結果相較于前測得到顯著提升。以上實驗結果驗證了持續使用大語言模型輔助學生論證寫作能夠有效提升他們的批判性思維能力。對學生的訪談分析發現，學生對使用ChatGPT作為測評工具的接受度總體上是積極的。多數受訪者表示，ChatGPT作為論證寫作測評工具，主要為學生提供了語法和用詞、修改建議以及評價反饋三方面的支持。然而，也有受訪者反映，ChatGPT在識別觀點表達和邏輯結構方面的作用有限。后續研究如能通過使用提示技術為大語言模型提供具體的邏輯思維指令，將會進一步優化測評效果。

第二，ChatGPT在批判性思維測評中表現較好，但是測評精確度在不同主題寫作任務中存在差異。因此，預先考察ChatGPT在不同主題任務下的適應性和限制性，有助于確保ChatGPT的測評準確性和有效性。首先，ChatGPT在評估學生的批判性思維能力方面顯示出了較高的效能。尤其是在“說明利弊類”寫作任務中，ChatGPT的評分精確度和召回率均超過85%，這表明在處理結構較為明確的寫作任務時，經提示詞下達指令，ChatGPT能夠有效地捕捉和評估學生的批判性思維要素，展現出與專家評價相近的效果。其次，在處理“圖文情境類”與“對立觀點類”寫作任務時，ChatGPT的評分精確度稍低于“說明利弊類”任務，這說明在相同提示詞設計條件下，處理需要深層次分析和推理的任務時，ChatGPT還存在局限性，其在復雜認知任務處理上仍有提升空間。不可忽視的是，ChatGPT賦能的批判性思維測評在不同主題任務下存在差異，也體現出ChatGPT除了依賴于提示詞設置，其在數據偏差、對于特定上下文的含義或復雜圖表中的細節理解仍存在問題，甚至間或出現知識盲點或常識性謬誤，因而生成錯誤的測評反饋（楊俊蕾，2023）。

2.研究啟示

本研究構建了ChatGPT賦能的批判性思維測評模型，將ChatGPT作為寫作輔助工具以及批判性思維評價工具，基于實驗發現得出如下啟示：

（1）ChatGPT賦能個性化教育評價

在技術迭代與社會變革進程中，生成式人工智能技術與教育評價的融合將進一步促進教、學、評應用生態的全方位升級（張絨，2023）。研究者需要促進以ChatGPT為代表的生成式人工智能技術與現有教育教學平臺深度融合，形成適用于多個教育場景的測評工具。首先，ChatGPT作為結果性測評工具，能夠基于對話數據和學習數據，快速處理大量文本，減少人為偏差，提供更加完善、精確的個人數字畫像，增強評價的客觀性和公正性（楊宗凱等，2023）。其次，ChatGPT作為過程性測評工具，可以根據不同場景下學生的回答和表現，提供實時的學習反饋和評價，幫助學生了解自身學習進展及思維，并進行反思和改進，調整學習進度，進而優化個性化學習體驗。總而言之，基于生成式人工智能技術支持批判性思維測評將進一步改變原有評價方式，激勵學生進行自主學習，并使他們學會如何在理解和應用知識的同時解決現實問題，進而培養其創新思維和獨立解決問題的能力。

（2）提升ChatGPT的適應性與情感智能

首先，未來應鼓勵多方參與共同推進ChatGPT語境感知和深度推理能力的研發。實證研究下的生成式人工智能產品在復雜語境中理解和推理能力仍存在不足，有可能是受到模型訓練數據的有限性、對深層邏輯和復雜關系的理解不足、學生批判性思維運用等因素影響（令小雄等，2023）。基于此，ChatGPT評價性能的提升不僅需要創設具體的理解語境，增強深度推理能力，還可以從評估指標的精細化、知識庫的豐富化以及領域專家的深度參與等方面進行深入探究，不斷優化生成式人工智能產品，提高其測評適應性和準確性。其次，研究者應努力探索ChatGPT的潛能以實現情感智能。批判性思維不僅涉及思維技能，還涉及思維傾向等情感因素（Facione et al.，1994）。因此，ChatGPT賦能的批判性思維測評應引入情感分析技術，逐步實現批判性思維傾向的識別等情感智能。一方面，可深化ChatGPT與學生之間的良性互動，如適時鼓勵用戶進行自我反思與分析，有助于全面評估學生的批判性思維水平表現。另一方面，應盡可能理解學生的情感背景，如是否存在過度偏見或情感強度，以便于教師及時地介入批判性思維測評過程。如此，基于生成式人工智能技術的批判性思維測評才能擺脫傳統批判性思維測評困境。此外，教師群體應該加強倫理和公平性考量。本研究建議引入公平性審查和倫理指南，增強ChatGPT在評估過程中的透明度，保證評估的公平性和合規性；同時，教師應當積極開展倫理教育，引導學生在使用ChatGPT過程中能夠遵守倫理準則，促使其成為更具信任度和教育成效的批判性思維測評工具，而不是代替學生思考的工具。

本研究聚焦于構建ChatGPT支持下的批判性思維測評模型，并基于測評模型開展不同主題下的大學生批判性思維測評。由于批判性思維大規模測試的時間成本、分析復雜性等，實驗主要集中在批判性思維測評的可行性評估，因此本研究還存在一定的局限性：一是研究樣本數量較少，未來研究可以進一步通過準實驗設計、擴大樣本量，增加不同學科、不同文化背景和不同教育水平的被試以增強研究的普遍性，全面評估生成式人工智能技術產品在不同教學環境中的適用性。二是測評平臺中人機交互Pw6K6ptJjThS8NY3Nkxby75+1HVl2/mZjl0Xloaytvk=的對話尚未展開深度分析，后續研究可以依托自動化話語編碼與分析技術等，研究生成式人工智能技術在教育測評中的長期影響，進一步挖掘其在測評場景的潛在效益。

參考文獻：

[1]陳向東，褚樂陽，王浩等（2023）.教育數字化轉型的技術預見：基于AIGC的行動框架[J].遠程教育雜志，41（2）：13-24.

[2]方中雄，劉繼青（2023）.論習近平關于“人才自主培養”重要論斷的生成邏輯、理論內涵和實踐指向[J].中國教育學刊，（5）：1-8，69.

[3]姜力銘，劉玉杰，駱方（2022）.基于真實問題情境的批判性思維測評：現狀與挑戰[J].中國遠程教育，（12）：58-67，77，83.

[4]蔣華林（2023）.人工智能聊天機器人對科研成果與人才評價的影響研究——基于ChatGPT、Microsoft Bing視角分析[J].重慶大學學報（社會科學版），29（2）：97-110.

[5]況姍蕓，藍琰，何敏等（2021）.學業智能測評：現狀和趨勢[J].教育信息技術，（Z2）：8-14.

[6]冷靜，路曉旭（2020a）.批判性思維真的可教嗎？——基于79篇實驗或準實驗研究的元分析[J].開放教育研究，26（6）：110-118.

[7]冷靜，路曉旭（2020b）.題庫型游戲評測批判性思維能力研究[J].開放教育研究，26（1）：82-89.

[8]令小雄，王鼎民，袁健（2023）.ChatGPT爆火后關于科技倫理及學術倫理的冷思考[J].新疆師范大學學報（哲學社會科學版），44（4）：123-136.

[9]沈成，柏毅（2023）.大語言模型在小學生計算思維評測中的應用——以ChatGPT為例[J].中小學數字化教學，（6）：25-28.

[10]萬力勇，杜靜，熊若欣（2023）.人機共創：基于AIGC的數字化教育資源開發新范式[J].現代遠程教育研究，35（5）：12-21.

[11]王麗，李艷，陳新亞等（2023）.ChatGPT支持的學生論證內容評價與反饋——基于兩種提問設計的實證比較[J].現代遠程教育研究，35（4）：83-91.

[12]王煒，趙帥，黃慕雄（2024）.生成式人工智能教育創新應用的人本主義追求——對UNESCO《教育與研究領域生成式人工智能指南》的解讀[J].現代遠程教育研究，36（1）：3-11.

[13]王佑鎂，王旦，梁煒怡等（2023）.“阿拉丁神燈”還是“潘多拉魔盒”：ChatGPT教育應用的潛能與風險[J].現代遠程教育研究，35（2）：48-56.

[14]文秋芳，王建卿，趙彩然等（2009）.構建我國外語類大學生思辨能力量具的理論框架[J].外語界，（1）：37-43.

[15]新華社（2020）.中共中央國務院印發《深化新時代教育評價改革總體方案》[EB/OL].[2023-12-20].https：//www.gov.cn/zhengce/2020-10/13/content_5551032.htm.

[16]楊俊蕾（2023）.ChatGPT：生成式AI對弈“蘇格拉底之問”[J]. 上海師范大學學報（哲學社會科學版）， 52（2）：14-21.

[17]楊宗凱，王俊，吳砥等（2023）.ChatGPT/生成式人工智能對教育的影響探析及應對策略[J].華東師范大學學報（教育科學版），41（7）：26-35.

[18]于文軒，馬亮，王佃利等（2023）.“新一代人工智能技術ChatGPT的應用與規制”筆談[J].廣西師范大學學報（哲學社會科學版），59（2）：28-53.

[19]張峰，陳瑋（2023）.ChatGPT與高等教育：人工智能如何驅動學習變革[J].重慶理工大學學報（社會科學），37（5）：26-33.

[20]張絨（2023）.生成式人工智能技術對教育領域的影響——關于ChatGPT的專訪[J].電化教育研究，44（2）：5-14.

[21]中華人民共和國教育部（2021）.教育部等六部門關于推進教育新型基礎設施建設構建高質量教育支撐體系的指導意見[EB/OL].[2023-12-20].http：//www.moe.gov.cn/srcsitenMKi7j9w6bo1VhP9KvI9BQ==/A16/s3342/202107/t20210720_545783.html.

[22]朱永新，楊帆（2023）.ChatGPT/生成式人工智能與教育創新：機遇、挑戰以及未來[J].華東師范大學學報（教育科學版），41（7）：1-14.

[23]Aljanabi， M. （2023）. ChatGPT： Future Directions and Open Possibilities[J]. Mesopotamian Journal of Cyber Security，（3）：16-17.

[24]Du， H.， Li， Z.， & Niyato， D. et al. （2023）. Enabling AI-Generated Content Services in Wireless Edge Networks[J]. IEEE Wireless Communications， 31（3）：226-234.

[25]Ekin， S. （2023）. Prompt Engineering for ChatGPT： A Quick Guide To Techniques， Tips， and Best Practices[J]. TechRxiv，（9）：1-10.

[26]Else， H. （2023）. Abstracts Written by ChatGPT Fool Scientists[J]. [EB/OL]. [2023-12-20]. https：//www.nature.com/articles/d41586-023-00056-7.

[27]Ennis， R. H. （1989）. Critical Thinking and Subject Specificity： Clarification and Needed Research[J]. Educational Researcher， 18（3）：4-10.

[28]Ennis， R. H.， & Weir， E. E. （1985）. The Ennis-Weir Critical Thinking Essay Test： An Instrument for Teaching and Testing[M]. Pacific Grove： Midwest Publications：1-14.

[29]Facione， N. C.， Facione， P. A.， & Sanchez， C. A. （1994）. Critical Thinking Disposition as a Measure of Competent Clinical Judgment： The Development of the California Critical Thinking Disposition Inventory[J]. The Journal of Nursing Education， 33（8）：345-350.

[30]Giray L. （2023）. Prompt Engineering with ChatGPT： A Guide for Academic Writers[J]. Annals of Biomedical Engineering， 51（12）：2629-2633.

[31]Halpern， D. F. （1998）. Teaching Critical Thinking for Transfer Across Domains： Dispositions， Skills， Structure Training， and Metacognitive Monitoring[J]. The American Psychologist， 53（4）：449-455.

[32]Hattie， J.， & Timperley， H. （2007）. The Power of Feedback[J]. Review of Educational Research， 77（1）：81-112.

[33]Liu， P.， Yuan， W.， & Fu， J. et al. （2023）. Pre-Train， Prompt， and Predict： A Systematic Survey of Prompting Methods in Natural Language Processing[J]. ACM Computing Surveys， 55（9）：1-35.

[34]Newman， D. R.， Webb， B.， & Cochrane， C. （1995）. A Content Analysis Method to Measure Critical Thinking in Face-to-Face and Computer Supported Group Learning[J]. Interpersonal Computing and Technology， 3（2）：56-77.

[35]Supena， I.， Darmuki， A.， & Hariyadi， A. （2021）. The Influence of 4C （Constructive， Critical， Creativity， Collaborative） Learning Model on Students’Learning Outcomes[J]. International Journal of Instruction， 14（3）：873-892.

[36]Wang， D.， Liu， H.， & Hau， K. （2022）. Automated and Interactive Game-Based Assessment of Critical Thinking[J]. Education and Information Technologies， 27（4）：4553-4575.

[37]Watson， G.， & Glaser， E. M. （1980）. Watson-Glaser Critical Thinking Appraisal[M]. San Antonio， TX： Psychological Corporation：24-31.

[38]Zlatkin-Troitschanskaia， O.， Shavelson， R. J.， & Schmidt， S. et al. （2019）. On the Complementarity of Holistic and Analytic Approaches to Performance Assessment Scoring[J]. British Journal of Educational Psychology， 89（3）：468-484.

Empowering Critical Thinking Assessment with Generative Artificial Intelligence：

An Experiment Based on ChatGPT

Abstract： Empowering the innovation of education assessment with generative artificial intelligence technology has become a hot topic in the education evaluation reform of the digital age. In order to authentically reflect individuals’ critical thinking levels， the assessment have gradually shifted from mere skill evaluation to comprehensive assessment of reasoning， argumentation and information credibility in real-world contexts. The appI0B25dg8Sp11p0WNQz9bSYpJk871qe9xm0SKHVDNUJU=lication of ChatGPT in critical thinking assessment helps enrich the evaluation content， innovate the interaction modes， and enhance the efficiency and accuracy of assessment， providing new perspectives and methods for multi-dimensional critical thinking evaluation. Based on the critical thinking assessment framework and a five-dimensional assessment rubric， a ChatGPT-based online platform is used to assess the critical thinking levels reflected in 186 argumentative essays from 31 university students. The findings reveal that ChatGPT， as a writing aid， significantly improve students’ argumentative writing abilities in three themes of writing， which are “weighing the pros and cons”， “graphics-based contexts” and “opposing viewpoints”. Moreover， the critical thinking assessment conducted with ChatGPT demonstrates a high degree of precision， with subtle differences in assessments across different thematic tasks. This result indicates that ChatGPT is highly efficient in capturing and evaluating direct and explicit elements of critical thinking but still has limitations in assessing logical reasoning and the depth of argument. In the future， the design of prompt words should be further optimized to guide ChatGPT to deep understand the critical thinking levels demonstrated in human-machine dialogues， enhancing its adaptability and accuracy in handling complex cognitive tasks， thereby achieving personalized critical thinking evaluation and cultivation.

Keywords： Generative Artificial Intelligence; ChatGPT; Education Evaluation; Critical Thinking Assessment; Prompt Engineering Techniques

現代遠程教育研究2024年6期

現代遠程教育研究的其它文章: AIGC支持下“雙師課堂”協作學習范式構建及應用; 在線異步討論中角色支架如何影響交互深度; 數字不平等的再生產：家庭文化資本、數字慣習對西部農村地區中學生數字技能的影響; 游戲化學習方式如何影響知識保留; 生成式人工智能賦能教育信息科學與技術研究：新機遇、新趨勢、新議題; 建設具有世界意義的中國教育學