基于DeepSeek命制數學單選題的實踐研究

2025-11-14 00:00:00朱金鳳儲林林汪曉勤

中學數學雜志(高中版) 2025年5期

1 問題提出

隨著人工智能技術的不斷進步和應用拓展，命題組卷、命題數據分析等傳統考試業務場景正在經歷變革.國家教育考試中一些難以通過常規和傳統手段解決的個性化問題，在人工智能和大數據技術的輔助下，有望實現突破.例如，以DeepSeek、ChatG-PT等為代表的生成式人工智能，通過其強大的自然語言推理和生成能力，顯著提高了命題效率，成為命題研究的關鍵方向，并展現出巨大的應用前景.

目前，人類正致力于將大語言模型技術融入自動化命題的各個階段，并在多種題型上展現了積極的成效.然而，這些研究大多直接利用通用大語言模型（如GPT-3）通過提示工程進行自動化命題，所生成的試題在適用性、多樣性和準確性方面仍存在局限.部分研究嘗試通過專用數據微調的開源大語言模型進行自動化命題，但專用模型的命題質量是否能與通用大語言模型相媲美，尚未可知.此外，自動生成的試題與真實標準化考試題目在實際測量表現上的差異，也亟需進一步研究.

鑒于此，文中聚焦DeepSeek生成的數學單選題題型，通過定性和定量相結合的研究方法，評估其數學單選題的命題質量，總結DeepSeek生成單選題所展現的共性和個性規律，為人工智能命制單選題提供有價值的參考.

2DeepSeek命題的實踐\"摸底\"

為了深入了解DeepSeek 在數學單選題命題方面的表現，文本將從多個維度對其生成的試題深入剖析，研究問題將圍繞DeepSeek命題的科學性、梯

度性、素養性和效度性展開，旨在全面評估其命題質量，并探索提高命題質量的有效策略1.

2.1 研究問題

DeepSeek命制的單選題科學性、梯度性、素養性和效度性有哪些優缺點，通過實驗，結合定性和定量的分析方法提出優化建議.

2.2 實驗設計

選擇一份數學樣本試卷，包含30道單項選擇題（下文統一稱“母題”），基于每道“母題”DeepSeek生成10道“孿生題”（下文統一稱“子題”）.這10道“子題”構成一個題組（下文統一稱“子題組”）.DeepSeek生成的每個“子題”都包含題干、選項以及答案，且答案部分詳細提供了解析、難度、知識點、核心素養等.30道母題依次編號為1，2至30，每道母題，如第1題母題的子題分別編號為1.1，1.2至1.10，以此類推.

2.3 實驗結果宏觀分析

DeepSeek生成的試題整體上呈現的特征有：其一，第24題涉及函數圖象判斷，DeepSeek目前不支持函數圖象的直接生成，因此，有效“子題組”共29組；其二，DeepSeek生成的試題及分析較全面，但第21—30題大部分子題組缺少了對子題的核心素養分析，第18題子題組僅有7道子題，生成的子題數不均等，同時試卷子題的知識點分析不完整，只有少部分子題有所體現;其三，DeepSeek生成的試題，在逐題計算后，主要有答案錯誤但解析正確、答案和解析均錯誤、題干是偽命題、題目或分析的數學表達形式有誤、題目難度不匹配或分布不均、題目難度超標等問題.

上述揭示了DeepSeek在圖象類試題的識別與生成技術方面尚需改進，特別是在單選題的生成結構上，需進一步優化.同時生成的試題質量，還應從科學性、梯度性、素養性和效度性四個維度進行深入的量化分析，分析DeepSeek單選題命題問題所在，總結DeepSeek單選題提高質量的“命題關鍵”.

2.4實驗結果微觀分析

2.4.1 科學性

科學性是數學命題的基礎，基于30道母題模板，統計分析DeepSeek生成的子題組科學正確性情況，并總結常見錯誤之源.特別指出的是，所有基于母題未能生成的子題均被判為“錯誤”，例如，第24題母題無法生成的10道子題均判為“錯誤”；同樣，第18題母題少生成的3道子題亦被判定為“錯誤”.

圖1子題組的正確率圖譜

統計30道母題生成的子題正確率情況（圖1），其中，題干、選項、答案和解析均正確的子題有167道，整體正確率為 55.67% .具體地，其一，正確數貢獻度最高的5個母題分別是：22.正余弦定理（正確數10，正確率 100% ）;2.函數定義域的求解（正確數9，正確率 90% ）;3.充要條件判斷（正確數9，正確率90% ）;21.立體幾何體積（正確數9，正確率 90% ）；13.分層抽樣概念和計算（正確數8，正確率 80% ）.從表現情況看，正余弦定理表現最佳，是所有母題中唯一達到 100% 正確率的，前4名母題的正確數都在9～10 之間，顯著高于平均水平；其二，第5，8，15，19，25，26，28和29題的子題組正確率較低，例如，第5題的子題錯誤全部源于數學符號上標的錯誤，這導致了計算或識別的錯誤.第15題子題題干、選項和解析均正確，錯題全部源于最后的答案選錯.第19題子題題干、選項和解析均正確，錯題幾乎全部源于解析的最后一步多余的計算致錯.而第8題子題的錯誤基本源于第5，15和19題.第25題子題錯誤原因為對角的概念理解錯誤，且對的幾道題題目價值不高.第26題子題全部由于解析的最后一步計算錯誤.第28題子題基本由于符號識別亂碼或解析的最后一步多余的計算致錯，且本題子題組全部考查點到直線的距離公式，子題題目單一.第29題的全部子題題干和解析對數學不等式符號“ gt; 、lt;”等未識別出來，出現亂碼.第24題正確數為0，主要歸因于DeepSeek不支持圖象問題.因此借助DeepSeek命題，從科學性角度，亟待對上述錯誤的共性與個性進行關注和改進，從而提高試題正確率[1].

借助DeepSeek命制的單項選擇題主要“錯在何處”，現總結實驗中子題較為典型的錯誤案例，

【數學表達錯誤】如集合表達成 ? 104 ， 5 ， 6 1 ＼vert ＼9，4 AcomplementUA 1a c 2 ＼geqslant b c 2x 2 lt; y 2{ ＼frac { 2 } { 4 5 0 } } ，$ ”未約分.這些亂碼、不規范表達等問題，影響了試題的整體直觀印象和可讀性.因此，DeepSeek在基于數學符號的識別和生成方面需要進一步提升.

【數學運算錯誤】如“ 解 x²- 1?0?-1?x?1 又交集為由 x²-9?0 得 x ?-3 或 x?3 ；又，所以定義域是這些列舉的是一些典型且具有代表性的運算錯誤，而運算性能的提升正是DeepSeek急需解決的關鍵問題之一.

【數學概念誤解】如“把角 θ 的終邊沿 y 軸負方向平移3個單位長度（不考慮長度對角度影響），得到的新角終邊在第一象限，那么原角 θ 是第幾象限角？”又如“已知角 α 終邊經過點（1，2），現將其橫、縱坐標同時伸長為原來的2倍，得到新角 β ，則角 β 是第幾象限角？”在數學中，角與象限角的概念有所不同，不是由平移所決定的.由于DeepSeek對數學概念的判斷存在混淆，導致命題出現科學性錯誤或缺乏價值

【題干條件不嚴】題干條件多余，如“已知sin （30^°-30^°）=0 ，則sin（ 180^°-30^°）的值為？”;題干缺少條件，如“在 ΔABC 中，知，為 AC 上一點，則等于？”少了條件“AC=b”；“如圖，在直三棱柱ABC-A，B，C，中，∠ACB=90^°，AC=BC=CC₁=2 ，則直線 A₁B 與平面BB₁C₁C 所成角的正弦值為？［此處你可以自行想象有一個直三棱柱圖形輔助理解]”，DeepSeek生成圖片能力待完善.總之，題干條件多余或缺少條件，從而出現科學性錯誤、試題不完整等問題，拉低了試題質量.

【答案繁雜單一】若tan α=3 ，則cos 2α+sin2α 的值為？DeepSeek 提供的解析是：“由 tan α=3 ，根據tan 以及 sin²α+cos²α=1 ，可得sin α= 3cos α ，代人 sin²α+cos²α=1，（3cosα）²+cos²α= 再根據二倍角公式cos 2α=cos²α- sin²α ，sin 2α =2sin αcos α cos 2α+sin2α=cos²α- sin²α+2sinαcosα ，將 2 代人可得：易錯點在于計算過程中符號的處理以及公式的準確運用.B正確.”這種解題方法既繁瑣又容易出錯，題目的本意是考查化簡齊次方程的能力，這表明在命題和解題過程中，人工智能有時未能充分考慮學情和教情.

綜上，從試題生成的科學性角度來看，試題若不考慮題目本身質量、超綱等因素，有一半可直接使用.然而，考慮試題質量和考查目標角度，還需對試題的“梯度性”“效度性”和“素養性”等進一步量化分析.

2.4. 2 梯度性

試題的梯度性是確保考試能夠全面、公正地評估學生知識掌握情況的關鍵.合理的梯度設置不僅能區分不同水平的學生，還能避免試題過于集中于某一難度區間[1]，從而避免評估結果的片面性.同時，試題的區分度與難度直接相關，通常中等難度的試題具有較高的區分度.因此，比較樣本母題與DeepSeek命制的子題難度比例與分布情況顯得尤為重要

根據教育測量學的標準，數學試題難度系數在0～0.3 之間被視為難題，介于 0.3～0.7 之間為中等題，介于 0.7～1 之間為容易題.對生成的子題統計后發現（表1）：其一，母題生成的10道子題難度梯度基本一致；其二，難度分布重合角度，母題與子題組，容易題只有第1題重合，中等題有第2，7，9—12，14—17和19題等11題重合，較難的題無重合，子題組與母題難易題目數量分布呈正相關，相關系數為0.84（圖2），可見子題組與母題難易梯度分布具有同步性;其三，難題分布數量角度，依據學生母題得分情況，容易題有3題，中等題有26題，較難題有1題，然而，DeepSeek生成的子題組，容易的子題組有14組，中等的子題組有15組，較難的子題組無，顯然子題組與母題難易梯度分布存在顯著差異見表1（注：上述基于同步剔除第24題母題與子題組數據）.

綜上，基于DeepSeek命制試卷單項選擇題的難度梯度分布性和同步性，可以事先設定更嚴謹、細化的難度細目表，或引人人工審核流程，進行人工調整，確保試卷的難度梯度分布符合考核要求

表1難易梯度分布差異性

2.4.3 素養性

基于原試題樣本本身對運算求解能力、空間想象能力、推理論證能力、抽象概括能力、數據處理能力、分析問題與解決問題的能力以及數學思想方法6個基本能力，其與高中新課標中6個數學核心素養吻合度基本一致，因此從6個核心素養的角度，在實驗中，基于原命題組與相應領域專家研判，先統計了樣本卷的每道母題的核心素養考查目標（表2），再分析匯總DeepSeek生成的子題組核心素養考查情況，最后對比樣本試題與生成試題的六大核心素養考查分布的同步性（圖3）.

表2試卷核心素養考查點個數分布情況

圖3六大核心素養考查的同步性

考慮DeepSeek未能生成第24題，因此樣本卷與生成卷均剔除第24題無效數據，又因DeepSeek未標注出第27—30題、第22—23題和第25題所考查的核心素養，因此繼續剔除該7組數據，第18題子題組只生成7道題，因此也剔除

剔除后的有效題是第1—17題、第19—21題、第26題.同時DeepSeek生成的每個子題組中有10道題，因此除以10，圖3為樣本卷有效數據與生成卷有效數據平均數的對比分析，知DeepSeek生成卷與樣本卷單選題對核心素養的考查總體趨勢基本一致，因此，可大致判斷DeepSeek生成卷的單選題對數學核心素養考查目標大致兼顧，但DeepSeek生成卷在部分題中缺失了對核心素養的分析，該技術有待進一步完善.

2.4.4 效度性

以《普通高中數學課程標準（2017版）》為依據制定樣本卷的知識細目表，并進行編碼（表3），再統計分析母題和子題組的單選題知識點考查覆蓋情況（圖4）.

表3知識點編碼

表4內容與結構效度分析

表4對母題和子題組的內容與結構效度進行分析，首先，從內容效度評估了題目是否充分覆蓋了目標知識領域，子題組在保持母題內容覆蓋的基礎上，DeepSeek命制的單選題多知識點組合顯著提升了內容的廣度和深度，特別是增加了跨知識點和跨領域的綜合應用題，使試題綜合性得到提升；其次，從結構效度評估了題目是否準確測量了預期的知識結構，子題組通過多種知識點組合方式，更好地反映了數學知識的內在聯系和層次結構.測量層次從單一認知擴展到綜合應用，提高了試題思維量.由此，借助DeepSeek命制單選題，為降低“撞題”風險，應降低對單一知識點的考查，提高多知識點組合題目的比例命題，適當增加跨專題知識點的融合命題（例如幾何與代數的結合）.

當然，上述分析也有一定局限性，部分知識點（如I5）樣本量較小，效度評估可能不精確，缺乏實際答題數據，效度分析主要基于題目表面特征.總體，DeepSeek生成的子題組在內容和結構效度上有基于母題拓展優勢[2]，有望優化技術，從而生成更有效度的子題組.

3DeepSeek命題的未來\"展望\"

教育部教育考試院佟威[3表示，人工智能大模型是算力、算法和數據積累到一定程度后的質變結果，因此，它具備創新命題的潛質.我們借助 Deep-Seek命制數學單選題，需發揮人為主體能動性來訓練和使用，以優化工作模型和提高效率：（1）通過訓練等方法將模型泛化能力應用于具體任務與要求.

引導DeepSeek聚焦命題內容與要求，以生成準確結果.（2）通過專業且明確的問題得到高質量回答.使用DeepSeek應詳細清晰地表達意圖，提示工程是關鍵方式.（3）多角度和多步驟提問有助于獲得理想結果.DeepSeek的多輪對話能力使其能進行類似人的溝通，命題人通過試錯和修正過程，深入理解問題并獲得調整后的輸出，這要求命題者具備專業能力和良好的表述理解能力.（4）情感是人類的軟技能，基于DeepSeek智能的命題雖增強可控性，但可能失去情感溫度.因此，命題的“人文價值”應被重視[4].

綜上，以DeepSeek為代表的生成式人工智能技術展現了其獨特的技術優勢，已經成為教育考試發展的必然趨勢，為命題轉型帶來了新的機遇.我們應基于人工智能命題應用，提高AI命題的專業素養，并掌握技術賦能下的命題邊界與尺度，只有這樣，技術賦能的命題才能走得更遠.

參考文獻

[1]辛濤，楊麗萍.大規模教育考試評價的變革與發展趨向[J].中國考試，2025（2）：1-11.

[2]王帥杰，湯倩雯，楊啟光.生成式人工智能在教育應用中的國際觀察：挑戰、應對與鏡鑒[J].電化教育研究，2024，45（5）：106-112，120.

[3]佟威.從人工智能（AI）到智能助手（IA）：大模型賦能教育考試應用初探[J].中國考試，2024（11）：20-29.

[4]劉邦奇，汪張龍，胡健，等.人工智能賦能改進結果評價：問題、路徑及展望[J].中國考試，2024（1）：34-44.

作者簡介朱金鳳（1991—），女，安徽蕪湖人，博士研究生，一級教師；研究方向為數學教育.

儲林林（1968—），男，安徽岳西人，安徽省教育招生考試院命題中心學科秘書；研究方向為教育測量與實踐；多篇論文發表.

汪曉勤（1966一），男，浙江開化人，教授，博士生導師；研究方向為數學史與數學教育.

中學數學雜志(高中版)2025年5期

中學數學雜志(高中版)的其它文章: 數學文化的理論與教育實踐; 數學教學中“分析與綜合”思維方式的思考; 立德樹人、服務選才、引導教學是高考數學北京卷的鮮明特色; 2025年天津高考第20題解法探究及溯源; 數學課堂師生關系研究的理性審視; 善用“數學機智”，提升高考解題效率