999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DeepSeek命制數學單選題的實踐研究

2025-11-14 00:00:00朱金鳳儲林林汪曉勤
中學數學雜志(高中版) 2025年5期

1 問題提出

隨著人工智能技術的不斷進步和應用拓展,命題組卷、命題數據分析等傳統考試業務場景正在經歷變革.國家教育考試中一些難以通過常規和傳統手段解決的個性化問題,在人工智能和大數據技術的輔助下,有望實現突破.例如,以DeepSeek、ChatG-PT等為代表的生成式人工智能,通過其強大的自然語言推理和生成能力,顯著提高了命題效率,成為命題研究的關鍵方向,并展現出巨大的應用前景.

目前,人類正致力于將大語言模型技術融入自動化命題的各個階段,并在多種題型上展現了積極的成效.然而,這些研究大多直接利用通用大語言模型(如GPT-3)通過提示工程進行自動化命題,所生成的試題在適用性、多樣性和準確性方面仍存在局限.部分研究嘗試通過專用數據微調的開源大語言模型進行自動化命題,但專用模型的命題質量是否能與通用大語言模型相媲美,尚未可知.此外,自動生成的試題與真實標準化考試題目在實際測量表現上的差異,也亟需進一步研究.

鑒于此,文中聚焦DeepSeek生成的數學單選題題型,通過定性和定量相結合的研究方法,評估其數學單選題的命題質量,總結DeepSeek生成單選題所展現的共性和個性規律,為人工智能命制單選題提供有價值的參考.

2DeepSeek命題的實踐\"摸底\"

為了深入了解DeepSeek 在數學單選題命題方面的表現,文本將從多個維度對其生成的試題深入剖析,研究問題將圍繞DeepSeek命題的科學性、梯

度性、素養性和效度性展開,旨在全面評估其命題質 量,并探索提高命題質量的有效策略1.

2.1 研究問題

DeepSeek命制的單選題科學性、梯度性、素養性和效度性有哪些優缺點,通過實驗,結合定性和定量的分析方法提出優化建議.

2.2 實驗設計

選擇一份數學樣本試卷,包含30道單項選擇題(下文統一稱“母題”),基于每道“母題”DeepSeek生成10道“孿生題”(下文統一稱“子題”).這10道“子題”構成一個題組(下文統一稱“子題組”).DeepSeek生成的每個“子題”都包含題干、選項以及答案,且答案部分詳細提供了解析、難度、知識點、核心素養等.30道母題依次編號為1,2至30,每道母題,如第1題母題的子題分別編號為1.1,1.2至1.10,以此類推.

2.3 實驗結果宏觀分析

DeepSeek生成的試題整體上呈現的特征有:其一,第24題涉及函數圖象判斷,DeepSeek目前不支持函數圖象的直接生成,因此,有效“子題組”共29組;其二,DeepSeek生成的試題及分析較全面,但第21—30題大部分子題組缺少了對子題的核心素養分析,第18題子題組僅有7道子題,生成的子題數不均等,同時試卷子題的知識點分析不完整,只有少部分子題有所體現;其三,DeepSeek生成的試題,在逐題計算后,主要有答案錯誤但解析正確、答案和解析均錯誤、題干是偽命題、題目或分析的數學表達形式有誤、題目難度不匹配或分布不均、題目難度超標等問題.

上述揭示了DeepSeek在圖象類試題的識別與生成技術方面尚需改進,特別是在單選題的生成結構上,需進一步優化.同時生成的試題質量,還應從科學性、梯度性、素養性和效度性四個維度進行深入的量化分析,分析DeepSeek單選題命題問題所在,總結DeepSeek單選題提高質量的“命題關鍵”.

2.4實驗結果微觀分析

2.4.1 科學性

科學性是數學命題的基礎,基于30道母題模板,統計分析DeepSeek生成的子題組科學正確性情況,并總結常見錯誤之源.特別指出的是,所有基于母題未能生成的子題均被判為“錯誤”,例如,第24題母題無法生成的10道子題均判為“錯誤”;同樣,第18題母題少生成的3道子題亦被判定為“錯誤”.

圖1子題組的正確率圖譜

統計30道母題生成的子題正確率情況(圖1),其中,題干、選項、答案和解析均正確的子題有167道,整體正確率為 55.67% .具體地,其一,正確數貢獻度最高的5個母題分別是:22.正余弦定理(正確數10,正確率 100% );2.函數定義域的求解(正確數9,正確率 90% );3.充要條件判斷(正確數9,正確率90% );21.立體幾何體積(正確數9,正確率 90% );13.分層抽樣概念和計算(正確數8,正確率 80% ).從表現情況看,正余弦定理表現最佳,是所有母題中唯一達到 100% 正確率的,前4名母題的正確數都在9~10 之間,顯著高于平均水平;其二,第5,8,15,19,25,26,28和29題的子題組正確率較低,例如,第5題的子題錯誤全部源于數學符號上標的錯誤,這導致了計算或識別的錯誤.第15題子題題干、選項和解析均正確,錯題全部源于最后的答案選錯.第19題子題題干、選項和解析均正確,錯題幾乎全部源于解析的最后一步多余的計算致錯.而第8題子題的錯誤基本源于第5,15和19題.第25題子題錯誤原因為對角的概念理解錯誤,且對的幾道題題目價值不高.第26題子題全部由于解析的最后一步計算錯誤.第28題子題基本由于符號識別亂碼或解析的最后一步多余的計算致錯,且本題子題組全部考查點到直線的距離公式,子題題目單一.第29題的全部子題題干和解析對數學不等式符號“ gt; 、lt;”等未識別出來,出現亂碼.第24題正確數為0,主要歸因于DeepSeek不支持圖象問題.因此借助DeepSeek命題,從科學性角度,亟待對上述錯誤的共性與個性進行關注和改進,從而提高試題正確率[1].

借助DeepSeek命制的單項選擇題主要“錯在何處”,現總結實驗中子題較為典型的錯誤案例,

【數學表達錯誤】如集合表達成 ? 104 , 5 , 6 1 \vert \9,4 AcomplementUA 1a c 2 \geqslant b c 2x 2 lt; y 2{ \frac { 2 } { 4 5 0 } } ,$ ”未約分.這些亂碼、不規范表達等問題,影響了試題的整體直觀印象和可讀性.因此,DeepSeek在基于數學符號的識別和生成方面需要進一步提升.

【數學運算錯誤】如“ 解 x2- 1?0?-1?x?1 又 交集為 由 x2-9?0 得 x ?-3 或 x?3 ;又 ,所以定義域是 這些列舉的是一些典型且具有代表性的運算錯誤,而運算性能的提升正是DeepSeek急需解決的關鍵問題之一.

【數學概念誤解】如“把角 θ 的終邊沿 y 軸負方向平移3個單位長度(不考慮長度對角度影響),得到的新角終邊在第一象限,那么原角 θ 是第幾象限角?”又如“已知角 α 終邊經過點(1,2),現將其橫、縱坐標同時伸長為原來的2倍,得到新角 β ,則角 β 是第幾象限角?”在數學中,角與象限角的概念有所不同,不是由平移所決定的.由于DeepSeek對數學概念的判斷存在混淆,導致命題出現科學性錯誤或缺乏價值

【題干條件不嚴】題干條件多余,如“已知sin (30°-30°)=0 ,則sin( 180°-30°) 的值為?”;題干缺少條件,如“在 ΔABC 中,知 為 AC 上一點,則 等于?”少了條件“AC=b”;“如圖,在直三棱柱ABC-A,B,C,中,∠ACB=90°,AC=BC=CC1=2 ,則直線 A1B 與平面BB1C1C 所成角的正弦值為?[此處你可以自行想象有一個直三棱柱圖形輔助理解]”,DeepSeek生成圖片能力待完善.總之,題干條件多余或缺少條件,從而出現科學性錯誤、試題不完整等問題,拉低了試題質量.

【答案繁雜單一】若tan α=3 ,則cos 2α+sin2α 的值為?DeepSeek 提供的解析是:“由 tan α=3 ,根據tan 以及 sin2α+cos2α=1 ,可得sin α= 3cos α ,代人 sin2α+cos2α=1,(3cosα)2+cos2α= 再根據二倍角公式cos 2α=cos2α- sin2α ,sin 2α =2sin αcos α cos 2α+sin2α=cos2α- sin2α+2sinαcosα ,將 2 代人可得: 易錯點在于計算過程中符號的處理以及公式的準確運用.B正確.”這種解題方法既繁瑣又容易出錯,題目的本意是考查化簡齊次方程的能力,這表明在命題和解題過程中,人工智能有時未能充分考慮學情和教情.

綜上,從試題生成的科學性角度來看,試題若不考慮題目本身質量、超綱等因素,有一半可直接使用.然而,考慮試題質量和考查目標角度,還需對試題的“梯度性”“效度性”和“素養性”等進一步量化分析.

2.4. 2 梯度性

試題的梯度性是確保考試能夠全面、公正地評估學生知識掌握情況的關鍵.合理的梯度設置不僅能區分不同水平的學生,還能避免試題過于集中于某一難度區間[1],從而避免評估結果的片面性.同時,試題的區分度與難度直接相關,通常中等難度的試題具有較高的區分度.因此,比較樣本母題與DeepSeek命制的子題難度比例與分布情況顯得尤為重要

根據教育測量學的標準,數學試題難度系數在0~0.3 之間被視為難題,介于 0.3~0.7 之間為中等題,介于 0.7~1 之間為容易題.對生成的子題統計后發現(表1):其一,母題生成的10道子題難度梯度基本一致;其二,難度分布重合角度,母題與子題組,容易題只有第1題重合,中等題有第2,7,9—12,14—17和19題等11題重合,較難的題無重合,子題組與母題難易題目數量分布呈正相關,相關系數為0.84(圖2),可見子題組與母題難易梯度分布具有同步性;其三,難題分布數量角度,依據學生母題得分情況,容易題有3題,中等題有26題,較難題有1題,然而,DeepSeek生成的子題組,容易的子題組有14組,中等的子題組有15組,較難的子題組無,顯然子題組與母題難易梯度分布存在顯著差異見表1(注:上述基于同步剔除第24題母題與子題組數據).

綜上,基于DeepSeek命制試卷單項選擇題的難度梯度分布性和同步性,可以事先設定更嚴謹、細化的難度細目表,或引人人工審核流程,進行人工調整,確保試卷的難度梯度分布符合考核要求

表1難易梯度分布差異性

2.4.3 素養性

基于原試題樣本本身對運算求解能力、空間想象能力、推理論證能力、抽象概括能力、數據處理能力、分析問題與解決問題的能力以及數學思想方法6個基本能力,其與高中新課標中6個數學核心素養吻合度基本一致,因此從6個核心素養的角度,在實驗中,基于原命題組與相應領域專家研判,先統計了樣本卷的每道母題的核心素養考查目標(表2),再分析匯總DeepSeek生成的子題組核心素養考查情況,最后對比樣本試題與生成試題的六大核心素養考查分布的同步性(圖3).

表2試卷核心素養考查點個數分布情況

圖3六大核心素養考查的同步性

考慮DeepSeek未能生成第24題,因此樣本卷與生成卷均剔除第24題無效數據,又因DeepSeek未標注出第27—30題、第22—23題和第25題所考查的核心素養,因此繼續剔除該7組數據,第18題子題組只生成7道題,因此也剔除

剔除后的有效題是第1—17題、第19—21題、第26題.同時DeepSeek生成的每個子題組中有10道題,因此除以10,圖3為樣本卷有效數據與生成卷有效數據平均數的對比分析,知DeepSeek生成卷與樣本卷單選題對核心素養的考查總體趨勢基本一致,因此,可大致判斷DeepSeek生成卷的單選題對數學核心素養考查目標大致兼顧,但DeepSeek生成卷在部分題中缺失了對核心素養的分析,該技術有待進一步完善.

2.4.4 效度性

以《普通高中數學課程標準(2017版)》為依據制定樣本卷的知識細目表,并進行編碼(表3),再統計分析母題和子題組的單選題知識點考查覆蓋情況(圖4).

表3知識點編碼

表4內容與結構效度分析

表4對母題和子題組的內容與結構效度進行分析,首先,從內容效度評估了題目是否充分覆蓋了目標知識領域,子題組在保持母題內容覆蓋的基礎上,DeepSeek命制的單選題多知識點組合顯著提升了內容的廣度和深度,特別是增加了跨知識點和跨領域的綜合應用題,使試題綜合性得到提升;其次,從結構效度評估了題目是否準確測量了預期的知識結構,子題組通過多種知識點組合方式,更好地反映了數學知識的內在聯系和層次結構.測量層次從單一認知擴展到綜合應用,提高了試題思維量.由此,借助DeepSeek命制單選題,為降低“撞題”風險,應降低對單一知識點的考查,提高多知識點組合題目的比例命題,適當增加跨專題知識點的融合命題(例如幾何與代數的結合).

當然,上述分析也有一定局限性,部分知識點(如I5)樣本量較小,效度評估可能不精確,缺乏實際答題數據,效度分析主要基于題目表面特征.總體,DeepSeek生成的子題組在內容和結構效度上有基于母題拓展優勢[2],有望優化技術,從而生成更有效度的子題組.

3DeepSeek命題的未來\"展望\"

教育部教育考試院佟威[3表示,人工智能大模型是算力、算法和數據積累到一定程度后的質變結果,因此,它具備創新命題的潛質.我們借助 Deep-Seek命制數學單選題,需發揮人為主體能動性來訓練和使用,以優化工作模型和提高效率:(1)通過訓練等方法將模型泛化能力應用于具體任務與要求.

引導DeepSeek聚焦命題內容與要求,以生成準確結果.(2)通過專業且明確的問題得到高質量回答.使用DeepSeek應詳細清晰地表達意圖,提示工程是關鍵方式.(3)多角度和多步驟提問有助于獲得理想結果.DeepSeek的多輪對話能力使其能進行類似人的溝通,命題人通過試錯和修正過程,深入理解問題并獲得調整后的輸出,這要求命題者具備專業能力和良好的表述理解能力.(4)情感是人類的軟技能,基于DeepSeek智能的命題雖增強可控性,但可能失去情感溫度.因此,命題的“人文價值”應被重視[4].

綜上,以DeepSeek為代表的生成式人工智能技術展現了其獨特的技術優勢,已經成為教育考試發展的必然趨勢,為命題轉型帶來了新的機遇.我們應基于人工智能命題應用,提高AI命題的專業素養,并掌握技術賦能下的命題邊界與尺度,只有這樣,技術賦能的命題才能走得更遠.

參考文獻

[1]辛濤,楊麗萍.大規模教育考試評價的變革與發展趨向[J].中國考試,2025(2):1-11.

[2]王帥杰,湯倩雯,楊啟光.生成式人工智能在教育應用中的國際觀察:挑戰、應對與鏡鑒[J].電化教育研究,2024,45(5):106-112,120.

[3]佟威.從人工智能(AI)到智能助手(IA):大模型賦能教育考試應用初探[J].中國考試,2024(11):20-29.

[4]劉邦奇,汪張龍,胡健,等.人工智能賦能改進結果評價:問題、路徑及展望[J].中國考試,2024(1):34-44.

作者簡介朱金鳳(1991—),女,安徽蕪湖人,博士研究生,一級教師;研究方向為數學教育.

儲林林(1968—),男,安徽岳西人,安徽省教育招生考試院命題中心學科秘書;研究方向為教育測量與實踐;多篇論文發表.

汪曉勤(1966一),男,浙江開化人,教授,博士生導師;研究方向為數學史與數學教育.

主站蜘蛛池模板: 女同久久精品国产99国| 久久免费看片| 久久青草视频| 一区二区三区精品视频在线观看| 国产成人精品免费视频大全五级| 亚洲欧美精品日韩欧美| 国产丝袜91| 伊人激情综合网| 5555国产在线观看| 亚洲AV一二三区无码AV蜜桃| 欧美亚洲国产一区| 毛片视频网址| 少妇精品在线| 精品偷拍一区二区| 国产美女在线观看| 中文字幕波多野不卡一区| 一本大道视频精品人妻 | 成人福利在线观看| 国产精品亚洲αv天堂无码| 国产成人8x视频一区二区| 激情午夜婷婷| 伊人久久青草青青综合| 欧美色伊人| 国产鲁鲁视频在线观看| 91亚洲视频下载| 新SSS无码手机在线观看| 欧美性爱精品一区二区三区| 亚洲中文字幕无码爆乳| 99人妻碰碰碰久久久久禁片| 毛片a级毛片免费观看免下载| 国产精品视频导航| 无码专区在线观看| 亚洲福利一区二区三区| 亚洲精品波多野结衣| 国产成人综合日韩精品无码不卡| 亚洲精品无码AV电影在线播放| 99热这里只有成人精品国产| 中文字幕1区2区| 手机精品视频在线观看免费| 一级毛片免费观看久| av无码一区二区三区在线| 手机在线看片不卡中文字幕| 中文无码影院| 亚洲成年网站在线观看| 欧美日韩激情在线| 午夜视频在线观看免费网站 | 亚洲专区一区二区在线观看| 亚洲日韩久久综合中文字幕| 欧美自慰一级看片免费| 国产又色又爽又黄| 欧美爱爱网| 亚洲成肉网| 精品久久综合1区2区3区激情| 毛片免费在线视频| 91福利国产成人精品导航| 国产福利影院在线观看| 国产无遮挡猛进猛出免费软件| 亚洲中文字幕在线一区播放| 天堂va亚洲va欧美va国产| 一本综合久久| 全部免费毛片免费播放| 欧美一区精品| 国产www网站| 18禁影院亚洲专区| 国产爽爽视频| 激情乱人伦| 青青青国产视频手机| 精品视频第一页| 亚洲精品第一在线观看视频| 国产一区二区三区精品欧美日韩| 国产69囗曝护士吞精在线视频| 成人精品区| 国产导航在线| 日韩无码视频播放| 亚洲综合色区在线播放2019| 性欧美久久| 亚洲一区波多野结衣二区三区| 国产va免费精品观看| 国产导航在线| 色首页AV在线| 在线毛片免费| 免费播放毛片|