謝 佳 段 斌 高 婷 鐘倫亮
神經網絡認知測量在工程教學課程評價中的應用
謝 佳 段 斌 高 婷 鐘倫亮
(湘潭大學自動化與電子信息學院,湖南 湘潭 411105)
在工程教學課程評價中,由于存在不可觀測的混雜因子,使教師在進行課程目標達成情況評價時無法得到真正可靠的數據,故而影響后續的教學持續改進工作。針對此問題,本文提出一種結合神經網絡認知測量學和因果推斷科學的去混雜方法。首先,根據學生平時的練習數據構建神經網絡認知診斷模型,得到學生對知識點的掌握程度并作為學生能力的衡量指標;然后將學生的能力評估結果作為該案例因果推斷模型中的中介變量數據;最后通過前門調整法得到去混雜后的實際課程教學對課程目標達成情況評價的因果效應。本文以湘潭大學某學年電子信息類專業本科生專業課“電源技術”為案例,對該學年的課程目標達成情況評價結果進行修正,得到該學年實際的平均課程目標達成情況評價結果為88.92%。結果表明,該方法可以有效屏蔽混雜數據,幫助教師在實際教學中進行更加可靠、公平的課程目標達成情況評價。
工程教學;課程目標;認知測量學;神經網絡;因果推斷
2022年3月16日,教育部、中國工程院舉行會商會議,研究加強和改進工程教育。懷進鵬部長強調,要深入貫徹中央人才工作會議精神,推動從工程教育大國向工程教育強國邁進,培養壯大戰略科技力量,深化對工程教育、職業教育自身規律性認識[1]。課程教學是高等院校教育教學活動中最基本、最關鍵的環節,課程教學的質量是反映一個學校教育質量的重要方面。教學目標是教學活動的出發點和歸宿,在教學過程中制約著教學方案設計和教學評價設計,起著提綱挈領、綱舉目張的作用。課程目標達成情況評價,是教師根據教學大綱和教學內容所設計的教學目標在教學實施過程中所能實現的程度[2]?;诠こ探逃龑I認證,課程目標達成情況分析與評價即為:課程負責人及其教學團隊,通過一定的評估手段和方法,評估課程目標的達成程度,即收集數據,包括日常作業、測驗、實驗和期末考試等,在對所有評估數據進行分析、比較和綜合后,得出每個課程目標的達成情況評價結果[3]。
目前,已有的課程目標達成情況評價方法大致可以分為兩類[4]:第一類是直接根據該課程的課程考核總成績的平均值來計算課程目標達成情況;第二類是根據考核環節和課程目標雙層賦權來計算課程目標達成情況或者是根據課程目標對考核環節的貢獻力度來計算課程目標達成情況。這些方法僅針對具體教學進行課程目標達成情況改進計算研究。但實際上,在教學過程中總是存在大量的混雜數據,比如學生在做題過程中由于身體狀態原因無法發揮其正常水平等。這些數據無法真正衡量在教學過程中實際課程教學對課程目標達成情況評價的因果效應。鑒于此,本文提出結合人工智能前沿科學-因果推斷科學和認知心理測量學及神經網絡科學對工程教育教學評價中存在的不可觀測的混雜因子進行去混雜研究,從根本的數據入手,得到更加可靠、公平的課程目標達成情況評價結果。
認知測量學是一個很大的心理學范疇。其理論發展的豐富化、應用的多樣化、信度和效度的準確化,以及方法、技術的現代化,使它被廣泛應用在教育、醫學臨床、人才選拔、智能發育的早期診斷等領域。由于本文主要研究的是學生對知識點的認知能力,因此這里的認知測量主要針對學生在某一科學領域的能力。在教育學領域,認知測量通常被稱作認知診斷。目前,認知診斷方法有60種左右[5],根據學生的能力向量是連續的還是離散的,可將比較常用的模型大致分為兩類,一類是以項目反應理論(item response theory, IRT)為代表的連續型認知診斷模型,一類是以DINA(deterministic inputs, noisy “and” gate)為代表的離散型認知診斷模型[6]。隨著大數據時代的到來,神經網絡逐漸應用于認知診斷領域。2020年,陳恩紅、劉淇團隊提出一種通用的神經網絡認知診斷框架,該框架可以利用神經網絡來學習復雜的練習交互,以獲得準確且可解釋的診斷結果[7]。2022年,Yang Haowen等提出一種新的基于量化關系的可解釋認知診斷模型(quantita- tive relationship-based explainable cognitive diagnosis model, QRCDM),通過設計的神經網絡計算習題和知識概念的兩個貢獻矩陣,預測學習者的概念熟練度和答案的得分[8]。同年,Su Yu等提出一種基于圖的認知診斷模型(graph-based cognitive diagnosis model, GCDM),通過異構認知圖直接發現學生、技能和問題之間的交互,設計了兩個圖的層:性能相關傳播器和注意力知識聚合器。前者用于不同類型的圖邊傳播學生的認知狀態,后者可以選擇性地從相鄰的圖節點收集消息[9]。總地來說,目前將神經網絡用于認知診斷領域的文獻還比較少。
自相關系數的概念被提出以來,涉及因果推斷的問題就纏住了統計學的腳后跟[10]。經濟學研究強調的是變量間因果關系的識別而非統計學上相關關系的判斷,然而由于傳統的統計推斷方法在識別因果關系時存在某些弊端和不足,于是可以更加有效識別變量間因果關系的新興研究范式“因果推斷”開始興起[11]。因果推斷的哲學基礎最初由英國實證主義哲學家與經濟學家穆勒于1851年在其所著的《邏輯體系》一書中提出。在研究方法與數據來源不斷更新迭代的當下,對新興路徑與范式的探索業已成為教育政策研究者亟須開展的工作。蓬勃發展的“數據密集型科學發現”被界定為科學方法革命的“第四范式”,表征出科學探究的基本范式在當前“大數據時代”前所未有的變化[12]。2007年,楊向東表示對因果關系的推斷是教育評價中的核心問題之一,他結合西方有關領域,分析了教育評價中存在的各種類型的因果關系及因果關系推斷中的基本問題[13]。2014年,喬天宇等提出使用工具變量回歸的方法,解決最小二乘回歸在估計寄宿的影響時可能存在的內生性偏誤問題,實證估計了寄宿對農村學生學習成績的效應,從而考察寄宿對農村中小學教育的影響[14]。2019年,楊真等學者使用中國家庭追蹤調查數據和傾向得分匹配方法,考慮子女教育對家庭消費的擠入效應和擠出效應,研究了父輩教育期望對家庭消費的影響[15]。總地來說,因果推斷科學目前主要應用在教育領域和經濟學領域。
認知測量學和因果推斷科學目前都有與教育相結合的例子,例如應用認知測量方法學估計學生的能力從而提供個性化教學,利用因果推斷方法學推斷出實際教學效果,幫助教師進行持續改進。但目前還未有學者嘗試將認知測量方法學和因果推斷方法學相結合。本文主要從修正教學數據出發,構建基于神經網絡認知測量的自動化測評工具,作為因果推斷模型中的中介變量,應用前門調整法對教學數據進行調整,從而去除教學質量評價中的混雜數據,得到真正的因果效應。
神經網絡認知測量自動化測評工具主要通過學生的做題數據和實驗數據來訓練模型,從而得到學生能力評估結果。這里研究的是特定的電源設計教學領域。自動化測評框架如圖1所示。

圖1 自動化測評框架
數據的獲取主要指兩部分,一部分是學生的課后習題做題數據,另一部分是學生的實驗設計數據。本文針對教學大綱中的某一課程“Buck開關型調整器”及對應的實驗“Buck開關型紋波設計”展開研究。其中,Buck開關型調整器主要考察以下知識點:①Buck調整器的基本概念;②Buck調整器的基本符號和波形;③Buck調整器的基本工作方式; ④Buck調整器的主要電流波形;⑤Buck調整器的效率;⑥Buck經典電路設計。本文共編制10道題對這6個知識點進行測驗。當學生做題的正確數量小于6道題目時,該學生得到的成績為不合格,編碼為“0”;當學生做題的正確數量大于或等于6且小于9道題目時,該學生得到的成績為合格,編碼為“1”;當學生做題的正確數量大于9時,該學生得到的成績為優秀,編碼為“2”。這里共獲取400個同學的做題數據。Buck開關型紋波設計實驗主要包含以下幾個復雜工程問題。
1)電感的選擇問題
不同電感對波形的影響如圖2所示,圖中為占空比,s為開關周期,i為電感電流,Dpp為紋波電流峰-峰值。當電感不飽和時,紋波電流峰-峰值如圖2(a)所示,取決于開關頻率s、電感和輸入電壓in,有


式中,out為輸出電壓。

圖2 不同電感對波形的影響
當電感飽和時,如圖2(b)所示在高負載電流時,電感值會因為磁心飽和而降低,而紋波電流峰-峰值與不飽和情況相比會有所增加,有

2)輸出濾波電容的選擇問題


圖3 不同輸出電容對波形的影響

如果使用陶瓷電容,其ESR極小,輸出電壓紋波如圖3(b)所示取決于開關頻率s、電容值out和電流紋波Dpp,有

3)輸入濾波電容的選擇問題
不同輸入電容對波形的影響如圖4所示,圖中in為輸入電流,Dinpp為輸入電流紋波峰-峰值。當輸入電容經過精心設計(足夠大)時,輸入電流紋波如圖4(a)所示,取決于開關頻率s、輸入電容的電容值in、負載電流out和輸入電壓in,有

當輸入電容過小時,輸入電流紋波的峰-峰值如圖4(b)所示,取決于負載電流和電感電流紋波Dpp,有

該實驗收集了400組數據,當輸出電壓紋波大于直流平均電壓值的2%且輸入電流紋波大于直流平均電流值的20%時,該學生得到的成績為不合格,編碼為“0”;當輸出電壓紋波小于直流平均電壓值的2%或輸入電流紋波小于直流平均電流值的20%時,該學生得到的成績為合格,編碼為“1”;當輸出電壓紋波小于直流平均電壓值的2%且輸入電流紋波小于直流平均電流值的20%時,該學生得到的成績為優秀,編碼為“2”。具體的評價分類見表1,其中為學生的做題能力,為學生的實驗設計能力。當學生的做題能力評價為不及格且學生的實驗設計能力評價為不及格時,該學生得到的評價編碼為“0”,表示評價結果為不及格;當學生的做題能力評價為優秀且學生的實驗設計能力評價為優秀時,該學生得到的評價編碼為“2”,表示評價結果為優秀;其余情況的評價編碼為“1”,表示評價結果為及格。

表1 評價分類
數據獲取來源如圖5所示,包括兩個部分:一個是學生的做題數據,做題數據以字典的方式儲存在學生的做題日志中;另一個來源于學生的實驗數據,從WEBENCH中得到。得到這些數據后對其進行快速傅里葉變換(fast Fourier transform, FFT),放大特征,從而提高網絡模型的準確率。

圖5 數據獲取來源
神經網絡輸入層定義為

這里的data包括兩部分,一部分是學生的做題數據,一部分是學生的實驗數據。
然后是兩個全連接層和一個輸出層。



損失函數loss是輸出和真實標簽的交叉熵,公式定義為

圖6為模型的可視化訓練過程,其中圖6(a)為模型在迭代過程中的準確率變化情況,圖6(b)為損失函數在迭代過程中的變化情況。圖中橙色曲線代表訓練集的迭代曲線,藍色曲線代表驗證集的迭代曲線??梢钥闯觯柧毤臏蚀_率約為95%,驗證集的準確率約為98%。通過計算,測試集的平均準確率約為96.7%。

圖6 可視化訓練過程
本文以湘潭大學某學年電子信息專業課“電源技術”為例,共包含115人的成績。成績包括平時成績、自動化測評成績。其中,=0、1、2分別表示學生的該課程目標平時成績不合格、合格和優秀,=0、1、2分別表示學生的自動化測評成績不合格、合格和優秀。為個人的課程目標達成情況評價,是學生該課程目標自動化測評成績和考試成績的加權平均值,=0、1、2分別表示學生個人的課程目標達成情況評價為不合格、合格和優秀。成績按本文要求分類整理,表2為各平時成績下參與自動化測評的人數分布,表3為平時成績和自動化測評各成績級別下的課程目標達成情況的人數分布。本文從建模、識別、估計、數據分析四個過程對該案例進行分析。

表2 各平時成績下參與自動化測評的人數分布

表3 平時成績和自動化測評各成績級別下的課程目標達成情況人數分布
圖7為案例因果關系建模。其中為課程教學,這里主要代表學生的平時成績,為課程目標達成情況評價,為教學過程中存在的混雜因素,如學生在平時作業中抄襲答案等,這里的沒有特指某一個混雜因素,代表是的1、2等混雜因素的充 分集。

圖7 因果關系建模
因果推斷去混雜中包含前門調整法、后門調整法及工具變量法三類方法[16]。其中,當混雜因子的充分集可收集時可使用后門調整法。顯然,在教學過程中存在的混雜因素很難收集,因此這里不考慮后門調整法。工具變量法雖然可以在無法控制混雜因子或收集數據的情況下估計因果效應,但對工具變量的正確選擇具有特殊性,不適合對教學過程中的數據去混雜。因此,本文采用前門調整法去混雜,如圖8所示,加入一個中介變量,即第2節所構建的自動化測評工具,為了防止到中存在混雜,這一過程采取智能監控環境。前門調整公式為

圖8 前門調整法去混雜
估計是指基于可獲得的數據量,使用統計方法估計目標量,這里指計算課程教學對課程目標達成情況評價的因果效應。前門調整法估計主要有以下三個步驟。
1)估計課程教學對自動化測評的因果效應
由于課程教學-混雜-課程目標達成情況評價-自動化測評這條路徑被課程目標達成情況評價所阻斷,因此課程教學對自動化測評的因果效應為

課程教學對自動化測評的因果效應計算結果見表4。

表4 課程教學對自動化測評的因果效應
2)估計自動化測評對課程目標達成情況評價的因果效應
由于課程教學阻斷了后門路徑自動化測評-課程教學-混雜-課程目標達成情況評價,因此可以使用后門調整得到自動化測評對課程目標達成情況評價的因果效應。
后門調整公式為

自動化測評對課程目標達成情況評價的因果效應計算結果見表5。

表5 自動化測評對課程目標達成情況評價的因果效應
3)估計課程教學對課程目標達成情況評價的因果效應
課程教學對課程目標達成情況評價的因果效應可以表示為

課程教學對課程目標達成情況評價的因果效應計算結果見表6。

表6 課程教學對課程目標達成情況評價的因果效應
對=0,=1,=2所得到的因果效應估計進行分析可以發現:在平時成績為不及格時,課程目標達成情況評價合格的概率為88.04%;在平時成績為合格時,課程目標達成情況評價合格的概率為89.58%;在平時成績為優秀時,課程目標達成情況評價合格的概率為88.65%;對每一層學生的加權平均課程目標達成情況評價合格的概率為88.92%,修正了11.08%的混雜數據,可以得到該課程實際的平均課程目標達成情況評價為88.92%。
本文結合神經網絡認知測量學和因果推斷科學對教學評價方法進行改進,主要解決了現有教學評價中的兩個問題:首先,構建教學過程的因果模型,通過前門調整法對教學數據進行修正,解決了由于教學過程中存在不可觀測的混雜數據導致計算得到的課程目標達成情況評價信度低的問題;其次,搭建自動化測評工具作為教學評價過程中的中介變量,不僅可以在教學評價中為數據修正提供橋梁,而且可以幫助學生和教師及時進行反饋和調整,解決了由于缺少過程性評價導致教師無法進行后續改進工作的問題。由于采用本文方法導致成績評價的技術性要求提升,因此本文為教師在進行成績評定時提供了一個更加容易理解和易于操作的簡化算法:第一步(建模),建立課程教學因果理論模型,將問題的描述轉化成一個因果圖;第二步(識別),對因果圖的路徑進行分析,根據實際情況找到合適的中介變量;第三步(估計),根據實際調整方式計算出實際的平均因果效應。
[1] 張煒, 汪勁松. 我國高等工程教育的發展歷程、基本特征與改革方向[J]. 研究生教育研究, 2022(3): 1-7.
[2] 孫琛. 《微觀經濟學》教學目標達成度分析: 基于學生評價的視角[J]. 教育教學論壇, 2016(18): 213- 214.
[3] 黃和祥, 侯作富, 夏成宇, 等. 基于工程教育專業認證的材料力學課程目標達成度分析與評價[J]. 科技視界, 2022(5): 72-73.
[4] 陽志鋒, 聶東明, 李龍, 等. 師范專業認證理念下課程目標達成度加權評價算法[J]. 衡陽師范學院學報, 2022, 43(3): 38-42.
[5] 范士青, 劉華山. 常見的認知診斷模型及其比較[J].教育測量與評價(理論版), 2015(7): 4-9.
[6] GAO Lina, ZHAO Zhongying, LI Chao, et al. Deep cognitive diagnosis model for predicting students’ performance[J]. Future Generation Computer Systems, 2022, 126: 252-262.
[7] WANG Fei, LIU Qi, CHEN Enhong, et al. Neural cognitive diagnosis for intelligent education systems[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(4): 6153-6161.
[8] YANG Haowen, QI Tianlong, LI Jin, et al. A novel quantitative relationship neural network for explainablecognitive diagnosis model[J]. Knowledge-Based Systems, 2022, 250: 109156.
[9] SU Yu, CHENG Zeyu, WU Jinze, et al. Graph-based cognitive diagnosis for intelligent tutoring systems[J]. Knowledge-Based Systems, 2022, 253: 109547.
[10] 王東明, 陳都鑫. 因果推斷: 起源和發展[J]. 控制工程, 2022, 29(3): 464-473.
[11] 王舒鴻, 崔欣, 姚守宇. 統計相關還是真實因果?: 基于“因果推斷”的新興研究范式[J]. 金融與經濟, 2018(8): 21-30.
[12] 郭嬌, 吳寒天. “大數據時代”的因果推斷: 教育政策評估的新路徑[J]. 重慶高教研究: 2022, 10(4): 39-48.
[13] 楊向東. 教育評價中的因果關系及其推斷[J]. 全球教育展望, 2007(9): 13-21.
[14] 喬天宇, 狄雷. 農村中小學教育中寄宿制影響的因果推斷研究[J]. 社會發展研究, 2014, 1(2): 138-152, 245.
[15] 楊真, 張倩. 教育期望視角下的子女教育與家庭消費: 基于反事實框架的因果推斷[J]. 經濟問題, 2019(7): 78-86.
[16] PEARL J, MACKENZIE D. The book of why: the new science of cause and effect[M]. New York: Basic Books, 2018.
Application of neural network cognitive measurement in engineering teaching curriculum assessment
XIE Jia DUAN Bin GAO Ting ZHONG Lunliang
(College of Automation and Electronic Information, Xiangtan University, Xiangtan, Hu’nan 411105)
Due to unobtrusive confounding factors in the evaluation of engineering teaching curriculum, teachers cannot get reliable data when calculating the evaluation of the achievement of curriculum objectives, thus affecting the teachers to carry out the continuous improvement of teaching in the future. To solve this problem, this paper proposes a de-confounding method combining neural network cognitive measurement and causal inference science. Firstly, the neural network cognitive diagnosis model is constructed according to the students’ daily practice data, and the students’ mastery of knowledge points is taken as the measurement index of students’ ability. Then, the students’ ability assessment results are used as the mediating variable data in the causal inference model of this case. Finally, through the method of front door adjustment, the causality effect of actual course teaching on the evaluation of the achievement of the course goal is got. Taking the professional course Power Supply Technology for undergraduates majoring in electronic information in Xiangtan University in an academic year as a case, this paper revises the evaluation of the achievement of course objectives in that academic year, and obtains the actual average achievement evaluation of course objectives in that academic year as 88.92%. The results show that this method can effectively shield confounder data and help teachers get more reliable and fair evaluation of the achievement of curriculum objectives in actual teaching.
engineering teaching; objectives of the course; cognitive measurement; neural network; causal inference
湖南省學位與研究生教育教改研究重大項目(2020JGSZ016)
湖南省新工科研究與實踐項目(202012)
2022-10-20
2022-11-29
謝 佳(1997—),女,碩士研究生,研究方向為認知智能。