韓開山 劉寶芳



[摘 要]基于學生考試成績的調查數據,針對數據挖掘課程教學中存在的問題,文章提出了案例驅動的教學改革方案。在數學基礎成績無顯著差異的情況下,通過方差不等的獨立樣本t檢驗,表明教學改革后統計專業和信科專業的數據挖掘成績存在顯著差異。利用Rubin的反事實因果效應理論,在可忽略假設的條件下,以數據挖掘的考試成績為因變量,以是否進行教學改革為處理標識變量,以數學基礎成績和性別為自變量,建立因果推斷效應模型。結果顯示,教學改革的平均因果效應為2.13,95%置信區間為[0.46,3.81]。
[關鍵詞]教學改革;案例驅動;平均因果效應
[中圖分類號]G642[文獻標識碼]A[文章編號]2095-3437(2024)04-0037-04
數據挖掘作為一門重要學科,在當今信息爆炸的時代發揮著重要作用。然而,目前國內部分高校的數據挖掘課程教學仍側重于理論知識的灌輸,實踐內容局限于理論教學的實例化,沒有真正建立起以實際應用為目標和主線的課程體系[1-2]。傳統的數據挖掘課程教學存在諸如理論與實際脫節、學生缺乏實踐經驗等問題[3]。因此,為了更好地培養學生的實際應用能力,案例驅動的數據挖掘課程教學改革勢在必行。
本文基于中北大學(以下簡稱我校)2020級統計專業和信科專業的教學改革實驗數據,分析案例驅動教學改革的效果。案例驅動強調通過案例收集、整理、分析、小組討論、實踐操作等方式,引導學生積極參與教學過程,進而提升其分析能力和動手能力。在教學過程中,采用案例化教學的方式,即以具體案例為切入點,通過分析案例的應用背景和數據特點進行數據預處理,并根據案例需求和數據特點建立統計模型,分析假設檢驗結果。這種教學方式將案例與數據挖掘知識緊密結合,不僅加深了學生對數據挖掘知識體系的理解,還提高了他們在實際操作中處理數據的能力。在實驗環節,學生不再局限于簡單的驗證性實驗,而是全程參與案例問題的求解過程,從而有效提升了他們的實踐能力。
一、教學改革效果統計分析
為了全面評估教學改革的效果,課題組精心設計了針對我校2020級統計專業和信科專業共204名學生的實驗教學方案。具體而言,對統計專業的104名學生采用新的教學方式(調整教學內容,增加案例教學、簡化理論推導、增加編程實踐)。為了客觀比較學生的數學基礎,課題組選取這兩個專業學生的數學分析1成績作為參考依據。然而,由于數據挖掘課程作為一門基礎數據課程,在大三第二學期開設,部分學生因轉專業而未能學習數學分析1。因此,在最終確定的調查樣本中,統計專業和信科專業各包含95名學生。
(一)數學基礎分析
數學分析課程作為數學學院各專業的必修課,能夠客觀反映學生的數學基礎水平。課題組對統計專業和信科專業各95名學生的數學分析1 成績進行分析并繪制散點圖(見圖1)。
從圖1 可知,統計專業和信科專業的數學分析1成績無顯著差異。為了更清晰地展現成績分布的特點,課題組進行了描述統計分析(見表1)和獨立樣本t檢驗(見表2)??梢钥闯觯y計專業數學分析1成績的平均值為73.93,信科專業數學分析1成績的平均值為71.41,兩者差值為2.52;統計專業數學分析1成績的中位數為75,信科專業數學分析1成績的中位數為72,兩者差值為3;統計專業數學分析1成績的最小值為37,最大值為98,極差為61,標準差為14.73,信科專業數學分析1成績的最小值為36,最大值為99,極差為63,標準差為17.96。數據表明,信科專業數學分析1成績波動相對較大。為此,進行萊文方差齊性檢驗,結果顯示F值為6.40,P值為0.01,在顯著性水平0.05 的條件下可以認為兩個專業方差不等。課題組進一步進行方差不等的獨立樣本t檢驗,結果顯示t值為1.06,P值為0.29,說明數學分析1成績沒有統計學意義上的顯著差異。
(二)教學改革效果基礎分析
針對當前數據挖掘課程教學中存在的問題,本次改革主要提出以下三個方面的改進措施。
1.合理安排教學內容
為了進一步優化課程內容,課題組結合實際情況精心安排了豐富的教學內容,涵蓋背景介紹、數據獲取、數據探索和預處理方法、離群點檢測及處理、回歸分析、決策樹、人工神經網絡、支持向量機、聚類分析、關聯規則、社交網絡分析等。 其中,理論學時共計32學時,實驗學時共計24學時。特別是在數據探索和預處理方法、離群點檢測及處理這兩部分,課題組將結合實際案例(天貓商城銷售數據、泰坦尼克號數據、車輛檢測數據等)分析數據背景,研究數據特點,并進行描述統計分析和離群點處理。通過對案例的分析引入新問題,結合所學知識給出解決問題的數據挖掘方法,讓學生真正融入教學過程。
2.采用案例化教學方式
為培養學生處理實際數據能力和操作技能,課題組緊密結合本次教學改革的目標,采用案例化教學方式。針對各個知識點,以實際案例為起點,明確案例的應用背景和目標,對數據進行探索性分析,并根據數據特點建立統計模型以及進行檢驗說明,以更好地將案例分析與數據挖掘知識有機結合。
3.引入案例驅動和競賽驅動的教學模式
在教學方式上,引入案例驅動和競賽驅動的教學模式,同時借助網絡資源實施翻轉課堂的教學方式[4]。課題組以Kaggle、泰迪杯數據挖掘比賽試題為藍本,編寫以實際問題為背景的綜合性案例,研究方法涉及數據挖掘分析的各個模塊,為團隊協作處理實際數據問題提供素材。
本次教學改革的目標主要有以下兩個方面:
第一,教學內容著重于數據挖掘的全過程,涵蓋數據獲取、數據清洗、異常數據處理、模型建立、結果分析、假設檢驗等環節,全面強化實操性,確保學生掌握獲取數據、處理數據、分析數據、應用數據的能力。
第二,調動學生的學習積極性,鼓勵學生積極參與數據挖掘的各種競賽,以競賽促學習,以案例分析促理解,整體提高學生的實操能力。
針對本次教學改革目標,課題組對2020級統計專業的教學內容、案例教學、理論推導、編程實踐等方面進行了改革實踐,2020級信科專業則按照傳統的教學方式進行教學。根據數據挖掘成績散點圖(見圖2)可知,信科專業數據挖掘成績整體分值普遍低于統計專業。
根據數據挖掘成績描述統計分析(見表3)可知,統計專業數據挖掘成績的平均值為79.81,中位數為80;信科專業數據挖掘成績的平均值為76.80,中位數為76;兩個專業的平均值相差3.01,中位數相差4。統計專業數據挖掘成績的最小值為70,最大值為95,極差為25;信科專業數據挖掘成績的最小值為57,最大值為93,極差為36。統計專業數據挖掘成績的標準差為4.77,信科專業數據挖掘成績的標準差為7.12,說明信科專業數據挖掘成績兩極分化較為嚴重,成績波動相對較大。根據萊文方差齊性檢驗(見表4),結果顯示F值為17.10,P值為0.00,兩個專業數據挖掘成績的方差不等。通過異方差獨立樣本t檢驗,結果顯示t值為3.42,P值為0.00,說明在數據挖掘成績上兩個專業之間存在顯著差異。具體來說,統計專業數據挖掘平均值高于信科專業數據挖掘平均值,說明差異具有統計學意義。
雖然兩個專業的數學分析1成績沒有統計學意義上的差異,但數據挖掘成績具有顯著差異。為排除其他因素的影響,課題組采用Rubin的反事實因果效應理論分析本次教學改革的效果。
(三)教學效果因果效應評估
設[Zi]為教學改革課程的參與情況,其中[Zi]=0表示第[i]個學生屬于信科專業且未接受教學改革課程,[Zi=1]表示第[i]個學生屬于統計專業并接受了教學改革課程。[SFi]表示第[i]個學生的數學分析1成績,[XBi]表示第[i]個學生的性別,記[Xi=(SFi, XBi)],[Yi](1)和[Yi](0)分別表示第[i]個學生在接受統計專業和信科專業時的數據挖掘成績,則:
[Yi=ZiYi(1)+(1-Zi)Yi(0)=Yi(1)? Zi=1Yi(0) Zi=0]
定義教學改革的條件平均因果效應為:
[ATE(x)=E[(Yi(1)-Yi(0))Xi=x]]? ? ? (1)
ATE表示在給定數分析1成績、性別的條件下,接受教學改革和沒有接受教學改革的數據挖掘成績差值的平均值,即平均因果效應[5]。
在無混雜假設[(Y(0),Y(1))⊥ZX]條件下,ATE可以寫為:
[ATE(x)=E[(Y(1)-Y(0))X=x]]
=[E[(Y(1)-Y(0))X=x, Z]]
=[E[Y(1)X=x, Z=1]-E[Y(0)X=]
[x, Z=0]]
=[E[YX=x, Z=1]-E[YX=x, ]
[Z=0]]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (2)
假設回歸模型為:
[Y=αZ+βXB+γSF+ε? ?ε~(0, σ2)]? ? ? ? ? ? (3)
將模型(3)代入方程(2)可得:
[ATE(x)=α+βXB+γSF-βXB-γSF=α]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (4)
因此,教學改革的效果主要體現在模型(3)中Z變量的系數[α]。
通過建立模型(3)的線性回歸方程(見表5),結果顯示,數學基礎(數學分析1成績)、專業(教學方式)、學生性別均會對學生的數據挖掘成績產生影響,其中t值和P值均小于0.05,說明學生性別和數學基礎(數學分析1成績)是影響教學改革效果的重要因素。因此,僅僅對統計專業和信科專業學生的數據挖掘成績進行簡單的平均值比較是不夠準確的,這種比較方法忽略了其他潛在影響因素的作用。
根據Rubin的反事實因果效應理論,結合表5可知,教學改革的平均因果效變為2.13,95%置信區間為[0.46, 3.81],說明在學生的數學基礎(數學分析1成績)和性別比例沒有顯著差異的條件下,對教學內容、案例教學、項目驅動和競賽驅動的教學模式、理論推導、編程實踐等方面進行改革,可以充分調動學生的學習積極性和主動性,增強學生的學習參與感,使得學生成績得到顯著提高。
二、結論
總之,通過實施案例驅動的教學改革,數據挖掘課程不僅有效提高了學生獲取數據、處理數據、分析數據、應用數據的能力,還極大地激發了學生的學習積極性,顯著提高了學生的實操能力,從而實現了數據挖掘成績的明顯提高。
[ 參 考 文 獻 ]
[1] 湯顯, 石蘊玉. 新工科背景下數據挖掘課程教學改革與探索[J]. 教育教學論壇, 2019(42): 141-142.
[2] 衛志華, 孔思尹, 丁志軍,等. 新工科背景下數據挖掘課程綜合性實驗設計[J]. 計算機教育, 2020(3): 127-130.
[3] 段煉, 韋英岸, 陸汝成,等. 測繪地理信息專業背景下的《時空數據挖掘》課程設計[J]. 南寧師范大學學報(自然科學版),2020,37(1): 157-161.
[4] 修宇,劉三民.基于“競賽驅動”的數據挖掘課程教學改革探索[J].福建電腦,2018,34(2):75-76.
[5] 韓開山,周曉華. 利用CATE曲線選擇最優治療方案:英文[J]. 應用概率統計, 2023,39(1):27-52.
[責任編輯:梁金鳳]