



摘要:隨著高校信息化建設的發展,高校大數據環境給學生帶來了全方位影響。本文立足高校大數據資源環境,聚焦學生學業危機研究,對學業危機相關要素進行識別,綜合運用數據分析和質性分析交叉融合方法,針對校園多源大數據進行融合,構建五個維度的高校學生學業危機相關要素指標體系,對學業危機學生群體進行聚類特征挖掘。基于學業危機致因要素,構建基于扎根理論的學生學業危機要素結構模型,研究高校學生學業危機干預策略,以期待解決學生學業危機問題,提升高校的學業管理水平,實現培養合格人才的目標。
關鍵詞:數據挖掘學業危機干預策略
學業危機在高校普遍存在,面對學業危機問題,高校應進一步探索科學有效的解決方法,指導大學生避免學業危機。校園信息化建設過程積累著學習情況、消費數據等大量的數據。如何合理利用校園信息化建設過程中積累的大數據,挖掘學生學業危機產生的機理,從而及時地為學生學業危機干預提供指導,對進一步推動高校育人工作等具有現實意義。
一、學業危機致因機理相關研究
面對學業危機,國內外研究者進行了一定的探索,晉欣泉等分析了學業危機的參考判定要素,劉彤等構建了學業危機判定四級評價指標,莊俊璽等通過描述性統計和差異性分析學生學業表現,熊余等挖掘學生成績、在線學習時長、年消費額三個屬性間的關聯。針對研究中存在數據聚類效果不明顯、學業危機原因分析不明確等問題,本文提出基于數據挖掘的高校學生學業危機致因機理研究方法,構建學業危機致因要素指標體系,基于顯著的學業危機致因要素,研究高校學生學業危機干預策略。
二、高校學生行為數據資源體系分析及數據清洗
(一)數據集收集
以某高校學生數據資源為樣本,信息系統包括教務、學工、圖書、一卡通系統等,對學生的相關數據進行全面梳理,匯總得到48類與學生相關的數據,數據量約1000萬條。通過對不同系統數據進行整合,進一步判斷數據的準確性和完整性,將滿足篩選條件的數據整合成可用性數據集。
(二)數據集清洗
在數據集可用性分析基礎上,進一步對多源數據進行清洗與綜合集成分析,同時,不斷對系統中的動態數據進行采集。以月為單位進行均值與方差的統計分析,以學號為主鍵,實現動靜態數據的關聯與集成,通過歸一化操作、缺失值處理、特征選擇等方式,減少集成數據集的冗余。
三、學業危機相關要素統計與危機相關關系挖掘分析
基于可用性數據集,運用數據挖掘方法,通過計算數據的集中性特征平均值、波動性特征標準差值對數據進行分析,并進行學業危機描述性統計與相關性分析。描述性統計與相關性分析研究定量數據之間的關系情況,具體包括是否有關系、關系緊密程度等。采用皮爾遜相關系數進行分析,通過相關系數的大小反映關系的緊密程度。
(一)個人因素指標相關分析統計
綜合分析個人因素指標,結果顯示,學生平均每月在學校食堂早餐用餐次數為9次,中位數為7.4次,早餐平均時間為7:50,早餐規律性、洗衣規律性、洗浴規律性的均值分別為0.634、1.007、1.510。探究個人因素與學業危機加權危機的關系,計算個人因素指標與學業危機加權危機的皮爾遜相關系數,結果顯示,所有個人因素變量均呈現出相關關系。
(二)學習狀態指標相關分析統計
綜合分析學習狀態指標,結果顯示,共有7項的最大值超過平均值3個標準差,說明數據波動較大,使用中位數描述整體水平更合適。上階段不及格門數、上階段不及格學分數、上階段補考不及格門數的中位數都是0,工作日上午在寢室天數和下午在寢室天數的中位數分別是2。學生不同的入黨成熟度對于加權危機等級呈現出顯著性(plt;0.05),入黨成熟度對于加權危機等級呈現出0.01水平的顯著性(χ2=132.661,p=0.000lt;0.01),不同入黨成熟度樣本對于加權危機等級均呈現出顯著性差異。
(三)家庭影響指標相關分析統計
綜合分析家庭影響因素,結果顯示,樣本中63.71%是“城鎮應屆”、31.48%是“農村應屆”,學生中“A”的比例較高,生源地中超過兩成的樣本為“湖南”,大部分學生家庭組成完整,約七成學生家庭經濟情況良好,能夠支持其完成學業。家庭影響因素中存在類別變量,無法進行皮爾遜相關系數分析,本文采取交叉卡方分析方法,對家庭影響因素各個變量與學業危機加權危機等級進行分析,研究城鄉情況對加權危機等級的差異關系。結果顯示,不同城鄉情況樣本與加權危機等級呈現出顯著性(plt;0.05),說明不同城鄉情況樣本對于加權危機等級均呈現出差異性。
(四)信息網絡使用指標相關分析統計
信息網絡行為指通過互聯網進行知識獲取、通信、信息交流、交友等以個人為基本單位的活動。大學生作為信息時代活躍人群,對信息網絡資源投入時間多,使用充分,因此也受其影響明顯。相關網絡行為要素包括夜間上網在線時長、上網在線時長、APP在線時長、校園網流量使用情況等。為進一步探究信息網絡使用變量與學業危機加權危機等級之間的相關關系,本文計算了信息網絡使用各個變量與學業危機加權危機等級之間的皮爾遜相關系數。通過分析可知,所有的信息網絡表征變量均與加權危機等級之間呈現出顯著相關關系,其中,月均使用校園網流量與加權危機等級之間的相關性最強。
(五)群體區分指標相關分析統計
針對群體區分指標與學業危機的關聯進行挖掘,關于群體區分的描述性統計分析,結果顯示,根據院系來看,樣本中“護理學院”相對較多,比例為35.16%。專業學科類型中超過七成學生為“醫學”。從年級分布上,大部分樣本為“大一”,比例是34.17%。從性別分布上,大部分樣本為“女性”,比例是70.43%。從學制分布上,大部分樣本為“3年制”,比例是94.16%。利用卡方檢驗(交叉分析)去研究專業學科類型與加權危機等級的差異關系,可以得出結論:不同專業學科類型樣本對于加權危機等級呈現出顯著性(plt;0.05),意味著不同專業學科類型樣本對于加權危機等級均呈現出差異性。
高職學生學業危機致因機理及干預策略研究2025年2月下第6期(總第214期)四、高校學生學業危機致因機理模型構建
(一)學業危機致因要素指標體系構建
根據扎根理論得到學業危機產生因素,然后進行梳理,歸納出五項學業危機產生因素,進一步分別對五項因素進行歸納與提煉,萃取學生學業危機相關要素,學業危機致因框架如圖1所示。
(二)學生學業危機關鍵要素分析
根據高校學生學業危機關鍵致因要素,可從個人行為因素、學習狀態因素、家庭影響因素、信息網絡因素、群體區分因素五個維度進行分析。在個人行為因素指標中,主要學業危機致因指標要素是生活規律、消費情況、運動習慣和健康狀況。在學習狀態因素指標中,主要學業危機致因指標要素是上階段學習情況、學習習慣和綜合表現三個指標。在家庭影響因素指標中,主要學業危機致因指標要素為家庭結構和家庭經濟狀況。在信息網絡因素指標中,主要學業危機致因指標要素為信息網絡使用度和網絡娛樂習慣。在群體區分因素指標中,主要學業危機致因指標要素為群體差異和生活環境。
五、學生學業危機群體聚類特征挖掘及干預策略
(一)基于學業危機學生群體的聚類特征挖掘
學生數據中包含類別型特征(如性別、生源地等)和數值型特征(年齡、圖書館借書次數等),目前流行的類別聚類方法有Kmeans、密度聚類、層次聚類等,一般聚類效果不佳,需要能夠同時處理兩種不同類型數據的聚類方法,Kprototype算法繼承了Kmeans算法和Kmodes算法的思想,能對混合型變量數據進行處理,本文采用Kprototype算法進行群體數據聚類分析。
在Kprototype算法中,假設m個特征,n個樣本學生數據集可以表示為A=(Xi,yi)=(Xnum,i+Xcat,i,yi),i=1,2,…,n。其中,Xnum,i表示數值特征向量,Xcat,i表示類別特征向量,其中Xi∈X且Xi=xij,j=1,2,…,m。
兩個樣本分別是Xa=(Xnum,a+Xcat,a)和Xb=(Xnum,b+Xcat,b),Xnum,a=(Xnum,a1,Xnum,a2,…,Xnum,am),Xnum,b=(Xnum,b1,Xnum,b2,…,Xnum,bm)。
對學生數據進行歸一化處理,計算數值特征值。EuclideanXnum,a,Xnum,b=∑mnuml=1(Xnum,al-Xnum,bl)2,其中,mnum為數值特征變量,為使模型更準確,加快學習算法的收斂速度。
對數據進行標準化處理,XKij=xij-xmeanxstd,其中,XKij表示標準化后的值,Xij表示第i行、第j列未標準化的值,Xmean表示該屬性樣本均值,Xstd表示樣本標準差。
針對類別特征,計算漢明距離,得到類別特征值。HammingXcat,a,Xcat,b=∑mcatl=1δ(Xcat,al-Xcat,bl),其中,mcat代表類別特征數量,如果p=q,則δ(p,q)=0;如果p≠q,則δ(p,q)=1。
通過將不同特征組合成一個相異度矩陣來計算混合特征類型的樣本差異度。數據與簇中心的距離計算為:DistanceXi,Qj=Euclidean(Xnum,i,Qj)+γcHammingXcat,i,Qj。
計算損失值:Loss=∑Kc=1Lnumc+Lcatc=Lnum+Lcat,其中Lnum是c類樣本中數值特征的總損失,Lcat是所有類別特征的總損失。表1是Kprototype混合聚類算法具體過程。
表1Kprototype混合聚類算法
Kprototype算法輸入:目標聚簇數量K,加權因素γ,迭代次數T;
輸出:聚簇C1Begin
2For tlt;T;
3從數據集D中隨機選擇K個初始聚簇中心;
4計算樣本間的距離(Xnum+Xcat)和每個聚簇中心Qc;
5將距離中心最近的樣本分配給聚簇;
6計算數值特征和類別特征值;
7計算損失值;
8輸出聚簇C;
9End從個人行為因素、信息網絡因素等角度對學生進行聚類,聚類后,進一步分析各種聚類特征,并根據每個聚類的統計摘要生成字符標簽。結果顯示,Kprototype在處理類別特征和數值特征數據時,聚類效果更具優勢。本文采用Kprototype算法對學業危機學生群體進行聚類分析,并從五個維度對學生群體進行標記,分析該學生群體在五個維度下哪些方面存在問題,從而對其進行針對性的干預。
(二)基于扎根理論的學生學業危機要素結構
針對高校學生學業危機問題,通過開放性編碼、主軸性編碼進一步歸納梳理出學業危機相關的范疇之間的內在關系,通過對核心范疇和其他概念、范疇進行進一步關聯分析,構建基于質性研究扎根理論的學生學業危機問題要素結構,如圖2所示。
(三)學業危機干預策略
根據學業危機致因機理,研究學業危機干預策略,進行歸納整理,得出以下幾方面的學業危機干預策略。
個人因素干預策略:幫助學生建立規律的生活作息時間,有利于化解學業危機;積極發揮體育運動對學習的促進作用;加強大學生的心理輔導;學業危機干預須根據學生個體情況設計差異化的策略,根據個體反饋結果進行動態跟蹤與調整。
學業幫扶干預策略:在初次發現學習成績下滑時立即啟動學業干預策略;加強思想引領提升學生思想覺悟,鼓勵、引導他們樹立理想信念;營造良好學風,積極開展各類幫扶舉措,如學部院系領導帶頭幫扶、專業課教師幫扶、朋輩幫扶等。
家庭影響因素干預策略:重點關注幫扶學業危機學生中家庭困難群體;加強對偏遠地區學生、少數民族學生、港澳臺及華僑學生的關注與幫扶;建立家校合作機制,輔導員和教師用心留意學生的學習生活,在了解學生家庭情況的狀況下進行有效干預。
信息網絡使用干預策略:積極構建信息化學業危機預警體系,利用信息化開展學業預警可以第一時間發現學生的學業問題,及時對他們進行提醒及幫扶,從根源上降低學業危機出現的概率;通過數據充分認識網絡游戲等對學業的危害,幫助學生擺脫電腦依賴、游戲依賴;通過學生個體畫像了解情況與需求,充分利用畫像在科學決策方面的優勢,開展幫扶。
群體區分干預策略:關注學業危機男生群體,輔導員訪談了解學業危機男生群體,給予更多主動的學業幫助和思想輔導;根據不同的年級群體,規劃不同的學業幫扶機制;提升課堂教學的吸引力,構建專業課學習幫扶機制,采用考前知識點串講、學霸團幫扶等方式幫助專業課學習困難的學生及時提升成績。
結語
基于高校大數據資源環境,運用數據挖掘的方法,分別對個人行為因素、學習狀態因素、家庭影響因素、信息網絡因素、群體區分因素五類學業危機相關要素指標間的相關關系進行挖掘分析,進一步融合質性分析萃取的學業危機致因要素關系,提出了個人因素干預策略、學業幫扶干預策略、家庭影響因素干預策略、信息網絡使用干預策略、群體區分干預策略五個維度干預策略,期待為教師和學校管理人員提供干預策略參考,降低學業危機風險,進一步提升高校的學業管理水平,實現培養合格人才的目標。
參考文獻:
[1]晉欣泉,姜強,馬志強,等.數智時代的高校學困生智能診斷模型研究[J].現代教育技術,2023,33(11):4756.
[2]劉彤,齊慧冉,倪維健.基于多層特征融合的學生成績預測模型[J].計算機工程與設計,2023,44(10):29732978.
[3]莊俊璽,王琪,賴英旭,等.基于三元深度融合的行為驅動成績預警模型[J].計算機工程與應用,2024(1):113.
[4]熊余,王盈,蔡婷,等.學生學業述評智能生成模型的構建與實證研究[J].現代遠距離教育,2023(1):3239.