





摘要:我國教育領域對困難生的認定工作給予了極大的關注和重視,特別是在中等和高等職業教育中,已將困難生的認定及相應的資助措施,作為實現教育公平和正義的關鍵環節之一。文章以廣西地區的中等和高等職業院校(以下簡稱中高職)學生為研究對象,通過查閱文獻、設計并發放調查問卷,結合項目實施,運用大數據分析和人工智能(AI)技術,尤其是深度神經網絡技術,深入探討數據挖掘技術在困難生識別方面的應用潛力;構建基于深度神經網絡的困難生識別(TabNet-Stacking)模型,并通過實證分析驗證該模型在查準率、召回率和F1值3個關鍵指標上的表現。結果表明,TabNet-Stacking模型能準確無誤地識別出困難生,為實現精準識別和資助提供了創新方法;提出在中等和高等職業教育中實施困難生大數據識別技術應用與發展的策略,包括加強數據整合工作、優化算法模型、完善資助體系、加強監管評估及推動技術創新,旨在確保困難生資助工作的精準性和有效性,進而促進教育公平,讓每個學生均有平等接受教育的機會。
關鍵詞:中高職;困難生;數據識別;深度神經網絡;教育公平
中圖分類號:TP391.4" " " " " " " " " " 文獻標志碼:A 文章編號:2095-820X(2024)06-0493-08
0 引言
困難生指的是生活必需資源不足導致個人生活水平未達到社會平均發展水平、生存狀態被排除在正常生活方式和社會活動之外的學生[1]。困難生認定工作對我國教育事業高質量發展的影響不容忽視,因此一直受到教育界的高度重視,并將教育扶貧作為解決相對困難問題的主要路徑。在中等和高等職業教育領域,困難生的經濟狀況和生活條件引起了社會各界的廣泛關注[2-4],其相對困難主要體現在日常生活、學術追求及人際交往等方面相較于其他同學或同齡人面臨更多的差異與挑戰。查閱大數據識別技術應用與教育公平相關的文獻發現,通過大數據技術的應用,可更公平地分配教育資源,促進教育公平。張茜[5]研究認為,在中等和高等職業院校(以下簡稱中高職)困難生扶貧工作中,傳統的困難生認定方法存在依賴于單一、簡單的機器學習模型及“隱形困難”和疑似“虛假困難”問題,而從促進教育公平角度出發,建立基于深度學習技術的智能化困難生認定模型,可智能化識別真正需經濟援助的中高職困難生,從而提升資助工作的效率和針對性,促進教育公平。李秋蕓[6]開展廣西高職院校貧困生感恩教育研究發現,隨著人工智能(AI)技術的不斷進步及數據挖掘技術的應用,我國高校在困難生資助工作的精準化研究方面取得了新進展。從大模型視角出發,利用大數據和AI技術可顯著提升困難生資助工作的精確度。劉海燕[7]研究表明,在面對中等和高等職業教育中困難生識別的挑戰時,借助大數據分析和AI技術,通過綜合考量學生的家庭經濟狀況、個人能力和未來發展潛力等多維度信息,可實現對困難生的精確識別和資助。上述研究結果表明,深度學習技術的充分利用及以大數據為支撐構建精準識別模型,對提升高校困難生資助工作精確度具有重要意義,特別在識別學生基本經濟狀況方面,可為資源相對匱乏的學生群體提供有力支持。但目前在大模型視角下將大數據識別技術應用于困難生認定以解決教育公平問題的研究仍顯不足。文章以廣西中高職學生為研究對象,通過大量查閱文獻、問卷調查及《大數據背景下中高職院校家庭經濟困難學生精準資助路徑研究》項目實施,探討數據挖掘技術在困難生識別上應用的可行性,并提出在中等和高等職業教育中實施困難生大數據識別技術應用與發展的策略,以確保困難生資助工作精準、有效,為構建和諧校園、促進教育公平貢獻力量。
1 數據來源及分析方法
近年來,智能識別技術已受到社會廣泛關注,其應用領域不斷拓展,其中,圖像識別、語音識別和自然語言處理等技術尤為引人矚目。作為智能識別技術的關鍵應用領域之一,自然語言處理隨著社交媒體和在線客服平臺的廣泛使用而得到普及。同時,自然語言處理技術不斷取得進步,處理效率和語義理解能力持續提升。
1.1 數據來源
以廣西中高職全體在校學生為研究對象,從識別相對困難生的角度,收集影響其家庭年度可支配收入、學生個人年度收入及在校基本生活保障支出等因素的數據,構建一個包含相對困難生數據集的大模型[8],在構建模型過程中,引入深度神經網絡(一種包含多個隱藏層的神經網絡,亦稱為深度前饋網絡或多層感知機),以提升模型的表達能力。根據神經網絡層的不同功能,可將其劃分為信息輸入層、信息隱藏層和特征輸出層。在特征信息提取過程中,以輸出層為起點,通過前向傳播算法對輸入向量執行一系列線性和激活運算,最終獲得輸出結果。當輸出信息與預期特征不符時,深度神經網絡通過損失函數的梯度迭代不斷優化自身,以確定與隱藏層、輸出層適合的對應偏倚向量b和線性系數矩陣W,確保所有訓練樣本的輸入盡可能地與標簽相匹配。通過深度學習網絡架構圖(圖1)可清晰地識別深度神經網絡模型主要由輸入層、隱藏層和輸出層構成,各層次間形成一個完整的全連接網絡結構[9]。其中,輸入層承載影響中高職困難生識別的關鍵因素,輸出層對應于中高職相對困難生的認定標準,該標準進一步細化為非困難、一般困難、中度困難和特別困難4個等級。深度神經網絡之所以能顯著提升中高職相對困難生信息特征的提取效率,核心在于其非線性結構。新型激活函數Xwish定義如下:
f(x)=x[arctan(βx)+0.5π]/π
式中,β表示可修正參數,在實數范圍內是光滑的,在β=0、Xwish成為線性函數f(x)=x的情況下,Xwish趨近于[0~1]函數值(類似于ReLU函數)。
1.2 分析方法
通過運用大數據分析技術、循環神經網絡及其他先進的智能技術,致力于構建一套專門針對高校學生經濟困難狀況的識別模型。①搜集一系列影響家庭年度可支配收入、學生個人年度收入及在校基本生活保障支出的因素。這些因素包括但不限于家庭經濟狀況、學生的學習成績及課外活動參與度等。②運用詞頻分析法對各因素進行深入分析,篩選出與困難狀況關聯性較高的關鍵因素,并將其作為建立困難生認定標準指標體系的基礎。③以循環神經網絡模型為核心,將識別出的困難生相關指標作為輸入層數據,以楊釙等[1]提出的困難生認定標準為輸出層數據,通過模型判定學生的經濟困難狀況。所構建的基于大數據和深度學習技術的高校學生經濟困難認定模型,不僅能滿足鄉村振興戰略對困難生資助的新要求,而且能解決當前高校在困難生認定準確性方面存在的問題,從而為高校提供一個更科學、合理的困難生資助決策支持系統。
在中等和高等職業教育領域,準確識別相對困難生本質上是一個多類別的分類問題,可進一步細化為若干個二分類問題進行詳細闡述。因此,可通過運用多個二分類問題的混淆矩陣來具體展示分類結果,并通過整合這些二分類問題的評價指標來全面評估困難生識別模型的效能。由困難生識別的混淆矩陣(表1~表4)可知,TP(真正例)、FP(假正例)、FN(假負例)和TN(真負例)等指標能幫助量化模型在識別困難生時的準確性、召回率(Recall)及F1分數等關鍵性能指標,從而為模型的優化和調整提供數據支持。
基于困難生識別混淆矩陣,采用查準率(Accuracy)、召回率和F1-Score的宏平均值來對比評價困難生識別模型的性能。
Macro-Recall=1/n[t=1nTP]/(TP+FN)
Macro-Precision=1/n[t=1nTP]/(TP+FN)
Macro-Fl=1/n[t=1n(2]?Preciosion?Recall)/(Precision+Recall)
式中,Macro表示宏量概念(通常指一個較大的、宏觀的量度或一個整體的度量標準),Precision表示精確度(描述測量或計算結果的精確程度,即結果與真實值的接近程度),n表示樣本數量、次數或其他計數相關的數值,i表示索引(用于區分不同元素或迭代過程的步驟),F1表示特定函數或特定參數。
2 中高職困難生相對困難的識別及大數據識別技術應用的實證分析
2.1 困難生相對困難的智能識別
2.1.1 數據采集與預處理
在AI應用領域,數據采集與預處理環節扮演著至關重要的角色。通過運用各種先進技術手段,如各類傳感器和網絡爬蟲,能采集原始數據。但原始數據通常不能直接用于機器學習算法,必須經過一系列細致的預處理步驟,確保數據能適應特定的格式要求,才能滿足機器學習算法的需求。預處理工作通常涵蓋數據清洗、特征提取及數據變換等關鍵步驟。在數據清洗過程中,專注于排除那些可能影響數據質量的異常值、缺失值和重復值,從而顯著提升數據的整體質量和可信度。本研究遵循一套嚴格的困難生認定標準,將家庭年度可支配收入、學生個人年度收入及在校基本生活保障支出作為核心識別指標。為了高效解析、遍歷和維護HTML文本,利用Python編程語言中的lxml庫,特別是其中的xpath語言,對鏈接進行分類匯總,并進一步爬取正文內容,最終將這些內容按類別保存至文件中。在解析爬取的HTML文本時,同樣使用lxml庫中的xpath語言,以便從中提取出所需要的信息。
2.1.2 相對困難生資料關鍵詞提取
本研究通過網絡爬蟲技術搜集了91000篇文本資料,經過關鍵詞挖掘和詞頻統計分析,采用詞頻—逆向文件頻率(TF-IDF)算法(一種高效的文本分析技術),從中篩選出53479個詞匯。計算公式為:
TFij=nij /[n]j
IDFi=log[D] / [j:ti?dj]
TF-IDF=TF?IDF=nij /[n]j?log[D] / [j:ti?dj]
式中,TF表示詞頻(特定詞條在文檔中出現的次數),IDF表示逆向文檔頻率(反映詞條在語料庫中的分布情況),nij表示特定文本dj中某個字詞出現的次數,nj表示文本dj中所有字詞出現次數的總和,j表示語料庫中的文件總數,D表示語料庫中的文件總數,[j:ti?dj]表示在語料庫中包含特定詞語ti的文本總數。一個詞語在語料庫中分布越稀疏,則其IDF就越大,說明該詞語具有較高的區分度。
TF-IDF算法已廣泛應用于文本挖掘、信息檢索和搜索引擎優化等領域[10]。TF-IDF算法得出的TF-IDF值既考慮了詞條在文本中出現的頻率,又考慮了詞條在整個語料庫中的分布情況,通過計算每個詞條的TF-IDF值,可對文本中的詞匯進行排序和篩選,從而提取出最具文本內容代表性的關鍵詞匯。隨著自然語言處理技術的不斷發展,TF-IDF算法也在不斷優化和改進。如一些研究者提出基于詞向量的TF-IDF變體,通過考慮詞匯間的語義關系來進一步提高文本表示的準確性,使TF-IDF算法在處理大規模、復雜文本數據時更得心應手。IDF中包含ti的文本總數越少,則IDF越大,說明詞語[ti]在該語料庫中具備較好的文本區分能力。TF與IDF作為文本分析中的2個基礎而重要的指標,為理解文本內容、挖掘文本價值提供了有力的工具。
2.2 模型構建與訓練
模型構建與訓練階段是機器學習流程中不可或缺的核心環節,在機器學習領域扮演著至關重要的角色,要求精心挑選適當的算法及科學確定模型架構,并運用多種策略以全面提升模型效能,確保模型能精確地捕捉輸入數據的特征,并在面對測試集時表現出卓越的性能。一旦模型經過嚴格的訓練和全面評估,便能應用于實際情境有效解決各類機器學習問題。
2.2.1 中高職相對困難生識別指標體系的構建
通過利用Python的Gensim庫實現TF-IDF算法,構建相對困難因素集合U,因素集U={u1,u2,…,um}。相對困難因素集可劃分為2個層次:第一層為三大相對困難影響因素,記為U={u1,u2,u3},其中,u1表示家庭年度可支配收入,u2表示學生個人年度收入,u3表示學生在校基本生活保障支出;第二層為子目標因素集,每個一級指標均由若干個二級指標構成,二級指標是每個一級指標的具體子指標。
TF-IDF算法獲取的關鍵詞顯示,涉及家庭年度可支配收入因素的主要方面為相對困難家庭父母的職業和就業狀況、家庭所在地、上學人口數、勞動人口數及父母學歷,分別記為u1={u11,u12,u13,u14,u15,u16};涉及學生個人年度收入因素的主要方面為學生性別、獎助學金、獲獎、校內勤工儉學和社會資助,分別記為u2={u21,u22,u23,u24,u25};涉及學生在校基本生活保障支出因素的主要方面為學生在校一卡通消費次數、工作日在校就餐次數、周末節假日在校就餐次數、校內消費單價最高前30個地點的消費次數、在線支付交易次數、圖書館預期繳費次數、學雜費預期繳費次數和助學金貸款金額,分別記為u3={u31,u32,u33,u34,u35,u36,u37,u38,u39}。最終,提取到1584個關鍵詞,剔除對研究相對困難無明顯作用的高頻干擾詞匯后,篩選出900多個與風險相關的詞匯。經過進一步篩選,選取詞頻最高的268個詞匯代表中高職學生最關注的困難領域。運用扎根理論對中高職學生面臨的困難影響因素進行深入分析,通過開放性編碼、主軸編碼和選擇性編碼對這些因素進行系統歸納和闡述。在理論飽和度得到驗證后,構建中高職學生相對困難影響指標體系(表5)。
在提取中高職相對困難生識別的影響因素時,大多數指標為類別變量,在計算特征間距時可能會出現不合理的特征間距。因此,需對反映家庭年度可支配收入、學生個人年度收入和在校基本生活保障支出等特征的指標進行適當的編碼處理。針對同一指標所描述的不同客戶性質,將指標按照A、B、C和D進行編碼,最終以特征向量形式綜合反映中高職相對困難生影響因素特征指標。如家庭父母的職業可細分為農民務農、農民兼營小生意、城鎮農民工、個體工商戶、離退休人員、下崗待業人員、下崗再就業人員、無業人員及其他職業,對此9種職業進行編碼后轉化為特征向量,以確保數據處理的科學性和準確性。
2.2.2 中高職相對困難生的認定
經過細致的比較分析,將學生家庭經濟狀況與教育成本間的差異或比例作為關鍵參考指標,從多個角度、全面地精準識別經濟條件相對困難的學生群體,充分考慮了困難生群體的實際情況及教育公平的深層含義。在評估經濟困難生準確性的支出法、收入法及綜合收入與支出雙指標比值法中,綜合收入與支出雙指標比值法具有明顯優勢,其構建的經濟生活困難指數能綜合考量家庭年度可支配收入與學生個人年度收入及在校基本生活保障支出間的比例關系,為精準識別和幫助經濟困難生提供科學依據。進一步通過聚類分析法,將構建的相對困難生指數進行無監督學習,從而劃分出非困難、一般困難、中度困難和特別困難4種困難生類別[相對貧困生認定=(家庭年度可支配金額+學生個人年度收入)/學生基本生活保障支出]作為模型的輸出層,最終完成基于深度神經網絡的困難生識別(TabNet-Stacking)模型構建。
2.3 大數據識別技術應用的實證分析
本研究選取樸素貝葉斯模型、支持向量機(SVM)分類模型和隨機森林模型作為基準,對TabNet-Stacking模型進行效能評估。通過應用困難生識別分類模型,并利用廣西中高職學生數據構建的學生數據集,將相關特征項的值輸入深度神經網絡分類模型,以完成分類任務。最終,根據模型輸出結果判定困難生的類別,從而為困難生認定工作提供技術支持。
從圖2可看出,各困難生識別模型對困難生識別的查準率均表現出色,其中,TabNet-Stacking模型表現更優秀,對困難生的查準率達82.0%,對一般困難生的查準率為79.8%,對中度困難生的查準率為80.0%,對特別困難生的查準率為77.7%,均明顯高于樸素貝葉斯模型、支持向量機分類模型和隨機森林模型相應的困難生查準率。
從圖3可看出,TabNet-Stacking模型對非貧困生、一般貧困生、中度貧困生和特別貧困生識別的召回率分別為80.7%、78.1%、77.6%和77.4%,說明該模型識別出各類別困難生的數量明顯多于樸素貝葉斯模型、支持向量機分類模型和隨機森林模型,即在查全性能上優于樸素貝葉斯模型、支持向量機分類模型和隨機森林模型。經計算,TabNet-Stacking模型對非貧困生、一般貧困生、中度貧困生和特別貧困生識別準確的F1值均達82.00%,明顯高于樸素貝葉斯模型、支持向量機分類模型和隨機森林模型識別準確的F1值。此外,在本研究構建的2層TabNet-Stacking模型中,TabNet-XGBoost模型所挑選的TOP15特征在模型分類過程中表現優于隨機森林模型,進一步證實TabNet-XGBoost模型在特征抽取方面的卓越能力,同時,也凸顯F1值作為衡量模型查準率與召回率綜合性能的核心指標的重要性。
3 應用與發展中高職困難生大數據識別技術的策略
本研究引入深度神經網絡技術[11],通過運用網絡爬蟲技術和文本分析方法,從多個視角對分析流程進行梳理,并從多維度挖掘特征指標體系構建的TabNet-XGBoost模型,實現了數據挖掘技術在中高職困難生判定上的有效應用。通過構建的TabNet-XGBoost模型,能更準確地識別真正需要幫助的學生,提高資助資源的使用效率。本研究還開發了一套涵蓋學生經濟狀況、學習表現、心理狀態及家庭背景等方面的綜合評估體系,通過多維度的評估,可更全面地了解學生的實際情況,從而提供更個性化的困難生支持方案。在實際應用中發現,盡管大數據和AI技術在困難生識別方面具有巨大潛力[12],但也面臨數據隱私保護、算法透明度及模型泛化能力等方面的挑戰。因此,建議在實際應用中應加強數據安全和隱私保護措施[13-14],以確保學生信息安全;加強對算法的解釋,以便相關利益方能更好地理解和信任模型的決策過程。在鄉村振興和教育公平的大背景下,將TabNet-XGBoost模型應用于幫助地理位置偏遠農村地區學生獲得優質教育資源,可提高教育的公平性,促進鄉村振興戰略實施,為農村地區的發展提供人才支持和智力保障。
在大模型視角下,針對中高職困難生的大數據識別技術應用與發展,提出有利于開展鄉村振興與教育公平研究的策略。①整合數字資源,構建一個完整的困難生資助數據平臺,在此基礎上建立一個全面整合困難生橫向和縱向數據的統一數據庫,并通過不同部門聯網來確認學生數據的真實性和有效性。②注重數據的及時更新,保障數據的時效性;因不同級別用戶對數據的訪問權限不同,需對數據的備份和共享進行分級管理[15],以防數據泄露和濫用,確保困難生的隱私安全。③未來針對中高職困難生的研究可關注如何通過大數據分析,挖掘困難生貧困背后的原因和特點,以便制定更有效的教育政策和幫扶措施。④在實施上述策略時,需考慮倫理和法律問題,如確保數據收集和處理過程的合法性,以及如何在不侵犯學生隱私的前提下合理利用數據資源;同時,在技術應用過程中需對教師和學生進行適當的培訓,以提高其對新技術的接受度和使用能力。通過實施上述策略,有望更好地識別和幫助中高職困難生,為困難生提供更多發展機會,使其能更好地融入社會,實現自身價值[16],有助于構建一個更公正和包容的教育環境,推動鄉村振興與教育公平實現。
4 結語
在中高職學生群體中,許多學生出身于經濟條件較困難的家庭,其生活環境和經濟狀況通常不盡如人意,因此,迫切需得到社會各界的關注和援助。本研究通過運用大數據分析和AI技術,對傳統的困難生識別方法進行優化與創新,構建了一個TabNet-XGBoost模型,能在簡化資助流程的同時,有效避免“虛假困難”現象的發生,確保困難生獲得更精準的資助,為中高職困難生的精準識別和資助提供新的視角和方法,為實現教育公平和鄉村振興戰略實施提供重要技術支撐。未來需探討構建針對中高職困難生的大數據識別技術應用與發展的動態實時監測識別系統,以進一步利用海量數據進行深入分析和預測,發展形成一個按需、實時、動態的精準資助新模式,從而提高困難生的資助效率和效果,確保資源的合理分配和使用。此外,還應探究將AI技術與教育大數據相結合的可能性,為高校提供更科學合理的資助決策支持,從而更好地服務于困難生群體。
參考文獻:
[1] 楊釙,金紅昊,劉海驊. 相對困難視域下“雙一流”建設高校貧困生識別策略研究[J]. 中國高教研究,2022(3):45-51.
[2] 陳麗君,林偉婷. 高職院校擴招視角下家庭與人力資本對中高職貧困生就業質量的影響研究[J]. 高等職業教育探索,2020,19(5):38-44.
[3] 畢鶴霞. 國內外高校貧困生認定與研究述評[J]. 比較教育研究,2009,31(1):62-66.
[4] 黃海寧,羅偉泰,林振程. 鄉村振興戰略背景下中高職院校困難生智能識別與精準幫扶策略分析[J]. 廣西糖業,2024,44(5):391-396.
[5] 張茜. 多維貧困視角下中國農村困難家庭的識別研究[D]. 北京:首都經濟貿易大學,2018.
[6] 李秋蕓. 廣西高職院校貧困生感恩教育研究[D]. 南寧:廣西師范學院,2014.
[7] 劉海燕. 心理資本視角下高職貧困生心理扶貧路徑研究[J]. 文存閱刊,2021(21):179-180.
[8] 王麗. 高職院校貧困學生挫折教育探析[D]. 濟南:山東師范大學,2010.
[9] 劉艷,李純斌. 對高職學院貧困生倫理關懷的實證研究[J]. 企業家天地(下半月刊),2014(3):116-117.
[10] 蔣承,張智鑫,李笑秋. 貧困生認定與本科生發展差異研究——基于首都高校的問卷調查[J]. 復旦教育論壇,2016,14(6):61-66.
[11] 林彬彬. 試論我國高校貧困生認定工作中存在的問題及對策[J]. 佳木斯教育學院學報,2011(8):64-65.
[12] 吳斌珍,李宏彬,孟嶺生,等. 大學生貧困及獎助學金的政策效果[J]. 金融研究,2011(12):47-61.
[13] 楊釙,劉霄. 研究生收費前貧困資助政策的瞄準和減貧效果分析——以首都高校研究生為例[J]. 教育與經濟,2019(2):78-87.
[14] 戴海輝. 基于Hadoop的校園卡數據挖掘的研究與實現[D]. 南昌:南昌航空大學,2017.
[15] 蒲飛,趙正輝,涂旭東,等. 基于校園一卡通數據的貧困學生消費異常數據檢測分析[J]. 電子測試,2018(6):58-60.
[16] 王衛星,李斌. 智慧校園下利用機器學習算法實現高校貧困生的預測[J]. 三門峽職業技術學院學報,2019,18(1):133-140.
(責任編輯 思利華)
黃海寧,羅偉泰,林振程. 大模型視角下的中高職困難生大數據識別技術應用及實證分析[J]. 廣西糖業,2024,44(6):493-500.
DOI:10.3969/j.issn.2095-820X.2024.06.015
收稿日期:2024-10-09
基金項目:廣西教育科學“十四五”規劃學生資助專項《大數據背景下中高職院校家庭經濟困難學生精準資助路徑研究》(2022ZJY2615)
通訊作者:羅偉泰(1983-),男,博士研究生,高級工程師,主要從事信息技術研究工作,E-mail:548580230@qq.com
第一作者:黃海寧(1972-),男,高級講師,主要從事職業教育與思想政治教育研究工作,E-mail:115259816@qq.com