






摘要:結合高校學生管理以及大學生思政教育的實際情況,通過數據采集、清洗和規范化處理,構建詳細可量化的學生信息模型,針對模型之間各階層信息的數據特點,提出信息模型之間相似度比較的具體方法。以學生信息模型之間的相似度為目標函數,基于K-means算法進行聚類分析,得到不同的學生簇,對不同簇的質心進行分析,得到不同學生簇的特點,有針對性地匹配不同的教學資源,實現精準思政的教學目的。
關鍵詞:精準思政;聚類分析;大學生
中圖分類號:G641文獻標識碼:A文章編號:2095-6916(2025)08-0095-05
On Precise Ideological and Political Education Based on Student Information Model and Clustering Algorithm
Gao YawenLu Ting
(Jiangsu University of Science and Technology, Zhenjiang 212100)
Abstract: In light of the practical realities of management of college and university students and their ideological and political education, this paper constructs a detailed and quantifiable student information model through data collection, cleaning, and standardization. Based on the data characteristics of each level of information between the models, a specific method for comparing the similarity between information models is proposed. Using the similarity between student information models as the objective function, this paper conducts a clustering analysis based on the K-means algorithm to obtain different student clusters. By analyzing the centroids of different clusters, this paper obtains the characteristics of different student clusters and matches different teaching resources in a targeted manner to achieve the teaching goal of precise ideological and political education.
Keywords: precise ideological and political education; clustering analysis; college and university student
思政教育是高校育人的核心和根本。在新時代,如何做好思政教育,如何提升思政教育質量和時效,成為高等教育的一個重大時代課題。黨的十八大以來,習近平總書記多次強調樹立精準思維的重要意義,特別是要從細節處著手,精準施策,解決突出矛盾和緊迫問題,這為高校思政教育指明了方向[1]。在《教育部2019年工作要點》中提到,“著力推進精準思政,創新思想政治工作方式方法”[2],使精準思想政治教育正式成為一種重要的制度倡導。在新時代的背景下,傳統思政教育工作的方式方法,越來越難以企及精準思政的新要求。
近年來,在學術領域,諸多學者運用新技術、新理念在精準思政乃至學生管理方面做出了很多的研究和探索。中國人民大學的黃文林[3]依托教育大數據構建服務于高校精準思政教育工作的學生畫像方法,提出基于學生畫像的精準思政工作路徑;山東師范大學的焦立濤[4],以人工智能技術為抓手,論證了人工智能賦能大學生思想政治教育的可能性、必要性、邏輯結果和價值目標,以及理論創新、方法優化和路徑選擇;華東師范大學的李子輝[5]運用文獻研究法、案例研究法和交叉學科研究法,分析了虛擬現實技術在高校思想政治教育中運用的價值、挑戰和優化路徑;江西財經大學的熊琴[6]在高校思想政治教育中引入區塊鏈技術,研究探討其融合的路徑,以此滿足學生個性化和多樣性學習需求;鄧晗[7]基于Spark大數據處理平臺搭建了學生行為分析系統,使用機器學習K-means算法和NMF算法對高校學生群體的行為模式進行分類,對學生異常行為進行判定和引導;湖北師范大學的王世純[8]等人利用K-means聚類算法進行深層次數據挖掘,幫助教師采取分層教學、個性化指導策略,實現精準教學。
本文依據教育實踐,篩選一些學生思政教育方面的關鍵信息,通過數據收集、清洗和規范化處理,梳理得到真實準確的學生信息。依據相應規則,將學生思政信息數據化,構建結構化的學生信息模型,并圍繞該模型,從模型中各類數據的特點出發,構建一套可操作的數據比較方法,實現學生信息在思政方面的量化和比較,為后續學生信息的聚類分析以及教師資源的匹配提供基礎。
本文基于一定優化的K-means算法,對量化的學生信息模型進行聚類分析,通過迭代得到一定數量的學生簇。重點分析簇質心的信息特點,結合實際情況,給出評價。根據評價結果,匹配相應的教育資源,實現思政教育的精準化。對于一些明顯的離群點,重點分析,給予特別關注,如果出現學業預警,及時糾偏,補齊木桶效應的關鍵短板,提升思政教育的整體質量。詳細過程如圖1所示:
一、信息模型的建立
(一)數據的收集和清洗
在實際的運用場景中,學生的信息數據往往散落于不同的信息系統及數據庫中,在建立模型之前,需要對所用到的信息進行梳理、匯總和清洗,數據信息流如圖2所示:
結合教學實踐,本文將所需學生信息的具體內容統計為如表1所示:
信息就醫數據、體測數據、心理測評數據校醫院、心理中心、二級學院其他其他其他在大數據環境下,數據來源多樣且復雜,數據質量參差不齊。數據清洗是數據預處理的關鍵環節,通過刪除、修改或填充缺失值、處理異常值和重復值、調整數據格式等操作,使數據更加準確、完整、可用、一致和規范化,提高數據分析和挖掘的準確性和可靠性。
在學生信息的數據采集后,需要對數據進行進一步的清洗處理,具體有以下清洗內容。
1.過濾非學生數據
在圖書借閱、校園卡消費過程中,使用的人群中不只有學生,還有教師、行政人員等,需要過濾非學生數據,防止除學生以外人員的數據對數據處理和分析進行干擾,也減輕數據的處理和分析工作壓力。在實際操作中,可采用SQL查詢或數據處理軟件的功能,僅提取學生數據,在數據采集后,也可根據學生的其他字段數據進行相互印證,以確保所采集對象的學生身份。
2.邏輯一致性檢查
檢查數據字段之間的邏輯關系是否合理。例如,學生的入學年份不應晚于畢業年份,學生的年齡應該與年級相匹配等。
3.數據去重
在研究中,學生數據來源于學校多個管理系統的數據源,重復記錄很可能會出現。因此,檢查并去除數據集中的重復記錄很有必要。去重可以避免分析結果的偏差,提高數據分析的效率和精度。
4.缺失值處理
學生信息中的缺失值是指在數據集中某些字段或記錄中缺少數據的現象,缺失值的存在會影響數據分析的準確性和有效性。本文所采用的缺失值處理步驟如下。
(1)初步審查。判斷缺失值的數量以及缺失值的模式。一般而言,缺失值的模式有:完全隨機缺失(MCAR)(數據的缺失與任何觀測變量無關,即數據的缺失是隨機的)、隨機缺失(MAR)(數據缺失現象的發生與數據集中其他無缺失變量的取值有關)、非隨機缺失(MNAR)(數據缺失的現象不僅和其他變量的取值有關,也和自身的取值有關)[9]。
(2)對于完全隨機的,且缺失比例不高的記錄,可以直接刪除,對于缺失比例較大的,數值型的數據采用中位數插補方式填充,如某一班級某個學生的成績項有缺失,將采用這一班級的平均成績進行插補。而字符型缺失值直接采用空值填充。
(3)對于隨機和非隨機的缺失值,可以使用回歸模型填充方式。
5.數據的及時性
學生的數據信息是動態的,需要根據實際情況進行階段性的更新調整。如學生的畢業、考試成績的更新等,考慮到生活信息的更新頻率,可將數據更新頻率設置為一季度更新一次。
(二)學生思政信息模型的建立
學生思政信息可以通過一個統一的多層信息模型[10]進行表達,模型由多個層次構成,各個層次依據信息增益(Information Gain,IG)大小進行劃分。信息增益是信息熵的差[11],某個特征項的信息增益值越大,表示其重要程度越高。在學生思政信息模型中,每個層次的信息增益在一定范圍內相等。一個層次又劃分為多個要素,信息要素在多個方面對該層信息進行描述。
學生信息模型由關鍵層、次關鍵層以及基礎信息索引層構成,如圖3所示:
1.關鍵層
對學生的思想政治素質進行基礎性的評價,該層信息的信息增益最大,包括性別、政治面貌、心理測評結果、體測結果、學習成績等信息要素。
2.次關鍵層
對學生的思想政治素質進行側面的綜合評價,包括首餐時間、校內消費情況、上網時間等信息要素。該層的信息具有一定的數據挖掘價值。例如,首餐時間可以由學生在食堂首次消費時間獲得,可以判斷學生是否早起、三餐是否規律,進而推斷學生的生活和心理狀態;上網時間可以判斷學生是否過于沉溺于網絡娛樂,可以對網絡在線時長超過一定閾值的學生進行談話提醒,通過分階次收取網費等方式限制學生的上網時間。
3.基礎信息索引層
本質上是為了標識學生,包括學生學號、身份證號碼等基本識別信息,不參與后續的處理,僅為了能夠快速對所需要的學生進行檢索。
對于不同層次的信息要素,根據信息增益的大小設置不同的權值,對于關鍵層信息,設置權值為0.7,次關鍵層為0.3。權值在后續的相似度比較中將得到運用。
(三)學生信息模型的相似性比較
為了便于學生之間的相似性比較,便于后期做聚類和離散點的分析,上述各信息必須量化為可以度量的數值,從信息要素的屬性角度,可以將分為分類(定性)的以及數值(定量)的[12]。
分類的屬性是事物的符號或是名稱,不具備數的性質,對于分類屬性,為方便用算法發現數據之間的關聯,可以將一個分類屬性轉化為多個二元屬性,即進行二元化,編碼的具體過程如下:
首先,窮舉該屬性的所有可能的值,為每一個分類屬性的值引入一個二元屬性;
其次,將屬性值所在位置的二元屬性賦值為1,其他二元屬性賦值為0,以某學生的政治面貌為例,該屬性的值可能有{共產黨員,共青團員,其他民主黨派,群眾},若某學生的政治面貌為共青團員,則該分類屬性可以二元化為:
1.分類屬性的相似性比較
對于二元化的分類屬性之間的相似度,可使用Jaccard系數J進行度量:
sim(F1,F2)=J=f11f01+f10+f11(1)
式中,F1、F2為擬比較的兩個二元屬性的值,f11、f01、f10、f11的定義如表2所示:
2.數值屬性的相似性比較
對于數值屬性,將屬性值依序轉化為向量,并采用余弦相似度度量兩個向量α及β之間的差異:
sim(F1,f2)=1d(α,β)=‖α‖‖β‖α·β(2)
式中,F1、F2為擬比較的兩個數值屬性的值,“·”表示向量點積,α·β=∑nk=1αkβk,‖α‖是向量的長度,‖α‖=∑nk=1α3k。
結合多信息元素的學生信息模型,兩個學生的信息模型Mi以及Mj之間的相似度為:
sim(Mi,Mj)=∑k∈Eωksim(Mik,Mjk)(3)
其中,E是所有信息元素的集合,k是單個信息元素,ωk為單個信息元素在相似性比較時的權值。
對于比較結果,可設定一組閾值構成區間(ωm,ωn),根據相似度比較結果分為以下幾類情況:
(1)sim(Mi,Mj)≥ωn,可以認為兩個學生相似度較高,在學生思政教育工作中可以歸為一類,實行統一管理;
(2)ωnlt;sim(Mi,Mj)lt;ωn,可以認為兩個學生有一定的相似度,結合具體情況進行分析;
(3)sim(Mi,Mj)≤ωn,可以認為兩個學生之間相似度較低,在學生管理時應采用不同的教學和管理辦法。
二、基于K-means的學生聚類分析
(一)學生聚類算法
K-means聚類分析算法是一種迭代型的空間聚類算法,該算法采用迭代的方式實現收斂,其核心思想是通過距離度量無標記的數據對象之間的相似性,并將數據對象自動劃分成k個聚類類別,使得同一個聚類類別中的每個數據對象到聚類中心的距離最小。
聚類的目標常用一個目標函數表示,在具體操作中,我們將目標函數選擇為學生信息之間的相似度,將相似度的最大化作為聚類的質量評估標準。
在使用K-means聚類算法時,為優化計算過程,通過肘部法則[13]確定數據集的最佳聚類個數k,以達到最佳聚類效果。若k值小于3,則可以根據實際直接將k值定義為3,即分為3個簇(好的、一般以及較差的),為避免聚類陷入局部最優,在選取初始質心時,也盡可能避免隨機選擇,可以根據學生的實際情況,初步選擇若干典型代表作為初始質心,具體的操作步驟如表3所示:
其中,重新計算每個簇的質心時,對于分類屬性,可以直接選擇出現次數最多的值作為新的質心的值,對于數值屬性,計算各點的均值作為新的質心的值。
隨著學生數據的階段性更新,聚類過程也是動態的,在季度化的學生信息更新之后,聚類也緊跟著重新進行,以保證思政教育管理的及時性。
(二)教育資源匹配
根據聚類算法的計算結果,可以將所有學生按照思想政治的維度分為不同的簇。對每個簇,挑選出質心(或者是距離質心最近的點),分析各項數據指標,進行相互之間一些指標的簡單比較,對簇進行排序評價。如此可以方便地、有側重地對所有學生進行思政教育管理,以達到精準思政的目的。對于較差簇中的學生,需要重點關注,加強約束引導,及時糾偏。
在學生聚類分析中,離群點指的是那些在數值上顯著偏離數據集中大多數觀測值的數據點,可能代表那些具有極端特征的學生。對于一些明顯的離群點(距離各個簇的質心都比較遠),可以進行個別分析,在排除數據處理錯誤的情況后,可以加強關注,分析日常的學習生活行為,及時采取相應措施,在各項數據指標接近于某一個簇時,可以及時調整到相應的簇中,減輕管理壓力。
在對學生進行簇的分組后,可以通過學生打分的方式,得到特定簇的學生對于不同思政教師的評價,在已有的教師資源中,選取得分最高的、最適宜相應學生簇的思政教師。同時,可以將該教師與學生簇的質點進行鏈接。對一個教師所鏈接的所有質點,再次進行聚類分析,找出質心,作為該教師的信息模型(此時,該模型的信息并不具有真實的物理意義,僅僅是后續做相似度比較時的數據化需要)。在后續的對于不同學生的聚類分析后,可遍歷現有的教師,以匹配與學生簇質心最為相似的教師,作為該簇的思政教師,以進一步實現思政教育的精準化。具體過程如圖4所示:
三、總結與展望
本文通過建立學生思政信息模型,實現學生思政信息的量化。通過建立信息模型之間的相似度比較方法,并基于K-means算法,對學生在思政方面進行聚類分析,將學生進行分組管理,從而有針對性地開展高校思政教育。同時,通過對學生信息模型的遷移,建立教師信息模型,通過教師與學生簇之間的比較,匹配合適的教師,進一步提高思政教育的精準度。本文所提出的信息量化以及比較方法,在高校學生其他方面的管理工作中,有較強的遷移性和借鑒意義。
參考文獻:
[1]韓慶祥,張艷濤.深刻理解精準思維的時代意蘊[N].中國紀檢監察報,2022-09-22(5).
[2]教育部2019年工作要點[J].人民教育,2019(5):19-26.
[3]黃文林.基于學生畫像分析的高校精準思政探索[J].東北大學學報(社會科學版),2021(3):104-111.
[4]焦立濤.人工智能賦能大學生思想政治教育研究[D].濟南:山東師范大學,2023.
[5]李子輝.虛擬現實技術在高校思想政治教育中的運用研究[D].上海:華東師范大學,2023.
[6]熊琴.區塊鏈技術在高校思想政治教育中的運用研究[D].南昌:江西財經大學,2022.
[7]鄧晗.基于機器學習和大數據技術的高校學生行為分析[D].北京:北京郵電大學,2017.
[8]王世純,許新華,黃嘉成,等.K-means聚類算法在高校學生成績分析中的應用研究[J].湖北師范大學學報(自然科學版),2019(3):113-118.
[9]Lazar N A.Statistical analysis with missing data[J].Technometrics,2003(4):364-365.
[10]李磊磊.面向設計制造集成的船用柴油機關鍵件CAM系統研究[D].鎮江:江蘇科技大學,2018.
[11]劉慶和,梁正友.一種基于信息增益的特征優化選擇方法[J].計算機工程與應用,2011(12):130-132,136.
[12]P N TAN,M STEINBACH,V KUMAR,et al.Introduction to data mining[M].Beijing:Posts amp; Telecom Press,2010:17.
[13]周玉,朱文豪,孫紅玉.一種基于目標函數的局部離群點檢測方法[J].東北大學學報(自然科學版),2022(10):1405-1412.
作者簡介:高亞文(1992—),女,漢族,江蘇邳州人,江蘇科技大學講師,研究方向為高校思想政治教育。
鹿婷(1979—),女,漢族,江蘇鎮江人,江蘇科技大學講師,研究方向為高等教育管理。
(責任編輯:楊超)