趙向兵 白棟
(山西大同大學計算機與網絡工程學院 山西省大同市 037009)
隨著社會的不斷發展,大學生在掌握專業知識和技能的同時,學生的心理素質培養在綜合能力培養中越來越得到學校的重視[1]。大學階段是大學生進入社會前的一個關鍵階段,是其生理和心理迅速走向成熟的一個過渡期,如果在這個關鍵階段大學生沒有能夠保持一個良好的身體和心理狀態,那么很有可能會影響到學生的健康成長[2]。
現階段已是大數據時代,數據已成為“未來的石油”,在行業的競爭[3]中占據著重要的地位。數據挖掘就是從研究的數據集中,通過算法分析出有用的知識,從而為決策部門提供決策依據。在此背景下,設計和實現了學生心理數據分析系統[4],該系統通過問卷獲取學生心理數據,再通過數據預處理,提交給機器學習中的聚類算法進行分析,最后分析結果并可視化。系統的目標就是通過對得到的學生心理健康數據進行數據分析和數據可視化,發現存在心理健康問題的大學生,上報學校,并且挖掘出影響學生心理健康安全的因素,針對這些學生采取特殊的心理健康監控并采取相應的心理救助措施,及時化解學生的心理風險,真正了解并幫助到每一個有心理健康問題的學生,對于促進當代高校學生身心健康地成長以及構筑和諧的大學校園都具有很重要的意義。
系統主要劃分為四個模塊,分別是用戶登錄模塊、后臺管理模塊、數據處理模塊和數據分析模塊[5]。登錄模塊實現學生和管理員的訪問,學生登錄后可以填寫問卷和進行心理輔導方面的學習;管理員主要進行系統維護,包括用戶管理、問卷管理和數據處理分析管理。數據處理模塊主要實現數據的預處理,包括數據準備、數據收取、數據探索、數據清洗、數據規約和數據轉化等功能。數據分析模塊主要完成聚類算法的應用、結果分析和可視化展示,系統架構如圖1所示。
系統開發主要選擇的技術包含:PyCharm、VMware Workstation Pro、HBuilderX、Django、JQuery、Jupyter Notebook和ECharts,具體技術特征如表1所示。

圖1:系統架構圖
聚類分析算法是研究分類問題的一種數據分析方法,由聚類生成各簇,簇內各對象相似度較高,簇之間相識度較低。數據采集之后,屬性太多太少都會影響數據的科學性,而且可能產生偏差。所以在此階段,作了屬性相關性分析,選取和大學生心理變化相關的屬性,經過處理得到部分數據信息,如表2所示。
預處理要確定數據量,數據太少難于挖掘有用的知識,太多可能導致大量冗余,影響分析算法。選取五天為時間周期,在數據集中隨機抽取一個周期,包含10000條數據。其中包含16個屬性,分別是學號、所在地、性別、學院、問卷分數、觀看心理視頻時間、瀏覽心理內容次數、心情等級、觀看心理文章時間等。
數據探索是對特征值中的0值或空值等異常數據進行處理。通過對數據集的探索分析,得到缺失值個數、最小值和最大值,結果如表3所示。
數據挖掘處理的數據經常是海量數據,可能存在噪聲數據、稀疏數據、不完全數據、冗余數據等。數據清洗是對這類數據進行處理,是數據預處理的重要一步,由于需分析的數據量較大,這類數據占比相對較小,所以對其進行丟棄處理。
由于原始數據中的屬性太多,我們需要選擇與心理健康相關的屬性:MOOD_LEVEL(心情等級)、VIDEO_TIME(觀看心理視頻時間)、ESSAY_TIME(觀看心理文章時間)、PAPER_MARK(問卷分數)、VIEW_SUM(瀏覽心理內容次數)。刪除與心理健康不相關的屬性。經過屬性規約,結果如表4所示。

表1:技術選型表

表2:學生信息表

表3:數據探索分析表

表4:屬性規約后的數據集
對數據集觀察后發現,五個特征屬性的數據取值范圍差異較大,為了適應數據挖掘任務以及算法的要求,需要消除數量級數據帶來的影響,在系統中采用數據標準化方法,將數據轉換成恰當的數據格式。標準差標準化處理后,得到ZMOOD_LEVEL、ZVIDEO_TIME、ZESSAY_TIME、ZPAPER_MARK、ZVIEW_SUM五 個 屬性的數據,部分結果如表5所示。
采用K-means聚類算法將學生數據聚成三類(經過分析確定學生的類別數量)。算法采取歐氏距離,計算m維空間中兩個點之間的距離,聚類分群的結果如表6所示。(以下ZM、ZVIDEO、ZE、ZP和ZVIEW分別是ZMOOD_LEVEL、ZVIDEO_TIME、ZESSAY_TIME、ZPAPER_MARK和ZVIEW_SUM的簡寫)。
針對聚類結果進行特征分析,其中,學生群3在VIDEO_TIME、ESSAY_TIME、PAPER_MARK、VIEW_SUM屬性上最小,在MOOD_LEVEL屬性上最大;學生群2在VIDEO_TIME、ESSAY_TIME、PAPER_MARK、VIEW_SUM屬性上最大,在MOOD_LEVEL屬性上最小;學生群1在VIDEO_TIME、ESSAY_TIME、PAPER_MARK、VIEW_SUM屬性上處于居中水平,在MOOD_LEVEL屬性上處于居中水平;結合心理健康水平標準分析,學生群3屬于心里健康狀況很好的學生群體,學生群1屬于心理健康狀況中等的學生群體,學生群2屬于心里健康狀況很差的學生群體。據此,學校需要主要針對學生群2進行大量的心理課程教學和心理咨詢,要盡快讓這些學生從心理問題上走出來,否則會影響學生的個人發展。
對聚類分析模塊分析的結果運用ECharts技術,將分析結果做數據可視化的展示,展示結果如圖2所示。

圖2:數據可視化展示圖

表5:標準化處理后的數據集

表6:學生聚類結果
為了預防學生因心理問題造成對自身的傷害,促進學生的健康成長。通過本系統一站式的獲取學生心理數據,經過預處理、聚類算法分析和可視化展示,發現可能存在心理問題的學生,學校可以及時的采取措施,為學生的健康成長保駕護航。下一步工作要對系統進一步優化,提高系統的準確率。