李欣
摘要:在新時代高等教育變革的浪潮下,迫切需要教育工作者將大數據、用戶畫像、深度學習這些先進的技術引入到學生的培養中來。本文已高校學生第四課堂實踐數據為依托,充分利用大數據領域Pearson相似性、Apriori關聯規則、GBDT、推薦系統等算法及用戶畫像技術,挖掘大學生學習習慣、行為興趣偏好,充分發揮長板,從而形成符合學生發展的個性化培養方案。
關鍵詞:學生畫像;大數據算法;第四課堂
引言
在信息化數據化爆發的社會,人們越來越重視數據的價值,而互聯網的繁榮,又使得數據有了行為特性,我們可以廣泛的收集用戶的網絡行為、興趣偏好等,進而通過機器學習、深度學習算法標簽化處理數據,準確解析用戶需求及預測用戶變化趨勢,從而形成個性化的推薦服務。隨著高校信息化的日趨完善,在高校積累的知識數據越來越豐富,充分發揮學生長板,因材施教,進行形成千人千面的智能化教育顯得尤為重要,而新型智能化教育也被提升到了前所未有的高度。本文已高校智慧化校園信息集成數據為基礎,結合學生第四課堂活動數據,利用Pearson Correlation Coefficient、GBDT、Apriori等機器學習算法挖掘分析學生的學習習慣、興趣偏好、特色長板,形成豐富的個性化的學生畫像的標簽,利用基于內容的推薦、基于行為的推薦算法融合深度學習算法構建推薦系統模型,為學生推薦個性化的學習路徑及培養方案,精準服務使得高校教育從大眾教育走向優質教育,實現個性化培養。
2 基于大數據算法的學生畫像模型構建
2.1數據的采集及處理
模型整合了大學生多維度的第四課堂數據,包括經典閱讀、社會實踐、語言表達實踐、文藝活動、體育活動、創新創業、科研攻關等13個維度的第四課堂實踐數據,數據來源于線下的結構化數據表,并與信息化系統中智慧校園大數據相結合(包括學生自然屬性信息、教務系統各門類成績信息、圖書借閱信息、校園消費信息等),形成了線上于線下互補,離線于實時共存的多渠道數據源。
數據的處理采用規范化的分析流程,先進行數據的探索,根據探索結果進行數據的預處理。如學生第四課堂各項原始數據,我們可以進行數據質量分析,如經典閱讀實踐活動的缺失值分析、異常值分析、一致性分析等整體把握原始數據的質量狀況方便數據清洗時針對性選擇方法;數據特征分析,可對經典閱讀實踐活動進行分布分析、統計量分析、對比分析及累積貢獻度分析等,目的是深入掌握數據特性,結合實際進行數據變換如數據規范化、連續屬性離散化、屬性構造等。
在異常值分析方面模型根據特征維度的高低采用不同的算法,對于單維度特征采用6西格瑪原理、箱型圖原理、DBScan 聚類進行多渠道識別加權融合,高緯度特征采用孤立森林進行識別校準。對識別的異常值,模型整體采用拉格朗日差值法進行插值處理,較好的保證了數據原始的分布狀態。
2.2分析維度及整體框架
基于大數據算法的第四課堂學生畫像智能教育模型的整體架構,可分為數據的采集,數據的預處理、模型的建立、模型的自我學習和優化。在模型的建立環節,可以往單純的利用指標訓練不同,這里我們增加了大數據維度的標簽分析,包括第四課堂實踐活動的偏好度、學生的活躍度、第四課堂實踐活動相關性分析(Pearson Correlation Coefficient)、受學生歡迎的第四課堂實踐活動組合(Apriori關聯分析)、第四課堂實踐質量分析等,通過多維度的大數據分析進而構造高質量的模型訓練數據集結合信息化系統中的學生的學習習慣及風格劃分培養方案,利用GBDT算法進行智能預測,同時利用基于內容及行為的推薦算法進行推薦,如隱性因子算法根據學生的偏好、長板進行個性化推薦,對于最終的推薦方案結果,可通過評估樣本集進行自我學習調優,給出最佳融合權重。
2.3第四課堂實踐活動Pearson相關性分析
由于實踐數據是數值型結構化數據,這里我們可以采用皮爾森相關系數(Pearson Correlation Coefficient)法進行相關的計算,將各項活動間的正相關、負相關、不相關通過相關系數矩陣和熱力圖矩陣進行表示,從而挖掘的較強的實踐活動相關性規則。
為了更加準確的描述變量之間的線性相關程度,可以通過計算相關系數來進行相關分析,而皮爾森相似度就是其中最為有效的計算方法。一般用于對定距變量的數據進行計算,即分析兩個連續性變量之間的關系,Pearson皮爾森相似度的計算原理如下:
r(x,y)=cov(x,y)/σx*σy
其中cov(x,y)為協方差(Covariance)在概率論和統計學中用于衡量兩個變量的總體誤差,σx、σy為x與y的標準差,用于衡量兩個數值特征的離散程度。
Pearson皮爾森算法計算特征相似度是有前提條件的,它的約束條件為:1兩個變量間有線性關系;2均是連續變量;3變量均符合正態分布,且二元分布也符合正態分布兩個變量獨立。而且皮爾森相似度r的計算結果具有良好的可解釋性,當r=1,正相關:r>0;負相關:r<0;不相關:|r|=0;完全線性相關:|r|=1,進而我們可以通過兩兩見的相似性系數解讀實踐活動相關性規則,提供基于數據的科學可靠的分析結論。
2.4 受學生歡迎的第四課堂實踐活動組合Apriori關聯分析
受學生歡迎的實踐活動組合,利用apriori算法進行了關聯分析,探索活動間是否具有關聯性,即選擇了某項實踐活動的同學,更傾向于選擇哪些實踐活動,了解學生們的第四課堂實踐偏好,可以適當的進行活動推薦。
Apriori關聯分析核心就是在交易事務中挖掘頻繁項集及關聯規則,這里需要引入支持度和可信度(置信度)的概念。支持度:一個項集的支持度被定義為數據集中包含該項集的記錄所占的比例,支持度是針對項集來說的,因此可以定義一個最小支持度,只保留最小支持度的項集。可信度(置信度):針對如{尿布}->{啤酒}這樣的關聯規則來定義的。計算為支持度{尿布,啤酒}/支持度{尿布},假設其中{尿布,啤酒}的支持度為3/5,{尿布}的支持度為4/5,所以“尿布->啤酒”的可行度為3/4=0.75,這意味著尿布的記錄中,我們的規則有75%都適用。
借助Apriori關聯規則算法,我們可以根據數據集中的樣本的記錄數量,選擇合適支持度、置信度參數,進行算法訓練從而挖掘學生實踐活動的偏好組合。
2.5 GBDT算法智能預測
在前面的數據處理環節,我們通過多維度的大數據分析進而構造高質量的模型訓練數據集同時結合信息化系統中的學生的學習習慣及風格劃分了主流的幾類培養方案,接下來利用GBDT算法進行智能預測。GBDT算法基本原理是通過多輪迭代,每輪迭代產生一個弱分類器(利用cart回歸樹構建),每個分類器在上一輪分類器的殘差基礎上進行訓練。GBDT的思想可以用一個通俗的例子解釋,假如有個人30歲,我們首先用20歲去擬合,發現損失有10歲,這時我們用6歲去擬合剩下的損失,發現差距還有4歲,第三輪我們用3歲擬合剩下的差距,差距就只有一歲了。如果我們的迭代輪數還沒有完,可以繼續迭代下面,每一輪迭代,擬合的歲數誤差都會減小。主要優點:可以靈活處理各種類型的數據,包括連續值和離散值。在相對少的調參時間情況下,預測的準備率也可以比較高。這個是相對SVM來說的。使用一些健壯的損失函數,對異常值的魯棒性非常強。比如 Huber損失函數和Quantile損失函數。基于上述優點,我們針對學生的學習習慣及風格劃分了主流的幾類培養方案數據集進行智能預測,通過算法的參數調優及特征的優化,尋找最佳分類推薦模型。
3 結束語
本文將大數據學生畫像技術與學校多年開展的第四課數據相結合,深入挖掘學生長板,為高校人才培養和個性化教育提供理論支撐。通過基于大數據的算法分析學生第四課堂興趣偏好、活躍度、突出長板等并與學生的學習風格、生活習慣等畫像指標數據相結合,對學生進行多維度畫像,了解學生的長板,為個性化教育提供數據支撐,切實發揮大數據技術對改進人才培養目標、課程體系等培養環節的推動作用,為人才培養模式的構建提供重要數據基礎。
參考文獻
[1]郎波,樊一娜.基于深度神經網絡的個性化學習行為評價方法[J].2019.
[2]梁婷婷,李麗琴.基于深度學習的資源個性化推薦算法及模型設[J].智能計算機與應用.2018.