廖志平
(湖南環境生物職業技術學院,湖南 衡陽 421005)
大數據技術是科學家研究的熱點[1]。云計算是在計算機中使用編程模型(Mapreduce)來工作的,包括根據相關計算進行數理分析,將數據來源歸入各族群、利用各種數據來源測量數據的相似度和繪制數據,大規模數據分析與云計算有關。
目前,教育數據冗雜,信息量大,大數據技術在教育實踐中十分重要。教育數據可為教師、學生、教育管理者、父母和教育研究人員提供以下服務。1)提供直接數據服務,例如基本信息、考試成績和課堂情況等,通過分析數據,可以掌握學生的特征與學習需求,從而對不同學生進行個性化教學,通過統計數據發現學生在學習中存在的問題,從而改進教育方法,提升教師的教學水平,達到更好的教學效果。2)提供間接數據服務,包括成績排名、及格率和優良率等。在教學活動的全過程中,教育大數據是提高教育質量和教育管理能力的關鍵。
由于大數據技術的應用越來越廣泛,其含義也越來越豐富,因此無法精確地界定大數據[2]。大數據并不必然包括大量的數據,但是它們之間存在關聯。當前大數據的4V概念已經得到了普遍認可,4V主要包括以下4個方面的內容。1)數據真實性(Veracity),品質。2)數據容量(Volume),根據資料數量和可能的資訊而定。3)數據種類(Variety),數據不同類型。4)傳輸速度(Velocity),獲得數據的速度。
教育數據來源各異,因此,對其進行深入研究與發掘不僅需要專業的資料分析人員,更需要教師主動介入[3],本研究目的是挖掘資料數據。雙方經過溝通,明確挖掘對象,提供有針對性的挖掘服務。研究主要包括抽樣選取、評估指標、整理有關因子、篩選樣本資料、檢驗并整理符合條件的發掘需求、嘗試發掘(運用回歸、分類、聚類和關聯等)和發掘其他內在屬性的性質[4]。將研究結果以可視化的方式呈現,并說明其意義,方便未來評估與介入,教育傳播大數據可視化流程如圖1所示。分析和挖掘數據是一個不斷重復的過程,以便從中挖掘新的需求。

圖1 教育傳播大數據可視化流程圖
1.2.1 FCM聚類算法
FCM聚類算法(Fuzzy-c-Means algorithm,FCM)[5]的基本原理是模糊理論,這種理論從客觀事實出發,處理模糊不確定的實物,又稱為模糊C均值算法。
FCM將n個用戶數據作為n個向量Xi,其中涉及隸屬關系,為一種表示模糊集合的方式。FCM模糊隸屬程度的取值范圍為[0,1],在數學上可以將模糊隸屬程度進行分類,構建相應矩陣,表示其聚類情況。采用FCM 聚類算法構建模糊矩陣U,在矩陣中每個要素都是各矢量的模糊隸屬度,值的范圍在[0,1],歸類后的每個元素的模糊隸屬度之和均為1。
FCM聚類算法如公式(1)所示。
FCM聚類算法的目標函數如公式(2)、公式(3)所示。
式中:uij的取值范圍為[0,1];ci為模糊類I的聚類中心;dij為第I個聚類中心到第j個向量之間的歐式距離;m為加權指數,其取值范圍為[1,∞]。
為使目標函數取得最小值,進行以下改進,如公式(4)所示。
式中:λj為n個約束式的拉格朗日因子。
目標函數取得最小值需要前提,表明其必要條件,如公式(5)所示。
FCM聚類算法包括以下4個步驟(如圖2所示)。1)求解各矢量的模糊隸屬關系,構造1個[0,1]的初始模糊矩陣U,保證各類別矢量的隸屬性和等于1。2)確定聚類的簇集中心。3)對該設計進行優化,確定優化后的算法。4)求得1個新的矩陣U。判斷目標函數是否小于固定闕值,如果未達到,那么返回步驟二,反復循環,直至達到要求。

圖2 FCM聚類算法的流程圖
1.2.2 特征選擇算法
特征選擇(Feature Selection)是用相關特征來描述一個應用領域的方法[6]。在數學形式上,特征選擇可定義為從N個原始特征中選擇一個包括M(M≤N)個相關特征的最小子集,使包括M個特征的子集中不同類別的概率分布值接近N個原始特征。如果FN為原始特征集,FM為選出的特征子集,則可能的類別C,條件概率P(C|FM=fM)應當與P(C|FN=fN)接近,其中fM和fN為相應的特征矢量FM和FN的值矢量。在樣本數量較多的情況下,采用高效的特征選擇方法可以降低樣本的維數,為后續的數據分析提供方便。
1.2.3 mRMR算法
最大相關最小冗余算法(Maximum Relevance Minimum Redundancy,mRMR)根據互信息極大化原則,在選取屬性后,盡量保存大部分分類信息,同時降低各屬性間的相關性。從原始特征集合{t1,t2,t3,...,tn}中選擇一個特征子集{t'1,t'2,t'3,...,t'n}構成新的特征空間,并提出新的特征子集,在該子集上,各屬性和各屬性間的相關系數均盡量變小。特征的相關性用互信息I衡量,如公式(6)所示。
式中:I(x,y)為特征相關性;xi、yj為隨機變量;p(xi,yi)為概率密度函數;p(xi)為xi的概率密度函數;p(yj)為yj的概率密度函數。
首先,利用互信息計算I(x,y),I(x,y)越大,它們之間的關聯度就越大。先找出包括m{xi}個特征的特征子集S,使m個特征和類別C的相關性最大,即與c關系最密切的m個特征。其中,D為特征與目標的互信息值,|S|為特征集合中特征的個數,S為m個平均互信息最大的集合。maxD,D為特征與目標的互信息最大化,如公式(7)所示。
其次,消除m個特征之間的冗余,其中,R為特征之間的互信息值,minR,R為特征之間的互信息最小化,如公式(8)所示。
求得最大相關度—最小冗余度maxΔMID,ΔMID,如公式(9)所示。
通過上述運算,可以得到ΔMID值的特性,根據這些數值來分類這些特性,達到篩選目的。
教育大數據可視化系統的目標是在時間短、成本低的前提下,分析并展示在線平臺的數據,側重點為數據的可視化,但是這種可視化平臺已經有豐富的商業產品和眾多圖表展示,系統可以自定義定制要實現的功能點和數據分析維度,系統使用大數據組件開源技術,搭建單節點Hadoop集群,使用MapReduce分析數據,由于市面上大屏可視化系統需要收費,因此用ECharts技術展示數據圖表,降低經濟成本。
登錄注冊功能。用戶進入登錄頁,沒有注冊的用戶可以進行注冊,已有賬號的用戶登錄后系統顯示已登錄用戶名,點擊注銷用戶可以退出登錄。
數據預處理功能。將數據通過開源工具導入分布式基礎架構(Hadoop)中的分布式文件系統(HDFS),使用MapReduce處理數據,并將處理好的數據保存至開源數據庫(HBase)中。
每日登錄人數分析。讀取HBase中的登錄數據,頁面可以顯示每月登錄人數和不同月份的登錄人數對比。
平均學習時長和學習行為次數分析。讀取HBase中的相關數據,頁面顯示不同日期對應的學習時長和學習次數。
每日活躍情況分析。可用柱狀圖顯示每日活躍學生人數,設定每日至少進行3次學習行為的用戶為活躍用戶。
分時段學習人數分析。可用熱力圖顯示學生在什么時間段愛學習。
數據處理部分是開發MapReduce,用戶只需利用Mapper類和Reducer類封裝Map和Reduce函數,由客戶端調用,即可實現分布式計算。
當在瀏覽器中輸入系統地址時,系統會驗證是否有用戶已登錄,如果沒有則跳轉登錄頁面,有則直接跳轉首頁。登錄頁面的動畫效果是手寫的echarts圖標效果,有驗證用戶名和密碼的步驟并提示信息。
大屏可視化界面使用阿里云DataV數據可視化平臺,點擊每日、每周和每月按鈕,對應的折線圖和柱狀圖會聯動顯示數據。地圖顯示學生的地區分布人數。氣泡圖顯示不同時間段的學習人數。使用DataV數據可視化平臺,數據展示效果更好。系統能夠幫助非專業的工程師搭建專業水準的可視化界面,滿足多種業務的展示需求。
綜上所述,教育大數據可視化系統是對在在線教育平臺中的學生上課、做作業和提問等多方面、多層次的數據進行數據分析和數據展示。教育大數據能夠清晰地反映學生的學習能力、優勢學科以及特長,教師能夠有針對性地制定教學計劃,為學生提供個性化的指導,幫助學生對自己的學習狀況有一個全面的認識,并適當安排學習重點。通過分析大數據,教師能夠得知每位學生的潛能與需要,針對不同的學生選擇不同的教學內容,采用不同的教學方法,提供不同的教學服務;父母能夠了解自己的子女在學校的學習和心理健康情況;教育管理者能夠了解學生的優缺點,發現學生的問題,及時提供關懷與指導,還可以預測他們的職業發展情況,進行有目的的訓練;研究人員能夠了解目前的現狀和問題,利用大數據推動教育決策由粗放型向精細化、智能化的方向發展。