宋 丹 豐 霞 何 宏
?
基于學生多源數據的跨域關聯和數據分析*
宋 丹1豐 霞2何 宏1
(1.湖南工程學院 計算機與通信學院,湖南湘潭 411104; 2.湖南工程學院 教務處,湖南湘潭 411104)
高校學生的相關大數據的類型和數量日益增長,但這些多源數據來源于不同部門的各類系統,結構異化,缺乏有效的數據融通與數據共享。針對這一問題,文章采集了教學部門的課程成績、學生部門的學生基本信息和后勤部門的校園卡刷卡記錄,對這些多源數據進行預處理、結構化的操作后,對其進行跨域關聯和數據分析。文章通過小規模樣本群體的實證分析,得到學困生對群體的影響比學優生更大、經常在學校食堂晚餐的同學課程成績更佳、在同一群體中年齡小的成績表現更優等分析結果。
多源數據;跨域關聯;大數據;數據分析
大數據不僅具有數據量大的特征,還具有結構相異、類型不同、來源多樣的特征,經過交叉復用之后可以挖掘出更多的數據價值。從中小學到高校,隨著“數字校園”和“智慧校園”的建設與實施,學校已積累起海量的類型不同、結構相異的數據,如隸屬于教學管理部門的成績管理信息、學生管理部門的學生基本信息、財務部門的學生學費信息、后勤系統的食堂用餐記錄、圖書館的借閱記錄等。這些多源數據隸屬于不同部門,通常產生于多個領域的各類系統,有各自的專門用途,其數據又具有不同結構,因此,對這些數據進行數據融通與共享非常困難,對其進行跨域關聯與分析的研究及應用就更為少見。為了對高校學生的多源數據進行交叉復用以挖掘更多的數據價值,本研究在對學生的多領域數據進行采集、預處理的基礎上進行跨域關聯和數據分析,最終得到有價值的分析結果和決策建議。
互聯網、云計算和物聯網的迅猛發展推動了大數據的研究與應用。在教育領域,數據分析能夠有效優化學習過程、改善學習體驗并提升教育質量。2012年,黃榮懷[1]指出智慧校園是數字化的必然趨勢,教育數據分析是構建智慧教育的支撐技術;顧小清[2]運用數據分析技術,對學習過程進行了有效監測與評價。2013年,張羽[3]運用大數據分析技術,提升了MOOC教學模式的教育質量;魏順平[4]采用數據分析技術,成功挖掘了教育數據的價值。2015年,姜強[5]構建了基于大數據的在線學習分析模型,并在學習分析后為學生提供個性化服務干預。2016年,祝智庭[6]通過預學習階段的數據挖掘,輔助教師開展精準的教學決策。2017年,吳文峻[7]認為學習大數據分析技術可以獲取學生學習的隱性和顯性行為,用于評估學業進展,預測未來表現。
與國內相比,美國、英國等西方國家較早開展了教育數據分析和教育數據評估工作。1969年,英國開放大學存儲與分析了遠程學習者的成績;1997年,Tinto經過持續20年的數據采集與分析,發表了關于學習保持率的影響因素的學術成果;2001年,美國頒布《不讓任何一個孩子落后》教育法案,大力推進數據在教育評價中的運用;2007年,普渡大學構建的課程警示系統(Course Signals)能夠分析學生在學習過程中的個體表現,進而預測學生的學業狀態[8];2011年,Siemens[9]對學習分析進行了定義,即學習分析是指通過測量、收集和分析學習者及其所處環境的數據,用以理解和優化學習及學習環境的過程;2015,Roberts[10]認為在綜合數據庫的基礎上應用學習分析技術,將會提升教學和評價做出客觀決策的能力。
綜合國內外的研究現狀,大數據在教育領域中的研究與應用日益增強,許多學者在學習數據采集、數據分析、輔助決策等方面進行了有益的探索與研究。但是,數據分析在教育領域中仍面臨諸多挑戰:隨著高校大數據的類型和數量快速增長,由于數據來源多樣、數據結構相異等原因,數據共享與數據融通仍有困難;教育數據化程度顯著提高,但日常教育教學模式仍以傳統教學方式為主,科學的大數據分析與應用仍很缺乏,對學習數據之外的其它類型數據的融合分析就更少,尚未對多源數據進行有效的跨域關聯與分析。
本研究從學校教務管理系統的數據庫中提取計算機專業的兩個班(共69名學生)作為樣本群體,共提取所有課程的原始成績記錄共5249條記錄,進行數據采集。同時,本研究依據計算機專業本科階段的課程設置體系和人才培養目標,從幾十門課程中選取了8門核心專業課進行課程間的數據關聯分析。選取的這8門核心課程分別是:“C語言程序設計”(授課時間:2013),“數據結構”(授課時間:2014),“面向對象程序設計”(授課時間:2014),“操作系統”(授課時間:2015),“數據庫原理”(授課時間:2015),“算法設計與分析”(授課時間:2015),“軟件工程”(授課時間:2015),“網絡程序設計”(授課時間:2016)。
對上述8門核心課程的69名學生成績進行相關性分析,所得結果如表1所示。表1列出了二門核心課程之間的相關性,如“C語言程序設計”與“數據結構”的相關系數為0.2,相關性較低;“數據結構”與“面向對象程序設計”的相關系數為0.5,相關性較高,表明“數據結構”學得好的學生,“面向對象程序設計”也學得較好。將單門課程與其它課程的相關系數進行匯總后求均值,得到表中“平均值”列,對這些平均值進行排序后得到表中“排名”列。

表1 核心課程之間的相關性分析
從表1統計的“排名”列來看,在8門核心課程中,與其它課程相關性最高的前三門課程分別為“面向對象程序設計”、“算法設計與分析”、“數據結構”。結合這三門課程的開課時間,“面向對象程序設計”與“數據結構”均為2014年開課,時間較早,“算法設計與分析”為2015年開課。因此,“面向對象程序設計”與“數據結構”課程的成績表現對學生的整體專業課程成績影響最大。從本樣本群體的學業成績表現來看,學院、教師和輔導員應該對“面向對象程序設計”與“數據結構”課程予以重點關注,從各個環節加強其課程教學,力求以點帶面,以少數專業核心課程的教學為突破口,帶動整體專業課程教學,取得更好的教學效果。
課程間的數據分析與關聯的數據對象來源相同、結構相同,處理相對簡單。對多源數據進行跨域關聯與分析,主要包含三個方面:①學校教務管理系統的學生成績與學生管理部門的寢室信息;②學生成績與學生管理部門的基本信息(性別、年齡、地域);③學生成績與后勤管理部門的校園卡刷卡記錄。
本研究從學校教務管理系統的數據庫中提取兩個班共69名學生的原始成績記錄共5249條,以學生為分類依據,對其所有課程成績記錄進行分類匯總求平均值,從而得到每個學生的成績均值;隨后,按課程成績均值進行排序,得到個人成績排名;最后,由于這兩個班的69名學生歸屬于18個寢室,故對這些寢室進行個人成績綜合求均值后以寢室為基本單元進行排序,得到寢室排名。表2和表3分別列出了課程成績前十名和后十名學生所屬寢室及其寢室排名(注:為了保護學生的個人信息,本研究對學號進行了編碼處理)。

表2 課程成績前十名學生所屬寢室的成績排名

表3 課程成績末十名學生所屬寢室的成績排名
本研究對學生個人成績排名與所屬寢室成績排名進行相關性分析,計算出學優生的個人成績排名與寢室成績排名相關系數值為0.1533,呈現正的弱相關關系,表明學優生對同寢室學生的整體學習效果有正面影響,但影響較弱;同時計算出學困生的個人成績排名與寢室成績排名的相關系數值為0.7717,呈現負的強相關關系,表明學困生的成績差,導致同寢室學生的整體學習效果差,因此學困生對同寢室學生有很大影響。由這一相關性分析可知:①學校應該鼓勵學優生對周圍學生的“扶、幫、帶”,以構建更好的學習氛圍;②學校應該對群體中成績最差的那部分學困生給予更多的教育關注,進行針對性教育,以對群體的學習態勢產生更大影響。特別是當教師和輔導員的精力、時間均較為有限,乃至只能在學優生和學困生的這兩個子群體中選擇一個進行重點培育施教時,更應該將主要精力和時間聚焦在學困生這一子群體,以取得更好的教學效果。
(1)學生成績與學生性別
基于學生的課程均值,本研究通過對兩個班的學生樣本群體進性別分類,再匯總人數和學生成績均值,得到性別與成績的相關性,如圖1所示。

圖1 性別與成績的相關性

圖2 年齡與平均成績的相關性
圖1顯示,在計算機工科專業中,學生樣本群體中以男生居多,達56人,占比81.2%;在成績方面,男生均值為74.9分,女生均值為78.26分,女生成績略優于男生。此外,對學生樣本群體的補考與重修科目進行統計,結果如下:69名學生共進行了5249場考試,補考與重修的總次數為308次,占比5.87%,人均4.46次。其中,男生參加補考與重修的總次數為271次,男生總人數56人,補考與重修的人均科次為4.84次;女生參加補考與重修的總次數為37次,女生總人數13人,補考與重修的人均科次為2.85次,明顯低于男生。從補考與重修的頻次來看,男生有28人的補考與重修科目大于或等于5科次,占男生群體的50%,女生有3人補考與重修科目大于或等于5科次,占女生群體的23.1%。綜合平均成績、補考與重修的科次,從本樣本群體的表現來看,女生在課程學習成績方面明顯強于男生。
(2)學生成績與年齡
對學生按年齡分類匯總后分析其與平均成績的相關性,得到如圖2所示的折線圖。圖2顯示,隨著年齡的增長,學生的成績呈現明顯的下滑趨勢。20歲學生子群體的平均成績為77.1,24歲的平均成績為66.0分,如果去掉二端極值,從21歲的76.4分到24歲的74.5分,也呈現較為明顯的下滑趨勢。對學生的年齡和平均成績做相關性分析,其相關系數為-0.79,呈現負的強相關關系,說明學生年齡越大,平均成績越差。
(3)學生成績與地域
本研究通過對學生生源地的郵政編碼進行分析,對學生的來源地域進行了分類匯總操作。以郵政編碼的前2位(代表省份)為分類依據,本研究進行本省和外省的分類并求子群體的成績平均值,所得結果如圖3所示。以郵政編碼中的前3位為分類依據,本研究對長株潭地區和其它生源地進行對比分析,所得結果如圖4所示。
圖3顯示,來自本省的學生有58人,占總人數的84%,其平均成績(75.75)略高于外省的平均成績(74.39)。其原因可能是:湖南省歷年的高考錄取線較高,其生源質量略優于外省生源。圖4顯示,來自長株潭地區的學生有7人,占省內人數的13.7%,其平均成績(74.89)略低于省內其它生源區學生的平均成績(75.87)。

圖3 地域與成績的相關性

圖4 長株潭與其它生源地比較
湖南省統計局發布的“湖南省2015年全國1%人口抽樣調查主要數據公報”公布了各地級市的人口,其中,湖南省總人口為6775.38萬人,對長株潭三市進行匯總后的人口為1422.74萬人,占比約21%;而在本研究的學生樣本中本省人數為58人,長株潭地區人數為7人,占比約12.1%,明顯低于人口占比。再考慮到學校位于湘潭地區,這表明學校和本專業在長株潭地區的招生宣傳工作有待進一步加強,學校有必要在長株潭區域增強知名度和影響力。
由于數據存儲限制,數據提取的時間最早為2015年1月1日,以下數據來源的時間段為2015年1月1日~2017年6月30日。從學校后勤部門的校園卡刷卡記錄中提取對應學生樣本群體刷卡的24583條原始記錄,經數據轉存、預處理后,再依據學號進行分類匯總,并依據學生刷卡的時間進行分類次數統計,最后得到58人的有效數據,其他11人刷卡次數過少或在第6~8學期內沒有刷卡記錄。表4列出了校園卡刷卡總次數位居前十名的同學,學號同樣進行了編碼處理。

表4 校園卡刷卡情況表(總次數前十名)
從表4可以看出,刷卡前十名的同學,有4位的整體成績也排在前十名,有7位的整體成績排在58人的前50%。這表明刷卡次數較多的同學,其學業成績表現普遍較好,因此可假設刷卡次數與成績表現具有一定的正相關。為了驗證這一假設,本研究對58名學生的成績排名與早、中、晚餐三個時段、總周期內的刷卡次數排名的相關性進行了數據分析,結果如表5所示。

表6 學生成績排名與校園卡刷卡排名間的相關系數表
從表5看出,學生的刷卡總次數排名與學生成績排名的相關系數為0.381,呈現一定的正相關,可推測有規律的生活作習對學生的成績有促進作用。此外,學生成績排名與早餐到食堂用餐的關聯度最低(0.339),與晚餐到食堂用餐的關聯度最高(0.404),據此可推測,能在下午時段堅持校園內學習和生活的學生成績表現更好,原因在于其學習投入的時間和精力可能更多。
本研究在小樣本群體中進行了多源數據的跨域關聯和數據分析,從課程間的關系、成績與學生居住信息、成績與學生基本信息及成績與校園卡刷卡信息方面進行了多角度的數據關聯與分析,得到了一些針對該類型學生群體的有價值的分析結果和決策建議:①在專業課程體系中,重點加強大一和大二第一學期1~2門核心課程的教學工作,能有效促進整體專業課程的教學效果;②學困生對群體的影響(負面影響)要強于學優生對群體的影響(正面影響),因此,教師、輔導員和教育管理者應在教學、日常管理與輔導、教育管理等方面更重視學困生,從而有效營造更好的學習氛圍和更佳的教學效果;③女生的整體學業成績表現優于男生,補考和重修的科次也較少;④在學習群體(如一個班或一個專業的同年級班級)中,年齡與成績呈現負的強相關關系,年齡越大,成績越差,應加強高齡學生的教育;⑤學生的生源地與成績的相關性不高,來自不同地域的學生成績差異不大;⑥通過對學生生源地的占比分析,可以判斷哪些地域的生源數偏少,在后續的招生宣傳工作中應對這些地域有所加強;⑦根據校園卡的刷卡情況分析,應當鼓勵學生多刷卡,強化生活規律,盡量在學校用餐,尤其應當堅持下午時段的學習,多在學校食堂完成晚餐。
在未來的研究中,本研究擬對更廣泛的數據源進行跨域關聯與分析,并計劃對本研究所獲取的分析結果和決策建議在更大范圍的樣本群體中做進一步研究與驗證;同時,在后續研究中加強對結果和決策建議在實際教育教學中的運用和實踐,并對實踐中的反饋信息進行收集與存儲,進而對本研究所得的結果和決策建議進行完善,形成研究與實際應用之間的良性循環。可以預見的是,隨著高校大數據的數據類型和數據量日益增多,多源數據的跨界關聯和數據分析將吸引越來越多的學者進行研究和運用,從更廣闊的視角下推動學習分析技術的實踐與發展。
[1]黃榮懷,張進寶,胡永斌,等.智慧校園:數字校園發展的必然趨勢[J].開放教育研究,2012,(4):12-17.
[2]顧小清,張進良,蔡慧英.學習分析:正在浮現中的數據技術[J].遠程教育雜志,2012,(1):18-25.
[3]張羽,李越.基于MOOCs大數據的學習分析和教育測量介紹[J].清華大學教育研究,2013,(4):22-26.
[4]魏順平.學習分析技術:挖掘大數據時代下教育數據的價值[J].現代教育技術,2013,(2):5-11.
[5]姜強,趙蔚,王朋嬌,等.基于大數據的個性化自適應在線學習分析模型及實現[J].中國電化教育,2015,(1):85-92.
[6]雷云鶴,祝智庭.基于預學習數據分析的精準教學決策[J].中國電化教育,2016,(6):27-35.
[7]吳文峻.面向智慧教育的學習大數據分析技術[J].電化教育研究,2017,(6):88-94.
[8]PistilliM D, ArnoldK, BethuneM. Signals: Using academic analytics to promote student success[OL].
[9]Siemens G, Long P. Penetrating the fog: Analytics in learning and education[J]. Educause Review, 2011,(5):30-32.
[10]Roberts-Mahoney H M. The role of big data and personalized learning in the privatization of public education[D]. New York: Dyouville College, 2014:14-16.
編輯:小西
Cross-domain Correlation and Data Analysis Based on the Multi-Source Data of Students
SONG Dan1FENG Xia2HE Hong1
There is an increasing number of big data related to college students in terms of types and quantitie. However, most of the multi-source data derives from various systems of different departments which has wide inter-structural differences and lacks effective data intermediation and data sharing. To solve the problem, this paper collects multi-sourced student data, including the course score from the Teaching Department, basic information from the student department and the student ID card records from the logistics department. After a first-step data processing and data structuring, the article carried out a cross-domain correlation and further data analysis. Through the empirical analysis of small sample groups, results suggested that students with learning difficulties have more influence on the group than the students with better grades; students with regular school canteen dinner performs better academicly; and young-aged students generally achieve better grades within the same group.
multi-source data; cross-domain correlation; big data; data analysis
G40-057
A
1009—8097(2018)04—0027—07
10.3969/j.issn.1009-8097.2018.04.004
本文為湖南省教育科學“十三五”規劃2016年度課題“高校學生的大數據分析、預測與個性化教育研究”(項目編號:XJK016BXX003)的階段性研究成果,并受湖南工程學院2016年校級課題“大數據背景下學校管理決策機制研究”(項目編號:XJ1622)資助。
宋丹,副教授,博士,研究方向為教育大數據、智能優化建模與分析,郵箱為s1020d@126.com。
2017年7月9日