馮廣 何雅萱 賀敏慧



摘 ?要: 隨著我國教育事業的蓬勃發展,各高校都在經歷著從數字校園到智慧校園的信息化形態升級,開始將大數據技術運用到教學管理、資源優化等工作上,旨在提高教師和行政人員的工作效率,同時也更加全面、具體地開展學生的培養工作,更好地服務于學生。因此,基于校園大數據的學生畫像系統應運而生,為精準教學管理、提高教育質量開創了新的方法。本文提出了基于校園大數據的學生畫像系統,介紹了該系統的數據來源與實現技術,驗證了該系統的實用場景。
關鍵詞: 學生畫像;畫像系統;校園大數據;大數據技術;數據分析
中圖分類號: TP393 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2020.08.012
本文著錄格式:馮廣,何雅萱,賀敏慧. 基于校園大數據的學生畫像系統應用研究[J]. 軟件,2020,41(08):40-42
【Abstract】: With the vigorous development of education cause in our country, various universities are experiencing wisdom from digital campus to campus information form of upgrade, began to big data technologies into teaching management, resource optimization, etc, to improve the working efficiency of the teachers and administrators, but also a more comprehensive, specifically the cultivation of students work, better service to students. Therefore, the student portrait system based on campus big data emerges as The Times require, creating a new method for accurate teaching management and improving education quality. This paper proposes a student portrait system based on campus big data, introduces the data source and implementation technology of the system, and verifies the practical scenario of the system.
【Key words】: Student portraits; Portrait system; Campus big data; Big data technology; Data analysis
0 ?引言
在校園學生管理和大數據的時代背景下,校園大數據開始流行,各高校都開始運用人工智能和大數據等新興技術來提高教學質量、優化資源管理和教學管理等,將大數據技術應用在校園的信息化建設已經成為一種趨勢[1]。眾所周知,隨著網絡的不斷發展,學生的日常學習和生活會產生數量繁多且趨于復雜的數據,如何有序高效地管理這些數據,并從中得到有用的數據進行分析成為當下最需要解決的問題。
學生畫像系統建立在海量學生的學習生活數據的基礎上,以學生為主體,通過對學生個人特征以及其學習習慣和生活行為進行數據挖掘,從學生的特征出發, 賦予學生畫像標簽,分析不同學生的行為習慣之間的差異,為學校智能化管理提供理論依據[2]。因此,本文提出基于校園大數據的學生畫像系統,以學生學習生活特征為主體,從畫像的角度挖掘學生差異,并分析學生學習生活習慣是否正常。
1 ?主要數據來源及技術框架
1.1 ?主要數據來源
以某高校學生學習生活行為作為主要研究對象,搭建大數據平臺,對學生畫像進行分析,得到每個學生畫像對應的個性標簽。由于學生的各項原始數據量龐大且相對比較分散,需要經過篩選才能應用到實際中,本文對原始數據進行剔除或者補充操作等相關數據預處理(包括數據的修復和剔除以及數據的歸一化處理等)后,形成相關數據集。表1為學生的學習生活數據來源,數據大致分為五部分:一卡通系統數據、學習數據、圖書館數據、門禁系統數據、校園Wi-Fi系統數據。大數據平臺可根據這幾部分的數據對每個學生進行行為畫像,從多個方面來分析每個學生的日常生活軌跡,實時獲取各學生的學習生活動態,為學生提供更加個性化的服務,使校園生活變得更加豐富多彩。
1.2 ?技術架構
任何系統都不是孤立的,它和周圍環境在相互作用下可以按特定關系組成較高一級的系統。為保證本系統的有序性與層次性,本文將系統層次結構劃分為4層:(服務)應用層、平臺層、采集層、數據源。系統層次之間,各依自己的職能,實現系統的目標計劃,保證系統有序高效的進行運轉。如圖1所示。
(1)數據源:數據源大致包括一卡通系統數據、學習數據、圖書館數據、門禁系統數據、校園Wi-Fi系統數據、門禁系統數據。
(2)采集層:本文采用ETL工具實現對各數據源的采集,配合基于Flume的實時流數據采集,采用Kafaka實現實時流調度處理,為實現大數據實時計算與分析作準備。同時,對采集的數據源進行數據清洗與處理,解決數據缺失、數據重復、數據錯誤等問題,最后將數據提取并傳送到大數據CDH平臺。
(3)平臺層:本文采用CDH平臺對大數據的存儲、備份、查詢以及運算提供服務,承擔數據管理的核心功能。在CDH平臺上安裝Hadoop組件,快速搭建能夠穩定運行的數據計算框架。本文CDH平臺中,采用HDFS分布式文件系統,利用Hive分布式存儲技術,實現對大數據倉庫平臺中的數據分類存儲。最后根據某高校的需求,對大數據倉庫平臺中的數據進行分析與挖掘處理,通過sqoop導出至MySQL數據庫。
(4)(服務)應用層:提供統一的應用操作界面和信息展示窗口,是系統直接面向操作用戶的部分,將所有收集分析的數據結果以客觀的形式呈現在界面上,供學校師生查看,老師能實時關注學生的近期狀態,及時發現問題,對同學采取一對一幫助,而同學也能過通過此界面進一步了解自己的生活學習狀態,及時調整,讓自己的生活變得更加的積極向上。
1.3 ?學生個性標簽
學生群體基數很大,需要運用大數據技術收集和掌握學生信息,對學生數據進行處理,從而根據收集到的學生信息行為構建全方位的學生畫像。標簽提取來源于各個數據源系統,數據通過ETL 抽取后,經過數據清洗、提取,制定學生標簽維度,并將標簽應用于大數據平臺中。學生的標簽維度如圖2所示。基于一卡通系統數據、學習數據、圖書館數據等數據源,構建立體式學生畫像,形成集數據匯聚、標簽管理、標簽庫、服務策略、場景輸出于一體的學生標簽管理體系,在學生行為存在異常時及時預警,從而保證學生的安全。
學生標簽體系分為數據采集層、標簽庫層與應用層。通過數據的歸一化處理,并結合學生標簽維度及標簽體系的生命周期給學生標注標簽,形成學生畫像。學生標簽體系如圖3所示。數據采集層包括一卡通系統數據、學習數據、圖書館數據、門禁系統數據、校園Wi-Fi系統數據、門禁系統數據。數據預處理后放入CDH平臺。標簽庫層包括學生的基本屬性以及其他行為兩大塊。基本屬性為學生的詳細個人信息,即姓名、學號、宿舍號等。其他行為為學生的日常活動軌跡,即三餐消費、進出圖書館情況、上網時長等。兩大塊相輔相成,當某學生行為出現異常時,管理人員可根據基本屬性板塊快速了解異常學生的個人信息,做出應對措施。應用層包含綜合畫像分析、標簽查詢、標簽反饋等功能。可對標簽進行成果查詢展示,可以展示個體、群體、分類群體的畫像,也可以查詢展示具備某一共同特征的自定義群體畫像。
2 ?學生畫像系統在某高校的應用場景
某高校的學生畫像系統主要是依據大數據平臺搭建前端服務應用,通過后端業務和平臺整合,充分考慮系統建設的前瞻性和可擴展性,構建智能服務外部應用一體化服務平臺。基于校園大數據,根據學生多維度畫像,多方位描述學生的行為特征,為服務決策提供數據支撐,為學生更好地提供差異化服務。
校園大數據是教育大數據的一個子集,是師生生活、教學、科研、管理和服務過程中產生的各類數據,以及各類校務管理的狀態數據,具有數據種類繁多的特點,其中蘊含極大信息價值,充分發揮其作用是實現學校戰略目標不可或缺的一部分。某高校通過采集一卡通系統數據、學習數據、圖書館數據、門禁系統數據、校園Wi-Fi系統數據、門禁系統數據,對學生個人以及群體畫像,對全校整體狀態進行分析,如圖4所示。
根據收集到的數據,某高校根據學生的消費情況、圖書館圖書借閱情況、學業成績情況等完善學校管理,在不改變現有校園信息系統建設模式,最大限度利用現有信息系統等基礎設施的前提下,為校園的教育、教學創新提供數據分析支持。與此同時,本系統還能通過數據分析得出危險預警,讓老師即使發現學生的不良情況,如心理危機、學業困難、身體疾病等。如圖5所示。
3 ?結束語
總而言之,大數據帶來的巨大價值正在逐漸地被人們認可,基于校園大數據的學生畫像系統的應用對學校與學生都起到了積極作用,學校通過此系統能更好更快速地進行學生工作的組織與管理,學生也能通過此系統更全面的了解自己。大數據與校園管理的結合日漸成熟與普及,通過大數據技術的不斷創新與發展,以及對數據的全面感知、收集、分析與共享,我相信基于校園大數據的學生畫像系統一定會會成為學生管理的全新方法,是學生工作與管理得到最優化,讓人們充分利用數據資源,挖掘數據價值,為校園管理智能化的發展提供有力支撐。
參考文獻
[1] Big data: The next frontier for innovation, competition, and productivity[R]. USA: McKinsey and Company, 2011.
[2] HU Q Q, Analysis of behavior characteristics based on students personal data [D]. Central China Normal University, 2019.
[3] DATA CENTER FILE SYSTEM DEBUTS ON GOOGLE CLOUD[J]. Worldwide Videotex Update, 2019, 38(1).
[4] GE L H, GUO H, etc. Research overview of big data industry [J]. Journal of North China University of Water Resources and Electric Power (Social Science Edition), 2019, 35(03): 1-8.
[5] The Analysis and Application of the C4. 5 Algorithm in Decision Tree Technology[J]. Zhao Hong Yan. Advanced Materials Research. 2012 (457).
[6] Predicting distresses using deep learning of text segments in annual reports[J]. Rastin Matin, Casper Hansen, Christian Hansen, Pia M?lgaard. Expert Systems With Applications. 2019.
[7] A profile of physical activity, sedentary behaviors, sleep, and dietary habits of Saudi college female students[J]. Hana Alzamil, Manan Alhakbany, Nora Alfadda, Sarah Almu-sallam, Hazzaa Al-Hazzaa. Journal of Family and Community Medicine. 2019 (1)
[8] Adolescent digital profiles: A process-based typology of highly engaged internet users[J]. Eleni C. Tzavela, Chry-ssoula Karakitsou, Eva Halapi, Artemis K. Tsitsika. Com-puters in Human Behavior. 2017.
[9] HUBERMAN B A. Sociology of science: big data deserve a bigger audience[J]. Nature, 2012, 482(7385): 308.
[10] GOLDSTON D. Data wrangling[J]. Nature, 2008, 455. (7209): 15.
[11] SONG I Y, ZHU Y. Big data and data science: opportunities and challenges of iSchools[J]. Journal of Data and Infor-mation Science, 2017, 2(3): 1-18.
[12] ZAKI A M, THEODOULIDIS B, SHAPIRA P, et al. The Role of Big Data to Facilitate Redistributed Manufacturing Using a Co-creation Lens: Patterns from Consumer Goods[J]. The soth CIRP Conference on Manufacturing Systems, 2017, 63: 680-685.
[13] ISMAIL M, IBRAHIM M M, SANUSI Z M, et al. Data mining in electronic commerce: benefits and challenges[J]. International Journal of Communications Networkand Sys-tem Sciences, 2015, 8(12): 501-509. http://dx.doi.org/10. 4236/ijcns. 2015. 812045.
[14] IBM. The 5 Vs of big data[EB/OL]. (2016-09-17) [2018-12- 21]. https://www.ibm.com/blogs/Watson-health/the-5-vs-of- big-data/.
[15] Yesheng Cui, Sami Kara, Ka C. Chan. Manufacturing big data ecosystem: A systematic literature review[J]. Robotics and Computer-Integrated Manufacturing, 2020, 62.