唐婷,聶麗霞
(隴東學(xué)院 數(shù)學(xué)與信息工程學(xué)院,甘肅 慶陽(yáng) 745000)
隨著高?!叭恕本C合改革的推進(jìn),學(xué)生管理工作呈現(xiàn)出新的特點(diǎn),承擔(dān)學(xué)生管理工作的部門和個(gè)人逐漸增多,工作內(nèi)容逐層細(xì)化,時(shí)空管理面擴(kuò)大,工作途徑多元化。精準(zhǔn)、全面、實(shí)時(shí)掌握學(xué)生信息是做好學(xué)生管理工作的前提,而大數(shù)據(jù)技術(shù)是掌握學(xué)生信息的一把利劍。目前,已有學(xué)生大數(shù)據(jù)采集、學(xué)生定位、學(xué)生畫像等方面的相關(guān)研究。設(shè)計(jì)數(shù)據(jù)源層、數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)處理層、應(yīng)用層共四層開發(fā)基于大數(shù)據(jù)處理技術(shù)的學(xué)生管理系統(tǒng),實(shí)現(xiàn)學(xué)生管理信息共享,完成學(xué)生學(xué)業(yè)、行為、心理健康等方面的監(jiān)測(cè),提高學(xué)生管理效率,提升學(xué)生管理工作水平。
大數(shù)據(jù)是指在預(yù)期時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)處理工具無法完成數(shù)據(jù)獲取和處理的數(shù)據(jù)集。與傳統(tǒng)數(shù)據(jù)集相比,數(shù)據(jù)生產(chǎn)速度快、數(shù)據(jù)體量大、數(shù)據(jù)結(jié)構(gòu)復(fù)雜、數(shù)據(jù)價(jià)值密度低是大數(shù)據(jù)的基本特征。但較傳統(tǒng)數(shù)據(jù)集而言,大數(shù)據(jù)的根本優(yōu)勢(shì)并不是龐大的數(shù)據(jù)集,而是通過反復(fù)加工之后獲得的有效信息,從而提升數(shù)據(jù)的使用價(jià)值和經(jīng)濟(jì)價(jià)值。
大數(shù)據(jù)處理過程包括數(shù)據(jù)采集、存儲(chǔ)、管理、分析和可視化。單臺(tái)計(jì)算機(jī)難以滿足大數(shù)據(jù)處理海量、高速、并行的要求,常用分布式數(shù)據(jù)處理技術(shù)來解決這一難題。Hadoop生態(tài)系統(tǒng)是目前基于大數(shù)據(jù)技術(shù)進(jìn)行系統(tǒng)開發(fā)的主要工具,包含了MapReduce、HDFS、HBase、Hive、Sqoop等子項(xiàng)目,可滿足大數(shù)據(jù)處理需求[1]。
物聯(lián)網(wǎng)是指通過無線射頻技術(shù)、傳感器技術(shù)、嵌入式技術(shù)、網(wǎng)絡(luò)技術(shù)等實(shí)現(xiàn)設(shè)備或人員互聯(lián)互通,是“物物相連”的網(wǎng)絡(luò)。物聯(lián)網(wǎng)中的每一個(gè)設(shè)備或人員擁有唯一的射頻識(shí)別碼,該碼具有識(shí)別、定位、跟蹤、通信等功能,是大數(shù)據(jù)采集的重要手段,也是大數(shù)據(jù)處理技術(shù)發(fā)展的基礎(chǔ)。目前,高校已普遍使用了校園卡以方便學(xué)生考勤、圖書借閱、校內(nèi)消費(fèi)等,校園卡便是應(yīng)用了物聯(lián)網(wǎng)技術(shù),卡中預(yù)置了電子標(biāo)簽,提前寫入學(xué)生姓名、學(xué)號(hào)、所屬班級(jí)等基本信息,是學(xué)生在校園卡管理系統(tǒng)中的身份標(biāo)識(shí)。射頻識(shí)別手機(jī)卡將校園卡與手機(jī)卡相結(jié)合,兩卡合一,方便攜帶,學(xué)生在手機(jī)端綁定校園卡賬號(hào),即可充值、消費(fèi)、查詢信息,提高了校園卡的安全性能和利用率,加速了智能化數(shù)字校園的形成[2-3],是基于大數(shù)據(jù)的學(xué)生管理系統(tǒng)的主要數(shù)據(jù)收集來源。
學(xué)生管理工作是一盤統(tǒng)籌兼顧的棋,教務(wù)管理、財(cái)務(wù)管理、就業(yè)管理、后勤管理、安全管理、心理健康管理等需要各部門分工合作、密切配合,正確、實(shí)時(shí)、全面的學(xué)生數(shù)據(jù)是進(jìn)行學(xué)生管理的重要資源。然而,現(xiàn)實(shí)中受上級(jí)部門管理、學(xué)校發(fā)展規(guī)劃、財(cái)政支持等原因,學(xué)校內(nèi)各部門信息化管理建設(shè)程度不同,或未實(shí)現(xiàn)信息化管理,仍處于紙質(zhì)化辦公階段,或使用不同的信息管理系統(tǒng),數(shù)據(jù)難以共享,并且現(xiàn)有信息管理系統(tǒng)只提供基礎(chǔ)的增刪改查功能,沒有對(duì)數(shù)據(jù)進(jìn)行分析,造成現(xiàn)有數(shù)據(jù)浪費(fèi)。學(xué)校沒有完善、統(tǒng)一的學(xué)生信息管理系統(tǒng)造成學(xué)生和老師數(shù)據(jù)重復(fù)報(bào)送、事務(wù)辦理流程復(fù)雜、各部門之間數(shù)據(jù)認(rèn)可度不高的局面,增大了數(shù)據(jù)規(guī)模,加劇了數(shù)據(jù)生產(chǎn)速度,各部門數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)標(biāo)準(zhǔn)、存儲(chǔ)方式、安全級(jí)別不一致使得數(shù)據(jù)利用率低下,難以適應(yīng)學(xué)生管理工作實(shí)時(shí)性、科學(xué)性的需求。
高校大力發(fā)展智慧校園,已普遍實(shí)現(xiàn)校園網(wǎng)絡(luò)全覆蓋,高速的校園網(wǎng)絡(luò)通信設(shè)備及現(xiàn)有的各類信息管理系統(tǒng),為實(shí)現(xiàn)基于大數(shù)據(jù)進(jìn)行學(xué)生管理工作提供了基本的軟、硬件條件。學(xué)校通過開設(shè)信息技術(shù)類課程對(duì)大學(xué)生進(jìn)行信息素養(yǎng)教育,通過“互聯(lián)網(wǎng)+”、信息技能大賽等途徑提高大學(xué)生信息實(shí)踐能力,較社會(huì)其他群體而言,大學(xué)生信息素養(yǎng)水平較高,接受新鮮事物的能力強(qiáng),學(xué)生管理工作者在管理中積累了豐富的工作經(jīng)驗(yàn),但常常受現(xiàn)有條件的制約,為學(xué)生提供便利和做好服務(wù)依然困難重重,所以建立全校統(tǒng)一的數(shù)據(jù)庫(kù),打破部門之間的數(shù)據(jù)壁壘,通過大數(shù)據(jù)技術(shù)及時(shí)掌握學(xué)生思想、學(xué)習(xí)、生活等方面的現(xiàn)狀,實(shí)現(xiàn)校園安全、學(xué)生心理健康、衛(wèi)生健康動(dòng)態(tài)管理,是高校學(xué)生管理工作者的迫切愿望。
基于大數(shù)據(jù)技術(shù)的高校學(xué)生信息管理系統(tǒng)為建立全校統(tǒng)一的學(xué)生信息管理數(shù)據(jù)庫(kù)提供良好的軟、硬件接入能力,識(shí)別和對(duì)接多類終端產(chǎn)品,滿足用戶訪問系統(tǒng)的設(shè)備個(gè)性化需求;通過大數(shù)據(jù)技術(shù)對(duì)學(xué)生數(shù)據(jù)進(jìn)行采集、存儲(chǔ)、清洗和挖掘,為全校學(xué)生建立信息化檔案;通過數(shù)據(jù)分析技術(shù)和可視化技術(shù)對(duì)校園安全狀態(tài)、校園流行病趨勢(shì)、學(xué)生就業(yè)分布、學(xué)生心理健康現(xiàn)狀等提供圖形化顯示。用戶通過授權(quán)賬號(hào)登錄系統(tǒng),不同身份擁有不同操作權(quán)限,可在相關(guān)頁(yè)面上傳、下載、查詢、修改信息,便于學(xué)生管理工作者全面掌握學(xué)生動(dòng)態(tài)信息,同時(shí)也為學(xué)生獲取校內(nèi)信息創(chuàng)造便利條件,提高學(xué)生管理精細(xì)化、及時(shí)性、針對(duì)性水平。
基于大數(shù)據(jù)的高校學(xué)生管理系統(tǒng)分為學(xué)生基本信息管理、教務(wù)信息管理、學(xué)工信息管理及后勤信息管理4大功能模塊,數(shù)據(jù)真實(shí)性、實(shí)時(shí)性、有效性分別由學(xué)生所在學(xué)院、教務(wù)處、學(xué)生處、后勤處負(fù)責(zé)。學(xué)生、部門(院系)管理員、學(xué)校管理員是該系統(tǒng)的三類用戶,學(xué)生學(xué)籍信息由教務(wù)信息管理部門導(dǎo)入系統(tǒng),學(xué)生首次登錄系統(tǒng)后,完成密碼修改并完善個(gè)人信息,便可訪問系統(tǒng)的其他功能模塊。部門(院系)管理員賬號(hào)由學(xué)校管理員分配,登錄后對(duì)本部門(院系)負(fù)責(zé)的信息進(jìn)行上傳、下載、修改、刪除、發(fā)布、鎖定、加密等,對(duì)其他部門(院系)的信息可查看、下載。學(xué)校管理員登錄系統(tǒng)后可查看系統(tǒng)的所有數(shù)據(jù),根據(jù)業(yè)務(wù)需要開放、添加、刪除、鎖定部門(院系)的功能模塊。系統(tǒng)功能模塊圖如圖1所示。

圖1 系統(tǒng)功能模塊圖
1) 學(xué)生基本信息管理。學(xué)生學(xué)籍信息由教務(wù)管理部門從后臺(tái)導(dǎo)入,包含學(xué)生姓名、學(xué)號(hào)、性別、出生年月日、身份證號(hào)碼、所在學(xué)院、所學(xué)專業(yè)、所在班級(jí)、入校時(shí)間等。學(xué)生登錄系統(tǒng)后可查看以上信息,并完善個(gè)人聯(lián)系方式、宿舍、家庭住址、興趣愛好、家庭經(jīng)濟(jì)狀況等。通過射頻識(shí)別校園卡采集學(xué)生定位數(shù)據(jù),可顯示學(xué)生出入校園、宿舍、圖書館等時(shí)間信息。
2) 教務(wù)信息管理。教務(wù)處是教務(wù)信息管理的責(zé)任部門,發(fā)布課程信息、競(jìng)賽通告、參賽進(jìn)展等,學(xué)生在此模塊可查詢本專業(yè)課程體系設(shè)置、本學(xué)期全校開設(shè)的所有課程,查詢、打印本人學(xué)習(xí)成績(jī)單、課表,接收各類競(jìng)賽通知,查詢已參賽結(jié)果。學(xué)院管理員可導(dǎo)入本學(xué)院學(xué)生成績(jī),對(duì)成績(jī)不合格學(xué)生發(fā)出學(xué)業(yè)預(yù)警報(bào)告。
3) 學(xué)工信息管理。學(xué)生工作處負(fù)責(zé)學(xué)工信息管理,發(fā)布各級(jí)三好學(xué)生、優(yōu)秀學(xué)生干部、獎(jiǎng)學(xué)金、助學(xué)金評(píng)定政策,定時(shí)開通各類評(píng)先獎(jiǎng)優(yōu)申請(qǐng)通道,發(fā)布就業(yè)信息、服兵役信息等。學(xué)生可對(duì)以上信息進(jìn)行查詢、在線申請(qǐng)獎(jiǎng)補(bǔ)助、完成已就業(yè)登記、服兵役登記。院系在此模塊中可對(duì)本學(xué)院學(xué)生分配宿舍、導(dǎo)入班主任信息,對(duì)學(xué)生申請(qǐng)的各類補(bǔ)助信息查看、匯總、審核并導(dǎo)出結(jié)果。
4) 后勤信息管理。后勤保障處發(fā)放學(xué)生校園卡,對(duì)校園卡在線綁定、掛失、充值等業(yè)務(wù)進(jìn)行管理,發(fā)布院系宿舍信息,發(fā)布校園健康信息,安排全校心理健康普查活動(dòng),發(fā)放心理健康調(diào)查問卷,設(shè)置心理健康在線輔導(dǎo)。在大數(shù)據(jù)分析的基礎(chǔ)上對(duì)校園流行病發(fā)布預(yù)警。學(xué)生綁定校園卡后,在校醫(yī)院就醫(yī)或購(gòu)藥、校內(nèi)超市購(gòu)物、購(gòu)買水電可使用校園卡結(jié)算,在客戶端進(jìn)行心理健康在線咨詢和線下預(yù)約,圖書借閱、出入校園等信息也將實(shí)時(shí)上傳至校園卡管理系統(tǒng),并被進(jìn)一步采集到學(xué)生信息管理系統(tǒng)中。院系在此模塊可查看、修改本學(xué)院學(xué)生相關(guān)信息。
基于大數(shù)據(jù)的高校學(xué)生管理系統(tǒng)采用B/S(即Browser/Server,瀏覽器/服務(wù)器模式)開發(fā)模式,即瀏覽器請(qǐng)求,服務(wù)器響應(yīng)。訪問終端只需要通過Web瀏覽器即可登錄系統(tǒng)進(jìn)行身份驗(yàn)證,Web服務(wù)器受理訪問請(qǐng)求后,數(shù)據(jù)庫(kù)服務(wù)器存儲(chǔ)數(shù)據(jù)信息并提供訪問結(jié)果,Web 服務(wù)器再將訪問結(jié)果反饋給用戶,從而實(shí)現(xiàn)數(shù)據(jù)交互[4-5]。為滿足大規(guī)模、多源異構(gòu)數(shù)據(jù)處理的實(shí)時(shí)性,并能進(jìn)行模型分析,本系統(tǒng)開發(fā)主要使用Hadoop 開源組件,程序編寫使用Java 語(yǔ)言,采用分層設(shè)計(jì),分為數(shù)據(jù)源層、數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)處理層和應(yīng)用層,上層可以向下訪問,下層為上層提供服務(wù)。系統(tǒng)功能架構(gòu)圖如圖2所示。

圖2 系統(tǒng)架構(gòu)圖
系統(tǒng)數(shù)據(jù)源層的主要任務(wù)是為系統(tǒng)采集數(shù)據(jù)。與學(xué)生相關(guān)的數(shù)據(jù)主要來自三個(gè)方面:其一,學(xué)生訪問互聯(lián)網(wǎng)數(shù)據(jù)。高校校園局域網(wǎng)架構(gòu)和無線網(wǎng)覆蓋為數(shù)據(jù)采集提供了便捷并且安全的途徑,學(xué)生訪問互聯(lián)網(wǎng)需要登錄校園網(wǎng)授權(quán)界面,輸入學(xué)號(hào)和密碼進(jìn)行驗(yàn)證。網(wǎng)絡(luò)訪問日志可使用Hadoop的Flum組件進(jìn)行采集。此類數(shù)據(jù)格式多樣、數(shù)據(jù)量大、生成時(shí)間自由;其二,校園一卡通數(shù)據(jù)。一卡通記載了學(xué)生的圖書借閱、餐廳用餐、門禁管理、充值等多項(xiàng)數(shù)據(jù),通過校園卡管理系統(tǒng)即可獲??;其三,相關(guān)部門從各類管理系統(tǒng)中導(dǎo)出或日常管理工作中產(chǎn)生的數(shù)據(jù),涉及學(xué)生學(xué)籍、成績(jī)、資助、獎(jiǎng)罰信息,此類數(shù)據(jù)可通過系統(tǒng)接口導(dǎo)入到學(xué)生管理信息數(shù)據(jù)庫(kù)中。系統(tǒng)數(shù)據(jù)源呈現(xiàn)出結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)共存的特點(diǎn)。Flum是數(shù)據(jù)源層中最重要的大數(shù)據(jù)信息采集工具,它可以收集分布在多臺(tái)服務(wù)器上的日志數(shù)據(jù)、社交媒體數(shù)據(jù)等多種數(shù)據(jù)源,并將它們移動(dòng)到HDFS存儲(chǔ)。
數(shù)據(jù)存儲(chǔ)層主要用于存儲(chǔ)學(xué)生信息源數(shù)據(jù)、預(yù)處理數(shù)據(jù)、系統(tǒng)用戶數(shù)據(jù)和用戶交互結(jié)果數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)可在MySQL數(shù)據(jù)庫(kù)中保存,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)使用非關(guān)系型數(shù)據(jù)庫(kù)HBsase 保存,HBsase 數(shù)據(jù)表分兩級(jí)建設(shè)數(shù)據(jù)屬性,即列族和列限定符,其中列限定符可后續(xù)動(dòng)態(tài)添加,方便系統(tǒng)管理員根據(jù)實(shí)際需求設(shè)置新的表結(jié)構(gòu)。HDFS 支持高吞吐量訪問,可將數(shù)據(jù)存儲(chǔ)在多臺(tái)校園服務(wù)器上,易于擴(kuò)展并且可有效避免數(shù)據(jù)集中在單一服務(wù)器上發(fā)生的宕機(jī)問題。Sqoop 可方便地實(shí)現(xiàn)MySQL 數(shù)據(jù)庫(kù)與Hadoop 之間的交換,F(xiàn)lume 完成數(shù)據(jù)源的多途徑采集,所以,通過Sqoop組件和Flume組件將數(shù)據(jù)批量導(dǎo)入到HDFS中,為數(shù)據(jù)處理做好準(zhǔn)備,并且將數(shù)據(jù)備份到其他目錄中。由于學(xué)生信息包含個(gè)人隱私,所以在本層還會(huì)對(duì)原始數(shù)據(jù)進(jìn)行脫敏、清洗,再將各類格式的數(shù)據(jù)通過轉(zhuǎn)換、加工、融合等預(yù)處理,建立統(tǒng)一的數(shù)據(jù)處理單元,提取數(shù)據(jù)特征,為系統(tǒng)提供可靠的數(shù)據(jù)處理集。
數(shù)據(jù)處理層不但要為用戶訪問系統(tǒng)傳輸數(shù)據(jù),還要結(jié)合數(shù)據(jù)計(jì)算模型對(duì)學(xué)生學(xué)業(yè)成績(jī)、活動(dòng)軌跡、校園消費(fèi)、圖書借閱等數(shù)據(jù)進(jìn)行分析。采用聚類算法、關(guān)聯(lián)規(guī)則挖掘算法對(duì)學(xué)生進(jìn)行特征分類,基于歷史數(shù)據(jù)和學(xué)生個(gè)人特征,對(duì)學(xué)生進(jìn)行心理健康監(jiān)測(cè)、學(xué)業(yè)預(yù)警、職業(yè)規(guī)劃等。本層利用Hadoop 各組件自帶的對(duì)外API 接口將HBase 和Hive 連接和聯(lián)合,以SQL 或類SQL 的Hive_SQL 語(yǔ)言可直接對(duì)兩個(gè)數(shù)據(jù)庫(kù)表的結(jié)合訪問,包括數(shù)據(jù)讀寫、查詢、統(tǒng)計(jì)、分析,方便批量管理HDFS中的相關(guān)數(shù)據(jù),提升數(shù)據(jù)處理效率和準(zhǔn)確性。
應(yīng)用層是用戶訪問系統(tǒng)的接口,也是系統(tǒng)向用戶提供數(shù)據(jù)的窗口,通過調(diào)用下層數(shù)據(jù)向本層提供訪問結(jié)果。Hadoop 的文件訪問接口通常是JavaAPI 形式,與Java 具有良好的交互能力,使用Java 語(yǔ)言編寫GUI界面。在此系統(tǒng)中,除了常見的系統(tǒng)訪問界面外,將查詢結(jié)果以圖形的形式展示給用戶,安裝JavaScript開源組件Echart,實(shí)現(xiàn)數(shù)據(jù)可視化功能[6-7],包括直線圖、曲線圖、柱狀圖等,滿足用戶交互式圖形分析需求。通過可視化報(bào)表,學(xué)生管理工作者可了解學(xué)生學(xué)習(xí)困難、行為傾向、興趣愛好等,以便及時(shí)采取干預(yù)措施和制定培養(yǎng)策略,學(xué)生能查看自身學(xué)業(yè)、健康、圖書借閱、自習(xí)、行為習(xí)慣等在周圍人中所處的水平,為學(xué)生認(rèn)識(shí)自我、爭(zhēng)先創(chuàng)優(yōu)提供一定價(jià)值的參考。
大數(shù)據(jù)技術(shù)在學(xué)生數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理中可發(fā)揮重要作用,數(shù)據(jù)可視化能夠?yàn)楣芾韱T提供更加簡(jiǎn)明的數(shù)據(jù)分析結(jié)果,使學(xué)生信息管理更加科學(xué)、直觀。將大數(shù)據(jù)技術(shù)應(yīng)用于學(xué)生管理信息系統(tǒng)的開發(fā),對(duì)各部門現(xiàn)有學(xué)生信息進(jìn)行遷移和整合,對(duì)學(xué)生實(shí)時(shí)產(chǎn)生的數(shù)據(jù)進(jìn)行采集,建立全校統(tǒng)一的數(shù)據(jù)庫(kù),實(shí)現(xiàn)學(xué)生信息同步化、多維度地查詢與應(yīng)用,提高數(shù)據(jù)利用率,在較短時(shí)間內(nèi)將海量數(shù)據(jù)轉(zhuǎn)變?yōu)閷氋F的信息,為學(xué)生提供可靠及時(shí)的信息獲取渠道,有效提升學(xué)生管理工作效率,并創(chuàng)新學(xué)生管理工作方式。