謝韻佳



摘要:隨著海量學籍數(shù)據(jù)的積累,運用數(shù)據(jù)挖掘等技術,發(fā)掘隱藏于學籍數(shù)據(jù)背后有價值的信息并以可視化方式呈現(xiàn),對高校決策具有重要意義。借助CARD信息可視化模型,選取SQL Server和ECharts作為主要工具,提出學籍信息可視化的基本模式。以164783名在籍生學籍信息可視化實現(xiàn)為例,對研究成果加以驗證,得到相關輔助決策信息。模式為高校實現(xiàn)直觀可靠的決策數(shù)據(jù)支持提供了方法和路徑,對高校提高管理水平、科學規(guī)劃學科發(fā)展具有促進作用。
關鍵詞:高校學籍管理;信息可視化;ECharts
DOI:10.11907/rjdk.191336
中圖分類號:G434 文獻標識碼:A 文章編號:1672-7800(2019)012-0271-06
0引言
學籍信息管理是高校教務管理工作的重要內容。為實現(xiàn)學籍信息的高效管理,管理方式由純手工記錄逐步轉變?yōu)檫\用學籍信息系統(tǒng)進行電子化記錄,在提高效率的同時也積累了海量的電子學籍數(shù)據(jù)。運用數(shù)據(jù)挖掘技術,發(fā)掘隱藏于學籍數(shù)據(jù)背后有價值的信息并以可視化方式呈現(xiàn),對高校提高管理水平、科學規(guī)劃學科發(fā)展等都具有重要意義。
信息可視化是可視化技術在非空間數(shù)據(jù)領域的應用,可以增強數(shù)據(jù)呈現(xiàn)效果,讓用戶以直觀交互的方式實現(xiàn)對數(shù)據(jù)的觀察和瀏覽,從而發(fā)現(xiàn)數(shù)據(jù)中隱藏的特征、關系和模式。ECharts是一個純Javascript的圖表庫,可以流暢運行在PC和移動設備上,提供直觀、生動、可交互、可高度個性化定制的數(shù)據(jù)可視化圖表。
我國學籍信息相關的可視化研究主要在信息系統(tǒng)構建、可視化技術與方案選擇領域。2012年數(shù)據(jù)可視化成為研究熱點,主要研究成果有:陳小燕等對可視化分析常用的方法與工具進行分析與比較,形成了一套能對復雜數(shù)據(jù)進行處理的可視化方案;王龍等、范以定及陳鳳構建高校信息可視化系統(tǒng)及輔助決策模塊,形成了一套完整的輔助高校綜合信息分析可視化決策系統(tǒng);劉奇扉等將高校的圖書館信息在Web端實現(xiàn)可視化。但以上研究都未對可視化系統(tǒng)搭建之前的高校學籍信息提出可視化解決方案。
基于此,本文運用Card信息可視化模型,借助可視化圖表庫ECharts,闡述高校學籍信息可視化的基本思路,構建學籍信息可視化的基本框架模式,提出直觀可靠的高校決策數(shù)據(jù)支持方法和實現(xiàn)路徑,并以某成人高校F大學教務系統(tǒng)的學籍信息可視化實現(xiàn)為例,對研究成果加以驗證。該學籍信息可視化系統(tǒng)運用的模式、方法和工具,可為高校其它信息可視化研究提供借鑒。
1學籍信息可視化特點
信息可視化囊括了數(shù)據(jù)可視化、信息圖形、知識可視化、科學可視化以及視覺設計方面的所有發(fā)展與進步。大數(shù)據(jù)時代背景下,信息可視化通常與數(shù)據(jù)分析相組合,包括數(shù)據(jù)接人整合、數(shù)據(jù)處理等功能。與傳統(tǒng)的學籍數(shù)據(jù)統(tǒng)計相比,信息可視化存在多方面特點和優(yōu)勢。
首先,信息可視化將學籍數(shù)據(jù)以更直觀、豐富的方式展現(xiàn),增強學籍數(shù)據(jù)的說服力。在可視化圖表工具中,圖表類型種類繁多,可以滿足不同的展示和分析需求。
其次,信息可視化能夠幫助學籍數(shù)據(jù)需求者更高效地理解學籍數(shù)據(jù),提高工作場所或教育機構溝通交流效率,增強共享信息有效性,從而進行更高效的決策。人們可以快速地對數(shù)據(jù)形成全面認識,發(fā)現(xiàn)數(shù)據(jù)關鍵點。而傳統(tǒng)形式的學籍分析可能需要數(shù)小時解析所有數(shù)據(jù),且面對多維度和大數(shù)量的數(shù)據(jù)不可避免地產(chǎn)生混亂。
再者,能夠展現(xiàn)巨量學籍數(shù)據(jù)是數(shù)據(jù)可視化的另一個優(yōu)勢。數(shù)據(jù)可視化被普遍認為是一種簡單有效的數(shù)據(jù)概括方式。學籍分析者可以在圖表中顯示出大型數(shù)據(jù)集總體,而不是部分樣本。用戶可高效操作海量數(shù)據(jù),發(fā)現(xiàn)隱含信息,從而產(chǎn)生新的預見。
最后,信息可視化適用于大規(guī)模非結構化的字符型數(shù)據(jù)展示,如地理信息數(shù)據(jù)幫助人們理解和分析數(shù)據(jù)。
2信息可視化研究現(xiàn)狀
在中國知網(wǎng)(cNKI)檢索關鍵詞“信息可視化”,共有7445篇文章(截至2019年3月29日)。在CNKI中對全部檢索結果進行計量可視化分析,得出總體趨勢分析圖和關鍵詞共現(xiàn)網(wǎng)絡,如圖1、圖2所示。
(1)信息可視化研究最早可追溯到1990年,Herr&Johnson等人在IEEE會議上首次將信息可視化概念及應用作了詳細介紹。1994年鄭飛等將信息可視化引入國內的學術研究。1994-2002年間的研究進展緩慢,將信息可視化初步應用于生產(chǎn)領域,如內燃機、三峽工程等。2002年之后相關研究成果數(shù)量有明顯增長,信息可視化被應用于氣象、地理、醫(yī)療、環(huán)境等多個領域。同時,隨著Web技術的發(fā)展,實現(xiàn)了動態(tài)數(shù)據(jù)繪圖,大大提高了用戶對數(shù)據(jù)的控制和溝通能力。至2003年后更是呈爆發(fā)式增長,這基本和計算機軟硬件技術尤其是可視化技術的發(fā)展階段密切關聯(lián)。
(2)信息可視化通常與地理信息系統(tǒng)、GIS、三維可視化、虛擬現(xiàn)實、知識圖譜、數(shù)據(jù)挖掘、OpenGL和數(shù)據(jù)可視化等關鍵詞共同出現(xiàn)。因此,從關鍵詞共現(xiàn)網(wǎng)絡分析,信息可視化研究主要集中于地理信息、數(shù)據(jù)挖掘和三維可視化等領域。
我國信息可視化研究近年蓬勃發(fā)展,研究主題從理論研究逐步過渡到與相關學科結合的實踐研究,研究領域集中在地理數(shù)據(jù)、三維可視化和數(shù)據(jù)挖掘等方面,而信息可視化技術尚未進入學籍信息研究領域。在學籍信息領域引人信息可視化技術是開拓性舉措,具有十分重要的現(xiàn)實意義。地理信息可視化等領域研究已較為成熟,為學籍信息可視化研究積累了諸多可供借鑒參考的經(jīng)驗。
至于學籍信息可視化,已有研究較少,從中國知網(wǎng)(cNKI)上檢索關鍵詞“學籍信息可視化”,得到文章數(shù)為24篇。從檢索結果來看,文獻的研究主題主要是關于學籍管理系統(tǒng)的設計與開發(fā),學籍信息可視化研究文獻較少,有必要加以探索。
3學籍信息可視化基本思路
3.1基本模式
1989年斯圖爾特·卡德(stuart K.Card)、約克·麥金利(Jock D.Mackinlay)和喬治·羅伯遜(George G.RobeRson)首次提出,次年卡德等發(fā)布了信息可視化模型,是現(xiàn)階段可視化模型的基礎。該模型首次將線性可視化流程描述為一個循環(huán)過程,是后續(xù)其它可視化模型的基礎。CARD信息可視化過程分為數(shù)據(jù)預處理、繪制及顯示與交互3個階段。
(1)數(shù)據(jù)預處理:將信息進行過濾與加工,使其易于輸人可視化模塊。預處理包括格式及標準化處理、異常值檢出、數(shù)據(jù)壓縮等。
(2)繪制:將數(shù)據(jù)轉換為幾何圖形,按照用戶需求應用多種可視化技術繪制圖表。
(3)顯示和交互:將幾何圖像數(shù)據(jù)按照用戶指定條件渲染輸出。除將圖像信息輸出外,還需把用戶的反饋信息回傳,實現(xiàn)良好的人機交互。
3.2可視化工具
可視化工具種類繁多,日新月異,選擇一種或多種適合使用場景的工具顯得尤為重要。由于研究的樣本數(shù)據(jù)來自年份較早的教務系統(tǒng),因此兼容性是首要考慮的因素,所用的相關工具須與教務管理系統(tǒng)高度集成、流暢運行。其次需要考慮運行的穩(wěn)定性。所選用的軟件應是大型軟件公司開發(fā)的成熟度較高的正式版本,并考慮更新升級,保障軟件穩(wěn)定性。最后決定性因素是選用契合學籍可視化需求的工具。學籍可視化具有數(shù)據(jù)量大、圖表呈現(xiàn)需精確等特點,可視化工具的選擇需考慮學籍信息可視化特點,在滿足需求的前提下,選擇資源占用低、性能高的可視化工具。
綜合上述因素,本研究選用SQL Server和EChaRs作為學籍可視化的實現(xiàn)工具。SQL Server(structured QueryLanguage Server)是微軟公司推出的關系型數(shù)據(jù)庫管理系統(tǒng),具有良好的兼容性,可跨越從運行Microsoft Windows98到運行Microsoft Windows 2012的大型多處理器,為數(shù)據(jù)提供可靠的存儲,且T-SQL查詢語句為數(shù)據(jù)分析帶來便捷。ECharts是一個運行于瀏覽器的純Javascript圖表庫,可以流暢運行于PC和移動設備,兼容當前絕大部分瀏覽器。底層依賴輕量級的Canvas類庫ZRender,提供直觀、生動、可交互、可高度個性化定制的數(shù)據(jù)可視化圖表。ECharts提供大數(shù)據(jù)量的可視化,擁有豐富的圖表類型,支持多個坐標系,并能夠實現(xiàn)數(shù)據(jù)驅動下的動態(tài)可視化。在深度的數(shù)據(jù)交互方面,ECharts也有相應支持,基本滿足“總覽為先,縮放過濾按需查看細節(jié)”的需求。
3.3學籍信息可視化實現(xiàn)路徑
依據(jù)卡德信息可視化模型,結合SQL Server和ECharts工具特性,將學籍信息可視化實現(xiàn)路徑分為3個階段。
(1)學籍數(shù)據(jù)預處理。對學籍數(shù)據(jù)進行檢測、篩選和加工。學籍數(shù)據(jù)中發(fā)現(xiàn)部分異常值需予以剔除,并將數(shù)據(jù)轉化成符合ECharts可視化模塊可輸入的標準格式。
(2)繪制可視化圖表。按照可視化需求,設立篩選條件,通過SQL Server獲得滿足條件的數(shù)據(jù),并將學籍數(shù)據(jù)輸人ECharts可視化模塊,應用多種可視化技術繪制圖表。
(3)顯示與交互學籍可視化圖表。按照指定條件渲染輸出圖表,按照用戶反饋信息加以顯示并進行相應調整。例如,用戶可根據(jù)需要,選擇特定區(qū)域顯示特定記錄的單項數(shù)據(jù)或特定集合的細節(jié)數(shù)據(jù)。
4應用案例
本研究選用某成人高校F大學作為應用對象。該校在籍學生數(shù)量多達16萬余人,且為非全日制學生,具有分布廣、層次多、類型雜、學生差異性大等特點,適合開展全面的學籍數(shù)據(jù)分析。該校早自1995年起就逐步開展學籍數(shù)據(jù)信息化管理,積累了大量學籍信息,如加以深入分析能產(chǎn)生有價值的成果。
4.1數(shù)據(jù)來源
學籍數(shù)據(jù)來源于F大學教務管理系統(tǒng),統(tǒng)計時間截至2017年4月10日,涵蓋2007年春季至2016年秋季共164783名在籍學生,剔除其中553名無效身份證號的學生,實際取得164230名學生的學籍信息。統(tǒng)計的學籍數(shù)據(jù)涉及學生個人基本信息、專業(yè)信息和選課信息。
4.2生源分布情況
了解生源分布情況最直觀的方式就是通過分布散點地圖,為每個學生在地圖上描點,最終得出總體分布地圖,具體過程如下:
(1)截取所有學生的身份證號前6位,導入百度地圖省市縣經(jīng)緯度數(shù)據(jù),通過SQL Server篩選出所需數(shù)據(jù),并將其轉換為分布式地圖所需格式。
(3)渲染生源分布情況圖表,如圖4所示。從地圖上分析,F(xiàn)大學的學生來自于全國各地,東南部地區(qū)學生占主體地位,生源的主力軍是福建地區(qū)學生。
4.3性別比例和入學年齡分布情況
4.3.1性別比例
通過身份證號碼的性別標識位,標識出所有學生的性別。經(jīng)統(tǒng)計,164230條數(shù)據(jù)中,女性占92832條,男性占71398條。男女性比例約為7:10,見圖5。
4.3.2入學年齡分布情況
分別統(tǒng)計各性別的入學年齡分布情況。截取所有學生身份證號的出生年份,將學生的入學年份減去出生年份,得出每個學生的人學年齡標注于二維表。例如,篩選男性人學年齡數(shù)據(jù)的代碼如下:
統(tǒng)合以上兩張圖表可以得出,從性別上分析,女性多于男性,比例達到10:7;從年齡上分析,最小年齡為14歲,最大年齡為69歲,主要分布于17-47歲。結合二者分析,女性的年齡跨度較小,集中于17-42歲;男性的年齡跨度較大,集中于17-47歲。
4.4專業(yè)人數(shù)分年度情況匯總
對學生的專業(yè)信息進行歸類統(tǒng)計,得出人數(shù)排名前10位的專業(yè),分別為行政管理、法學、會計學(財會方向)、會計學、學前教育、農村行政管理、建筑施工管理、工商管理、學前教育(教師方向)和小學教育。統(tǒng)計出排名前10的分專業(yè)人數(shù)后,引入“年份”維度,進行年份與專業(yè)人數(shù)的可視化分析。從圖7可知:①行政管理是F大學擁有學生人數(shù)最多的專業(yè),達26825人次;②專業(yè)人數(shù)分布落差較大,排名第2的法學專業(yè)(14680人)人數(shù)占行政管理專業(yè)人數(shù)的54%,排名第10的小學教育專業(yè)(1813人)人數(shù)只占行政管理專業(yè)人數(shù)的6%;③法學、學前教育、農村行政管理3個專業(yè),在2018年達到本專業(yè)人數(shù)最高值,說明2017年這3個專業(yè)招生情況明顯好轉。
4.5課程與學生選課情況
福建廣播電視大學課程按單位類型分為中央開設課程和省開設課程。根據(jù)學生選課情況表的歸類匯總,排名前10位的都是公共必修課,非行政管理部門可利用的數(shù)據(jù)。而省開課的選課情況是行政管理部門進行課程資源分配和管理的重要依據(jù)。所以,本文對省開課的選課情況進行統(tǒng)計分析,篩選出選課前10位的課程名稱為:地域文化(專)、地域文化(本)、社會調查、畢業(yè)作業(yè)、社IXq-作講座、社會學概論、社會實踐、信息管理概論、組織行為學、民族與宗教,對其進行總人數(shù)對比分析,如圖8所示。從圖8可知:①地域文化專科和本科課程占比最大,達到36%;②社區(qū)工作講座、社會學概論、信息管理概論、組織行為學和民族與宗教這5門非公共必修課受學生歡迎程度較高,能夠與其它3門公共必修課一同列人選課排名表前10的位置。
5可視化對政策影響
高校內涵建設的關鍵在于提高教育質量。通過數(shù)據(jù)挖掘技術對學生、教師、專業(yè)、課程的基本情況進行宏觀數(shù)據(jù)分析,并用可視化方式呈現(xiàn),為教育決策提供清晰可靠的依據(jù),是數(shù)據(jù)挖掘技術服務于教育的有效手段。
學生基本信息數(shù)據(jù)的大規(guī)模描點是在校生基本情況的直觀體現(xiàn),是決策的信息基礎。提高教育質量是教育決策的重要目標,專業(yè)建設是重中之重。通過學籍數(shù)據(jù)挖掘與可視化分析,將專業(yè)、課程信息進行精確的數(shù)據(jù)分析呈現(xiàn),為決策提供宏觀的學生專業(yè)人數(shù)與選課情況信息。學校專業(yè)數(shù)據(jù)的可視化結果直觀反映了本校專業(yè)的強項與短板,為教育規(guī)劃提供專業(yè)建設與人才培養(yǎng)決策的依據(jù)。
選課制借鑒“市場自由效應”對課程進行篩選,選課數(shù)據(jù)分析與可視化結果可以真實反映課程與任課教師受歡迎程度,可作為判斷教學有效性的重要指標。其結果為教育決策者提供課程改革的數(shù)據(jù)支撐,并為教師隊伍建設與合理配置提供有效依據(jù)。
6結語
本文利用Card信息可視化模型,對2007-2017年間164230名學生的學籍信息進行可視化分析研究,繪制出學生籍貫分布散點地圖、性別占比餅狀圖、入學年齡一性別分布散點圖、年份與專業(yè)人數(shù)堆疊條形圖和選課次數(shù)組成瀑布圖。通過分析,得到最受歡迎省開課前10名的學生分布比例,直觀看出地域文化占比36%居首位等信息,為高校內涵建設相關決策提供依據(jù)。但此次研究對象集中于獨立組或獨立個體的大規(guī)模分析,例如大規(guī)模標注分析、聚類分析、占比分析等,存在以下不足:
(1)未涉及獨立組及個體之間內在關系分析。學生籍貫地圖、分性別年齡分布散點圖是針對獨立個體的大規(guī)模可視化分析,專業(yè)分年度人數(shù)柱狀圖和選課次數(shù)組成瀑布圖,是對分組后的獨立組進行個別研究,二者都未涉及關系網(wǎng)絡可視化分析領域。
(2)未涉及大規(guī)模數(shù)據(jù)支持的趨勢分析。趨勢分析是大數(shù)據(jù)支持的可視化分析領域,例如谷歌通過用戶檢索的關鍵詞預測某地區(qū)將爆發(fā)流感。
在后續(xù)研究中將應用更為復雜的統(tǒng)計學方法和可視化圖表,對選課、轉專業(yè)、轉學等學籍信息進行分析,找尋合適的趨勢分析研究方向。