謝韻佳



摘要:隨著海量學籍數據的積累,運用數據挖掘等技術,發掘隱藏于學籍數據背后有價值的信息并以可視化方式呈現,對高校決策具有重要意義。借助CARD信息可視化模型,選取SQL Server和ECharts作為主要工具,提出學籍信息可視化的基本模式。以164783名在籍生學籍信息可視化實現為例,對研究成果加以驗證,得到相關輔助決策信息。模式為高校實現直觀可靠的決策數據支持提供了方法和路徑,對高校提高管理水平、科學規劃學科發展具有促進作用。
關鍵詞:高校學籍管理;信息可視化;ECharts
DOI:10.11907/rjdk.191336
中圖分類號:G434 文獻標識碼:A 文章編號:1672-7800(2019)012-0271-06
0引言
學籍信息管理是高校教務管理工作的重要內容。為實現學籍信息的高效管理,管理方式由純手工記錄逐步轉變為運用學籍信息系統進行電子化記錄,在提高效率的同時也積累了海量的電子學籍數據。運用數據挖掘技術,發掘隱藏于學籍數據背后有價值的信息并以可視化方式呈現,對高校提高管理水平、科學規劃學科發展等都具有重要意義。
信息可視化是可視化技術在非空間數據領域的應用,可以增強數據呈現效果,讓用戶以直觀交互的方式實現對數據的觀察和瀏覽,從而發現數據中隱藏的特征、關系和模式。ECharts是一個純Javascript的圖表庫,可以流暢運行在PC和移動設備上,提供直觀、生動、可交互、可高度個性化定制的數據可視化圖表。
我國學籍信息相關的可視化研究主要在信息系統構建、可視化技術與方案選擇領域。2012年數據可視化成為研究熱點,主要研究成果有:陳小燕等對可視化分析常用的方法與工具進行分析與比較,形成了一套能對復雜數據進行處理的可視化方案;王龍等、范以定及陳鳳構建高校信息可視化系統及輔助決策模塊,形成了一套完整的輔助高校綜合信息分析可視化決策系統;劉奇扉等將高校的圖書館信息在Web端實現可視化。但以上研究都未對可視化系統搭建之前的高校學籍信息提出可視化解決方案。
基于此,本文運用Card信息可視化模型,借助可視化圖表庫ECharts,闡述高校學籍信息可視化的基本思路,構建學籍信息可視化的基本框架模式,提出直觀可靠的高校決策數據支持方法和實現路徑,并以某成人高校F大學教務系統的學籍信息可視化實現為例,對研究成果加以驗證。該學籍信息可視化系統運用的模式、方法和工具,可為高校其它信息可視化研究提供借鑒。
1學籍信息可視化特點
信息可視化囊括了數據可視化、信息圖形、知識可視化、科學可視化以及視覺設計方面的所有發展與進步。大數據時代背景下,信息可視化通常與數據分析相組合,包括數據接人整合、數據處理等功能。與傳統的學籍數據統計相比,信息可視化存在多方面特點和優勢。
首先,信息可視化將學籍數據以更直觀、豐富的方式展現,增強學籍數據的說服力。在可視化圖表工具中,圖表類型種類繁多,可以滿足不同的展示和分析需求。
其次,信息可視化能夠幫助學籍數據需求者更高效地理解學籍數據,提高工作場所或教育機構溝通交流效率,增強共享信息有效性,從而進行更高效的決策。人們可以快速地對數據形成全面認識,發現數據關鍵點。而傳統形式的學籍分析可能需要數小時解析所有數據,且面對多維度和大數量的數據不可避免地產生混亂。
再者,能夠展現巨量學籍數據是數據可視化的另一個優勢。數據可視化被普遍認為是一種簡單有效的數據概括方式。學籍分析者可以在圖表中顯示出大型數據集總體,而不是部分樣本。用戶可高效操作海量數據,發現隱含信息,從而產生新的預見。
最后,信息可視化適用于大規模非結構化的字符型數據展示,如地理信息數據幫助人們理解和分析數據。
2信息可視化研究現狀
在中國知網(cNKI)檢索關鍵詞“信息可視化”,共有7445篇文章(截至2019年3月29日)。在CNKI中對全部檢索結果進行計量可視化分析,得出總體趨勢分析圖和關鍵詞共現網絡,如圖1、圖2所示。
(1)信息可視化研究最早可追溯到1990年,Herr&Johnson等人在IEEE會議上首次將信息可視化概念及應用作了詳細介紹。1994年鄭飛等將信息可視化引入國內的學術研究。1994-2002年間的研究進展緩慢,將信息可視化初步應用于生產領域,如內燃機、三峽工程等。2002年之后相關研究成果數量有明顯增長,信息可視化被應用于氣象、地理、醫療、環境等多個領域。同時,隨著Web技術的發展,實現了動態數據繪圖,大大提高了用戶對數據的控制和溝通能力。至2003年后更是呈爆發式增長,這基本和計算機軟硬件技術尤其是可視化技術的發展階段密切關聯。
(2)信息可視化通常與地理信息系統、GIS、三維可視化、虛擬現實、知識圖譜、數據挖掘、OpenGL和數據可視化等關鍵詞共同出現。因此,從關鍵詞共現網絡分析,信息可視化研究主要集中于地理信息、數據挖掘和三維可視化等領域。
我國信息可視化研究近年蓬勃發展,研究主題從理論研究逐步過渡到與相關學科結合的實踐研究,研究領域集中在地理數據、三維可視化和數據挖掘等方面,而信息可視化技術尚未進入學籍信息研究領域。在學籍信息領域引人信息可視化技術是開拓性舉措,具有十分重要的現實意義。地理信息可視化等領域研究已較為成熟,為學籍信息可視化研究積累了諸多可供借鑒參考的經驗。
至于學籍信息可視化,已有研究較少,從中國知網(cNKI)上檢索關鍵詞“學籍信息可視化”,得到文章數為24篇。從檢索結果來看,文獻的研究主題主要是關于學籍管理系統的設計與開發,學籍信息可視化研究文獻較少,有必要加以探索。
3學籍信息可視化基本思路
3.1基本模式
1989年斯圖爾特·卡德(stuart K.Card)、約克·麥金利(Jock D.Mackinlay)和喬治·羅伯遜(George G.RobeRson)首次提出,次年卡德等發布了信息可視化模型,是現階段可視化模型的基礎。該模型首次將線性可視化流程描述為一個循環過程,是后續其它可視化模型的基礎。CARD信息可視化過程分為數據預處理、繪制及顯示與交互3個階段。
(1)數據預處理:將信息進行過濾與加工,使其易于輸人可視化模塊。預處理包括格式及標準化處理、異常值檢出、數據壓縮等。
(2)繪制:將數據轉換為幾何圖形,按照用戶需求應用多種可視化技術繪制圖表。
(3)顯示和交互:將幾何圖像數據按照用戶指定條件渲染輸出。除將圖像信息輸出外,還需把用戶的反饋信息回傳,實現良好的人機交互。
3.2可視化工具
可視化工具種類繁多,日新月異,選擇一種或多種適合使用場景的工具顯得尤為重要。由于研究的樣本數據來自年份較早的教務系統,因此兼容性是首要考慮的因素,所用的相關工具須與教務管理系統高度集成、流暢運行。其次需要考慮運行的穩定性。所選用的軟件應是大型軟件公司開發的成熟度較高的正式版本,并考慮更新升級,保障軟件穩定性。最后決定性因素是選用契合學籍可視化需求的工具。學籍可視化具有數據量大、圖表呈現需精確等特點,可視化工具的選擇需考慮學籍信息可視化特點,在滿足需求的前提下,選擇資源占用低、性能高的可視化工具。
綜合上述因素,本研究選用SQL Server和EChaRs作為學籍可視化的實現工具。SQL Server(structured QueryLanguage Server)是微軟公司推出的關系型數據庫管理系統,具有良好的兼容性,可跨越從運行Microsoft Windows98到運行Microsoft Windows 2012的大型多處理器,為數據提供可靠的存儲,且T-SQL查詢語句為數據分析帶來便捷。ECharts是一個運行于瀏覽器的純Javascript圖表庫,可以流暢運行于PC和移動設備,兼容當前絕大部分瀏覽器。底層依賴輕量級的Canvas類庫ZRender,提供直觀、生動、可交互、可高度個性化定制的數據可視化圖表。ECharts提供大數據量的可視化,擁有豐富的圖表類型,支持多個坐標系,并能夠實現數據驅動下的動態可視化。在深度的數據交互方面,ECharts也有相應支持,基本滿足“總覽為先,縮放過濾按需查看細節”的需求。
3.3學籍信息可視化實現路徑
依據卡德信息可視化模型,結合SQL Server和ECharts工具特性,將學籍信息可視化實現路徑分為3個階段。
(1)學籍數據預處理。對學籍數據進行檢測、篩選和加工。學籍數據中發現部分異常值需予以剔除,并將數據轉化成符合ECharts可視化模塊可輸入的標準格式。
(2)繪制可視化圖表。按照可視化需求,設立篩選條件,通過SQL Server獲得滿足條件的數據,并將學籍數據輸人ECharts可視化模塊,應用多種可視化技術繪制圖表。
(3)顯示與交互學籍可視化圖表。按照指定條件渲染輸出圖表,按照用戶反饋信息加以顯示并進行相應調整。例如,用戶可根據需要,選擇特定區域顯示特定記錄的單項數據或特定集合的細節數據。
4應用案例
本研究選用某成人高校F大學作為應用對象。該校在籍學生數量多達16萬余人,且為非全日制學生,具有分布廣、層次多、類型雜、學生差異性大等特點,適合開展全面的學籍數據分析。該校早自1995年起就逐步開展學籍數據信息化管理,積累了大量學籍信息,如加以深入分析能產生有價值的成果。
4.1數據來源
學籍數據來源于F大學教務管理系統,統計時間截至2017年4月10日,涵蓋2007年春季至2016年秋季共164783名在籍學生,剔除其中553名無效身份證號的學生,實際取得164230名學生的學籍信息。統計的學籍數據涉及學生個人基本信息、專業信息和選課信息。
4.2生源分布情況
了解生源分布情況最直觀的方式就是通過分布散點地圖,為每個學生在地圖上描點,最終得出總體分布地圖,具體過程如下:
(1)截取所有學生的身份證號前6位,導入百度地圖省市縣經緯度數據,通過SQL Server篩選出所需數據,并將其轉換為分布式地圖所需格式。
(3)渲染生源分布情況圖表,如圖4所示。從地圖上分析,F大學的學生來自于全國各地,東南部地區學生占主體地位,生源的主力軍是福建地區學生。
4.3性別比例和入學年齡分布情況
4.3.1性別比例
通過身份證號碼的性別標識位,標識出所有學生的性別。經統計,164230條數據中,女性占92832條,男性占71398條。男女性比例約為7:10,見圖5。
4.3.2入學年齡分布情況
分別統計各性別的入學年齡分布情況。截取所有學生身份證號的出生年份,將學生的入學年份減去出生年份,得出每個學生的人學年齡標注于二維表。例如,篩選男性人學年齡數據的代碼如下:
統合以上兩張圖表可以得出,從性別上分析,女性多于男性,比例達到10:7;從年齡上分析,最小年齡為14歲,最大年齡為69歲,主要分布于17-47歲。結合二者分析,女性的年齡跨度較小,集中于17-42歲;男性的年齡跨度較大,集中于17-47歲。
4.4專業人數分年度情況匯總
對學生的專業信息進行歸類統計,得出人數排名前10位的專業,分別為行政管理、法學、會計學(財會方向)、會計學、學前教育、農村行政管理、建筑施工管理、工商管理、學前教育(教師方向)和小學教育。統計出排名前10的分專業人數后,引入“年份”維度,進行年份與專業人數的可視化分析。從圖7可知:①行政管理是F大學擁有學生人數最多的專業,達26825人次;②專業人數分布落差較大,排名第2的法學專業(14680人)人數占行政管理專業人數的54%,排名第10的小學教育專業(1813人)人數只占行政管理專業人數的6%;③法學、學前教育、農村行政管理3個專業,在2018年達到本專業人數最高值,說明2017年這3個專業招生情況明顯好轉。
4.5課程與學生選課情況
福建廣播電視大學課程按單位類型分為中央開設課程和省開設課程。根據學生選課情況表的歸類匯總,排名前10位的都是公共必修課,非行政管理部門可利用的數據。而省開課的選課情況是行政管理部門進行課程資源分配和管理的重要依據。所以,本文對省開課的選課情況進行統計分析,篩選出選課前10位的課程名稱為:地域文化(專)、地域文化(本)、社會調查、畢業作業、社IXq-作講座、社會學概論、社會實踐、信息管理概論、組織行為學、民族與宗教,對其進行總人數對比分析,如圖8所示。從圖8可知:①地域文化專科和本科課程占比最大,達到36%;②社區工作講座、社會學概論、信息管理概論、組織行為學和民族與宗教這5門非公共必修課受學生歡迎程度較高,能夠與其它3門公共必修課一同列人選課排名表前10的位置。
5可視化對政策影響
高校內涵建設的關鍵在于提高教育質量。通過數據挖掘技術對學生、教師、專業、課程的基本情況進行宏觀數據分析,并用可視化方式呈現,為教育決策提供清晰可靠的依據,是數據挖掘技術服務于教育的有效手段。
學生基本信息數據的大規模描點是在校生基本情況的直觀體現,是決策的信息基礎。提高教育質量是教育決策的重要目標,專業建設是重中之重。通過學籍數據挖掘與可視化分析,將專業、課程信息進行精確的數據分析呈現,為決策提供宏觀的學生專業人數與選課情況信息。學校專業數據的可視化結果直觀反映了本校專業的強項與短板,為教育規劃提供專業建設與人才培養決策的依據。
選課制借鑒“市場自由效應”對課程進行篩選,選課數據分析與可視化結果可以真實反映課程與任課教師受歡迎程度,可作為判斷教學有效性的重要指標。其結果為教育決策者提供課程改革的數據支撐,并為教師隊伍建設與合理配置提供有效依據。
6結語
本文利用Card信息可視化模型,對2007-2017年間164230名學生的學籍信息進行可視化分析研究,繪制出學生籍貫分布散點地圖、性別占比餅狀圖、入學年齡一性別分布散點圖、年份與專業人數堆疊條形圖和選課次數組成瀑布圖。通過分析,得到最受歡迎省開課前10名的學生分布比例,直觀看出地域文化占比36%居首位等信息,為高校內涵建設相關決策提供依據。但此次研究對象集中于獨立組或獨立個體的大規模分析,例如大規模標注分析、聚類分析、占比分析等,存在以下不足:
(1)未涉及獨立組及個體之間內在關系分析。學生籍貫地圖、分性別年齡分布散點圖是針對獨立個體的大規模可視化分析,專業分年度人數柱狀圖和選課次數組成瀑布圖,是對分組后的獨立組進行個別研究,二者都未涉及關系網絡可視化分析領域。
(2)未涉及大規模數據支持的趨勢分析。趨勢分析是大數據支持的可視化分析領域,例如谷歌通過用戶檢索的關鍵詞預測某地區將爆發流感。
在后續研究中將應用更為復雜的統計學方法和可視化圖表,對選課、轉專業、轉學等學籍信息進行分析,找尋合適的趨勢分析研究方向。