宋薇, 韓育芳(.南陽理工學院 軟件學院, 南陽 473000; .山西戲劇職業學院, 太原 03000)
基于SSAS的高校學生報到數據分析
宋薇1, 韓育芳2
(1.南陽理工學院 軟件學院, 南陽 473000; 2.山西戲劇職業學院, 太原 030002)
隨著信息化的普及,各高校招生部門積累了大量的考生報考和報到數據。如何充分利用這些數據,獲取其中蘊藏的價值,已經成為大數據時代面臨的主要任務。基于SSAS(SQL Server Analysis Services)對某高校的部分招生數據進行分析,主要包括數據預處理、數據倉庫創建、多維數據集創建、數據分析、數據挖掘等步驟。
數據分析; 數據倉庫; 多維數據集; 數據挖掘
Abstract: With the popularization of information technology, the university admissions departments have accumulated a large number of data of candidates application and register. How to make full use of these data, access to the hidden value, have become the main task of the era of big data. This paper uses SSAS to analyze a certain college admissions data, including data preprocessing, data warehouse creation, multidimensional data set creation, data analysis, data mining and other steps.
Keywords: Data analysis; Data warehouse; Multidimensional data set; Data mining
隨著信息化的普及,各高校招生部門積累了大量的考生報考和報到數據。海量的數據隱藏著很多重要的信息,如何充分利用這些數據,獲取其中蘊藏的價值,順利擺脫“數據豐富,信息貧乏”的困境,已經成為大數據時代面臨的主要任務。實際招生工作中,招生人員往往在時間較短的期限里依靠經驗和感覺進行招生,缺乏科學指導[1-2]。如何充分利用已有的招生信息資源,以使高校在每年的招生宣傳、招生計劃投放、學院專業設置、生源選擇等方面做出正確的決策,是擺在高職院校面前的緊迫課題[3]。
SQL Server提供了很多新的和增強的商務智能功能,包括利用SSIS集成服務整合多種數據源,利用SSAS分析服務使數據內容更豐富并且建立復雜的商業分析,以及利用SSRS報表服務編輯,管理,和提交豐富的報表[4]。SSAS是Microsoft BI解決方案的核心服務,它為數據倉庫提供了存儲和查詢OLAP多維數據集的機制,提供了精密的OLAP多維數據集開發人員和管理人員界面。SSAS還可以用來創建包含數據挖掘模型的數據挖掘結構[5]。
2.1 數據預處理
隨著數據庫技術的廣泛應用,企業信息系統產生了大量的數據,如何從這些海量數據中提取對決策分析有用的信息成為決策管理人員所面臨的重要難題[6-7]。傳統的管理信息系統即聯機事務處理系統作為數據管理手段,主要是基本的、日常的事務處理,但它對分析處理的支持一直不能令人滿意。OLAP是數據倉庫系統的主要應用,支持復雜的分析操作,側重決策支持,并且提供直觀易懂的查詢結果。數據倉庫的應用包括聯機在線分析處理和數據挖掘。通過對數據倉庫中的多維數據的鉆取、切片、旋轉等分析動作,可以完成決策支持需要的查詢和報表。通過數據挖掘可以發現隱藏在數據中的潛在規則。
本文的源數據來自招生的業務數據,因此需要對數據進行預處理并加載到數據倉庫中。源數據主要是考生的報考信息及報到數據,主要是考生的考生類別、畢業類別、政治面貌、成績信息、籍貫信息、學校信息、報考專業、批次信息以及考生報到和錄取專業信息等。數據倉庫是面向主題的,根據招生主題設計維度表和事實表,并將數據進行預處理導入數據倉庫中。數據倉庫的維度表主要分為學校維度、系別、專業、學生、批次等,事實表主要記錄學生是否報到,學生報考專業以及錄取專業,錄取批次等信息。數據倉庫的關系圖,如圖1所示。
數據預處理主要是對數據進行清理,整合,然后處理為維度表和事實表中所需的數據。以地理位置信息的處理為例,本文中的地理維度數據源數據是考生報到數據文件中dqmc列,描述的是地區名稱,其數據為“德城區”,“鄧州市鄧州市”,“安陽市市區”等。數據處理的難度一方面是源數據中對于地區信息的描述不夠完整,例如德城區沒有指明其省份和城市,另外是對于地區省市區縣等信息表達方式不統一,造成數據冗余。維度表一般是有主鍵的,代表該類物質的一個單一個體,其他的字段一般都是有層次關系。因此地理緯度表存儲著GeoKey地區編碼,country國家,area地區,province省份,city城市,region區或者縣。通過對數據預處理上例案例中“碧江區”在維度表中存儲為“36 中國 華東 山東 德州市 德城區”。

圖1 數據倉庫關系圖
2.2 數據分析
聯機分析處理是數據倉庫的重要數據分析工具,可以處理共享多維信息的快速分析,建立聯機分析處理的基礎是多維數據模型。對多維數據分析操作主要包括:切片、切塊、旋轉、鉆取等。本文的數據分析主要是基于SSAS實現,建立Analysis Service項目,在項目中定義數據源、數據源視圖、維度、多維數據集。通過查看多維數據集的數據查看學生報到情況,例如分省份、分專業、分批次的報到情況,以及學生報到和錄取專業等情況。查看各省市區報到學生數量,通過查看報到數據的分布情況,可以為學院領導和相關部門提供決策依據,例如在哪些省份需要加強招生宣傳等,如圖2所示。

圖2 各省市區縣報到人數分布
查看學生報到和錄取本科專業等情況,根據這些可以指導專業方向發展,如圖3所示。

圖3 學生報到和錄取專業人數分布
查看不同成績區間和本科,專科等錄取人數分布,有助于了解生源情況,如圖4所示。
2.3 數據挖掘
數據挖掘和聯機分析處理都是數據分析工具,但是它們處理的問題不同,數據分析的深度不同。數據挖掘是一種挖掘性質的數據分析,能夠自動地發現事物間潛在的關系和特征模式,并且利用這些特征模式進行有效的預測分析。兩者相鋪相成,數據挖掘能發現聯機分析處理不能發現的更為復雜和細致的問題,而聯機分析處理能夠迅速告訴我們系統過去和現在是怎樣的,從而更好的理解數據,加快知識發現的過程,迅速驗證數據挖掘發現的結果是否合理。SSAS提供了10種算法來作為數據挖掘工具,包括決策樹算法、聚類分析算法、na?ve bayes算法、關聯算法、順序分析算法、聚類分析算法、時序算法、神經網絡算法、邏輯回歸算法、線性回歸算法、文本挖掘算法[8]。其中在定量分析的實際研究中,回歸分析方法是流行的一種分析方法,可用來預測未來的值,線性回歸是最簡單的回歸形式。許多科學問題的觀察,都只是分類而非連續的。對于分類問題,線性回歸不能解決問題,需要使用邏輯回歸。決策樹算法主要是一種分類算法,它從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分類模型,對沒有分類的數據進行分類,同時也可以用于預測。聚類是對記錄分組,把相似的記錄在一個聚集里。貝葉斯分類器是一個統計分類器,它們能預測類別所屬的概率。聚類和分類的區別聚類不依賴于預先定義好的類,不需要訓練集,其目的不是為了預測。關聯分析的目的找出數據庫中隱藏的關聯網[9、10]。

圖4 不同成績區間和本科,專科等錄取人數分布
本文通過關聯分析、邏輯回歸等模型來挖掘影響學生報到的重要因素。挖掘時輸入項是畢業類別,層次名稱,城市,科目名稱,考生類別,批次名稱,專業名稱等信息,預測目標為是否報到,其中輸入項的選擇是根據模型計算數據相關度推薦的字段,如圖5所示。

圖5 關聯分析結果
通過關聯分析模型挖掘出潛在的規則。通過這樣的規則,可以從中分析出對高校招生有價值的信息。由挖掘結果可見,對于不同批次的學生,某些專業的報到率較高以及對于某些城市某些批次的學生報到率較高,以及什么情況下學生報到率較低,如圖6所示。
通過邏輯回歸分析,對于高中畢業,報考本科理科的學生什么情況下傾向于報到,什么情況下傾向于不報到。通過

圖6 邏輯回歸分析結果
這樣的挖掘分析可以為學院領導和相關部門提供決策依據,進而更好地開展招生工作。
本文主要圍繞基于SSAS對學生報到數據進行分析和挖掘,主要從數據預處理、數據倉庫創建、多維數據集創建、數據分析、數據挖掘等方面展開。本文以某高校某院系某年的招生數據為例進行分析,下一步可以完善數據,增加時間維度和專業維度,對更多專業更多年份的招生歷史數據進行分析挖掘。
[1] 黃榮堅. 數據挖掘在高職院校招生中的應用研究[D]. 廣州:中山大學, 2014.
[2] 胡海員. 數據倉庫與數據挖掘技術在招生決策中的應用研究[D]. 南京:東南大學, 2006.
[3] 王炳堃. 基于OLAP民辦高校招生數據智能分析系統的開發與實現[D]. 廈門:廈門大學, 2016.
[4] 蘭吉特張猛, 楊越, 朗亞妹. SQL Server 2008商業智能完美解決方案[M]. 北京:人民郵電出版社, 2010.
[5] Brian Larson. Microsoft SQL Server 2005商業智能實現[M]. 北京:清華大學出版社, 2008.
[6] 潘華,項同德. 數據倉庫與數據挖掘原理、工具及應用[M]. 北京:中國電力出版社, 2016.
[7] 閔建虎. 基于數據倉庫的決策支持系統設計研究[J]. 微型電腦應用, 2010, 26(4):48-50.
[8] 謝邦昌, 鄭宇庭, 蘇志雄. SQL Server 2008 R2數據挖掘與商業智能基礎及高級案例實戰[M]. 北京:中國水利水電出版社, 2011.
[9] 毛國君, 段立娟. 數據挖掘原理與算法[M]. 北京:清華大學出版社, 2016.
[10] 陳倬. 數據挖掘中聚類算法的研究[J]. 黑龍江科技信息, 2016(3):133-133.
AnalysisofCollegeStudentRegistrationDatabasedonSSAS
Song Wei1, Han Yufang2
(1. School of Software, Nanyang Institute of Technology, Nanyang 473000, China;2. Shanxi Drama Vocational College, Taiyuan 030002, China)
TP311
A
2017.05.15)
宋薇(1987-),女,南陽人,碩士,講師,研究方向:數據挖掘. 韓育芳(1986-),女,高平人,碩士,助教,研究方向:虛擬現實技術及其應用.
1007-757X(2017)09-0057-03