[摘 要]本文研究數據倉庫技術在高校大類招生環境下,學生自主選擇專業行為特征分析中的應用,為高校大類招生相關政策的制定提供理論支持及技術手段。首先介紹了數據倉庫星形模型分析方法,結合專業選擇分析相關需求描述數據倉庫建立的一般步驟。隨后以北京科技大學經濟管理學院2005級學生基本信息及學科成績為例,重點闡述學生專業選擇數據倉庫邏輯模型設計。通過確立學生基本影響因素分析和學生成績分析兩大主題,充分分析學生基本屬性、學生成績等對學生選擇專業的影響,并給出OLAP分析結論。
[關鍵詞]數據倉庫;OLAP分析;大類招生;專業選擇;成績分析
doi:10.3969/j.issn.1673-0194.2009.15.004
[中圖分類號]TP392[文獻標識碼]A[文章編號]1673-0194(2009)15-0013-03
1 引 言
為降低學生高考填報志愿的盲目性,加強其專業選擇的自主性,順應學科發展綜合化、人才需求多元化的發展趨勢,各大高校陸續推出大類招生計劃,即高校不再按專業或專業方向,而是按學科(也可按系或學院)制訂招生計劃并進行招生錄?。?]。
這種教學模式是普通高校招生制度改革的新嘗試,如何分析高校學生在基礎教育期滿后進行自主專業選擇的行為特點,以更好地指導其選擇專業已成為教育模式改革的新課題。數據倉庫技術的出現和發展為分析該問題提供了強有力的工具和手段。運用數據倉庫技術可以將多個數據庫的信息進行集成,從高校學生進行自主專業選擇的歷史和發展的角度組織和存儲數據,充分分析影響學生進行專業選擇的相關因素,發現其隱含的內在規律,為高校大類招生相關政策制定提供理論支持和技術手段。
本文以北京科技大學經濟管理學院2005級學生基本信息及學科成績信息為基礎,建立數據倉庫,確定專業選擇相關主題,主要針對經濟管理學院學生自主選擇專業以下方面問題展開研究:
(1)學生基本影響因素分析。確定經濟管理學院大類招生環境下學生自主選擇專業的基本影響因素,包括性別、籍貫、文理分科等,并在此基礎上分析各因素對學生專業選擇結果的影響程度。
(2)學生成績分析。成績分析是分析學生專業選擇相關特性的重要方面。各專業學生在各種科目成績分布情況,隱含著學生知識構成方面的特點,是學生專業選擇特性分析中的重要內容。
本文首先簡要介紹數據倉庫相關技術,隨后系統闡述用于學生專業選擇分析的數據倉庫建立全過程,利用聯機分析處理技術(OLAP,On Line Analytical Processing)[2]對所建立的數據倉庫進行主題分析,并闡述分析結果。
2 數據倉庫星形模型分析方法
2.1 數據倉庫體系結構及建模方法
數據倉庫是一種專門的數據存儲,用于支持分析型數據處理,其技術體系結構包括前臺和后臺兩部分[8]。
后臺負責分析型應用的數據準備工作,完成從數據源向數據倉庫主題數據的數據變換。包含3個步驟:對數據源進行數據抽取、向主題數據轉換和主題數據裝載。
前臺面向數據倉庫的最終用戶,需要安裝分析型應用工具,例如報表生成器、OLAP[2]工具、數據挖掘工具等,最終提供分析報告、報表、圖形等可視化的分析結果。
人們從不同的角度對數據倉庫的建模方案進行了研究。從方法論的角度,Golfarelli和Rizzi提出了數據倉庫建模的概念模型DFM(Dimensional Fact Model)及數據倉庫建模的一般方法框架[3]。從應用的角度,文獻[4]給出了許多實際應用數據倉庫設計的解決方案。文獻[5]基于企業業務模型給出了數據倉庫的設計方法。文獻[6]提出了基于業務分析需求建立數據倉庫數據存儲的邏輯模型,本文采用該方法確定數據倉庫邏輯模型。
2.2數據倉庫建立步驟
數據倉庫的建立通常包括以下步驟:
(1)業務過程建模及需求分析。明確需求相關數據,最大程度利用現有系統中的數據。利用學生相關數據,查看大類招生環境下學生專業選擇現狀,將這些數據進行預處理并裝載入數據倉庫,為進一步的分析奠定數據基礎。
(2)選取主題。根據需求分析結果確定系統中存在的主題,根據學生專業選擇現狀,確定學生基本影響因素分析及成績分析兩個主題,劃分主題邊界,確定物理表。
(3)邏輯模型設計。根據主題域,確定數據的粒度層次,進行維表和事實表的設計等。在此,最小粒度為每個專業每個學生每學期每門課的相關情況。
(4)物理設計。確定數據的存儲結構,索引策略及數據倉庫的物理模型。在選定數據庫管理系統(本文為Microsoft SQL Server 2005)中建立數據庫和表結構。
(5)數據采集、轉換和集成。具體步驟為:
① 數據抽取:從原有操作型數據庫中抽取與主題相關的數據到數據倉庫。本文考慮到各個領域專業的差異性較大,只考察經濟管理學院的學生情況。
② 數據轉換:數據轉換用于處理數據中存在的命名格式、字段長度等不一致問題。
③ 數據凈化:處理多種可能存在的錯誤類型,如數據源中丟失數據、有誤數據和沖突數據等。
④ 數據聚集:源數據庫中的細節數據進入數據倉庫后,還需在各種層次結構上進行匯總。
(6)裝載校驗數據。裝載一個主題數據進行數據校驗以評估數據質量,確保數據可靠性。
(7)管理元數據。定義元數據,即表示、定義數據的意義及系統各組成部件之間的關系。在建立數據倉庫過程中,無需特別關注元數據,它自動存儲在元數據表中。
(8)聯機分析處理(OLAP)型設計和應用。按照不同的維、層次分析比較數據,實現分析決策的目的。通過Microsoft SQL Server Analysis Services 2005,完成數據倉庫的構造和聯機分析處理技術在學生相關數據上的應用。
2.3 聯機分析處理(OLAP)
聯機分析處理(OLAP)[2]是基于數據倉庫進行數據分析的主要方式,它將數據以立方體的形式進行組織。立方體包含多個維級別,實現對事實的多角度分析和查看。
OLAP多維數據分析是指對多維數據采取切片、切塊、鉆取、旋轉等各種操作,使用戶能從多角度觀察數據,從而深入了解其中的信息內涵。例如,可以通過上鉆操作查看不同地區不同學年不同系的學生選課分布情況。
3 建立高校學生專業選擇數據倉庫
3.1 數據源及數據預處理
本文抽取北京科技大學經濟管理學院2005級本科生的基本信息和成績信息作為建立數據倉庫的數據源,存儲格式為Microsoft Excel,具體信息包括:
(1)5個專業:分別為信息管理與信息系統、國際貿易、工商管理、會計學和金融工程。
(2)324名學生的基本信息:包括學號、專業、性別、民族、出生年份、考區、戶口類型、文理分科等信息。
(3)學生針對38門課程的成績信息:包括課程類別和每名學生所選課程的成績。
數據預處理包括:
(1)剔除奇異數據:刪除各表中因為留級和退學未參加按大類招生劃分專業的學生信息,剩余275名學生。
(2)缺失數據填補:共發現學生各科成績表中空值30處,對于空值的處理分為兩種情況:
① 若確定該空值為缺失數據,則填充該科平均成績;
② 若確定該空值為學生故意缺考,則計為零分。
(3)形成代理碼:為操作方便和節省空間,將相關表中的屬性名稱用代理碼代替,如專業、課程等。為后階段將維表和事實表的代理碼進行匹配做好數據準備。
3.2 確定分析主題
對相關部門進行需求調研并充分分析現有數據,確定兩個分析主題:學生基本影響因素分析和學生科目類別及成績分析。每個主題均從時間、學生、專業和課程等4個維度進行查詢和分析。
(1)學生基本影響因素分析。
學生基本信息客觀描述了學生的基本特性,其中隱含了學生自主選擇專業的大量行為特征。為該主題建立星形模型所示,具體包括4個維表:時間、學生、專業和課程,以及一個事實表,其中包含各維表的主鍵。該事實表比較特殊,不包含其他數值型數據,主要用于計數分析。Microsoft SQL Server 2005 Integration Services中的查找控件可以實現維表代理碼和事實表主碼的匹配。
(2)學生成績分析。
維表設計與“學生基本影響因素分析”主題相同,事實表中除包含各維表的主鍵外,還包含學生成績字段,用于不同維度與粒度的匯總查詢,如圖1所示。
主題確立之后,將源數據進行轉換,載入到數據倉庫中,繼而進行OLAP分析。SQL Server 2005 Analysis Services項目可創建數據分析中的維度和多維數據集,并由客戶端分析程序提供OLAP多維數據查詢和分析服務。

3.3 OLAP分析結果
基于兩個主題建立起數據倉庫后,可以對其進行各種維度、各種聚集度的OLAP分析。部分分析結果如下:
(1)學生基本影響因素分析。
考察學生性別、戶口類型、考生地域、文理分科等學生基本屬性對于專業選擇結果的影響,現以前兩者為例:
① 考生性別對學生分專業結果的影響。
學生性別不同,選擇專業的情況差異很大,如圖2所示。女生選擇會計學專業的人數最多,高于選擇該專業男生人數的兩倍,而男生選擇信息管理與信息系統專業的人數最多。轉專業學生為從外學院轉入經管學院的學生,不參與大類招生,他們更偏好于會計學和金融工程專業。

② 戶口所在地類型對學生分專業結果的影響。戶口所在地類型對專業選擇結果影響明顯,如圖3所示。城市學生中,約3/5選擇金融工程專業,無人選擇國際貿易專業;農村學生中,選擇金融工程的人數非常少;城鎮學生則居中,各個專業人數分布較均衡。

(2)學生成績分析。
選擇各專業學生在分專業前的年級排名分布情況差異較大,以信息管理與信息系統與金融工程為例,選擇金融專業的學生排名集中在50~100名之間,前100名的學生占選擇金融專業學生的2/3;而選擇信息管理與信息系統專業的學生專業排名集中在150~250名之間。

4 結 論
本文利用數據倉庫技術對高校大類招生環境下學生自主選擇專業進行了多維分析。首先介紹了數據倉庫星形模型分析方法,隨后重點闡述高校學生專業選擇數據倉庫的建立過程,并圍繞學生基本影響因素分析和學生成績分析兩大主題對學生選擇專業的行為特性進行OLAP分析。分析中發現,學生對于金融工程、國際貿易等傳統熱門專業的選擇受戶口類型影響較大,而對于信息管理與信息系統和會計學專業的選擇則受學生性別影響嚴重。專業排名在100名以內的學生更愿意選擇金融工程,排名中間的學生多數選擇信息管理與信息系統,這主要是受國家近年來對金融人才需求量增加影響。
高校大類招生有利于培養基礎理論知識扎實、科研能力較強的基礎型人才和復合型人才。這種教育模式的應用和各種政策的制定還處于探索階段,數據倉庫技術為探索工作提供了必要的理論支持和技術手段,其在該領域進一步的應用是未來研究的重點。
主要參考文獻
[1] 趙海平.再談按大類專業招生主動適應經濟建設需要[J].吉林教育科學:高教研究, 1994(5) .
[2] George H John, Ron Kohavi, and Karl Pfleger. Irrelevant Features and the Subset Selection Problem[C]//Proceedings of the Eleventh International Machine Learning Conference, New Jersy, USA 1994: 121-129
[3] 何曉群. 現代統計分析方法與應用[M].北京: 中國人民大學出版社, 1998.
[4] 張文彤, 閻潔. SPSS統計分析高級教程[M]. 北京: 高等教育出版社, 2004.
[5] D Barbara, W DuMouchel, et al. The New Jersey Data Reduction Report[J]. Bulletin of the IEEE Computer Society Technial Committee on Data Engineering, 1997,20(4): 3-45.
[6] 張建同, 孫昌言. 以Excel和SPSS為工具的管理統計[M].北京: 清華大學出版社, 2005.
The Application of Data Warehouse in Major Selection Analysis for
College Students Admitted Without Major Classification
GU Shu-juan,XU Yi
(School of Economics and Management, University of Science and Technology Beijing,
Beijing 100083, P.R.China)
Abstract: This paper focuses on the behavioral characteristics analysis in major selection for college students admitted without major classification, using Data Warehouse (DW) technology, which provides theoretic and applied support for decision making for college recruitment without major classification. DW star schema analysis is firstly introduced, and general construction steps are shown combined with the major selection application. Then, we emphasis on the logic model design of DW for major selection analysis, based on the information of students in grade 2005, who come from school of economics and management, University of Science and Technology. OLAP (On Line Analytical Processing) is carried out based on the theme of basic factor analysis and grade analysis, and the OLAP analysis conclusion is given.
Key words: Data Warehouse; OLAP Analysis; Recruitment without Major Classification; Major Selection; Grade Analysis