吳振濤
(青島遠洋船員職業學院圖文信息中心,山東 青島 266071)
基于數據倉庫技術的數據集成在數字化校園中的應用
吳振濤
(青島遠洋船員職業學院圖文信息中心,山東 青島266071)
為解決數字化校園建設過程中形成的“信息孤島”,提出了基于數據倉庫技術的數據集成方案。該方案基于數據倉庫技術,分析數字化校園中各個業務系統的使用現狀和面臨的問題,結合學校實際從上到下進行總體規劃,構建基于數據倉庫技術的數據集成框架,解決了數據集成過程中的實際問題,實現了應用系統資源的共享,發揮了數字化校園的整體協同功能。
數字化校園;數據集成;數據倉庫;ETL
數字化校園是以網絡為基礎,利用先進的信息化手段和工具,實現從環境(教室、設備等)、資源(課件、講義、圖書等)到活動(包括教學、管理、服務、辦公等)的全部數字化,構建一個集教學、科研、管理、服務為一體的數字環境,使傳統校園在時間和空間上得到延伸,提升傳統校園的工作效率,實現教育過程的全面信息化,從而達到提高教學質量、科研和管理水平的目的[1]。在數字化校園的建設過程中,由于各個信息系統建設時期不同,采用的標準規范、技術路線、編程語言等不同,形成了一個個的“信息孤島”[2]。這些“信息孤島”造成了資源分散,存儲冗余,管理成本高,決策支持弱[3],各職能部門無法進行協同工作。
數據集成,被普遍認為是解決目前“信息孤島”問題的重要方法[4]。常用的數據集成方式有基于聯邦數據庫、基于數據倉庫和基于中間件[5],其中基于數據倉庫技術的數據集成方式在實際應用中被證明是一種快速的、有效的方式。如何有效地利用數據倉庫技術進行數據集成,實現數字化校園內各種資源的共享,充分發揮數字化校園的整體效能,成為擺在廣大學校面前的一個重要問題。
數據倉庫(DataWarehouse)是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用于支持管理決策[6]。基于數據倉庫技術的數據集成,主要是將分散的、異構的數據源中的數據復制并提取出來[7],消除數據的異構性、分布性和自治性,實現各個系統間的數據共享,并提供集中的、統一的檢索服務。
利用數據倉庫技術進行數據集成主要實現[8]:
1)控制數據的完整性。
2)保證數據的絕對真實。
3)采用標準的、統一的、唯一的、自描述的數據格式。
4)采用統一的物理組織/存儲,多樣的邏輯組織形式。
5)實現異構數據的互操作。
6)實現對數據隨時隨地的獲取。
7)實現數據的長期存儲、定期更新。
8)實現數據的可視化。
9)提供數據工具等。
數字化校園是傳統校園的功能在時間和空間上的延伸,涉及學校眾多的業務內容。利用數據倉庫技術實現數字化校園的數據集成,必須圍繞學校的業務實際來開展。本階段主要通過對學校業務內容的深入分析,了解數字化校園中各個業務系統的現狀,進一步明晰數字化校園的業務范圍,關注異構系統之間的交互,確定數據集成的集成邊界,闡述數據集成的主要需求。
2.1數字化校園建設現狀
以Q高校為例,該高校經過多年的數字化校園建設,已經逐步形成了涵蓋面比較廣、功能比較全面的信息系統,較好地滿足了學校內教學、科研、管理、辦公、服務等的實際需要。已經上線的信息系統如表1所示。

表1 Q高校信息系統一覽表
通過上表可以看出,雖然該校建設了眾多的信息系統,功能涵蓋了大多數業務范圍,但由于采用的技術標準不同,不利于數據的共享,也不利于相關業務的整合,影響了數字化校園中各信息系統協同工作的能力。
2.2數據集成需求
學校完成某項工作往往需要多個部門的協調配合,這就需要多個基于業務的信息系統能夠實現數據共享。但在實際應用中,往往存在數據多源頭管理、交叉使用的情況,這很容易造成數據的不準確、不一致。為了解決這個問題,提高各個部門協調工作的能力,需要進行整體規劃,規范業務流程,進行數據整合,實現資源共享,保證數據的一致性、準確性和實時性。學校需要進行集成的數據主要有:
1)學生信息
學生信息除記錄了學生的姓名、身份證號等自然屬性外,還記錄了學生的學籍、學習、獎懲等情況。這些信息不是來源于一個部門,而是由多個部門在學生的日常管理中聯合、動態形成的。這些信息既需要共享,又存在相互制約的關系。比如:學工處要對學生進行獎學金的評定,必須依賴于教務處提供的學生成績,若教務處對學生成績提供不及時或不準確,將直接影響學生獎學金的評定。涉及學生信息的系統主要有:教務系統、實訓系統、學工系統、收費系統、電子圖書館等。
2)學員信息
學校除了承擔學歷班學生的教育之外,還承擔著社會在職人員的培訓。學員信息與學生信息的內容基本相同,但還包括學員在線(或離線)學習的信息等。涉及學員信息的系統主要有:遠程培訓系統、收費系統等。
3)教師信息
教師在學校的教學、科研、培訓、管理中占據主導地位。教師信息除記錄教師的自然屬性外,還記錄了教師的崗位、教學、科研、培訓等情況。教師基本信息以人事處提供的數據為主,教務處提供教師的授課情況,培訓處提供教師開展培訓的情況,研發處提供教師的科研、學術情況等。這些信息提供者眾多,無法進行簡單地合并,且存在交叉使用的情況。涉及教師信息的系統主要有:人事系統、教務系統、培訓系統、科研系統、學報系統、辦公系統、郵件系統、電子圖書館等。
4)收費信息
學生(或學員)按照學校制定的收費標準繳納學費、住宿費、教材費等相關費用。根據學生(或學員)的繳費情況,后勤處進行宿舍的分配,教務處進行教材的發放等。但由于學生繳費時間上的差異容易導致后續部門無法及時為學生提供相應的服務,特別是當出現學生退學情況,更是需要多個部門來進行管理。信息的延遲、不準確嚴重影響著相關工作的開展。涉及收費信息的系統主要有:收費系統、教務系統、培訓系統、學工系統、電子圖書館等。
5)設備信息
資產部門進行儀器、設備等的新增、保管、調撥、報廢等,但是要管理好資產,還需要其他部門進行配合。比如:要進行設備的調撥,資產部門必須通過人事部門了解教職工的部門信息等;當科研項目購置新的設備時,科研部門必須向資產部門進行報備;在教學過程中使用大型儀器設備時,教學部門必須向資產部門進行登記等。涉及設備信息的系統主要有:資產系統、科研系統、人事系統、教務系統等。
學校在多年的數字化校園建設過程中,已經建成了多個支撐不同業務的信息系統。運用數據倉庫技術進行數據集成,就是要根據數字化校園的數據集成實際需求,在不改變現有業務系統功能和操作方式的前提下[9],將各個信息系統在數據層聯系起來,將數據從業務系統中抽取出來,根據數據倉庫的特性面向主題重新進行組合,構建基于數據倉庫技術的數據集成框架,實現業務系統間的數據共享,并提供匯總統計和快速查詢。本文基于數據倉庫技術,設計的數字化校園數據集成框架如圖1所示。

圖1 基于數據倉庫技術的數據集成框架
數據源層包含了當前數字化校園需要集成的各類異構系統中的數據;數據緩沖區用來快速從數據源中獲取數據,并進行暫時保存[10];ETL解決數據的抽取、清洗、轉換和加載,并根據數據被需要的緊急程度提供基于集成規則的調度[11];共享數據中心以面向主題的方式對數據進行重新整合,向各個業務系統提供數據,并提供統一的查詢服務。在運用數據倉庫技術進行數據集成的實際應用中,需要重點關注以下幾個問題。
3.1建立統一的信息標準
統一的信息標準,是利用數據倉庫技術進行數據集成的前提。學校應該根據自身實際,兼顧國家標準、行業標準和市級標準等,嚴格遵循“一種信息只能有一個信息編碼,不同的信息有不同的信息編碼”的原則[12],統一代碼的類型、結構和編寫格式等,提高信息處理的效率,實現信息資源的共享。比如:教師的職工號作為識別教師的唯一標示,其編碼規則必須唯一,唯有如此,教師信息在多個信息系統中的共享才會成為可能。
3.2規范對數據流的管理
數據流的規范管理,是利用數據倉庫技術進行數據集成的關鍵。數據流依賴于業務流程,應基于對業務流程的深入分析,明確源數據,確定源數據發生變化后目標數據如何變化[13],并確定數據獲取、提供的先后順序。限于篇幅,文中以教師信息的數據集成進行舉例說明。
從圖2可以看出,教師信息在多個業務系統中使用和維護,如果不規范數據流,很容易出現同一個信息多個數據源,造成數據的不一致。人事處對教師信息的審核和維護是該流程中的關鍵節點。為了保證數據的一致性,人事處首先要為教師編制唯一的職工號,作為教師的唯一標識符;為了保證數據的實時性,人事處要及時為教師分配或者變更部門和崗位,唯有這樣,其他業務系統才能使用教師的人事信息。其他部門在不同業務系統中及時、準確地維護相應的教師信息也是非常必要的,因為只有這樣,人事處才能基于其他業務系統提供的信息,進行下一步的工作。
3.3設計和實施ETL
設計和實施ETL,是利用數據倉庫技術進行數據集成的核心。ETL是從一個或多個數據源抽取數據,經過一個或多個轉換步驟后,物理的存儲到目標環境中[14]。它按照統一的規則集成數據,通過轉換來提高數據的價值,負責完成數據從數據源向目標數據轉化的過程。ETL的設計和實施是工作量最大的,其工作量約占整個項目的60%~80%[5]。另外,在ETL的實施過程中,除了要按照數據流定制轉換外,還要根據實際業務的需要,處理好定時同步和實時同步之間的關系,合理分配數據倉庫的資源。
3.4數據庫的訪問控制
利用數據倉庫技術進行數據集成,不管是從業務系統數據庫到數據倉庫,還是從數據倉庫到業務系統數據庫,都需要對數據庫進行訪問,這不可避免的帶來極大的安全風險。通過基于角色的訪問授權,來實現對數據庫的訪問控制。這種方式既可以限制數據庫的使用者對數據的訪問,又可以防止非法活動者的侵入和合法活動者不慎操作產生的破壞[15]。
數據集成[16]不只是一個技術問題,也是一個管理問題,一個數字化校園內各個組織、各個部門協調合作的問題。筆者從學校的管理實際出發,利用數據倉庫技術,將數據從業務系統中抽離出來,根據主題重新進行組合,實現業務系統間的數據共享,充分發揮數字化校園的整體協同功能。同時,筆者在文中主要以Q高校進行舉例說明,提出的是一種相對通用的數據集成方案,由于各高校的業務流程存在差異,原有系統的底層架構和部署環境不同,具體的集成方案還需要根據各高校實際情況進行針對性的優化。

圖2 教師信息數據流
[1]沈培華,王映雪.清華大學數字校園建設與思考[J].管理信息系統,2002(2):18-19.
[2]王欣.數據集成技術若干問題的研究[D].上海:上海交通大學,2010.
[3]石紹應,馮勤群.異構數據集成在數字校園中的應用[J].空軍雷達學院學報,2010(1):54-57.
[4]于戈,鮑玉斌.數據倉庫工程方法論[M].沈陽:東北大學出版社,2003.
[5]周偉.面向數字校園的異構數據整合的關鍵技術研究[D].成都:電子科技大學,2011.
[6]W.H.Inmon著 數據倉庫(Building the Data Warehouse)[M].王志海,等譯.北京:機械工業出版社,2000.
[7]E Malfach.決策支持與數據倉庫系統[M].北京:電子工業出版社,2001.
[8]李新,吳立宗.數字黑河的思考與實踐2:數據集成[J].地球科學進展,2010(3):306-316.
[9]劉利萍.基于數據倉庫技術的智能建筑信息集成應用研究[D].重慶:重慶大學,2007.
[10]Matt Casers,Roland Bouman,Jos van Dongen著 Pentaho Kettle解決方案:使用PDI構建開源ETL解決方案[M].初建軍等譯.北京:電子工業出版社,2014.
[11]宋杰.面向多類型數據源的數據倉庫構建及ETL關鍵技術的研究[D].沈陽:東北大學,2008.
[12]蔣東興,許慶紅,謝矜,等.高校信息化建設的一體化思路與實踐[J].中國教育信息化,2003(12):36-38.
[13]吳青,羅儒國,王權于.面向服務的企業應用集成在數字校園中的應用[J].現代遠程教育研究,2012(4):91-96.
[14]Squire C.Data Extraction and Transformation for the Data Warehouse Solutions[C].//Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data. New York:ACM,1995:446-447.
[15]吳溥峰,張玉清.數據庫安全綜述[J].計算機工程,2006 (12):85-88.
[16]鄺泉,趙貝.數據集成技術在智能小區管理平臺中的應用[J].電子科技,2014(5):99-102.
Application of data integration based on data warehouse technology in digital campus
WU Zhen-tao
(Library and Information Center,Qingdao Ocean Shipping Mariners College,Qingdao 266071,China)
To solve the“information islands”in the construction of digital campus,we bring forward data integration solution based on data warehouse technology.This solution depends on data warehouse technology and analyzes the application status and existing problems of each system in digital campus.Meanwhile,combined with the status of college,it constructs the data integration framework based on data warehouse technology to solve the practical problems in the process of data integration from top to bottom,to achieve resource sharing,and demonstrate overall coordination function of the digital campus.
digital campus;data integration;data warehouse;ETL
TN919.3;TP311.13
A
1674-6236(2016)09-0028-04
2016-01-25稿件編號:201601235
山東省社科基金項目(11CJY13)
吳振濤(1984—),男,山東濰坊人,政工師。研究方向:信息系統建設,數據庫管理,數據集成與數據分析,教育信息化。