羅永有 梁超香
摘 要:文章通過高校信息建設的現狀分析,研究多業務系統異構數據庫在數據集成中的關鍵問題及技術,給出了通過利用ODI技術結合高校實際情況、實現異構數據庫邏輯上或物理上的集成,該集成模式可以有效地打通原本業務系統中的“零散數據”,消除“信息孤島”現象,實現數據格式標準化、數據訪問一致化、數據存儲集中化的信息同步和共享,推進高校信息化的建設。
關鍵詞:數據標準;數據集成;ETL
1 研究背景及現狀分析
隨著高校信息化建設的不斷深入,信息技術在各領域的應用也越來越廣泛,為了提高工作效率,各職能部門正在采用各種業務系統來滿足工作需要。在這個過程中,由于各個應用系統相對獨立,產生了大量凌亂、重復、歧義的數據,形成了一個個的“信息孤島”。隨著高校對數據的深層次需求越發強烈,越來越多的應用場景對數據的訴求也越來越高,比如教師課程安排就離不開教師人事信息,學生成績錄入離不開學生信息,這些場景都離不開數據共享,離不開數據集成。這就迫切地需要一套高效、準確、可行性高的數據集成方案來實現高效的信息集成和共享[1]。
在實際情況中,各個部門由于業務和功能歸屬不同,在多年的信息化建設過程中,采用了不同的軟硬件環境,使用獨立的業務系統管理,這就導致了系統之間難以實現信息的互聯互通、信息共享和有效利用,給維護和管理造成很大的障礙。主要體現在以下幾個方面[2]。
(1)信息共享意識淡薄,缺乏整體頂層規劃和統一標準。
學校信息化建設的整體規劃跟不上教師在教育教學中對信息化的需求,未營造良好的信息環境,未完善推動信息化強有力發展的政策環境,采購決策者對信息系統建設的特點認識不夠,信息流向已經從部門內部走向部門之間,但是很多業務系統的建立還是遵循老的業務規則,以部門為邊界或者按部門內部分工進行,只建設滿足特定需求,建設特定的業務系統,實現各自維護自身系統和數據。同時,由于沒有統一的數據標準規范,購置的這些業務管理系統來自不同的軟件提供商,各自遵循不同的信息編碼規范和數據標準,這就難以實現信息共享、業務聯動以及部門之間的協同工作。
(2)受限于部門利益隔閡,業務聯動性差。
學校在設置職責和部門中體現了更專業化,但也增加了協調的難度,各個部門受不同利益的驅使,各自為政,都優先考慮自己的利益。在信息化建設中,不愿意公開自己部門業務信息,不愿意在業務信息交集點進行統籌優化管理,擔心業務信息受到安全威脅,更愿意使用獨立的專業管理系統,這樣只能達到部門的目標而不是整體的目標,阻礙了內部信息的傳遞,降低工作效率。
(3)業務系統分散,數據冗余和源頭的不統一。
經過多年的信息化建設,高校不同業務部門紛紛購置了滿足各自業務需求的專業管理系統,各系統之間相互獨立,存在了大量的公有信息,由于獨立采購獨立運維,如果某個系統中的基礎數據發生變化,其他業務系統仍然使用原來的數據,如教務、人事、財務系統中對教師數據描述一致嗎?為什么我的個人信息在這些系統中不一樣呢?我們學校的師生數到底是多少?是以教務數據為準還是人事數據為準?這樣就造成了數據重復錄入及重復管理,且存在大量不一致,無法在數據統計和上報時提供準確的數據,無法給領導決策提供有效的數據支持,還會造成新的困惑,更難以談及對全局數據的應用與輔助策略。
在高校信息化建設中的問題遠不止以上提及的幾項,但是它們卻是如何解決整合、集成校園內眾多應用系統數據的關鍵,包括已有的和即將購置的專業管理系統,使用戶能夠得到一個統一的應用環境,統一的服務界面,統一的數據資源。
2 基于ODI技術的數據集成介紹
數據集成,主要是將基于分散的信息系統的業務數據進行再集中、再統一管理的過程,是一個漸進的過程。
在實施數據集成的過程中,由于業務系統不同,采用的數據庫及結構也不盡相同,它們提供的數據內容、格式和質量千差萬別,有時甚至會遇到數據格式不能轉換或數據轉換格式后丟失信息等棘手問題,所以首要問題就是如何解決異構數據源的整合,使其形成互聯互通的整體,形成有效數據在各部門和各業務系統中流動和共享,同時能進行有效的集成管理。ETL(Extract,Transform,Load)是實現數據集成的主要技術。
ETL是構建數據倉庫的重要一環,將來源端的數據經過抽取、清洗轉換,加載到目的端的過程,目的是將分散、凌亂、標準不統一的數據按照預先定義好的數據倉庫模型整合到一起,成為聯機分析處理、數據挖掘的基礎,為學校的決策提供分析依據。
ETL處理方式如圖1所示。在整個數據倉庫的構建中,ETL工作占整個工作的50%~70%,主要是為了解決數據異構的問題,負責完成從數據源(各種業務系統)中找到并取出當前主題所需要的那部分數據,輸入統一的數據存儲中,也就是我們常說的中間庫,由于數據倉庫中各個主題的數據都是按照前端業務需求存放,因此,需要在抽取的過程中按照預先設計好的數據規則進行清洗或轉換,使本來異構的數據格式能統一起來適應新的標準需求,最后,將處理后的數據從統一的數據存儲平臺按增量或全量的形式加載到目的端的數據倉庫中,在數據加載過程中定時進行,并且不同主題的數據加載任務有各自不同的調度時間[3]。
3 柳州城市職業學院解決方案
信息系統集成要解決的首要問題是由于各部門業務管理不同產生的信息的異構性問題,集成能否成功的關鍵不僅取決于基礎平臺的建設是否完善,更多的是在于信息化組織體系是否完備,管理制度是其邁向規范化的前提,是規避建設風險的保障。下文討論的是數據集成中幾個關鍵問題,需要各部門通力配合,協調完成[4]。
3.1 信息標準
高校信息化建設已經從單一的部門內部數據流通進入跨業務領域數據共享、實現業務聯動、建立統一信息系統集成階段。因此,為了使信息有序流通,保證信息的一致性和權威性,必須制定統一的信息標準。
信息標準為學校業務數據“如何存、存什么、存哪兒”提供了詳細的規范,標準是否規范決定了信息的交流與共享等性能。因此,在建立標準之前應首先考慮幾點內容:(1)要充分采用目前已有的國家標準和教育部教育管理信息化標準以及其他相關行業的標準,建立適合自身特點的校內信息標準體系。(2)盡量使用學校已發布的數據標準,使學校已有的信息資源得到最大程度的利用。(3)把局部的業務系統應用問題放在整體系統架構中考慮,達到全局優化,符合整體的效果。除此之外,信息標準必須遵循唯一性(一個代碼只唯一表示一個編碼對象)、實用性(要盡可能地反映分類對象的特點,便于記憶和填寫)、可擴展性(為新的編碼對象留有足夠的備用碼)等基本原則。在標準應用中,原則上學校制定的數據標準應首先遵從國家標準、教育部標準和相關行業標準。
根據學校實際情況,我們在建立信息標準中,大致建立了如下幾個規則。
(1)機構編碼:采用4位編碼分別表示其中的機構屬性、流水號以及內設機構編號。
(2)教職工編碼:采用10位編碼,其中包含了入校年份、崗位屬性以及流水號。職工號為教職工在學校工作期間唯一標識編號,不隨教職工的身份變更而發生變化。
(3)專業編碼:采用4位編碼表示系部、專業、學歷屬性等。
(4)學號編碼:采用9位編碼,包含了入學年份、專業編碼以及流水號。便于管理及集成的可靠性,學號是學生在學校內的唯一標識編碼,學生一經入學取得學號后,直至離校學號保持不變。不會因休學、轉專業等學籍異動而發生變化。
(5)班級編碼:采用7位編碼,包含入學年份,專業編碼前3位(因與學歷無關,故只取前3位),流水號。
學校公共數據標準具有權威性和唯一性,在編制好后,為確保信息化項目和學校整體教育教學信息化的正常運轉,應采用統一的數據標準進行數據修改或按照系統集成要求開發數據交換接口。
3.2 數據清洗
數據清洗是一個減少錯誤和不一致性、解決對象識別的過程,是利用相關技術過濾那些不符合要求的數據,將過濾的結果交給業務部門,確認是否過濾掉還是由業務部門修正,以提取出滿足數據質量要求的數據。數據的不符合性,主要體現在不完整的、錯誤的和重復的數據,表現形式在一些應有的信息缺失,比如身份證號,在教務系統中此字段可能不是必須的,但是在學工系統、一卡通消費系統中,它就是必填字段。表1給出幾個常用的清洗項及處理方法。
數據清洗是一個反復的過程,不可能在幾天內完成,在集成項目的建設初期、中期、建設完成之后都需要進行。數據清洗還需要特別注意的是不要將有用的數據過濾掉,在ETL開發初期可以定期向業務部門進行修正確認,每個過濾規則都要認真地進行驗證。
3.3 業務流程規范
數據集成中一個重要問題就是數據沖突問題,主要表現為來源不同的應用系統具有不同的數據源頭。因此,首先要規范數據來源的唯一性和權威性,而要確定源頭,必須要考慮的是該數據在整個集成項目中的活動生命周期,要從學校行政職能的劃分上去明確業務系統擁有的權威數據,如學生信息數據源頭應來自教務系統,教職工基本信息則由人事管理系統負責采集,這就確定了該系統作為其他系統的唯一數據源。數據集成平臺的數據流向如圖2所示。
凡是要集成到“中間庫”中的業務系統數據,我們都需要明確該業務系統的權威數據是哪些,并且該業務系統需要“中間庫”提供哪些數據,同時,數據源數據的添加或更改必須按照實際應用需求進行各種相應方式的同步更新,以確保公有基礎數據更新的及時性、準確性,為各業務系統的運行保駕護航。
3.4 實現思路
我們進行數據集成的一個目的就是維護數據源整體上的數據一致性、提高信息共享利用的效率,以較低的代價高效率地使用異構的數據,而數據源就是學校各個業務系統的數據庫,是集成到中心庫的數據抽取的來源。集成中心庫中所有的數據都來自于各應用系統,并保持同步更新。由于業務系統在集成之前都采用自己系統內部的編碼標準和字段類型,因此,采用ETL數據集成工具,從多個數據源中抽取數據,然后對數據進行必要的轉換、清洗和加載,最終得到統一的、完備的主題數據進入集成中心庫。在集成中,為了確保數據在交換過程中的安全性,保證原來分散的應用仍能獨立運作,需要在集成中心庫中根據業務需求建立中間表,將來自于業務系統的數據先加載到中間表,然后經ODI工具轉換、清洗后再放入集成中心庫的生產表中[5]。
各業務系統之間不直接進行數據交換,業務系統需要的公共數據先集成到中間庫中,再由中間庫根據預先設定的對應關系推送這些數據到其他業務系統中。這樣做的好處是:降低各個業務系統的耦合度、增加項目的可擴展性、保證了數據質量,并能有效地管理各業務系統間相互訪問的權限控制,同時保證了數據的安全性,確保了業務系統在中間庫短暫失效時依然能夠獨立運行。
3.5 集成方案
系統集成必須圍繞信息需求制定數據集成方案,并需結合信息標準數據流向規劃以及業務系統建設使用情況來確定集成邊界。需要集成方、信息技術中心、業務部門,第三方公司通力配合完成。
在進行集成同步方案時有兩種方式可以選擇,即全量和增量。全量集成指每次在數據同步時都將數據源上的所有數據一次性集成到目標數據庫中,以保證數據源和目標數據的一致性。增量集成每次只將業務系統上發生變化了的數據同步到目標庫中,以減輕數據庫服務器和網絡的負擔。選擇哪種方式多是以數據量的多少來決策,當數據量小的時候,可以采用全量更新數據,但隨著業務增長,數據量成幾何方式增長時,每次更新的工作將是耗時耗力的,也是業務方無法忍受的。此時,就需要一種解決方案將全量同步更改為增量同步。
另外,集成的周期選擇,對實時性不強或一次同步數據量較大的數據集成,通常選擇定期集成,且常將執行計劃設定在服務器壓力較小,網絡使用率較低的半夜或凌晨。無論是同步方式還是集成周期的選擇中,應根據業務需求確定,夠用即可[6]。
4 結語
在高校信息化建設的過程中,應用系統的集成是一項十分復雜且極具挑戰性的工作,同時也是一項必不可少的環節。只有各個部門通力合作,規范業務流程,確立數據標準,明確數據的權威來源,才能清除“信息孤島”,實現各個應用系統業務數據的互聯互通,推動信息化建設的快速發展。
[參考文獻]
[1]劉靜萍.數字化校園建設中基于ODI的數據集成平臺研究[J].青海師范大學學報(自然科學版),2016(2):16-20.
[2]孫瑋.基于ODI技術搭建高校數字化校園公共數據平臺[J].軟件工程師,2014(7):56-68.
[3]王超,吳薩.高校異構系統數據整合的設計與實現[J].四川文理學院學報,2015(3):39-41.
[4]徐琦.基于大數據的高校數據整合模式研究[J].中國教育信息化,2015(15):60-63.
[5]孫歆,卓榮慶,王蜜.基于ODI的高校異構系統數據整合模型研究[J].中國教育信息化,2015(5):54-57.
[6]李恒貝,唐惠燕,毛莉菊.基于數據整合的高校信息標準構建研究[J].中國教育信息化,2011(15):13-15.
Abstract:This paper analyzes the status quo of information construction in colleges and universities, and studies the key issues and technologies of multi-service system heterogeneous database in data integration. It gives the logical or physical realization of heterogeneous database by using ODI technology combined with the actual situation of colleges and universities. Integration, the integration mode can effectively break up the “fragmented data” in the original business system, eliminate the “information island” phenomenon, realize data synchronization, data access consistency, data storage centralized information synchronization and sharing, and promote university informatization construction.
Key words:data standard; data integration; ETL