[摘要]通過研究數(shù)據(jù)集成技術在企業(yè)數(shù)據(jù)系統(tǒng)管理中的應用,分析數(shù)據(jù)集成技術的好處,在應用時的分類,以及在企業(yè)應用中常見的三種架構。
[關鍵詞]數(shù)據(jù)系統(tǒng);數(shù)據(jù)集成;集成架構
[中圖分類號]TP311.52[文獻標識碼]A
當前許多企業(yè),因為內部部門缺乏溝通,或開發(fā)時間上的差異,采用了不同的技術開發(fā)數(shù)據(jù)信息系統(tǒng)。這些系統(tǒng)彼此獨立,數(shù)據(jù)不能交流或共享,形成一個個的“信息孤島”,大大降低了數(shù)據(jù)的應用和企業(yè)的工作效率。
數(shù)據(jù)集成技術可以將這些相互獨立的數(shù)據(jù)系統(tǒng)中的數(shù)據(jù),通過統(tǒng)一的應用標準和數(shù)據(jù)結構,進行整合,從而使各個系統(tǒng)或不同的用戶可以對數(shù)據(jù)進行有效的訪問。
所以使用數(shù)據(jù)集成技術,統(tǒng)一數(shù)據(jù)平臺,與各個異構數(shù)據(jù)庫數(shù)據(jù)進行交互,是解決企業(yè)現(xiàn)有問題的主要手段。
1數(shù)據(jù)集成技術的好處
1.1降低企業(yè)內的信息系統(tǒng)存儲數(shù)據(jù)、維護數(shù)據(jù)的成本。
1.2提高企業(yè)用戶使用數(shù)據(jù)的效率,加快企業(yè)進行決策和運營的效率。
1.3充分利用現(xiàn)有的數(shù)據(jù)系統(tǒng)進行數(shù)據(jù)集成,降低數(shù)據(jù)整合的成本,加快數(shù)據(jù)整合的速度。
2數(shù)據(jù)集成分類
2.1基本數(shù)據(jù)集成
在對基本數(shù)據(jù)集成時,數(shù)據(jù)異構問題是最難解決的問題之一。如果同一個實體對象存在于多個異構的數(shù)據(jù)源中,由于其名稱、定義或數(shù)據(jù)類型等不一致,還有對同一個對象描述的內容不一致,甚至無法確定這些實體對象是否是同一個實體時,就可以采取以下方法進行處理:
2.1.1分離。在無法確定的情況下,對每次遇到的實體對象都分配一個唯一標識符。
2.1.2合并。分辨出哪些實體對象實際上是同一實體對象,然后將這些實體對象進行合并。如果一個目標數(shù)據(jù)對應多個數(shù)據(jù)源,則還要指定發(fā)生沖突時,哪個數(shù)據(jù)源占據(jù)主導地位。
如果出現(xiàn)數(shù)據(jù)丟失,則需要產生一個接近實際數(shù)據(jù)的估算值來代替丟失的數(shù)據(jù)。
2.2多級視圖集成
在進行數(shù)據(jù)集成時,還需要集成各個數(shù)據(jù)源之間的關系,這就要使用多級視圖來進行。基本的數(shù)據(jù)存在于單個的數(shù)據(jù)源中,是數(shù)據(jù)的來源根本;中間視圖則是符合公共模型格式的數(shù)據(jù)視圖;綜合視圖是對中間視圖數(shù)據(jù)的進一步整理和導出。
2.3模式集成
在異構數(shù)據(jù)源中存在多個數(shù)據(jù)庫系統(tǒng)時,就需要進行模式集成。模式集成可以將異構數(shù)據(jù)源中不同的模式集成為一個統(tǒng)一的模式。
2.4數(shù)據(jù)粒度的集成
數(shù)據(jù)粒度指的是在數(shù)據(jù)庫設計過程中,數(shù)據(jù)保存的綜合程度或細化程度。數(shù)據(jù)保存的精度越低,數(shù)據(jù)綜合程度就越高,粒度就越大。反之,數(shù)據(jù)保存的精度越高,數(shù)據(jù)細化程度就越高,粒度就越小。
3數(shù)據(jù)集成架構
3.1單系統(tǒng)數(shù)據(jù)集成架構
這種數(shù)據(jù)集成架構是目前國內常見的架構設計,十分符合數(shù)據(jù)量較小的小型企業(yè)或對數(shù)據(jù)使用權限不敏感的部門進行數(shù)據(jù)集成。它主要是通過集成企業(yè)所有的位于基層的詳細數(shù)據(jù),并轉換成統(tǒng)一的數(shù)據(jù)標準,來進行設計。
單系統(tǒng)數(shù)據(jù)集成架構采用星型存儲結構,將多個數(shù)據(jù)源中的數(shù)據(jù)通過數(shù)據(jù)集成平臺,遷移到專業(yè)數(shù)據(jù)庫或數(shù)據(jù)倉庫中。其轉換條件十分復雜,需要處理和加載的數(shù)據(jù)量也十分巨大,達到TB級,但是數(shù)據(jù)加載的過程簡單清晰。
3.2企業(yè)統(tǒng)一數(shù)據(jù)集成架構
單系統(tǒng)數(shù)據(jù)集成架構雖然設計簡單,但是編碼復雜,需要處理和加載的數(shù)據(jù)量巨大,而且需要將企業(yè)各個部門業(yè)務系統(tǒng)中的數(shù)據(jù)都進行加載。這對于一些結構復雜的大型企業(yè),或者數(shù)據(jù)使用權限比較敏感的政府部門就不適用。
企業(yè)統(tǒng)一數(shù)據(jù)集成架構屬于多對多的架構,主要通過企業(yè)或機構內部各個部門一同進行協(xié)商,然后建立一個統(tǒng)一的數(shù)據(jù)集成平臺。該平臺對應各個部門的數(shù)據(jù)接口都是獨立的,每個數(shù)據(jù)接口都可以進行獨立的數(shù)據(jù)交換,以滿足這些部門不同的數(shù)據(jù)使用權限。而且數(shù)據(jù)集成平臺僅負責數(shù)據(jù)交互,不進行數(shù)據(jù)加載,這樣對于數(shù)據(jù)吞吐量較大、數(shù)據(jù)交換較為頻繁的部門來說,可以大大提高業(yè)務效率。
3.3企業(yè)之間數(shù)據(jù)集成架構
現(xiàn)代企業(yè)越來越注重與其他企業(yè)或機構進行數(shù)據(jù)交流或共享,以更好地進行企業(yè)間的合作及業(yè)務開發(fā)。這樣就需要在企業(yè)之間開發(fā)一個數(shù)據(jù)集成平臺,以滿足企業(yè)間的數(shù)據(jù)需求。這種跨越多個企業(yè)或機構的多對多數(shù)據(jù)集成架構,其需要連接的網(wǎng)絡更加復雜,數(shù)據(jù)交換業(yè)務更加頻繁,數(shù)據(jù)安全性的設置更高,系統(tǒng)響應的實時性要求也更強。
為了保障以上業(yè)務要求,一般會在各個企業(yè)與數(shù)據(jù)集成平臺之間添加前置機。前置機主要負責保護企業(yè)自身數(shù)據(jù)的安全性和獨立性,同時也分擔了一部分數(shù)據(jù)集成平臺獲取和交換數(shù)據(jù)的操作,以加快數(shù)據(jù)傳輸速度。
此外,企業(yè)之間數(shù)據(jù)集成架構還要滿足不同企業(yè)的各種數(shù)據(jù)接口、各種數(shù)據(jù)類型、各種數(shù)據(jù)標準,以及數(shù)據(jù)交換的實時性、數(shù)據(jù)抽取和傳輸?shù)乃俣取?shù)據(jù)質量等要求。這需要對該架構進行進一步的研究和剖析。
以上這三種數(shù)據(jù)集成架構,基本包含了企業(yè)對數(shù)據(jù)集成技術應用的各種情況。這三種架構是目前國內最常用的數(shù)據(jù)集成架構,除此之外,數(shù)據(jù)集成技術也逐步走向成熟,數(shù)據(jù)集成的應用也會更加的種類繁多。
4結束語
數(shù)據(jù)集成技術是為解決當前企業(yè)中數(shù)據(jù)源彼此孤立,數(shù)據(jù)利用率低下,數(shù)據(jù)混亂,資源極度浪費等問題的一種有效技術,本文探討了數(shù)據(jù)集成技術在企業(yè)數(shù)據(jù)系統(tǒng)管理中的應用的好處、分類和常用架構。今后,還需進一步討論數(shù)據(jù)集成技術的不足之處,以進行修正。