黃 盼,王冬冬,王露露(西安文理學院,西安 710065)
信息系統中的數據集成方法研究與應用分析
黃 盼,王冬冬,王露露
(西安文理學院,西安 710065)
摘 要:為有效解決信息系統中存在的數據集成問題,本文基于當前數據的集成方法,與Excel軟件特點相結合,提出了適用于中小型企業的一種異構數據轉換體系,并對這一集成方法的思路以及具體應用展開了全面分析。
關鍵詞:信息系統;數據集成;數據轉換
隨著時代的進步與發展,計算機網絡技術被廣泛應用在了眾多行業、機構內部的業務與信息處理工作中。如何通過集成這些分散的數據,實現企業信息數據的貢獻,已成為當前社會的研究熱點之一。現階段,數據轉換或數據交換為數據集成常采用的手段。考慮到以往常用的將XML作為中間數據源的數據交換技術存在轉換效率低下,實現起來困難等不足之處,因而許多中小型企業紛紛采用Excel的形式將自動化辦公過程中產生的數據保存下來。
基于上述討論,筆者提出了一種適用中小型企業的,以Excel為中間數據格式的數據集成體系結構。這一體系結構的設計模式主要為三層架構,將用戶從目標數據中抽離出來,使用戶、代理及網頁等客戶端無需關心其它異構數據源的結構與格式,直接對數據展開操作即可。此外,由于中間數據采用了Excel格式,簡單化了源數據向目標數據的轉換步驟,有效實現了轉換效率高、代價小的目的[1]。
異構數據庫為實現數據共享的目標,應對數據轉換及數據透明訪問的實現抱以高度重視。在轉換數據過程中,不可廢棄原先的數據,應通過相應的方式將這些數據轉換至新的系統中,實現資源的再次利用。但是,由于數據具有多樣化的存儲模式及表示形式,因而在實際轉換方面存在一定的難度與復雜性。現階段,數據轉換主要具備下列幾種方法:
其一,以數據庫管理系統為基礎。通常情況下,數據庫管理系統能夠提供數據裝入工具,達到將外部數據轉移至本數據庫的目的。例如SBCP等工具能夠將多種類型的數據轉換為能被SQL Server關系型數據庫進行有效處理的數據。但是,此種轉換具有專用、特定的程序,多數條件下要求采用手工轉換的方式,且目的數據庫必須與轉換的工具相應對,此外,在更新數據時,也會導致不同步問題的出現。
其二,以中間數據庫為基礎。將數據在兩個具體數據庫間進行轉換時,需要將關系定義作為依據,先將數據從數據庫中提取出來,轉換成為中間數據的格式后,再在數據庫中寫入這些中中間數據。此種數據轉換方法具有擴展性強、使用的轉換模塊少等優勢,但同時也存在轉換空間大、實現過程復雜等不足之處。
其三,借助專業的轉換工具。目前,隨著XML的廣泛應用,其已逐步成為數據交換的標準,而且已開發出來的一些數據轉換工具均是執行此種類型的轉換[2]。例如,XML Junction便能夠允許集成一百多種的遺留數據系統,同時也支持文本文件、SQL Server、Word、Excel、RTF等眾多格式的數據進行轉換。
現階段,世界范圍內普遍關注的熱點就包括飲水安全,基于此,筆者就飲水安全信息系統為例對數據轉換展開分析。我國目前一些飲水安全項目的管理主要為手工方式,并以Excel的形式將其數據保存下來。由于數據具備多樣化的格式,給其管理工作帶來了一定的難度。為高效集成這些數據,運用機構數據的集成體系,并將Excel作為中間數據源尤為重要。
3.1 轉換系統的數據轉換方法
為促進數據轉換效率的提升,可選擇轉換的方法。當無法直接轉換源數據與目標數據時,就需要根據一定的映射規則,先把源數據轉換成Excel形式的文件,再將其轉換成所需的數據。另外,如果數據轉換接口存在于兩個數據可之間時,就可通過目標數據庫中的函數,將存在于源數據庫中數據與結果集直接轉換成目標數據。
3.2 數據的轉換流程
由于Excel文件為本系統的轉換對象,因而將其作為數據源。首先,系統從Excel數據源中得到原始的文件,并以標準數據格式為依據來檢查這些文件,文件只有通過檢查后方能被導入進目標數據庫,并且還可借助構造函數將這些文件成批地導入到臨時表格當中,其次再規范化處理這些導入的數據,為系統的后期使用提供便利。最后,在目標數據庫中保存所有處理完畢以后的數據。
3.3 實現數據轉換的技術
SQL Server為本系統目標數據庫。到目前為止,我國飲水安全項目依然存在許多不規范的數據文件,且具有較為復雜的結構。考慮到后期規劃與投資的重要依據便是這些數據,因而規范化這些數據,再將其向SQL Server數據庫中進行導入,從而為廣大用戶的使用提供便利尤為關鍵。在經過一系列的研究操作后,我們將以下技術應用在了本系統中,有效實現了數據的轉換。
其一,數據直接轉換的實現。以SQL Server提供的DTS創建包為基礎,在SQL Server中導入其他數據庫中的數據,然后借助Transact SQL來規范化處理導入其中的數據。
其二,中間數據的轉換。當數據源間缺乏直接的轉換接口時,目標數據便是源數據中的表格中的幾個字段、記錄值,或者是多份表格的關聯查詢結果等等,此時便難以對數據展開直接轉換。我們可以定義好的映射規則作為依據,在Excel文件中有順序地存放數據,并確保中間數據媒介得到數據雙方的理解。對于目的數據庫,則通過結合OpenRowSet函數與Excel編程模型,以unicode將數據文件成批導入SQL Server中,再借助Transact SQL來規范處理關系型數據庫中的導入數據。
文中所提出的飲水安全信息系統已經投入了實際運行中,充分滿足了用戶的需求。此種系統不但將之前不規范的、復雜的數據有效轉換為了規范簡單的數據,對于已經轉換的數據,其提供了在線分析、統計、匯總,并生成Excel文件格式的總報表,從而為做出正確的飲水安全決策提供了科學的參考依據。
參考文獻:
[1]邱樹偉.網格環境下分布式信息系統數據集成方法研究[J].廣州大學學報(自然科學版),2012,11(02):70-72.
[2]周海鵬,李軍懷.信息系統中的數據集成方法研究與應用[J].微電子學與計算機,2012,25(05):66-68.
作者簡介:黃盼(1990-),男,陜西洛南人,大四學生,研究方向:集成電子設備和信息系統研究。