茍在明+姜維軍+王彥兵+王海峰+劉靜+徐景東
摘 要:文章分析了寧夏全業務水利數據模型的研究背景,闡述了模型的研究路徑,介紹了模型的需求分析、模型設計和數據建模內容,以期發揮水利信息化的優勢,促進行業發展。
關鍵詞:水利信息化;全業務;水利數據模型;寧夏
中圖分類號:TV222文獻標志碼:A 文章編號:2095-2945(2017)31-0122-03
1 背景
長期以來,寧夏水利信息化建設按照項目應用方式建設,數據庫建設及數據庫的物理部署缺少統一統籌規劃,呈現數據庫類型和數據庫結構異構現象普遍,數據建設內容突出表現為專項業務數據,數據資源被縱向(地域)橫向(業務部門)切成了若干碎片,造成數據庫條塊分割和數據庫交叉重復建設的現象,形成存在入庫數據量分布不均、入庫數據種類不全、入庫數據規模偏小、數據分類不齊全、編碼不統一、數據零散孤立且缺少關聯的數據質量差的事實,導致數據資源的“一數一源”難以保證,數據更新和數據安全得不到有效保障。這嚴重降低了寧夏水利數據資源的利用率,減緩了寧夏水利信息化現代化水平的發展。
綜上各種因素,為了滿足寧夏水利數據資源的全局共享、應用和統一管理需求,適應當前“互聯網+”、大數據技術的發展趨勢,發揮水利信息化的最大社會經濟效益,為寧夏水利數據資源的“資源集約、信息集中、業務集成”數據環境提供支撐,需要研究一套“結構清、數據明、使用暢、管理范”的寧夏全業務水利數據模型是非常有必要的。
2 研究路徑
基于《水利數據中心建設基本技術要求》中對數據層的建設要求,以寧夏水利信息資源規劃理論為指導、借助于其他行業的成功經驗,以及云計算、大數據等新技術的拓展要求,進行寧夏“全業務水利數據模型”的研究與設計工作。寧夏全業務水利數據模型按照“需求分析”→“數據模型設計”→“數據建模”的研究路徑進行研究、設計和實現。首先通過對寧夏水利業務職能分析確定寧夏水利全業務范圍和數據資源范圍,其次對確定的水利業務范圍流程進行分析,形成業務資源目錄、職能分布等分析成果,最后進行根據業務流程,對業務流程環境蘊含的數據資源的數據及數據流程進行分析,形成數據資源目錄、數據分類及編碼等成果。通過業務數據關系成果確定業務和數據的映射,從業務角度,可劃分業務所包含的數據、數據內容。保證從數據角度,可規范數據的業務分類。
在需求分析的基礎上,數據模型設計工作,按照“客觀信息表述”→“客觀信息到計算機過渡”→“計算機物理實現”的數據模型設計過程進行概念數據模型→邏輯數據模型→物理數據模型設計。
在完成數據模型設計的基礎上,著手進行數據建模工作,包含建模型方法、數據庫邏輯劃分、制定數據庫規范、數據庫模型優化等內容。
3 需求分析
3.1 職能域分析
職能域模型決定了數據中心的業務建設范圍。職能域是對寧夏水利相關單位范圍內主要業務活動領域的抽象。對寧夏水利職能域的劃分,應在充分了解寧夏水利各機構單位職能的基礎上,辨別業務相關度,進行合理的、粗細適宜的劃分。
3.2 業務分析
按照寧夏職能域劃分需求,將寧夏水利業務劃分為17大類業務,包括:防汛抗旱、水文水資源勘測、水土保持、水利工程移民、農村水利建設、規劃計劃、水利建設項目管理、水利科技教育、水利經濟管理、安全生產管理、水務運營、財務審計、人事管理、黨政管理,每一大類業務最多可詳細劃分到3級業務。
3.3 數據分析
在對寧夏職能域的業務流程分析基礎上,根據業務與數據關系分析,依據國家對水利信息分類的相關標準,結合目前對寧夏水利業務數據情況,對寧夏水利數據資源進行數據分類,并對分類數據按照一定的編碼規則進行編碼,用以唯一表述分類數據。
4 模型設計
在對寧夏水利相關的各類數據深入的分析基礎上,進行邏輯數據庫的設計和劃分;基于數據標準,完成數據的概念模型、邏輯模型、物理模型的設計。
4.1 數據模型設計過程
針對各類數據庫中數據模型的設計,采用從概念數據模型到邏輯數據模型,最終到物理數據模型的設計方法進行數據建模。數據庫建設方案以概念數據模型和邏輯數據模型設計為主。物理數據模型可根據選用的數據庫管理系統的不同,從概念模型或邏輯模型中導出生成。
數據中心的數據庫是個復雜的系統,包含內容眾多,需按照一定調理進行設計。無論是概念模型還是邏輯模型均采用分層化設計。按照數據間關系及數據劃分,頂層概念模型表示了各類數據間的轉換和使用關系,頂層邏輯模型描述了各邏輯庫劃分及關聯關系,以下各層將逐層細化。
專用數據庫的設計應依據各應用數據庫設計而定,主題庫設計視不同主題設計各自的數據庫結構,元數據庫設計應以元數據建設規范為依據,設計元數據庫包含的內容和結構。
4.2 概念數據模型設計
數據庫概念模型設計是一種面向問題的數據模型,是從用戶的角度,按照用戶的觀點對水利業務和管理數據和信息進行描述,按照現實的工作流程和流轉的信息抽象成數據庫的概念模型。概念模型獨立于數據庫邏輯結構,也獨立于支持數據庫的DBMS和計算機系統,是現實實體和信息化系統中實體的中介,一方面能夠充分反映現實世界,包括實體與實體、實體與屬性之間的關系,同時又易于向關系、網狀、層次等各種數據模型轉換,它將現實世界的信息結構統一用屬性、實體以及實體間的聯系來描述,因此概念模型設計是數據庫設計的關鍵一步。
(1)頂層數據概念模型
寧夏全業務水利概念數據模型如圖1。
(2)二層概念數據模型
二層概念數據模型包括專用數據內部概念模型和基礎數據內部概念模型。專用數據內部根據關聯的不同應用劃分成不同的專用數據子集,相互之間無交互關系,通過基礎數據、主題數據共享信息,因此相互相對獨立。基礎數據相互之間雖獨立存儲,但存在著相互影響的關聯關系,圖2為各類數據的概念模型。endprint
(3)主題數據概念模型
主題數據內部按照不同主題劃分成不同的數據子集,相互之間相對獨立。
(4)元數據概念模型
元數據內部,內聯映射元數據實現技術元數據與業務元數據的層間映射,元數據概念模型如圖3。
3.3 邏輯數據模型設計
邏輯數據模型反映的是設計者對數據存儲的觀點,是對概念數據模型進一步的分解和細化。邏輯數據模型是根據業務規則確定的,關于業務對象、業務對象的數據項及業務對象之間關系的基本藍圖。邏輯數據模型的內容包括所有的實體和關系,確定每個實體的屬性,定義每個實體的主鍵,指定實體的外鍵,需要進行范式化處理。邏輯數據模型的目標是盡可能詳細的描述數據,但并不考慮數據在物理上如何來實現。
邏輯數據建模不僅會影響數據庫設計的方向,還間接影響最終數據庫的性能和管理。充分詳細地邏輯數據模型設計,可在物理數據模型設計時有更多可供選擇的方法。
3.4 物理數據模型設計
物理數據模型是面向計算機物理表示的模型,描述了數據在儲存介質上的組織結構。每一種邏輯數據模型在實現時都有其對應的物理數據模型。依據和邏輯數據模型的對應關系,包括專用數據庫物理模型、基礎數據庫物理數據模型。
(1)專用數據庫物理數據模型
專用數據庫是以各個單一業務應用為主,通過對現有各業務應用系統數據庫的整合同步、數據處理形成。各應用系統根據功能及實現需根據數據中心相關規范設計,自行設計項目庫數據模型,并完成相關的數據庫,寧夏水利數據中心提供各專用數據庫的物理結構實現。
(2)基礎數據庫物理數據模型
基礎數據庫是數據中心體系的核心,存儲從專用數據庫抽取來的基礎明細數據以及部分輕度匯總數據和派生指標數據或水利相關部門業務中產生的業務數據,包括水利對象基礎數據和基礎業務數據等內容。
借助于面向水利對象的設計思路,以水利數據對象為主線,設計基礎數據庫物理數據模型,把寧夏水利相關的12基礎業務數據有機組織為一個整體。基礎數據庫數據物理模型主要用于存放水務對象的個體屬性、關系(如對象間關系、編碼關系等),以及字典信息,具有共性的水利業務數據。
(3)元數據庫物理數據模型
根據制定的符合寧夏水利情況的元數據標準,設計數據中心元數據庫數據模型,元數據庫存儲用于對數據中心各類實體數據進行描述的元數據信息、元數據的字典信息、信息資源目錄信息。用來主要描述實體數據的定義、內容、質量、表示方式、空間參考系、管理方式以及數據集的其他特征等,提供對寧夏梳理數據資源統一描述、應用和管理支撐能力。
(4)主題數據庫物理數據模型
面向業務決策的需求建模,其數據源包括基礎庫、元數據庫以及外部共享數據。其中前兩類數據源的使用可以通過數據挖掘技術,按照應用需求,從基礎數據庫通過抽取和輕量級匯總,抽取匯集到一起,形成數據立方,進行多維度的統計分析,提供面向主題的數據服務。外部共享數據源包括互聯網上的實時信息以及可獲得的外部單位提供的共享信息,對其的使用可以借助寧夏水利數據中心的應用服務平臺,通過大數據分析技術形成面向主題的成果供業務分析和決策支持使用,得到按主題劃分的主題庫匯總數據層的數據模型。主題數據庫物理數據模型架構如圖4所示:
4 數據建模
4.1 數據庫邏輯劃分
根據寧夏水利數據分類,按照用途和業務屬性,可將數據中心分成四個邏輯數據庫,即:元數據庫、專用數據庫、基礎數據庫、主題數據庫。其中元數據庫內容包括技術元數據、業務元數據和內聯映射元數據;專用數據庫按照不同的應用系統劃分為不同的邏輯數據庫;基礎數據庫根據數據分類包括28個邏輯子庫;主題數據庫按照挖掘的不同主題包括多個對應的數據庫表群。
4.2 制定數據庫規范
數據規范化的設計和建立是將數據庫各類標識名稱統一化、規范化,有助于確立信息之間的一一對應關系,保證信息的可靠性、可比性和適用性,保證信息存儲及交換的一致性與唯一性,便于信息資源的高度共享。綜合國家已制定各類標準,結合寧夏水利信息化本地情況,制定符合寧夏水利情況、滿足寧夏水利需求的數據庫標識符標準。
4.3 數據庫性能優化
分析并優化數據庫的“時-空”效率,盡可能的“提高處理速度”并降低“數據占用空間”是數據庫性能優化設計的主要依據。數據庫性能優化主要包括數據庫的物理存儲優化、數據庫結構優化、數據庫運行優化。物理存儲優化涵蓋數據庫實例、表空間等方面優化,數據庫運行優化涵蓋表分區、索引、查詢優化等。
5 結束語
研究和設計寧夏全業務水利數據模型對滿足寧夏水利數據資源的全局共享、應用和統一管理需求,適應當前“互聯網+”、大數據技術的發展趨勢,發揮水利信息化的最大社會經濟效益具有重要意義。
參考文獻:
[1]賀挺.面向水利應用網格的數據中心設計與開發[D].西安理工大學,2010.
[2]賀挺,解建倉,李建勛,等.一種面向水利網格的數據中心設計與開發[J].中國水利,2009(16).
[3]成建國,錢峰,艾萍.國家水利數據中心建設方案研究[J].中國水利,2008(19).endprint