徐保國
【摘要】設計數據庫的目的是為了管理大量的數據,對數據的管理既涉及到數據操作機制的提供,又涉及到數據存儲。如果把數據庫管理系統看成是一個倉庫,在倉庫里存放著各種各樣的的物品,另外還有一個倉庫保管員,這個保管員負責不同物品的搬進、存儲、搬出,這里的倉庫就類似于存儲數據的“文件”。
【關鍵詞】數據庫系統;存儲系統設計;數據庫倉庫
一、系統設計及解決方案實現的背景
縱觀券商IT發展現狀,首先企業級業務應用越來越多,分工也越來越細,而企業級的業務應用需求和要求都越來越高,單個業務產品滿足不了企業級應用需求,以下是目前券商主要面臨的企業級應用需求:
1.面向上級監管部門的數據報送
2.企業級合規管理和風險控制要求越來越高
3.實時動態業務風險監控
4.企業決策支持平臺
5.客戶營銷管理
二、數據中心目標定位
概括而言,數據中心一方面是現有營業部柜臺交易系統、總部清算系統、稽核系統等業務系統的數據采集者和管理者,同時也是營銷管理、稽核監控、風險管理、數據挖掘和多維分析系統的數據提供者。
(一)產品定位。企業數據標準中心,據交換中心,據服務中心。
(二)功能定位。致力于企業業務數據的管理方法和管理工具研發,包括業務數據組織架構規劃、數據規范管理、數據質量管理、數據發布管理以及數據的復用性管理等方面的系統性工程。
(三)存貯設計定位
既要考慮高并發高效率的OLTP服務處理,也要考慮大數據量訪問的OLAP統計分析要求, 基于未來5年到10年的數據存貯容量測算,以此來考慮系統的主機、存儲架構設計以及數據處理技術應用等技術研究工作的方向。
三、系統設計原則
數據中心項目技術解決方案的設計原則體現在以下六個方面,使得有限的資源以較有效的協作方式共同發揮效用:
(一)可擴展性
數據模型:設計模型時,盡可能滿足未來可能要上線的業務系統數據模型,同時還需制定一套合理的模型設計規范。
數據分發平臺:在設計時應考慮,隨著分發數據規模的擴大和分發節點的增多,對分發處理和傳輸處理的性能要求會越來越高。
(二)高性能
分發平臺:需考慮大數據量條件下的文件傳輸效率,主要體現在特殊日期及特殊情況下的全量文件傳輸。數據庫設計:同時要考慮分析類型的大批量數據或頻繁訪問需求,還要滿足實時監控類的高并發訪問要求。。
(三)可管理性
數據質量管理:報告的可讀性,標準的可維護性,問題處理流程的可操作性。數據分發平臺:需要充分考慮數據分發任務易于配置,傳輸結果易于監控。
(四)高可用性
數據模型的可用性:能屏蔽源系統結構的變化對數據中心系統帶來影響。局部數據模型的擴展不會對其它數據模型產生大的影響。系統備份:生產系統出現異常時,備份恢復機制及時恢復處理。
(五)安全性。一是防止數據中心系統的數據資源被惡意修改和盜取;二是防止數據在傳輸過程中被截留和篡改。
(六)可重用性。可重用性是指盡可能避免數據中心項目的重復投入,應盡可能考慮包括物理設備、系統軟件、框架組件、規范方法以及業務應用等多個層面上的復用。
四、數據庫存貯方案設計
1.1 數據各邏輯層級劃分。為保證數據中心能提供多層次、多粒度、多特征的數據服務,并保證ETL過程的清晰、可控、完整、準確,數據中心根據數據性質、處理階段以及數據質量的不同分為原始層、標準層、模型層、數據集市層4個數據層,具體如下:
1.2 數據庫系統的硬件架構設計。根據系統分析得出的各項數據,即可得到相應的硬件配置要求。
1.2.1 存儲設備容量評估。本節提出的“存儲容量規劃”將支持過去5年以上的歷史數據和未來10年的新增業務數據的存儲空間要求。
1.2.1.1 基礎數據規模評估。根據調查,某券商2002年以來(至2012年)的歷史數據規模可按1.5T計算。
我們以此次配置的存儲“滿足未來3-4年(從2012年算起)的業務正常運行”、“將考慮未來10年的業務運行的擴展能力”這兩個條件來評估,得出的基礎數據規模為:
A2015=1.5T+(7G×25%×236)×(1.05+1.1025+1.1576)
約=2.9T
A2022=1.5T+(7G×25%×236)×(1.05+1.1025...+1.05^10)
約=6.8T
注:公式中的25%是增量數據因子。每次進行清洗時,通過一定的方法,將部分非增量數據丟棄(這75%的數據,我們通過比對法發現其與歷史數據或存量數據有重復取值,將其載入后暫存待查或去除)的結果。
1.2.1.2 邏輯數據存儲規模評估。上節評估出的“基礎數據規模(后稱A)”,將是本系統進行邏輯數據存儲規模(后稱B)的依據。原始層數據的規模B1:按最后年度的1倍采集數據量計算。ODS層數據的規模B2:考慮到原始數據被處理后的部分業務數據的重新組織和重定義,且會生成一定的聚集數據,應給予適當的冗余,此處的冗余因子設定為1.2。
EDW層數據的規模B3:考慮ODS數據將經過較大規模的重新組織和聚集處理(初步設計按10大主題進行分析)進入此層,需要考慮較大的冗余度,按業務特點初步設定此處的冗余因子設定為1.2×1.3=1.56。
1.3 備份環境設計。根據證監會的相關要求,系統需要建設本地“備份和應用測試機”環境。但如果我們只是刻板的將“生產環境”克隆一下,將極不經濟。我們需要按照應用特點、數據處理要求,來定制備機架構。本地“備份和應用測試機”需兼顧“數據備份和本地容災”雙重職能。
1.4 數據備份需求評估。數據中心的數據必須建立可靠有效的備份機制,避免由于數據丟失。初步規劃:將數據中心管理的數據分成3類并分別制定備份策略。這3類數據可以使用用戶隔離、表空間隔離相結合的方式,增強備份調度的可操作性。靜態數據、配置信息表(/領域表):可以每日備份,并可覆蓋性備份,保留最近3日或者5日的備份即可。
參考文獻
[1] 湯庸, 葉小平, 湯娜. 數據庫理論及應用基礎. 北京: 清華大學出版社, 2004
[2] 馮建華,周立柱等編著, 數據庫系統設計與原理(第2版). 清華大學出版社, 2007