張文武 陳新躍
數據倉庫的基本理論
著名的數據倉庫專家W.H.Inmon在其著作《Building the Data Warehouse》一書中對數據倉庫的定義是:數據倉庫是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用于支持管理決策。
對于數據倉庫的概念可以從兩個層次予以理解,首先,數據倉庫用于支持決策,是對各類數據的組合分析和再加工,它不同于企業現有的操作型數據庫5其次,數據倉庫是對多個異構數據源的有效集成,集成后按照主題進行重組,并包含歷史數據,而且存放在數據倉庫中的數據一般不再修改。
數據倉庫的特點
根據數據倉庫概念的含義,數據倉庫擁有以下四個特點:
(1)面向主題。操作型數據庫的數據組織面向事務處理任務,各系統之間相對分離,而數據倉庫中的數據是按照一定的主題進行組織。主題是一個抽象的概念,是指用戶使用數據倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型信息系統相關。
(2)數據集成。面向事務處理的操作型數據庫通常與某些特定的應用相關,數據庫之間相互獨立,并且往往是異構的。而數據倉庫中的數據是在對原有分散的數據庫數據抽取、清理的基礎上經過系統加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關于整個企業的一致的全局信息。
(3)相對穩定。操作型數據庫中的數據通常實時更新,數據根據需要及時發生變化。數據倉庫的數據主要供企業決策分析之用,所涉及的操作主要是數據查詢,一旦某個數據進入數據倉庫以后,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
(4)反映歷史變化。操作型數據庫主要關心當前某一個時間段內的數據,而數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。
數據倉庫的建設,是以現有業務系統和大量業務數據的積累為基礎。數據倉庫不是靜態的概念,只有把信息及時交給需要這些信息的使用者,供他們做出改善業務經營的決策,信息才能發揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時提供給相應的管理決策人員,是數據倉庫的根本任務。因此,從產業界的角度看,數據倉庫建設是一個工程,也是一個過程。
數據倉庫系統體系結構
(1)數據源。數據源是數據倉庫系統的基礎,通常包括企業內部信息和外部信息。內部信息包括各種業務處理數據和各類文檔數據;外部信息包括各類法律法規、市場信息和競爭對手信息等。
(2)數據的存儲與管理。這是整個數據倉庫系統的核心。數據的存儲和管理是針對現有各業務系統的數據,進行抽取、清理,并有效集成,按照主題進行組織。數據倉庫的組織管理方式決定了它有別于傳統數據庫,同時也決定了其對外部數據的表現形式。
(3)OLAP服務器。是對分析需要的數據進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,并發現趨勢。
(4)前端工具。主要包括各種報表工具、查詢工具、數據分析工具、數據挖掘工具以及各種基于數據倉庫或數據集市的應用開發工具。其中數據分析工具主要針對OLAP服務器,報表工具、數據挖掘工具主要針對數據倉庫。

從上圖可以看出,由于數據倉庫技術的實現,各業務系統,如主機、信貸管理系統、中間業務系統、財務管理系統等形成的數據源,經過數據清洗、轉換加載之后,分別形成規劃化模型,全部轉換到數據集市,最后提供給用戶使用。
我國商業銀行數據倉庫建設的發展及問題
數據倉庫的發展歷程
美國人理查德·諾蘭(Richard.L.Nolan)提出,無論是一個行業,還是一個國家或地區,其信息化大體要經歷初始、蔓延、控制、集成、數據管理和成熟等發展階段,各個階段互相聯系,不能超越。后來,米歇(Mische)將諾蘭模型中的集成與數據管理進行了整合,認為信息化的一般路徑是由起步、增長、成熟和更新四個階段構成。而每一階段在技術、代表性應用、數據庫及其存取能力、IT文化、全員素質等方面都有既定內涵。這就是諾蘭模型和米歇模型,也是當今衡量信息化發展階段的經典理論。
用諾蘭模型考察銀行信息化,可以得出:我國商業銀行正處于從控制階段向集成階段過渡的過程中,其特征是:信息化建設快速發展,信息集中網絡建設已近完工,系統集成的需求日益迫切,業內開始進行數據集成應用系統的全面規劃和標準制定,為下一輪的信息化建設高潮作準備。用米歇模型考察銀行信息化,可以得出:我們整體上處于增長階段。其特征是:網絡硬件設施的建設已經完成,而技術標準與業務規范并不統一,并且已經開始在標準和規范的基礎上,進行數據的集中管理和深度利用,逐步向成熟階段過渡。
結合國內發展來看,我國金融業信息化經過三個主要階段:
第一階段是以電子化代替手工勞動的“賬務或交易電子化”階段,即電子化階段。大致的時間是上世紀80年代中到90年代初,銀行的對外業務以計算機處理代替手工操作。
第二階段是網絡互聯和數據集中階段,即“數據大集中”階段。90年代中后期到現在的數據集中階段,也就是把計算機連接起來,實現全國范圍的銀行計算機處理聯網,使所有的業務都歸在一個業務系統下,比如銀行前臺服務渠道的整合、數據倉庫、呼叫中心等等,便于集中統一的管理。數據集中為金融創新提供了更廣闊空間,有利于提升銀行的核心競爭力。
第三階段是業務、管理和決策的全面信息化階段,對集中的數據進行全面分析,支持以產品、客戶為中心的業務創新、管理和決策信息化,即“管理和決策信息化”階段。數據倉庫是銀行數據集中后的必然建設項目,也是銀行走向以產品、客戶為中心的重要的技術途徑。尤其是對于四家國有商業銀行和股份制銀行來說,數據的物理大集中已初步實現,銀行數據整合的主題逐漸轉變為圍繞管理主題的數據深加工。
目前我國銀行信息化的基礎設施建設框架已經基本形成,各大商業銀行基本完成物理和邏輯的數據集中工作和綜合業務系統的推廣,初步建立了統一的業務應用平臺,使所有業務品種能夠同步推進,加快了大規模、集成化的業務開發和創新速度,提高了市場的反應能力和業務效率,并且向社會和廣大客戶提供了多種新型、便捷的金融服務。
數據倉庫發展面臨的主要問題
(1)數據倉庫成功的關鍵在于應用。數據集中不是目的,關鍵在于銀行的運用。數據集中之后,銀行的數據匯劃等業務實現了“零距離”,但這只是銀行數據倉庫運用最簡單的一個功能。建立數據倉庫,銀行可以合理地管理數據,根據業務需要建立各種應用模型,為決策
分析提供有力支持。例如產品、部門、分支機構和渠道的績效管理;客戶關系管理(CRM);按照不同分類進行風險管理;銀行資本管理等,都需要借助于數據倉庫達到管理目的。然而這些應用并不會因為數據集中而自動到來。
(2)銀行數據集中后,迫切需要按照業務模型進行整合。銀行在完成數據集中改革之后,面臨的緊迫任務是圍繞應用對數據進行整合。由于在IT系統開發初期,缺乏統一標準,機型、系統平臺、計算機接口以及數據標準等方面各地銀行差距較大;不同分支機構、不同業務軟件的設計思路、數據結構等差異也較大,系統間條塊分割嚴重,不能對數據資源進行有效的集成管理,也無從對數據資源進行更深度的挖掘與分析,形成“信息孤島”。
從技術上說,在數據集中和業務集中這一點上,各個銀行差距會很快縮小,早晚都會達到同一個水平,但在數據的深入挖掘方面,縮小差距的難度要大得多。在此過程中,迫切需要統一數據庫平臺,使原來各自獨立的應用系統在數據上可以互通共享,提高數據的可用性;需要通過業務應用整合IT系統,這是一種真實意義上的系統重構,使系統在整合完成后,達到最優狀態。
然而銀行要實現這樣的目標并不容易,如同所有的系統開發一樣,需要循序漸進,分步實施。當前,在數據集中即將完成、數據應用剛剛開始的關鍵階段,能否充分發揮集中優勢,實現管理創新,直接決定著中國銀行業的核心競爭力。圍繞管理主題的數據整合成為商業銀行業務管理與技術升級面臨的一個艱巨任務。
我國商業銀行數據整合的現實選擇
數據整合的基本概念
數據整合就是將多個分散的數據集市合并成單一的數據倉庫,將多個數據集市合并到單一平臺,在保留原有功能的同時,使整個組織內的信息使用人員都能夠訪問,便于銀行進行更好的決策;同時可以節省成本,將多個數據集市整合成集中的數據倉庫,減少了硬件、軟件和人員成本,也避免了今后的額外開支;當要求更多的信息和應用時,數據倉庫能夠有效地提供解決方案,比另外建立數據集市更快速、更經濟。
業務模型是數據整合的一個關鍵問題
數據整合的核心部分是業務模型的構建和管理。在數據整合中,需要考慮以下因素:數據倉庫整合必須針對現有的問題,同時考慮到未來的擴展需求;促進全行業務的一致性和跨部門之間的業務整合;消除數據重復與信息訪問渠道的冗余,提高信息一致與準確性;根據客戶的使用情況、模式及其角色選擇合適的工具;數據擁有者應該是相關的業務人員;把數據質量的提高與特定的業務目標聯系起來。
分產品業績核算體系是當前銀行進行數據整合的理想模型
筆者認為,銀行在數據整合過程中,以產品業績核算為契機,參照產品業績核算模型,整合銀行數據庫,是當前銀行的一個現實選擇。主要原因是:
(1)產品業績核算模型可以理順數據倉庫的組織樹和代碼體系。在數據倉庫整合過程當中,有兩個最核心、最關鍵的問題必須解決:一是銀行的組織樹,即銀行的數據流匯總體系;二是銀行的代碼體系,這是數據交換是否暢通的關鍵因素。在組織樹設計過程中,由于系統的管理要求不同,原有系統的組織樹并不完全統一。不同的組織樹,往往會成為銀行數據交換的最大障礙,導致匯總數據失去管理價值。產品業績核算體系的建立,需要銀行將所有收入、支出、風險等各個數據按照統一的組織樹和代碼進行匯總運算,這幾乎涉及到銀行所有的主要系統。如果產品業績核算體系建立之后,銀行各大系統的組織樹和業務代碼基本統一,這好比打通了人體的脈絡,所有數據都在標準化的渠道中有規則的運行,解決了數據倉庫中的核心問題。而且,由于產品業績核算體系設計比以機構為主體的損益表更為精細,也是傳統組織樹的一個細化;而在以客戶為單位的業績核算中,這一問題是難以解決的。
(2)產品業績核算體系的建立,可以帶動銀行數據的相互檢驗與整合。數據的惟一性,是數據倉庫的標準之一。銀行在原有系統設計中,不同系統從各自角度出發,在同一管理事項上可能生出不同的數據,一方面加大了管理成本與操作人員的工作量,另一方面,同一事物的不同結論,為銀行的管理決策帶來了困惑。產品業績核算體系的建立,需要將不同數據組織起來,在此過程中,不同數據源之間相互檢驗,數據質量和管理質量逐步提高,使數據倉庫逐步達到惟一性標準。
(3)產品業績核算從整合的粒度來講,作為數據倉庫初期整合的標準較為適宜。從銀行的內部管理來講,在管理主體從機構細化到個人過程中,產品是橋梁,涉及到銀行管理的方方面面,有助于理順銀行的整體布局,同時達到了精細化管理的目的。產品業績核算涉及數據倉庫整合的內容包括:機構體系、產品體系、部門體系、數據期限結構,以及內部資金轉移價格體系、成本分攤體系、風險成本計算方法體系等,這些內容是機構、產品、客戶的業績核算的基礎,也是預算、評價、分析等銀行管理的基礎。推行產品業績核算體系將帶動機構核算的規范化,也有助于客戶數據的整合。因此,以產品業績核算模型整合數據倉庫,不僅是必要的,而且是現實的,數據倉庫進行整合,不能缺少產品業績核算這一環節。
(4)從業務角度看,產品業績核算體系的解決,是銀行客戶相關模型的基礎。銀行的許多精細化管理,實際上都離不開內部資金轉移價格、風險成本計算、成本分攤等各類標準,這些內容或者作為參數,或者直接引進,是銀行決策的重要依據。在這些問題沒有很好解決的情況下,其他模型的建立往往缺乏必要的基礎。例如CRM(客戶關系管理)中的業績核算以及定價模型,如果沒有內部資金轉移價格、費用成本分攤、貸款風險損失參數,CRM數據的深加工將難以進行。分產品業績核算體系的建立,為銀行其他業務模型的建立提供了大量管理參數,為其他模型的深入推進奠定基礎。
(5)產品業績核算體系,本身也是數據倉庫建設的一大碩果,增加了數據倉庫的功能。產品業績核算體系的建立,一方面規范了銀行的產品分類標準以及相應的科目對應標準;另一方面,銀行的分產品業績核算本身就具有很大的管理價值,數據倉庫如果能夠支撐產品業績核算,其價值已經獲得了顯著體現。
分產品業績核算體系的設計與應用,大大推進了銀行的精細化管理,將銀行管理從機構為主,全面細化到所有產品與部門,同時也帶動了數據倉庫整合,并在此基礎上形成了新興的管理功能,對我國銀行業數據倉庫的應用具有標志性作用。圍繞經營決策的數據加工與分析,以及業務管理模式與數據整合的互動,必將成為提高核心競爭力的重要議題。
(作者單位:中國工商銀行計劃財務部)
責任編輯:柯丹
Kedan@ChinaBanker.net