梁 磊,胡耀光
(1.中國節能環保集團公司 辦公廳,北京 100082;2.北京理工大學 機械與車輛學院,北京 100089)
全需求分析法在數據倉庫項目中的應用研究
梁磊1,胡耀光2
(1.中國節能環保集團公司 辦公廳,北京 100082;2.北京理工大學機械與車輛學院,北京100089)
針對大數據背景下數據倉庫項目實施過程中,由于業務多樣性、變化性等帶來的需求獲取、數據分析與數據展現等問題,提出一種基于全需求分析法的數據倉庫構建方法,按照MECE原則,以“全需求做減法”的思路,研究提出包含業務需求分析、指標構建、數據分析與結果展現的數據倉庫系統構建過程;結合中國節能環保集團數據倉庫項目建設,對所提方法進行了應用驗證。
全需求分析;多維模型;數據倉庫
數據倉庫作為一種非常有效的分析工具,自產生以來在學術和產業界引發了眾多的研究與實踐,成為輔助企業管理層、決策層進行運營監控、戰略決策的重要手段。當前,以大數據為特征的企業經營管理與決策需求愈發迫切。企業業務的多樣性、管理的多變性給數據倉庫構建的需求獲取帶來更大困難,大數據背景下的數據倉庫建模、數據分析與結果展現,給傳統的數據倉庫構建方法帶來極大挑戰。
根據Inmon的定義,數據倉庫[1]是一個面向主題的、集成的、時變的、非易失性的數據集合,支持管理部門的決策過程。基于此,傳統數據倉庫建設過程中多以主題為核心進行需求分析,即圍繞一些分析主題,數據倉庫系統經過對操作型系統數據的清洗、轉換等操作,形成面向主題的視圖,提供決策人員使用。文獻[2-8]針對數據倉庫需求分析、數據獲取模式、數據倉庫設計階段劃分、數據倉庫的實施方法開展了相關研究。上述研究工作,各自解決了數據倉庫構建過程中存在的一些問題,但針對數據倉庫構建過程中的需求獲取方式依然沒有脫離傳統的需求調研和分析方法,即對項目建設單位業務人員的座談會、個別訪談及問卷等方式,但由于受制于樣本點數量、被抽樣業務人員的業務及知識局限,很難全面表述數據倉庫項目的需求。
為此,本文重點針對大數據背景下的數據倉庫項目實施過程中由于業務多樣性、變化性等帶來的需求全面獲取,數據倉庫建模、數據分析與數據展現等問題,提出一種基于全需求分析法的數據倉庫構建方法,根據MECE[9]原則,按照“全需求做減法”的思路給出了數據倉庫構建的需求分析過程,研究提出了數據倉庫的指標構建、統計分析與結果展現的具體過程,并在實際企業進行了應用,驗證了方法的有效性。
2.1需求分析的多維模型
需求分析的多維模型(Multi-Dimension Model,MDM)是一種對信息系統需求表達的具體方式,按照系統化思維和結構化方式,從業務需求、集成需求、運維需求、安全需求、設施需求五個維度進行信息系統的全需求分析,進而全面梳理并結構化表達信息系統建設需求。如圖1所示,需求分析的多維模型以信息系統需求分析為目標,從基礎層、核心層和擴展層三個層面,對安全需求、基礎設施需求、業務需求、運維需求和集成需求五個方面對信息系統需求,按照MECE原則進行全需求描述,上述五個維度的需求表述之間相互聯系、相互影響,共同構成了信息系統的全集需求。

圖1 需求分析的多維模型
(1)業務需求:信息系統作為支撐企業經營活動的重要工具,其需求來自于企業的核心業務,因此信息系統的需求應以業務需求為驅動。
(2)集成需求:信息系統不能成為“孤島”已成為信息化領域的共識,因此任何新建的信息系統都需要考慮與已有系統的集成,以及面向未來其他系統建設的集成接口要求。
(3)運維需求:信息系統的運行維護及管理是輔助其發揮作用的關鍵,因此需要把運維需求作為信息系統建設需求組成部分。
(4)安全需求:安全性是信息系統建設過程中不可忽視的需求,是保障系統安全運行的要求。
(5)設施需求:信息系統的運行依賴于可靠的基礎設施條件,因此設施需求是信息系統建設的基礎需求。
2.2 基于MDM的信息系統全需求分析
全需求分析法是指在信息系統的需求分析過程中,重點圍繞需求分析多維模型的業務需求維,在參照一流標桿企業基礎上,以MECE原則為指導,按照自底向上的思路全面梳理企業的業務需求,即按照業務線梳理,一通到底,而不是分層梳理,進而形成企業全需求,當企業業務發生變化時,以此全需求為基礎,按照“全需求做減法”的思路,根據企業自身需要形成需求子集的過程。
根據多維模型及全需求分析法的定義,基于MDM實現對信息系統的全需求分析,即以業務需求為驅動,對企業業務全集的數據源進行細化分析,并結合組織屬性分析明確數據的抽取范圍及頻率,識別數據統計分析所需維度和指標,并且確認相關維度層次及粒度;對不同數據源的數據獲取方式進行分析,總結提煉信息系統的集成需求;對信息系統運行維護及管理、安全保障及基礎設施進行需求分析。按照系統化思維和結構化方式,通過對業內已經實現的需求進行全面梳理,找到基于業務本身的“原子級”需求,將大量看似個性化的需求概括、提煉為共性需求,形成符合MECE原則的全需求。
過程1:數據倉庫的業務需求分析。基于全需求分析的數據倉庫構建,首先要對數據倉庫的業務需求進行自底向上的業務全集梳理,形成全部的業務分類集合。即對企業目前從事的業務,以及未來可能開展的業務進行全面梳理,按照MECE原則,采用一定的分類方式對每項業務進行詳細定義,明確業務邊界,進而形成覆蓋企業全部業務的分類體系,作為全集需求分析的基礎。
過程2:業務分析指標構建。在業務分析的基礎上,針對每項業務應該管理哪些指標的問題,在對標一流企業標桿及行業相關標準的基礎上,根據MECE原則,對具體業務的經營指標進行細化梳理。首先,按照業務線一通到底,基于最底層業務進行梳理,而不是分層梳理,即“以下為主,上下結合”;然后,按照行業一流構建指標全集,再根據具體企業情況進行刪減,而不是按照企業現狀進行梳理,本文稱之為“全指標、做減法”。
對同一指標,由于企業所處層級、業務性質不同,對指標要求的數據顆粒度會存在不同要求,需要在建模過程中加以考慮,并由此產生了源指標和計算指標。同時,對于每一指標,有不同的統計范圍,如何建立便捷的統計邏輯樹?為解決該問題,按照MECE原則和全需求分析法,本文構建了指標多維度模型,具體將指標統計維度分為組織維度、時間維度、度量維度和業務維度四大類,并根據每一類進行了維度細分,最后給出了每一細分類別下的維度值,如表1所示。

表1 指標多維度模型

續表1
過程3:數據分析模型。在數據倉庫建設過程中,經常出現依據指標的要求確定統計分析需求,造成每增加一項指標,就要構造對應的數據分析模型,由此不僅造成數據倉庫實施過程中統計分析建模的工作量巨大,而且分析的模型有所重疊。為解決該問題,本文基于過程2的指標多維度模型分析,按照全集需求模式,對現有的統計分析方式進行詳細的梳理、分類和定義,建立了數據分析模型,如表2所示。

表2 數據分析模型
該分析模型將對指標的數據分析劃分為兩大類:對比分析和相關分析,又進一步從縱向分析和橫向分析進行細分,最后形成了包含趨勢分析、同比分析等12項分析方法;按照指標及其多維度(業務維度/組織維度/度量維度/時間維度)確定了具體的分析內容。
過程4:結果展現模型。確定了具體指標的分析需求并選定具體的數據之后,應該采取什么樣的結果展示模型,以最為合適的方式展示指標的數據分析結果,也是數據倉庫構建過程中需要解決的問題之一。本文基于指標多維度模型,按照全集需求模式,對現有的展示方式進行詳細的梳理、分類和定義,建立了結果展示模型,如柱狀圖、餅狀圖、折線圖、雷達圖、堆積圖、儀表盤、地圖等方式,并給出了數據分析與結果展示模型之間的匹配關系,建立了相關性模型,如表3所示。

表3 數據分析與展現模型的相關性模型
本文以全需求分析法及對數據倉庫構建過程的分析,結合中國節能環保集團數據倉庫項目建設,開展了方法的應用驗證。以業務需求為驅動進行數據倉庫建模,形成系統的數據模型層次結構設計;以集成需求為依據確定外部系統接口規則,形成接口規范文檔;基于需求與功能一致性映射的系統設計,進行數據倉庫維度建模,形成多維分析模型,并最終完成數據倉庫系統的數據處理過程設計。
首先,在數據倉庫業務需求分析階段,本文以社會經濟發展中節能環保領域的業務分類為例[10],基于MECE原則,對環保業務分類,形成《節能環保業務分類》,即按照國民經濟活動,對節能環保行業進行業務分類;針對每一項業務,規范業務名稱、業務定義。《節能環保業務統計分類》,即按照生產、運營、服務分為3個業務類別,劃分為16個業務大類、60個業務中類和152個業務小類。在《節能環保業務分類》和《節能環保業務統計分類》兩個分類基礎上,以MECE原則為指導,形成《中國節能業務統計分類》,即按照節能、環保、清潔能源、資源循環利用和節能環保綜合服務5個業務類別,劃分為18個業務大類、57個業務中類和104個業務小類。
第二,結合對節能環保業務分類,構建了中國節能數據倉庫的業務指標體系,形成節能環保業務的多維指標分析模型。以營業收入指標為例,可以按照計劃、預算、預計完成、實際完成等維度進行統計分析;對電網裝機容量指標,可以按照規劃、路條、在建、并網等維度進行統計分析;而對發電量指標,可以按照風力發電量、太陽能發電量、垃圾發電量等維度進行分析。以水務生產為例,構建的經營指標如圖2所示。

圖2 水務生產經營指標示意圖
最后,應用全需求分析法的數據分析模型與數據展現模型,結合中國節能數據倉庫的業務需求分析及指標體系,開發了中國節能數據倉庫系統。系統經過近一年的研究開發,目前已經完成系統測試、部分集成、試點企業試運行等工作,取得了較好的建設效果,如圖3所示,為系統應用的界面示意圖。
數據倉庫作為一種輔助企業經營管理與決策的重要工具,在大數據時代將發揮越來越重要的作用。本文針對傳統數據倉庫構建過程中需求獲取存在的主要問題,提出了一種全需求分析法的數據倉庫構建方法,以需求分析的多維模型為核心,給出了數據倉庫構建過程。全需求模式體現了需求獲取按照“從下往上”全集基礎上對需求做減法的思路,能夠適應企業業務變化導致的需求改變,并能夠滿足不同業務不同層級管理顆粒度的需求。提出了數據倉庫的業務分類、組織屬性、指標構建、統計分析與結果展現的具體模型,以適應管理變革背景下的不同分析需求,并以中國節能環保集團的數據倉庫建設為背景進行了實例分析,驗證了方法的有效性。

圖3 中國節能數據倉庫系統應用示意圖
本文的主要貢獻點體現在以下三個方面:①基于最底層業務形成指標全集,即改變了以往數據參考建模過程中按照組織機構、按照分析主題梳理指標的方法,而是基于最底層的業務,遵循MECE原則,梳理出指標全集,滿足據倉庫項目實施過程中業務多樣性、變化性而動態調整指標的管理需求;②構建了符合MECE原則的指標多維度模型,將不同的業務、不同場景下的指標,歸集在統一的指標多維度模型之中,實現具體業務與指標模型相互分離,大幅減少了將業務場景轉化為業務模型的數量;③按照MECE原則,梳理了統計分析模型、圖形展示模型,并且建立了指標多維度模型、統計分析模型、圖形展示模型的自動聯動,極大降低面對不同用戶分析需求的系統開發量。
主要參考文獻
[1][美]WHInmon.數據倉庫[M].第3版.王志海,譯.北京:機械工業出版社,2004:10-40.
[2]尉寧.電信行業數據倉庫建設與實踐[D].重慶:重慶大學,2007.
[3]鮑玉斌,史捷,王大玲,等.企業級數據倉庫設計方法及其實施的關鍵因素研究[J].控制與決策,2004,19(12):1378-1382.
[4]李綱,陳穎.成功實施數據倉庫的方法 [J].武漢理工大學學報,2001,23(9):99-101.
[5]王磊.數據倉庫構建方法及其應用實例研究[D].上海:東華大學,2005.
[6]戴小廷.熱電企業經營管理數據倉庫建設[J].中國管理信息化,2009,12(3):61-63.
[7]AMaté,JTrujillo.Tracing C onceptual Models’Evolution in Data Warehouses by Using the Model D riven A rchitecture[J].Comput er Stand ards amp;Interfaces,2014,36(5):831-843.
[8]F Di Tria,E Lefons,F Tangorra.Hybrid Methodology for D ata W arehouse C onceptual D esign by UML S chemas[J].Inf ormation&Softw are Technol ogy,2012,54(4):360-379.
[9]梁磊.管理視圖分析法[J].企業管理,2014(10):101-105.
[10]趙長明.我國二手房地產交易價格風險的核算[J].統計與決策,2014(1):35-38.
10.3969/j.issn.1673-0194.2016.19.090
F270.7
A
1673-0194(2016)19-0161-05
2016-07-27
國家自然科學基金資助項目(No.71071019);中國環保集團公司科技計劃項目資助。
梁磊(1971-),男,碩士,教授級高工,主要研究方向:企業管理、信息化管理;胡耀光(1974-),男,博士,副教授,主要研究方向:知識管理、信息系統。