萬嘉春
[摘要]通信行業是典型的數據密集型行業,相比其他行業來說,擁有更多的用戶的數據。隨著通信行業體制的改革,行業的競爭也愈加激烈,正確、迅速的處理數據并得到更多的有效的信息,就能夠更好為用戶服務,這成了在競爭中制勝的關鍵點。數據倉庫技術應運而生,通過將海量的數據變為有效的信息來為企業決策提供依據。論文探討了當前移動通信業面臨著激烈的競爭,企業必須借助于已有的數據資源支持決策,給出了數據倉庫的相關知識,最后給出了移動通信業數據倉庫的主題分析內容。
[關鍵詞]數據倉庫;移動通信;主題;聯機分析處理
[中圖分類號]C37 [文獻標識碼]A [文章編號]1672-5158(2013)06-0033-02
1 引言
對我國移動通信業來說,2008年是不同尋常的一年。5月24日工業和信息化部,發改委,財政部聯合發布關于深化電信體制改革的通告,通告指出,鼓勵中國電信收購聯通CDMA網,聯通與網通合并,中國衛通的基礎電信業務并入中國電信,中國鐵通并入中國移動,這標志著移動通信業新一輪的重組拉開了帷幕。2009年1月7日14時30分,工業和信息化部為中國移動、中國電信和中國聯通發放了三張第三代移動通信(3G)牌照,此舉標志著我國正式進入了3G時代。此,我國通信領域呈現三足鼎立的格局,開始上演一部現代版的“三國演義”。
3G時代,移動通信業的競爭,必將從傳統的以產品類型、產品質量為核心、成本控制為目標的管理體系,以產品、價格、銷售地點和服務為中心的經營式服務,向以客戶和市場為中心、以客戶的價值取向和消費心理導向的模式轉變。目前,在通信企業的管理中,數據的組織和管理是分散在各個職能部門進行的,有關客戶的信息和客戶的業務使用情況有計費部門的業務營運支持系統(BOSS)管理,企業的收支情況有財務部門的管理信息系統管理,網絡的運行與維護由網絡部門的網管系統管理,各個部門之間通過辦公自動化系統進行信息的傳遞與溝通。
經過多年的積累,移動通信企業積累了大量的與業務活動相關的數據,而在大多情況下,這些海量的數據而不能提煉成為有價值的信息,并不能及時提供給業務分析人員和管理決策者。這就造成了兩方面的缺陷:一方面,聯機作業系統因為需要保留足夠的詳細數據以備查詢而變得笨重不堪,系統資源的投資跟不上業務擴展的需求;另一方面,管理者和決策者只能根據固定的、定時的報表系統獲得有限的經營與業務信息,無法適應激烈的市場競爭。因此,如何在激烈的市場競爭條件下,在滿足客戶需求和優質服務的前提下,充分利用現有設備降低成本、提高效益,就成為決策者們共同關心的課題。數據倉庫技術與聯機分析處理為解決這類問題提供了方法。
2 數據倉庫
2.1 數據倉庫的概念
數據倉庫并沒有明確統一的定義,按照著名的數據倉庫專家Imnon在其著作《建立數據倉庫》一書中給出的描述:數據倉庫是一個面向主題的、集成的、相對穩定的、不同時間的數據集合,用于支持經營管理中的決策制定過程。
跟傳統的數據庫相比,數據倉庫與其最大的區別是所存儲的數據。傳統的數據庫存儲的是操作型數據,其主要應用是聯機事務處理(OLTP)。決策分析對于這些數據一般并不能直接引用,還需進一步進行數據抽取、轉換、裝載(ETL),有時還需整合不同數據庫的數據。數據倉庫存儲的就是這種面向決策分析需要的,經過整理后的決策支持型數據,其值保持穩定。傳統數據庫存儲以表的形式存儲,而數據倉庫數據以多維數組方式存儲,其主要應用是聯機分析處理(OLAP)。
2.2 數據倉庫粒度設計
粒度是指數據倉庫的數據單位中保存數據的細化程度的級別。細化程度越高,信息量越多,粒度級就越小;相反,細化程度越低,信息量越少,粒度級就越大。粒度影響存放在數據倉庫中數據量的大小,同時影響數據倉庫所能回答的查詢類型。
2.3 多維數據立方體
數據倉庫一般是基于多維數據模型構建的。多維數據模型將數據看成數據立方體的形式,由維和事實構成。維是人們觀察主題的特定角度,每一維分別用一個表來描述,稱為“維表”,它是維的詳細描述。事實表示所關注的主題,也由表來描述,稱為“事實表”,其主要特點是包含數值數據,而這些數值數據可以進行匯總以提供有關操作歷史的信息。
3 數據倉庫技術在通信領域的應用
3.1 數據處理
在通信領域里,數據倉庫技術的應用是對經營分析管理的又一次提升,數據倉庫技術經常用于數據處理,但是數據繁多,因此要謹慎選擇處理數據的方案。
目前,主流數據倉庫的數據處理專業工具有:CA,NCR,IBM,Informix(IBM),Oracle和SAS。其中SAS的效率相對較高,因此在國際學術界里有一個約定俗成的規則:只要是SAS統計分析的結果,不要求說明詳細的算法。所以在這里以SAS的應用來舉例分析。在實際的數據處理中,SAS8.0有很有好的人機對話界面,不僅可以通過編程的方式進行數據處理,還可以通過在對話框中選擇相應的命令來間接的得到數據處理的代碼,進行數據處理。但是SAS也有它的劣勢,那就是SAS的數據倉庫是相對落后的數據集模式。盡管如此,依舊可以這么說,SAS瑕不掩瑜。所以由于SAS數據處理的功能以及對數據的針對性要比其他的專業工具都占優勢,所以在實際操作中還是選擇SAS作為數據處理工具的居多。于此同時,為了彌補SAS的數據庫在技術上的不足,數據倉庫的存儲就采用了時下最流行的Oracle數據庫。
3.2 數據分析
對于通信行業來說,一個經營分析系統必不可少。其不僅要具有旋轉、切片、鉆取等PLAP功能外,更重要的是要有功能強大并且完整的Web端。在數據倉庫技術的應用中,數據分析是很重要的一塊,主要的分析工具有:Cognos,Business Objects,Brio。
其中Brio更加適合通信企業經營分析系統的要求,比如Brio可以支持Web/Intranet環境,并且報表生成速度快,支持多種數據導出格式,如excel,pdf,txt,html,CSV等。其離線分析方式也保證了經營分析系統的性能不會受到用戶的增加而減弱。
3.3 在經營分析系統中數據處理的實現
從目前通信行業的市場來看,企業在構建自己的分析型系統之前,已經會存在一些業務系統。這些系統的存在代表了整個企業目前的業務情況,其中的數據一般是高粒度的,是企業數據倉庫的首要數據來源。在實際操作中,這些數據要進行選擇、轉換、加載等幾個步驟的處理之后才能進入數據倉庫。其中數據的轉換指的是從已存在的業務系統中抽取的源數據根據數據倉庫系統模型的要求,進行數據的轉換、清洗、合并、拆分、匯總等處理,并保證來自不同業務系統、格式有差別的數據的一致性和完整性。然后進行的加載就是把數據源系統中進行轉換后的數據加載到數據倉庫中。
4 數據轉換
高質量的數據是決策成功的基礎,導致俘獲并維護高質量數據困難的原因有許多,其主要的3種,過程原因、人為因素和技術問題等,小區配置信息的手工輸入時也會出現諸多的問題,比如說用戶填寫隨意,輸入人員過度疲勞等人為因素。為了使ROI(投資回報)最高而保證每個數據都正確,將耗費巨大的人力和才力,以及技術人員和業務人員的溝通誤解等等原因,均被歸納為技術問題。
因此,在本系統中規定所有進人數據倉庫的數據,都要經過抽取、轉換和加載3個步驟,以維護數據質量。
定義數據抽取元數據,元數據是用于描述數據庫狀態的一組信息,包括事件、動機、人、時間、內容等。系統對網管系統的數據抽取事件定義一個數據抽取元數據,它用于記錄對網管系統所有小區配置信息及話務量數據的提取,以便系統的管理和維護。數據抽取元數據如下所示:名稱:抽取每日XX地區小區信息;時間:每日凌晨4點;人員:XXX;動機:獲取XX地區每日小區配置參數信息;內容:獲取當前日期前一天XX地區的小區配置信息;操作:起用數據管道PIPE-1;開始時間:每日04時40分;結束時間:每日06時20分;記錄數:21000 30000。對抽取過來的數據進行轉換,其作用是按規則統一數據格式,清理和預防數據垃圾,只有通過數據轉換的過程,才能提高數據的質量。
5 結束語
當前,移動通信市場的競爭異常激烈,也對移動運營商提出了更高的要求,企業迫切需要做出更快更好的決策,而數據庫中的數據則成為了決策所必須的寶貴財富。本文闡述了數據倉庫技術在移動通信業中的運用,重點說明了移動數據倉庫的構建以及數據倉庫主題的劃分,所有的主題都應該以客戶分析和話費分析為核心。數據倉庫必然成為各運營商存放數據的最重要場所,如何構建數據倉庫,從數據快速做出決策已成為各運營商研究的熱點。
參考文獻
[1]Sperley E.企業數據倉庫一規劃建立與實現[M]北京:人民郵電出版社,2005
[2]段石峰,吳唯寧,李建威,等,數抓倉庫及其在電信領域中的應用[M1,北京:電子下業出版社,2005
[3]陳京民,數據倉庫原理、設計與應用[M],北京:中國水利水電出版社,2005
[4]段云峰,吳唯寧,數據倉庫及其在電信領域中的應用[M],北京:電子工業出版社,2005
[5]茅明輝,利用數據倉庫技術實現電信業務經營分析[D],南京:南京理工大學,2004
[6]孫巖峰,數據倉庫技術在黑龍江省移動通信,公司經營分析系統中的應用[D],北京:北京工業大學,2006