摘要:針對電信數據的特點,提出了基于數據倉庫的電信閉環決策支持系統的實現方案;確定了電信領域的決策分析主題及相關的模型,闡述了采用基于數據倉庫的四層結構的電信閉環決策支持系統的系統架構和功能。系統以數據倉庫為基礎,運用聯機分析處理、數據挖掘等分析決策手段實現了對電信數據多角度、多層次的查詢、分析及決策功能。
關鍵詞:聯機分析處理; 數據挖掘; 數據倉庫; 四層結構
中圖分類號:TP311文獻標志碼:A
文章編號:1001-3695(2008)04-1247-03
隨著電信市場競爭的加劇和信息社會需求的發展,電信企業正逐步從以網絡建設為重點、以產品為中心、追求擴展市場覆蓋面,逐步過渡到以客戶為中心、以業務經營為重點的經營理念的轉變過程中。在轉變的過程中,電信運營商為提高綜合競爭能力,需要了解自身的業務分布、業務狀況、關鍵指標、未來發展等多個方面情況,為實現進一步的快速發展提供可靠的分析指標。為了實現上述的目標,利用先進的數據倉庫、聯機分析處理、數據挖掘等技術,應用適當的數學模型及數據抽取、歷史對比等方法,對海量電信業務數據進行進一步的加工和組織,以提供歷史發展和未來趨勢的預測,為市場和財務分析及經營決策提供支持,這是行業發展的大勢所趨。
決策支持系統利用數據庫、模型庫和方法庫及各種會話部件,提供基于軟件開發、硬件集成及行業分析經驗的綜合解決方案。本系統提出了一種新的基于數據倉庫的閉環決策支持方案,即以數據倉庫為基礎,以聯機分析處理和數據挖掘技術為手段,將各種異構源數據進行采集、整理、分析、反饋、調節等一系列連續的處理后,再次在下一周期參與戰術決策,從而提取企業數據中有價值的信息,為企業的客戶服務、市場營銷等工作提供科學有效的支撐,提升企業的運營水平和競爭能力,體現以客戶為中心的經營理念。
1電信閉環決策支持系統的設計
電信企業掌握著大量的運營方面的數據,通過這些數據,可以分析出用戶的行為特征和某項業務的市場預測等多方面的信息,從而指導企業市場活動。結合電信企業數據倉庫及數據分析具有數據量大、集成復雜、業務種類多、分析系統性能要求高等特點。以電信分析系統為例,介紹基于數據倉庫的電信閉環決策支持系統[1~3]的具體設計與實現方法。
1.1電信閉環決策支持系統的總體架構
電信閉環決策支持系統的總體架構如圖1所示。 該系統分為四層次結構:操作層為數據倉庫的輸送系統,負責將各種數據源如SQL Server、Oracle等事務處理數據庫系統及文本文件中的源數據進行集成、遷移,提供對業務有價值的信息。ETL層是抽取/轉換/加載層,負責將不同系統、不同格式的數據加載到數據倉庫中。其中:過渡區為一個相對獨立的過渡空間,用來接收、傳輸和處理數據;數據倉庫層主要包括元數據管理、基礎數據管理、綜合管理等;元數據管理主要完成數據源元數據管理、ETL規則管理[4,5]、應用邏輯元數據管理等功能。基本數據由事實表、維表的多維結構表示,是數據倉庫中最核心的數據部分。綜合管理對基本數據按層次結構進行總計,形成實體化視圖方陣,以此作為決策支持系統的基礎。表示層負責將數據倉庫中的方陣數據進一步按照主題來匯總,形成數據集市、多維總計方陣,通過聯機分析處理、商務智能、數據挖掘等一系列分析及展示,生成決策分析結果,并將決策支持系統變更后的運作數據收集、反饋回數據倉庫層和操作層。該數據流從下一個周期開始參與新一輪的分析、檢查和度量,以此形成閉環的決策支持系統。
1.2電信閉環決策支持系統的功能設計
數據倉庫是在企業管理和決策中面向主題的、集成的、與時間相關的、不可修改的數據集合。數據倉庫中的數據按照一定的主題域進行組織,結合電信數據分析的特點和市場業務發展的需要,將分析主題確定為五大類,即客戶發展情況分析、業務情況分析、收益情況分析、市場競爭分析和營銷管理分析,如圖2所示。
客戶發展情況分析主要是依照客戶的自然屬性和消費行為屬性對客戶進行分析,包括普通客戶分析、大客戶分析。通過對一定時段的新增客戶進行分析,能夠對相應群體的潛在客戶采取有針對性的發展策略,使其盡快成為現實客戶。
其中:大客戶分析包括大客戶構成分析、大客戶發展與流失分析等,這對于電信運營商具有重要的作用。例如大客戶構成分析,通過對大客戶按年齡、性別、職業等屬性的構成進行分析,從而了解大客戶與整個客戶群之間的構成差異;了解按客戶自然屬性進行同等類型分群下的大客戶構成與普通客戶構成的差異。
業務情況分析包括話務分析、賬務分析,主要是對業務發展量、業務資源使用特征等從不同的地域、客戶特征、消費層次、呼叫類型和漫游類型等角度對客戶的業務量及其增量、新業務的使用量進行分析,以了解不同業務量的客戶構成、業務量的變化與發展趨勢等。
收益情況分析主要負責了解電信業務收益的具體組成情況,包括收入總量及變化分析和ARPU分析。例如在收入總量及變化分析中,從時間、地域、客戶年齡層、客戶性別、消費層次等不同角度分析收入總量及其變化;預測其在一定條件下的變化趨勢。
市場競爭分析通過市場占有率分析、供應商市場行為分析等來了解市場中最有價值的產品或服務。例如通過市場占有率分析可了解不同時間段內的不同業務品牌產品或服務的市場占有率情況;了解不同產品的主要競爭對手。
營銷管理分析主要負責提供業務營銷方面的分析內容,包括營銷渠道分析、代銷商客戶發展分析等。通過對營銷渠道及代銷商行為的分析,得出采用何種營銷渠道對公司的快速發展最為有利,從而不斷地發展、健全營銷網絡。通過對實行營銷策略的分析,包括對地域、時段、時間序列的切片、鉆取等分析,來檢驗營銷策略的效果。
2電信決策支持系統實現的關鍵性技術
2.1數據倉庫的構建
數據倉庫是企業進行信息分析、挖掘的基礎。本系統采用多層次、多扇區的結構來建立數據倉庫。為保證數據來源的固定性和數據的完整性,應用統一的元數據管理,以確保跨越不同數據集市進行分析的正確性。
基于電信企業的管理系統大多采用關系型數據庫及業務系統生成的數據量非常大(達到TB級)的特點,在進行數據倉庫設計時,多表連接、表的累計、數據排序、大量數據的掃描等操作是面臨的主要問題。星型模式通過對各個維作大量的預處理,如按照維進行預先的統計、分類、排序等操作,能夠大大提高處理速度,很好地解決以上問題。因此,為滿足客戶端用戶對多維數據分析的要求,本系統采用基于關系型數據庫的星型模式(ROLAP)。
粒度是設計數據倉庫的一個重要方面。綜合考慮建造成本、業務數據量、訪問效率、訪問和回答查詢的能力等因素,本系統采用多重粒度(表1)。
表1數據倉庫與時間相關粒度的幾個級別內容粒度存儲容量/存儲方式
季、月匯總數據高度綜合
容量小,保存在獨立的模型中,物理上可能在數據倉庫中或多維數據庫中
每日賬單輕度綜合容量較小,保存在數據倉庫中
當前CDR(保留6~12個月)最小容量很大,保存在數據倉庫的最底層
歷史CDR最小容量極大,存儲在磁帶中
數據倉庫采用多層次、多扇區系統結構。事實表應用分區技術,將數據表按時間序列(年、季度、月)分割成多個小表區,以便于管理。在基本數據的基礎上通過一系列總計、凝聚、計算、整合,形成高度綜合、多維的總計方陣,用于動態、全面的查詢和分析。在內部結構中,每一層都為自己的內層提供隔離和保護,從而實現對基礎數據的卸載,平衡系統負載,提高系統的效率和性能。
決策反饋信息的收集采用信息流技術及高級隊列技術,來捕捉變化數據、發表和訂購機制及過程,從而實現從原數據系統到目標數據系統的更新自動化。
2.2電信數據OLAP多維分析
采用Oracle作為源數據庫,應用Brio enterprise作為系統的開發工具以實現OLAP分析[6~8]和前端展示。Brio enterprise 是最易于使用的商業智能產品,它提供一個完備的、集成的決策支持平臺,支持信息的發布、分析和各種決策支持。Brio enterprise服務器通過push和pull的服務器技術來完成自動查詢處理、報表分發、零管理和Web動態查詢等功能。通過對分析時段、緯度旋轉、分析類型的選擇,可實現按年、季、月等對產品、客戶類型、行業等維度進行切片、鉆取等操作,利用不同的分析圖形來滿足用戶的OLAP分析需求。
以通話時長分析為例,通話時長分析的目的就是尋找出用戶通話的特點,并據此提出有關的業務推銷策略,滿足業務發展的需要。對用戶歷年來大量的長途電話、本地電話和信息臺的詳細話單及用戶的檔案資料等相關數據進行關聯處理。該模型主要從以下各維度及維度間組合來分析,得到通話費用及通話費用級別在不同類型客戶、不同區域等的分布情況。
1) 模型構成
指標:通話時長、客戶數。
維度:時間、地域、客戶類型、用戶類型、行業大類、業務類型、通信時長層次、話務地區流向、通話類型、通信時段。
2)功能說明
通話時長定義為某業務在某時間段(天、月、年等)的累計通信使用時長。
該分析項從客戶類型、業務類型、通信費用層次等多個角度進行分析不同客戶的通信時長。重點從時間角度(如按時、忙時/非忙時、假日/非假日、減價時段/一般時段)來具體分析通話高時長的時間段及該群體的特征,從中找出一定的規律,研究激發客戶提高話務量的辦法,為進一步改進營銷策略提供決策依據。
從通話時長分析圖(圖3)中可以看出,省際固定、省內固定和190電話的通話時長較高,在具體維度按時分析中顯示的是190國際電話的通話時長情況,分析結果明顯表現在17、18、19點為通話時長高峰期,從而可以很明顯地看出各種類型用戶的通話有著各自的規律,應該在此基礎上更好地調整更適合各類用戶的優惠政策,以滿足不同用戶的不同需求。
2.3電信數據的預測—應用數據挖掘
系統針對特定的數據挖掘[9]專題,應用時間序列分析、神經網絡預測、聚類、決策樹等算法[10,11]來進行數據挖掘,以確保該模型具有較高的準確度。以對電信客戶中惡意欠費離網用戶進行挖掘分析其特征為例,系統采用基于特征點的趨勢聚類算法進行分析。通過對某時間段內話務數據的聚類分析,得到惡意欠費離網用戶的共同特征,為將來有效預測和控制惡意欠費離網用戶提供線索。該算法根據客戶行為數據(如國際長途、夜間通話、優惠時長等)、客戶自然屬性數據及其他數據(包括付費方式、套餐計劃、用戶狀態、收入、在網時間等)進行分析,自動產生聚類標準,再按此標準對客戶進行歸類。在對惡意欠費離網用戶的客戶行為作分析時,將1個月時間內每一天每個用戶的通話總時長作為聚類分析研究的主要對象。聚類結果如圖4所示。
Cluster01:2 000個用戶在2004年3月份的這一個月內,共有48 477人次的日平均通話時長為17.80 min。在這其中,當月欠費離網用戶只占到了總用戶的0.1%,并且Cluster01從3月1日~3月31日都有包括,這說明Cluster01代表了絕大多數正常用戶的通話行為。Cluster02與Cluster01相比,call_length的最大值和最小值都有顯著的增加,平均值也有所增加,這說明在Cluster02中的客戶的日通話時長均比較高。而由于基于特征點的趨勢聚類算法的特殊性,Cluster02中的點一定是相鄰且連續的,也就是說,落在Cluster02中的客戶在一個較小的時間區間內具有較高的日通話時間,這并不符合正??蛻舻耐ㄔ捔晳T。根據對這類用戶的惡意欠費離網行為的比較也可以看出,這類客戶中有79%的人在第二個月非正常離網。Cluster03中的各項指標都比Cluster02更高,惡意欠費離網用戶所占的比例也更高。
這樣的聚類分析結果對電信行業中對惡意欠費離網客戶的預測起到了一定的指導意義。在實際運營中,對所有客戶的話務數據進行動態分析,如果某個用戶連續幾天的call_length處于[80.05,102.52]區間內,則這個用戶惡意欠費離網的可能性就比較大;如果call_length的區間值達到了[120.8,211.35],則該用戶惡意欠費離網的可能性更高,應該給予特殊的監控。
3結束語
在深入研究聯機分析處理、數據挖掘技術的基礎上,提出了基于數據倉庫的閉環決策支持系統在電信行業的解決方案。利用電信企業的原始業務數據進行數據倉庫的多層次、多扇區的設計,并就一些多維分析技術結合本例進行了探討。智能商務從戰略決策支持向戰術決策支持擴展,決策支持系統向實時、閉環方向發展已成為當前的新趨勢。
參考文獻:
[1]AKINDE M O, BOHLEN M H. Efficient olap query processing in distributed data warehouses [J].EDBT,2002, 10(4):336-353.
[2]HAN J, PEI J, DONG G,et al. Efficient computation of iceberg cubes with complex measures[C]//Proc of ACM SIGMOD Stanta Barbara,CA[s.n.], 2001:1-12.
[3]MADEIRA H, JOAOCOSTA. The olap and data warehousing approaches for analysis and sharing of results from dependability evaluation experiments[C]//Proc ofInternational Conference on Dependable System and Networks. 2003:1-6.
[4]VASSILIADIS P, SIMITSIS A, SKIADOPOULOS S. Conceptual modeling for ETL processes[C]//Proc ofACM DOLAP Conference. 2002:14-21.
[5]VASSILIADIS P, VAGENA Z, SKIADOPOULOS S, et al. Towards the modeling design control and execution of ETL processes [J]. Information Systems, 2001, 26 (8): 537-561.
[6] FENG Yu, WANG Shan. Compressed data cube for approximate olap query processing [J]. J Comput Sci Technol, 2002, 17(5):625-635.
[7]鄭斌祥,杜秀華, 席裕庚.電力OLAP系統設計研究與應用[J]. 計算機工程,2002,28(9):210-212.
[8]李玉海,張大斌, 呂少鵬.基于數據倉庫技術的電信市場決策支持系統探討[J]. 計算機應用研究,2005,22(6):80-82,85.
[9]NASSAR S, SANDER J. Incremental and effective data summarization for dynamic hierarchical clustering[C]//Proc of ACM SIGMOD. 2004:13-18.
[10]馬光志,張愛芳,劉玉亮. 一種基于網格幾何性質的數量關聯規則聚類算法[J]. 計算機工程,2004,30(11):121-122,167.
[11]劉釗,蔣良孝. 基于神經網絡的數據挖掘研究[J]. 計算機工程與應用,2004,40(3):172-173,190.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”