汪保友,吳琮,錢晶,陶曉英
(中國聯合網絡通信集團有限公司上海市分公司,上海 200050)
面向DT服務的數據分析系統架構
汪保友,吳琮,錢晶,陶曉英
(中國聯合網絡通信集團有限公司上海市分公司,上海 200050)
DT時代,數據分析系統肩負著運營商業務創新和運營強支撐的更高要求。首先闡述了深化數據分析、增益數據價值所面臨的需求與挑戰;接著,提出面向開放服務的數據分析系統的邏輯架構和技術架構以及數據治理與數據安全措施,以實現能力開放、架構靈活的運營支撐;最后示例介紹該平臺的服務場景以及取得的良好效果和價值體現。
大數據;數據分析;系統架構;數據服務;數據治理
移動互聯網時代,變革日新月異,在“互聯網+”大潮下,具有雄厚資金技術和用戶規模的BAT公司頻頻涉足通信、智慧城市、云計算、物聯網等信息服務領域,各類OTT應用也動搖了運營商短信和語音業務收入的基礎。虛擬運營商蓄勢待發和互聯網企業的跨界競爭對基礎運營商而言,呈現出空前的壓力和挑戰。大數據產業的發展,給運營商帶來了新的曙光。運營商處在大數據產業鏈的傳輸與交換中心地位,具有豐富的高價值數據資源,具有開展大數據業務的獨特優勢。在這個數據為王的時代,傳統IT走向DT。面對海量復雜數據和創新型應用,面向DT服務的數據分析系統肩負著公司商業模式轉型和運營強支撐的更高要求。
運營商為消費者提供網絡服務,處在大數據產業鏈的傳輸與交換中心地位,具有相對全面完整真實的高價值密度信息。包括用戶的語音通話行為、上網痕跡信息、短/彩信使用信息、SP/CP使用信息、地理位置移動信息、用戶實名信息、信令數據、網管日志數據、渠道偏好、終端喜好信息以及挖掘衍生的用戶價值、用戶消費習慣、交際圈信息、生活行為指紋、個人興趣愛好等信息。
面向DT服務的數據分析系統,對升化數據分析和數據挖掘和增值數據價值提出了更高要求,需要面對企業內部支撐強能、企業外部創新增值的需求召喚。
(1)精準化營銷管理需求
電信行業客戶群龐大、需求差異也大,運營商需要分析用戶行為偏好,建立用戶全息畫像,通過標簽化用戶管理,細分市場、客戶群,將最合適的業務及時、準確地推銷給最需要的客戶,實現業務和客戶的最佳匹配,改善用戶體驗,提升用戶消費和忠誠度。
(2)流失預警與維系挽留需求
電信行業的競爭是大家有目共睹的。運營商間持續不斷的“價格戰”,使得客戶變更業務及轉網的選擇余地和意愿越來越大,合約用戶協議到期或促銷活動優惠期結束后,大量低忠誠度用戶通過轉網或棄卡重入網方式,套取新的補貼優惠。有些老用戶也會因各種原因,存在流失風險。如何提早識別預警流失傾向用戶,對高價值、高風險的流失用戶維系挽留,是運營商提升存量用戶和收入保有率的需求。
(3)創新增值需求
在不侵犯用戶隱私的前提下,對數據進行深度加工,形成大數據能力輸出和數據平臺開放,服務于社會,是運營商實現“數據資產”運營和商業模式轉型的業務創新需求。
現有經營分析系統轉型升級為面向DT的數據分析系統,需要面對如下挑戰。
(1)平臺能力待提升
目前經營分析系統是服務企業內部,主要功能體現在:KPI監控、統計報表、綜合分析和客戶群細分等方面。雖然取得了一定效果,但仍存在數據分散、分析內容不全面、展現界面不友好、同名指標不一致等方面的問題。經分使用者很難迅速查到自己想要的數據,特別是管理者很難一目了然地看到公司運營出現的關鍵問題。突出體現在數據量大與使用率低的矛盾、功能靈活與使用簡便的矛盾、業務多變與指標穩定性的矛盾。經營分析人員在使用經分系統時,往往還需要進行大量的數據匯總整理、數據合并、深入分析和數據挖掘等工作,工作難度大、工作量大、效率低;管理者和決策者在使用經分系統時,很難直接看到想要的數據和分析結果,難以迅速有效進行決策。
(2)平臺架構待擴展
目前經分系統采集的數據主要是BSS數據,處理的都是賬單、詳單、用戶資料、產品服務訂購、業務受理記錄等結構化數據,包括CRM、計費、賬務、OCS、總部下發清單、結算、客服等,缺乏對OSS域、MSS域的數據采集聚合。處理海量數據時系統性能瓶頸過大,存在各類時間窗口無法控制的風險。需要引入分布式并行處理技術架構,擴展數據采集范圍,提高采集時效性、完備性。
(3)數據治理需提高
運營商的數據分散,大數據4V特征明顯,因各種原因存在少量“臟”數據,采集數據時需要排除數據噪音,分析數據時需要加強數據關聯性,健全數據質量管控機制,提升數據質量。對涉密敏感信息需要脫敏加密,加強數據輸出服務的安全防護和流程管理,規范數據資產運營機制。
基于以上的需求與挑戰,需要構建“能力開放、靈活支撐、安全服務”的面向DT服務的數據分析系統,有效支撐各類創新應用,提升數據資源的價值轉換能力。
數據分析系統一般分為集團總部、省分兩級架構,省分數據分析系統邏輯架構如圖1所示。
省分數據分析系統主要包括4層結構,即數據獲取層、數據存儲層、數據應用層和數據服務層。采集的數據源包括 CRM、計費、賬務管理、OCS、客服、VAC平臺、cBSS等系統的基礎數據以及集團總部下發文件明細數據、擴展采集整合OSS域、MSS域的網管日志、網元信令、地理位置移動信息、上網痕跡、財務核算等數據。數據采集的方式可以是接口文件、DBlink訪問、ETL加工處理、人機交互等方式。通過系列加工流程、深度分析和信息挖掘,在數據存儲層形成企業數據倉庫和數據集市。數據應用層表現形式包括運營總覽、預定義報表、縱向上傳、異動監控、電子書、即席查詢、OLAP分析等基礎功能,精準營銷、客戶維系、網格管理等生產支撐體系以及外部輸出服務功能。在數據服務層,可通過個性化定制、信息推送、用戶搜素、能力開放等方式,實現對內對外服務。在整個數據加工處理、流轉服務過程中,數據質量、數據標準、元數據、生命周期等數據管理措施貫穿始終。通過安全制度、安全技術、安全運營、安全教育等運營機制確保數據安全。

圖1 省分數據分析系統邏輯架構
技術架構上采用Hadoop、MPP、傳統關系型數據庫混搭模式,揚長避短。Hadoop對海量數據、非結構化數據的處理能力強,且易擴展;MPP數據庫對數據的處理性能高,可提升數據實時分析能力;傳統成熟關系型數據庫作為主數據倉庫,可確保核心數據服務能力的穩定。數據分析系統技術架構如圖2所示。
圖2中,Hadoop適用于大集群海量離線數據分析,可擴展至1 000多個節點,可處理PB級海量數據。利用Hadoop對海量非結構化數據的數據處理能力,可對網管日志、網元信令、上網痕跡等進行預處理整合。由于Hadoop的分布式并行計算和易擴展特性,且對硬件平臺的要求相對較低(比如x86平臺集群),可實現靈活配置,按需、快速分配資源,有效控制成本。
Hadoop生態圈中,Impala與Hive都是構建在Hadoop之上的數據查詢工具,各有側重,Hive適用于靜態批處理查詢分析,而Impala適用于實時交互式SQL查詢。可以先用Hive數據處理能力,進行數據轉換聚合;再用Impala在Hive處理后的結果集上實施快速數據分析。HBase是運行于HDFS頂層的NoSQL,具備隨即讀寫功能,是一種列存儲數據庫。而Hive支持HSQL,是一種類SQL編程接口,可以將SQL語句轉換為MapReduce任務運行,它本身不存儲數據。
MPP是一種海量數據實時分析架構。適合小集群(100以內)、低并發(50以內)的場景,可處理TB級海量數據。比 如 EMC Greenplum、HP Vertica、IBM Netezza、Teradata Aster等。MPP數據庫存儲明細數據、輕度匯總數據等。
MPP采用不共享架構,每個節點運行自己的操作系統和數據庫等,節點之間信息交互通過網絡傳輸實現。與Hadoop相比,擴展性、并發性比不上Hadoop,這可從CAP理論中得到解釋。根據CAP定律(consistency,availability,partition tolerance theorem):在分布式計算機系統中,一致性、可用性和分區容錯性這3種保證無法同時得到滿足,最多滿足兩個。因為MPP始終還是DB數據庫,一定要考慮一致性,其次考慮可用性,最后才在可能的情況下盡量做好分區容錯性。而Hadoop是專為并行處理和存儲設計的,所有數據都以文件形式存儲,它優先考慮的是分區容錯性,然后是可用性,最后再考慮一致性。所以Hadoop的可擴展性當然優于MPP。
傳統RDB數據庫(Oracle、DB2等)用于存儲用戶標簽庫、用戶361°全息數據、粗粒度匯總數據、報表數據、多維數據、指標庫等結果數據,確保核心數據服務能力的穩定。

圖2 數據分析系統技術架構
在移動互聯網、云計算和大數據的穹頂之下,未來的IT運維管理被賦予了更多的數據治理、數據挖掘和數據安全管理的重任,傳統 IT 走向 DT。“Garbage in,Garbage out”表示輸出質量是由輸入質量決定的。面向DT服務的數據分析系統,數據治理管控機制如圖3所示。
圖3中列出數據生產中業務規范、數據采集加工過程中常規稽核規則配置以及和生產系統互動、與數據需求方互動運維協作機制。
面向DT服務的數據分析系統還必須確保 “云、管、端”的數據安全,對涉密敏感信息需要脫敏加密,加強數據輸出服務的安全防護和流程管理,從管理、技術和控制3個視角,建立數據資產安全運營規范機制。
·從管理視角看,包括規章制度與作業標準的制定,崗位角色的設定,管理流程模型的制訂等。
· 從控制角度看,涵蓋網絡層、系統層、應用層和數據層的安全控制、安全審計等。
· 從技術視角看,需要采用立體交互的技術防護、監控與審計措施,做到安全預警、保護、檢測、反應、恢復、反擊,以保障系統安全穩定不間斷應用。
總體來看,技術、人員、管理構成信息安全的三要素。其中,技術是核心,人員是關鍵,管理是保障。管理和技術并重,技術和人員結合,充分發揮人的作用,做到人、技術和管理的和諧統一,在法律和安全規章的約束下,才能確保企業信息安全的真正有效落地。
如何利用運營商擁有的豐富、多維、高價值的“數據資產”,解決自身營銷和客戶服務精準性,以改善用戶體驗,提升用戶價值與忠誠度;如何對外數據輸出和能力開放,服務于產業鏈各方合作伙伴,服務于社會;這是個漸進的過程,圖4表示這種迭代優化流程。

圖3 數據治理管控機制

圖4 數據服務的迭代優化流程
圖4中,數據服務的基礎是面向DT服務的數據分析系統(數據中心),通過大數據積累、選定應用方向、數據分析、正確的解讀、實施效果評估、完善與再循環閉環流程,逐步提升服務效果和能力。其中比較關鍵的環節包括數據清洗、數據集成、構建模型、算法參數調優等。
在數據中心中構建客戶361°全息視圖,如圖5所示。
圖5中,一些用戶衍生屬性,是通過CHAID(卡方自動交叉檢驗)分類算法、隨機森林模型等算法挖掘分析得出,比如忠誠度、流失傾向、興趣愛好等。有些屬性對衍生屬性的動態變化起著關鍵作用,比如交際圈的收縮、主叫異常波動會顯著影響忠誠度、流失傾向等評估,圖6顯示了流失預警的關鍵特征。

圖 5 客戶 361°全息

圖6 流失預警關鍵特征示例
客戶361°全息視圖,在企業內部精準營銷服務實際運用中,取得較好效果,據業務部門營銷后評估報告,流量類業務的針對性營銷較先前普銷型推薦的成功率提升了7.5個百分點,客戶對營銷的滿意度提升近10個百分點,存量公眾用戶的保有率與2014年同比提升1.4個百分點,續約用戶的ARPU值也有明顯提升。此外,通過用戶4G終端選購因素的挖掘分類訓練,得出實驗結果:訓練分區查準率71%,測試分區查準率68%,查全率平均65%,預計經過迭代優化,對精準營銷也會發生積極作用。
大數據時代給運營商業務創新和涅槃重生提供了新的曙光。數據資產運營是一個迭代優化的過程,構建易擴展、性能高效的靈活系統架構是需求的推動,也是產生價值的源泉。目前建設的統一數據分析系統平臺,已取得初步成效和商業價值。平臺架構的設計方案、數據治理的協同管理對業界有一定參考價值。從未來的發展看,大數據資產對運營商業務貢獻會越來越多。與第三方合作,構建大數據生態體系和能力開放已在開展并會持續增強,數據租賃、數據分析、數據分享服務等將是運營商提供通信網絡服務外的一大亮點。
[1]王珊,王會舉,覃雄派,等.架構大數據:挑戰、現狀與展望[J].計算機學報,2011,34(10):1741-1752.WANG S,WANG H J,TAN X P,et al.Architecting big data:challenges,studiesand forecasts [J].Chinese Journalof Computers,2011,34(10):1741-1752.
[2]“基于大數據的互聯網化存量經營”項目組.運營商存量經營大數據平臺及其關鍵技術研究 [J].電信科學,2014,30(6):118-125.Project Team of Big Data for Inventory Management.Research on big data platform and key technologiesforinventory management of carriers [J].Telecommunications Science,2014,30(6):118-125.
[3]吳軍.大數據和機器智能對未來社會的影響 [J].電信科學,2015,31(2):1-10.WU Jun.Big data,machine intelligence and their impacts to the future world[J].Telecommunications Science,2015,31(2):1-10.
[4]雷蕾,李景文,宮大鵬,等.基于Hadoop的 OSS域數據建模與采集方法研究[J].電信科學,2015,31(1):128-138.LEI L,LI J W,GONG D P,et al.Study on data modeling and collection in OSS based on Hadoop [J].Telecommunications Science,2015,31(1):128-138.
[5]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(1):146-169.MENG X F,CI X.Big data management:concepts,techniques and challenges [J].Journal of Computer Research and Development,2013,50(1):146-169.
[6]張海峰,董昭.面向大數據的經營分析系統建設思路分析[J].互聯網天地,2015(2).ZHANG H F,DONG Z.Analysis of construction ideas of business analysis system for big data[J].China Internet,2015(2).
[7]陳可寒,韓盼盼,吳健.基于用戶聚類的異構社交網絡推薦算法[J].計算機學報,2013,36(2):349-359.CHEN K H,HAN P P,WU J.User clustering based social network recommendation [J].Chinese Journal of Computers,2013,36(2):349-359.
Architecture of service-oriented data analysis system
WANG Baoyou,WU Cong,QIAN Jing,TAO Xiaoying
Shanghai Branch of China United Network Telecommunication Co.,Ltd.,Shanghai 200050,China
In the era of data technology,the higher requirements of telecom operators,such as business innovation and strong operation supporting,are being placed on data analysis system.Firstly,the requirement and challenge of the rising data analysis and the enhancing data value were expounded.Then,in order to realize open architecture and flexible operation support,the logical framework and technology architecture of the service-oriented data analysis system,as well as the data governance and the data security management were proposed.Finally,the service scenarios and the business value of the platform were introduced by an example.
big data,data analysis,system architecture,data service,data governance
TP311
A
10.11959/j.issn.1000-0801.2016021
2015-07-01;
2015-12-17
汪保友(1968-),男,博士,中國聯合網絡通信集團有限公司上海市分公司高級工程師,主要研究方向為數據分析與數據挖掘、數據科學、數字簽名、信息安全。

吳琮(1975-),女,中國聯合網絡通信集團有限公司上海市分公司信息化事業部總經理,主要研究方向為電信業務支撐系統的規劃設計、移動互聯網、云計算。

錢晶(1970-),女,中國聯合網絡通信集團有限公司上海市分公司工程師,主要研究方向為數據科學、移動互聯網、通信網絡規劃。

陶曉英(1978-),女,中國聯合網絡通信集團有限公司上海市分公司工程師,主要研究方向為數據科學、電信業務支撐系統的規劃設計、移動互聯網。
