劉 春,鄒海鋒,向 勇
(1.中國電信股份有限公司廣東研究院 廣州510630;2.深圳市遠行科技有限公司 深圳518000)
隨著企業信息化建設的不斷深化、社會化網絡的興起以及移動互聯網等新一代信息技術的廣泛應用,全球數據規模及其存儲容量正在迅速增長,數據的類型也變得復雜多樣。海量多樣化的數據對信息的有效存儲、快速讀取、檢索提出了挑戰,且其中所蘊藏的巨大商業價值也引發了對數據處理、分析的巨大需求。因此,大數據的概念應運而生,引用維基百科的定義,“大數據是指無法在一定時間內用常規軟件工具對其內容進行抓取、管理和處理的數據集合”。
當前,大數據已逐漸滲透到各個行業和業務職能領域,以利用數據價值為核心的商業服務正在不斷涌現,如數據資源服務、數據分析服務、數據開放平臺服務等,大數據將成為重要的生產因素,它的演進將與生產力的提升有直接關系。
對電信運營商而言,其業務特性使它具備了較強的大數據特征。然而,運營商業務數據在快速積聚的同時,并沒有從傳送的大量上層應用內容中獲得更多收益,卻面臨收入增速放緩的困境。要真正扭轉這一局面,運營商必須轉變過去簡單粗放的網絡運營方式,順應移動互聯網“開放、共享、合作、高效”等特征,逐步向綜合服務提供商轉變,向集約化運營模式轉變。在大數據時代,數據服務能力開放是這一轉變的有力推手。
業務數據是運營商的核心資源,結合大數據技術,電信運營商開放自身的數據服務能力,為外部合作伙伴提供精確的用戶行為收集與分析、提供精準廣告投放推薦能力等數據分析服務,是強化流量經營、開展規模化信息服務運營的有效手段。這將有助于實現向綜合服務提供商、集約化運營的有效轉變,增加管道的價值和收入,進一步抓住未來廣闊的信息化市場,擺脫被邊緣化和底層化的危機,獲取更大的商業價值。
在電信行業,利用數據的核心價值,實現數據服務能力開放,可以滿足以下多種業務應用場景要求。
·實時營銷:實時捕捉用戶通信行為,通過用戶實時信令信息與營銷目標用戶場景,分別設置匹配信息向用戶推送營銷內容,達到在適當時間,以適當方式,向適當用戶推廣適當業務的目的。
·手機定向廣告推薦:通過與后向商家合作,向用戶行為符合后向商家要求(如用戶到達指定地點)的用戶推送相關合作商家的廣告信息,以賺取后向商家的廣告費,豐富電信運營商的收入模式。
·用戶點擊流分析:對用戶的上網行為進行采集與存儲,使用戶上網行為信息變得可查詢、可統計,統計分析的結果可以指導相關網頁的頁面布局、產品開發等。
·信息推送:用戶行為、興趣特征、位置等綜合分析,為合作伙伴提供有針對性的信息推送服務,合作伙伴可以基于這些信息,開發第三方應用或進一步的數據深加工服務(如店址選擇)。
·市場調研:通過用戶行為了解市場動態,分析市場結構,為合作伙伴提供市場結構、用戶多維特征、競爭情況等分析。
可見,如何在有效保護用戶信息隱私的前提下,高效、及時、便捷地向自營單位、合作伙伴等外部對象提供所需的數據是以上業務應用的關鍵。大數據環境下的數據服務能力開放,即運營商通過定期或實時采集海量的運營數據,在異構多樣的數據中進行處理和分析,以分析結果的形式呈現,以集約化的能力開放平臺向外部提供各種數據服務。
運營商在實現集約化的數據服務能力開放時,將會存在較多的挑戰和困難,有如下幾個方面。
·技術要求高:移動互聯網帶來的海量數據對處理技術提出更高的要求。
·整體分析難:業務平臺割裂,數據散落地分布在各系統,難以支持整體分析,也不利于形成統一的客戶行為視圖。
·能力分散:用戶獲取相關數據服務可能需要通過多個渠道或平臺申請相關的數據服務能力,沒有統一的服務能力開放平臺,造成服務能力分散。
·資源浪費:分散的服務能力,自然需要分散的計算、存儲、網絡資源,重復的服務能力開放必然造成資源的多倍使用。
電信運營商需要分析內外部數據集約化運營的共享需求和業務應用,以便于提供高度共享和集約化的數據服務能力。
開放能力、創新模式并建立良好的合作機制,是電信運營商形成具有產業影響力的互聯網生態系統的必經之路。數據服務能力開放平臺的定位為提升運營商管道價值和提供綜合信息服務的主體設施,是深化互聯網流量經營的主體工具,是實現數據服務能力開放的主體平臺。
·建立基于橫向業務網絡體系架構的信息匯聚平臺,通過對網絡、應用客戶端、業務平臺和IT系統數據的采集,獲取業務行為信息,采用大數據技術構建統一的用戶行為信息數據庫;采用建模技術實現數據挖掘和行為分析,為運營商的自營單位(如基地業務平臺)或合作伙伴提供個性化數據分析能力,為精準營銷和精準廣告投放服務提供數據支持。
·實現數據分析應用不同層次和權限的開放,如數據倉庫、數據集市、分析模型、分析應用等;提供面向自營業務、第三方應用和合作伙伴等不同權限的能力開放;此外,考慮用戶數據在傳輸、存儲等方面的安全保障,并避免用戶隱私保護在法律、技術上出現重大問題。
·提供簡單易用的開放接口,封裝成標準統一的能力開放API供第三方調用,提供簡單易用的文檔說明,降低第三方開發者開發門檻;滿足“一站式”開發、測試、運營的服務需求。
·集約化的平臺運營,按照一體化運營模式進行平臺建設和流程優化,著重加強通信服務、電子渠道、用戶行為分析等領域的全網集約化運營能力。
數據服務能力以API形式提供給外部,首先要明確數據服務的形態,即通過數據服務開放平臺可以提供的數據類別、形式等。本節通過分析業界數據開放的案例,結合電信行業特征,明確數據服務的內容。
數據服務開放已經開始覆蓋互聯網企業、政府行業,其中較為主流的兩個案例為美國的政府服務數據開放以及國內淘寶網在電商行業中的數據開放。
(1)美國政府“一站式”數據下載
美國政府為了解決公眾對政府服務信息查找困難、不便的問題,于2009年5月宣布實施“開放政府計劃”,提出利用開放的網絡平臺公開政府信息、工作程序和決策過程,開通了“一站式”政府數據下載網站——Data.gov[1],要點如下。
·以各種標準數據接口提供易于發現、訪問和理解的數據,方便用戶下載,改善聯邦數據利用率。
·整合現有1 100多個數據中心,削減到100~200個,實現數據集中和節能減耗,并制定完備的法律體系保障信息的公開與獲取。
·采集與發布的政府數據主要有兩類:原始數據集,涵蓋美國的人口特征統計數據、GIS信息、環保、教育、能源、地域、法令等相關主題的政府信息;綜合數據集,通過原始數據與地理信息的疊加,生成地理空間信息服務和綜合地理數據。
·提供標準的API,方便第三方機構開發特色應用,如福布斯雜志利用人口流動數據開發人口遷移的應用,方便查看地點間的人口遷出和遷入情況,為企業提供決策參考。
(2)淘寶數據開放
淘寶網“大淘寶”戰略中,生態商業系統的核心競爭能力是利用互聯網信息技術累計的數據提高自身開展電子商務業務的能力,即解讀互聯網數據能力和對快速市場的應急能力,通過數據開放提高其在電子商務業務中的核心競爭能力,從以下3個層面進行開放:
·涉及電子商務行業的宏觀數據以及讓消費者了解最新消費風向標的數據,淘寶實行免費開放策略;
·涉及各個行業市場情況、消費者行為研究等的商業數據,淘寶通過商業方式開放;
·涉及消費者個人隱私、企業商業隱私的數據,淘寶絕對保護,防止任何泄漏。
淘寶數據的開放,將推進企業提高開展電子商務活動的核心競爭能力,有助于促進整個電子商務生態鏈中各個物種的成長。
3.2.1 數據服務開放考慮因素
總結以上兩個案例,電信運營商實現數據服務能力開放,需要考慮表1中的4種因素。

表1 數據服務開發的考慮因素
3.2.2 數據來源
在明確數據服務內容之前,首先總結一下運營商的大數據來源,主要分為以下3個方面。
(1)用戶提供的信息
包括用戶的許可和偏好所得到的數據、用戶與運營商的合同數據、用戶社會網絡數據、合同或用戶注冊中的直接內容、對用戶的調研數據和用戶使用的電信產品。
(2)直接獲取的數據
通過用戶行為分析(使用的各類介質或傳感器)可直接獲得的數據,包括所使用的物理終端連接狀態、終端類型、位置信息、用戶網絡流量數據、用戶點擊廣告和推薦的數據、用戶購買/下載的習慣、用戶網站瀏覽行為、電視觀看習慣以及CDR(call detail record,由電話交換機產生的計算機記錄,包含經過的每個電話呼叫的詳細信息)。
(3)推理分析挖掘數據
除了上述主動獲取的數據之外,還需通過推理分析挖掘對運營商有用的數據,包括對用戶離網的風險進行分析、對用戶社交圈數據進行分析和挖掘等。
3.2.3 數據服務內容
通過對業界數據服務的分析,結合電信運營商的業務需求和數據來源,總結出以下數據服務內容。
(1)基礎數據查詢能力服務
提供對電信業務數據的高性能查詢服務,實現對客戶基礎信息、位置信息、訂購信息、終端信息、用戶行為等數據的提供。
(2)數據分析服務能力服務
提供對外數據分析能力服務,為外部提供數據分析結果,如用戶的應用偏好(微博、游戲、閱讀等)、消費習慣(歷史消費情況、位置出現規律、付費習慣等)、行為偏好(如軍事、旅游等)以及個性化信息推送(利用電信業務的綜合行為分析結果,提供個性化推薦結果)。
(3)數據運算能力服務
隨著業務需求的不斷多樣化以及技術架構的進步,探索對外提供大數據運算服務,分為以下兩方面。
·數據分析挖掘能力:通過數據隔離、沙盒管控等措施,為合作伙伴提供快速的分析挖掘能力。
·實時數據探索服務開放:利用電信的大數據綜合分析結果,為合作伙伴提供實時數據探索分析服務。
實現面向大數據的數據服務能力開放,需要建立基于橫向業務網絡體系架構的信息匯聚平臺,以下對平臺架構進行研究。
平臺建設思路介紹如下。
·綜合數據平臺的提供者,拓展電信運營商的業務范圍:綜合企業內外部數據資源,對外開放數據服務,幫助合作伙伴提升精確營銷能力;為行業客戶提供大數據的解決方案和數據分析服務。
·支撐商業模式創新,通過對外的數據服務支撐,更好地聚集價值鏈中的優秀合作伙伴;面向后向客戶收費,進行收入分成或內容收費。
·標準化操作,構建“表達標準化、實現模塊化”的能力封裝與開放體系。
能力開放是對底層復雜的業務、技術、流程實現進行抽象和封裝,對外提供開發運營環境[2]。結合電信運營商的業務需求以及IT建設現狀,提出數據能力開放平臺架構,如圖1所示。

圖1 數據服務能力開放平臺架構
(1)數據源
數據源主要包括IT應用系統的業務數據(如CRM系統、計費系統、網管系統、數據倉庫等)、電信移動終端數據(如連接狀態、終端類型、位置信息等)、網絡通信協議和數據(如DPI、NetFlow、網絡及拓撲結構、移動網CDR等)、業務平臺數據(如業務訂購信息、瀏覽點擊行為等)。
(2)數據采集
數據采集層需要支持關系數據庫、日志數據、文件數據、XML文檔數據等數據源的采集,滿足聯機/脫機、實時/定時/周期性等采集方式要求;采用任務驅動的采集機制,根據采集任務的觸發條件和優先級等,加載、激活和協調采集任務的運行,要求所采用的方式對現有系統的影響最小。
(3)數據存儲
從所采集的數據特征可知,其數據結構復雜多樣且體量巨大,需要改變目前以結構化為主的單一存儲方案;要求滿足不同的存儲要求,支持SMP、MPP、RDBMS等多種架構的數據庫以及內存數據庫、分布式緩存等技術能力。采用如下策略實現:對非結構化數據,采用分布式文件系統進行存儲;對結構松散、無模式的半結構化數據,采用面向文檔的分布式key/value存儲引擎進行存儲;對海量的結構化數據,采用shared-nothing分布式并行數據庫系統進行存儲;支持行、列混合存儲;支持存儲的在線、線性擴展;構建各存儲引擎之間的連接器,使得非結構化數據在處理成結構化信息后,能方便地和分布式數據庫中的關系型數據快速融通,保證大數據分析的敏捷性。
(4)數據處理
為了滿足海量數據處理以及響應時效高的要求,需要具備分布式批處理和實時流處理的計算能力。
在分布式批處理層面,需要支持海量數據的并行化處理;自動處理節點/任務的故障檢測和恢復;處理節點可以靈活加入和退出,自動感知節點狀態并進行處理;計算任務靈活調度,從而提升執行性能。
在實時流處理方面,支持數據的連續注入、連續分析,實時對流數據進行分布式并行分析計算(達到毫秒/秒級);以極高性能分析處理結構化和非結構化動態數據流(如關系、文本、圖片、視頻等);支持事件驅動,捕獲實時事件,觸發相應的處理流程;具備高速數據傳輸、時延極低、速率極高等特性。
(5)數據分析
數據分析層主要對經過存儲和處理的數據進行OLAP分析、搜索引擎、專題分析、數據挖掘、標簽分析等操作。海量數據使得計算速度難以保證,數據結構變化導致計算模式變化。在實現以上數據分析時,需要融合MapReduce、流計算等先進技術思路,要求支持非結構化數據分析(如文本分析和挖掘技術、視頻分析技術、網絡爬蟲關鍵字分析技術、客戶標簽化處理等);支持非結構化數據向結構化數據轉換;實現基于結構化和非結構化數據混合環境下的數據分析處理;具備分布式并發的大規模計算能力;提供數據分析模型管理和分析應用創建能力。
(6)數據服務
數據服務層將屏蔽底層針對各類數據服務需求的數據處理過程,將加工后的數據、應用等通過集中的數據/服務提供功能,為外部合作伙伴提供數據服務能力,簡化數據共享邏輯,集約化數據分析能力。
數據服務能力的對外提供需要滿足敏捷、安全可靠、能力復用的總體目標。功能層面上,要求滿足共享需求的數據資源以服務的方式暴露到平臺上,通過數據服務定義、數據服務目錄、服務路由、傳輸加密、在線聯調測試、流量控制等功能[3],為接入的外部平臺提供數據服務,同時也實現對服務從需求提出→開發→發布→部署上線→維護更新→下線全過程的服務生命周期的管理;技術層面上,滿足異步、消息實時響應、發布訂閱、并行處理、松耦合等核心技術需求。
(7)數據門戶
數據門戶是開放平臺的數據應用統一入口,面向不同角色的使用者,可以實現數據服務內容的搜索和推薦,能夠通過短信、郵件等方式把關鍵業務指標、系統分析應用推送給目標用戶。
(8)基礎管理
基礎管理主要包含安全管理、元數據管理和系統管理等功能。元數據管理貫穿于大數據分析子平臺的構建、運行和維護整個生命周期;安全管理是數據管理工作的重要組成部分,包括傳輸安全、存儲安全和訪問控制;系統管理提供對認證、權限、用戶等基礎信息的管理。
從數據服務能力開放的業務特性看,數據服務主要提供一對多的服務共享方式,要滿足高性能、高實時性的服務并行處理要求,且要與外部平臺實現充分的解耦。業界能力開放平臺在提供服務時,主要采用傳統的SOA思路進行構建,此種方式存在以下幾個方面的問題。
·實時性:主要基于消息的同步模式機制,其流程處理方式為順序、線性,即只有前面步驟處理完成才能發起后續步驟和服務調用,這影響到服務調用的性能和時效。
·服務效率:針對一對多的服務共享場景,會開發多個服務且增加路由服務,服務提供方必須要知道所有消費方,并對所有消費方進行服務調用和數據分發,這無疑給平臺增加了性能壓力。
·耦合度:企業服務總線能起到松耦合的作用,但其建設過程是漸進的。當前的消息機制多采用同步模式,當服務消費/提供者兩方中的任何一方存在系統異常時,都將直接導致另一方的功能系統和服務調用失敗,業務系統間沒有徹底實現解耦。
SOA能把線性、可預測內容的服務連接起來,但缺乏對動態實時業務做出應答的能力。數據服務提供需要滿足異步、消息實時響應、發布訂閱、并行處理、松耦合等核心技術需求,而通過事件驅動架構(event driven architecture,EDA)模式建立的系統可對動態實時業務做出有效的處理,允許復式、不可預測、異步的事件并行地發生和在單一的活動中被觸發,并且由于服務可以像事件一樣被觸發,因此EDA實際上是SOA的一種有效補充[4]。
經過以上分析,本文所述平臺的數據服務能力采用EDA服務共享機制,具備以下特性。
·異步:支持異步活動,服務發布后不必再關心消費方是否能收到響應,也不必在源和目的端之間維持一條活動的鏈路。
·發布/訂閱:支持一對多或多對多的服務交互,在平臺中發布一個關于事件的信息到網絡,許多其他已經訂閱和授權的系統可以收到消息并做出相應的動作。
·解耦:實現與外部系統的充分解耦,服務在兩個系統間交互時不需要知道對方的詳細信息。
在實現以上服務機制時,主要滿足以下功能要求。
·異步消息支撐:平臺架構需要保證當外部服務請求事件發生時,能傳送異步消息。采用JMS實現消息的創建、發送、接收和讀取,通過JMS接口,消息生產者和消費者能夠以點對點或發布/訂閱模型發送和接收消息。
·事件管理:將服務提供方/消費方所發生的工作定
義為事件,平臺的體系結構必須保證有相應的功能可以識別、定義和聚合事件,以便于統一管理,這包括在事件發生時和發生后都可以訪問,并且可以在特定的業務場景中識別和訪問一系列事件。
本文分析了在大數據環境下,電信運營商數據服務能力開放的業務需求、數據服務內容,重點研究了數據服務能力開放平臺的建設思路、體系架構,針對數據服務提供的業務特點,研究了集約化運營環境下運營商數據服務共享的機制。本文的研究成果對電信運營商能力開放平臺的建設具有較好的指導意義,為運營商向集約化運營、綜合服務提供的戰略方向轉型提供了技術參考。而在本文的研究領域中,對于數據安全性問題,特別是涉及個人數據隱私的內容,后續將做更進一步的研究。
1 劉增明,賈一葦.美國政府Data.gov和Apps.gov的經驗與啟示.電子政務,2011(4)
2 吳鋼.移動互聯網時代電信運營商的商業模式——能力開放.信息通信技術,2011(1)
3 劉斌,王桂榮,華竹軒.移動互聯網環境下電信IT能力開放研究.廣東通信技術,2011(12)
4 季云峰.基于SOA的EDA的研究和實現.軟件,2012,33(7)
5 劉秋生,李紅貴.基于事件驅動SOA架構的企業應用集成模式研究.中國管理信息化,2009,12(4)
6 趙鈞.構建電信物聯網開放數據服務體系的思考.電信科學,
2012 ,28(2)