北京東方國信科技股份有限公司 北京 100102
大數據時代,數據已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。回顧近兩年對大數據的探索歷程,某基礎運營商一方面順應大勢,牢牢把握大數據技術快速發展的機遇,另一方面應勢而動,充分釋放前期IT集中化、一體化的紅利,堅定推進數據集中。先后經歷了數據集中采集的積淀、初試大數據Hadoop平臺、傳統數據庫與Hadoop混搭架構的大數據平臺創建,以及目前朝開放式大數據服務平臺邁進四個階段。
精準化營銷與維系系統,依托大數據精準定位支撐端到端多維度維系體系,構建在大數據平臺之上,面向客戶、面向服務、面向管理,深化數據分析、數據挖掘能力,洞察客戶、透視企業,是將大數據轉化為實際生產力的重要云化應用之一[1]。
MPP(Massively Parallel Processing,大規模并行處理系統)由多個SMP(Symmetric Multi Processing,對稱多處理系統)服務器通過一定的節點互聯網絡進行連接,協同工作,完成相同的任務,從用戶的角度看它是一個服務器系統。其基本特征是由多個SMP服務器(每個SMP服務器稱為一個節點)通過節點互聯網絡連接而成,每個節點只訪問自己的本地資源(內存、存儲等),節點之間的信息交互是通過節點互聯網絡實現的。目前的技術可實現512個節點互聯。MPP數據庫有以下特點。1)一般存儲為結構化數據,有明顯的星型或雪花型結構,適用于大數據分析的應用;2)每個服務器都有自己獨立的存儲、內存和CPU,允許動態地增加或刪除節點;3)數據分區劃分到不同的物理節點上,通過分布式查詢優化來提高系統整體性能;4)主要用在數據倉庫和大規模的分析處理應用中。
Hadoop是參考Google相關技術而發展起來的開源分布式存儲和計算系統。其核心部分是HDFS(Hadoop Distributed File System,分布式文件系統)和M/R(Map/Reduce)。HDFS是一個高度容錯性的存儲系統,M/R則是一個計算框架。一個M/R作業通常會把輸入的數據集切分為若干獨立的數據塊,由Map任務以完全并行的方式處理。框架會對Map的輸出先進行排序,然后把結果輸入給Reduce任務,作業的輸入和輸出數據都會被存儲在HDFS中,整個框架負責任務的調度和監控以及失敗任務的重新執行[2]。
ETL是指將數據從源端經過抽取(Extract)、轉換(Transform)、加載(Load)至目的端的過程,該部分在數據挖掘和分析過程中為最基礎的一部分。一個良好的ETL系統應該有以下幾個功能。1)消除數據錯誤并糾正缺失數據;2)對于數據可信度的評估提供文檔化衡量;3)獲取相互作用的數據流程來保護數據;4)整合多個源數據;5)將數據進行結構化供最終用戶使用。
語義引擎即為一種能夠從非結構化數據中提取有效信息的一種工具。相對于結構化數據而言,不方便用數據庫二維邏輯表來表現的數據即稱為非結構化數據,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等。
數據挖掘算法是一個不斷驗證不斷匹配的過程,需要數據分析人員與業務人員不斷地溝通和交流,使采集的數據更加符合實際營銷情況。多數情況下,數據挖掘技術與在線聯機處理分析(OLAP)方法相伴使用,也可以單獨使用,選擇正確的挖掘算法至關重要。如分析電信客戶在生命周期中處于哪種狀態,需使用回歸分析;分析挽留預流失用戶,要根據以往流失用戶特征預測用戶是否有流失意向,需使用分類算法[3]。
數據可視化是利用圖形、圖像處理以及用戶界面,向用戶清晰有效地傳達數據所傳達的信息。目前,數據可視化技術一般以表格、圖形、地圖等形式為主,實現圖表聯動、圖表轉化、表格下鉆、多維切換、地圖數據高亮顯示等功能。
預測性分析是根據可視化分析和數據挖掘的結果做出預測性的判斷。數據挖掘可以預測“誰可能是手機報傾向使用用戶,誰可能更喜歡玩網游”,或者預測“誰可能即將離網”。
大數據處理技術按目前分類,可分為大數據查詢與數據分析、數據庫技術、流與復雜事件處理、分布式文件系統等[4]。
精準營銷與維系系統的大數據平臺,既要支撐對內的數據分析應用(包括面向管理層的企業管理和經營分析,面向前端的業務開發、運營與推廣分析,面向后端的網絡運營與優化分析),又要支撐對外的數據開放與數據經營服務,包括數據產品化。
某基礎運營商的大數據系統架構如圖1所示。主要包括大數據uCloud D“三大體系、四大平臺”的總體規劃以及全網、寬帶明細數據、企業管理域核心數據、移動互聯網流量日志、全網手機終端數據等。
精準化營銷與維系系統是構建在大數據平臺之上,基于數據平臺的數據支撐能力,依托傳統B域高價值密度數據,充分挖掘O域上網行為等低價值密度數據,通過開放式應用平臺將其數據能力轉化為實際生產力。
目前大數據存儲技術領域有兩個主要的技術陣營和研究方向。一是MPP(Massive Parallel Processing,大規模并行處理)數據庫;二是以Hadoop+ MySQL為代表的分布式文件系統。如表1所示[5-7],MPP兼顧計算和數據訪問,在計算能力上不如Hadoop,在數據訪問能力上不如MySQL;Hadoop提供了優秀的海量計算能力(同時提供一定程度的數據訪問能力);MySQL提供了優秀的數據訪問能力,二者結合能夠提供優秀的綜合數據加工和訪問能力。
大數據平臺對生產系統數據的采集及整合是精準化營銷與維系系統建設的基礎。大數據平臺的采集整合數據分類與技術如圖2所示。
1)結構化數據采集與整合。采集生產系統和業務平臺的數據,并通過DCN承載傳輸。實現前置機中的全/增量數據的實時/定時采集功能;實現前置機中基于Web服務的少量數據采集功能;實現前置機與交換平臺之間的傳輸控制交互功能。
2)非結構化采集與整合。采集互聯網相關的內容及行為信息,并通過IP網承載傳輸。通過網絡爬蟲引擎采集靜態的互聯網瀏覽內容信息,以及通過頁面標簽解析引擎采集互聯網瀏覽歷史和行為等信息。
3)流數據采集與整合。采集網絡信令、設備日志、互聯網實時行為等流類型數據,搭建流處理引擎和消息處理引擎。
4)臨時數據采集與整合。采集各省各部門一次性數據,通過文件方式直接傳輸入庫到數據集市[8-9]。

圖1 系統架構圖

表1 MPP、Hadoop和MySQL基本特性對比

圖2 大數據平臺的采集整合圖
本文研究的大數據能力,主要分為資源能力和數據能力兩種形式。合作伙伴或者客戶可根據自身業務需求,申請資源能力和數據能力,精準營銷系統會為其提供多種合作模式,以滿足不同合作伙伴和客戶的不同業務需求[10-11]。
1)資源類能力。主要是指基礎運營商對外開放計算資源和存儲資源,針對外部合作伙伴和客戶實行按需分配資源,允許合作伙伴和客戶在所分配資源內部署業務運營所需的應用,在資源范圍內使用已授權的電信數據資產,同時,允許其與自身數據進行融合,與電信業開展數據應用運營業務合作。
2)數據類能力。主要指在保證數據安全的前提下,向合作伙伴開放數據資產,允許合作伙伴將其所擁有的數據與電信數據進行充分結合,產生滿足業務需求的價值數據,或者借鑒已成熟的數據模型,形成自身個性化的數據模型。主要包括:數據轉售、數據咨詢、數據能力開放等。
數據轉售是指匯聚電信數據資產、外部關聯數據、經過脫敏、分析挖掘等加工處理后依按需有償原則向第三方提供數據接口調用的服務。通過數據挖掘將用戶登陸網址分析的大樣本數據出售給相關客戶,如淘寶、京東、蘇寧、新浪等,方便客戶進行價值營銷,形成新的盈利模式。
數據咨詢是指對電信數據、關聯的外部數據進行收集、存儲和加工,形成有價值的商業咨詢報告,向第三方提供以獲取信息增值收入。
數據能力開放是大數據能力平臺的虛擬運營模式,第三方租用平臺空間、計算和數據資源,開展數據分析和挖掘應用,以滿足自身業務需要或向其客戶提供商業信息服務。
為實現大數據能力,主要從以下幾點進行分析。
1)洞察客戶需求,提升客戶感知。
①洞察客戶特征,精準把握客戶需求。基于大數據,構建多維度分類分級的高清客戶畫像,洞察客戶消費行為與需求偏好,開展以客戶為中心的精準化、高效率的套餐推介、服務維系、流量助推、定向營銷等活動,貼合客戶需要,提升客戶感知。并儲備對外合作數據價值多元化、多樣化的服務交付能力,如以大數據平臺的完整客戶畫像為基礎,為客戶進行一對一的個性化廣告投放,通過短信等方式發送餐飲、娛樂、購物等生活信息推薦給客戶。
②客戶觸點管理統一,確保客戶體驗一致。以客戶為中心,實現多部門多活動、線上線下多觸點的統一協同管理,防止執行渠道單一,避免過度打擾,確保客戶體驗一致性,并及時評估渠道投放效率與效益,循環優化,持續提升[12]。
2)以大數據為中心,開展精準營銷維系。
改變過去粗放式的營銷和維系政策的制定與執行,準確識別、精準投放、實時跟蹤、循環優化,實現營銷維系智慧化、資源投放精準化和經驗案例共享化。嚴格做到事前精準策劃,事中精準管控,事后循環優化。
3)滿足一體化運營,助力服務下沉。
構建引導型、規范化、自上而下的一體化精準營銷維系體系,同時,支撐省分和本地網創新型營銷與維系需求,助力服務下沉。
營銷維系一體化運營能力,包括規范客戶標簽體系,精準洞察客戶需求;強化營維體系落地,確保一體智慧運營;統一客戶接觸標準,樹立企業服務形象;共享全網營銷案例,復制推廣成功經驗。
精耕細作服務下沉,包括支持省、地市及多專業個性化標簽;支持省、地市及多專業個性化模板;支持省、地市及多專業個性化流程配置;支持省、地市執行渠道對接,如呼叫中心、短信、營業廳、網格經理等。
基礎運營商利用成熟的GPS定位技術和高速的無線傳輸網絡,為公交車、出租車公司提供車輛調度和管理服務,提高車輛運營效率和大眾人群使用公共車輛的滿意度。
通過遍布全市的公交車和出租車行駛數據,分析挖掘形成整個城市的路面交通“實時路況”,為公共交通治理提供可靠的決策依據。
通過公交車的固定路線行駛時間分析,可幫助公共交通部門優化公交線路,合理配置公交車輛的投放數量,從而滿足人民群眾的公交出行需求。
教育信息化正在引發教學模式的重大變革,傳統的“板式”教學向“多媒體教學”轉變,云服務的引入縮小了城鄉基礎教育的差距。
在幼兒教育方面,基礎運營商利用視頻傳輸、云服務分享能夠實現幼兒、家長、老師三位一體的信息化服務。隨著幼教信息化的普及和推廣,借助大數據挖掘和分析,將不同年齡段的幼兒特征和偏好進行提煉,能夠為教育局和相關教育機構提供有力參考。
在中小學教育方面,基礎運營商通過電子黑板、電子書包等形式,將豐富的教育資源通過云服務的方式傳遞到教育末梢。同時,借助大數據挖掘和分析,將教育資源的使用率進行評估,從而得出相應的推廣范本,為教育機構遴選教材、試點新的教育手段提供參考。
基礎運營商利用遍布全國、通達鄉鎮的通訊網絡,將社區醫院、鄉村診所這樣的基層醫療服務機構連成網絡,利用視頻通信、云服務、傳感設備等先進技術實現遠程病情診斷、遠程醫療咨詢、共享病歷等服務。利用大數據挖掘和分析為流行病防控、易感人群分析、季節多發性疾病預測提供有力的數據支持。
基礎運營商利用自身在通信網絡和用戶資源方面的市場優勢,與醫療器械設備廠商及集成商建立長期的合作關系,捆綁業務、互惠互利,形成電信行業在醫療衛生行業的大數據應用(如圖3所示),達到雙贏共贏。

圖3 電信行業在醫療衛生的大數據應用
針對殘障人士,基礎運營商提供定制化的通信套餐,讓他們足不出戶也能享受高科技帶來的信息盛宴。同時,結合位置定位、視頻傳輸等通信技術,借助大數據挖掘和分析,為特殊人群服務,提供位置分布、使用偏好、消費能力的數據參考。
根據Gartner預測,2015年中國大數據市場規模將達到100億元。對于基礎運營商來說,海量的用戶通信數據,能夠為各行各業提供末梢消費者的行為分析和結合地理信息的數據分布,從而衍生出形式多樣的商務模式。
隨著中國汽車市場的繁榮,“實時路況信息”不僅對公共交通治理有益,對普通的駕駛人員也有極高的參考價值。圖商(高德地圖、百度地圖等)在提供免費地圖導航軟件的同時,對“實時路況”收取增值服務費。對于基礎運營商而言,大數據挖掘分析結果,不僅可以為圖商所用,還可以為保險公司售賣車險所用。
越來越多的人使用“手機支付”,可通過分析此類用戶的ARPU(月通信費)以及年齡結構、知識結構, 來為企業細分目標市場。
多數銀行普遍采用的“信用卡移動受理”服務,是將銀行的信用卡開卡業務移植到平板電腦上,方便銀行業務人員隨時隨地向客戶推薦業務、受理業務。通過大數據挖掘和分析,能夠為銀行提供潛在客戶的分布區域、高價值客戶的集中度、新增客戶的屬性和消費能力分析,從而為銀行制定信用卡的優惠政策和品牌區隔提供有力的數據依據。
“掌上股市”服務,是將證券市場的實時信息推送至用戶終端,不需要用戶終端安裝龐大的歷史證券數據。根據用戶的分析需求,采取云服務的方式,在遠程服務器進行計算分析,降低用戶手持終端的計算復雜度和存儲消耗。通過大數據挖掘和分析,證券公司能夠獲取其最終用戶的投資偏好,為其提供定制化的服務,從而提高客戶黏性。
在成人教育方面,以商學院為例,目前廣泛采用基于iPad等平板電腦的教學工具。依托高速3G網絡,學生在iPad上通過專有客戶端軟件進行“云端”電子課件的閱讀,還可進行標注、課堂筆記等操作。隨著此類高端教學工具的普及,基礎運營商針對MBA目標人群進行大數據挖掘和分析,為商學院制定合理的教學計劃和教育資源配置提供參考。
根據新華社物聯網咨詢中心的數據,2015年中國物聯網產業規模將達到5 000億元,重點行業是安防、電力、醫療、物流、環境監測,覆蓋了從公共管理和服務市場到企業、行業應用市場,再到個人家庭市場,已經逐步發展成熟。
綜上所述,在移動互聯網、物聯網、云計算等產業潮流的推動下,基礎運營商將通信管道的傳統業務與大數據的增值服務相結合,發揮通訊用戶行為海量數據的優勢,與各行各業的新商機結合,共同推動社會管理水平的提升和新型商業模式的利潤增長[13]。
大數據技術的演進之路從未止步,大數據應用的范圍也在不斷擴大。目前,電信行業海量數據還未形成有效的信息資產,其中蘊含的價值和機會還有待發掘。基礎運營商可聚焦自身真實、特殊的數據資源,增強大數據分析挖掘技能,從而提升經營效率,提升網絡質量,盤活戰略資產,使數據價值最大化。大數據的發展需要產業鏈的開放和更大范圍的數據聚合,為此,基礎運營商將與產業各方共同合作,打造電信行業大數據生態圈,實現開放合作共贏,大數據必將成為電信業發展的新引擎。
[1]盧云許.電信行業大數據應用淺析[J].信息系統工程,2013(12):20-30
[2]王長武.移動互聯網下的運營商大數據應用淺析[J].電子技術與軟件工程,2014(13):45
[3]廖凡迪.海量電信數據的挖掘與異常分析[D].北京郵電大學2013:15-21
[4]袁瑋.云計算在電信行業經營分析系統中對大數據的處理探析[J].硅谷,2014(06):117
[5]Liu Peter.電信行業中的大數據[J].電信網技術,2013(08):1-3
[6]張雨,蔡鑫,李愛民,等.分布式文件系統與MPP數據庫的混搭架構在電信大數據平臺中的應用[J].電信科學,2013(11):3-4
[7]王蘇衛.基于Hadoop和Hive的電信行業數據倉庫研究[J].電子技術與軟件工程,2013(11):89-89
[8]李存琛.海量數據分布式存儲技術的研究與應用[D].北京郵電大學,2013:29-37
[9]成靜靜.基于Hadoop的分布式云計算/云存儲方案的研究與設計[J].數據通信,2012(05):14-18
[10]顏巍.基于云平臺的數據挖掘算法的研究與實現[D].電子科技大學,2013:71-87
[11]林佳燁.云計算在電信行業數據分析領域的應用[J].移動通信,2011(08):83-86
[12]李希,鄭惠莉.運營商開展大數據業務的對策及建議[J].中國電信業,2013(11):1-3
[13]Viktor Mayer-Schonberger.Big Data:A Revolution That Will Transform How We Live,Work and Think[M].Hodder Export,2013