湯勁松,蔡韻,王曉亮,傅一平,湯瀟巍,陳永剛,張挺
?
電信運營商大數據基礎能力建設與實踐
湯勁松,蔡韻,王曉亮,傅一平,湯瀟巍,陳永剛,張挺
(中國移動通信集團浙江有限公司,浙江 杭州 310016)
以中國移動通信集團浙江有限公司(以下簡稱浙江移動)為例,從平臺、數據和技術3方面闡述了運營商的大數據能力,并結合企業實踐和探索,分享了浙江移動在移動信用評分和智能選址產品的案例。
大數據;信用評分;選址
隨著互聯網業務和應用的迅猛發展以及移動互聯網的爆炸式增長,電信運營商客戶基礎屬性、行為數據、信令數據和終端數據等海量數據的存儲與分析日益成為電信運營商的重要挑戰。大數據技術的出現與機器學習的發展為電信運營商深挖數據提供了新的技術手段,同時也為其更好地服務客戶提供了新的機遇[1]。
運營商通過大數據平臺的建設、海量數據的加載、豐富的畫像標簽沉淀以及上層機器學習算法的深入研究,針對幾大相關行業進行了深入探索和實踐[2],也推出了系列創新產品,在支撐金融風險控制、用戶征信領域和商業決策等方面發揮著越來越重要的作用。
中國移動通信集團浙江有限公司(以下簡稱浙江移動)大數據平臺經過兩期建設,已建成Hadoop、MPP、流處理和內存數據庫等平臺,集群規模已達1 400+,日均處理離線數據100多TB、實時數據千億條,融合了OSS(operation support system,運營支撐系統)、BOSS(business support system,業務支撐系統)、MSS(management support system, 管理支撐系統)三域內部數據+互聯網外采多維數據[3],為大數據應用提供有力的PaaS能力支撐。浙江移動大數據平臺如圖1所示。
運營商在數據方面具有天然優勢,擁有壟斷的通話關系網數據,最實時、最全面的位置數據,最豐富的上網行為數據,最全面的終端行為數據,最權威的用戶身份信息數據,最詳細的通信消費數據[4]。以下是各類數據的特點和價值。
(1)通話關系網數據
? ? 通話社交關系數據:基于通話交往圈的大小、主被叫及時間規律,就掌握了任何一個用戶的社交特征,比如某人的影響力,人與人之間的親密程度,人群之間的上下屬關系,甚至可以得到人脈路徑。
? ? 通話時序數據:通話的頻次、時序、時長及對端等重要數據,又可以用來挖掘用戶的性格甚至身份特質、作息規律等。
(2)位置數據
? ? 全方位的信令位置數據:運營商的位置數據不單單是需要通話、上網、短信才能獲取,而是通過定期基站切換、周期性位置上報而直接獲取用戶全方位位置數據,不依賴用戶是否登錄使用某一手機應用,這是較GPRS(general packet radio service,通用分組無線服務)技術定位最大的優勢。
? ? 實時性強:具備實時的流處理分鐘級的用戶位置數據,可用于各類實時位置服務應用。
(3)上網數據
? ? 擁有移動用戶手機上網的所有行為數據,經過DPI(deep packet inspection,深度分組檢測)技術內容解析,互聯網商品最深可到7級,App(application,應用程序)識別9 000個。
? ? 用戶搜索行為數據:用戶手機上的搜索行為是用戶近期最強的需求指向,只要進行語義解析并結合一定的知識庫,就可以在精確營銷中發揮巨大價值。
(4)用戶終端信息
? ? 用戶使用的終端信息:包括型號、品牌、換機頻次、品牌忠誠度等,可以掌握終端市場,可以從終端看用戶檔次。
? ? 用戶換機軌跡:可以用于分析終端品牌之間的流向。
(5)身份信息數據
? ? 實名制普遍推廣后,運營商的身份數據質量極高,包括身份證號碼、姓名等真實信息。
(6)通信消費數據
? ?用戶每月的通信支出、支出分布、充值情況、充值頻次等,一定程度上可以體現用戶的消費習慣、收入水平。
基于用戶畫像維度和運營商數據特點,標簽體系從上往下結構化分為七大類60小類,分別從客戶的基礎屬性、通信屬性、習慣偏好、社交關系、App行為、線上事件和位置軌跡進行展現,標簽規模突破了10萬個。浙江移動標簽體系如圖2所示。
(1)云爬蟲平臺
為豐富數據類型和規模,浙江移動自主研發了云爬蟲平臺來獲取外部數據并提供分詞和自然語言的解析能力。云爬蟲平臺可以抓取一切調用API訪問的網站內容,支持定制化的垂直爬取需求,租戶能夠自主指定各主流網站所要爬取的數據。目前,云爬蟲平臺可實現日均1億URL的采集量,有效爬取數據存儲能力大于500 TB,日均處理請求超過1 500萬條,日均爬取數據量超過2 TB。目前已采集了工商企信、個人征信和POI(point of interest,興趣點)等外部信息。

圖2 浙江移動標簽體系
(2)MR精準定位
MR(measurement report,測量報告)精準定位模型利用MR和OTT(over the top,通過互聯網向用戶提供各種應用服務)數據,通過定位算法對移動終端用戶進行精準定位,能夠精確到50 m以內,可精準輸出目標用戶的位置規律,為解讀用戶的位置行為研究提供數據保障。當前,浙江移動的MR精準定位模型已經開展全量數據處理和試用,定位精度從基站的300~500 m可有效提升到50~100 m,定位誤差達到商用要求。
(3)DPI深度解析技術
浙江移動運用DPI針對每天500億網頁進行解析,已解析9 000多款App,涵蓋金融、購物、游戲、娛樂、閱讀等19大類,網頁內容解析后,識別圖書、視頻、音樂、資訊、商品、點評等26大類8 000細類。
3.1.1 項目背景
隨著P2P市場的野蠻生長和消費金融在中國的興起,個人征信市場的需求大幅爆發。在2015年1月,中國人民銀行(以下簡稱央行)發布通知要求芝麻信用、騰訊征信等8家公司機構做好個人征信的準備工作,這一舉動說明征信業正式向市場化發展,同時,也標志著中國征信業正式進入2.0時代。2.0時代的個人征信業存在兩個特征:一是征信機構的多元主體化,征信牌照的發放使更多的機構進入市場,這有利于豐富和完善個人征信的服務體系;二是技術產品的創新,隨著大數據的到來,數據規模越來越多,在征信數據源和征信模型方面都有較多的創新和突破,征信體系有很多的改善空間。
中國移動擁有全國近10億用戶的通信行為數據、用戶位置數據及全網移動互聯網數據以及公共事業單位擁有的日常支付消費數據。這些數據擁有全面性、及時性、形式多樣性和可信度高等優勢。中國移動可以依據多年積累的大數據技術,充分應用這些數據搭建個人征信評分體系,用于服務自身傳統業務運營以及提供給其他征信金融機構作為個人信用評估標準或征信數據源的補充。
3.1.2 模型介紹
浙江移動在充分借鑒FICO、芝麻信用等行業標桿先進做法的基礎上,基于浙江移動的大數據平臺,充分整合客戶身份、通話、上網和位置等核心數據,利用決策樹、邏輯回歸和隨機森林等數據挖掘模型,從身份特征、消費能力、行為偏好、人脈關系和信用記錄5個維度構建客戶信用評分模型,實現了對客戶信用的客觀評價,并通過欠費、壞賬、行業違約等數據的驗證,不斷迭代和優化模型。移動信用評分體系如圖3所示,移動信用評分建模過程如圖4所示。

圖3 移動信用評分體系
3.1.3 模型效果
模型在測試樣本下預測的準確率如圖5所示,其中TPR為真陽率,FPR為假陽率。從圖5可以看出,該模型ROC曲線的AUC值能達到80%,說明模型預測效果不錯。模型在測試樣本下-曲線如圖6所示。從測試樣本的曲線來看,個人信用分的最大值能達到0.7,區分度較好。
3.1.4 產品應用
浙江移動首選欠費免停機場景作為試點業務啟動,針對不同的星級客戶給予了不同的信用額度(透支額度)。當客戶產生的欠費在信用額度內時,對用戶進行停機操作。通過該試點業務,在當前的星級體系下找出星級較低但是信用分較高的群體,賦予他們更高的信用額度,以減少用戶的停機可能,提升收入同時控制欠費風險。
(1)目標客戶撈取
從客戶星級和信用分兩個維度綜合考慮欠費率情況,最終撈取信用分在700分以上,但星級在五星以下的客戶,為其提供免停機服務。
(2)信用額度調整
針對目標客戶群體,根據不同的信用分等級,將其提升至不同檔次的信用額度。高信用低星級用戶信用額度調整規則如圖7所示。

圖4 移動信用評分建模過程

圖5 模型在測試樣本下預測的準確率

圖6 模型在測試樣本下K-S曲線

圖7 高信用低星級用戶信用額度調整規則
(3)目標用戶體驗
基于信用的話費透支額度提升體驗活動于8月1日開始在浙江多地開展,在目標用戶中隨機選取用戶進行外呼,8月份累計外呼25.6萬人,其中,接通11.3萬人,成功7.1萬人,最終轉化率為27.6%。在8月份期間,共有2.2萬人使用了話費透支服務(即8月份發生過欠費),占所有參與活動客戶的33%。
應用成效顯著,主要體現在以下方面。
(1)停機得到明顯改善
由于信用額度的提升,停機用戶數下降98%以上,客戶的服務感知得到了提升和改善。
(2)收入提升顯著
為了排除自然增長等因素的影響,與全省同條件且未參加活動的用戶相比,參加活動的用戶8月份ARPU(average revenue per user,用戶平均收入)提升2.17元。
(3)欠費風險較低
活動客戶8月的欠費率為0.49%(39天后),顯著小于全網客戶同期的欠費率1.1%。
3.1.5 產品展望
基于信用評分應用浙江公司當前已規劃了六大基于信用分的場景,對內逐步從欠費免停機、國內漫游免預存、信用購機方面開展;對外將從消費貸、免押金騎行和酒店信用住等領域拓展合作。
3.2.1 研究現狀
選址一直是實體商業、城市規劃、基礎設施建設領域的重要課題。目前,在學術界一直有非常廣泛的研究和探索。才鑫等人[5]主要基于移動通信用戶的上網數據、通話數據及位置更新數據對用戶社會化行為進行有效分析,通過對具有相似興趣的用戶軌跡進行聚類、預測及可視化顯示,進行商業選址,而沒有將交通、環境、競爭等因素考慮進去;同時,并不能解決系統自動決策網點位置的問題。黎夏等人[6]將遺傳算法、蟻群算法、粒子群算法等人工智能算法應用到多點選址問題中;黎海波等人[7]利用多目標粒子群優化算法和區域形狀變異算法相結合來解決復雜的空間選址問題,取得了較好的效果。但這些都是基于GIS(geographic information system,地理信息系統)體系的POI(point of information,信息點)數據體系來構建的選址體系,都沒有考慮人類活動的因素,造成選址結果與人們真實的需要往往存在一定差距。隨著信息技術的發展,手機信令數據、社交網絡數據等大數據漸漸發揮出重要的作用,大數據技術就是將原本看起來很難利用的數據抽絲剝繭,發現其中的真正內涵[8],整合多方數據進行選址也成為可能。
浙江移動大數據體系目前已經整合用戶特征數據、用戶通信行為數據、用戶位置數據、用戶互聯網行為數據以及外部的POI數據和商業網點數據,形成了涵蓋地理空間、產業和居民的全量數據體系,具備了進行智能選址的數據基礎。同時,鑒于目前大量的選址研究還僅僅是停留在GIS熱力圖展示的定性化研究的現狀,本文將基于浙江移動大數據建模和分析平臺能力,結合全量數據體系,提出基于地理數據、產業數據和用戶數據的智能選址體系,對傳統的單純基于POI或“人”的選址方法進行優化補充,構建智能推薦和決策的選址系統。

圖8 智能選址產品技術
3.2.2 選址方案
整合信令位置、客戶特征、POI 3方面數據,采用分布式+MPP并行數據處理架構,構建基于地圖網格式分析模型,實現智能選址應用。對外為規模性的連鎖機構或高價值、低頻次的大型商場提供商圈初篩、商圈分析、商圈對比等功能,輔助商家決策更加合適的選址點。對內提供區域客戶對實體渠道、擺攤方式的需求評估、周邊客戶的效能評估、競爭環境監測與分析等能力,輔助評估備選點是否適合開實體渠道或進行擺攤。對內對外均可通過特征選取、導入客群、相似客群挖掘3種方式提取潛在客戶,采用圖形化界面展示目標客戶的特征和分布,便于選擇最佳營銷觸點方式和營銷策略,力求更科學的精準營銷,智能選址產品技術如圖8所示。
3.2.3 應用效果
選址應用在對外應用方面,已經與房地產、商場零售等各行業商家開展選址、拓客合作。在對內應用方面,已開始支持中國移動的渠道布局決策、加盟廳評估和審核等工作。以加盟廳評估為例,原來加盟廳審批時,地市移動需人工采集和上報廳店周邊人口、競爭、商圈業態等信息,現在由應用直接提供,簡化了流程,開店時間縮短至原來的1/3,低效廳控制在10%以下。在對外應用上,通過對點評評分排名前10的快餐店進行位置與模型智能推薦的排名前10位置進行對比,有7個點模型推薦的位置與實際的位置基本一致,同時實際排名靠前的另外3個點也都在模型推薦的理想開店地址。因此,能夠明顯地看到通過多方數據的結合以及智能推薦模型的構建,能夠幫助餐飲行業實現智能化一鍵選址。
運營商在數據方面天生擁有得天獨厚的優勢,未來將在人工智能、行業理解和產品創新上不斷探索前進、努力轉型,使運營商的數據和能力在越來越多的行業中發揮舉足輕重的作用[9]。
[1] 吳軍. 大數據和機器智能對未來社會的影響[J]. 電信科學, 2015, 31(2): 7-16.
WU J. Big data, machine intelligence and their impacts to the future world [J]. Telecommunications Science,2015, 31(2): 7-16.
[2] 劉春, 鄒海鋒, 向勇. 大數據環境下電信數據服務能力開放研究[J]. 電信科學, 2014, 30(3): 156-161.
LIU C, ZOU H F, XIANG Y, et al. Research on telecom data service open ability under the environment of big data [J]. Telecommunications Science, 2014, 30(3): 156-161.
[3] 于鵑. 數據倉庫與大數據融合的探討[J]. 電信科學,2015, 31(3): 166-170.
YU J. Discussion on integration of data warehouse and big data [J]. Telecommunications Science,2015, 31(3): 166-170.
[4] 傅一平, PK BAT. 運營商大數據其實更有價值[J]. 廣告主,2016(4).
FU Y P, PK BAT. Big data operators is more valuable in fact[J]. Advertisers, 2016(4).
[5] 才鑫, 姜國強. 基于移動大數據的商業選址系統的研究與實現[J]. 移動通信,2015(13): 1.
CAI X, JIANG G Q. Research and implementation of commercial location system based on mobile big data[J].Mobile Communication, 2015(13): 1.
[6] 黎夏, 葉嘉安. 遺傳算法和GIS 結合進行空間優化決策[J]. 地理學報, 2004, 59(5): 745-753.
LI X,YE J A. Optimal spatial search using genetic algorithms and GIS[J]. Acta Geographica Sinica, 2004, 59(5): 745-753.
[7] 黎海波, 黎夏, 劉小平, 等. 多目標粒子群算法與選址中的形狀優化[J].遙感學報, 2008, 12(5): 724-733.
LI H B,LI X, LIU X P, et al. Particle-swarm optimization for site selection with contiguity constraints[J]. Journal of Remote Sensing, 2008, 12(5): 724-733.
[8] 吳志峰, 柴彥威, 黨安榮, 等. 地理學碰上“大數據”:熱反應與冷思考[J]. 地理研究, 2015, 34(12): 2207-2221.
WU ZH F, CHAI Y W, DANG A R, et al. Geography interact with big data: Dialogue and reflection[J]. Geographical Research, 2015, 34(12): 2207-2221.
[9] 廖建新. 大數據技術的應用現狀與展望[J]. 電信科學, 2015, 31(7): 7-18.
LIAO J X. Big data technology: current applications and prospects [J]. Telecommunications Science, 2015, 31(7): 7-18.
Construction and practice of big data fundamental ability for telecom operators
TANG Jinsong, CAI Yun, WANG Xiaoliang, FU Yiping,TANG Xiaowei, CHEN Yonggang, ZHANG Ting
China Mobile Group Zhejiang Co., Ltd., Hangzhou 310016, China
Take Zhejiang Mobile as an example, the big data capability was demonstrated from three aspects: platform, data and technology. Combined with the enterprise practice and exploration, industry cases were shared in terms of credit score and site selection.
big data, credit score, site selection
TP311
A
10.11959/j.issn.1000?0801.2018037
2017?10?12;
2017?12?18
湯勁松(1968?),男,博士,中國移動通信集團浙江有限公司高級工程師、大數據中心經理,主要研究方向為大數據模型、大數據行業研究、運營商大數據挖掘及商業變現等。

蔡韻(1980?),女,中國移動通信集團浙江有限公司工程師、數據建模師,主要研究方向為數據建模和數據管理。
王曉亮(1984?),男,中國移動通信集團浙江有限公司大數據中心工程師、產品經理,主要研究方向為用戶標簽和行為。

傅一平(1976?),男,博士,中國移動通信集團浙江有限公司高級工程師、大數據中心數據管理部經理,主要從事大數據系統、大數據建模、大數據營銷、大數據行業研究、運營商大數據挖掘及商業變現等方面的研究工作。
湯瀟巍(1990?),男,中國移動通信集團浙江有限公司工程師、數據建模師,主要研究方向為數據建模。
陳永剛(1981?),男,中國移動通信集團浙江有限公司工程師、產品經理,主要研究方向為大數據產品及模型。
張挺(1987-),男,中國移動通信集團浙江有限公司工程師、產品經理,主要研究方向為大數據產品。