陳志競,梁伯瀚
(中國電信股份有限公司廣東研究院 廣州 510630)
數據挖掘助力精細化流量經營
陳志競,梁伯瀚
(中國電信股份有限公司廣東研究院 廣州 510630)
移動互聯網時代,移動數據流量正以前所未有的速度在增長,電信運營商面臨著增量不增收、流量套餐滲透率不高、自有移動互聯網業務推廣難等問題。本文結合電信運營商的實際案例,介紹運用協同式過濾、社交網絡分析、決策樹等數據挖掘技術在流量套餐精確營銷、移動互聯網業務個性化推薦等流量經營重點工作中的應用和效果。
流量經營;數據挖掘;協同式過濾;社交網絡分析;決策樹
2011年全國電信主營業務增長10%,同期GDP增速為9.2%,全球電信業的增速也已整體落后于GDP的增速,電信行業增速緩慢已經成為現實,如何尋求新增長是電信運營商共同關心的問題。隨著3G網絡應用的發展和智能手機的普及,電信運營商流量收入不斷提升,成為它們的收入增長點和主要的收入來源,如近兩年日本NTT DoCoMo和軟銀兩家運營商的數據收入占比均已超過50%。國內電信運營商開始越來越重視流量經營,各種評價流量經營健康度的指標,如總流量、戶均流量、流量活躍率、流量ARPU等,都已紛紛被納入國內電信運營商的年度考核目標中。
區別于傳統的話務量經營,電信運營商的流量經營面臨著幾方面的挑戰。首先,流量激增導致流量與收益剪刀差“增量不增收”的挑戰,電信運營商均承受極大的網絡流量激增壓力,以AT&T 2007-2010年為例,移動數據流量增長了8 000%,移動用戶數量增長了54%,移動業務收入僅增長了52%。其次,電信運營商的產業地位受到挑戰,并有邊緣化的趨勢,移動互聯網產業鏈的各個環節目前都在發展把握用戶資源的能力,電信運營商距離用戶最近的優勢已經逐漸喪失,同時網絡、計費等能力方面的優勢也正在受到更大的挑戰。雖然國內電信運營商做了大量的努力,包括成立移動互聯網業務運營基地,終端預置自有移動互聯網業務,但自有業務使用率普遍不高。因此,無論電信運營商希望在管道層面實現收入增長,還是在內容、應用、服務等層面獲得新增長,都迫切需要加強用戶流量行為洞察,通過精細化流量經營的手段貫徹其智能通道和綜合平臺的移動互聯網戰略。
然而,精細化流量經營對數據挖掘技術提出了新的要求。一方面,原始數據品類增多,收集難度增大,除了運營商計費平臺的流量詳單以外,很多移動互聯網內容應用和訪問行為都是非結構化數據,需要借助各種類似日志采集、URL 探測、深度包檢測(deep packet inspection,DPI)和文本挖掘的創新數據分析處理方法。另一方面,隨著移動互聯網的發展,用戶行為從個人需求向社群需求發展,挖掘技術熱點方向也隨之改變,如社交網絡分析(social network analysis,SNA)成為熱點研究方向。最后,對行為分析的實時數據應用要求也在不斷提高,很多個性化推薦都要求基于當前行為做出最能適應用戶當前需求的實時推薦,需要借助類似基于用戶(user-based)和基于產品(item-based)的各種協同式過濾算法。
現階段,國內電信運營商精細化流量經營的主要舉措是開展潛力用戶的針對性營銷活動,培育高流量用戶。其中的針對性營銷活動主要包括流量套餐的精確營銷、智能機升級銷售、移動互聯網應用的推薦使用等。運用數據挖掘技術對海量電信客戶數據的分析可以幫助運營商提高精細化流量經營的效率,基于當前的數據條件和應用需求,筆者曾協助中國電信股份有限公司廣東分公司做了一些精細化流量經營的實踐與應用,根據挖掘分析所用的數據品類,主要可以劃分為基于用戶消費行為數據的精細化流量經營和基于終端信息數據的精細化流量經營。
在移動互聯網時代,用戶需求越來越呈現個性化和多樣化,流量經營如果可以在充分了解客戶需求的基礎上,以合適的方式為目標用戶提供差異化產品滿足其移動互聯網需求,則可以有效地實現擴大流量用戶規模、提升用戶流量價值等目標。
移動互聯網用戶興趣愛好分析主要是通過分析用戶的網絡使用偏好,對用戶進行分類,建立用戶偏好屬性特征標簽,再結合用戶的基本資料、消費情況、業務訂購情況等信息,篩選出特定業務的營銷客戶群,將合適的業務推薦給合適的用戶。如圖1所示,客戶偏好屬性特征可以劃分為商務理財偏好型、資訊生活偏好型、游戲娛樂偏好型、音樂偏好型等,進而可以對移動互聯網應用進行梳理,形成相應的主題應用,如可以對應構建音樂偏好、資訊偏好、娛樂偏好、商務偏好四大類應用,對相應用戶進行主動推薦。
根據數據采集的方式不同,在實際開展興趣愛好的分析過程中采用了兩種不同的分析方法。
第一種是從系統獲取每個用戶訪問移動互聯網頁面對應的頁面URL,從中識別出關鍵的網站信息,從而分析出用戶上網的行為習慣,并結合收入、賬戶、其他產品的使用行為等進行用戶細分。這種方法的前提是要預先建立并維護URL數據的分類目錄,有可能某些網站的URL需要識別到第二級甚至更多級目錄,由于互聯網頁面的豐富繁多且更新變化頻密,分類目錄的維系工作對分析人員而言是一大挑戰。
第二種分析方法則是從系統獲取用戶在搜索引擎所輸入的關鍵詞內容,分析用戶的內容愛好,再結合其他用戶收入、背景信息等對用戶進行分類。這種分析方法的優點在于對用戶偏好內容的分類目錄整理維護較為輕松,缺點是獲取的信息量比頁面URL分析方法要片面一些,因為它只能捕捉到使用搜索引擎的用戶信息。
通過分析用戶的興趣愛好,并結合用戶的業務使用情況,投其所好地進行針對性的營銷,事前可以先確定用戶群,從而有效提高營銷成功率,降低成本,避免傳統營銷方式費時費力的成本、極易造成用戶的反感等問題。
對比傳統電信業務,移動互聯網業務具有品類多、生命周期短、更新速度快、上線時間快等特點,采用協同式過濾(collaborative filter)技術可以建立多業務通用的目標用戶識別模型,能有效滿足移動互聯網時代流量經營的要求。

協同過濾技術的原理是為每個用戶計算尋找其 “鄰居”相似用戶,從用戶的話音行為/價值、增值業務行為/價值和客戶信息等基礎通信特征出發,通過計算目標用戶和其他用戶之間的相似性,根據相似度大小計算出每個用戶的“鄰居”用戶集合。簡單來說,就是把用戶分成了成千上萬的群,每個群里面的用戶都是足夠相似的,具備類似的通信行為特征,可以認為他們是同一類人。
根據流量經營的具體需要,通過兩種不同的方式開展針對性營銷活動。一種是針對業務或流量套餐尋找潛在目標用戶,該業務現有用戶的所有鄰居用戶都可以視作該業務的潛在目標用戶。另一種方式是對單個用戶開展差異化的流量提升關懷,統計每個用戶鄰居用戶的移動互聯網業務的使用情況,向該用戶推薦其鄰居使用頻率高的業務或流量套餐。
通過實踐驗證,在某地開展的流量套餐營銷過程中,設計了協同式過濾模型提供名單和隨機方式兩個組分別進行營銷,結果發現,采用協同式過濾名單的營銷響應率達到21.6%,是隨機方式的2.1倍,如圖2所示。
需要說明的一點是,為提高該業務潛在目標用戶清單的準確性,在使用協同式過濾技術提取到的潛在目標客戶清單的基礎上,還可以應用業務規則過濾的方法,將潛在目標用戶進行二次篩選和過濾,形成最后的目標用戶清單。關于業務規則過濾的內容,筆者在2010年第9期《電信科學》上發表的《3G移動增值業務全程精確營銷實踐》一文中已詳細描述,在此不作贅述。

隨著社交媒體工具(如微博等)的迅速發展,社交網絡分析已經成為數據挖掘業界關注的熱點。社交網絡分析研究的對象是個體之間的關系。對電信運營商而言,用戶之間相互通過電話和短信所發生的聯系,某種意義上代表了他們的社交圈關系。因此,如何通過研究電信用戶的社交圈關系,更好地了解用戶的消費行為和需求特征,為用戶提供更好的服務,是電信運營商開展社交網絡分析的初衷。電信用戶社交網絡結構如圖3所示。
社交網絡分析在現階段比較成熟的算法主要有兩大類:一類是用戶分群算法;一類是擴散分析算法。前者主要是根據社交關系把網絡劃分切割成若干個群體,并計算顯示各個用戶在社交網絡中的角色,這些角色包括意見領袖、跟隨者、傳播者等;后者是通過建立影響力擴散模型,描述用戶在社交網絡中受其他用戶的影響程度。

在流量經營實踐應用中,社交網絡分析也有兩個方向:一個是抓住意見領袖、傳播者等角色用戶,利用他們在社交網絡中的特殊身份,開展針對性的營銷活動;一個是基于擴散力分析模型,計算現有用戶對周邊用戶的影響力,為移動互聯網業務尋找潛在目標用戶。在電信網絡中,擴散力分析可以看作在給定了一些用戶原始狀態信息,經過一段時間后,所有用戶受到該狀態用戶的擴散影響。例如,已知一批用戶流失,根據其之前在電信網絡通話或/和短信構成的社會網絡關系,計算其他用戶在一定時間后也流失的可能性。
為了驗證社交網絡分析模型的效果,筆者所在的項目團隊選取了擴散力分析模型對流量套餐營銷做實證。通過選取某地2011年8-9月通話清單建立的社交網絡擴散力分析模型,并選定期間已有流量套餐用戶作為擴散源,統計其他用戶受他們影響的擴散得分。10月底的數據顯示,擴散得分排名較高的前10%用戶使用流量套餐的比例為2.51%,而流量套餐的總體新增比例僅為0.95%,由此可推斷,擴散力分析模型輸出的潛在目標用戶名單具備更高的營銷成功率。
手機終端作為用戶使用移動互聯網業務的載體,是流量經營不可忽視的重要組成部分。終端信息數據主要包括手機終端的產品信息、功能信息和位置信息等。需要說明的是,在實際營銷應用過程中,終端信息往往是作為基礎數據,要與其他系統聯動才能體現其價值。
為更好地了解高流量用戶的終端選用偏好,有必要開展終端特征與用戶流量價值的關聯關系挖掘,其中終端特征包括操作系統、內存大小、外觀設計、價格檔次、電池容量等。分析的前期需要通過系統獲取到所有用戶的終端特征信息,并提取每個用戶的流量使用情況后關聯形成用戶級的數據寬表。
項目實踐中,筆者采用了C5.0決策樹模型進行關聯關系挖掘,將用戶手機上網流量作為目標變量,篩選了11個終端參數變量作為輸入變量。模型結果顯示,根據變量對手機上網流量的區隔力,終端參數變量按照重要性排序分別為屏幕尺寸、攝像頭像素、重量、觸摸屏類型、分辨率、待機類型、AP主頻、RAM大小、WLAN功能、待機時間、手機價格。同時,模型輸出了有實用意義的關聯規則,如圖4所示,再對原始規則做進一步的提煉后得到兩條關鍵的高流量用戶規則,一個是屏幕尺寸在3.5英寸及以上,另一個是屏幕尺寸在3.5英寸以下,但具備WLAN功能且重量較輕者。根據模型輸出的規則,一方面可以指導運營商終端的采購策略,另一方面可以對符合規則的低流量用戶進行針對性的營銷活動。
用戶更換手機終端對運營流量經營而言是個重要的時間機會,通過實時獲取用戶的新終端信息,一方面可以基于新終端相對舊終端的新功能有針對性地推薦業務,如一非智能手機用戶更換了一款智能手機,運營商即可對用戶推薦一些常用的移動互聯網業務客戶端,如微博、手機證券等給用戶安裝使用;另一方面,可以預先分析每款終端用戶群的移動互聯網業務使用特征,在用戶更換使用某款終端時,按照該款終端的用戶使用習慣,給用戶推薦尚未訂購的業務。
基于終端位置信息的數據挖掘的前景一直被業界看好,但目前國內運營商在這方面的應用實踐還不多,是下一步研究的一個方向。
Help of Data Mining for Delicate Traffic Operation
Chen Zhijing,Liang Bohan
(Guangdong Research Institute of China Telecom Co.,Ltd.,Guangzhou 510630,China)
In the era of mobile internet,mobile data traffic is growing at an unprecedented rate.The telecom operators are facing problems,such as great increase in data traffic but not in income,the penetration of traffic packages is not high,the promotion of its own mobile internet applications is difficult,and so on.This paper is based on the actual case of the telecom operators,and it introduces the use and effect of collaborative filtering,social network analysis,decision tree data mining technology in traffic operation.
traffic operation,data mining,collaborative filtering,social network analysis,decision tree
2012-06-10)
