王 銳,陳 麗
(1.中國移動通信集團廣東有限公司 廣州 510623;2.廣東交通職業技術學院計算機工程學院 廣州 510650)
隨著移動通信技術的發展,特別是全業務和3G運營同步發展,各種類型的業務日趨多樣化,用戶手機終端的類型和功能也越來越復雜,在傳統語音收入貢獻趨緩的情況下,數據業務、互聯網業務的重要性進一步凸顯。
現有基于終端的應用種類繁多,如常見的數據業務,包括短信、彩信、手機報等,以及逐步蓬勃發展的各種移動互聯網應用,例如手機搜索、手機游戲、手機定位等。另一方面,不同型號的手機終端(例如Nokia 5800、HTC G7等)或不同終端操作系統(例如iOS、SymbianOS、Android、BlackBerryOS等),對 GPRS、彩信、短信、WLAN等支持能力上也存在差異。因此,只有了解用戶終端,理解客戶需求,才能提供全面的移動業務運營環境。
而針對數據業務的營銷,傳統數據分析平臺普遍存在數據龐大而不精細、后臺分析與一線營銷相分離的情況,無法對客戶進行精確細分,一般采用整體短信下發或熱線外呼的方式進行營銷宣傳,不僅效果甚微,而且容易產生垃圾短信、電話騷擾等新投訴,無法在保證服務質量的前提下提升營銷能力。
現有的支撐客戶細分的技術,主要是基于信令分析或計費系統數據(只包含成功信息)精確篩選出營銷目標客戶群,進而制定營銷策略,但其缺少對用戶終端和用戶消費數據業務的狀況數據分析(包含成功和失敗信息),客戶定位的精度還不夠,需要進一步細分客戶群,進行差異化服務,例如音樂類手機可下發無線音樂俱樂部套餐、商務手機下發證券類套餐、低中高端手機終端進行差異化優惠套餐。
因此,客戶需求成為市場的核心,企業需要有區別地對待用戶,客戶細分更是客戶關系管理中最基礎、最重要的內容,需要從各個角度分析客戶,針對目標客戶制定相應的促銷或服務策略。基于此,本文提出一種終端分析系統的設計與實現,通過對終端設備支撐能力以及客戶消費行為的數據挖掘分析,實現了對于客戶群進行精確細分,從而支撐數據業務以及移動互聯網應用的精確營銷和網絡運維。
終端分析系統是基于終端信息庫,以用戶使用數據業務產生的網絡數據作為數據源,進行深度數據挖掘和關聯分析。其系統架構和流程如圖1和圖2所示。


按系統技術架構所示,從下往上,系統架構主要包括數據處理層、數據存儲層、核心服務層、數據訪問層。每層模塊介紹和處理流程的詳細說明如下。
(1)數據處理層
數據處理層是終端分析系統從各數據業務源系統(WAP、彩信、KJAVA、短信、GPRS等系統)將 CDR(call detail record)/LOG數據進行抽取、清洗、加工、整理并加載入庫的部分,即數據抽取、轉換、裝載(extract,transform,load,即ETL)處理。主要包括以下模塊。
數據抽取模塊:通過數據抽取接口從各系統抽取數據,典型的數據抽取接口包括數據庫接口和文件接口,對于不同數據平臺、不同源數據形式、不同性能要求的業務系統以及不同數據量的源數據,采取不同的數據抽取接口。在數據抽取時需要重點考慮數據抽取的效率以及對現有業務系統性能和安全的影響。數據業務的源數據具有海量、業務系統位置分散、業務系統工作負荷重、業務系統性能和實時性的要求較高的特點,一般采用文件接口,必要的時候采用API接口編程或數據庫接口實現數據的抽取,以提高數據抽取效率,同時減少對業務系統的性能的影響。
數據轉換模塊:指根據數據倉庫系統模型的要求,對從業務系統中抽取的源數據,進行數據的轉換、清洗、拆分、匯總等處理,保證來自不同系統、不同格式數據的一致性和完整性,并按要求裝入數據倉庫。
數據加載模塊:數據加載就是將從數據源系統中抽取、轉換后的數據,按照數據倉庫的分層模型運算加載到數據倉庫系統中。要求數據加載工具必須具有高效的加載性能。可以采用數據倉庫引擎廠商提供的數據加載工具或API編程進行數據加載,同時需要考慮加載周期以及數據追加策略兩方面的內容,具體采取何種方式,要綜合考慮效率、業務實現、訪問實時性要求等因素。
(2)數據存儲層
數據存儲層實現終端分析系統的數據集中存儲和管理,數據范圍涵蓋 WAP、彩信、KJAVA、短信、GPRS等系統的細粒度CDR/LOG數據,以及日常分析所涉及的日匯總、月匯總等分析數據,另外也存儲了其他終端信息庫、經驗知識庫等數據庫。主要包括以下模塊。
數據倉庫:用于存儲關聯數據業務相關的數據,例如客戶使用短信、彩信等消費行為數據,提供面向主題的、集成的、反映歷史變化的集合,并以標準化的格式存儲。數據倉庫除了要支撐聯機分析處理(OLAP)操作進行多維度數據分析,還要支持海量數據庫的實時查詢功能,其合理的邏輯設計和物理設計非常關鍵。系統中數據倉庫基于RDBMS(關系型數據庫),邏輯模型設計采用分層結構,根據業務需求分為3層或4層,其中最底層為日志數據層,支撐最細粒度的數據業務日志查詢,上層為匯總數據層。層層數據匯聚,滿足多維的鉆取分析操作,可以采用星型/雪花型設計。物理上考慮數據量和查詢效率因素,可采用分區方法,例如最底層可采用數據庫的復合分區技術,提升海量數據的訪問效率。
終端信息庫:終端信息庫記錄了用戶終端屬性信息,包括手機號碼、國際移動設備識別碼(international mobile equipment identity,IMEI)、號碼品牌、歸屬城市、終端品牌、終端型號、終端字符串、軟件版本、業務支持能力(GPRS支持能力、彩信支持能力、3G支持能力、手機閱讀支持能力、GPS定位能力、雙卡雙待能力、屏幕分辨率等)等,以及數據業務操作行為信息(注冊日期、是否活躍、上次活動、最后活動),其中終端可以是手機、信息機、上網本、上網卡等,3G支撐能力可以細分為TD-SCDMA、WCDMA、cdma2000等。
終端信息庫還需要提供TAC-手機終端對應關系表和UA-手機終端對應關系表,滿足用戶終端的識別。其中,TAC是IMEI的前6或8位,表示設備型號核準號碼,即終端的類型;UA(user agent),即終端字符串,包含了用戶所使用的手機終端的品牌、型號、軟件版本、操作系統、瀏覽器等信息,例如NokiaN70/5.0741.4.0.1 Series60/2.8 Profile/MIDP-2.0 Configuration/CLDC-1.1,該信息可以從 WAP、彩信日志中獲取。
作為終端分析系統的數據核心,終端信息庫可通過外購、自維護方式形成,也可以通過抽取WAP、彩信日志的UA信息而成,需要及時更新和維護。
知識經驗庫:主要記錄了終端問題或營銷經驗,包括問題分析原因、營銷建議等,提高終端相關投訴處理效率和營銷效率。
(3)核心服務層
核心服務層主要完成業務邏輯封裝和處理,并對外提供數據共享等服務,支撐用戶、工具和其他系統訪問。主要包括以下模塊。
OLAP分析模塊:OLAP分析模塊提供基于統一數據模型的靈活查看分析,使數據分析人員、企業管理人員通過多種可能的觀察角度進行快速、一致和交互性存取,來獲得對信息的深入理解。支持靈活的上鉆/下鉆,實現靈活數據探查;支持數據切片,靈活轉換數據分析視角;另外,還支持對比、趨勢、象限等多種分析方法。
報表服務模塊:系統提供報表、文件、餅圖、直方圖等多樣化的報表展示方式,支持數據導出為Excel、Html、PDF等格式,支持單列或多列組合的排序、過濾等操作,規則至少包含順序、倒序、顯示、包含、不包含、大于、小于、之間等。
CDR查詢模塊:CDR記錄了用戶使用數據業務(彩信、短信、WAP)詳細的訪問/操作記錄,并采用各種CDR數據關聯,形成端到端的數據流程圖,通過該模塊獲知用戶使用某項業務的詳細情況,例如是否成功或失敗、訪問的設備網元、失敗原因、失敗的位置等信息。該模塊為投訴處理、故障定位以及市場營銷提供基礎數據支撐。
數據挖掘模塊:系統提供數據挖掘支持,如通過一般線性模型(包括因素分析、方差分量模型、混合模型等)、關聯分析、多變量分析(主成分分析、因子分析和典型相關等)、判別分析、聚類分析等數據挖掘分析,挖掘出深層次、隱性的數據價值。
訂閱管理模塊:采用訂閱機制向外部應用系統共享數據,所有需要終端分析數據的應用系統需事先向平臺提出數據訂閱請求,經過審批通過后才有權使用各類終端分析數據,加強終端數據的安全管理。審批時可對應用系統請求訂閱的數據和有效期進行修改。該模塊可以根據不同數據要求(比如數據粒度、訪問頻次、安全等)自定義訂閱規則,對敏感數據應具備判定過濾功能,對其進行過濾,不予顯示。另外,系統可以支持管理員應用系統進行預授權配置。當應用系統的請求訂閱的信息和訂閱有效期在預授權規則范圍內時,訂閱請求可自動獲得審批通過,無需人工審批。
共享服務模塊:系統支撐訂閱/通知的方式的數據共享模式,提供CDR日志/匯總分析數據共享,可以為其他應用系統進行投訴處理、故障診斷和市場營銷提供基礎原始數據或高價值的分析數據。數據共享服務的接口可以采用Web Service、FTP等接口進行數據獲取。
(4)數據訪問層
系統的數據訪問層的主要功能針對兩類消費者:用戶終端分析系統使用人員和其他應用系統(例如投訴處理系統、市場營銷系統)。
針對終端系統使用人員,可以通過報表和圖形的方式,簡便、快捷地訪問系統中的各種數據并進行數據查詢、分析預測操作。數據訪問層應提供多種數據加工展現方法,包括KPI指標、預定義報表、即席查詢、多維動態分析。
針對來自不同的部門的用戶,數據訪問層可以提供一個統一的門戶入口,實現預定義報表、即席查詢和多維動態分析的無縫連接,并提供集成化的認證、信息發布和管理環境,使客服人員、營銷人員無需關心具體的技術實現途徑,即可實現終端分析數據的訪問和分析。同時門戶站點還可根據不同分析和決策人員的需求,對所需的訪問和分析內容進行方便、簡捷的定制,以滿足個性化信息服務的需求。
針對其他應用系統,通過統一規范的數據接口,在滿足數據訂閱策略和共享機制的前提下,進行數據獲取,實現終端分析數據的進一步數據關聯和價值提升,例如終端信息庫是支撐各類用戶行為分析的數據基礎。
結合圖2,整個用戶終端分析系統主要執行以下步驟(至下而上)。
(1)數據抽取模塊從各類數據源(彩信、短信CDR)抽取數據,根據要求采用實時或定期抽取,主動推送或被動接收等方式。
(2)數據轉換模塊將抽取的源數據進行轉換、清洗,屏蔽系統間數據格式差異性,形同統一、完整的處理數據。
(3)將S2流程的處理數據進行裝載入庫,形成數據倉庫等,其中也可挖掘出終端信息裝載入終端信息庫。
(4)數據倉庫和終端信息庫中的數據支撐了核心服務層模塊(OLAP分析、數據分析、報表服務、CDR查詢),進而支撐終端分析功能。同時,針對用戶終端的分析和投訴處理經驗,可以記錄在經驗知識庫,形成經驗傳承。
(5)核心服務層模塊支撐用戶和外應用系統使用。外系統如需訪問終端分析系統數據,需要采用訂閱機制,經過訂閱管理模塊審批通過后,才能通過共享服務模塊獲得所需數據。
系統功能框架(如圖3所示)主要從用戶和業務場景出發,提供了支撐客戶細分以及精確營銷的功能模塊,詳細說明如下。

終端市場分析功能:該模塊根據用戶終端的屬性特征,從終端品牌、終端型號、語音品牌、終端廠家、GPRS支持、終端屬性(音樂、黑莓、商務手機等)等維度來分析用戶終端使用情況、發展趨勢,為定制終端的銷售提供一定的導向意義;通過分析手機更換頻次(天/周/月)來鎖定一機多卡或一卡多機用戶群,從而制定有目的下發營銷套餐策略;針對終端型號敏感的數據業務進行用戶聚類,制定支持目標客戶群Push OTA營銷功能,有助于各項新業務快速定位目標用戶,協助新業務的推廣。
生活圈分析功能:結合用戶手機終端屬性,通過獲取屬于不同生活圈的特定號碼群,聚類出其行為類別,細分其愛好傾向,以利于市場各類用戶精確營銷(如證券用戶、音樂俱樂部用戶、娛樂用戶等),以及市場營銷套餐的下發。例如可以通過對短信/彩信的SP服務代碼分析,進行生活圈策略配置,挖掘分析出某類用戶,例如分析使用證券業務的終端情況,發現有TOP N種終端,一方面可以針對使用該類終端的用戶進行市場營銷優惠資訊下發,培育新增用戶,同時也可以有使用證券業務的潛在用戶推薦該類手機。
區域化分析功能:該功能基于用戶終端信息庫,將若干個小區配置為熱點目標區域,并指定抓取用戶號碼等信息的目標時間段,進行數據的綜合分析,將結果按品牌、型號、時間、小區進行分析統計,并為相應用戶打上相應類別標簽。這樣通過特定群體終端屬性分析,可以針對某一特定群體,如演唱會、學校、高爾夫俱樂部、體育盛事等營銷活動區域的用戶群,開展挖掘分析,掌握各群體用戶的終端使用習慣,為針對性的終端營銷提供參考依據。例如采集演唱會期間進入演唱場地客戶號碼,結合終端屬性特征,將多次參加演唱會客戶號碼標志為音樂類VIP重點營銷對象。
上網行為分析功能:通過對用戶終端上網數據(WAP日志的URL信息)的統計分析,實現對用戶上網行為的分析及統計,營銷人員可以根據統計分析結果獲取不同目標客戶群,從而有針對性地下發不同營銷策略。例如可按新聞、體育、財經、游戲等欄目,對網址進行歸類分析,提取出各類網址對應的用戶群,以及用戶點擊次數網址排名、用戶排名、終端品牌/型號排名等,同樣,可給用戶打上對應類別標簽進行精確營銷。
以上的功能只能是終端分析系統內容的一部分,進一步采集其他海量數據(如信令),通過關聯挖掘分析,從而可實現更多更廣的分析功能,更好地進行客戶細分。
本文提出一種用戶終端分析系統的設計與實現,詳細描述了系統架構、流程和功能模塊,其核心是通過挖掘網絡數據(含用戶消費行為數據),建立全面且及時更新的終端信息庫,以及支撐客戶細分的終端分析模型,從而精確歸類出客戶對象族,不僅提供客戶細分,滿足業務精確營銷支撐,還能為用戶投訴處理、用戶配置糾錯提供廣闊的使用場景。
目前該用戶終端分析系統已經在中國移動通信集團廣東有限公司實施應用,為市場營銷推廣和網絡維護管理提供了大量的分析數據,例如及時提供了詳細準確的山寨機(黑手機、雜牌機等)終端分析、iPhone終端分析數據等,還為各地市公司提供第一手的現網終端分析應用,不僅有助于了解終端使用的發展趨勢、掌握各群體用戶的終端使用習慣,還能幫助各項新業務快速定位目標用戶,協助新業務推廣或針對性營銷,同時也能為經營決策提供大量高價值分析數據。分析數據是準確、及時的,來自于實際網絡運營數據,又服務于終端用戶。
由于目前終端發展和互聯網業務發展迅速,不僅出現iPad等眾多新的用戶終端,還迅猛發展了基于各類平臺的移動應用,用戶消費行為數據的抽取和挖掘以及終端識別算法都需要進一步改進和完善。
1 王彥龍.企業級數據倉庫(EDW)原理、設計與實踐.北京:電子工業出版社,2006
2 Ian H,Witten E F.數據挖掘:實用機器學習技術.北京:機械工業出版社,2006
3 馬子斌,楊鴻賓.客戶細分在電信營銷中的應用研究.計算機系統應用,2008,17(3):105~108
4 方安儒,葉強,魯奇等.基于數據挖掘的客戶細分框架模型.計算機工程,2009,35(19):251~253