雷蕾+熊偉
【摘要】目前,商業智能系統作為電信行業主要的客戶行為數據分析平臺,在新業務模式下已不能滿足挖掘客戶需求以支撐一線營銷的需要。通過討論大數據時代的數據特點,分別從數據采集及處理、數據調度及存儲、數據分析及應用三方面總結出各項數據管理的應對策略,為系統優化提供了參考。
【關鍵詞】大數據商業智能數據管理
中圖分類號:TP311.5文獻標識碼:A文章編號:1006-1010(2014)-09-0069-03
1 背景及研究現狀分析
移動互聯網時代,新型應用不斷涌現,客戶行為習慣也隨之改變,電信運營商從以語音收入為主的業務模式,進入到了語音和流量雙經營的業務模式。在此背景下,IT支撐每天面對數以PB級的海量數據[1],數據前所未有的生成速度和數量帶來了“數據雪崩”(Data Avalanche)和“數據洪流”(Data Deluge)[2-3]。如何從中挖掘有價值的商業信息,適應“數據經濟”(Data Economy)和“數據科學”(Data Science)[4-5]的大數據時代,這是客戶挽留營銷和收入增長的重要環節。
根據電信運營商現有的IT系統架構,管理及分析客戶業務數據主要由基于企業級數據倉庫的商業智能(Business Intelligence)系統完成。目前,面對業務部門的需求,該系統存在以下問題:
(1)分析數據缺失:客戶移動互聯網行為數據采集不完整,無法還原客戶應用場景。
(2)數據量劇增帶來存儲和處理性能的壓力:一個省的用戶流量數據每日可達150億條,約是傳統語音計費數據的15倍。生產系統數據進入數據倉庫時,ETL調度性能及數據倉庫的擴容速度不滿足需求。
(3)大量非結構化數據無法用傳統的建模方法分析:采集到的URL串等客戶行為數據,無法直接反映客戶行為特征,必須經過處理和轉換才能獲得有用的建模信息。
2 大數據時代各項應對策略
通過上述分析,可以看出在大數據時代,商業智能系統面臨的是從數據采集處理、調度存儲到分析的一系列問題,本文從完善數據源開始,探討一套完整的數據管理策略。
2.1數據采集及處理
商業智能系統并不產生實際的生產數據,數據倉庫的數據都是從其他網絡、計費、客服等生產系統獲取的,按照既定的接口通過ETL調度定期更新及完善數據倉庫中的數據。大數據時代,2G、3G、4G、WLAN四網并行,除了保證2G、3G及4G網絡GPRS話單、WLAN流量話單、客戶位置信息、終端信息的采集外,為了精準分析客戶的行為信息,還需新增兩類數據的采集,如表1所示:
表1兩類客戶行為數據基本信息
客戶行為數據 主要處理技術 數據來源
上網內容 文本挖掘、爬蟲技術 GGSN(Gateway GSN,網關GSN)等網關日志采集
客戶端應用 DPI解析
(1)上網內容
指采集用戶使用HTTP協議的上網行為日志,通過文本挖掘、爬蟲技術對URL進行分析,獲取用戶的上網內容。一個省每日從網絡側獲取的非結構化的URL在50億條左右,約占1TB存儲,其中隱含著具有商業價值的用戶偏好信息。對于一線市場營銷人員,需要的是每個客戶的特征標簽,比如,某用戶的特征標簽是喜歡上網閱讀,閱讀內容為言情小說,這樣就可以向這位用戶推薦一些手機閱讀的產品。因此,需要將這些非結構化的URL記錄轉化為用戶上網內容偏好標簽,主要有以下兩種方式:
1)上網搜索關鍵字提取:針對搜索產生的URL,解析其中關鍵詞獲取標簽信息。
2)網頁內容提取:
◆建立以URL為主鍵的“網頁信息分類庫”,該信息庫對網頁內容進行分類,并給每條URL打上分類標簽;
◆將清洗過濾后的用戶URL記錄和“網頁信息分類庫”匹配,按照一定的規則(如訪問次數最多的類型)給客戶打上分類標簽;
◆如果庫中沒有相應的URL信息,則需要通過爬蟲及文本挖掘完善“網頁信息分類庫”。
(2)客戶端應用
即識別出用戶客戶端的應用,如QQ音樂、百度搜索等應用。目前主要依靠在GGSN(Gateway GSN,網關GSN)上部署DPI(Deep Packet Inspection,深度包檢測)硬件設備來實現。DPI技術通過對應用流中的數據報文內容進行探測,例如對數據報文中特定比特串進行檢測,從而確定數據報文真正的應用類型[6]。在目前的實際應用中,通過解析識別出來的應用已達到 1 400種以上,基本覆蓋當前熱門應用。
2.2數據調度及存儲
其他系統采集處理后的數據,通過ETL調度到商業智能系統的數據倉庫中進行存儲,為下一步數據分析做準備。為了減輕大數據量帶來的數據倉庫調度和存儲壓力,對原有系統架構進行變更,引入云平臺完成數據入庫前的預處理工作,同時提升ETL調度性能。數據倉庫架構轉變如圖1所示:
圖1數據倉庫架構轉變
下面說明引入云平臺的作用及帶來的兩項提升:
(1)完成數據入庫前的預處理:減少入庫的數據量;減少入庫時數據處理操作。
表2是用戶上網日志在云平臺上處理前后數據量的比對,基于28臺刀片服務器(BL465G7:AMD O6134*2,32GB內存,2*300GB硬盤;D2200:300G*6)構建的Hadoop分布式系統。
表2上網日志經云平臺處理前后數據量比對
字段 存儲空間
處理前:59個字段 處理前:1TB
處理后:16個字段 處理后:600GB
可見數據量縮小了約40%,減少了入庫數據量及處理操作,降低了ETL調度及數據倉庫存儲壓力。
(2)完成數據文件調度到數據倉庫的處理:提升ETL調度能力。
以應用DPI解析結果入庫為例,采用8臺刀片服務器(BL465G7:AMD O6134*2,32GB內存,2*300GB硬盤;D2200:300G*6)構建的Hadoop分布式系統后,系統前后調度性能的比對如表3所示:
表3DPI解析結果調度性能提升
數據量 ETL調度時間
入倉庫前:80億條 采用傳統數據倉庫ETL調度方式:8小時
入倉庫后:6億條 引入云平臺后:1.5小時
可見其性能提升了5倍多,并在調度過程中完成數據的合并轉換工作。
2.3數據分析及應用
經過上述流程,電信行業大數據時代主要新增的兩類客戶行為數據:客戶上網內容和客戶端應用,已經轉化為數據模型的輸入變量,借助數據模型完成數據分析工作。從上網日志中提取轉換后的變量包括:上網內容一級分類(閱讀、游戲、音樂等)、上網內容二級分類(以閱讀為例:社科科普、名著傳記、科幻小說等)、上網搜索關鍵詞等;從客戶端應用解析轉換后的變量主要是具體應用及應用分類。
數據模型可利用客戶的這些上網行為特征,分析出營銷挽留活動的目標客戶,現在熱點數據模型的種類如表4所示:
表4數據模型分類及應用場景
數據模型分類 應用場景
套餐營銷類 識別目標客戶,推薦優惠的流量資費套餐
終端營銷類 識別潛在購機客戶,推薦符合需求的智能終端機
業務營銷類 針對不同類型的客戶,推薦感興趣的業務應用
網絡分流類 引導客戶從2G網絡分流到3G、4G及WLAN網絡,使網絡資源負載均衡
3 總結
綜上所述,首先通過文本挖掘、爬蟲、DPI解析技術處理從網絡側采集到的客戶上網行為數據;再通過搭建云平臺提升ETL調度性能,減少數據倉庫存儲壓力;最后,將標簽式的客戶行為特征變量,通過數據模型轉化為可被一線營銷人員采用的信息。
目前,本文所述的這套大數據管理策略已在個別分公司試用,雖然還處在嘗試階段,但是效果已逐步被認可。根據當前在建設中遇到的困難來看,網頁日志解析的全面性以及DPI對新應用解析的研發速度有待提高。另外,云平臺部署的成本投入也是個需要探討的問題,目前是通過購買新的刀片機來實現的,背離了云平臺采用廉價、閑置的X86 PC設備構建的初衷。
參考文獻:
[1] 童曉渝,張云勇,房秉毅,等. 大數據時代電信運營商的機遇[J]. 信息通信技術, 2013(1): 5-9.
[2] Clifford Lynch. Big data: How do your data grow[J]. Nature, 2008(455): 28-29.
[3]The Economist. The data deluge[EB/OL]. [2012-12-10]. http://www.economist.com/node/15579717.
[4] Mitch Waldrop. Big data: Wikiomics[J]. Nature, 2008(455): 22-25.
[5] Mike Loukides. What is data science[EB/OL]. [2012-12-01]. http://radar.oreilly.com/2010/06/what-is-data-science.html.
[6] 呂錦揚. DPI技術在移動數據網絡分析的應用[J]. 電信技術, 2013(6): 72-75.★
作者簡介
雷蕾:碩士畢業于西安交通大學軟件工程專業,現任職于中國移動(深圳)有限公司,從事業務支撐系統測評工作,研究方向為BI系統架構及數據挖掘技術應用。
熊偉:碩士畢業于天津科技大學,現任職于中國移動(深圳)有限公司,從事業務支撐系統測評工作,研究方向為軟件開發和測試各類應用技術。
endprint
【摘要】目前,商業智能系統作為電信行業主要的客戶行為數據分析平臺,在新業務模式下已不能滿足挖掘客戶需求以支撐一線營銷的需要。通過討論大數據時代的數據特點,分別從數據采集及處理、數據調度及存儲、數據分析及應用三方面總結出各項數據管理的應對策略,為系統優化提供了參考。
【關鍵詞】大數據商業智能數據管理
中圖分類號:TP311.5文獻標識碼:A文章編號:1006-1010(2014)-09-0069-03
1 背景及研究現狀分析
移動互聯網時代,新型應用不斷涌現,客戶行為習慣也隨之改變,電信運營商從以語音收入為主的業務模式,進入到了語音和流量雙經營的業務模式。在此背景下,IT支撐每天面對數以PB級的海量數據[1],數據前所未有的生成速度和數量帶來了“數據雪崩”(Data Avalanche)和“數據洪流”(Data Deluge)[2-3]。如何從中挖掘有價值的商業信息,適應“數據經濟”(Data Economy)和“數據科學”(Data Science)[4-5]的大數據時代,這是客戶挽留營銷和收入增長的重要環節。
根據電信運營商現有的IT系統架構,管理及分析客戶業務數據主要由基于企業級數據倉庫的商業智能(Business Intelligence)系統完成。目前,面對業務部門的需求,該系統存在以下問題:
(1)分析數據缺失:客戶移動互聯網行為數據采集不完整,無法還原客戶應用場景。
(2)數據量劇增帶來存儲和處理性能的壓力:一個省的用戶流量數據每日可達150億條,約是傳統語音計費數據的15倍。生產系統數據進入數據倉庫時,ETL調度性能及數據倉庫的擴容速度不滿足需求。
(3)大量非結構化數據無法用傳統的建模方法分析:采集到的URL串等客戶行為數據,無法直接反映客戶行為特征,必須經過處理和轉換才能獲得有用的建模信息。
2 大數據時代各項應對策略
通過上述分析,可以看出在大數據時代,商業智能系統面臨的是從數據采集處理、調度存儲到分析的一系列問題,本文從完善數據源開始,探討一套完整的數據管理策略。
2.1數據采集及處理
商業智能系統并不產生實際的生產數據,數據倉庫的數據都是從其他網絡、計費、客服等生產系統獲取的,按照既定的接口通過ETL調度定期更新及完善數據倉庫中的數據。大數據時代,2G、3G、4G、WLAN四網并行,除了保證2G、3G及4G網絡GPRS話單、WLAN流量話單、客戶位置信息、終端信息的采集外,為了精準分析客戶的行為信息,還需新增兩類數據的采集,如表1所示:
表1兩類客戶行為數據基本信息
客戶行為數據 主要處理技術 數據來源
上網內容 文本挖掘、爬蟲技術 GGSN(Gateway GSN,網關GSN)等網關日志采集
客戶端應用 DPI解析
(1)上網內容
指采集用戶使用HTTP協議的上網行為日志,通過文本挖掘、爬蟲技術對URL進行分析,獲取用戶的上網內容。一個省每日從網絡側獲取的非結構化的URL在50億條左右,約占1TB存儲,其中隱含著具有商業價值的用戶偏好信息。對于一線市場營銷人員,需要的是每個客戶的特征標簽,比如,某用戶的特征標簽是喜歡上網閱讀,閱讀內容為言情小說,這樣就可以向這位用戶推薦一些手機閱讀的產品。因此,需要將這些非結構化的URL記錄轉化為用戶上網內容偏好標簽,主要有以下兩種方式:
1)上網搜索關鍵字提取:針對搜索產生的URL,解析其中關鍵詞獲取標簽信息。
2)網頁內容提取:
◆建立以URL為主鍵的“網頁信息分類庫”,該信息庫對網頁內容進行分類,并給每條URL打上分類標簽;
◆將清洗過濾后的用戶URL記錄和“網頁信息分類庫”匹配,按照一定的規則(如訪問次數最多的類型)給客戶打上分類標簽;
◆如果庫中沒有相應的URL信息,則需要通過爬蟲及文本挖掘完善“網頁信息分類庫”。
(2)客戶端應用
即識別出用戶客戶端的應用,如QQ音樂、百度搜索等應用。目前主要依靠在GGSN(Gateway GSN,網關GSN)上部署DPI(Deep Packet Inspection,深度包檢測)硬件設備來實現。DPI技術通過對應用流中的數據報文內容進行探測,例如對數據報文中特定比特串進行檢測,從而確定數據報文真正的應用類型[6]。在目前的實際應用中,通過解析識別出來的應用已達到 1 400種以上,基本覆蓋當前熱門應用。
2.2數據調度及存儲
其他系統采集處理后的數據,通過ETL調度到商業智能系統的數據倉庫中進行存儲,為下一步數據分析做準備。為了減輕大數據量帶來的數據倉庫調度和存儲壓力,對原有系統架構進行變更,引入云平臺完成數據入庫前的預處理工作,同時提升ETL調度性能。數據倉庫架構轉變如圖1所示:
圖1數據倉庫架構轉變
下面說明引入云平臺的作用及帶來的兩項提升:
(1)完成數據入庫前的預處理:減少入庫的數據量;減少入庫時數據處理操作。
表2是用戶上網日志在云平臺上處理前后數據量的比對,基于28臺刀片服務器(BL465G7:AMD O6134*2,32GB內存,2*300GB硬盤;D2200:300G*6)構建的Hadoop分布式系統。
表2上網日志經云平臺處理前后數據量比對
字段 存儲空間
處理前:59個字段 處理前:1TB
處理后:16個字段 處理后:600GB
可見數據量縮小了約40%,減少了入庫數據量及處理操作,降低了ETL調度及數據倉庫存儲壓力。
(2)完成數據文件調度到數據倉庫的處理:提升ETL調度能力。
以應用DPI解析結果入庫為例,采用8臺刀片服務器(BL465G7:AMD O6134*2,32GB內存,2*300GB硬盤;D2200:300G*6)構建的Hadoop分布式系統后,系統前后調度性能的比對如表3所示:
表3DPI解析結果調度性能提升
數據量 ETL調度時間
入倉庫前:80億條 采用傳統數據倉庫ETL調度方式:8小時
入倉庫后:6億條 引入云平臺后:1.5小時
可見其性能提升了5倍多,并在調度過程中完成數據的合并轉換工作。
2.3數據分析及應用
經過上述流程,電信行業大數據時代主要新增的兩類客戶行為數據:客戶上網內容和客戶端應用,已經轉化為數據模型的輸入變量,借助數據模型完成數據分析工作。從上網日志中提取轉換后的變量包括:上網內容一級分類(閱讀、游戲、音樂等)、上網內容二級分類(以閱讀為例:社科科普、名著傳記、科幻小說等)、上網搜索關鍵詞等;從客戶端應用解析轉換后的變量主要是具體應用及應用分類。
數據模型可利用客戶的這些上網行為特征,分析出營銷挽留活動的目標客戶,現在熱點數據模型的種類如表4所示:
表4數據模型分類及應用場景
數據模型分類 應用場景
套餐營銷類 識別目標客戶,推薦優惠的流量資費套餐
終端營銷類 識別潛在購機客戶,推薦符合需求的智能終端機
業務營銷類 針對不同類型的客戶,推薦感興趣的業務應用
網絡分流類 引導客戶從2G網絡分流到3G、4G及WLAN網絡,使網絡資源負載均衡
3 總結
綜上所述,首先通過文本挖掘、爬蟲、DPI解析技術處理從網絡側采集到的客戶上網行為數據;再通過搭建云平臺提升ETL調度性能,減少數據倉庫存儲壓力;最后,將標簽式的客戶行為特征變量,通過數據模型轉化為可被一線營銷人員采用的信息。
目前,本文所述的這套大數據管理策略已在個別分公司試用,雖然還處在嘗試階段,但是效果已逐步被認可。根據當前在建設中遇到的困難來看,網頁日志解析的全面性以及DPI對新應用解析的研發速度有待提高。另外,云平臺部署的成本投入也是個需要探討的問題,目前是通過購買新的刀片機來實現的,背離了云平臺采用廉價、閑置的X86 PC設備構建的初衷。
參考文獻:
[1] 童曉渝,張云勇,房秉毅,等. 大數據時代電信運營商的機遇[J]. 信息通信技術, 2013(1): 5-9.
[2] Clifford Lynch. Big data: How do your data grow[J]. Nature, 2008(455): 28-29.
[3]The Economist. The data deluge[EB/OL]. [2012-12-10]. http://www.economist.com/node/15579717.
[4] Mitch Waldrop. Big data: Wikiomics[J]. Nature, 2008(455): 22-25.
[5] Mike Loukides. What is data science[EB/OL]. [2012-12-01]. http://radar.oreilly.com/2010/06/what-is-data-science.html.
[6] 呂錦揚. DPI技術在移動數據網絡分析的應用[J]. 電信技術, 2013(6): 72-75.★
作者簡介
雷蕾:碩士畢業于西安交通大學軟件工程專業,現任職于中國移動(深圳)有限公司,從事業務支撐系統測評工作,研究方向為BI系統架構及數據挖掘技術應用。
熊偉:碩士畢業于天津科技大學,現任職于中國移動(深圳)有限公司,從事業務支撐系統測評工作,研究方向為軟件開發和測試各類應用技術。
endprint
【摘要】目前,商業智能系統作為電信行業主要的客戶行為數據分析平臺,在新業務模式下已不能滿足挖掘客戶需求以支撐一線營銷的需要。通過討論大數據時代的數據特點,分別從數據采集及處理、數據調度及存儲、數據分析及應用三方面總結出各項數據管理的應對策略,為系統優化提供了參考。
【關鍵詞】大數據商業智能數據管理
中圖分類號:TP311.5文獻標識碼:A文章編號:1006-1010(2014)-09-0069-03
1 背景及研究現狀分析
移動互聯網時代,新型應用不斷涌現,客戶行為習慣也隨之改變,電信運營商從以語音收入為主的業務模式,進入到了語音和流量雙經營的業務模式。在此背景下,IT支撐每天面對數以PB級的海量數據[1],數據前所未有的生成速度和數量帶來了“數據雪崩”(Data Avalanche)和“數據洪流”(Data Deluge)[2-3]。如何從中挖掘有價值的商業信息,適應“數據經濟”(Data Economy)和“數據科學”(Data Science)[4-5]的大數據時代,這是客戶挽留營銷和收入增長的重要環節。
根據電信運營商現有的IT系統架構,管理及分析客戶業務數據主要由基于企業級數據倉庫的商業智能(Business Intelligence)系統完成。目前,面對業務部門的需求,該系統存在以下問題:
(1)分析數據缺失:客戶移動互聯網行為數據采集不完整,無法還原客戶應用場景。
(2)數據量劇增帶來存儲和處理性能的壓力:一個省的用戶流量數據每日可達150億條,約是傳統語音計費數據的15倍。生產系統數據進入數據倉庫時,ETL調度性能及數據倉庫的擴容速度不滿足需求。
(3)大量非結構化數據無法用傳統的建模方法分析:采集到的URL串等客戶行為數據,無法直接反映客戶行為特征,必須經過處理和轉換才能獲得有用的建模信息。
2 大數據時代各項應對策略
通過上述分析,可以看出在大數據時代,商業智能系統面臨的是從數據采集處理、調度存儲到分析的一系列問題,本文從完善數據源開始,探討一套完整的數據管理策略。
2.1數據采集及處理
商業智能系統并不產生實際的生產數據,數據倉庫的數據都是從其他網絡、計費、客服等生產系統獲取的,按照既定的接口通過ETL調度定期更新及完善數據倉庫中的數據。大數據時代,2G、3G、4G、WLAN四網并行,除了保證2G、3G及4G網絡GPRS話單、WLAN流量話單、客戶位置信息、終端信息的采集外,為了精準分析客戶的行為信息,還需新增兩類數據的采集,如表1所示:
表1兩類客戶行為數據基本信息
客戶行為數據 主要處理技術 數據來源
上網內容 文本挖掘、爬蟲技術 GGSN(Gateway GSN,網關GSN)等網關日志采集
客戶端應用 DPI解析
(1)上網內容
指采集用戶使用HTTP協議的上網行為日志,通過文本挖掘、爬蟲技術對URL進行分析,獲取用戶的上網內容。一個省每日從網絡側獲取的非結構化的URL在50億條左右,約占1TB存儲,其中隱含著具有商業價值的用戶偏好信息。對于一線市場營銷人員,需要的是每個客戶的特征標簽,比如,某用戶的特征標簽是喜歡上網閱讀,閱讀內容為言情小說,這樣就可以向這位用戶推薦一些手機閱讀的產品。因此,需要將這些非結構化的URL記錄轉化為用戶上網內容偏好標簽,主要有以下兩種方式:
1)上網搜索關鍵字提取:針對搜索產生的URL,解析其中關鍵詞獲取標簽信息。
2)網頁內容提取:
◆建立以URL為主鍵的“網頁信息分類庫”,該信息庫對網頁內容進行分類,并給每條URL打上分類標簽;
◆將清洗過濾后的用戶URL記錄和“網頁信息分類庫”匹配,按照一定的規則(如訪問次數最多的類型)給客戶打上分類標簽;
◆如果庫中沒有相應的URL信息,則需要通過爬蟲及文本挖掘完善“網頁信息分類庫”。
(2)客戶端應用
即識別出用戶客戶端的應用,如QQ音樂、百度搜索等應用。目前主要依靠在GGSN(Gateway GSN,網關GSN)上部署DPI(Deep Packet Inspection,深度包檢測)硬件設備來實現。DPI技術通過對應用流中的數據報文內容進行探測,例如對數據報文中特定比特串進行檢測,從而確定數據報文真正的應用類型[6]。在目前的實際應用中,通過解析識別出來的應用已達到 1 400種以上,基本覆蓋當前熱門應用。
2.2數據調度及存儲
其他系統采集處理后的數據,通過ETL調度到商業智能系統的數據倉庫中進行存儲,為下一步數據分析做準備。為了減輕大數據量帶來的數據倉庫調度和存儲壓力,對原有系統架構進行變更,引入云平臺完成數據入庫前的預處理工作,同時提升ETL調度性能。數據倉庫架構轉變如圖1所示:
圖1數據倉庫架構轉變
下面說明引入云平臺的作用及帶來的兩項提升:
(1)完成數據入庫前的預處理:減少入庫的數據量;減少入庫時數據處理操作。
表2是用戶上網日志在云平臺上處理前后數據量的比對,基于28臺刀片服務器(BL465G7:AMD O6134*2,32GB內存,2*300GB硬盤;D2200:300G*6)構建的Hadoop分布式系統。
表2上網日志經云平臺處理前后數據量比對
字段 存儲空間
處理前:59個字段 處理前:1TB
處理后:16個字段 處理后:600GB
可見數據量縮小了約40%,減少了入庫數據量及處理操作,降低了ETL調度及數據倉庫存儲壓力。
(2)完成數據文件調度到數據倉庫的處理:提升ETL調度能力。
以應用DPI解析結果入庫為例,采用8臺刀片服務器(BL465G7:AMD O6134*2,32GB內存,2*300GB硬盤;D2200:300G*6)構建的Hadoop分布式系統后,系統前后調度性能的比對如表3所示:
表3DPI解析結果調度性能提升
數據量 ETL調度時間
入倉庫前:80億條 采用傳統數據倉庫ETL調度方式:8小時
入倉庫后:6億條 引入云平臺后:1.5小時
可見其性能提升了5倍多,并在調度過程中完成數據的合并轉換工作。
2.3數據分析及應用
經過上述流程,電信行業大數據時代主要新增的兩類客戶行為數據:客戶上網內容和客戶端應用,已經轉化為數據模型的輸入變量,借助數據模型完成數據分析工作。從上網日志中提取轉換后的變量包括:上網內容一級分類(閱讀、游戲、音樂等)、上網內容二級分類(以閱讀為例:社科科普、名著傳記、科幻小說等)、上網搜索關鍵詞等;從客戶端應用解析轉換后的變量主要是具體應用及應用分類。
數據模型可利用客戶的這些上網行為特征,分析出營銷挽留活動的目標客戶,現在熱點數據模型的種類如表4所示:
表4數據模型分類及應用場景
數據模型分類 應用場景
套餐營銷類 識別目標客戶,推薦優惠的流量資費套餐
終端營銷類 識別潛在購機客戶,推薦符合需求的智能終端機
業務營銷類 針對不同類型的客戶,推薦感興趣的業務應用
網絡分流類 引導客戶從2G網絡分流到3G、4G及WLAN網絡,使網絡資源負載均衡
3 總結
綜上所述,首先通過文本挖掘、爬蟲、DPI解析技術處理從網絡側采集到的客戶上網行為數據;再通過搭建云平臺提升ETL調度性能,減少數據倉庫存儲壓力;最后,將標簽式的客戶行為特征變量,通過數據模型轉化為可被一線營銷人員采用的信息。
目前,本文所述的這套大數據管理策略已在個別分公司試用,雖然還處在嘗試階段,但是效果已逐步被認可。根據當前在建設中遇到的困難來看,網頁日志解析的全面性以及DPI對新應用解析的研發速度有待提高。另外,云平臺部署的成本投入也是個需要探討的問題,目前是通過購買新的刀片機來實現的,背離了云平臺采用廉價、閑置的X86 PC設備構建的初衷。
參考文獻:
[1] 童曉渝,張云勇,房秉毅,等. 大數據時代電信運營商的機遇[J]. 信息通信技術, 2013(1): 5-9.
[2] Clifford Lynch. Big data: How do your data grow[J]. Nature, 2008(455): 28-29.
[3]The Economist. The data deluge[EB/OL]. [2012-12-10]. http://www.economist.com/node/15579717.
[4] Mitch Waldrop. Big data: Wikiomics[J]. Nature, 2008(455): 22-25.
[5] Mike Loukides. What is data science[EB/OL]. [2012-12-01]. http://radar.oreilly.com/2010/06/what-is-data-science.html.
[6] 呂錦揚. DPI技術在移動數據網絡分析的應用[J]. 電信技術, 2013(6): 72-75.★
作者簡介
雷蕾:碩士畢業于西安交通大學軟件工程專業,現任職于中國移動(深圳)有限公司,從事業務支撐系統測評工作,研究方向為BI系統架構及數據挖掘技術應用。
熊偉:碩士畢業于天津科技大學,現任職于中國移動(深圳)有限公司,從事業務支撐系統測評工作,研究方向為軟件開發和測試各類應用技術。
endprint