999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談電信行業大數據時代商業智能系統數據管理策略

2014-08-08 16:03:35雷蕾熊偉
移動通信 2014年9期
關鍵詞:分類系統

雷蕾+熊偉

【摘要】目前,商業智能系統作為電信行業主要的客戶行為數據分析平臺,在新業務模式下已不能滿足挖掘客戶需求以支撐一線營銷的需要。通過討論大數據時代的數據特點,分別從數據采集及處理、數據調度及存儲、數據分析及應用三方面總結出各項數據管理的應對策略,為系統優化提供了參考。

【關鍵詞】大數據商業智能數據管理

中圖分類號:TP311.5文獻標識碼:A文章編號:1006-1010(2014)-09-0069-03

1 背景及研究現狀分析

移動互聯網時代,新型應用不斷涌現,客戶行為習慣也隨之改變,電信運營商從以語音收入為主的業務模式,進入到了語音和流量雙經營的業務模式。在此背景下,IT支撐每天面對數以PB級的海量數據[1],數據前所未有的生成速度和數量帶來了“數據雪崩”(Data Avalanche)和“數據洪流”(Data Deluge)[2-3]。如何從中挖掘有價值的商業信息,適應“數據經濟”(Data Economy)和“數據科學”(Data Science)[4-5]的大數據時代,這是客戶挽留營銷和收入增長的重要環節。

根據電信運營商現有的IT系統架構,管理及分析客戶業務數據主要由基于企業級數據倉庫的商業智能(Business Intelligence)系統完成。目前,面對業務部門的需求,該系統存在以下問題:

(1)分析數據缺失:客戶移動互聯網行為數據采集不完整,無法還原客戶應用場景。

(2)數據量劇增帶來存儲和處理性能的壓力:一個省的用戶流量數據每日可達150億條,約是傳統語音計費數據的15倍。生產系統數據進入數據倉庫時,ETL調度性能及數據倉庫的擴容速度不滿足需求。

(3)大量非結構化數據無法用傳統的建模方法分析:采集到的URL串等客戶行為數據,無法直接反映客戶行為特征,必須經過處理和轉換才能獲得有用的建模信息。

2 大數據時代各項應對策略

通過上述分析,可以看出在大數據時代,商業智能系統面臨的是從數據采集處理、調度存儲到分析的一系列問題,本文從完善數據源開始,探討一套完整的數據管理策略。

2.1數據采集及處理

商業智能系統并不產生實際的生產數據,數據倉庫的數據都是從其他網絡、計費、客服等生產系統獲取的,按照既定的接口通過ETL調度定期更新及完善數據倉庫中的數據。大數據時代,2G、3G、4G、WLAN四網并行,除了保證2G、3G及4G網絡GPRS話單、WLAN流量話單、客戶位置信息、終端信息的采集外,為了精準分析客戶的行為信息,還需新增兩類數據的采集,如表1所示:

表1兩類客戶行為數據基本信息

客戶行為數據 主要處理技術 數據來源

上網內容 文本挖掘、爬蟲技術 GGSN(Gateway GSN,網關GSN)等網關日志采集

客戶端應用 DPI解析

(1)上網內容

指采集用戶使用HTTP協議的上網行為日志,通過文本挖掘、爬蟲技術對URL進行分析,獲取用戶的上網內容。一個省每日從網絡側獲取的非結構化的URL在50億條左右,約占1TB存儲,其中隱含著具有商業價值的用戶偏好信息。對于一線市場營銷人員,需要的是每個客戶的特征標簽,比如,某用戶的特征標簽是喜歡上網閱讀,閱讀內容為言情小說,這樣就可以向這位用戶推薦一些手機閱讀的產品。因此,需要將這些非結構化的URL記錄轉化為用戶上網內容偏好標簽,主要有以下兩種方式:

1)上網搜索關鍵字提取:針對搜索產生的URL,解析其中關鍵詞獲取標簽信息。

2)網頁內容提取:

◆建立以URL為主鍵的“網頁信息分類庫”,該信息庫對網頁內容進行分類,并給每條URL打上分類標簽;

◆將清洗過濾后的用戶URL記錄和“網頁信息分類庫”匹配,按照一定的規則(如訪問次數最多的類型)給客戶打上分類標簽;

◆如果庫中沒有相應的URL信息,則需要通過爬蟲及文本挖掘完善“網頁信息分類庫”。

(2)客戶端應用

即識別出用戶客戶端的應用,如QQ音樂、百度搜索等應用。目前主要依靠在GGSN(Gateway GSN,網關GSN)上部署DPI(Deep Packet Inspection,深度包檢測)硬件設備來實現。DPI技術通過對應用流中的數據報文內容進行探測,例如對數據報文中特定比特串進行檢測,從而確定數據報文真正的應用類型[6]。在目前的實際應用中,通過解析識別出來的應用已達到 1 400種以上,基本覆蓋當前熱門應用。

2.2數據調度及存儲

其他系統采集處理后的數據,通過ETL調度到商業智能系統的數據倉庫中進行存儲,為下一步數據分析做準備。為了減輕大數據量帶來的數據倉庫調度和存儲壓力,對原有系統架構進行變更,引入云平臺完成數據入庫前的預處理工作,同時提升ETL調度性能。數據倉庫架構轉變如圖1所示:

圖1數據倉庫架構轉變

下面說明引入云平臺的作用及帶來的兩項提升:

(1)完成數據入庫前的預處理:減少入庫的數據量;減少入庫時數據處理操作。

表2是用戶上網日志在云平臺上處理前后數據量的比對,基于28臺刀片服務器(BL465G7:AMD O6134*2,32GB內存,2*300GB硬盤;D2200:300G*6)構建的Hadoop分布式系統。

表2上網日志經云平臺處理前后數據量比對

字段 存儲空間

處理前:59個字段 處理前:1TB

處理后:16個字段 處理后:600GB

可見數據量縮小了約40%,減少了入庫數據量及處理操作,降低了ETL調度及數據倉庫存儲壓力。

(2)完成數據文件調度到數據倉庫的處理:提升ETL調度能力。

以應用DPI解析結果入庫為例,采用8臺刀片服務器(BL465G7:AMD O6134*2,32GB內存,2*300GB硬盤;D2200:300G*6)構建的Hadoop分布式系統后,系統前后調度性能的比對如表3所示:

表3DPI解析結果調度性能提升

數據量 ETL調度時間

入倉庫前:80億條 采用傳統數據倉庫ETL調度方式:8小時

入倉庫后:6億條 引入云平臺后:1.5小時

可見其性能提升了5倍多,并在調度過程中完成數據的合并轉換工作。

2.3數據分析及應用

經過上述流程,電信行業大數據時代主要新增的兩類客戶行為數據:客戶上網內容和客戶端應用,已經轉化為數據模型的輸入變量,借助數據模型完成數據分析工作。從上網日志中提取轉換后的變量包括:上網內容一級分類(閱讀、游戲、音樂等)、上網內容二級分類(以閱讀為例:社科科普、名著傳記、科幻小說等)、上網搜索關鍵詞等;從客戶端應用解析轉換后的變量主要是具體應用及應用分類。

數據模型可利用客戶的這些上網行為特征,分析出營銷挽留活動的目標客戶,現在熱點數據模型的種類如表4所示:

表4數據模型分類及應用場景

數據模型分類 應用場景

套餐營銷類 識別目標客戶,推薦優惠的流量資費套餐

終端營銷類 識別潛在購機客戶,推薦符合需求的智能終端機

業務營銷類 針對不同類型的客戶,推薦感興趣的業務應用

網絡分流類 引導客戶從2G網絡分流到3G、4G及WLAN網絡,使網絡資源負載均衡

3 總結

綜上所述,首先通過文本挖掘、爬蟲、DPI解析技術處理從網絡側采集到的客戶上網行為數據;再通過搭建云平臺提升ETL調度性能,減少數據倉庫存儲壓力;最后,將標簽式的客戶行為特征變量,通過數據模型轉化為可被一線營銷人員采用的信息。

目前,本文所述的這套大數據管理策略已在個別分公司試用,雖然還處在嘗試階段,但是效果已逐步被認可。根據當前在建設中遇到的困難來看,網頁日志解析的全面性以及DPI對新應用解析的研發速度有待提高。另外,云平臺部署的成本投入也是個需要探討的問題,目前是通過購買新的刀片機來實現的,背離了云平臺采用廉價、閑置的X86 PC設備構建的初衷。

參考文獻:

[1] 童曉渝,張云勇,房秉毅,等. 大數據時代電信運營商的機遇[J]. 信息通信技術, 2013(1): 5-9.

[2] Clifford Lynch. Big data: How do your data grow[J]. Nature, 2008(455): 28-29.

[3]The Economist. The data deluge[EB/OL]. [2012-12-10]. http://www.economist.com/node/15579717.

[4] Mitch Waldrop. Big data: Wikiomics[J]. Nature, 2008(455): 22-25.

[5] Mike Loukides. What is data science[EB/OL]. [2012-12-01]. http://radar.oreilly.com/2010/06/what-is-data-science.html.

[6] 呂錦揚. DPI技術在移動數據網絡分析的應用[J]. 電信技術, 2013(6): 72-75.★

作者簡介

雷蕾:碩士畢業于西安交通大學軟件工程專業,現任職于中國移動(深圳)有限公司,從事業務支撐系統測評工作,研究方向為BI系統架構及數據挖掘技術應用。

熊偉:碩士畢業于天津科技大學,現任職于中國移動(深圳)有限公司,從事業務支撐系統測評工作,研究方向為軟件開發和測試各類應用技術。

endprint

【摘要】目前,商業智能系統作為電信行業主要的客戶行為數據分析平臺,在新業務模式下已不能滿足挖掘客戶需求以支撐一線營銷的需要。通過討論大數據時代的數據特點,分別從數據采集及處理、數據調度及存儲、數據分析及應用三方面總結出各項數據管理的應對策略,為系統優化提供了參考。

【關鍵詞】大數據商業智能數據管理

中圖分類號:TP311.5文獻標識碼:A文章編號:1006-1010(2014)-09-0069-03

1 背景及研究現狀分析

移動互聯網時代,新型應用不斷涌現,客戶行為習慣也隨之改變,電信運營商從以語音收入為主的業務模式,進入到了語音和流量雙經營的業務模式。在此背景下,IT支撐每天面對數以PB級的海量數據[1],數據前所未有的生成速度和數量帶來了“數據雪崩”(Data Avalanche)和“數據洪流”(Data Deluge)[2-3]。如何從中挖掘有價值的商業信息,適應“數據經濟”(Data Economy)和“數據科學”(Data Science)[4-5]的大數據時代,這是客戶挽留營銷和收入增長的重要環節。

根據電信運營商現有的IT系統架構,管理及分析客戶業務數據主要由基于企業級數據倉庫的商業智能(Business Intelligence)系統完成。目前,面對業務部門的需求,該系統存在以下問題:

(1)分析數據缺失:客戶移動互聯網行為數據采集不完整,無法還原客戶應用場景。

(2)數據量劇增帶來存儲和處理性能的壓力:一個省的用戶流量數據每日可達150億條,約是傳統語音計費數據的15倍。生產系統數據進入數據倉庫時,ETL調度性能及數據倉庫的擴容速度不滿足需求。

(3)大量非結構化數據無法用傳統的建模方法分析:采集到的URL串等客戶行為數據,無法直接反映客戶行為特征,必須經過處理和轉換才能獲得有用的建模信息。

2 大數據時代各項應對策略

通過上述分析,可以看出在大數據時代,商業智能系統面臨的是從數據采集處理、調度存儲到分析的一系列問題,本文從完善數據源開始,探討一套完整的數據管理策略。

2.1數據采集及處理

商業智能系統并不產生實際的生產數據,數據倉庫的數據都是從其他網絡、計費、客服等生產系統獲取的,按照既定的接口通過ETL調度定期更新及完善數據倉庫中的數據。大數據時代,2G、3G、4G、WLAN四網并行,除了保證2G、3G及4G網絡GPRS話單、WLAN流量話單、客戶位置信息、終端信息的采集外,為了精準分析客戶的行為信息,還需新增兩類數據的采集,如表1所示:

表1兩類客戶行為數據基本信息

客戶行為數據 主要處理技術 數據來源

上網內容 文本挖掘、爬蟲技術 GGSN(Gateway GSN,網關GSN)等網關日志采集

客戶端應用 DPI解析

(1)上網內容

指采集用戶使用HTTP協議的上網行為日志,通過文本挖掘、爬蟲技術對URL進行分析,獲取用戶的上網內容。一個省每日從網絡側獲取的非結構化的URL在50億條左右,約占1TB存儲,其中隱含著具有商業價值的用戶偏好信息。對于一線市場營銷人員,需要的是每個客戶的特征標簽,比如,某用戶的特征標簽是喜歡上網閱讀,閱讀內容為言情小說,這樣就可以向這位用戶推薦一些手機閱讀的產品。因此,需要將這些非結構化的URL記錄轉化為用戶上網內容偏好標簽,主要有以下兩種方式:

1)上網搜索關鍵字提取:針對搜索產生的URL,解析其中關鍵詞獲取標簽信息。

2)網頁內容提取:

◆建立以URL為主鍵的“網頁信息分類庫”,該信息庫對網頁內容進行分類,并給每條URL打上分類標簽;

◆將清洗過濾后的用戶URL記錄和“網頁信息分類庫”匹配,按照一定的規則(如訪問次數最多的類型)給客戶打上分類標簽;

◆如果庫中沒有相應的URL信息,則需要通過爬蟲及文本挖掘完善“網頁信息分類庫”。

(2)客戶端應用

即識別出用戶客戶端的應用,如QQ音樂、百度搜索等應用。目前主要依靠在GGSN(Gateway GSN,網關GSN)上部署DPI(Deep Packet Inspection,深度包檢測)硬件設備來實現。DPI技術通過對應用流中的數據報文內容進行探測,例如對數據報文中特定比特串進行檢測,從而確定數據報文真正的應用類型[6]。在目前的實際應用中,通過解析識別出來的應用已達到 1 400種以上,基本覆蓋當前熱門應用。

2.2數據調度及存儲

其他系統采集處理后的數據,通過ETL調度到商業智能系統的數據倉庫中進行存儲,為下一步數據分析做準備。為了減輕大數據量帶來的數據倉庫調度和存儲壓力,對原有系統架構進行變更,引入云平臺完成數據入庫前的預處理工作,同時提升ETL調度性能。數據倉庫架構轉變如圖1所示:

圖1數據倉庫架構轉變

下面說明引入云平臺的作用及帶來的兩項提升:

(1)完成數據入庫前的預處理:減少入庫的數據量;減少入庫時數據處理操作。

表2是用戶上網日志在云平臺上處理前后數據量的比對,基于28臺刀片服務器(BL465G7:AMD O6134*2,32GB內存,2*300GB硬盤;D2200:300G*6)構建的Hadoop分布式系統。

表2上網日志經云平臺處理前后數據量比對

字段 存儲空間

處理前:59個字段 處理前:1TB

處理后:16個字段 處理后:600GB

可見數據量縮小了約40%,減少了入庫數據量及處理操作,降低了ETL調度及數據倉庫存儲壓力。

(2)完成數據文件調度到數據倉庫的處理:提升ETL調度能力。

以應用DPI解析結果入庫為例,采用8臺刀片服務器(BL465G7:AMD O6134*2,32GB內存,2*300GB硬盤;D2200:300G*6)構建的Hadoop分布式系統后,系統前后調度性能的比對如表3所示:

表3DPI解析結果調度性能提升

數據量 ETL調度時間

入倉庫前:80億條 采用傳統數據倉庫ETL調度方式:8小時

入倉庫后:6億條 引入云平臺后:1.5小時

可見其性能提升了5倍多,并在調度過程中完成數據的合并轉換工作。

2.3數據分析及應用

經過上述流程,電信行業大數據時代主要新增的兩類客戶行為數據:客戶上網內容和客戶端應用,已經轉化為數據模型的輸入變量,借助數據模型完成數據分析工作。從上網日志中提取轉換后的變量包括:上網內容一級分類(閱讀、游戲、音樂等)、上網內容二級分類(以閱讀為例:社科科普、名著傳記、科幻小說等)、上網搜索關鍵詞等;從客戶端應用解析轉換后的變量主要是具體應用及應用分類。

數據模型可利用客戶的這些上網行為特征,分析出營銷挽留活動的目標客戶,現在熱點數據模型的種類如表4所示:

表4數據模型分類及應用場景

數據模型分類 應用場景

套餐營銷類 識別目標客戶,推薦優惠的流量資費套餐

終端營銷類 識別潛在購機客戶,推薦符合需求的智能終端機

業務營銷類 針對不同類型的客戶,推薦感興趣的業務應用

網絡分流類 引導客戶從2G網絡分流到3G、4G及WLAN網絡,使網絡資源負載均衡

3 總結

綜上所述,首先通過文本挖掘、爬蟲、DPI解析技術處理從網絡側采集到的客戶上網行為數據;再通過搭建云平臺提升ETL調度性能,減少數據倉庫存儲壓力;最后,將標簽式的客戶行為特征變量,通過數據模型轉化為可被一線營銷人員采用的信息。

目前,本文所述的這套大數據管理策略已在個別分公司試用,雖然還處在嘗試階段,但是效果已逐步被認可。根據當前在建設中遇到的困難來看,網頁日志解析的全面性以及DPI對新應用解析的研發速度有待提高。另外,云平臺部署的成本投入也是個需要探討的問題,目前是通過購買新的刀片機來實現的,背離了云平臺采用廉價、閑置的X86 PC設備構建的初衷。

參考文獻:

[1] 童曉渝,張云勇,房秉毅,等. 大數據時代電信運營商的機遇[J]. 信息通信技術, 2013(1): 5-9.

[2] Clifford Lynch. Big data: How do your data grow[J]. Nature, 2008(455): 28-29.

[3]The Economist. The data deluge[EB/OL]. [2012-12-10]. http://www.economist.com/node/15579717.

[4] Mitch Waldrop. Big data: Wikiomics[J]. Nature, 2008(455): 22-25.

[5] Mike Loukides. What is data science[EB/OL]. [2012-12-01]. http://radar.oreilly.com/2010/06/what-is-data-science.html.

[6] 呂錦揚. DPI技術在移動數據網絡分析的應用[J]. 電信技術, 2013(6): 72-75.★

作者簡介

雷蕾:碩士畢業于西安交通大學軟件工程專業,現任職于中國移動(深圳)有限公司,從事業務支撐系統測評工作,研究方向為BI系統架構及數據挖掘技術應用。

熊偉:碩士畢業于天津科技大學,現任職于中國移動(深圳)有限公司,從事業務支撐系統測評工作,研究方向為軟件開發和測試各類應用技術。

endprint

【摘要】目前,商業智能系統作為電信行業主要的客戶行為數據分析平臺,在新業務模式下已不能滿足挖掘客戶需求以支撐一線營銷的需要。通過討論大數據時代的數據特點,分別從數據采集及處理、數據調度及存儲、數據分析及應用三方面總結出各項數據管理的應對策略,為系統優化提供了參考。

【關鍵詞】大數據商業智能數據管理

中圖分類號:TP311.5文獻標識碼:A文章編號:1006-1010(2014)-09-0069-03

1 背景及研究現狀分析

移動互聯網時代,新型應用不斷涌現,客戶行為習慣也隨之改變,電信運營商從以語音收入為主的業務模式,進入到了語音和流量雙經營的業務模式。在此背景下,IT支撐每天面對數以PB級的海量數據[1],數據前所未有的生成速度和數量帶來了“數據雪崩”(Data Avalanche)和“數據洪流”(Data Deluge)[2-3]。如何從中挖掘有價值的商業信息,適應“數據經濟”(Data Economy)和“數據科學”(Data Science)[4-5]的大數據時代,這是客戶挽留營銷和收入增長的重要環節。

根據電信運營商現有的IT系統架構,管理及分析客戶業務數據主要由基于企業級數據倉庫的商業智能(Business Intelligence)系統完成。目前,面對業務部門的需求,該系統存在以下問題:

(1)分析數據缺失:客戶移動互聯網行為數據采集不完整,無法還原客戶應用場景。

(2)數據量劇增帶來存儲和處理性能的壓力:一個省的用戶流量數據每日可達150億條,約是傳統語音計費數據的15倍。生產系統數據進入數據倉庫時,ETL調度性能及數據倉庫的擴容速度不滿足需求。

(3)大量非結構化數據無法用傳統的建模方法分析:采集到的URL串等客戶行為數據,無法直接反映客戶行為特征,必須經過處理和轉換才能獲得有用的建模信息。

2 大數據時代各項應對策略

通過上述分析,可以看出在大數據時代,商業智能系統面臨的是從數據采集處理、調度存儲到分析的一系列問題,本文從完善數據源開始,探討一套完整的數據管理策略。

2.1數據采集及處理

商業智能系統并不產生實際的生產數據,數據倉庫的數據都是從其他網絡、計費、客服等生產系統獲取的,按照既定的接口通過ETL調度定期更新及完善數據倉庫中的數據。大數據時代,2G、3G、4G、WLAN四網并行,除了保證2G、3G及4G網絡GPRS話單、WLAN流量話單、客戶位置信息、終端信息的采集外,為了精準分析客戶的行為信息,還需新增兩類數據的采集,如表1所示:

表1兩類客戶行為數據基本信息

客戶行為數據 主要處理技術 數據來源

上網內容 文本挖掘、爬蟲技術 GGSN(Gateway GSN,網關GSN)等網關日志采集

客戶端應用 DPI解析

(1)上網內容

指采集用戶使用HTTP協議的上網行為日志,通過文本挖掘、爬蟲技術對URL進行分析,獲取用戶的上網內容。一個省每日從網絡側獲取的非結構化的URL在50億條左右,約占1TB存儲,其中隱含著具有商業價值的用戶偏好信息。對于一線市場營銷人員,需要的是每個客戶的特征標簽,比如,某用戶的特征標簽是喜歡上網閱讀,閱讀內容為言情小說,這樣就可以向這位用戶推薦一些手機閱讀的產品。因此,需要將這些非結構化的URL記錄轉化為用戶上網內容偏好標簽,主要有以下兩種方式:

1)上網搜索關鍵字提取:針對搜索產生的URL,解析其中關鍵詞獲取標簽信息。

2)網頁內容提取:

◆建立以URL為主鍵的“網頁信息分類庫”,該信息庫對網頁內容進行分類,并給每條URL打上分類標簽;

◆將清洗過濾后的用戶URL記錄和“網頁信息分類庫”匹配,按照一定的規則(如訪問次數最多的類型)給客戶打上分類標簽;

◆如果庫中沒有相應的URL信息,則需要通過爬蟲及文本挖掘完善“網頁信息分類庫”。

(2)客戶端應用

即識別出用戶客戶端的應用,如QQ音樂、百度搜索等應用。目前主要依靠在GGSN(Gateway GSN,網關GSN)上部署DPI(Deep Packet Inspection,深度包檢測)硬件設備來實現。DPI技術通過對應用流中的數據報文內容進行探測,例如對數據報文中特定比特串進行檢測,從而確定數據報文真正的應用類型[6]。在目前的實際應用中,通過解析識別出來的應用已達到 1 400種以上,基本覆蓋當前熱門應用。

2.2數據調度及存儲

其他系統采集處理后的數據,通過ETL調度到商業智能系統的數據倉庫中進行存儲,為下一步數據分析做準備。為了減輕大數據量帶來的數據倉庫調度和存儲壓力,對原有系統架構進行變更,引入云平臺完成數據入庫前的預處理工作,同時提升ETL調度性能。數據倉庫架構轉變如圖1所示:

圖1數據倉庫架構轉變

下面說明引入云平臺的作用及帶來的兩項提升:

(1)完成數據入庫前的預處理:減少入庫的數據量;減少入庫時數據處理操作。

表2是用戶上網日志在云平臺上處理前后數據量的比對,基于28臺刀片服務器(BL465G7:AMD O6134*2,32GB內存,2*300GB硬盤;D2200:300G*6)構建的Hadoop分布式系統。

表2上網日志經云平臺處理前后數據量比對

字段 存儲空間

處理前:59個字段 處理前:1TB

處理后:16個字段 處理后:600GB

可見數據量縮小了約40%,減少了入庫數據量及處理操作,降低了ETL調度及數據倉庫存儲壓力。

(2)完成數據文件調度到數據倉庫的處理:提升ETL調度能力。

以應用DPI解析結果入庫為例,采用8臺刀片服務器(BL465G7:AMD O6134*2,32GB內存,2*300GB硬盤;D2200:300G*6)構建的Hadoop分布式系統后,系統前后調度性能的比對如表3所示:

表3DPI解析結果調度性能提升

數據量 ETL調度時間

入倉庫前:80億條 采用傳統數據倉庫ETL調度方式:8小時

入倉庫后:6億條 引入云平臺后:1.5小時

可見其性能提升了5倍多,并在調度過程中完成數據的合并轉換工作。

2.3數據分析及應用

經過上述流程,電信行業大數據時代主要新增的兩類客戶行為數據:客戶上網內容和客戶端應用,已經轉化為數據模型的輸入變量,借助數據模型完成數據分析工作。從上網日志中提取轉換后的變量包括:上網內容一級分類(閱讀、游戲、音樂等)、上網內容二級分類(以閱讀為例:社科科普、名著傳記、科幻小說等)、上網搜索關鍵詞等;從客戶端應用解析轉換后的變量主要是具體應用及應用分類。

數據模型可利用客戶的這些上網行為特征,分析出營銷挽留活動的目標客戶,現在熱點數據模型的種類如表4所示:

表4數據模型分類及應用場景

數據模型分類 應用場景

套餐營銷類 識別目標客戶,推薦優惠的流量資費套餐

終端營銷類 識別潛在購機客戶,推薦符合需求的智能終端機

業務營銷類 針對不同類型的客戶,推薦感興趣的業務應用

網絡分流類 引導客戶從2G網絡分流到3G、4G及WLAN網絡,使網絡資源負載均衡

3 總結

綜上所述,首先通過文本挖掘、爬蟲、DPI解析技術處理從網絡側采集到的客戶上網行為數據;再通過搭建云平臺提升ETL調度性能,減少數據倉庫存儲壓力;最后,將標簽式的客戶行為特征變量,通過數據模型轉化為可被一線營銷人員采用的信息。

目前,本文所述的這套大數據管理策略已在個別分公司試用,雖然還處在嘗試階段,但是效果已逐步被認可。根據當前在建設中遇到的困難來看,網頁日志解析的全面性以及DPI對新應用解析的研發速度有待提高。另外,云平臺部署的成本投入也是個需要探討的問題,目前是通過購買新的刀片機來實現的,背離了云平臺采用廉價、閑置的X86 PC設備構建的初衷。

參考文獻:

[1] 童曉渝,張云勇,房秉毅,等. 大數據時代電信運營商的機遇[J]. 信息通信技術, 2013(1): 5-9.

[2] Clifford Lynch. Big data: How do your data grow[J]. Nature, 2008(455): 28-29.

[3]The Economist. The data deluge[EB/OL]. [2012-12-10]. http://www.economist.com/node/15579717.

[4] Mitch Waldrop. Big data: Wikiomics[J]. Nature, 2008(455): 22-25.

[5] Mike Loukides. What is data science[EB/OL]. [2012-12-01]. http://radar.oreilly.com/2010/06/what-is-data-science.html.

[6] 呂錦揚. DPI技術在移動數據網絡分析的應用[J]. 電信技術, 2013(6): 72-75.★

作者簡介

雷蕾:碩士畢業于西安交通大學軟件工程專業,現任職于中國移動(深圳)有限公司,從事業務支撐系統測評工作,研究方向為BI系統架構及數據挖掘技術應用。

熊偉:碩士畢業于天津科技大學,現任職于中國移動(深圳)有限公司,從事業務支撐系統測評工作,研究方向為軟件開發和測試各類應用技術。

endprint

猜你喜歡
分類系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統
分類討論求坐標
半沸制皂系統(下)
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 伊人色在线视频| 另类专区亚洲| 亚洲日本韩在线观看| 国产日本视频91| 热久久综合这里只有精品电影| 亚洲国产成人久久77| 99这里只有精品6| 国产欧美日韩视频怡春院| 国产成人精品优优av| 啪啪免费视频一区二区| 真人高潮娇喘嗯啊在线观看| 四虎AV麻豆| 亚洲欧洲日韩综合色天使| 国产天天色| 国产成人亚洲无吗淙合青草| 毛片视频网| 成人av手机在线观看| 日韩欧美中文在线| 国产精品天干天干在线观看| 老色鬼久久亚洲AV综合| 在线播放真实国产乱子伦| WWW丫丫国产成人精品| 亚洲国产精品日韩av专区| 国产交换配偶在线视频| 18禁高潮出水呻吟娇喘蜜芽| 精品综合久久久久久97超人| 欧美成人午夜影院| 无码中文字幕精品推荐| 免费观看成人久久网免费观看| 午夜精品福利影院| 香蕉精品在线| 青草国产在线视频| 欧美日韩激情在线| 亚洲色无码专线精品观看| 亚洲人成亚洲精品| аⅴ资源中文在线天堂| 色悠久久久| 精品午夜国产福利观看| 国产精品久线在线观看| 国产日韩精品欧美一区灰| 狠狠亚洲婷婷综合色香| 国产成人AV男人的天堂| 视频二区欧美| 91美女视频在线| 亚洲成人动漫在线观看| 欧美日韩一区二区三| 最新国产你懂的在线网址| 国产成年女人特黄特色毛片免| 色婷婷亚洲综合五月| 99精品久久精品| 国产精品无码在线看| 国产传媒一区二区三区四区五区| 久久久精品无码一区二区三区| 国产一二三区视频| 狠狠亚洲五月天| 欧美精品v日韩精品v国产精品| 91成人在线观看视频| 欧美在线国产| 免费在线一区| 国产亚洲欧美日韩在线观看一区二区| 日韩人妻无码制服丝袜视频| 97精品国产高清久久久久蜜芽| 自偷自拍三级全三级视频| 99伊人精品| 99久久人妻精品免费二区| 国产精品国产主播在线观看| 无码丝袜人妻| 亚洲永久视频| 亚洲国产成人在线| 噜噜噜久久| 国产亚洲精品91| 国产亚洲精品无码专| 波多野结衣视频一区二区| 精品国产亚洲人成在线| 国产在线第二页| 中国黄色一级视频| 国产日韩丝袜一二三区| 亚洲国产第一区二区香蕉| 色播五月婷婷| 久久综合婷婷| 国产精品视频猛进猛出| 亚洲国产精品一区二区高清无码久久|