馮俊翔等
伴隨著近幾年“產品經理”的火熱起來,“用戶體驗”的設計概念被絕大多數公司企業所接受。為更好的研究與分析4G時代下移動網絡用戶的行為,本文提出了一套新的用戶行為研究與分析方案。
【關鍵詞】云計算 大數據 引擎 K-means算法
1 引言
伴隨著當今中國社會移動數字通信與多媒體需求的發展,適應移動數據、移動計算及移動多媒體運作需要的第四代移動通信開始興起,基于傳統3G時代下對用戶行為的研究與分析已經無法滿足現在運營商與公司企業的業務需求。因此,為了應對新型移動網絡中用戶行為的轉變和傳輸數據量的規模由TB向PB的轉變。在此,提出一種4G用戶行為研究分析方法。
2 總體設計介紹
2.1 引擎詳細介紹
在本文描述內容中,所進行的研究和分析都是基于一種傳統云計算設計的用戶行為分析引擎實現的,該引擎的優點主要有以下幾點:
(1)能夠通過云計算完成分布式并發的大規模計算能力。
(2)能夠構建網絡用戶端到端的大數據挖掘分析系統。以此完成對DPI 和目標用戶上網行為的深度心理行為分析。滿足國內運營商和公司企業對收集海量網絡數據、研究與分析用戶行為、確立與執行營銷策略的三大環節的連鎖需求。
如圖1所示,系統通過DPI和Web服務器獲取數據,在接口層處利用分布式計算與批量處理模式,將海量數據存入Hbase數據庫,滿足海量數據和非結構化數據的存儲功能。將進入數據庫的數據用Hive 進行整合層和匯總層的ETL 處理,再使用大數據中的MapReduce計算框架設計分析模型,最后把經過Hive映射后形成的數據庫表導入前端展現數據庫MySQL。
2.2 用戶行為模型
利用上述模型,我們可以在Hadoop平臺下為用戶行為研究分析分布式分析模型。在此將詳細闡述評估、用戶偏好、關系挖掘三大模型。
2.2.1 評估模型
該模型主要利用了參數調整,是對模型中所采用算法不同變量和參數和模型設計空間規模的調整與設置;除此之外,不僅有對該模型進行校驗,還將針對計算結果與實際數據進行比較。以此實現模型的精確校驗指入和對跟模型有效性的評價與校驗。
在考慮到移動網絡用戶會在不同的平臺上有相關的訪問數據,評估模型還將采取針對性的關聯分析,基于用戶的日常操作日志,系統可以進行用戶與網絡多個平臺的關聯關系確認,依據K-means關聯算法,在找出平方誤差最小的k個函數值,就可以實現對用戶簇的緊湊劃分,將這些用戶簇固化,就是運營商、公司企業所需要的數據支持。
2.2.2 用戶偏好模型
該模型利用了文本挖掘,其主要作用是消除收集數據中的文本內容,通過多種基于用戶需求的預處理技術獲取文本里面的重要內容,依據K-means算法進行文本內容的精細劃分,實現對高可靠性標準文本庫的構造。
用戶偏好模型將分為三大類:用戶訪問、用戶應用、用戶推薦。
用戶訪問依據網頁訪問日志,通過分類后,完成對用戶訪問網頁行為的跟蹤與分析,它將計算和生成用戶的偏好。
用戶應用將深度分析用戶下載APP應用的詳細情況。從類別,使用時長,APP相關性等方面著手,最終完成對用戶興趣和愛好的準確計算。
用戶推薦以現有內容推薦技術為依托,結合其他推薦技術,綜合考慮網頁、APP應用的內容與用戶關聯性,定義出綜合相似度參數,對它進行多維度計算,為用戶提供推薦信息。
2.2.3 關系挖掘模型
依據評估模型和用戶偏好模型構建出關系挖掘模型,該模型主要是對用戶的社會交往關系和興趣關系進行圖譜構建,再結合用戶的網絡訪問日志對用戶潛藏信息進行挖掘,來構建用戶的“多維關系”。
3 系統測試與結果分析
為了驗證對文中所采用的基于云計算的在線4G用戶行為研究與分析,我們從網上隨機抓取了10000個人在網上訂購快餐的消費頻率和其他上網記錄,在此,本文提取以下兩條數據進行分析:
(1)10000人中有8032人在線搜索過“減肥、長胖、瘦肚子”等關鍵字,5793人購買過與治療高血壓、減肥相關藥品。
(2)高頻率消費快餐(一周超過3次)共有3034人,其中有2874人日常平均上網時間超過9個小時。在他們的一周整個上網時間(超過26210個小時)內,分配為網游42.75%,電視劇、電影、綜藝節目16.26%,淘寶等電子商務平臺14.25%,聊天、微博8.34%,其他1.84%。
依據上面統計結果,我們可以明確分析出:消費快餐,會存在長胖、高血壓的風險,對于“健康飲食”,“方便”、“健康”字樣信息會格外關注;對于高頻率食用快餐的人群,還是以喜歡宅在家里的人居多,他們更喜歡瀏覽“送貨上門”,“包郵”字樣的商品。以上兩點內容通過實驗人群的上網瀏覽記錄也得以證實。如圖2所示。
在另一方面,本文中所使用的引擎與傳統的單機批量入庫方式,更具有實時化和壓縮時間縮短的優勢,對于4G時代井噴式的用戶數據,將更加適用運營商和公司、企業的需求。
4 結束語
本文對4G時代下的用戶行為提出了一種新的研究與分析方案,能夠有效的滿足現在運營商、公司企業的需求。如果在數據處理方面,仍覺得本方案的引擎不夠快,可以嘗試數據挖掘、數據倉庫的方法去處理。
參考文獻
[1]喬志偉.基于用戶行為的3G業務分析與探討[J].移動通信, 2010(12): 52- 55.
[2]馮銘,王保進.蔡建宇.基于云計算的可重構移動互聯網用戶行為分析系統的設計[J]. 計算機科學, 2011(08).
[3]王明會.移動互聯網技術及應用熱點淺析[J].信息通信技術,2010(04).
[4]皇甫大鵬,陳平,王興建.基于一種改進的K- means 算法的校園網用戶行為分析研究[J].廣西大學學報,2011(11).
作者單位
重慶郵電大學 重慶市 400065endprint