999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

校園網用戶行為分析系統設計與實現

2015-05-04 22:06:06許聞秋高偉申健
數字技術與應用 2014年12期

許聞秋++高偉++申健

摘要:用戶視頻瀏覽行為是視頻個性化推薦及視頻網站優化的關鍵,而校園網用戶區別于其他社會群體有其特殊代表性。本文基于校園網流量,提出了一種基于MapReduce的校園網視頻用戶行為分析方案,融合深度包檢測與網絡爬蟲技術,挖掘校園網用戶視頻行為特征。以優酷網為例,統計了用戶行為識別率并分析了視頻用戶行為,給出校園網用戶視頻推薦列表。

關鍵詞:校園網 視頻用戶 行為分析

中圖分類號:TP391 文獻標識碼:A 文章編號:1007-9416(2014)12-0134-02

Design and Implementation of Campus Network Users Behavior Analysis System

Xu Wenqiu,Gao Wei,Shen Jian

大數據時代,信息量增長,用戶數增加。截至2014年12月,我國網絡視頻用戶規模達到4.33億,比去年年底增加了478萬,用戶使用率為66.7%,中國網絡視頻的用戶規模持依舊呈現出持續穩定上升的態勢[1]。校園網用戶不同于其他社會群體,有其獨特的行為和偏好特征。視頻瀏覽是校園網用戶學習生活的一部分。

本文在傳統視頻推薦及流量識別的基礎上,提出了一種對校園網視頻流量識別及用戶行為分析方案。

1 研究背景

傳統的視頻推薦技術需要首先獲取視頻網站日志挖掘用戶數據,再對視頻網站用戶行為進行研究。傳統基于端口及協議的流量識別方法并不能滿足校園網大數據流量的存儲與分析要求。前人的研究無一例外都是以商業網站的自身優化為目的。為了解決傳統數據挖掘算法無法對TB級校園網流量數據進行存儲于運算的問題,本文借助MapReduce的分布式存儲及并行運算優勢。融合深度數據包檢測及視頻網站爬蟲技術對校園網視頻用戶行為進行挖掘和統計分析,并生成推薦列表。

本文創新點如下。

(1)研究對象不同。不同于前人對商業視頻網站的用戶行為研究,本文針對校園網用戶,研究該群體在主流視頻網站的用戶行為。

(2)研究方法不同。不同于前人基于P2P或提取網站日志的流量識別方法,本文基于深度包檢測技術,對校園網數據中心交換機端口的鏡像信息進行抓包。并結合網絡爬蟲技術,爬取視頻網站視頻信息,從而識別用戶視頻行為的研究實屬首列。

(3)研究目的不同。前人對視頻用戶行為研究目的在于調控網絡流量和網絡計費,本文目的在于針對校園網管理及視頻資源優化。

2 系統方案設計

2.1 校園網視頻用戶行為識別

以優酷網某視頻請求為例。通過抓包分析,對數據包重組解析,用戶HTTP請求內容有明顯視頻用戶行為標識特征,如圖1所示,數據數據包中Full request URI可由Host域名和GET請求URI組合而成。當用戶瀏覽某視頻時,HTTP GET請求中會帶有明確的Host域名和視頻對應ID號。如訪問優酷網時,請求URI “GET /v_show/id_XNDYyODM3MDM2.html”中的XNDYyODM3MDM2就是優酷網視頻“重慶郵電大學傳媒藝術學院運動會啦啦隊”的唯一標識ID號。

2.2 MapReduce編程模型設計

本文通過多個MapReduce任務實現校園網流量數據包解析,如圖2所示。

(1)job 1數據包HTTP重組。通過PcapIputFormat從HDFS中讀取數據包,以數據包在文件的偏移量為key、數據包為value作為map階段的輸入,map任務對數據包解碼,以五元組(源IP、目的IP、源端口、目的端口、傳輸協議)進行數據包分流,并將時間戳、TCP序列號添加到數據包凈荷前面,用以reduce階段數據重組,最終形成以五元組為key、數據流為value作為map階段的輸出。

(2)job 2~3用戶視頻行為特征提取。以job 1 reduce輸出結果作為job 2 map輸入,拼接Host字段和GET字段還原完整的URL。同時提取Referer字段,存入Referer數據庫。reduce結果輸出以視頻行為特征字段/商品ID為key、計數為value的形式。

(3)job 4用戶視頻行為統計。以job 3 reduce結果為輸入,通過與視頻信息庫匹配,得到用戶瀏覽視頻具體信息,結果輸出以視頻行為特征字段/視頻ID/計數為key、視頻具體信息為value的形式,完成對用戶視頻行為的統計。

3 實驗結果與分析

3.1 實驗環境及數據

本文在Hadoop測試平臺,基于單位網絡中心3臺服務器上部署十臺虛擬機構成的集群。該集群由普通的PC機所組成,1個NameNode,8G內存,500G硬盤;5個DataNode,均為4G內存,500G硬盤。幾個節點均由交換機相連,使用雙核CPU。平臺使用Hcap-224F千兆數據采集卡,配置Hadoop1.1.2和JDK1.7.0_45。

采集本校學生公寓的數據,通過機房中心端口映射,以pcap(libpcap)格式保存離線文件。總計采集四天正常工作日校園網數據,即2013年12月9-12號,其中9-11日三天采集了校園網用戶課后自由支配時間段的數據,即18:00-23:00;11-12日兩天采集了校園網用戶工作時段的數據,即09:00-18:00。總計采集數據500G。

3.2 實驗結果分析

本文以校園網用戶的性別、時間段為主要分析緯度,分析視頻網站、頻道、節目的視頻訪問量,從以上三個方面對校園網視頻用戶行為統計分析。(如表1)

如圖3所示。18點至晚上21點視頻請求量顯著增大,并出現一天當中的峰值21點以后,視頻請求量再次下降,學生逐漸進入休息狀態。

4 結語

本文在視頻推薦研究基礎上,提出了一種基于MapReduce分布式模型的校園網視頻用戶行為分析系統。通過結合深度包檢測技術和網絡爬蟲技術,實現了對視頻業務內容的準確識別,并對校園網用戶行為特征進行歸類、統計、分析和展示。為高校管理者及時了解在校學生的思想行為動態,為視頻提供商為有針對性訂制視頻節目,也為視頻網站優化、實現精準營銷提供依據。

參考文獻

[1]中國互聯網絡信息中心(CNNIC).第35次中國互聯網絡發展狀況統計報告[R].2015:87-98.

[2]Tom White.Hadoop:The definitive Guide (3E),OReilly,2012.

主站蜘蛛池模板: 国产乱人伦偷精品视频AAA| 欧美日韩一区二区在线免费观看 | 在线永久免费观看的毛片| 国产综合网站| 国语少妇高潮| 色爽网免费视频| 国产日本欧美在线观看| 国产一线在线| 婷婷亚洲视频| 亚洲精品天堂在线观看| 狠狠色香婷婷久久亚洲精品| 91久久大香线蕉| 国产成人亚洲精品色欲AV| 人妻无码中文字幕第一区| 波多野结衣无码视频在线观看| 国产精品免费露脸视频| 免费在线视频a| 国产色网站| 亚洲第一成人在线| 精品国产网| a毛片基地免费大全| 毛片基地美国正在播放亚洲 | 午夜无码一区二区三区| 精品撒尿视频一区二区三区| 国产精品播放| 黄色福利在线| 欧美高清国产| 原味小视频在线www国产| 国产第八页| 久草热视频在线| 一区二区影院| 色窝窝免费一区二区三区| 免费无遮挡AV| 久久免费视频播放| 久久久波多野结衣av一区二区| 伊人久久久大香线蕉综合直播| 99热国产这里只有精品无卡顿"| 亚洲AV成人一区二区三区AV| 一级香蕉视频在线观看| 六月婷婷激情综合| 伊人丁香五月天久久综合| 欧美成人午夜视频| 老熟妇喷水一区二区三区| 成人蜜桃网| 亚洲va欧美va国产综合下载| 啊嗯不日本网站| 欧美日韩在线第一页| 国产精品不卡片视频免费观看| 在线看片免费人成视久网下载| 国产人人射| 99九九成人免费视频精品| 日本一区二区三区精品AⅤ| 国产成人亚洲精品蜜芽影院| 亚洲一级毛片| 国产精品久久国产精麻豆99网站| 另类欧美日韩| 国产麻豆91网在线看| 97视频精品全国在线观看| 97国产一区二区精品久久呦| 国产精品任我爽爆在线播放6080| 国产成人AV男人的天堂| 狠狠v日韩v欧美v| 国产精品v欧美| 国产精品视频a| 国产精品一区在线观看你懂的| 毛片在线播放a| 国产精品网曝门免费视频| 日韩精品一区二区三区swag| 国产成人8x视频一区二区| 欧美人与动牲交a欧美精品| 超碰aⅴ人人做人人爽欧美| 在线另类稀缺国产呦| 欧美 国产 人人视频| 欧美怡红院视频一区二区三区| 色婷婷亚洲十月十月色天| 久热中文字幕在线| 亚洲欧美另类视频| 一级毛片中文字幕| 啪啪啪亚洲无码| 在线国产综合一区二区三区| 内射人妻无码色AV天堂| jizz在线免费播放|