唐蓉

摘 要 隨著互聯網業務的蓬勃發展,寬帶網絡和移動互聯網的用戶規模和流量規模急劇擴張,用戶對上網的感知要求也越來越高。不斷改善用戶的互聯網體驗、了解用戶真實的上網感知已是各運營商的重要工作目標。本文討論以全用戶的真實上網訪問日志為數據源,利用HDFS大數據分布式存儲和MapReduce大數據處理技術,運用統計建模方法,構建基于流量標簽化的視頻特征庫,為后期開展質量分析和優化提升提供幫助。
關鍵詞 DPI;大數據;視頻;特征
運營商傳統保障用戶上網感知、提升網絡資源質量的方式,主要依賴于撥測技術。通過在省網、城域網以及地市家客、集客等各個層級的探針,在一定程度上模擬用戶上網訪問行為,訪問某些網絡資源,可檢測到相應的內容網絡的質量指標情況。存在不足的是,撥測始終是模擬用戶行為,而非用戶真實的上網訪問日志,數據覆蓋不全,撥測效率低,不能針對具體的ICP內容進行精細化撥測,因此不能代表用戶的真實訪問情況[1]。
目前,DPI采集技術在運營商網絡里大量覆蓋,同時,DPI檢測的是全用戶的真實上網訪問日志,能通過對DPI采集到的數據進行分析與處理,可真實、有效地對用戶的上網感知進行評估,并定位質差。
本系統基于DPI探針采集到的用戶全量的上網訪問記錄并按規范合成響應的XDR話單數據,利用HDFS大數據分布式存儲和MapReduce大數據處理技術,運用統計建模方法,實現對用戶真實上網訪問記錄情況的有效解讀,對用戶上網感知的保障、提高本省內容滿足率和節約網間結算成本等方面提供直觀有效的支撐方案。
系統功能架構如圖1所示:
包括鏈路、采集、分析三個層次。分析平臺功能主要包括視頻資源庫、視頻資源質量可視化、視頻告警視圖、視頻資源深度分析以及管理中心五大分析模塊。
視頻資源庫模塊基于XDR話單分析本省用戶的視頻資源情況,并根據劇集資源特征,提取XDR話單中視頻劇集特征碼,按照各視頻ICP不同的視頻劇集資源唯一識別規則,對提取到的視頻劇集特征碼進行基因重組,構建可以在現網訪問的網址信息,通過Python爬蟲技術,建立視頻劇集特征碼和視頻劇集名稱具有一一對應關系的視頻劇集資源庫。
系統通過HTML頁面分析技術分析Top視頻網站的視頻劇集特征,同時挖掘該特征在XDR話單中的存在形式,并從話單中提取出來;利用視頻劇集特征基因重組技術,將需爬取視頻劇集名稱的視頻劇集特征按照其網站的規律,對視頻劇集特征進行重構,構建出一個可以在現網訪問的網址信息;再通過Python爬蟲技術,結合HTML語言文本還原技術,爬取現網數據,并建立視頻劇集特征碼和視頻劇集名稱具有一一對應關系的本地熱門視頻劇集資源特征庫。有效的識別是管控的基礎,本地熱門視頻劇集資源特征庫的建立使視頻業務識別領域的識別粒度更細了一個層次。
本系統的熱門視頻資源特征庫的建立,為網間視頻資源的識別與管控提供了有力支撐。利用熱門視頻資源庫,分析用戶在網間出口的上網日志數據,獲取網間流量中的熱門視頻資源,通過本系統的對外數據傳輸接口,定期將熱門視頻資源信息傳輸至緩存系統,供緩存系統進行緩存。針對不符合緩存系統緩存規則的熱門視頻資源,本系統可提供熱門視頻資源的詳細信息,如uri、流量數據等,共緩存系統進行緩存分析或強制緩存。從而達到提升用戶上網視頻質量感知的目的。
參考文獻
[1] 陳先灝.DPI技術應用發展研究[J].無線互聯科技,2015(21):37-38.