范孟可,王 攀
(南京郵電大學 物聯網學院,江蘇 南京 210003)
基于Hadoop的固網寬帶終端識別技術研究和實現
范孟可,王 攀
(南京郵電大學 物聯網學院,江蘇 南京 210003)
隨著大數據時代的來臨,大數據在各個行業應用越來越廣泛。大數據在運營商行業的應用也很普遍,但同時也遇到了很多技術問題,其中家庭畫像的塑造是運營商大數據的一個核心問題。如何提取和識別固網寬帶下的終端類型是一個有待解決的問題。不像移動網,固網寬帶由于沒有信令通道,所以不攜帶任何準確的終端信息,因而對固網下的終端類型識別比較困難。傳統方法都是采用解析和匹配HTTP GET報文中的UA字段進行識別。但這種方法由于UA的非標準化,以及終端數量和種類眾多的緣故而導致終端類型的識別準確率低下。文中采用Hadoop框架,利用Hive中UDF的方法,結合分布式爬蟲獲取終端庫,可以更加快速準確地識別出用戶上網終端信息。實驗結果表明,終端識別準確率可以達到92%以上,相比傳統方法有了大幅提升。
終端識別;Hadoop;User Defined Function (UDF);分布式爬蟲;固網寬帶;大數據運營
當今,隨著計算機技術的發展,大數據被應用到生活中的各行各業。大數據已經是行業的趨勢,當今時代也是“大數據”[1]時代。
傳統的電信運營商還只是把數據簡單地保存起來,沒有發揮數據的價值。而隨著信息技術的快速發展,運營商開始意識到數據對企業日常的管理和營銷的支撐具有重大意義。因此,運營商建立了一些企業信息化系統為公司的經營決策[2]和資源配置提供幫助。……