汪曉東/中國聯合網絡通信有限公司煙臺分公司
移動互聯網的大數據處理關鍵技術
汪曉東/中國聯合網絡通信有限公司煙臺分公司
【摘 要】通過大數據的研究處理將獲得的有用信息服務于企業或機構,使其在競爭中取得優勢,來為企業提供更好的處理大數據的方法,幫助企業更深刻的理解客戶對其的需求和體驗,以利于業務的發展,用戶也可以更好地體驗移動互聯網各種資源。本文首先對移動互聯網大數據做了概述,然后分析了移動互聯網大數據處理中存在的問題,最后詳細闡述了移動互聯網的大數據處理關鍵技術。
【關鍵詞】移動互聯網;大數據;處理;排重;整合
移動互聯網大數據是指用戶使用智能終端在移動網絡中產生的數據,主要包括:與網絡信令、協議、流量等相關的網絡信息數據;與用戶信息相關的用戶數據;與業務相關的數據。
大數據提供客戶經歷的各種體驗的完整信息,可以詳盡到在任何時間、地點,結合移動客戶體驗方案來分析相關數據,從而幫助運營商更詳細掌握客戶體驗情況,提前預知網絡上可能發生的問題,及時做出合理響應,這些信息對運營商的服務提供很大的幫助。大數據分析為整個電信產業帶來了前所未有的機遇與挑戰,如何高效地發揮這些數據資源的作用,是擺在為運營商面前的關鍵問題。
(一)多源數據采集問題
大數據時代的數據存在如下幾個特點:多源異構、分布廣泛、動態增長、先有數據后有模式。舉例來說,一個用戶的一條位置信息的價值是很小的,但是很多這樣的低價值數據可以完整刻畫出用戶的運動軌跡,獲得本質上的價值提升。然而,在已有的數據采集系統中,數據收集不全面是一個普遍的問題,如何處理來自多源的數據是移動互聯網大數據時代面臨的新挑戰。其中,迫切需要解決如下幾個問題:
1.無線移動網絡結構復雜,需要在網絡中高效地采集數據。
2.多源數據集成和多類型數據集成的技術。
3.兼顧用戶的隱私和數據的所有權和使用權等。
(二)移動互聯網海量異構數據管理問題
據統計,2003年前人類共創造了5艾字節(Exabytes)的數據,而今天兩天的時間就可以創造如此大量的數據。這些數據大部分是異構數據,有些具有用戶標注、有些沒有;有些是結構化的(比如數值、符號)、有些是非結構化話的(比如圖片、聲音);有些時效性強、有些時效性弱;有些價值度高、有些價值度低。移動互聯網海量異構數據管理平臺包含以下關鍵研究和技術:海量異構大數據傳輸控制、大數據存儲、大數據質量管理。
(三)移動互聯網大數據實時數據挖掘問題
傳統意義上的數據分析(Analysis)主要針對結構化數據展開,且已經形成了一整套行之有效的分析體系。首先,利用數據庫來存儲結構化數據,在此基礎上構建數據倉庫,根據需要構建數據立方體進行聯機分析處理(OLAP,Online Analytical Processing),可以進行多個維度的下鉆(Drill-down)或上卷(Roll-up)操作。對于從數據中提煉更深層次的知識的需求促使了數據挖掘技術的產生,并發明了聚類、關聯分析等一系列在實踐中行之有效的方法。這一整套處理流程在處理相對較少的結構化數據時極為高效。但是,對于移動互聯網來說,涉及更多的是多模態數據挖掘,這些數據包括手機上的傳感器,包括加速度計、陀螺儀、指南針、GPS、麥克風、攝像頭、以及各種無線信號(如GSM、WiFi)和藍牙等。這些原始數據在不同維度上刻畫被感知的對象,需要經過不同層次的加工和提煉才能形成從數據到信息再到知識的飛躍。移動互聯網半結構化和非結構化數據量的迅猛增長,給傳統的分析技術帶來了巨大的沖擊和挑戰。
(一)數據處理的整體框架
數據處理的整個過程如圖1所示,主要包括四個模塊:分詞(WordsAnalyze)、排重(ContentDeduplicate)、整合(Integrate)和數據。

圖1 數據處理的整體框架
這四個模塊的主要功能如下。
分詞:對抓取到的網頁內容進行切詞處理。
排重:對眾多的網頁內容進行排重。
整合:對不同來源的數據內容進行格式上的整合。
數據:包含兩方面的數據,Spider Data(爬蟲從網頁中抽取出來的數據)和 Dp Data(在整個數據處理過程中產生的的數據)。
(二)數據處理的基本流程
整個數據處理過程的基本步驟如下:
1.對抓取來的網頁內容進行分詞。
2.將分詞處理的結果寫入數據庫。
3.對抓取來的網頁內容進行排重。
4.將排重處理后的數據寫入數據庫。
5.根據之前的處理結果,對數據進行整合。
6.將整合后的結果寫入數據庫。
(三)數據處理的關鍵技術
1.排重。
排重就是排除掉與主題相重復項的過程,網頁排重就是通過兩個網頁之間的相似度來排除重復項。Simhash算法是一種高效的海量文本排重算法,相比于余弦角、歐式距離、Jaccard相似系數等算法,Simhash避免了對文本兩兩進行相似度比較的復雜方式,從而大大提高了效率。
采用Simhash算法來進行抓取網頁內容的排重,可以容納更大的數據量,提供更快的數據處理速度,實現大數據的快速處理。
Simhash算法的基本思想描述如下:輸入為一個N維向量V,比如文本的特征向量,每個特征具有一定權重。輸出是一個C位的二進制簽名S。
(1)初始化一個C維向量Q為0,C位的二進制簽名S為0。
(2)對向量V中的每一個特征,使用傳統的Hash算法計算出一個C位的散列值H。對1〈=i〈=C,如果H的第i位為1,則Q的第i個元素加上該特征的權重;否則,Q的第i個元素減去該特征的權重。
(3)如果Q的第i個元素大于0,則S的第i位為1;否則為0。
(4)返回簽名S。
對每篇文檔根據SimHash算出簽名后,再計算兩個簽名的海明距離(兩個二進制異或后1的個數)即可。根據經驗值,對64位的SimHash,海明距離在3以內的可以認為相似度比較高。
2.整合。
整合就是把抓取來的網頁內容與各個公司之間建立對應關系。對于每一個公司來說,可以用一組關鍵詞來對該公司進行描述,同樣的,經過dp處理之后的網頁內容,也可以用一組關鍵詞來進行描述。因此,整合就變成了兩組關鍵詞(公司關鍵詞,內容關鍵詞)之間的匹配。
對于網頁內容的分詞結果來說,存在著兩個特點:(1)分詞結果的數量很大;(2)大多數的分詞對描述該網頁內容來說是沒有貢獻的。因此,對網頁的分詞結果進行一下簡化,使用詞頻最高的若干個詞匯來描述該網頁內容。
3.流處理系統。
移動互聯網的多源異構數據每時每刻都在大量產生著。數據探測模塊根據這些數據處理的不同要求,將數據分別送給實時處理系統和批處理系統。很多互聯網公司將根據業務的需求和處理的時間將劃分為在線、近線和離線三種方式來處理業務消耗的時間。這其中,在線處理的處理時間通常在毫秒級,一般采用流處理方式;離線處理的處理時間通常以天為單位,一般采用批處理方式。這樣會最大程度地利用好輸入/輸出系統。近線處理對其處理模式沒有特別的要求,處理的時間一般在分鐘級或小時級,在實際情況中多采用此處理方式,可根據需求靈活選擇。
綜上,隨著移動互聯網的迅猛發展,客戶處理的業務越來越復雜,與其相關的大數據正逐漸增長,大數據分析技術已經成為各方關注的焦點。合理使用大數據將有效的發揮移動互聯網大數據的資源作用,使大數據為用戶獲得前所未有的體驗,為企業發展提供完整清晰的指引。
參考文獻:
[1]張錚. 淺析網絡大數據的采集和處理方法[J]. 信息系統工程,2015(10).
[2]劉智慧,張泉靈. 大數據技術研究綜述[J]. 浙江大學學報(工學版),2014(06).
[3]王秀磊,劉鵬. 大數據關鍵技術[J]. 中興通訊技術,2013(04).