易正磊 顧軍 張興



中圖分類號:TN929.1 文獻標志碼:A 文章編號:1009-6868 (2015) 05-0060-005
摘要:指出不同業務之間的關系對于網絡優化具有很重要的意義。使用大數據的分析方法處理蜂窩網絡的實測數據,可以得到各種業務的并發關系,同時將并發關系通過業務關系網絡的方式展現出來,具有很好的可視性。通過業務關系網絡可以直接看出業務并發情況,為蜂窩網絡的優化擴容等方面提供理論指導。
關鍵詞: 大數據;蜂窩網絡;業務并發度;網絡優化
Abstract: The relationship between different services is important for network optimization. In this paper, we process the real data in cellular networks with a method used in big data to attain a concurrent relationship between the various services. Then the service concurrency is presented by the way of a relationship network with good visibility. Service concurrency can be seen directly through the relationship network, providing theoretical guidance for cellular network optimization and expansion.
Key words: big data; cellular networks; service concurrency; network optimization
1大數據的意義和影響
1.1大數據的價值和挑戰
大數據是由于規模、復雜性、實時而導致的使之無法在一定時間內用常規軟件工具對其進行獲取、存貯、搜索、分享、分析、可視化的數據集合。由于大數據的上述特點,如何將數據進行合理應用是目前大數據領域的核心目標[1]。
大數據對于整個社會來說蘊含著巨大的潛在價值,大數據的價值并不在于數據本身,而在于如何將數據的作用反饋于社會決策。維克托·邁爾-舍恩伯格在《大數據時代》中指出,人類從依靠自身判斷做決定到依靠數據做決定的轉變,是大數據做出的最大貢獻之一。因此,能否正確利用大數據的內在規律,是決策成功或者失敗的關鍵因素[2]。
一般來講,數據的生命周期包括數據采集、數據歸納、數據重構、數據挖掘、數據預測、數據可視化等6個方面,大數據亦是如此。但是由于大數據的體積龐大、結構復雜,常規的處理方法并不能挖掘出數據的內在價值,這也正是大數據時代人們面臨的最大挑戰。
1.2大數據對移動互聯網的影響
在移動互聯網的環境中,大數據的特點并不僅僅體現在數據量的巨大,更體現在數據的實時性與關聯性,這些特點讓數據搜集變得容易,對數據的分析可以反過來快速影響基礎網絡,這也正是移動互聯網的自身特點。在大數據與移動互聯網高度融合的背景下,最重要的目的就是發現和挖掘真正有價值的數據,使我們能夠根據這些信息精確地指導每一次的網絡規劃和優化,而這些有價值的信息往往來源于對用戶大量網絡行為數據的抽象和分析。
如圖1所示,大數據應用于移動互聯網的基本目的包括:負載優化、用戶劃分、趨勢預測等。
2蜂窩網絡中的大數據應用
2.1 蜂窩網絡的發展現狀
蜂窩網絡是一種最常見的移動通信網絡結構,通過把移動設備的服務區分為很多正六邊形的子區域,并在每個子區域設置一個基站,形成了形狀似“蜂窩”的結構,因而把這種移動通信網絡稱為蜂窩網絡。
作為支撐信息傳輸的關鍵基礎設施,蜂窩網絡的性能優劣對于整個通信系統的效率起著至關重要的作用。近年來,為了應對移動網絡流量爆炸性增長,歐洲、美洲、日韓等地區已經大規模建設長期演進(LTE)網絡,中國也迎來了LTE網絡建設高峰。在這一建設進程中,除了基于IP多媒體子系統(IMS)的Vo LTE作為最終的語言解決方案之外,Small Cell和無線局域網(WLAN)將成為提升網絡容量的重要手段,在超寬帶移動網絡部署[3-4]中發揮越來越重要的作用。此外,行業應用正從窄帶向寬帶演進,除了語音通信外,數據、視頻傳輸需求逐步增加。LTE的100 Mbit/s高速數據傳送能力,可以更好地服務于政務網、公共安全和應急救災等行業。因此,利用新一代無線技術來實現行業應用,已成為一個發展趨勢[5]。
隨著分布式計算和云平臺的逐步實現,作為云服務的關鍵應用之一,大數據應用具備了大規模發展的條件[6]。運營商的大數據業務正從分散孤立系統向統一的標準化平臺方向發展、從數據的采集、存儲向檢索和挖掘的方向發展。在網絡大數據的收集與預處理方面,分布式存儲方案、內存數據庫技術將成為主流技術;Hadoop和一體機成為主流的數據分析平臺。
根據以往的研究,蜂窩網絡的承載情況隨著通信協議的發展也發生著巨大變化。根據某一地區的真實歷史數據分析可以得知,全市所有基站的平均吞吐量在2G、3G和4G網絡的時代是有著很大區別的,具體數值如圖2所示。
根據圖2可以看出,發展速度最快并且承載壓力最大的信道是下行數據信道,而目前國內的4G網絡還處于發展初期,吞吐量的增長了已達到將近100%。由此可知,數據業務的有效傳輸是蜂窩網絡的核心難題。
此外,隨著移動互聯網、物聯網的發展以及4G技術的逐漸普及,無線通信網絡的各種功能需求也日益擴大,用戶的網絡行為也隨之發生改變,所產生的數據體積也達到了新的數量級。因此,如何利用有限的蜂窩網絡資源,應對大數據時代的挑戰,是當今通信領域的一個重要課題。
2.2 有效的網絡優化
當今的蜂窩網絡的發展速度明顯慢于基站吞吐量的增長,而用戶日益豐富的行為對蜂窩網絡的承載能力提出了更高的要求。可見,優化網絡,提升網絡負載能力已經成為一個亟待解決的問題。
我們已經提到,大數據時代的到來使得人們的思維方式發生了巨大的變革,數據驅動了決策制定,因此對蜂窩網絡的優化策略正是通過對蜂窩網絡中產生的數據分析處理來制訂。同時,蜂窩網絡系統本身就是一個巨大的數據倉庫,我們可以從中采集到豐富的數據,通過對這些數據的分析,可以識別用戶的地理位置,洞察客戶接觸不同信息的渠道,了解用戶的各種網絡行為。常用的分析方法包括:預測業務流量、探尋不同業務之間的關聯、探尋不同業務模型下的資源瓶頸等等。
接下來以業務并發度探尋實例來闡述在蜂窩網絡系統中如何應用大數據來解決問題。在該實例中,我們分析各種常見業務在不同場景不同時間的并發度,最終得出不同區域的業務并發以及對網絡資源的消耗情況,并據此提出網絡優化策略。
3 大數據時代的業務并發度
分析
3.1 應用場景
隨著通信技術的飛速發展和移動終端的功能逐漸豐富,蜂窩網絡中的數據業務流量迅猛增長,移動互聯網下終端用戶需求更加多樣化和復雜化,這也促使移動互聯網由傳統的單業務向著多業務平臺發展。多業務的出現使得網絡數據更趨向于復雜多樣與結構各異,這給用戶的行為分析帶來了很大的困難和挑戰。與此同時,由于業務種類的繁多,分析某一種業務對于整體蜂窩網絡影響甚至微乎其微,因此為了提高網絡的承載能力,需要科學準確地分析各數據業務之間的并發性。
由圖3可見,由于目前蜂窩網絡用戶數和終端數快速增長,以及業務場景多種多樣,數據種類也趨于全面,包括用戶使用各業務的時間信息、位置信息、鏈接次數、業務量大小等,因此,用戶——業務網絡資源之間的映射十分復雜,海量的數據具有極低的價值密度,如果僅僅對某一部分數據進行分析,不能反映整體網絡情況,所具有的價值意義也就很小。
此外,無線側采集到的數據格式并不統一,應用傳統數據庫無法建立統一的數據表結構。根據數據的以上特點,我們采用Hadoop平臺進行數據的預處理與所有算法的執行,實現了高效處理非結構化數據。
3.2 核心技術
為了分析不同場景下的海量數據,首先平臺應該具有較高的數據處理能力。以無線側的呼叫細節記錄(CDR)數據為例,某地區全市全天CDR數據條數達到千億數量級,數據體積約為70 GB,連續一個月的數據量將達到2 TB,如果空間維度擴展到全國,時間維度擴展到幾年,這樣的數據量是傳統數據庫和單機環境的處理能力遠遠不能達到的,而以Hadoop為代表的大數據處理平臺則可以輕松應對[7-8]。
其次,平臺能夠處理并管理非結構化數據。非結構化數據相對于結構化數據而言,不方便用數據庫二維邏輯表來表現的數據即稱為非結構化數據,包括所有格式的辦公文檔、文本、圖片、標準通用標記語言下的子集XML、HTML、各類報表、圖像和音頻、視頻信息等等。這些數據需要特殊的篩選方法進行預處理和歸一化,之后才可以應用到各類數據挖掘算法中去。
再次,算法需要分析復雜場景并對場景進行區分。如果將全市或者全國所有的數據不加以區分而進行統一處理,那么所有的特殊區域都將被平均化,然而某些區域的特殊情況的內在原因正是數據分析者們更感興趣的地方,因此將數據進行合理的場景劃分,是數據預處理的中重要一步。
最后,平臺必須能夠分布式結構并行處理,提高海量數據的處理速度。由于大數據更新速度快的特點,能否快速實時的對海量數據進行處理是整個數據分析的基礎。
3.3 處理流程
為了探究未來一段時間某地區的業務并發關系,我們需要對該地區采集到的海量數據做預處理。原始數據包括了許多字段,如基站信息(經緯度)、網絡類型、上下行流量、數據包數、業務持續時長等。我們主要研究各業務之間的聯系,因此只需提取出與業務量有關的字段。首先,從所有數據中出剔除了許多不常用的或是數據不全的業務,最終得到了60種有效業務,這些業務對象包括了除語音、短信外所有數據類業務,如即時消息、社交、流媒體、郵件等;然后再從這60種需要分析的業務中選取可能會使用到的各業務的上下行流量、用戶數、數據包個數等;最終我們選取了各業務流量來探究業務并發關系。我們將相關的數據整理為表1格式。
現在各種網絡業務越來越多,但是各種業務之間并不是孤立存在的,用戶使用習慣、業務本身屬性等都會使得各業務是息息相關的。為了衡量業務之間關系的大小,我們定義了各業務之間的距離。
對于采集到的N種業務,要得到第i(i=1,2,3……N)種業務與第j(i=1,2,3……N,j≠i)種業務之間的距離,首先需要計算出第i種業務與第j種業務的皮爾遜相關系數,計算公式為:
[ρij=Cov(xi,x(j))Var(x(i)) Var(x(j))] (1)
其中[xi, x(j)]分別為第i,j兩種業務流量的時間序列。在得到業務相關系數的基礎上,我們就可以計算第i種業務與第j種業務之間的距離[dij][9],計算公式為:
[dij=21-ρij] (2)
為了直觀地看出各業務之間的并發關系,我們使用kruskal算法構建最小生成樹網絡[10-11],對于由N種業務之間的[C2N]個距離構建的集合U,首先找出U中的最小值,即距離最小的兩種業務,在這兩種業務之間添加一條無向邊,連接這兩種業務,接著在剩下的[C2N]-1條邊中繼續尋找最小值連接業務,同時保證業務之間不連成環,直至遍歷所有距離值。其流程如圖4所示。
3.4 結果展示
圖5所示為某使用地區,從2014年1月5日開始連續15天全網60種業務構建的最小生成樹業務網絡。
在該業務網絡中,各節點代表了不同業務,如快播、優酷、微信、淘寶、新浪微博等。節點大小是由該業務在網絡中介數的大小決定的,節點越大代表了該業務介數越大。而對于這樣一個由業務構成的網絡來說,業務介數越大,其他的業務就越容易通過它關聯在一起,例如在圖5中,淘寶與優酷這兩種業務并未直接連接在一起,這說明它們之間的相關性不是最大的,但是它們還是可以通過一定的路徑連接起來,從圖中具體來看就是:淘寶——IMESSAGE——快播——優酷,而且從我們構建該網絡的方法來看,這樣連接起來的路徑一定是相關系數權重最大的。對于其他業務也可以此類推,可以看出任意兩種業務相關的路徑通過IMESSAGE的次數是最多的。
該網絡中的邊選取了不同顏色來標注,不同顏色代表不同的業務距離范圍。在闡述該網絡的構建方法時我們就已經說明,邊連接的節點是兩種距離最小的業務,因此從結合點與邊即可看出各業務之間的關系:距離越小就說明兩種業務越容易并發。從圖5中可以發現任意一種業務與其他業務的并發情況。
對于不同地區或不同時間段的業務數據,我們都可以構建出最小生成樹業務網絡,從該網絡中找到各業務之間的關聯關系,通過業務關聯關系可以預測出任意一種業務在未來一段時間與其他業務的并發情況。例如采用某地區一定時間內的數據可以得到圖5所示的業務網絡,從中可以預測出,在出現優酷這種業務時,很可能會同時出現快播、LETV(樂視)、56VIDEO、PPLIVE這4類相關的業務。
該業務關系網絡圖是根據歷史數據得出。為了預測未來一段時間的業務并發關系,需根據預測需要,不斷使用新數據來更新業務關系網絡圖,從而保證預測的準確性。
得到不同業務之間的并發關系后,我們就可以結合不同業務對網絡資源的消耗情況對網絡的調控與優化提供一定的理論指導。例如,如果某地區的業務呈現出圖5所示并發情況,則可以知道IMESSAGE業務會與多種業務并發,那么在做網絡調控時,需要優先滿足該業務消耗的信道資源。同時對于容易并發的業務,在做優化時可以當做同一類業務來處理,因為它們會同時消耗不同的網絡資源。
4 結束語
提出了一種大數據背景下基于業務并發度來分析用戶網絡行為的方法,該方法分析所得到的結果可以對網絡規劃和優化進行理論指導。我們需要進一步分析不同種類的業務對于蜂窩網絡資源消耗的映射關系,從而精確預測整體網絡的負載情況,并據此提出更準確、更全面的網絡優化指導。