999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于復雜網(wǎng)絡的電信大數(shù)據(jù)處理研究

2014-08-18 12:16:59張瑞
現(xiàn)代情報 2014年6期

張瑞

〔摘要〕文章針對目前電信運營商在大數(shù)據(jù)處理中的實際需求,全面分析研究了關于復雜網(wǎng)絡在大數(shù)據(jù)處理中的關鍵技術和具體應用,深入討論了復雜網(wǎng)絡在靜態(tài)數(shù)據(jù)、動態(tài)數(shù)據(jù)和社團挖掘等方面的實用,為目前電信大數(shù)據(jù)的處理提供了一種比較實用的方法。

〔關鍵詞〕復雜網(wǎng)絡;電信大數(shù)據(jù);靜態(tài)數(shù)據(jù);動態(tài)數(shù)據(jù);社團劃分

〔中圖分類號〕G434〔文獻標識碼〕A〔文章編號〕1008-0821(2014)06-0066-04

大數(shù)據(jù)是繼云計算、物聯(lián)網(wǎng)之后信息通信技術產業(yè)界又一次顛覆性的技術變革。對于整個產業(yè)而言,大數(shù)據(jù)市場是塊等待挖掘的“金礦”,因此,如何充分利用大數(shù)據(jù),并使其進一步發(fā)展壯大,也成為整個業(yè)界共同探究的熱點話題。在大數(shù)據(jù)領域探索中,相較于其他企業(yè),電信運營商由于在數(shù)據(jù)資源、基礎資源、平臺資源上擁有先天優(yōu)勢,因此對于大數(shù)據(jù)的探索需求更為深入。但目前電信業(yè)在經(jīng)歷近十年來的變革后,各種商業(yè)模式被打破。盡管電信運營商一直積極地推進4G網(wǎng)絡建設,但網(wǎng)絡的持續(xù)擴容與升級并未給電信運營商帶來十分可觀的收入,并且,更為嚴峻的是,在大數(shù)據(jù)時代,電信運營商還面臨著來自數(shù)據(jù)、管理方面的巨大挑戰(zhàn)。海量的半結構化和非結構化的數(shù)據(jù)大大降低了數(shù)據(jù)處理的效率,給運營商帶來了巨大的數(shù)據(jù)存儲和讀寫壓力。如若不能縮短數(shù)據(jù)處理的周期,很多數(shù)據(jù)的價值都會被極大地稀釋。此外,龐大的數(shù)據(jù)規(guī)模和復雜的數(shù)據(jù)種類也給運營商帶來了管理層面的難題。

1電信運營商大數(shù)據(jù)應用及系統(tǒng)框架

電信運營商關于大數(shù)據(jù)的應用主要包括以下4種類型。首先,是基本的語音數(shù)據(jù)分析,運營商可以利用自動語音識別數(shù)據(jù)對自身的產品進行服務,并通過用戶偏好分析,及時、準確進行業(yè)務推薦,強化客戶關懷,這樣就可以不斷改善用戶體驗,增加用戶的信息消費;其次,網(wǎng)絡流量分析,主要指通過大數(shù)據(jù)分析網(wǎng)絡的流量、流向變化趨勢,及時調整資源配置,還可以分析網(wǎng)絡日志,進行全網(wǎng)絡優(yōu)化,不斷提升網(wǎng)絡質量和網(wǎng)絡利用率;第三,在企業(yè)經(jīng)營層面,可以通過業(yè)務、資源、財務等各類數(shù)據(jù)的綜合分析,快速準確地確定公司經(jīng)營管理和市場競爭策略;第四,在業(yè)務創(chuàng)新層面,可以在確保用戶隱私不被侵犯的前提下,對數(shù)據(jù)進行深度加工,對外提供信息服務,為企業(yè)創(chuàng)造新的價值。這樣,大數(shù)據(jù)將幫助運營商實現(xiàn)從網(wǎng)絡服務提供商,向信息服務提供商的轉變。

結合電信運營商的業(yè)務情況以及目前大數(shù)據(jù)的挑戰(zhàn),業(yè)界提出了針對電信運營商大數(shù)據(jù)管理總體系統(tǒng)框架模型,其核心主要包括4層,即物理層、數(shù)據(jù)層、模型層和應用層。其中數(shù)據(jù)層是整個運營商大數(shù)據(jù)管理的核心部分,為上層應用提供數(shù)據(jù)支持(如圖1所示)。

2電信大數(shù)據(jù)解決方案與需求分析

目前,中國移動采用Apache Hadoop軟件的英特爾分發(fā)版來消除數(shù)據(jù)訪問瓶頸和發(fā)現(xiàn)用戶使用習慣,開展更有針對性的營銷利用,同時利用Hadoop分布式數(shù)據(jù)庫(Hadoop HBase)擴展存儲。中國聯(lián)通也是利用Hadoop來實現(xiàn)對大數(shù)據(jù)的存儲和分析,構建了基于Hadoop的結構化訪問數(shù)據(jù)庫,還采用數(shù)據(jù)倉庫技術,針對海量數(shù)據(jù)進行高性能查詢和分析工作。但海量數(shù)據(jù)的出現(xiàn)、數(shù)據(jù)結構的改變,也給運營商的大數(shù)據(jù)管理及分析帶來了挑戰(zhàn)。主要表現(xiàn)在:一是由于多種業(yè)務的發(fā)展、市場需求的變化和網(wǎng)絡規(guī)模的擴大使得運營商大數(shù)據(jù)迅速的增加,這增加了運營商大數(shù)據(jù)存儲和處理的難度,使得現(xiàn)有數(shù)據(jù)倉庫無法線性擴容,這表明傳統(tǒng)的數(shù)據(jù)倉庫無法有效存儲日益增長的業(yè)務數(shù)據(jù);二是由于新型大數(shù)據(jù)服務不同于傳統(tǒng)通信業(yè)務分析特點,需要對內容等非結構化、大容量信息進行多用戶、多應用、實時有效的分析,傳統(tǒng)的架構和數(shù)據(jù)倉庫處理已不能滿足新的信息服務需求。因此,運營商需要建立新型大數(shù)據(jù)中心,來存儲、分析和處理海量數(shù)據(jù)。電信運營商采用的傳統(tǒng)數(shù)據(jù)挖掘方法主要包括描述和預測兩個方向,具體方法包括關聯(lián)分析、分類和聚類等,這些方法較多應用于關系數(shù)據(jù)庫系統(tǒng),而目前電信運營商所面對的數(shù)據(jù)越來越多樣化,復雜化程度不斷增加,非結構化數(shù)據(jù)占據(jù)的比重不斷攀升,傳統(tǒng)的數(shù)據(jù)挖掘辦法已經(jīng)不能跟上電信業(yè)大數(shù)據(jù)處理的實際需求。自從1998年Watts和Strogatz在Nature雜志上發(fā)表文章,引入了小世界網(wǎng)絡模型之后,國內外學界注意到了復雜網(wǎng)絡研究的趨勢,開始展開深入的研究。復雜網(wǎng)絡研究的內容主要包括:網(wǎng)絡的幾何性質,網(wǎng)絡的形成機制,網(wǎng)絡演化的統(tǒng)計規(guī)律,網(wǎng)絡上的模型性質,以及網(wǎng)絡的結構穩(wěn)定性,網(wǎng)絡的演化動力學機制等問題。上述復雜網(wǎng)絡的研究內容恰恰與電信運營商目前所擁有的大數(shù)據(jù)內容和處理需求緊密地結合在一起,為電信運營商的大數(shù)據(jù)處理開辟了一條嶄新的方向。

3基于復雜網(wǎng)絡大數(shù)據(jù)處理

針對電信運營商大數(shù)據(jù)處理的第一步是數(shù)據(jù)預處理及準備,以發(fā)生最多、數(shù)據(jù)量最大的客戶通話行為為例,它和用戶通話行為直接相關,其中涵蓋的具體內容如表1所示,如通話時長,基站信息等等,如果再加入個人年齡、性別等信息,則構成多維數(shù)據(jù),為大數(shù)據(jù)分體提供更多基礎數(shù)據(jù)。接下來,針對基于復雜網(wǎng)絡的電信大數(shù)據(jù)分析研究可以從以下3個方面展開,分別是靜態(tài)研究、動態(tài)研究和社團挖掘研究。

3.1靜態(tài)數(shù)據(jù)研究

電信的運營數(shù)據(jù)的結構隨著時間在不斷地發(fā)生變化,而且是比較典型的多維數(shù)據(jù),復雜網(wǎng)絡的最初研究對象是某個網(wǎng)絡在某個特定時間段的內容,譬如,某個市、區(qū)在某幾個月的通話數(shù)據(jù),由此可以形成一個典型的網(wǎng)絡。在這里,以IEEE VAST 2008的數(shù)據(jù)集作為研究對象,它包括了一組涉及400人左右的10天通話數(shù)據(jù),通話記錄數(shù)為9 834條。

利用復雜網(wǎng)絡方法對遠程教育網(wǎng)絡的研究起始于基本的3項內容,它們分別是度與度分布、平均路徑長度和聚類系數(shù)。

度的意義是指與該頁面節(jié)點連接的其他頁面節(jié)點的數(shù)目。在對電信通話數(shù)據(jù)的實際研究中主要是指一個用戶存在的與其他用戶通話的信息數(shù)目。一個用戶節(jié)點的呼出與呼入數(shù)量又分為出度和入度。所有用戶節(jié)點度的平均值稱為網(wǎng)絡的平均度。數(shù)據(jù)顯示該通話記錄的節(jié)點平均度為3-9,從復雜網(wǎng)絡研究角度出發(fā),一個用戶節(jié)點無論從出度或入度的大小都直接與該用戶的重要程度相關。由圖2和圖3可以看出,個別用戶節(jié)點擁有較大的出度與入度,他們在整個網(wǎng)絡中扮演了核心節(jié)點的角色,通過這幾個節(jié)點將其他用戶緊密地聯(lián)系在一起。endprint

平均路徑是基于復雜網(wǎng)絡電信大數(shù)據(jù)的另一個十分重要的指標,它主要是指網(wǎng)絡中兩個節(jié)點之間最短路徑的邊數(shù)。任意兩個節(jié)點的最大值稱為網(wǎng)絡的直徑,上述網(wǎng)絡的直徑為8。平均路徑長度是衡量網(wǎng)絡轉發(fā)能力的一個重要參數(shù),具有較短路徑長度可以降低傳輸?shù)难舆t,對于網(wǎng)站的查找具有決定性的作用,上述網(wǎng)絡的平均路徑長度為4-2,一般電信每個月的網(wǎng)絡直徑為20左右,整個網(wǎng)絡的直徑在15左右,這就充分說明該網(wǎng)絡具有緊湊的結構,保證用戶可以花費最短的時間聯(lián)系到自己需要人,這對于電信運營商集團網(wǎng)絡的建設及營銷策略的細化非常重要。

聚類系數(shù)用于描述網(wǎng)絡連接的聚集程度,即網(wǎng)絡有多緊密,也就是說如果一個網(wǎng)絡結點有數(shù)個直接的鄰居結點,那么這些鄰居結點之間有可能也是鄰居。Watts和Strogatz首先指出,許多實際網(wǎng)絡的聚集系數(shù)遠大于相同結點規(guī)模的隨機網(wǎng)絡。

3.2動態(tài)數(shù)據(jù)研究

電信運營商大數(shù)據(jù)的分析具有其自身的特點,它的用戶動態(tài)性較強,呈現(xiàn)出“生命周期”的特征,時間演化性是電信通話數(shù)據(jù)的復雜網(wǎng)絡化固有屬性,任何網(wǎng)絡都會隨時間呈現(xiàn)出一定的演化規(guī)律,但數(shù)據(jù)分析不能以秒、分、時以單位展開,這樣單位內的數(shù)據(jù)量太有限,要想嘗試抓住用戶的核心商業(yè)價值,制定相應的營銷策略,就需要以月或者季為單位進行通話數(shù)據(jù)分析。

筆者將上述的數(shù)據(jù)導入復雜網(wǎng)絡分析軟件中,最終結果如圖4所示,其中包括通話日期、持續(xù)時間和基站信息,經(jīng)過運算可以產生對電信數(shù)據(jù)商進行用戶分析的諸多結果。首先,在圖中可以發(fā)現(xiàn)明顯的聚集效應,他們的通話概率是其他用戶的2~3倍,這些用戶具有更高的活躍度,這些用戶在網(wǎng)朋友數(shù)目越多,其離網(wǎng)概率越小,由此可以幫助電信運營商建立流失模型,制定相應策略進而防止客戶流失。其次,可以發(fā)掘出部分的個人特征及通話偏好,譬如,有些用戶的通話量極少,有些用戶的通話大部分發(fā)生在夜間,建立這樣的用戶模型將有利于發(fā)現(xiàn)用戶的消費行為,利于各種用戶套餐的制定,方便降低運營成本。最后,通過基站數(shù)據(jù)的分析,可以發(fā)現(xiàn)該用戶的活躍地區(qū)和基站的負載程度,幫助電信運營商進行基站建設的規(guī)劃。

3.3社團挖掘研究

復雜網(wǎng)絡社團是指網(wǎng)絡中的頂點可以分成組,組內頂點間的連接比較稠密,組間頂點的連接比較稀疏。社團結構在電信運營商數(shù)據(jù)分析中扮演著十分重要的角色,它是了解整個網(wǎng)絡結構和功能的重要途徑。針對電信運營商的大數(shù)據(jù)處理而言,雖然它們的社團大小和數(shù)目是未知的,用戶之間的相互聯(lián)系是隨時間改變的,但這種網(wǎng)絡結構呈現(xiàn)出比較鮮明的層次結構,可以觀察出高密度或者低密度的社團結構。通過圖4,可以觀察到除了大部分的聚集用戶節(jié)點之外,還存在著其他類型的用戶節(jié)點,比如離群點和中心點。這些中心節(jié)點將對謠言或者手機病毒的傳播起到重要的作用,同時還會對新客戶的發(fā)掘起到推進作用。而離群節(jié)點則是比較典型的噪音數(shù)據(jù),對這些數(shù)據(jù)的摒棄將有助于提高正常數(shù)據(jù)的處理速度。網(wǎng)絡社團結構的研究主要與計算機科學中的圖形分割和社會學中的分級聚類有著密切的關系。

目前,基于復雜網(wǎng)絡的許多社團網(wǎng)絡劃分算法都是在K-means基礎上提出和演化的,該算法在電信大數(shù)據(jù)處理中得到廣泛的應用。K-means經(jīng)典算法的基本思想是:以空間中k個點為中心進行聚類,對最靠近他們的對象歸類。通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結果。假設要把樣本集分為c個類別,算法描述如下:(1)適當選擇c個類的初始中心;(2)在第k次迭代中,對任意一個樣本,求其到c個中心的距離,將該樣本歸到距離最短的中心所在的類;(3)利用均值等方法更新該類的中心值;(4)對于所有的c個聚類中心,如果利用(2)(3)的迭代法更新后,值保持不變,則迭代結束,否則繼續(xù)迭代。該算法的最大優(yōu)勢在于簡潔和快速。該算法的關鍵在于初始中心的選擇和距離公式。在電信大數(shù)據(jù)背景下,K-means算法在分類效果、實際運行時間方面體現(xiàn)出較強的實用性。通過上述數(shù)據(jù)的K-means算法社團劃分實驗分析,可以得到3個結構清晰的社團,他們分別包含59、29和6個用戶節(jié)點。

4結束語

針對電信運營商數(shù)據(jù)處理的傳統(tǒng)方法雖然能夠在一定程度上進行分析處理,但面對規(guī)模日益龐大的數(shù)據(jù)量,這些方法往往在實際過程中顯得力不從心,不能滿足實際需求。但伴隨著Google提出的MapReduee框架及其開源Hadoop等優(yōu)秀的分布式架構涌現(xiàn)及應用,電信運營商能夠引入復雜網(wǎng)絡的系統(tǒng)科學方法進行大數(shù)據(jù)的處理分析。復雜網(wǎng)絡對電信大數(shù)據(jù)目前大量出現(xiàn)的非結構化數(shù)據(jù)具有極強的適應性,其重要意義在于它對數(shù)據(jù)的宏觀及微觀兩個方面的研究,宏觀研究包括網(wǎng)絡結構圖的繪制、網(wǎng)絡的演化和網(wǎng)絡魯棒性研究等,微觀研究主要是個體的研究,比如重要節(jié)點的發(fā)現(xiàn)、個體演化、社團劃分及事件發(fā)現(xiàn)等。而且,上述兩方面的研究工作是相輔相成的,其目標是對現(xiàn)實的復雜網(wǎng)絡進行有效的分析。總體來看,各個電信運營商利用大數(shù)據(jù)來推動業(yè)務轉型將是未來電信市場的一個重要方向。電信運營商如果能夠通過復雜網(wǎng)絡等新技術的進步,不斷釋放其管道中龐大數(shù)據(jù)的潛在力量,將會成廣大用戶提供更好的服務體驗。

參考文獻

[1]郭曉科.大數(shù)據(jù)[M].北京:清華大學出版社,2012:20-130.

[2]王星.大數(shù)據(jù)分析:方法與應用[M].北京:清華大學出版社,2013:30-208.

[3]楊勝琦.基于復雜網(wǎng)絡的大規(guī)模電信數(shù)據(jù)分析研究[D].北京:北京郵電大學,2010:12-120.

[4]李秋靜,葉云.電信大數(shù)據(jù)解決方案及實踐[J].中興通訊技術,2013,(6):34-38.

[5]汪小帆,李翔,陳關榮.復雜網(wǎng)絡理論及其應用[M].北京:清華大學出版社,2007:162-198.

[6]包稢.大數(shù)據(jù),大變化,大未來——大數(shù)據(jù)支撐驅動電信運營商轉型發(fā)展[J].通信世界,2013,(6):81-84.

(本文責任編輯:馬卓)endprint

平均路徑是基于復雜網(wǎng)絡電信大數(shù)據(jù)的另一個十分重要的指標,它主要是指網(wǎng)絡中兩個節(jié)點之間最短路徑的邊數(shù)。任意兩個節(jié)點的最大值稱為網(wǎng)絡的直徑,上述網(wǎng)絡的直徑為8。平均路徑長度是衡量網(wǎng)絡轉發(fā)能力的一個重要參數(shù),具有較短路徑長度可以降低傳輸?shù)难舆t,對于網(wǎng)站的查找具有決定性的作用,上述網(wǎng)絡的平均路徑長度為4-2,一般電信每個月的網(wǎng)絡直徑為20左右,整個網(wǎng)絡的直徑在15左右,這就充分說明該網(wǎng)絡具有緊湊的結構,保證用戶可以花費最短的時間聯(lián)系到自己需要人,這對于電信運營商集團網(wǎng)絡的建設及營銷策略的細化非常重要。

聚類系數(shù)用于描述網(wǎng)絡連接的聚集程度,即網(wǎng)絡有多緊密,也就是說如果一個網(wǎng)絡結點有數(shù)個直接的鄰居結點,那么這些鄰居結點之間有可能也是鄰居。Watts和Strogatz首先指出,許多實際網(wǎng)絡的聚集系數(shù)遠大于相同結點規(guī)模的隨機網(wǎng)絡。

3.2動態(tài)數(shù)據(jù)研究

電信運營商大數(shù)據(jù)的分析具有其自身的特點,它的用戶動態(tài)性較強,呈現(xiàn)出“生命周期”的特征,時間演化性是電信通話數(shù)據(jù)的復雜網(wǎng)絡化固有屬性,任何網(wǎng)絡都會隨時間呈現(xiàn)出一定的演化規(guī)律,但數(shù)據(jù)分析不能以秒、分、時以單位展開,這樣單位內的數(shù)據(jù)量太有限,要想嘗試抓住用戶的核心商業(yè)價值,制定相應的營銷策略,就需要以月或者季為單位進行通話數(shù)據(jù)分析。

筆者將上述的數(shù)據(jù)導入復雜網(wǎng)絡分析軟件中,最終結果如圖4所示,其中包括通話日期、持續(xù)時間和基站信息,經(jīng)過運算可以產生對電信數(shù)據(jù)商進行用戶分析的諸多結果。首先,在圖中可以發(fā)現(xiàn)明顯的聚集效應,他們的通話概率是其他用戶的2~3倍,這些用戶具有更高的活躍度,這些用戶在網(wǎng)朋友數(shù)目越多,其離網(wǎng)概率越小,由此可以幫助電信運營商建立流失模型,制定相應策略進而防止客戶流失。其次,可以發(fā)掘出部分的個人特征及通話偏好,譬如,有些用戶的通話量極少,有些用戶的通話大部分發(fā)生在夜間,建立這樣的用戶模型將有利于發(fā)現(xiàn)用戶的消費行為,利于各種用戶套餐的制定,方便降低運營成本。最后,通過基站數(shù)據(jù)的分析,可以發(fā)現(xiàn)該用戶的活躍地區(qū)和基站的負載程度,幫助電信運營商進行基站建設的規(guī)劃。

3.3社團挖掘研究

復雜網(wǎng)絡社團是指網(wǎng)絡中的頂點可以分成組,組內頂點間的連接比較稠密,組間頂點的連接比較稀疏。社團結構在電信運營商數(shù)據(jù)分析中扮演著十分重要的角色,它是了解整個網(wǎng)絡結構和功能的重要途徑。針對電信運營商的大數(shù)據(jù)處理而言,雖然它們的社團大小和數(shù)目是未知的,用戶之間的相互聯(lián)系是隨時間改變的,但這種網(wǎng)絡結構呈現(xiàn)出比較鮮明的層次結構,可以觀察出高密度或者低密度的社團結構。通過圖4,可以觀察到除了大部分的聚集用戶節(jié)點之外,還存在著其他類型的用戶節(jié)點,比如離群點和中心點。這些中心節(jié)點將對謠言或者手機病毒的傳播起到重要的作用,同時還會對新客戶的發(fā)掘起到推進作用。而離群節(jié)點則是比較典型的噪音數(shù)據(jù),對這些數(shù)據(jù)的摒棄將有助于提高正常數(shù)據(jù)的處理速度。網(wǎng)絡社團結構的研究主要與計算機科學中的圖形分割和社會學中的分級聚類有著密切的關系。

目前,基于復雜網(wǎng)絡的許多社團網(wǎng)絡劃分算法都是在K-means基礎上提出和演化的,該算法在電信大數(shù)據(jù)處理中得到廣泛的應用。K-means經(jīng)典算法的基本思想是:以空間中k個點為中心進行聚類,對最靠近他們的對象歸類。通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結果。假設要把樣本集分為c個類別,算法描述如下:(1)適當選擇c個類的初始中心;(2)在第k次迭代中,對任意一個樣本,求其到c個中心的距離,將該樣本歸到距離最短的中心所在的類;(3)利用均值等方法更新該類的中心值;(4)對于所有的c個聚類中心,如果利用(2)(3)的迭代法更新后,值保持不變,則迭代結束,否則繼續(xù)迭代。該算法的最大優(yōu)勢在于簡潔和快速。該算法的關鍵在于初始中心的選擇和距離公式。在電信大數(shù)據(jù)背景下,K-means算法在分類效果、實際運行時間方面體現(xiàn)出較強的實用性。通過上述數(shù)據(jù)的K-means算法社團劃分實驗分析,可以得到3個結構清晰的社團,他們分別包含59、29和6個用戶節(jié)點。

4結束語

針對電信運營商數(shù)據(jù)處理的傳統(tǒng)方法雖然能夠在一定程度上進行分析處理,但面對規(guī)模日益龐大的數(shù)據(jù)量,這些方法往往在實際過程中顯得力不從心,不能滿足實際需求。但伴隨著Google提出的MapReduee框架及其開源Hadoop等優(yōu)秀的分布式架構涌現(xiàn)及應用,電信運營商能夠引入復雜網(wǎng)絡的系統(tǒng)科學方法進行大數(shù)據(jù)的處理分析。復雜網(wǎng)絡對電信大數(shù)據(jù)目前大量出現(xiàn)的非結構化數(shù)據(jù)具有極強的適應性,其重要意義在于它對數(shù)據(jù)的宏觀及微觀兩個方面的研究,宏觀研究包括網(wǎng)絡結構圖的繪制、網(wǎng)絡的演化和網(wǎng)絡魯棒性研究等,微觀研究主要是個體的研究,比如重要節(jié)點的發(fā)現(xiàn)、個體演化、社團劃分及事件發(fā)現(xiàn)等。而且,上述兩方面的研究工作是相輔相成的,其目標是對現(xiàn)實的復雜網(wǎng)絡進行有效的分析。總體來看,各個電信運營商利用大數(shù)據(jù)來推動業(yè)務轉型將是未來電信市場的一個重要方向。電信運營商如果能夠通過復雜網(wǎng)絡等新技術的進步,不斷釋放其管道中龐大數(shù)據(jù)的潛在力量,將會成廣大用戶提供更好的服務體驗。

參考文獻

[1]郭曉科.大數(shù)據(jù)[M].北京:清華大學出版社,2012:20-130.

[2]王星.大數(shù)據(jù)分析:方法與應用[M].北京:清華大學出版社,2013:30-208.

[3]楊勝琦.基于復雜網(wǎng)絡的大規(guī)模電信數(shù)據(jù)分析研究[D].北京:北京郵電大學,2010:12-120.

[4]李秋靜,葉云.電信大數(shù)據(jù)解決方案及實踐[J].中興通訊技術,2013,(6):34-38.

[5]汪小帆,李翔,陳關榮.復雜網(wǎng)絡理論及其應用[M].北京:清華大學出版社,2007:162-198.

[6]包稢.大數(shù)據(jù),大變化,大未來——大數(shù)據(jù)支撐驅動電信運營商轉型發(fā)展[J].通信世界,2013,(6):81-84.

(本文責任編輯:馬卓)endprint

平均路徑是基于復雜網(wǎng)絡電信大數(shù)據(jù)的另一個十分重要的指標,它主要是指網(wǎng)絡中兩個節(jié)點之間最短路徑的邊數(shù)。任意兩個節(jié)點的最大值稱為網(wǎng)絡的直徑,上述網(wǎng)絡的直徑為8。平均路徑長度是衡量網(wǎng)絡轉發(fā)能力的一個重要參數(shù),具有較短路徑長度可以降低傳輸?shù)难舆t,對于網(wǎng)站的查找具有決定性的作用,上述網(wǎng)絡的平均路徑長度為4-2,一般電信每個月的網(wǎng)絡直徑為20左右,整個網(wǎng)絡的直徑在15左右,這就充分說明該網(wǎng)絡具有緊湊的結構,保證用戶可以花費最短的時間聯(lián)系到自己需要人,這對于電信運營商集團網(wǎng)絡的建設及營銷策略的細化非常重要。

聚類系數(shù)用于描述網(wǎng)絡連接的聚集程度,即網(wǎng)絡有多緊密,也就是說如果一個網(wǎng)絡結點有數(shù)個直接的鄰居結點,那么這些鄰居結點之間有可能也是鄰居。Watts和Strogatz首先指出,許多實際網(wǎng)絡的聚集系數(shù)遠大于相同結點規(guī)模的隨機網(wǎng)絡。

3.2動態(tài)數(shù)據(jù)研究

電信運營商大數(shù)據(jù)的分析具有其自身的特點,它的用戶動態(tài)性較強,呈現(xiàn)出“生命周期”的特征,時間演化性是電信通話數(shù)據(jù)的復雜網(wǎng)絡化固有屬性,任何網(wǎng)絡都會隨時間呈現(xiàn)出一定的演化規(guī)律,但數(shù)據(jù)分析不能以秒、分、時以單位展開,這樣單位內的數(shù)據(jù)量太有限,要想嘗試抓住用戶的核心商業(yè)價值,制定相應的營銷策略,就需要以月或者季為單位進行通話數(shù)據(jù)分析。

筆者將上述的數(shù)據(jù)導入復雜網(wǎng)絡分析軟件中,最終結果如圖4所示,其中包括通話日期、持續(xù)時間和基站信息,經(jīng)過運算可以產生對電信數(shù)據(jù)商進行用戶分析的諸多結果。首先,在圖中可以發(fā)現(xiàn)明顯的聚集效應,他們的通話概率是其他用戶的2~3倍,這些用戶具有更高的活躍度,這些用戶在網(wǎng)朋友數(shù)目越多,其離網(wǎng)概率越小,由此可以幫助電信運營商建立流失模型,制定相應策略進而防止客戶流失。其次,可以發(fā)掘出部分的個人特征及通話偏好,譬如,有些用戶的通話量極少,有些用戶的通話大部分發(fā)生在夜間,建立這樣的用戶模型將有利于發(fā)現(xiàn)用戶的消費行為,利于各種用戶套餐的制定,方便降低運營成本。最后,通過基站數(shù)據(jù)的分析,可以發(fā)現(xiàn)該用戶的活躍地區(qū)和基站的負載程度,幫助電信運營商進行基站建設的規(guī)劃。

3.3社團挖掘研究

復雜網(wǎng)絡社團是指網(wǎng)絡中的頂點可以分成組,組內頂點間的連接比較稠密,組間頂點的連接比較稀疏。社團結構在電信運營商數(shù)據(jù)分析中扮演著十分重要的角色,它是了解整個網(wǎng)絡結構和功能的重要途徑。針對電信運營商的大數(shù)據(jù)處理而言,雖然它們的社團大小和數(shù)目是未知的,用戶之間的相互聯(lián)系是隨時間改變的,但這種網(wǎng)絡結構呈現(xiàn)出比較鮮明的層次結構,可以觀察出高密度或者低密度的社團結構。通過圖4,可以觀察到除了大部分的聚集用戶節(jié)點之外,還存在著其他類型的用戶節(jié)點,比如離群點和中心點。這些中心節(jié)點將對謠言或者手機病毒的傳播起到重要的作用,同時還會對新客戶的發(fā)掘起到推進作用。而離群節(jié)點則是比較典型的噪音數(shù)據(jù),對這些數(shù)據(jù)的摒棄將有助于提高正常數(shù)據(jù)的處理速度。網(wǎng)絡社團結構的研究主要與計算機科學中的圖形分割和社會學中的分級聚類有著密切的關系。

目前,基于復雜網(wǎng)絡的許多社團網(wǎng)絡劃分算法都是在K-means基礎上提出和演化的,該算法在電信大數(shù)據(jù)處理中得到廣泛的應用。K-means經(jīng)典算法的基本思想是:以空間中k個點為中心進行聚類,對最靠近他們的對象歸類。通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結果。假設要把樣本集分為c個類別,算法描述如下:(1)適當選擇c個類的初始中心;(2)在第k次迭代中,對任意一個樣本,求其到c個中心的距離,將該樣本歸到距離最短的中心所在的類;(3)利用均值等方法更新該類的中心值;(4)對于所有的c個聚類中心,如果利用(2)(3)的迭代法更新后,值保持不變,則迭代結束,否則繼續(xù)迭代。該算法的最大優(yōu)勢在于簡潔和快速。該算法的關鍵在于初始中心的選擇和距離公式。在電信大數(shù)據(jù)背景下,K-means算法在分類效果、實際運行時間方面體現(xiàn)出較強的實用性。通過上述數(shù)據(jù)的K-means算法社團劃分實驗分析,可以得到3個結構清晰的社團,他們分別包含59、29和6個用戶節(jié)點。

4結束語

針對電信運營商數(shù)據(jù)處理的傳統(tǒng)方法雖然能夠在一定程度上進行分析處理,但面對規(guī)模日益龐大的數(shù)據(jù)量,這些方法往往在實際過程中顯得力不從心,不能滿足實際需求。但伴隨著Google提出的MapReduee框架及其開源Hadoop等優(yōu)秀的分布式架構涌現(xiàn)及應用,電信運營商能夠引入復雜網(wǎng)絡的系統(tǒng)科學方法進行大數(shù)據(jù)的處理分析。復雜網(wǎng)絡對電信大數(shù)據(jù)目前大量出現(xiàn)的非結構化數(shù)據(jù)具有極強的適應性,其重要意義在于它對數(shù)據(jù)的宏觀及微觀兩個方面的研究,宏觀研究包括網(wǎng)絡結構圖的繪制、網(wǎng)絡的演化和網(wǎng)絡魯棒性研究等,微觀研究主要是個體的研究,比如重要節(jié)點的發(fā)現(xiàn)、個體演化、社團劃分及事件發(fā)現(xiàn)等。而且,上述兩方面的研究工作是相輔相成的,其目標是對現(xiàn)實的復雜網(wǎng)絡進行有效的分析。總體來看,各個電信運營商利用大數(shù)據(jù)來推動業(yè)務轉型將是未來電信市場的一個重要方向。電信運營商如果能夠通過復雜網(wǎng)絡等新技術的進步,不斷釋放其管道中龐大數(shù)據(jù)的潛在力量,將會成廣大用戶提供更好的服務體驗。

參考文獻

[1]郭曉科.大數(shù)據(jù)[M].北京:清華大學出版社,2012:20-130.

[2]王星.大數(shù)據(jù)分析:方法與應用[M].北京:清華大學出版社,2013:30-208.

[3]楊勝琦.基于復雜網(wǎng)絡的大規(guī)模電信數(shù)據(jù)分析研究[D].北京:北京郵電大學,2010:12-120.

[4]李秋靜,葉云.電信大數(shù)據(jù)解決方案及實踐[J].中興通訊技術,2013,(6):34-38.

[5]汪小帆,李翔,陳關榮.復雜網(wǎng)絡理論及其應用[M].北京:清華大學出版社,2007:162-198.

[6]包稢.大數(shù)據(jù),大變化,大未來——大數(shù)據(jù)支撐驅動電信運營商轉型發(fā)展[J].通信世界,2013,(6):81-84.

(本文責任編輯:馬卓)endprint

主站蜘蛛池模板: 国产成人高清精品免费5388| 无码视频国产精品一区二区| 久久黄色影院| 91精品国产综合久久香蕉922 | 熟妇人妻无乱码中文字幕真矢织江| 国产精品黑色丝袜的老师| 2022国产91精品久久久久久| 久久99国产视频| 日韩欧美国产精品| 国产成人AV综合久久| 99无码中文字幕视频| 成人另类稀缺在线观看| 免费一级毛片在线播放傲雪网| 国产sm重味一区二区三区| 一级毛片中文字幕| 国产不卡国语在线| 国产欧美视频在线观看| 国产综合色在线视频播放线视| 婷婷激情五月网| 国产视频一二三区| 无码中字出轨中文人妻中文中| 中国国产A一级毛片| 亚洲区欧美区| 国产成人综合久久精品下载| 成人综合久久综合| 欧美三级不卡在线观看视频| 91九色最新地址| 国产午夜不卡| 草草影院国产第一页| 久久久精品久久久久三级| 三级视频中文字幕| 成人av手机在线观看| 在线看免费无码av天堂的| 刘亦菲一区二区在线观看| 国产福利影院在线观看| 国产精品视频3p| 不卡视频国产| 91蜜芽尤物福利在线观看| 国产欧美日韩另类| 狠狠色噜噜狠狠狠狠色综合久| 中国精品久久| 亚洲综合片| 久久精品人人做人人综合试看| 国产办公室秘书无码精品| 青青青伊人色综合久久| 国产成人免费手机在线观看视频| 欧美www在线观看| 色哟哟国产成人精品| 这里只有精品在线| 久久99这里精品8国产| 亚洲人成电影在线播放| a在线亚洲男人的天堂试看| 亚洲侵犯无码网址在线观看| 99在线国产| 亚洲一级毛片在线观| 99精品国产高清一区二区| 国产精品自在在线午夜| 中字无码av在线电影| 日韩福利视频导航| 国产毛片久久国产| 亚洲乱码在线播放| 免费A级毛片无码免费视频| 久久国产乱子| 亚洲欧美一级一级a| 色妞永久免费视频| 色悠久久久| 996免费视频国产在线播放| 天天干天天色综合网| 99热国产这里只有精品9九 | 在线免费看黄的网站| 最新加勒比隔壁人妻| 丁香婷婷激情网| 久草国产在线观看| 999国内精品视频免费| 四虎永久免费地址| 人禽伦免费交视频网页播放| 国产精品区视频中文字幕| 亚洲精品在线影院| 亚洲福利一区二区三区| 囯产av无码片毛片一级| 国产精品三级av及在线观看| 五月婷婷综合在线视频|