999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多維多粒度分析的電信網用戶行為模式挖掘

2018-12-25 06:31:56程曉濤吉立新黃瑞陽于洪濤楊奕卓
網絡與信息安全學報 2018年10期
關鍵詞:特征用戶

程曉濤,吉立新,黃瑞陽,于洪濤,楊奕卓

?

基于多維多粒度分析的電信網用戶行為模式挖掘

程曉濤,吉立新,黃瑞陽,于洪濤,楊奕卓

(國家數字交換系統工程技術研究中心,河南 鄭州 450002)

為了更好地理解電信網用戶行為規律,以大規模電信網用戶通信詳細記錄(CDR, call detail record)數據為研究對象,運用混合概率模型與特征工程方法,從用戶群體與個體的角度分析了用戶呼叫中的通話時長、通話頻次、通聯關系等多維度特征,并從小時、天、周等不同時間粒度上進一步細化,實現了對不同用戶群體通話行為模式的有效發現。通過混合概率模型對用戶行為中的分布特性進行建模,解決了用戶通話時長、頻次等分布特征難以刻畫的問題。實驗中采用某地區電信網的真實數據作為數據集,對比了決策樹、樸素貝葉斯、SVM等常見分類算法的實驗效果,證明了所提用戶行為特征的有效性與計算可行性;并以快遞、航班、銀行等服務號碼為例,對比了不同群體通信行為模式的差異性。

電信網;多維度;多粒度;高斯混合模型;行為模式挖掘

1 引言

移動通信是人們最常用的交流方式之一,是記錄人們通信行為的重要載體。深入理解人類個體用戶的交互模式,對于控制信息傳播[1]與預測用戶行為[2]具有重要意義。但由于全網通信數據規模龐大且獲取不易,目前針對大規模電信網數據的分析挖掘研究不足,尤其是針對特殊群體用戶通信模式及異常用戶行為檢測[3-4]方面還不夠深入,不同的職業人群中,往往用戶的通信模式有不同的體現[5]。如果電信網運營商能通過分析用戶的通信行為特征,準確識別用戶類別,則對運營商開展個性服務和安全監控有著重要的指導價值。并且隨著近年來電信詐騙活動的日益泛濫,不法分子利用傳統電信網的信任關系進行違法犯罪行為,深入開展電信網通信數據挖掘,研究如何從通信數據中找出詐騙分子等特殊群體的異常行為模式也成為一項亟待解決的問題。

然而,目前針對電信網用戶行為分析還存在明顯不足:一是電信網的通信數據相對于互聯網的通信數據私密性更強,對其分析涉及用戶隱私等敏感話題,各國政府對該領域的公開研究成果較少,可借鑒的國外經驗少;二是針對電信網用戶行為特性的分析主要服務于電信運營商產品推廣和營銷,而較少考慮網絡安全和信息獲取的需求;三是該領域的公開數據少,研究相對小眾,主要以用戶群體作為研究對象,針對單個用戶行為特性的研究較少。

本文以某地區約1×107通信用戶的省際長途CDR數據為對象,重點分析了用戶通信中通話頻次、通信時長等特征在群體與個體層面的分布特性,并對幾類典型公共服務類號碼群體的通信模式進行深入分析。針對電信網用戶行為分析中的行為模式挖掘問題,提出一種基于多維多粒度分析的電信網用戶行為模式挖掘方法。

本文的主要貢獻如下。

1) 借鑒特征工程的思想,提出了一種基于多維度、多粒度分析的大規模電信網用戶行為模式挖掘方法,通過對用戶呼叫行為與通聯關系的抽象與量化,形成具有較好區分性與可計算的用戶行為特征,對于用戶群體分類與行為模式挖掘具有重要意義。

2) 針對電信網用戶呼叫行為中通話分布特性難以準確量化的難題,采用混合概率模型建模用戶行為,將時間序列數據中的用戶呼叫分布特征轉化為概率曲線匹配問題,利用模型參數刻畫用戶分布特征,形成用戶呼叫分布的量化指標值。

3) 本文以幾種典型服務類號碼為數據集,通過仿真實驗證明了本文所提電信網用戶行為特征的有效性,也進一步說明本文提出的電信網用戶行為模式分析方法可以有效實現對電信網異常用戶的檢測。

2 相關研究

要實現大規模電信網數據挖掘,分析用戶行為模式是一個關鍵問題。用戶行為模式[6]是人們在通信過程中所體現出的個體或群體重復出現的通信特征集合。特定群體的通話記錄中隱含了許多內部員工的工作性質、日常行為習慣、生活作息時間等有關信息,如何充分挖掘這類信息并實現有效利用是研究者十分關注的問題。

基于通信內容的數據挖掘方法主要集中在郵件通信與互聯網通信領域。李全剛等[7]研究分析了郵件網絡中面向事件檢測的用戶行為模式,對比了域內通信與域外通信信息完整性的差異,并引入模元的概念,將常見的二元對應關系(特征?模式)轉化為三元對應關系(特征?模元?模式),并從模元的角度對用戶模式進行統一描述。郝秀蘭等[8]采用話題識別與追蹤方法,實現了對互聯網論壇雜亂無章內容的安全監測與有害信息識別。但在真實情況中,由于通信隱私問題無法獲取通話內容,導致該方法研究在電信網領域存在較大政策與法規上的局限性。

由此,一些學者從通信行為所形成的網絡結構方面開展廣泛研究,挖掘通信網用戶行為的內在規律。以針對手機通信數據的研究為例,人類通話網絡的節點度分布滿足冪律分布,冪指數隨著統計樣本和統計指標的不同而不同。Aiello等[9]得到的一天中有向長途電話數據的入度與出度的冪指數均為2.1。Onnela等[10]得到的雙向呼叫無向網絡的節點度分布冪指數為8.4,通話時長冪指數是1.9。如果考慮節點的地理位置,則兩節點間連線的概率以及主被叫之間聯系的強度(時長和次數)隨節點間距離增大而減小。Jiang等[11]對通話數據研究發現人們撥打電話的時間間隔只有3.46%的用戶滿足冪律分布,73.34%的用戶是韋伯分布。余曉平等[12]對手機通話中的網絡度進行了全面分析,分別從號碼度、通話度、時長度的角度分析了用戶通信的度分布情況,總體上度分布滿足冪律分布的特點,并實證統計了日尺度與不同時段尺度下的用戶通信模式,揭示了絕大多數用戶每日只接打1個號碼的電話,節假日期間接打電話的用戶數、次數、時長減少,但平均通話時長增大的特征。文獻[13-14]中采用概率模型的方法實現對Twitter或Blog中的用戶行為建模與事件檢測。文獻[15-16]中采用大規模圖分析的方法對社會媒體中的轉發行為進行分析挖掘,以上都為本文的研究提供了思路借鑒。

綜合以上分析,本文提出一種基于多維度、多粒度分析的電信網用戶行為模式挖掘方法,主要采用特征工程的思想,對通信網信令數據進行細致分析,避免因分析通話內容而導致的隱私問題,引入呼叫離散度、呼損原因、通聯關系等特有屬性,實現對通信網絡中不同職業群體的分類識別與應用。針對電信網絡數據的特點,第4節將重點介紹本文提出的相關特征提取方法。

3 電信網用戶行為模式分析

電信網涵蓋用戶廣,用戶種類多,集團號碼、客服號碼、個人號碼等每類用戶具有不同的行為特征。同時,不同運營商之間對于漫游號碼的處理方式也存在差異,呼叫轉移、語音信箱等特殊業務的通信信息往往還需要進行真實主被叫號碼的提取與還原,這些實際問題都給電信網數據的分析挖掘帶來嚴峻挑戰。

本文數據集提取自某地區電信運營商一個月內的省級長途通話數據。用戶CDR數據中所使用的具體信息字段包括:主叫號碼、被叫號碼、呼叫發起時間、通話開始時間、通話結束時間、呼叫結束時間、通話時長、呼損原因、號碼歸屬地等信息。考慮到現有數據的特點,從群體與個體2個角度分析用戶通信行為規律。個體呼叫行為特征中,本文主要從通話時長、通話頻次、通聯關系等多維度特征入手;并按小時、天、周等不同時間粒度特征展開挖掘分析。針對用戶行為模式挖掘問題,歸納起來就是根據用戶行為提取行為特征,每一種特征都從某一方面反映了用戶特性,其單一特征的識別方法存在利用信息不充分的問題,為了提高識別準確率,采用多維多粒度特征綜合的方法進行用戶行為模式挖掘。

3.1 通信行為群體特征

若用戶在一定時間內通話頻次為,其概率密度函數為(),通話頻次滿足冪律分布的表達式為

對式(1)取對數,有

由式(2)可知,若在雙對數坐標系下用戶的概率密度分布近似為一條直線,則用戶該特征滿足冪律分布。對數據集中網絡用戶一天內通話頻次的統計結果如圖1(a)所示,橫坐標代表用戶一天內的通話頻次,縱坐標代表該通信頻次的人數占總人數的比例。由圖1(b)可知,用戶群體通話頻次符合冪律分布,冪指數為1.694,冪律分布是社會與自然界中普遍存在的現象。

圖1 用戶通話頻次的概率密度分布

3.2 通信行為個體特征

針對單個用戶行為特征,需要從數據集中分別統計單個用戶的通信頻次分布、通話時長分布、通聯關系等特征,定義如下特征度量指標。

定義1 呼叫離散度。借鑒信息論知識,該值越大,表明用戶撥打的范圍越大,每個人之間越平均,該值越小,表明用戶撥打的范圍越小,可能只是少數幾個朋友。

定義2 日通話頻次分布。根據用戶CDR數據,提取用戶在一個月內每天各小時內的通話次數,然后計算每個小時的通話次數占總通話次數的比例。由此可以得到用戶在24 h內通話次數的分布特征,表示為

其中,x表示用戶一段時間內每天24 h中第h到+1 h內的通話次數占總通話次數的比例。用戶一天中通話次數的分布反映了用戶在一天中各時間段的通話活躍度情況,間接表明了用戶的工作、休息等生活習慣。

定義3 日通話時長分布。根據用戶每小時內通話時長占總通話時長的比例,可以計算得到用戶24 h內的通話時長分布情況,表示為

其中,t表示用戶一段時間內在24 h中第h到+1 h內的通話時長占總通話時長的占比。用戶的通話時長分布特性反映了用戶的主要通話特征,如圖2所示。一般而言,具有長通話時長的對象為關系親密且穩定的聯系人。

定義4 周通信頻次、時長分布。根據用戶一周內各天的通話頻次及時長情況,確定用戶的通話分布情況。

圖2 通話頻次、時長一天內的變化

用戶在一周內的通話頻次及時長分布情況,反映了用戶在一周內的工作、休息情況。這類用戶號碼的日常通話一般呈現明顯的潮汐效應,即工作日與非工作日的通話量有明顯變化,對于識別判定用戶號碼性質(工作、生活)具有重要價值。

定義5 撥打空號比。定義用戶撥打空號比為某用戶在一段時間內撥打的空號占總呼叫個數的比例。該指標反映了用戶發起呼叫的正確程度。一般正常用戶呼叫都是基于通信錄的,空號很少,而推銷或騷擾用戶的呼叫可能使用相關自動撥號軟件,空號比例較高。

設用戶A在時間內發起的呼叫個數為N,撥打空號的個數為N,則用戶撥打空號比為

定義6 主被叫占比。定義主被叫占比為某用戶號碼在一段時間通話中發起呼叫次數與用戶接聽呼叫次數的比值。根據經驗可知,正常用戶的發起呼叫次數與接聽呼叫次數應該相對均衡,比值近似于1;而異常騷擾或詐騙用戶可能會發起大量主叫,而被叫次數很少。

定義7 Top-k 呼叫占比。根據一段時間內用 戶通話聯系人頻次或時長進行排名,前K 個主要 聯系人的通話頻次或時長占總通話頻次或時長的 比例。

公共服務類號碼由于其面向大眾,其聯系人數量理論上應該相當龐大,且沒有固定的幾個聯系人。以2個個人號碼與常見的3類公共服務號碼作為對比,分別對其作為主叫和被叫時的Top-聯系人通話頻次占比進行統計。表1所示的統計分析結果證實了本文這一猜測,即私人號碼其與Top-5聯系人的通話占了很大比例,而公共服務類號碼其與Top-5聯系人的通話占總通話頻次的比例較小。

定義8 呼損原因。即用戶呼叫失敗原因,本文CDR數據記錄有fail_reason字段,代表不同的呼叫失敗原因,具體字段說明如表2所示。

表1 不同類別號碼的top-5聯系人通話頻次占比及其累加和

表2 呼損原因字段說明

3.3 用戶通聯關系特征

圖3 單個目標號碼在時間軸上的特征表示示意

圖4 目標號碼A在時間軸上與鄰居節點的通聯關系

在圖4中,目標號碼節點A有B、C、D、E和F等5個鄰居節點。節點A和鄰居節點的呼叫關系表示為有向圖,節點A作為主叫的呼出表示為實線箭頭,節點A作為被叫的呼入表示為虛線箭頭。箭頭和連接線的權值表示節點之間通話的頻次高低,頻次越高,權值越大。

4 電信網用戶行為模式挖掘

電信網用戶通話行為具有顯著的規律性與差異性,不同用戶群體具有不同的呼叫行為模式[18]。為了驗證本文所提取的電信網用戶行為特征的有效性,基于現有電信網CDR數據,本文選取其中部分服務類號碼(快遞、航班、銀行等)和個人用戶號碼,提取用戶呼叫頻次、呼叫時長、通聯關系等方面的特征構建用戶特征向量,通過模型訓練選取效果較好的分類器進行示范應用。對于用戶呼叫行為中的通話頻次、時長等分布特征,采用高斯混合概率模型進行刻畫,模型參數作為用戶呼叫行為分布的特征。

4.1 電信網用戶特征提取

電信網用戶行為特征提取,即是對電信網用戶呼叫行為進行量化統計,制定合理的特征度量用以表征用戶的呼叫行為特點[19-20],為用戶分類及模式挖掘奠定基礎。根據現有數據特點及電信用戶的呼叫習慣,提取用戶4個方面共計21項特征,用于電信網用戶群體的行為模式挖掘,如表3所示。

本文采用維的特征向量表示用戶的呼叫行為特征,即

所提取的用戶特征向量構成用戶的特征空間,本文旨在通過分析不同用戶群體的行為特征,判別用戶號碼類別或發現其中的異常用戶行為。該方法適用于大規模數據的處理,特征計算中主要為統計計算,分析方法并不復雜,使用Hadoop、Spark等分布式計算工具即可完成。

表3 用戶通信行為特征指標

4.2 基于混合概率模型的呼叫行為建模

在構造通信用戶特征向量的過程中,主被叫占比、呼叫頻次、時長等數值特征可以直接應用。但對于用戶通話頻次分布、呼叫時長分布等非數值特征卻無法直接應用。本節中引入高斯混合模型將具有不同特性的通話行為分布進行區分,并使用模型的參數值作為用戶特征向量的一部分??紤]到用戶的通話行為是一種不確定的隨機過程,并且在不同時段內具有不同的分布情況,使用混合概率模型進行刻畫可以達到更好的效果,文獻[21]中也有一定應用嘗試。

上述模型可以用作電信網用戶的通用模型,當針對單個用戶進行建模時,可對特定用戶行為數據計算相應用戶行為的分布參數,如一天中用戶的通話頻次、通話時長分布,計算用戶的模型參數。

式(16)稱為第個分模型。

即假設每個特征點由一個單高斯分布生成。

4.3 參數學習過程

當已知用戶通話頻次或通話時長的觀測數據后,參數估計的過程就相當于找一組參數,這組參數確定的概率分布生成這些觀測數據的概率最大。而這個概率就是觀測數據整體的最大似然函數,即為個體的最大似然函數的乘積。

EM算法執行過程如下。

輸出 混合概率模型參數。

1) 取設定的參數初值進行迭代。

3) M步:計算新一輪迭代參數

4) 重復步驟2)和步驟3),不斷更新上面3個值,直到參數值穩定(收斂)。

5 實驗與結果

本文在真實電信網數據集上測試驗證所提出的用戶呼叫行為特征及行為模式挖掘方法的有效性。以某地區約1×107電信網用戶通信CDR數據作為數據集(真實號碼已脫敏處理),數據情況如表4所示。

表4 實驗數據信息統計

5.1 評價標準

對于本文中電信網用戶號碼群體的分類問題,常用的度量評價指標為查準率、查全率及AUC值。根據樣例的真實類別與分類的預測類別劃分為真正例(TP, true positive)、假正例(FP, false positive)、真反例(TN, true negative)、假反例(FP, false negative),查準率與查全率分別定義為

AUC值為ROC曲線下區域的面積,是研究學習器泛化性能的有力工具。ROC曲線的縱軸是“真正例率”(TPR,true positive rate),橫軸是“假正例率”(FPR,false positive rate),兩者分別定義為

5.2 實驗和結果

本文設計了3類實驗來驗證所提出的電信網用戶行為特征的有效性及可行性。實驗1根據所提取的用戶行為特征對3類服務號碼和個人用戶號碼進行了分類,證明了所提用戶特征的有效性、計算可行性。實驗2通過對用戶號碼聚類中的離群點檢測,分析了正常用戶與異常用戶的行為模式差異。實驗3通過對用戶分時段通信頻次分布、呼損原因等特征的分析,總結了快遞類、列車/航班類、金融服務類電話的行為模式,證明了所提特征的合理性。

實驗1用戶號碼分類實驗結果如表5所示,選用了C4.5決策樹、樸素貝葉斯、SVM這3種常見的分類器進行用戶號碼分類實驗。實驗表明,在用戶特征提取良好的情況下,決策樹算法的整體效果AUC值略優于其他算法, 本文所提取的模型特征中多為連續型數值特征,如呼叫頻次、呼叫時長等;并存在部分數值缺失的情況,而該算法對連續型數據和不完整數據的效果較好。樸素貝葉斯算法需滿足屬性之間相互獨立的假設,當屬性個數增多且特征之間相關性較大時,分類效率比不上決策樹,SVM算法效果居中。在決策樹算法中,通過計算比較各特征的信息增益率,可以找出對用戶分類更有效的統計特征。用戶號碼的統計特征是準確進行用戶行為識別的關鍵。

圖5 混合高斯模型擬合圖

表5 用戶號碼分類實驗

在用戶呼叫行為分布特征提取中,使用高斯混合概率模型,可以平滑地近似任意形狀的密度分布。根據實際通信數據集情況,將用戶在不同時段內的通話頻次(通話時長)作為隨機變量,觀測數據通話頻次序列的分布情況如圖5(a)所示,橫坐標為24小時×30天內小時數,縱坐標為對應小時內的通話頻次數。圖5(b)為用戶通話頻次序列的統計直方圖,橫坐標為用戶的通話頻次,縱坐標為該頻次在總體分布中所占的比例。圖5(c)為高斯混合模型中各高斯分量的曲線,圖5(d)為高斯混合模型與通話頻次直方圖的擬合圖。由此,可以將用戶一段時間內的通話頻次序列數據轉化為高斯混合概率模型的參數,實現對用戶通話頻次特征的刻畫,分析用戶通話中隱含的通話行為模式。對于高斯混合模型中高斯分量個數的選取,根據采用混合模型對原始數據進行聚類的ARI[22]指標值確定,ARI指標越大,表明擬合的效果越好,本文中采用的高斯分量個數為4,如圖6所示。同時表明典型的用戶通信頻次中呈現4種模式,可能與用戶在一天中不同時間段內(凌晨、上午、下午、晚上)的通話習慣有關。

圖6 高斯混合模型分量個數影響

實驗2通過對用戶號碼分類中的離群異常點進行檢測,可以發現其中的行為異常用戶。圖7(a)中,用戶號碼的呼叫行為主要集中于白天工作時間及晚上睡覺前,凌晨0點至早9點前用戶呼叫幾乎沒有,且從呼叫頻次上符合人工撥打的習慣,由此可大致推斷該號碼為用戶推銷電話或者業務工作繁忙的商務人士。圖7(b)中記錄了另外一種類型的騷擾電話,由圖可知,該號碼每半小時內呼叫頻次一直很高,且全天呼叫頻次雖有波動,但一直相對穩定,沒有白天、晚上的周期性變化,由此可推斷該號碼可能為一種由撥號軟件發起的騷擾電話。

圖7 正常用戶與異常用戶的行為比較

實驗3對不同類別的服務號碼進行通話頻次統計,設定3種粒度,即以周為粒度、以天為粒度、以小時為粒度。結果表明,不同類別的號碼在以小時為粒度時,反映出較強的特點。將不同類型的號碼每小時的通話頻次序列化后可以看出較強的規律,因此考慮以小時為粒度,統計在1個月內所有號碼在每天24個時段中的通話頻次累加和作為號碼分類的一個特征。下面分別對快遞類、列車/航班類和銀行類的1個月內以小時為粒度通話頻次累加和進行可視化展示,分析其各自的特點。

圖8是快遞類的通話頻次分布,橫坐標從0時開始到24時,第一個豎條表示2個月內從凌晨0時到1時之間的所有通話頻次和,以此類推。從圖中可以明顯看出,快遞類的通話頻次分布有極強的相似性,具體特點表現為:從21時開始,通話頻次迅速提高;到1時到4時,通話頻次穩定在一個很高的水平;從4時開始每小時頻次有所下降,但仍保持穩定;到10時開始通話頻次出現明顯的幾乎呈指數程度的遞減,在16時左右下降到幾乎為0,到21時通話數量又開始遞增。出現這種情況的原因可能是快遞公司與快遞點之間的業務聯系都是在凌晨和上午,在這段時間快遞公司會將快遞送到各個快遞點,因而這段時間通話非常頻繁。通過圖8可以看出,這種通話規律與普通電信網用戶完全不同,具有極強的時序特征。

圖8 快遞類按時刻通話頻次累加和分布

圖9給出列車/航班類的通話頻次分布。從圖中可以看出,通話頻次的分布仍然具有相似性,具體表現為:17時到22時通話頻次處在一個較低的水平;22時到3時通話頻次迅速上升,4時通話頻次略微下降但仍然較高;11時到15時通話頻次顯著下降;15時到17時迅速下降到極低的水平。通過圖10中銀行類服務電話的分布可以看出,這種規律也顯示出了與眾不同的特性,并且類內相似度極高。

圖9 列車航班類按時刻通話頻次累加和分布

圖10 銀行類按時刻通話頻次累加和分布

圖11給出銀行類號碼作為主叫時的失敗原因統計,從圖中可以看出,該類號碼的呼叫失敗原因分布非常相似,呼叫失敗代碼2(振鈴中途掛機)占了較大的比重,說明這些號碼在作為主叫呼叫用戶時,有很大一部分振鈴時就被用戶掛斷;另外呼叫失敗代碼16占比較高,即接通后被叫(用戶)先掛機,這也符合其作為服務類號碼不主動掛機的特點。

圖11 銀行類作為主叫時失敗原因統計

圖12給出航班類號碼作為被叫時的失敗原因統計。從圖中可以看出,當列車航班類作為被叫時,振鈴中途掛機(代碼2)現象明顯減少,說明服務類號碼通常不會掛斷用戶的電話,個別中途掛機現象可能是主叫用戶誤撥導致。同時,大部分呼叫結束的代碼為0和16,說明絕大多數的通話都是成功的,并且多數情況是主叫用戶先掛機,同樣符合服務類號碼的特點。

圖12 航班類作為被叫時失敗原因統計

6 結束語

在大數據時代,針對海量通信數據的挖掘與分析尤為重要,通信數據的復雜多樣性以及數據挖掘技術在各行業應用的特殊性也為數據挖掘提出了新的理論與技術挑戰。本文針對海量通信數據中用戶行為模式挖掘困難這一挑戰,提出一種基于多維多粒度的電信網用戶行為模式挖掘方法,有效解決了電信網用戶行為數據中的特征提取問題。在電信網用戶行為特征分析過程中,目前的數據源僅采用了電信網的CDR數據,來源相對比較單一,后續可以考慮加入用戶語音及上網數據信息,輔助進行用戶行為特征的分析挖掘。

[1] 劉衍珩, 李飛鵬, 孫鑫, 朱建啟. 基于信息傳播的社交網絡拓撲模型[J].通信學報, 2013, 34(4): 1-9.

LIU Y Y, LI F P, SUN X, ZHU J Q. Social network model based on the transmission of information[J]. Journal on Communications, 2013,34(4):1-9.

[2] 曹玖新, 吳江林, 石偉, 等. 新浪微博網信息傳播分析與預測[J]. 計算機學報, 2014, 37(4): 779-790.

CAO J X, WU J L, SHI W, et al. Sina microblog information diffusion analysis and prediction[J]. Journal of Computers, 2014, 37(4): 779-790.

[3] 楊杰, 李小平, 陳湉. 基于增量時空軌跡大數據的群體挖掘方法[J]. 計算機研究與發展, 2014(s2): 76-85.

YANG J, LI X P, CHEN T. A group mining method for incremental spatio-temporal trajectory bigdata[J]. Journal of Computer Research and Development,2014(s2):76-85.

[4] 李艷麗, 劉陽, 謝文波等. 大數據發現非法傳銷網絡[J]. 大數據, 2017, 3(5): 106-112.

LI Y L, LIU Y, XIE W P, et al. Uncovering the illegal pyramid networks by big data[J]. Big Data Research,2017, 3(5): 106-112.

[5] 史殿習, 李寒, 楊若松, 等. 用戶日常頻繁行為模式挖掘[J]. 國防科技大學學報, 2017, 39(1): 74-80.

SHI D X, LI H, YANG R S, et al. Mining user frequent behavior patterns in daily life[J]. Journal of National University of Defense Technology,2017, 39(1): 74-80.

[6] 文雨, 王偉平, 孟丹. 面向內部威脅檢測的用戶跨域行為模式挖掘[J]. 計算機學報, 2016, 39(8):1555-1569.

WEN Y, WANG W P, MENG D. Mining user cross-domain behavior patterns for insider threat detection[J]. Journal of Computer,2016, 39(8):1555-1569.

[7] 李全剛, 時金橋, 秦志光, 等. 面向郵件網絡事件檢測的用戶行為模式挖掘[J]. 計算機學報, 2014.37(5):1135-1146.

LI Q G, SHI J Q, QIN Z G, et al. Mining user behavior patterns for event detection in email networks[J]. Journal of Computer,2014.37(5):1135-1146.

[8] 郝秀蘭, 胡運發, 申倩. 中文論壇內容監測的方法研究[J]. 中文信息學報, 2012, 26(3):129-137.

HAO X L, HU Y F, SHEN Q. Research on content monitoring on Chinese web forums[J]. Journal of Chinese Information Processing,2012, 26(3):129-137.

[9] AIELLO W, CHUNG F, LU L. A random graph model for power law graphs[J]. Experimental Mathematics, 2001, 10(1): 53-66.

[10] ONNELA J P, SARAM?KI J, HYV?NEN J, et al. Structure and tie strengths in mobile communication networks[J]. Proceedings of the national academy of sciences, 2007, 104(18): 7332-7336.

[11] JIANG Z Q, XIE W J, LI M X, et al. Calling patterns in human communication dynamics[J]. Proceedings of the National Academy of Sciences, 2013, 110(5): 1600-1605.

[12] 余曉平, 裴韜. 手機通話網絡度特征分析[J]. 物理學報, 2013,62(2):1-9.

YU X P, PEI T. Analysis on degree characteristics of mobile call network[J]. Acta Phys Sin, 2013, 62(2):1-9.

[13] CAPDEVILA J, CERQUIDES J, TORRES J. Recognizing warblers: a probabilistic model for event detection in Twitter[C]. ICML2016 Anomaly Detection Workshop, New York, USA, 2016.

[14] MANAVOGLU E, PAVLOV D, GILES C L. Probabilistic user behavior models[C]//Proceedings of the Third IEEE International Conference on Data Mining, Melbourne, Florida. 2003: 203-210.

[15] BEUTEL A. User behavior modeling with large-scale graph analysis[D]. Computer Science Department School of Computer Science Carnegie Mellon University Pittsburgh, PA.2016

[16] XU Z H, ZHANG Y, WU, et al. Modeling user posting behavior on social media[C]. SIGIR’12, Portland, Oregon, USA. 2012.

[17] 張嘯劍, 王淼, 孟小峰. 差分隱私保護下一種精確挖掘top-頻繁模式方法[J]. 計算機研究與發展, 2014, 51(1): 104-114.

ZHANG X J, WANG M, MENG X F. An accurate method for mining top-k frequent pattern under differential privacy[J]. Journal of Computer Research and Development, 2014, 51(1): 104-114.

[18] CUI P, LIU H, AGGARWAL C, et al. Uncovering and predicting human behaviors[J]. IEEE Intelligent Systems. 2016,03.

[19] 張宇翔, 孫菀, 楊家海, 等. 新浪微博反垃圾中特征選擇的重要性分析[J]. 通信學報, 2016, 37(8): 2016152-10.

ZHANG Y X, SUN Y, YANG J H, et al. Feature importance analysis for spammer detection in Sina Weibo[J]. Journal of Communications, 2016, 37(8):2016152-10.

[20] 曹菁華, 胡訪宇, 華燁. 基于電信數據的通話行為模式發現[J]. 計算機仿真, 2014, 11(31): 163-167.

CAO J H, HU F Y, HUA Y. Call behavior pattern discovery based on telecom data[J]. Computer Simulation, 2014, 11(31): 163-167.

[21] OLSZEWSKI D. A probabilistic approach to fraud detection in telecommunications[J]. Knowledge-Based Systems, 2012,26(3): 246-258.

[22] STEINLEY D. Properties of the hubert-arable adjusted rand index[J]. Psychological methods, 2004, 9(3): 386.

User behavior pattern mining method based on multi-dimension and multi-granularity analysis in telecom networks

CHENG Xiaotao, JI Lixin, HUANG Ruiyang, YU Hongtao, YANG Yizhuo

National Digital Switching System Engineering & Technological R&D Center, Zhengzhou 450002, China

In order to better understand the behavior of users in telecom networks, it takes CDR (call detail record) data of large-scale telecom network as the research object. By using the mixed probability model and feature engineering method, the multi-dimension characteristics of the call time, call frequency and connections are analyzed from the perspective of user groups and individuals. It is further refined from different time granularities such as hour, day, and week to realize effective discovery of call behavior patterns for different user groups. The distribution characteristics of user behavior are modeled by mixed probability model, which solves the problem of describing the distribution characteristics such as user's call time and frequency. Based on the dataset of a regional telecom network, the performance of decision tree, naive Bayes and SVM classification algorithm are compared. It proves the validity and computational feasibility of the proposed method. The differences in communication behavior patterns of different groups are also compared by taking the service numbers like express, flight and bank as examples.

telecom network, multi-dimension, multi-granularity, mixture-of-Gaussian, behavior pattern mining

TP393

A

10.11959/j.issn.2096-109x.2018083

程曉濤(1990-),男,河北邢臺人,國家數字交換系統工程技術研究中心博士生,主要研究方向為電信網安全、網絡大數據處理與分析。

吉立新(1969-),男,江蘇淮安人,國家數字交換系統工程技術研究中心研究員,主要研究方向為電信網信息安全。

黃瑞陽(1986-),男,福建漳州人,國家數字交換系統工程技術研究中心助理研究員,主要研究方向為文本挖掘和圖挖掘。

于洪濤(1970-),男,遼寧丹東人,國家數字交換系統工程技術研究中心研究員,主要研究方向為網絡大數據分析與處理。

楊奕卓(1994-),男,吉林省吉林市人,國家數字交換系統工程技術研究中心碩士生,主要研究方向為社會網絡分析。

2018-09-16;

2018-09-28

程曉濤,chengxt90@mail.com

國家自然科學創新群體基金資助項目(No.61521003);國家自然科學基金資助項目(No.61601513)

The Foundation for Innovative Research Groups of the National Natural Science Foundation of China (No.61521003), The National Natural Science Foundation of China (No.61601513)

猜你喜歡
特征用戶
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: www.精品视频| 亚洲啪啪网| 国产精品三级av及在线观看| 亚洲男人天堂久久| 婷婷六月综合网| 色综合a怡红院怡红院首页| 国产在线97| av色爱 天堂网| av午夜福利一片免费看| 亚洲国产理论片在线播放| 老司国产精品视频91| 亚洲日韩高清在线亚洲专区| 日本不卡在线视频| 日韩视频免费| 无码日韩人妻精品久久蜜桃| 久久久久人妻一区精品色奶水| 欧美日韩午夜视频在线观看| 欧美国产在线看| 99爱视频精品免视看| 亚洲欧美自拍中文| 久久国产精品波多野结衣| 亚洲AV色香蕉一区二区| 中文字幕av一区二区三区欲色| 午夜小视频在线| 97青青青国产在线播放| 午夜福利网址| 91青青草视频| 天天综合天天综合| 亚洲第一色视频| 在线国产毛片手机小视频| 狠狠干欧美| 午夜天堂视频| 天堂va亚洲va欧美va国产| 亚洲大学生视频在线播放| 亚洲 欧美 中文 AⅤ在线视频| 1024国产在线| 国产99免费视频| 天天躁日日躁狠狠躁中文字幕| 亚洲日韩图片专区第1页| 亚洲综合色婷婷中文字幕| 欧美日韩综合网| 欧美五月婷婷| 自慰网址在线观看| 免费网站成人亚洲| 婷婷99视频精品全部在线观看| 在线观看欧美精品二区| 久久99国产综合精品1| 免费国产黄线在线观看| av午夜福利一片免费看| 久久香蕉国产线看精品| a毛片基地免费大全| 国产精品毛片在线直播完整版| 国产自在线拍| 成年人福利视频| 精品国产一二三区| 亚洲精品视频网| 国产精品999在线| 国产在线观看第二页| 欧美综合成人| 中文字幕人妻无码系列第三区| 亚洲av日韩av制服丝袜| 好紧太爽了视频免费无码| 日韩av无码DVD| 91高清在线视频| 久久久精品国产SM调教网站| 亚洲成人播放| 欧美激情成人网| 蜜桃视频一区二区| 国产无码在线调教| 青青草原国产精品啪啪视频| 国产一区二区色淫影院| 国产日韩欧美中文| 日韩经典精品无码一区二区| 在线永久免费观看的毛片| 丁香综合在线| 欧美成人A视频| 亚洲国产清纯| 日本精品一在线观看视频| 在线播放真实国产乱子伦| 99久久婷婷国产综合精| 视频一区视频二区中文精品| 成人一级免费视频|