項英倬,徐正國,游凌
(盲信號處理國家重點實驗室,四川 成都 610041)
通信網絡中的指控信息流是指一條指控信息在網絡中傳播所經過的一條有向路徑,比如節點A將一個條指控傳給了節點B,命令B 去通知節點C某個事情,那么可以認為一條指令由A 發出,經過B 到達了C,A—B—C 構成了一條指控信息流。通信網絡中指控信息流在僵尸網絡發現、入侵檢測,甚至是對網絡中節點之間關系的挖掘都具有重要的意義。一般來說,指控信息流的挖掘方法大多依賴于雙方通信的內容。比如,在僵尸網絡的挖掘中,文獻[1-2]通過提取數據內容和屬性的指控特征,動態分析系統執行惡意樣本所產生的流量,發現僵尸網絡或惡意軟件中的指控信息流。文獻[3-5]給出了多組通信數據的統計特征,并據此區分網絡中的指控信息流和正常的流量。文獻[6]使用語義模型來分析通信流量中的負載,并以此對信息流的安全性進行分析。而社交網絡中,文獻[7-12]通過Hashtags、主題信息、內容信息、轉發時延、網絡連接等屬性,利用機器學習中貝葉斯網絡等有監督的方法學習網絡中指控信息流的特征。這些方法均假設可以直接觀測到通信的全部內容或者部分內容,然而在許多場景中無法獲取到通信的內容,僅知道通信發生的時間,例如加密通信數據中指控信息流的挖掘問題。針對這種情況,目前并沒有有效的算法,本文將針對通信內容未知情況下的指控信息流挖掘問題進行研究,該問題的難點在于網絡中存在著大量的非指控信息流(背景流量),而指控信息流通常淹沒在其中,難以挖掘。
為了更好地介紹本文研究的問題和模型,下面給出一些概念的定義。
定義1通信網絡G(V,E)中的一個指控信息流c指一條指控信息從單一的節點出發,傳播所經過的所有節點及有向路徑構成的聯通子圖。
定義2通信網絡G(V,E)中,節點vi的行為時序ai指觀測到的節點通信行為及發生通信行為的時間t所構成的序列,如式(1)所示。

定義2 給出了通信網絡中節點行為時序的定義,本文研究的問題是通過已知的節點行為時序Ac:=[a1,a2,…,an],推斷出通信網絡G(V,E)中存在的指控信息流C=[c1,c2,…,ck]。由于通信網絡中節點的通信行為未必全都是指控信息,節點之間也會存在著正常通信,在無法得知通信內容的情況下,只能通過節點行為的相關性及網絡結構的特性來分析。圖1 給出了幾個節點的行為時序及由此推測得到的一個指控信息流,其中A~D 代表4 個不同的節點,箭頭代表指控信息的傳遞方向。本文認為,如果節點間通信行為發生的時間比較接近,那么這2 個行為相關的概率就較大,因此轉發同一信息(指令)的概率也就越高。

圖1 節點行為時序與指控信息流
為了對節點的行為進行建模,首先研究節點的背景通信行為。節點的背景通信指節點正常情況下的通信行為,可以認為是除了指控信息通信之外的通信行為。一般情況下,可以假設節點的背景通信行為在時間上有如下特征。
1)節點每次發送信息的行為都是獨立的,也就是說節點發送的每條信息前后都沒有相關性。
2)節點發送信息的行為在時間上是均勻的。
3)節點的每次通信行為都是單獨發生的,2 個通信行為同時發生的概率很低。
4)節點的通信行為在短時間內僅發生一次。
以上假設中的特征在通信網絡中是普遍存在的,比如考慮一個節點發送郵件的情況,在不考慮指控信息的情況下回復他人郵件,每次主動發送郵件的行為都是獨立的,而且每一封不同郵件的發送方式都是一封一封地發送,這就是假設1)、3)、4)所描述的事情。上述假設2)指在觀測的時間內,節點發送一條信息的概率,其與觀測時間的長短成正比,可以理解為觀測的時間越長,觀測到節點發送信息行為的次數越多。而且,這個過程是不依賴于觀測的起始時間。例如考慮一個平均每天發送20 封郵件的節點,其5 天內發送郵件的數量大概是其10 天內發送郵件數量的一半。這一點在絕大多數的場景下都可以滿足。盡管節點發送信息的時間并不是嚴格均勻的,比如工作日通信要比周末頻繁,但是可以對不同情況分別進行處理。下面將對滿足這些條件的通信行為進行建模。
定理1如果一個通信網絡中節點的通信行為滿足以上4 個假設,那么時間t內節點發送消息的數量N(t)滿足齊次泊松過程。
證明該定理的證明參見文獻[13-14]中泊松過程的定義和證明。
證畢。
下面,考察通信網絡中節點的通信時間間隔分布情況。
定理2在滿足以上4 個假設的通信網絡中,令Xn表示某一節點第n-1次通信行為和第n次通信行為之間的時間間隔,那么Xn(n=1,2,…)為獨立同分布的指數隨機變量。
證明由定理1 可知,在時間t內節點發送消息的數量N(t)滿足齊次泊松過程。根據文獻[13-14]中泊松分布的相關定理可以證明該定理。
證畢。
定理2 表明,在沒有指控信息的情況下,節點相鄰2 次通信時間間隔的分布滿足強度為λ的指數分布,其均值為。然而對于指控信息的轉發,其發送行為是被動的,而且通常會在較短的時間內對指控信息做出反應,這樣,節點發送指控信息的時間間隔不會滿足指數分布。
對于通信網絡中的指控信息,假設其具有如下的特征。
1)節點在收到指控信息后會在相對較短的時間內執行該指控信息。
2)節點對指控信息的執行并不影響其正常的通信行為。
該假設容易理解,也符合絕大多數實際情況中節點執行指控信息的情況[15]。從這2 個假設出發,對于通信網絡中的指控信息流,節點在收到指控后的行為顯然不滿足2.2 節中的假設,因為通常收到指控的一方會在較短的時間內做出回應。考慮節點A 命令節點B 發送消息給節點C,這種情況下B 發送消息給C 的行為是由A 發送消息給B 激發的,這一過程必然不是獨立的。又如通信中A 與B 進行聊天,雙方發送消息的行為顯然也不是獨立的。由于指控信息流與非指控信息流之間存在的這種差異,給區分這2 種信息提供了可能。文獻[15-16]研究表明,節點轉發指令的時間間隔服從指數分布或者冪律分布,即

基于指控信息假設的特征2),考慮到節點收到指控信息后的行為并不影響其背景通信的行為,對于每個節點的通信行為序列,去除指控信息通信行為后,便可以得到其正常的信息通信行為序列,根據定理1,該序列滿足齊次泊松過程。節點通信行為的示例如圖2 所示,其中B 的通信行為序列中的虛線代表其對A 指控信息的回應,去除掉B 中的虛線后,B 的行為序列基本上是一個泊松過程。因此,判斷B的通信行為是否是指控信息的一個有效方法是依據的大小。結合定理2,節點對于指控信息的轉發,其發送行為是被動的,而且通常會在較短的時間內對指控信息做出反應,這樣,節點發送指控信息的時間間隔將會在很大的概率上不能滿足指數分布。這樣便可以得到一個區分出指控信息的統計量。

圖2 節點通信行為示例
由于實際能夠觀測到的數據是上述2 種信息模型獨立生成數據的并集,如何從融合的數據中根據模型篩選出指控信息流是本文的核心問題。
定理2 給出了節點在無指控信息流時發送信息的時間間隔滿足強度為λ的指數分布,眾所周知,λ的極大似然估計為,其中,為通信時間間隔的均值。假設網絡中的指控信息與正常通信信息的占比為r,一般情況下,r?1 。設網絡中節點j接收到由節點i發送信息的強度為λi,j,則節點j發送信息的強度,即每個子節點發送信息強度的和。易知,節點j接收來自節點i信息的過程是速率為λi,j的泊松過程;節點j發送消息到節點k的過程是速率為λj,k的泊松過程。考慮節點j收到節點i信息的時刻ti,j,以及最近的一次節點j發送消息到節點k的時刻tj,k,那么有

其中,Nj,k(t)指時間t內節點j給節點k發送信息的數量,Ni,j(t)指時間t內節點i給節點j發送信息的數量。從式(3)可以看出,正常通信中,節點收到一條消息后,又恰好在t時間內給特定節點發送一條消息的概率,僅與該節點與特定節點之間發送消息的強度λj,k及t有關,而與接收節點的發送消息強度無關。
對于指控信息的轉發,根據2.3 節的分析,其轉發時間t的概率為指數分布或者冪律分布。圖3給出了3 種分布函數。從圖3 中可以看出,節點轉發指令的時間間隔概率隨著間隔的增加而單調遞減,而節點恰好發送正常通信信息的時間間隔概率有一個波峰,其概率先增加后減小。那么,針對如上所述的分布函數,如何選擇一個閾值t′才能使分類正確的概率最大。一個直觀的答案是選擇2 個分布曲線的交點作為閾值,如果小于該閾值,判斷為指令轉發;如果大于該閾值,判斷為正常通信行為。

圖3 不同分布函數
基于上述的推理和計算,為了求得閾值,需要首先估計出每個節點發送給相應節點信息的速率λj,k。由于通常情況下指令類信息占比非常少,因此可以采用觀測數據中節點通信的頻率作為其發送速率的估計值。而轉發指令的時間間隔參數α可以采用迭代的方法來估計。算法1 給出了FlowMine算法對網絡信息流的挖掘,具體如下。
算法1FlowMine 算法
輸入Ac:=[a1,a2,…,an],信息流最大長度ML,跳出臨界值e


算法1 中Δt表示發送相鄰信息的時間間隔,|Δt|表示每次循環后閾值變化的絕對值。該算法的一個關鍵在于對α的估計,其收斂性及收斂速度直接影響到算法的性能。定理3 給出相應的分析。
定理3已知轉發指令的時間間隔服從指數分布或者冪律分布,那么根據FlowMine 算法對α的估計是收斂的。
證明考慮2 個分布的差,如式(4)所示。

在本文假設中,由于α?λ,且fλ(t)的極值在t=λ處,那么僅考慮t∈(0,λ)的情況,有F(0)> 0>F(λ),又因為F(t)連續,因此必然存在某個點t′∈(0,λ)使F(t′)=0。
假設閾值初始值為t0,根據FlowMine 算法,由t0得到F,進而由F估計α,記α0=fF(t0)。由于F中節點的轉發間隔均小于t0,因此,。由于隨著閾值tn的減小,對指令轉發參數αn的估計隨之減小,將tn、αn代入式(4),得到

考慮式(5)和式(6),兩者的差值僅在于α,現在分析指令轉發服從指數分布的情況,即f(t|a)=ae-at。容易驗證,當α=t時,函數取得最大值,且在區間(0,t)單調遞增,在區間(t,∞)單調遞減。因此,有

再結合式(8)及F(t)連續單調遞減,可得

這樣,對閾值t的估計可以收斂到真實值附近。因此,當給定一個初始閾值,隨著迭代次數增加,tn依次遞減,依次遞增,達到相應閾值后,tn的單調性被破壞,此時,tn便在真實閾值附近穩定地波動,因此算法收斂。冪律分布的相關證明與上述證明過程類似。
證畢。
FlowMine 算法的收斂性也可以從圖3 中看出,當t′取值變大時,算法1 中得到的F中節點間信息轉發的平均間隔變大,從而導致估計的變小,由此估計出的閾值t′變小;而當t′取值變小時,從算法1 中得到的F中節點信息轉發平均間隔變小,導致變大,由此估計出的閾值t′變大。
需要指出,當一個節點具有多個父節點時,單位時間內,其會收到多條來自不同父節點的多條指令,這樣,該節點會相對比較繁忙,有可能會導致該節點觀測到的平均轉發間隔與指控信息轉發間隔接近,甚至更小。對于這種情況,通常難以區分節點發送的信息是指控信息還是正常通信,尤其在無法知曉通信內容的情況下,至今沒有有效的辦法。
本節首先通過模擬數據對文中的定理進行仿真驗證,然后對FlowMine 算法的性能進行分析,最后將算法應用于實際數據,對實際數據中的信息流進行挖掘并分析。
實驗中,首先采用Kronecker Graph[17-18]來生成真實的有向網絡結構,節點之間的指控信息將在網絡的有向邊上傳播。該網絡結構通常代表了節點之間的組織關系,比如上下級關系、指揮關系等。本文考慮了隨機圖(Kronecker 參數矩陣為[0.5,0.5;0.5,0.5],后文實用Random 代表該模型)[19]、層次社區結構(Kroneckev 參數矩陣為[0.962,0.107;0.107,0.962],后文使用Hierarchical 代表該模型)[20]及隨機冪律樹(后文使用Random-Tree 代表該模型)[21]這3 種不同的網絡結構。每次在網絡中隨機選擇一個節點作為起始節點,該節點將一條信息以一定概率隨機發送給其子節點,收到信息的子節點將按照2.3 節中的模型,將信息在網絡中傳遞出去,由此可以得到一個指令轉發的信息流。重復上述過程,便可以得到多條不同的信息流。為了模擬節點之間的正常通信行為,隨機依次從網絡中選擇2 個節點,構成節點間的正常通信行為。根據2.2 節的模型,節點正常發送一條信息的行為滿足泊松分布,因此在觀測時間窗口中,均勻地選擇一個時間作為節點背景通信的發生時刻[13]。本文將上述觀測的指控信息及正常通信信息混合在一起構成實驗中觀測的節點通信行為時序集合。
實驗中,設定指控信息與背景通信數量的比值為SN,通常SN 越低,說明實驗數據中指控信息所占比率越低,那么還原出信息流的難度越大。為了衡量算法性能,本文采用了F1-measure[22],其中查全率定義為算法識別出的信息流占實際信息流的比例,準確率定義為識別正確的信息流占全部識別出的信息流的比例。
按照上述設置,分別生成了64 個節點,75 條邊的層次網絡、隨機圖及隨機樹3 種不同結構的網絡,并模擬生成了180 條指控信息在網絡中隨機傳播,實驗中每條邊的傳播概率設置為0.5,SN 設置為0.07。由于算法在估計閾值時,先估計α并不斷迭代,因此如果α收斂,那么算法對閾值的估計將收斂。圖4 展示了不同的指控信息轉發模型下算法1 的收斂性情況。從圖4 中可以看出,算法對于不同的模型、不同的網絡結構均可以穩定在某個值附近。算法對于冪律分布的收斂性稍差于指數分布,冪律分布的波動性要大一些,而指數分布中估計值的波動非常小,但估計值均圍繞某個中值進行波動。因此在實際的應用中,可以對算法1 的每次迭代乘以一個收斂因子,或者取每次波動的平均值作為估計值。圖4(a)中算法對不同網絡結構的α估計值基本上在真實值附近,差別并不大;而圖4(b)中算法對不同網絡結構的α估計值相差比較大。對于這種情況,本文認為是由于在不同的網絡結構中,指令信息傳播的范圍有很大差別,這會明顯影響到觀測節點轉發信息的平均時間間隔,而這對于閾值及α的估計會產生較大影響。從收斂速度上看,算法可以很快地收斂到穩定狀態,基本上5 輪迭代就能夠達到平穩的狀態。

圖4 不同模型下算法的收斂性分析
FlowMine 算法在不同模型以及網絡結構下的性能如圖5 所示。從結果中看,算法在SN=0.5 以上時均能夠達到較高的F1-measure,雖然并沒有完全準確地還原出所有指控信息流,但也能夠達到一個可以接受的性能。算法對于冪律分布的還原性能要優于指數分布,這一點可以通過圖4 來解釋。算法雖然對冪律分布的收斂性不如指數分布,但其波動范圍能夠覆蓋到其參數的真實值,這樣,取均值后對于冪律分布參數的估計誤差會小于指數分布的誤差。因此,其在還原時可以達到更高的精度。從這一點可以看出,對模型參數的估計誤差能夠明顯地影響到算法的性能,提高估計精度可以有效地提高算法性能。
實驗表明,算法在SN=0.8 左右會有一點下降,其原因主要在于,算法中假設了指控信息數量遠小于背景通信的信息數量,當SN 提升后,該假設造成的誤差會大大增加,因此造成了算法性能的下降,而隨著SN 的提升,指控信息的還原難度隨之降低,因此,算法的性能在SN=0.8之后又提升了許多。
圖5(b)中算法對于層次社區型網絡結構的還原要差于其他2 個類型的網絡結構,而圖4(b)中算法對于層次型網絡的參數估計誤差是最大的,這從另一方面佐證了上述分析中參數誤差對算法性能的影響。在圖4(a)中,算法對幾種網絡結構的參數估計的均值均落在了真實值附近,因此,圖5(a)中算法的性能相差無幾。

圖5 算法1 在不同模型以及網絡結構下的性能
本節通過對安然郵件集[23]進行分析,挖掘其中的指控信息流,并分析網絡中指控信息的傳播模式和特點。安然數據集是安然公司幾千名員工辦公郵箱中的郵件數據集合,最初由聯邦能源局公開,由卡內基梅隴大學的William Cohen 收集并用于科學研究。本文使用了其中一個含有151 名標注了員工崗位職級的版本,由于僅需要郵件通信的雙方及時間,舍棄了郵件的內容,僅提取了郵件的發送者、接收者及郵件發送時間,然后將這些數據存入MySQL 數據庫中。本文選取了郵件集合中時間在2001 年1 月1 日—3 月1 日共2 個月的郵件,并手動標注了涉及指控信息流的郵件,統計結果如表1所示。

表1 數據集簡介
為了驗證FlowMine 算法所求閾值的性能,本文將參數ratio 與求得的閾值相乘,也就是假設判別指控信息流的閾值為FlowMine 求得閾值的ratio倍。通過對ratio 取不同的值,得到算法挖掘指控信息流的性能F1-measure,如圖6 所示。

圖6 FlowMine 性能分析
從圖6 中可以看出,當ratio=1 時,求得的指控信息流最準確,這可以說明,FlowMine 對于閾值的估計在實際數據中相對是比較準確的,對指控信息流挖掘的F1-measure 可以高達0.8,可以認為其結果對該數據集是可信的。
將基于文獻[2-3]思想提出的Disclosure 算法與本文的FlowMine 算法在安然郵件數據集中進行對比,挖掘指控信息流的PR(precision-recall)曲線如圖7 所示。Disclosure 算法采用了流量大小、通信時間等多種屬性特征來挖掘指控信息流。從圖7所示的實驗結果可以看出,FlowMine 算法在安然數據集中性能遠優于Disclosure。

圖7 安然數據中的算法性能對比
對安然郵件集使用算法1 挖掘其中的信息流,結果如圖8 所示。圖8 中的每個子圖為挖掘出來的每條信息流,其崗位標注在了節點周圍,未知的崗位采用NA 來表示。其中,有向邊代表信息的流向,每條信息流存在一個根節點,代表信息的發起方,至少存在一個子節點,代表信息的流向。

圖8 安然郵件集合中的指控信息流
從挖掘到的指控信息流可以看出,每條指控信息流的長度均不會太長,所發現的最大深度為4 層。最常見的信息流結構為星型和樹形,通常是某個節點將信息傳遞給多個子節點,以達到信息擴散的目的。從人員崗位的組成上看,處于領導地位的節點通常位于信息流的末端,而一般信息流中的中間節點崗位通常為員工;僅有少數的信息流由領導發出,然后傳播給其他員工。挖掘出的信息流中還存在著大量僅有2 個節點構成的信息流,盡管這些信息流在圖中看起來很短,實際上,在2 個節點之間存在多次郵件的往來,這種情況一般是雙方互相回復對方的郵件。通過對挖掘出的信息流郵件內容進行分析發現,星型結構中的中心節點的角色是秘書,其行為通常是將信息分發給他的上司;另一方面也會將領導的指令或任務傳達給相應的員工。通過信息流的挖掘還發現,有的節點經常給自己發送郵件,這種情況一般是員工將重要信息留存到自己郵箱做備份,或是方便檢索用,這個與員工的行為習慣相關。
通過上述分析發現,處于領導崗位的員工并不一定是信息的發起方,因為經常遇到這種下屬將信息匯總并報告給領導的情況,因此,很難僅僅通過節點在信息流的位置來判斷節點的身份信息。然而,通過對信息流的分析,可以發現很多節點的行為習慣,以及網絡中信息傳遞的路徑等。更進一步,可以斷定同一個信息流內的節點在業務上至少是相關的。在星型結構中的中心節點通常是一個紐帶的角色,這種節點的角色一般是秘書,其需要與上級和下級保持聯系,因此在信息的傳播路徑中處于中心位置。
更進一步,可以知道在安然公司中,其組織相對扁平,因為通過郵件對信息的傳播深度并沒有超過4 層。盡管公司實際的組織結構并不知曉,但這一現象的原因可能是電子郵件拉近了人們之間的距離,因此管理上的層級更加扁平。
下面對所得到的指控信息流進一步分析,考察一些特殊的節點,比如sara.shackleton,這些節點出現在多個不同的指控信息流中。圖9 給出了員工sara.shakleton@enron.com 在不同指控信息流中所處的不同位置,該節點在觀測時間內一共出現在了4 個不同的信息流中,節點名稱標記在節點上。容易發現,該員工與mark.e.taylor、tana.jones、stephanie及susan.balley 幾名員工關系比較密切,該員工在信息流D 中處信息流末端位置,與員工susan.balley、stephanie 等一起收到了mark.e.taylor 的信息;在信息流C 中,該員工收到mark.e.taylor 的信息后將信息轉發給了tana.jones 以及susan.balley 等,在信息流B 中,該員工與tana.jones 進行了信息的交互,并一起將交互的信息傳遞給了其他幾名員工;在信息流A 中,該員工收到stephanie 的信息后轉發給了susan.balley 等,通過這幾個信息流,可以初步推測該員工要比 mark.e.taylor 等級低一些,且與susan.balley、tana.jones、stephanie 這幾名員工等級相同。更進一步發現,susan.balley、tana.jones、stephanie 及sara.shackleton 這幾名員工多次共同出現在幾個不同的指控信息流中,那么可以推測這幾名員工應該屬于同一個部門,但是這幾名員工的身份信息應該是不同的。在信息流D 中,mark.e.taylor處于中心節點位置,而且該節點與該部門多個外部節點有聯系,可以推斷mark.e.taylor 不屬于該部門。mark.e.taylor 一次性給sara.shackleton、susan.balley和stephanie 這3 名員工同時發送信息,該行為可以推測為一次信息的下達過程。sara.shackleton 在信息流 A、B 以及 C 中均處于中心位置,其收到stephanie、tana.jones 及mark.e.taylor 的信息后對其他的員工進行了信息的廣播,從這個信息流中推測,sara.shackleton 的角色比較類似于部門的中轉者或者操作員,負責一些信息的傳達等。

圖9 單個員工在指控信息流中的情況
以上是在不知道任何一名員工的職位的情況下僅通過挖掘出的指控信息流做出的一些推測。通過對郵件的內容進行確認后,可以證明上述的這些分析。盡管數據集中沒有對這幾名員工的職位進行標注,但是,通過對用戶在不同指控信息流中的分析可以發現一些額外的信息,并能夠推測出mark.e.taylor 等級要高于sara.shackleton,以及sara.shackleton 的同部門同事有哪些。
但是這些分析仍然具有一些局限性,本文只是隨機挑選了sara.shackleton 這名員工,其他員工的情況還需要更進一步地分析才能得到更多、更準確的信息。如果只分析幾名員工的指控信息流,又容易造成“盲人摸象”的情況,信息流中的其他用戶的行為難以體現在這些指控信息流中。
本節首先通過模擬數據對算法的性能進行了分析,驗證了本文提出算法的收斂性。對算法的性能分析中,采用了F1-measure,在低信噪比的情況下算法能夠達到約0.8 的水平,這說明算法具有較高的準確率與查全率。然后使用該算法對安然郵件集合中的節點通信行為進行分析,并根據挖掘出的信息流對節點的屬性及網絡的信息傳播路徑等進行了分析。分析后發現,公司中處于領導地位的節點并不一定是信息的發起節點,而是有時會由秘書將信息匯總給上級。其次,信息流的中心節點一般是秘書之類的角色,其不僅將信息匯總給上級,而且還會將上級的任務或指令傳達給下級相應人員。從信息流的長度看,電子郵件有效地拉近了上級與下級的距離,并使公司的網絡更加扁平化。
更進一步,通過分析同一名員工在不同指控信息流中的情況,能夠挖掘出更加深入的一些信息,比如員工間關系、等級等。通過對郵件內容的確認,驗證了算法挖掘出指控信息流的有效性。
本文研究了通信網絡中節點的通信行為,并對節點的正常通信行為和指令轉發行為分別進行了建模。然后提出了FlowMine 算法對模型的相關參數進行估計,提取節點的指令轉發行為。在實驗部分,首先通過模擬數據和實際標注的數據對算法的收斂性和性能進行了評估,然后將FlowMine 算法應用于安然郵件集合,并對網絡中節點的行為和角色進行了分析,驗證了算法的有效性。
盡管本文已經實現了網絡中信息流的挖掘,并取得了許多有意思的結論,但是對于該方面的研究還存在許多問題,把握節點的指控信息流具有一定的局限性,還需要一種手段將這些不同的信息流進行綜合處理,得到目標網絡中用戶間信息的傳遞模式,這樣才能從整體上對網絡及用戶進行把握和分析。