大數據下圖三角計算的研究進展

2016-06-28 13:19:17金宏橋董一鴻

電信科學 2016年6期

關鍵詞：方法

金宏橋，董一鴻

（寧波大學信息科學與工程學院，浙江寧波 315211）

綜述

大數據下圖三角計算的研究進展

金宏橋，董一鴻

（寧波大學信息科學與工程學院，浙江寧波 315211）

圖三角數量的計算是計算網絡聚集系數和傳遞性的重要步驟，廣泛應用于重要角色識別、垃圾郵件檢測、社區發現、生物檢測等。在大數據背景下，計算圖中三角形算法主要面臨時空消耗和計算準確性兩大難題。介紹了代表性的大圖中計算三角形的算法，主要存在準確計算和近似計算兩大類。準確計算算法又分為內存算法、外存算法和分布式算法，時空消耗或 I／O 消耗很大。近似計算算法中，有輔助算法、非流式算法和流式算法之分。最后對計算三角形算法進行了歸納總結。

準確計算；近似計算；三角形；圖

1 引言

隨著網絡技術和社會網絡服務的發展，網絡中的數據量和信息量越來越大。在這種大數據的環境下，對數據的分析和挖掘顯得尤為重要。近年來，對有大規模數據的網絡的分析得到越來越多的關注。計算機學科的數據結構圖可以作為很多種網絡的模型，如萬維網、P2P 網絡和社交網絡等都可以用含有特定信息的圖作為它們的模型。對網絡的分析逐漸轉化為對保存網絡重要信息的圖的分析。由于網絡中的關系和個體數量非常多，所以作為其模型的圖的規模也很大。

社會網絡的同質性和傳遞性產生了對圖中三角形的研究。圖中的三角形是復雜網絡分析的重要角色，不論是來自社會交互、計算機交流、金融交易、蛋白質還是生態學網絡，其中三角形的數量都是巨大的，它在這些領域中有著非常廣泛的應用。通過三角形的分布可以區分哪些是垃圾郵件的主人。角色行為識別中，通過使用者參與的三角形的數量可以判斷這個使用者的地位。生物信息學中的主題檢測需要計算三元組的頻率。三角形巨大的數量可以與蛋白質交互網絡的拓撲結構和功能性相聯系。三角形各點度數之間的關系也可以作為基礎圖的描述符，在數據庫中，三角形也有具體的應用。

目前圖中三角形的計算主要分為準確計算（exact counting）和近似計算（approximate counting）兩種類型。準確計算可以準確地計算圖中三角形的數量，對于大圖來說，規模很大，所以計算的時空消耗很大，外存算法的I／O 消耗也會很大。研究人員的重點就是在保持準確計算的情況下，減少時空消耗和 I／O 次數。近年來，分布式框架 MapReduce 的出現，也使很多研究人員研究此框架下的計算三角形算法。相較而言，近似計算比準確計算的實際應用更廣泛，同時空間消耗較少。在保持一定準確度的情況下，研究人員對近似計算三角形數量更感興趣。對于近似計算，大部分的研究者將重點放在采樣上，通過一定的采樣方法證實，采樣得到的三角形數量與實際數量的差值很小，同時將時間空間的復雜度降低。目前，采樣方法很多，各有所長。準確計算三角形算法的部分關鍵點也可以用在近似計算算法上。如上文所述，隨著互聯網的快速發展，大規模的圖不斷涌現，在圖流中使用限制的內存來估算三角形的數量，這個問題的研究意義越來越顯著，同時難度也越來越大。

2 圖三角的基本概念

定義 1 （三角形）給定一個圖 G=（V，E），它包含了一個頂點集合 V、一個邊的集合 E，|V|和|E|分別表示頂點和邊的個數。如果頂點 u、υ、w∈V ，邊｛u，υ｝、｛υ，w｝、｛w，u｝∈E，那么 3 個頂點和 3 條邊組成一個三角形，稱為 ?uυw。

定義 2 （三角形的實際數量、準確數量和估算數量）用 T 表示圖 G 中三角形的實際數量，用 t表示通過準確算法得出的圖 G 中三角形的數量，用 T＇表示通過估計算法得出的圖G中三角形的數量。

定義 3 （度和鄰域）頂點 υ的鄰域 Γ（υ）表示所有與頂點 υ相鄰的點，滿足 Γ（υ）=｛u∈V：（u，υ）∈E｝。頂點 υ的度 d（υ）是頂點 υ連接的所有邊的個數或者是它的鄰域，滿足d（υ）=|Γ（υ）|。圖 G 最大的度 dmax（G）是指圖中頂點最大的度，即 dmax（G）=max｛d（υ）：υ∈V｝。 m、n 分別表示圖中邊、點的個數，頂點的度和圖中的邊數滿足。入度和出度是對于有向圖來說的，一個頂點的入度等于被所有箭頭所指的數量，一個頂點的出度等于被所有箭尾所指的數量。

定義 4 （（1+ε）-approximation）返回 q 的以 ε為因子的估計值 q＇，當 q 滿足（1-ε）q≤q＇≤（1+ε）q，其中，ε＜0。

定義 5 （（ε，δ）-approximation）返回 q 的以 ε、δ為因子的估計值 q＇，當 q 至少以 1-δ的可能性滿足，（1-ε）q≤q＇≤（1+ε）q，其中，ε＜0，δ＜1。

定義 6 （圖流）圖中的邊是以一串流的形式加入的。

3 圖三角的準確計算

圖三角的計算有準確計算和近似計算兩種類型。準確計算圖三角算法目前有內存算法、外存算法、分布式算法 3 類。內存算法指當內存能容納整個圖，可以在內存中將圖中的三角形計算出來的算法；外存算法是指當圖的規模很大，不能全部存入內存進行計算時，通過一定的策略將圖分為幾個部分存入內存進行計算，這種算法會產生一定數量的 I／O 操作；分布式算法是指用分布式框架來計算圖中三角形數量，目前主要采用 MapReduce 框架。內存算法中除了具有代表性的Node-iterator［1］和 Edge-iterator算法，還有 Matrix-multiplication［2］算法。基于點邊迭代和矩陣相乘也出現了一系列改進的算法，有 AYZ［3］、Node-iterator-core［4］、Forward［5］、Forward-hashed［6］、Compact-forward［7］。時隔多年又出現了結合點邊迭代的Combined Iterator［8］算法。本文將介紹兩個外存算法：Chu 和Cheng［9］提出的基于圖劃分的算法和 Hu［10］提出的有效 I／O的算法。近些年來，隨著分布式框架的應用，出現了基于MapReduce 框架的 GP［11］、TTP［12］以及 CTTP［13］算法。目前出現的準確計算圖三角算法都應用在靜態圖上。以下將一一介紹。

3.1 內存算法

內存算法最初適用于規模比較小的圖，小圖完全可以存入計算機內存中，并進行計算。內存算法最先找到了如何使用計算機解決三角形計算問題的方法，并且不斷地在算法細節中得到突破，以減少運行時空成本。其中，基本迭代算法簡單，但成本高，不適合規模大的圖。Fast Common Neighbor Iteration 算法通過混合線性掃描二分法和分段索引法，在時間上進行了很大優化，同時增加了空間的開銷。隨著圖規模的增長，內存算法需要更大內存的計算機。

3.1.1 迭代算法

Node-iterator（點迭代）算法檢測每一個頂點的每一對鄰點之間是否有一條邊，如果有，那么就得到一個三角形，反之得不到。為了使每一個三角形只被計算一次，需要安排每個頂點的順序。Edge-iterator（邊迭代）算法迭代所有邊，比較每條邊兩個頂點的領域，對于一條邊｛u，w｝，僅當 υ同時出現在 Γ（u）和 Γ（w）中，3 點｛u，υ，w｝才組成一個三角形。

Alon、Yuster 和 Zwick 將點迭代和矩陣相乘結合在一起，得到 AYZ 算法。算法將點集分為度數低的頂點集合Vlow=｛υ∈V：d（υ）≤β｝和度數高的頂點集合 Vhigh=V／Vlow，其中，β=mγ-1／γ+1，γ 是矩陣乘法指數。低度數的點集采用標準點迭代方法，高度數點集采用快速矩陣乘法。Node-iterator-core算法是在點迭代的基礎上，在每次選擇頂點迭代時選擇當前度數最小的頂點，當此頂點所在的三角形全部被計算后，將此頂點刪除。Forward 算法是邊迭代算法的改進。在邊迭代算法中，需要將邊兩個頂點的所有鄰接頂點都比較一下，在 Forward 算法中只需要比較邊迭代中所有鄰接頂點的子集 A。在這個算法中，由于所有的點都是有順序的，所以可以將圖視為有向圖，方便理解算法過程。A（υ）的數據結構的大小是不大于點 υ的入度。Latapy M 提出了一個對 Forward 改進的算法 Compact-forward。Compact-forward使用迭代器迭代鄰接點的子集，迭代方法和邊迭代方法相同。鄰接點是排序過的，比較語句也在一個可達的確定指數前停止。雖然時間上界和 Forward 算法相同，但是它不需要額外的數組，因此節省了時間和空間。

Oracle Labs 的 Sevenich M 提出了 FCNI （fast common neighbor iteration）算法。該算法的基準算法是結合點迭代、邊迭代兩種迭代算法的 Combined Iterator算法，該基準與前面提到的 Forward 算法類似，多了鄰點選擇時的排序。FCNI 算法指出 Combined Iterator 算法的主要部分是重復求出不同頂點對的共同鄰點，所以想要快速計算三角形的個數，就需要快速求出頂點對的共同鄰點。面臨的問題是：求一個度很高的頂點和其他頂點的共同鄰點需要很長的時間。于是他們提出了兩個方法來解決這個問題：混合線性掃描二分法和分段索引法。每個頂點的鄰點存儲在有序的鄰接數組中，問題轉化為求兩個有序數組的共有元素。當兩個數組長度差距過大時，采用二分法，算法從選擇長數組的中間元素和用二分查找短數組開始。當兩個數組度都較小時，采用線性掃描。算法又將度數高的頂點構建了索引，對他們的鄰點數組構造了分段索引。這兩個方法的應用使該算法的運行時間大大減少，在當前內存算法中運行時間最少。

3.1.2 矩陣相乘算法

在矩陣相乘（matrix-multiplication）算法中，假設 A 是圖 G 的鄰接矩陣，A3對角線上的數字分別代表對應頂點所在三角形個數的兩倍。A3對角線上的數字之和代表圖 G中三角形個數的 6 倍，因為三角形由 3 個頂點組成，一個三角形會被重復計算 3×2 次。這會導致算法運行時間達到O（n3）。通過快速矩陣相乘的方法可以使運行時間下降。

3.2 外存算法

當圖的規模過大或者計算機的內存不足以裝下整個圖時，采用外存算法是基本策略。外存算法需要解決的問題是保證計算的三角形個數的準確性，同時減少 I／O 操作。Chu、Cheng 算法和 MGT 算法都是將圖的信息分段載入內存進行計算。不同的是，分別用不同的方法保證圖中三角形不被拆開。前者劃分子圖時保留了所有頂點的鄰點，后者在有向化圖之后載入子圖和頂點的鄰接表。表 1 是在 I／O 操作和運行時間方面，對 Chu、Cheng 算法 DGP、RGP 和算法 MGT 在內存使用率為 25%時，各算法在不同數據集上的效果比較，其中，使用的機器是 3 GHz CPU 和8 GB 的內存。MGT 算法在 I／O 操作數和運行時間上都優于 Chu、Cheng 算法。

表1 DGP、RGP 和 MGT 的比較

3.2.1 基于圖劃分的算法

Chu 和 Cheng 提出了基于圖劃分的外存圖三角計算算法，該算法首先將整個圖劃分成幾個子圖后，存在外存，子圖的規模小，就可以放入內存。然后依次將每個子圖調入內存，計算當前子圖中的三角形數量。為了保證圖劃分后不會將三角形拆開，每個子圖實際上也保留了當前部分中所有頂點的鄰點，如圖 1、圖 2 所示。根據劃分圖的方法，Chu 和 Cheng 有兩種方法：DGP （deterministic graph partition）和 RGP（randomized graph partitioning）。前者采用確定方法劃分子圖，后者采用隨機方法劃分子圖。劃分子圖是一個難題，如果某部分子圖的鄰點很多，會使算法的時空效率變高。

圖1 基于圖劃分算法的原圖

3.2.2 有效 I／O 算法

Hu X C 和 Tao Y F 設計了一種有效 I／O 算法，計算三角形算法 MGT（massive graph triangulation），這是針對靜態的圖。這個算法與 Chu 的算法有明確的不同。他們將無向圖以有向圖的形式表現出來，如圖 3所示。有向圖的有向邊是根據無向圖頂點的度和編號設置指向的。例如，當頂點 a的度小于 b的度或者 a的度等于 b的度但 a的編號小于 b 的編號，定義 a＜b，此時無向邊｛a，b｝在有向化后是 a 指向 b。無向三角形 ?uυw變為有向三角形，當 u＜υ＜ w，其中，頂點 u 被稱為（cone vertex 錐頂點），邊｛υ，w｝被稱為（pivot edge 中樞邊），如圖 4 所示。算法的準備工作是將無向圖根據規則進行有向化，并以鄰接表的形式存儲，每一個頂點的鄰接表只存它的出—鄰居（即它指向的頂點）。MGT算法是逐步將有向圖中的邊載入內存，根據需要從外存載入關聯的頂點，計算出三角形的數量。具體過程是：

·將有向圖中的一部分邊載入內存；

·得出當前內存中的邊所在的頂點；

· 對于每一個頂點 υ，從外存中得到它的鄰接表（出—鄰接表），將其出—鄰居與內存中的頂點做交集。將頂點υ到交集得到的頂點所成的邊與當前載入內存中的有向圖的邊做并集，找出其中以 u為錐頂點的三角形個數，并釋放相應的空間。

MGT 算法可以正確地找出所有的三角形，因為第一步保證了每一條有向圖的邊都可以在一個獨特的迭代中載入內存。同時第二步保證了可以找出以當前載入內存的邊為中樞邊的三角形。MGT 算法在 I／O 和 CPU 上都非常高效。

圖2 基于圖劃分算法劃分后的圖

圖3 無向圖變為有向圖

圖4 有向三角形

3.3 分布式算法

由于分布式算法的普及，一些研究使用 MapReduce算法計算圖三角。目前使用 MapReduce 框架的算法是基于圖劃分來分析問題的。在某些方面加快了計算算法，但同時也出現了一些問題。接下來介紹 3種基于MapReduce 框架的算法。這 3 個算法有一個共同的基礎，是圖的分割。圖的分割算法是先將頂點均分為p個部分（partition），V=V1∪V2∪ … ∪Vp，其中，當 i≠j 時，Vi∩Vj=Φ 。同時定義 Vijk=Vi∪ Vj∪ Vk，Eijk= ｛（u，w ）∈ E ：u，w ∈Vijk｝，Gijk= （Vijk，Eijk）。Gijk叫做 3-partition ，Gij是 2-partition ，Gi是 1-partition ，Gijk和 Gij的含義如圖 5 、圖 6 、圖 7 所示。GP算法是三角形計算在 MapReduce 上的初次應用，GP 算法有很多冗余計算。TTP 算法發現 GP 算法有很多冗余計算，原因是在 map 階段輸出了重復的邊。為了避免GP 算法冗余計算的產生，TTP 算法定義了 3 個類型的三角形。CTTP （colored triangle type partition ）算法是針對GP 算法的 “curse of the last reducer”而被提出的，避免了不均衡。表 2 是在時間和每輪 MapReduce 中數據 shuffle大小上，對 GP、TTP、CTTP 算法的比較。運行平臺是Hadoop，集群由 40 臺機器組成，每臺機器的內存為 4 GB。由表 2 可見，CTTP 算法在時間和空間上都優于GP、TTP算法。

圖5 頂點平均分為 p 個部分（p=4 ）

圖6 3-partition Gijk

圖7 2-partition Gij

表2 GP、TTP、CTTP 算法的比較

3.3.1 GP 算法

Suri 和 Vassilvitskii 使用 MapReduce 框架提出了 GP（graph partition）算法。算法的第一步是將圖中的頂點劃分為 p 個部分，Gi=（Vi，Ei），其中，0＜i≤p，所以每個部分含有幾乎相同數目的頂點。GP算法使用內存算法計算每一個3-partition Gijk中三角形的數目，其中，0＜i＜j＜k≤p。最后根據三角形的頂點是否被分到同一個部分，將結果整合起來，得出最終的結果。如果三角形的 3個頂點都出現在同一個部分中，那么對于 3-partition Gijk，此三角形便被計算了3次。

3.3.2 TTP 算法

Park 和 Chung 針對 GP 算法的不足提出了 TTP（triangle type partition）算法。Park 和 Chung 認為 GP 算法有很多冗余計算，比如上面提到一個三角形可能被計算多次。他們發現三角形被計算多次的原因是，在 map 階段輸出了重復的邊。為了避免這個情況的產生，TTP 算法定義了3種類型的三角形。第1類三角形是三角形的3個點在同一個部分中；第2類三角形任意兩個頂點在同一個部分中，另一個在其他部分中；第 3 類三角形是指 3 個頂點都在不同的部分中。GP 算法就是重復計算了第 1類和第2 類三角形。TTP 算法為了避免過多的重復計算，定義了 inner-edge：邊的兩個頂點在一個部分中，相反的即是outer-edge。圖 8 表示不含 inner-edge 的 3＇-partition。TTP算法在 2-partition 中計算第 1 類、第 2 類三角形，在3 ＇-partition 中計算第 3 類三角形，因此減少了冗余計算，減少了時間復雜度。

3.3.3 CTTP 算法

Park 和 Silvestri針對 GP 算法的 “curseofthelast reducer”，提出了 CTTP（colored triangle type partition）算法，是第一個保證了每個 reducer 的最大輸入的算法。該算法是在MapReduce 的計算模型 MR（m，M）中提出來的，其中，m 是每個 mapper或者 reducer需要的空間，M 是整個計算中需要的空間。本算法進行 R 次 MapReduce 過程。CTTP 算法從 4-wise 獨立族函數中隨機選擇一個顏色函數 h（·），進行頂點劃分。CTTP 算法在 TTP 算法基礎上，將問題分解為子問題。子問題分為兩類：一類是（i， j，k）子問題，用來計算第 3 類三角形；另一類是（i，j）子問題，用來計算第 1 類和第 2 類三角形。CTTP 通過均勻地將 K個子問題分配給 R=pE／M round 的方法，解決一個子問題只需要一個 reducer的問題。如果 R 不是 2 或者 3，那么每一個 round 解決 K／R 個子問題。這個算法保證了每一個mapper發出同樣數量的數據對。因此這個算法避免了被一些慢的 mapper延遲了計算。

4 近似計算圖三角

由于準確計算圖三角的時空復雜度很大，同時很多應用只需要近似得到圖三角的數量，所以近年來近似算法得到了很多關注。本文將近似計算圖三角算法分為輔助算法、非流式算法和流式算法 3個類別進行介紹。

圖8 3＇-partitionGijk＇

4.1 輔助算法

輔助算法是指這類算法經常被其他計算圖三角算法引用，常常作為其他算法的一部分。

4.1.1 DOULIN 算法

Tsourakakis C E ，Kang U，Miller G L 和 Faloutsos C發明了 DOULIN［14］算法。DOULIN 算法不是處于其他計算三角形算法的對立面，而是處于所有算法的友好面。不論圖能裝進內存還是裝不進，它都非常的實用。DOULIN 對每一個邊都投擲一枚硬幣，此邊被保留的可能性是 p，被刪除的可能性是 1-p。在最后剩下的圖中找到的三角形的個數乘以 1／p3就是對原圖三角形個數的估計。

4.1.2 Colorful Function 算法

Colorful Funtion（顏色函數）［15］算法為圖中每個頂點分配一種顏色，總的顏色數是 N=1／p，其中，p 是一個小于 1的參數。當一個邊的兩個頂點被分配同一種顏色時，這個邊稱作是單色的。然后從所有的單色邊中采樣，計算采樣到的單色邊組成的三角形的個數，最后將計算的個數除以 p2，得出近似估計的三角形個數。這個算法的關鍵點是關聯采樣的邊。

4.2 靜態算法

靜態算法是基于靜態圖的，適用于離線計算。目前近似計算的靜態算法只在單機上。在此方向上的研究較少，突破也很少，以下介紹的兩種方法是有特點的算法。基于度的頂點劃分的算法實現了時間空間更低的復雜度。隨機矩陣跡算法采用了蒙特卡洛模擬方法。這兩種方法均與其他方法有明顯的區別。

4.2.1 基于度的頂點劃分算法

Kolountzakis M N［16］等人研究發現，基于度對頂點進行劃分，能得出在計算三角形時更小的運行時間上界。因為每個三角形都對應一個三元組，于是他們構造了一個三元組集合 U，這個三元組集合包括了所有的三角形。在這個集合里，均勻地選出一些三元組，標記為 1 到 s。當第 i個三元組被采樣時，如果它是一個三角形，那么 Xi為 1；如果不是，則賦值為 0。由于是均勻地選取，并且一共得出 t＇個三角形，那么 E（Xi）=t＇／|U|。因為每個 Xi都是獨立的，所以通過切諾夫界可以得到：

由于|U|≤n3，所以運行時間是 O（n3lgn／（te2））。根據度劃分頂點得出了|U|更小的上界。理由是：對于一個包含 u 的三元組（u，υ，w），如果｛u，υ｝、｛u，w｝∈E，這些三元組中含有 u的個數最多是 d（u）2。如果｛υ，w｝∈E，那么三元組中含有 u的個數最多是 m。當 d（u）2＞m 時，后者的界限更緊。所以，當頂點的度小于 m1／2時，那么它屬于低度頂點，三元組中含有低度頂點的三角形的個數最多是 m3／2。當所有頂點度之和是 2m 時，三元組中含有高度頂點的三角形的個數最多是 2m3／2。結合起來，|U|的上界是 3m3／2，所以得到 |U|≤O（m3／2），時間上界是

4.2.2 隨機矩陣跡算法

Avron H［17］采用隨機矩陣跡的方法去估計大圖中三角形的個數。該方法依據的是準確計算三角形算法里的矩陣相乘算法，采用 Monte-Carlo 模擬來估算三角形個數。每一個樣本需要 O（E）的時間，需要 O（e-2lg（1／δ）ρ（G）2）個樣本才能保證（ε，δ）-approximation，其中，ρ（G）是對圖 G稀疏的一種測量。這個算法很高效，只需要 O（V）的空間和O（lg2|V|）個樣本就能達到一個很好的估算。一個維數高的矩陣的立方計算量很大，所以這個算法生成一個隨機向量x=（xk），其中，xi～N（0，1）（正態分布）。將 y 賦值為 Ax，Ti=（yTAy）／6，循環 M=|γln2n|次，最后三角形的個數估計為

4.3 流式算法

流式算法基于動態圖流，與靜態算法相比，適用于在線計算。圖流有不同形式，主要分為任意流（arbitrary streams）和事件流（incidence streams）兩類。在任意流中，邊在流中是不重復的，且是以任意順序出現的；在事件流中，邊是按照每個頂點的鄰邊出現的，例如，首先頂點 υ1的所有鄰點出現，接著 υ2的所有鄰點出現。υ1，υ2，…，υn的順序是由輸入方確定的。根據算法通過流的次數，可以將算法又分為 one-pass算法和 multiple-passes 算法。

下面介紹一個 multiple-passes 采樣三角形的算法，這里的流是任意流，算法是 Buriol L S［18］提出的 3-passes 算法：將流中所有邊的數目計算出來，為|E|；從流中均勻選擇一條邊 e=｛a，b｝，也均勻選擇出一個頂點 υ，這個頂點屬于 V＼｛a，b｝；如果｛a，υ｝和｛b，υ｝都屬于 E，計數 β=1，否則計數 β=0。最后返回 β值。這個算法中有一定數目的估計器（estimator），每個估計器得到一個 β值，求出期望 E［β］后，三角形的個數 T ＇就估算為 E ［β］·|E|·（|V|-2）／3 。

multiple-passes 算法可以合成為 one-pass 算法，Buriol L S 將 3-passes 算法合成的 1-pass 算法是：隨機取一個頂點 υ，并在流中采樣一條邊｛a，b｝，如果能在接下來的流中檢測到邊｛a，υ｝和｛b，υ｝，則三角形計數，否則不計數。multiple-passes 算法的消耗多于 one-pass 算法［30］。

下面介紹 3 種 one-pass算法：基于鄰居采樣（Neighborhood sampling）算法、基于 2-path 和圖稀疏的算法和 TRIEST 算法，都與采樣有關。但由于采樣方法各不相同，3 種算法的時空消耗顯而易見。基于 2-path 和圖稀疏的算法需要存儲多個稀疏圖，所以空間消耗很大，TRIEST 算法對每條邊的到來都進行一次鄰點交集計算，所以時間消耗很大。3種算法的準確率也有差異。表 3是 3個算法準確度的比較。對于幾種不同的數據集，并沒有完全優勢的算法。可見對于含有不同數據意義的應用，需要采用不同的算法。

表3 3種流式算法的準確度比較

4.3.1 基于鄰居采樣算法

Pavany A 和 Tangwongsan K［19］等人設計了一個時間空間效率都挺高的圖流算法。這個算法是基于鄰居采樣的one-pass算法：首先從流中隨機采樣一條邊，然后采樣和該邊有共同頂點的邊。N（e）表示在流中與邊 e 相鄰，但是在 e邊后面到來的邊。其中，c=c（e）=|N（e）|。數據以塊的形式到達，塊的大小是 w。對于每一個邊的到來，設置 r個估計器，以 m／（w+m）的概率保留這條邊。然后采樣邊的鄰邊，以 c+（e）／（c-（e）+ c+（e））的概率從 N（e）∩B 采樣一條邊。最后判斷這兩條邊能否與后來的邊組成一個三角形。這個算法的時間空間復雜度都是 O（r+w）。

4.3.2 基于 2-path 和圖稀疏的算法

Bulteau L 和 Froese V［20］等人設計了一個基于 2-path采樣和圖稀疏的方法，來估計動態增刪圖流中三角形的數量，采用的是 one-pass。相對基礎圖流采樣對刪除邊后采樣的子圖是否仍存在的未知，圖稀疏能處理邊的刪除。該算法最大的挑戰是顯示了稀疏圖中的 2-path 采樣幾乎等同于原圖的 2-path 采樣。隨機選擇了大量的 2-path，與用其中能組成三角形的 2-path 數量去估計傳遞系數。對于圖流中每一個增刪邊的到來會更新 SME （second moment estimator），圖流完全通過將返回整體 2-path 值。與此同時，用顏色散列（coloring hash）函數族去稀疏圖流，得到數個稀疏圖。對于每一個稀疏圖，隨機采樣一定數目的 2-path判斷是否組成三角形，并計數。最后用稀疏圖中采樣的2-path 中能組成三角形的數量與采樣的 2-path 數量的比值，與整體 2-path 數量比較，去估計整個圖流中三角形的數量。該算法得到了圖流中計算三角形復雜度的下界。

4.3.3 TRIEST 算法

由于基于采樣的流算法，事先都要確定邊采樣的概率p，所以會造成一些問題。如在存儲空間有限的情況下，需要知道流的規模；采樣留下的邊的規模會增長，如果 p 較大，會溢出存儲空間，如果 p 較小，得到的結果是次優的；即使設定了特定的 p，使在流結束時恰好裝滿存儲空間，得到的結果也不是最好的。TRIEST 算法針對這些問題提出了解決方法。

TRIEST［21］算法是在 one-pass 下的，相對于只有增加邊的流算法 MSCOT［22］，它還有刪除邊的流，時刻計算三角形的數量，并且存儲空間是固定的。該算法采用水庫采樣（reservoir sampling）和隨機配對（random pairing）兩種采樣方案使得存儲空間盡可能多地被利用。由于是時刻計算三角形的數量，圖采用了時間標記 Gt，每到來一條邊，時間增長一個單位。該算法默認對一條邊的刪除一定是在對這條邊增加之后。如果設定的內存大小是 M，對于當前流入的插入邊 e=｛a，b｝，如果之前圖的大小 Gt-1不大于 M，當前邊被保留。如果之前的圖的大小已經達到過 M，這時以 M／t的概率決定直接舍棄當前邊，或者選擇刪除之前圖中的一條邊，且插入當前邊，這是標準水庫采樣的應用。若插入了當前邊，便計算當前邊是否組成三角形。對于當前流入的邊是刪除邊，計算當前邊是否在之前流入的圖中組成三角形，如果組成，便減去相應的數量。為保證存儲空間在增加邊和刪除邊的時候都能充分利用設定的內存，TRIEST 基于隨機配對做了補償策略，刪除邊需要被未來的插入邊補償。設置了兩個計數器 din和 dout。如果之前流入圖的大小Gt-1已經達到內存大小 M，當前邊是一條刪除邊，如果此刪除邊仍在 Gt-1中，din加一；如果此刪除邊之前被替換出去，不在 Gt-1中，dout加一。之后到來的增加邊會根據 din和 dout的值被保留或不被保留。如果 din、dout之和等于零，增加邊采用標準的水庫采樣方案。如果不等于零，便以 din／（din+dout）的概率保留增加邊，如果保留，din-1，否則 dout-1。TRIEST算法在完全動態的圖流中做到了無偏、低方差、高質量的估計。并且在有數十億條邊的大圖中有更小的平均估計誤差。

5 性能比較

綜上所述，在計算圖三角的算法中，準確計算圖三角與近似計算圖三角算法有區別也有聯系。準確計算中，點邊迭代算法和矩陣相乘算法是最基礎的算法。但是對于數據量越來越大的圖來說，在普通計算機上運行這些算法的時間空間復雜度非常高，并不適用。基于它們的改進算法FCNI提供了快速實現求共同鄰點的方法，也使在大規模圖中計算三角形的運行時間大大提高，但是實驗機器成本很高。外存計算算法很好地解決了圖規模過大，普通機器內存不夠用的問題。Chu 和 Cheng 提出的基于圖劃分的算法，一定程度上避免了內存小的問題，但是對于不均勻的圖來說，劃分是一個難題。Hu 提出的有效 I／O 的算法，巧妙避免了重復計算，時空復雜度為目前最好，且可以移植到不同平臺上進行計算。GP、TTP 和 GTTP 采用分布式框架為圖三角算法提供了新的平臺，提供了更多的內存，又可以并行，使時空復雜度減少。TTP、GTTP 分別針對 GP 的重復計算和冗余等待時間做了改進，在 MapReduce 框架下取得了好的效果。近似計算中，DOULION 算法和顏色函數對采樣很有幫助，被很多其他算法運用。靜態圖的計算圖三角算法中，基于度分割和隨機矩陣跡是有特點的方法，但是空間消耗都較大、效率不高。部分算法是基于動態圖流的，multiple-passes 算法時空消耗大，更多算法采用的是one-pass。近似算法大部分采用采樣方法，各有優缺點。 Pavany A 提出的鄰居采樣算法的空間效率很高，但是參數過多。Laurent提出的基于 2-path 和圖稀疏的算法效果一般，但首次達到了每邊的固定處理時間。TRIEST 算法是目前準確率最高的，且可以在固定內存中時刻計算圖流中三角形數量。近似計算應用范圍很廣，并且較準確計算來說需要的時空復雜度明顯降低，但準確度是一個關鍵問題。大部分近似算法是在準確計算的基礎上進行改進的，如矩陣跡算法是在矩陣相乘算法上加入了蒙特卡洛方法。上文幾種采樣算法是在點邊迭代算法的基礎上加入了采樣策略。

本文將近幾年的計算圖三角算法按準確計算和近似計算進行了比較，見表 4、表 5。

表4 準確計算三角形算法比較

表5 近似計算三角形算法比較

6 結束語

面對社會網絡的快速發展，圖的規模越來越大，關于圖的問題也越來越多樣化。選擇合適圖存儲模型和計算模型對圖的計算很重要。根據不同的問題需要選擇不同的解決方案，面對新的應用也要研究出新的方法。近年來出現的高效的分布式系統為圖三角算法提供了新的平臺。基于分布式的三角形計算算法的可行性越來越大，這將會成為三角形計算的下一個研究重點。

［1］ THOMAS S.Algorithmic aspects of triangle-based network analysis［J］.Phd in Computer Science，2007：26-29.

［2］ COPPERSMITH D ，WINOGRAD S.Matrix multiplication viaarithmetic progressions ［J］.Journal of Symbolic Computation，1990，9（3）：251-280.

［3］ ALON N，YUSTER R，ZWICK U.Finding and counting given length cycles［J］.Algorithmica，1997，17（3）：209-223.

［4］ THOMAS S，WAGNER D.Finding，counting and listing all triangles in large graphs，an experimental study ［C］／／The 4th International Workshop，May 10-13，2005，Santorini Island，Greece.New York：Springer，2005.

［5］ CHIBA N，NISHIZEKI T.Arboricity and subgraph listing algorithms［J］.Siam Journal on Computing，1985，14（1）：210-223.

［6］ KUMAR R，RAGHAVAN P，RAJAGOPALAN S，et al.The web as a graph：measurements，models，and methods ［C］／／The 5th Annual International Conference，July 26-28，1999，Tokyo，Japan.New York：ACM Press，2000：1-17.

［7］ LATAP M.Theory and practice of triangle problems in very large （sparse （power-law）） graphs［EB／OL］. ［2006-09-20］.http：／／arxiv.org／pdf／cs／0609116.pdf.

［8］ SEVENICH M，HONG S，WELC A，et al.Fast in-memory triangle listing for large real-world graphs［C］／／The 8th Workshop on Social Network Mining and Analysis SNAKDD，August 24-27，2008，Las Vegas，NV，USA.New York：ACM Press，2014.

［9］ CHU S，CHENG J.Triangle listing in massive networks and its applications ［C］／／The 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining， August 21-24，2011，San Diego，CA，USA.New York：ACM Press，2011：672-680.

［10］HU X C ，TAO Y F.I／O efficient algorithms on triangle listing and counting ［J］.ACM Transactions on Database System，2014，39（4）：1-30.

［11］SURI S，VASSILVITSKII S.Counting triangles and the curse of the last reducer ［C］／／The 20th International Conference on World Wide Web，March 28-April 1，2011，Hyderabad，India.New York：ACM Press，2011：607-614.

［12］PARK H M，CHUNG C W.An efficient MapReduce algorithm for counting triangles in avery large graph ［C］／／ACM Conference of Information and Knowledge Management， October 27-November 1，2013，San Francisco，CA，USA.New York：ACM Press，2013：539-548.

［13］PARK H M，SILVESTRI F，KANG U，et al.MapReduce triangle enumeration with guarantees［C］／／ACM Conference of Information and Knowledge Management，November 3-7，2014，Shanghai，China.New York：ACM Press，2014.

［14］TSOURAKAKIS C E，KANG U，MILLER G L，et al.DOULIN：counting triangles in massive graphs with acoin ［C］／／The 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining，June 28-July 1，2009，Paris，France.New York：ACM Press，2009：837-846.

［15］PAGH R，TSOURAKAKIS C E.Colorful triangle counting and Mapreduce implementation ［J］.Information Processing Letters，2011，112（7）：277-281.

［16］KOLOUNTZAKIS M N，MILLER G L，PENG R，et al.Efficient triangle counting in large graphsvia degree-based vertex partitioning［J］.Internet Mathematics，2010，8（1-2）：15-24.

［17］AVRON H.Counting triangles in large graphs using randomized matrix trace estimation ［J］.In Large-Scale Data Mining：Theory and Applications （KDD Workshop），2010.

［18］BURIOL L S，FRAHLING G，LEONARDI S，et al.Counting triangles in data streams ［C］／／The 25th ACM SIGMOD-SIGACTSIGART Symposium on Principles of Database Systems，June 26-28，2006，Chicago，Illinois，USA.New York：ACM Press，2006：253-262.

［19］PAVANY A，TANGWONGSAN K，TIRTHAPURAZ S，et al. Counting and sampling triangles from a graph stream ［J］. Proceedings of the Vldb Endowment，2013，6（14）：1870-1881.

［20］BULTEAU L，FROESE V，KUTZKOV K，et al.Triangle counting in dynamic graph streams ［EB／OL］. ［2015-07-14］.http：／／itu.dk／people／konk／papers／dtc_full.pdf.

［21］STEFANI L D，EPASTO A，RIONDATO M，et al.TRIEST：counting local and global triangles in fully-dynamic streams with fixed memory size［EB／OL］.［2016-02-24］.http：／／arxiv.org／abs／1602.07424.

［22］LIM Y，KANG U.MASCOT：memory-efficient and accurate sampling for counting local triangles in graph streams ［C］／／The 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining KDD，August 10-13，2015，Hilton，Sydney.New York：ACM Press，2015：685-694.

Research progress of triangle counting in big data

JIN Hongqiao，DONG Yihong
Faculty of Electrical Engineering and Computer Science，Ningbo University，Ningbo 315211，China

Counting triangles in a graph is an important step to calculate the clustering coefficient and the transitivity ratio of the network，which is widely used in important role identification，spam detection，community discovery，biological detection etc.Counting triangles algorithm is mainly faced with two major problems of space-time consumption and accuracy.The representative algorithm of the counting triangles in the big graph was introduced.There existed two kinds of algorithms，which were exact counting algorithm and approximate counting algorithm.Exact counting algorithms were divided into internal memory algorithm，external memory algorithm and distributed algorithm.The space-time consumption or I／O consumption of exact counting algorithm was very large. Approximate counting algorithms were divided into auxiliary algorithm，static algorithm and streaming algorithm.In the end，the counting triangles algorithms were summarized.

exact counting，approximate counting，triangle，graph

TP391

：A

10.11959／j.issn.1000-0801.2016169

金宏橋（1993-），女，寧波大學信息科學與工程學院碩士生，主要研究方向為大數據、數據挖掘。

董一鴻（1969-），男，博士，寧波大學教授，主要研究方向為大數據、數據挖掘和人工智能。

2016-04-05；

：2016-06-12