張 米,張 暉,楊春明 ,李 波,3,趙旭劍
(1.西南科技大學 計算機科學與技術學院,四川 綿陽 621010; 2.西南科技大學 理學院,四川 綿陽 621010;3.中國科學技術大學 計算機科學與技術學院,安徽 合肥 230027)
社交網絡是通過社會成員之間的交互形成的相對穩定的社會結構,具有復雜的網絡結構和動態傳播機制,對信息的傳播和擴散起著至關重要的作用。在某一事件的傳播過程中,社交網絡中對事件的傳播與發展具有關鍵導向作用且社會影響力較大的部分節點,被稱作“意見領袖”(opinion leader)。越來越多的研究表明,意見領袖在信息傳播擴散、網絡輿情監控、網絡口碑效應等社會現象中具有不可估量的作用[1-2]。因此,社交網絡中意見領袖的識別與挖掘逐漸成為當前的研究熱點。
目前,針對意見領袖挖掘的研究多集中在社交網絡的拓撲結構特征上,重點關注節點的重要性。然而微博作為當今社交網絡中最盛行的網絡交流平臺之一,與其他社交應用相比,其用戶屬性不同,信息交互方式也不同,并且意見領袖所產生的社會影響力與特定的話題緊密相關,不同話題下表現的影響力也大相徑庭。在某個特定的話題下,一個擁有大量粉絲的用戶,若其活躍度很低,也很難在該話題下擁有與粉絲數正相關的社會影響力。基于Twitter的研究也表明:在信息的傳播過程中,用戶的影響力與其粉絲數量成弱相關關系[3-4]。因此,在挖掘意見領袖時,還需要強調微博信息的話題特征、網絡節點的屬性特征、行為特征以及傳播規律,而非僅僅注重網絡的拓撲結構。
針對上述問題,本文提出了一個融合網絡結構特征、用戶個體屬性以及用戶交互行為的多特征信息傳播模型EIC,在信息動態傳播的過程中定量分析用戶間的影響能力,以此挖掘微博特定話題下最具影響力的節點集合。
目前社交網絡中意見領袖的挖掘重點關注網絡拓撲結構、用戶內容、用戶交互行為等多個方面,主要分為三類方法。
(1) 用戶屬性分析法
基于對用戶節點自身屬性的分析。許丹青等[5]從用戶的閱讀概率角度引入用戶的發文行為、瀏覽行為與標簽社區小世界屬性等對用戶的影響力進行建模。Lin等[6]通過對用戶多種屬性的分析,提出了挖掘Facebook粉絲頁面意見領袖的聚類算法。用戶屬性分析法在構建屬性指標時,相應指標的權重因素需要事先給出,一定程度上取決于研究者的主觀意向,因而挖掘結果波動程度較大。此外,該類方法普遍缺乏對網絡拓撲結構的考慮,存在一定的局限性。
(2) 網絡結構分析法
側重從網絡結構的角度挖掘意見領袖。Weng等[7]分析相關話題下用戶間的鏈接關系,提出了TwitterRank算法來挖掘特定話題下具有影響力的Twitter用戶。吳峴輝等[8]考慮用戶固有屬性和網絡結構,提出了OpinionLeaderRank算法來挖掘微博話題的意見領袖。網絡結構分析法著重考慮網絡拓撲結構,對于用戶個體屬性以及行為特征考慮不夠全面。
(3) 信息交互分析法
通過分析用戶發表信息的影響力及傳播特性來反映用戶的影響力。朱玉婷等[9]考慮節點間的社交關系以及主題分布,構建了基于主題的信息傳播模型TPM。Yang等[10]考慮非相鄰節點情況以及信息傳播延遲,提出了基于定量方法的中間關系算法來識別意見領袖節點。Jendoubi等[11]融合用戶在網絡結構中的重要性以及用戶消息的普及范圍,提出了基于Twitter社交網絡的證據影響最大化模型。信息交互分析法重點關注傳播模型在特定網絡結構上的擴散,較少考慮節點屬性和行為特征。
在采用信息交互分析法挖掘意見領袖時,社交網絡中節點的影響力表現在節點行為在特定模型下的傳播范圍,而節點行為的傳播主要依賴影響傳播概率。在傳統獨立級聯模型中[12],影響傳播概率通常由固定常數表示,或由網絡拓撲結構特征得出。但在社交網絡中,節點的影響力不僅與節點的個體差異有關,如用戶的基本特征、行為特征等,還與節點之間的關系特征有關。此外,由于微博具有顯著的話題特征,導致意見領袖具有話題依賴性,因此,在挖掘微博意見領袖時,話題特征是不可忽略的因素。
微博話題信息傳播的過程可看作一幅有向加權網絡圖G(V,E,P,W),如圖1所示。圖中,圓圈表示參與話題消息發表、轉發、評論的微博用戶,構成了用戶節點集合V;有向線段表示信息在社交網絡下用戶交互過程中的傳播方向,構成了有向邊集合E。wi、wj等表示相應下標節點i、j的權重,構成了節點權重集合P;wij、wjk等表示相應下標有向邊eij、ejk的權重,構成了有向邊權重集合W。

圖1 微博信息傳播有向加權網絡圖G
在獨立級聯模型中[12],用戶間的影響傳播概率通常在一定范圍內隨機取值,忽略了社交網絡中影響傳播概率的差異性。而在真實的信息傳播過程中,節點間的影響傳播概率與節點特征、節點間交互特征有關。因此,本文將信息傳播者i的節點特征wi、信息接受者j的節點特征wj以及i、j間的交互特征wij融合成信息傳播模型中的影響傳播概率,如圖2所示。

圖2 影響傳播概率的權重向量
2.2.1用戶節點特征提取
根據意見領袖的定義,本文將從以下三個角度評估微博網絡中的用戶節點:
(1) 用戶影響力(influence):用戶發表的微博消息對其他用戶造成的影響。在微博平臺下,節點i的影響力可表示為式(1):
(1)
式(1)中,Nweiborep表示用戶發表的信息被轉發的次數,用來衡量用戶發布的微博的價值大小;Nweibocom表示用戶發表的信息被評論的次數,用來衡量用戶發布的微博的交流與傳播的熱度;λ1表示信息被轉發數屬性的比例系數。
(2) 用戶活躍度(activity):體現用戶節點在話題傳播過程中主動參與的積極性。在微博平臺下,節點i的活躍度可表示為式(2):
(2)
式(2)中,Ncreateweibo表示原創微博數量,用來衡量用戶表達思想、發表觀點的意愿;Nrepweibo表示轉發微博數,用來衡量用戶傳播、擴散消息的積極性;Ncomweibo表示評論微博數,用來衡量用戶對其他用戶的言論關注度;λ2、λ3表示相應屬性的比例系數。
(3) 用戶權威度(authority):衡量用戶的知名度以及影響力。在微博平臺下,節點i的權威度可表示為式(3):
(3)
式(3)中,Nfans表示用戶的粉絲數,用來衡量用戶受關注的程度,以及受其影響的潛在用戶的數目;Nmutual表示相互關注數,用來衡量用戶穩定的信息來源和擴散途徑的多少;Nattention表示關注數,用來衡量用戶信息傳播來源的廣泛性以及可靠性;λ4、λ5表示相應屬性的比例系數。
節點的詳細屬性衡量指標如表1所示。

表1 多特征信息傳播模型衡量指標
從影響力influ(i)、活躍度activ(i)和權威度auth(i)三個角度評估節點i后,節點權重wi可表示為式(4):
(4)
式(4)中,μ1、μ2表示相應屬性的比例系數。
2.2.2邊的特征提取
本文根據用戶間的轉發、評論關系構建微博網絡圖中的有向邊,邊權重代表聯系緊密強度。因此,在計算邊權重時,考慮了節點間的轉發、評論次數,次數越多,節點間的聯系越密切,越容易受鄰居節點影響。在微博平臺中,節點i與節點j間的有向邊eij的權重wij可表示為式(5):
wij=ηNrep+(1-η)Ncom
(5)
式(5)中,Nrep表示節點j轉發節點i的微博數;Ncom表示節點j評論節點i的微博數;η表示相應屬性的比例系數。
2.2.3影響傳播概率的計算
(1) 指標歸一化
影響傳播概率由數據的相關屬性以及各屬性的權重系數決定。相關屬性的度量是影響精確度的主要因素。在實際數據中,各屬性取值范圍不一,需要進一步做標準化處理,本文采用Min-Max標準化方法,將不同屬性的取值映射到[0,1]之間。
(2) AHP確定權重
各屬性的權重系數是影響精確度的另一因素,本文采用定性與定量相結合的AHP多準則決策方法對其進行確定[12]。
首先根據“一樣重要”“稍微重要”“明顯重要”“重要得多”“極端重要”等標準對各層次內屬性指標進行兩兩比較,采用1-9標度法,確定每個層次內各指標的相對重要性,得到判定矩陣,如表2所示;然后進行一致性檢驗;再采用方根法計算判定矩陣的特征向量,得到各層次內屬性指標的權重系數,進而分別計算出影響力、活躍度、權威度、用戶節點權重、邊權重以及影響傳播概率六個層次上的權重系數,結果如表3所示。

表2 節點一級屬性判定矩陣

表3 影響傳播概率評價指標與權重
(3) 傳播概率計算
在信息的傳播過程中,分析信息傳播者和信息接受者的結構特征、個體特征以及行為特征,根據微博數據計算出信息傳播者的節點權重wi、信息接受者的節點權重wj、以及兩者間邊權重wij,節點間一對一的影響傳播概率可以表示成以上三個要素的線性組合。具體計算公式可表示為式(6):
pij=α1wi+α2wj+(1-α1-α2)wij
(6)
式(10)中,α1、α2表示相應屬性的比例系數。
2.3.1意見領袖的定義
基于EIC模型的意見領袖挖掘是在給定的EIC模型下,獲取一個大小為k的節點集合,使得該集合在微博有向加權圖G(V,E,P,W)中可以將信息傳播擴散到最多的節點,這k個節點即是所要挖掘的意見領袖。
2.3.2意見領袖的挖掘
Kempe、Kleinberg和Tardos證明在多種傳播模型下,挖掘影響力最大的種子節點是NP-hard問題[13]。因此,在衡量種子選擇算法的近似準確性以及時間復雜度后,本文借鑒Leskovec等提出的CELF算法[14],并進行優化,如算法1所示。在計算節點的邊際收益時,采用了EIC模型中融合用戶多種屬性的動態性影響傳播概率代替以往傳播模型中的靜態傳播概率。差異性的傳播概率同時考慮了信息傳播者傳播信息的能力和信息接受者接受信息的意愿,更加接近真實社交網絡中的影響力。

算法1 基于EIC模型的CELF算法輸入:微博有向加權圖G(V,E,P,W),話題特征T,意見領袖個數k輸出:話題相關的意見領袖集合S算法描述:1begin2 S=?;3 //S:thesetofseednodes4 Q=?;5 //Q:sortedlistindecreasingorderaccordingtothemar?ginalgainofnodes6 foreachv∈Vdo7 marginalGain(v);8 //marginalGain()estimatethemarginalgainofv9 Q.add(v);10 end11 nodeMax←Q.pop();12 S.add(nodeMax);13 while|S|≤kdo14 nodeMax←Q.pop();15 updateMarginalGain(nodeMax);16 ifnodeMax.MG≥Q.getFirst().MGthen S.add(nodeMax);17 elseQ.add(nodeMax);18 end19end
算法第6~10行:迭代計算每個節點的邊際收益,并根據邊際效益值的降序排列將節點保存在一個有序列表中;第11~12行:選取有序列表的top節點作為首個種子節點;第13~18行:重新評估列表top節點的邊際效益,并對列表重新排序,如果top節點依舊保持在第一個位置,則該節點為種子節點,否則重新評估新列表的top節點的邊際效益,直到獲取到k個種子節點為止。
本文基于新浪微博的開放API獲取“嫦娥三號”“兩會房價”“兩會霧霾”及“單獨二胎”四個代表性話題在一定時間范圍內的相關傳播數據,挖掘特定話題下的意見領袖集合。其中每個話題均包含用戶屬性信息、用戶交互信息以及微博信息,詳細信息見表4。

表4 實驗數據集信息
為了驗證本文模型的普適性,對上述數據構建的微博有向加權圖進行特征統計,統計結果如表5所示。

表5 實驗網絡圖特征統計
其中,平均度是網絡中所有節點度的平均值,而節點的度是與該節點連接的邊數;平均聚類系數是網絡中所有節點聚類系數的平均值,而節點的聚類系數是節點與其鄰居節點之間存在的邊數與最多可能有的邊數之比;這兩個特征衡量了網絡的連通性。網絡直徑是網絡中任意兩個節點之間距離的最大值;平均路徑長度是網絡中所有節點對之間距離的平均值;這兩個特征衡量了網絡的傳輸效率。從表5可以看出,四個網絡的各個統計特征均有所差異,造成各個網絡的緊密程度也大小不一。
為驗證本文提出的EIC算法的性能,將它與多種拓撲結構類算法進行比較,分析網絡拓撲結構特征、行為特征和用戶屬性特征對意見領袖挖掘結果的影響。實驗對比的算法及參數設置描述如下:
(1) PR算法(PageRank):根據網頁之間的超鏈接關系,利用均分“投票”思想標識網頁的等級或重要性,α值設置為0.85。
(2) OLR算法(OpinionLeaderRank)[8]:根據用戶間話題相關的信息交互關系構建用戶行為網絡圖,利用隨機游走思想挖掘微博中意見領袖,α值設置為0.55。
(3) MR算法(Microblog-Rank)[15]:依據用戶間的評論關系構建網絡圖,擴展PageRank算法來分析用戶的網絡重要性,α值設置為0.55。
意見領袖的評估尚未有公認、統一的標準體系。本文根據意見領袖的定義,采用擴展核心率和影響傳播范圍兩種評估指標,從個體屬性、網絡結構以及信息傳播擴散能力多個方面對意見領袖進行綜合評價[8,12]。既考慮了意見領袖的靜態特征,又衡量了意見領袖的動態傳播能力。同時,采用意見領袖一致性指標評估意見領袖的話題依賴程度[16]。
(1) 擴展核心率ECR(extended core ratio)
從用戶的個體屬性和網絡結構兩個方面衡量意見領袖的代表性,計算公式如下:
式中,ai表示用戶屬性權重比率;bi表示網絡核心率;ε表示用戶屬性權重比率在擴展核心率中占的比重;φ表示節點的入邊在網絡核心率中所占的比重。
(2) 影響傳播范圍IS(influence spread)
從信息動態擴散的角度衡量意見領袖的感染力。基于微博社交網絡的特點,將微博網絡中用戶i的影響傳播范圍定義為:在一定時間范圍內,轉發或評論用戶i微博的用戶數。用戶i的影響傳播范圍可表示為式(10):
(10)
式(10)中,Rep(i,j)表示用戶i的微博被用戶j轉發;Com(i,k)表示用戶i的微博被用戶k評論。為獲得用戶較為精確的影響傳播范圍,本文采用Monte-Carlo方法模擬10 000次傳播過程,取10 000次平均值作為用戶最終的影響傳播范圍。
(3) 意見領袖一致性LC(leader consistent)
衡量不同話題下意見領袖集合的交叉程度,計算公式如下:
式中,leader(X)表示X話題中的意見領袖集合,ordinary(X)表示X話題中的普通用戶集合。
3.4.1不同種子集的擴展核心率對比
為了驗證EIC算法的有效性,將EIC算法與OLR、MR以及PR算法挖掘結果的擴展核心率進行對比。經實驗分析,當ECR中的參數ε取值在0.4以上,φ取值在0.7以上時,擴展核心率較為穩定,因此實驗中ε、φ分別設置為0.4、0.7。將種子節點數量依次從5遞增到30,對比不同算法挖掘出的種子集的平均擴展核心率。實驗結果如圖3~6所示。

圖3 “兩會房價”種子集擴展核心率曲線

圖4 “兩會霧霾”種子集擴展核心率曲線

圖5 “嫦娥三號”種子集擴展核心率曲線
從實驗結果來看,EIC算法的擴展核心率相對較小,尤其是種子節點數大于20時,遠小于其他算法的擴展核心率。文中為方便計算,將所有節點的擴展核心率由高到低排序,重新賦值為1~N(N表示節點數),進而擴展核心率越低,代表節點屬性權重比率以及網絡核心率越高,意見領袖能力越強,因而該算法在擴展核心率指標上優于其他算法。此外,EIC算法在選取意見領袖時,不僅考慮了節點的個體屬性、網絡結構特征,而且考慮了節點的信息傳播能力;而PR算法僅考慮了網絡鏈接關系,OLR算法和MR算法僅考慮了交互特征以及部分節點屬性特征。
EIC算法不僅擴展核心率較低,其穩定性也優于其他三種算法。圖3~6中,EIC算法的擴展核心率變化范圍始終最小,曲線過渡平緩,穩定性相對較好。而圖4中的PR算法在種子節點數為25~30時,其擴展核心率急劇增大,數據質量不高,且曲線穩定性較差;從圖5中可以看出,雖然在種子節點數為15附近時,其他三種算法的擴展核心率小于EIC算法,但曲線整體波動較大,穩定性相比EIC算法較差;在圖6中,其他三種算法的擴展核心率不僅數值較大,而且曲線的波動幅度也很大,穩定性相對較差,而EIC算法的擴展核心率曲線始終在較低位置平緩變化,穩定性較好。

圖6 “單獨二胎”種子集擴展核心率曲線
因此,在統計分布特征不同的多個話題集下,EIC算法挖掘出的意見領袖在擴展核心率上優于其他拓撲結構類算法,且具有較好的穩定性。
3.4.2不同種子集的影響傳播范圍對比
為進一步研究分析EIC算法,將種子節點數量依次從5遞增到30,對比不同算法產生的種子集的影響傳播范圍。實驗結果如圖7~10所示。

圖7 “兩會房價”種子集影響傳播范圍曲線

圖8 “兩會霧霾”種子集影響傳播范圍曲線

圖9 “嫦娥三號”種子集影響傳播范圍曲線

圖10 “單獨二胎”種子集影響傳播范圍曲線
從圖7~10中可以看出,EIC算法和其他三種算法的影響傳播范圍大致相同,但在某些特定的種子節點數下(如圖7、圖10中種子節點數10附近;圖8、圖9中種子節點數30附近)略高于其他拓撲結構類算法,這是因為EIC算法在選取意見領袖時,不僅考慮了個體屬性、網絡結構特征,還考慮了用戶節點的信息傳播能力。
從圖8可以看出,EIC算法的影響傳播范圍相對較大,信息擴散能力較強,并且始終超出OLR算法的影響傳播范圍;在圖9中,EIC算法的傳播范圍雖然略低于PR算法,但這是因為“嫦娥三號”數據集的平均路徑長度相對較小,導致節點間的信息傳遞速度相對較大,因而越有利于拓撲結構類算法,不具有普遍性;在圖10中,當種子節點數大于10時,EIC算法的影響傳播范圍基本處于最大,優于其他三種算法。
因此,在統計分布特征不同的多個話題集下,EIC挖掘出的意見領袖在傳播范圍上整體優于其他拓撲結構類算法,尤其話題網絡的平均路徑長度越大,這種優勢越明顯。
3.4.3意見領袖的話題特征分析
表6展示了EIC算法在四個不同的話題下挖掘出的排名前十的意見領袖。從表中可以看出,“人民日報”“央視新聞”“南方都市報”等用戶在多個話題中都為意見領袖,但多數用戶僅為某個特定話題中的意見領袖。

表6 EIC算法在不同話題下的前十意見領袖

續表
對意見領袖一致性檢測結果如表7所示,意見領袖一致性相對較小,只有少量用戶可以成為多個話題中的意見領袖,大部分意見領袖只出現在特定話題中,各個話題間的意見領袖相對獨立。進而說明意見領袖一致性越小,話題依賴程度越大,意見領袖的話題特征越明顯。因此,在挖掘微博平臺的意見領袖時,話題特征也是不可忽略的因素。

表7 意見領袖一致性檢測
社交網絡中意見領袖的挖掘對于輿情監控、信息擴散等方面具有重要的應用價值。用戶在社交網絡中以話題、興趣愛好等形式迅速聚合為群體,實現群體交互關系。本文以用戶交互關系為基礎,將分散的用戶個體聚合到大型、復雜的加權傳播網絡中,提出了一個基于擴展獨立級聯模型,并融入網絡結構特征、個體屬性和行為特征的意見領袖挖掘模型。本文在真實的微博數據集上對模型進行驗證,實驗結果表明基于該模型挖掘出的意見領袖質量更高。
后續工作可以考慮以下兩點:第一,在本文融合多種屬性構建的模型中未考慮微博文本內容以及文本情感傾向,下一步可以增加屬性維度,完善傳播模型;第二,影響傳播概率采用的是最簡單的線性加權,未來可以通過機器學習相關算法優化參數,采用邏輯回歸等方法進行信息融合,從而提高微博平臺下挖掘意見領袖的精確度。
[1]Vespignani A.Modeling Dynamical Processes in Complex Socio-technical Systems[J].Nature Physics,2011,8(1):32-39.
[2]Bond R M ,Fariss C J,Jones J J,et al.A 61-million-person experiment in social influence and political mobilization.Nature ,2012,489(7415):295-298.
[3]Asur S,Huberman BA,Szabo G,et al.Trends in social media:Persistence and decay[J].Social Science Electronic Publishing,2011.
[4]Cha M,Haddadi H,Benevenuto F,et al.Measuring User Influence in Twitter:The Million Follower Fallacy[C]// International Conference on Weblogs and Social Media,Icwsm 2010,Washington,Dc,Usa,May.DBLP,2010.
[5]許丹青,劉奕群,張敏,等.基于在線社會網絡的用戶影響力研究[J].中文信息學報,2016,30(2):83-89.
[6]Lin K C,Wu S H,Chen L P,et al.Finding the Key Users in Facebook Fan Pages via a Clustering Approach[C]//Proceedings of IEEE International Conference on Information Reuse and Integration.IEEE,2015:556-561.
[7]Weng J,Lim E P,Jiang J,et al.TwitterRank:finding topic-sensitive influential twitterers[J].Wsdm,2010:261-270.
[8]吳峴輝,張暉,楊春明,等.一種話題相關的微博意見領袖挖掘算法[J].小型微型計算機系統,2014,35(10):2296-2301.
[9]Yang L,Qiao Y,Liu Z,et al.Identifying opinion leader nodes in online social networks with a new closeness evaluation algorithm[J].Soft Computing,2016:1-12.
[10]朱玉婷,李雷,施化吉,等.社會網絡中基于主題的影響力最大化算法[J].計算機應用研究,2016,33(12):3611 -3614.
[11]Jendoubi S,Martin A,Liétard L,et al.Two Evidential Data Based Models for Influence Maximization in Twitter[J].Knowledge-Based Systems,2017,121:58-70.
[12]Kempe D,Kleinberg J,Tardos E.Maximizing the spread of influence through a social network[C]//Proceedings of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2003:137-146.
[13]Saaty T L.Basic theory of the analytic hierarchy process:how to make a decision[J].Revista De La Real Academia De Ciencias Exactas Físicas Y Naturales,2007,93(4):395-423.
[14]Leskovec J,Krause A,Guestrin C,et al.Cost-effective outbreak detection in networks[C]//Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2007:420-429
[15]LinY,LiH,Liu X,et al.Hot topic propagation model and opinion leader identifying model in microblog network[J].Abstract andApplied Analysis,2013,36(2):360-367.
[16]劉志明,劉魯.微博網絡輿情中的意見領袖識別及分析[J].系統工程,2011,29(6) :8-16.

張米(1992—),碩士研究生,主要研究領域為數據挖掘、社交網絡。E-mail:zhang_mi66@163.com

張暉(1972—),通信作者,博士,教授,主要研究領域為文本挖掘、知識工程。E-mail:zhanghui@swust.edu.cn

楊春明(1980—),碩士,副教授,主要研究領域為文本挖掘、知識工程。E-mail:yangchunming@swust.edu.cn