基于二部配置模型的網絡用戶分組及重要回復者識別

2021-12-14 09:11:40張亞茹唐錫晉

系統工程學報 2021年5期

關鍵詞：用戶

張亞茹, 唐錫晉

(1.中國科學院數學與系統科學研究院,北京 100190;2.中國科學院大學,北京 100049)

1 引言

當今社交媒體迅速發展,越來越多的人習慣通過微博、論壇和媒體網站瀏覽感興趣的內容,獲取網絡輿情,參與話題討論,發表個人所感.Mohbey 等[1]以意大利選舉期間的帖子為語料,定義了政治界主要討論的農業、基礎設施建設、教育以及就業等9 大類選舉問題,并使用深度學習方法將用戶發表的言論劃分為上述9類,以預測用戶關注的焦點.目前也有許多關于輿情事件與社會網絡用戶影響力的研究.學者們研究了確定高影響力事件,抽取事件要素的方法[2,3],開展了文本聚類、話題分析等工作[4?6].對于社會網絡中用戶影響力的研究,主要是從用戶網絡屬性,用戶行為方式和互動規律,用戶距離等角度出發進行探索的[7?11].隨著粉絲經濟,直播帶貨,廣告推薦,新聞推送的興起,挖掘網民興趣偏好,精準定位用戶群,為不同群體推薦其感興趣的事物,對于提高網絡營銷效益,及時獲取民意具有重要意義.Liao 等[12]研究了一種基于關聯規則的推薦方法.首先通過問卷調查考察了多種社會網絡用戶進行在線社會網絡營銷的經歷.接著根據這些用戶的網絡行為和偏好對他們聚類,并探索用戶畫像、社會網絡管理、社會網絡行為、在線購買行為、社會網絡營銷以及個性化推薦間的關聯.最后基于關聯規則得到的知識圖為每個群體推薦其可能會購買的物件.用戶分組的效果是群體推薦的關鍵.

社會網絡用戶的分組依賴于圖上的社區劃分.目前已有許多對單部圖進行社區劃分的方法,如基于模塊度優化的算法[13],基于節點表示學習的方法[14,15].由于現實中存在很多包含兩種節點類型的二部圖,學者們也研究了二部圖上的社區劃分方法.二部圖的社區劃分,分為兩種情形,一種是在整個二部圖上同時對兩種類型的節點進行社區劃分,另一種是通過某種方式將二部圖映射為僅包含同一節點類型的單部圖,從而對每一類節點執行單部圖上的社區劃分.對于前者, 主要是在單部圖社區劃分算法基礎上改進距離度量方式[16],或者是模塊度衡量方式[17,18].這類方法沒有區分節點類型,未充分利用二部關聯關系.Tackx等[19]提出COMSIM 算法用于二部圖社區劃分.首先以同類節點的共同鄰居數作為單部圖中相應邊的權重(節點間的相似度),接著將映射得到的單部圖中每個環具有最大連接權重的兩節點作為各社區的核心,最后對于每個非核心節點選擇其與社區所有節點間相似度總和最大的社區作為其所屬社區.該方法通過直接映射的方式獲取單部圖,會造成節點連接稠密,且包含相似性不高的連邊.Cui 等[20]使用二部網絡中的單部社區結構實現節點聚類.首先通過二部網絡的拓撲性質,構造二部聚類三角形,接著通過這種二部聚類三角形將二部網絡映射為兩個加權的單部網絡,然后從加權的單部網絡中抽取全部最大子圖,通過聚類閾值合并最大子圖實現節點聚類.該方法基于對子圖的合并得到社區,可能會造成同一社區多種不一致子類節點群的情況.已有的社會網絡用戶分組研究主要根據用戶畫像相似性、直接的交互關系建立用戶間的連邊,進而借助單部圖的社區劃分算法得到用戶群[21?23].但是面臨著很多用戶未填寫個人信息或者所提供信息與分組類別關聯性不大、大型社會網絡中用戶連接稀疏等瓶頸.社交媒體中的用戶按照熱度,可以分為兩個層級,一類是發布熱點話題的熱門用戶或者頂級用戶,另一類是普通用戶,通常普通用戶傾向與熱門用戶建立社會關系,如回復、轉發等,此關聯可能蘊含了用戶的話題偏好.如果能夠利用這種關聯進一步衡量頂級用戶間的相似性,那么將為用戶分組提供新思路.

社會影響力研究用于獲取社會網絡層面富有影響力的關鍵節點,而對于個體層面的自我網絡,則更關注與其關聯緊密的群體,以及他們間的交互、相互作用.已有的相關研究大多集中于后者,如預測個體所發帖子的回復者,預測回復內容等.回復者預測是網絡用戶回復行為研究方向的熱點,按照任務設定有分類、排序兩大類方法.Schantl 等[24]基于回復者關注話題與帖子話題相似性這一話題特征,描述社會關系的社會特征,以及帖子流行特征來對用戶是否會回復某條帖子進行二分類預測,并發現相比于話題偏好,社會關系是更為重要的回復行為影響因子.Yuan 等[25]基于互惠、時序和上下文特征考慮友誼關系動態,并結合排序模型預測用戶的哪些朋友將更有可能回復其發布的某條帖子.但是很多時候用戶的好友僅僅點贊或者瀏覽,特別是對于頂級用戶,好友關系并不是一個用于預測回復者的較為有效的社會特征.如果事先識別出用戶的歷史重要回復者,并添加這一社會關系特征可增加預測的準確性.本文聚焦于確定個體的歷史重要回復者,即易與該個體建立回復關系的群體,這將有助于回復者預測任務的開展,且在消息傳播機制中,其它用戶的回復也加大了原帖的可見性,因此對于用戶發布的負面新聞,輿情管理者通過限制其重要回復者的發言或制約消息傳播;對于用戶發布的正面新聞,即時推送給重要回復者,引起追隨,加速消息傳播.

Saracco 等[26]提出了一種基于熵的空模型——二部配置模型(bipartite configuration model,BICM),實現了將二部圖映射為單部圖,這為二部圖上單模節點的社區劃分提供了可能.已有基于該模型的實際應用,如在世界貿易網絡中,確定國家群以及產品群;在用戶影評網絡中,確定電影的分組;以關于選舉的帖子為數據源,根據未驗證用戶對驗證用戶的轉帖行為,確定用戶的政治聯盟,考慮用戶與帖子間的發帖與轉發貼有向關系識別社會網絡的重要傳播者[27].受以上研究工作的啟發,本文嘗試將BICM 應用到社交媒體場景下頂級用戶、帖子和普通用戶間基于發帖關系以及回復關系的二部圖中,期望獲取具有不同話題偏好的用戶組,并識別頂級用戶的重要回復者.相較于文獻[28]在移動情境感知環境下挖掘用戶行為模式,以開展精準營銷的個性化推薦服務,本文所開展的用戶分組研究工作則強調從個體行為獲取群體特征,以推動下游基于群體的新聞推薦的任務.具體的,以天涯論壇為例,視天涯雜談版塊“年度拾英”用戶為頂級用戶,頂級用戶一年內在天涯雜談發帖的回復者為普通用戶,由普通用戶的回復行為使用BICM 建立頂級用戶間的連邊,進而對圖劃分,實現頂級用戶分組,并根據用戶發帖類型探索每組用戶的話題偏好.接著根據普通用戶對各頂級用戶組的極化回復,確定普通用戶組別.再建立頂級用戶與發帖間的二部圖、全部回復者與回帖間的二部圖,聯合BICM 與二部部分配置模型(bipartite partial configuration model,BIPCM)確定頂級用戶的重要回復者.通過該方式得到的每組用戶,內部關聯緊密,外部稀疏連接,且具有較為一致的話題偏好.獲取的重要回復者對相應的頂級用戶依附度很高,是相應頂級用戶的高概率消息受體及反饋者.此外,發現存在重要回復者的頂級用戶多發表負面情緒的新聞,此時重要回復者帶有負面情緒的回復也居多.因此對于影響網絡環境的負面新聞,除了對相應發帖人進行管控外,限制重要回復者的回復也很重要.

2 頂級用戶發帖回帖標題聚類分析

天涯論壇是目前中國最活躍的論壇之一,包括天涯雜談、時尚資訊和球迷一家等多個版塊,其中天涯雜談是關于民生的版塊,它以一年內用戶在該版塊所發帖子的總點擊量為排序指標,給出了前80 位天涯拾英用戶,本文以之為頂級用戶,于2019–11–07 爬取這些頂級用戶過去一年中的發帖,發帖下的回復(并解析得到各頂級用戶的回復者),用戶畫像,以及頂級用戶所做的回復.其中2 位用戶因為被封殺或者刪除賬戶無法爬取.

頂級用戶一年內在天涯雜談的發帖共566 條,一年內在天涯雜談回復的帖子數共742 條,使用自然語言處理中的預訓練模型Bert1https://zhuanlan.zhihu.com/p/48612853表示每個帖子標題向量,形成1 308×768 的二維數組,已有研究表明低維度的向量聚類效果更好[4],因此本文訓練自編碼器,將768 維數據壓縮到2 維.

具體的,從均隸屬于天涯雜談版塊的頂級用戶發帖以及所回復的原貼的標題向量中選取1 108 條作為訓練集,另外的200 條作為測試集,設置一個編碼器與一個解碼器,當解碼得到的向量與原向量的均方差損失很小時,以編碼器結果作為標題低維向量表示.設置batch_size = 64,當迭代輪數為200 時,訓練損失達到0.068 7,測試集損失達到0.065 0,迭代終止,保存模型,得到高維向量編碼結果.?

使用K-Means 對表達成二維向量的頂級用戶一年內在天涯雜談的發帖進行聚類,根據帖子標題向量在二維坐標系中的分布,本文將簇數設置為4,最終得到的4 個帖子簇分別是日常生活型,社會風險型,故事敘述型,地區風險型.圖1 分別顯示每位用戶各種類型發帖數目以及比例.發帖數目多的用戶,其發帖類型呈現多樣性,但仍有偏重.

使用K-Means 對二維向量表示的頂級用戶一年內在天涯雜談所回復的原帖對應的標題聚類,仍然聚集成了上述4 種類型的簇.圖2 分別顯示每位用戶回復的帖子中各種類型帖子的數目以及比例.

圖2 頂級用戶回復的帖子類型分布Fig.2 Distribution of types of posts replied by top users

各用戶回復的帖子類別分布與發貼類別分布相似,這種相似性源于用戶的話題偏好.

3 頂級用戶分組

若要實現對頂級用戶的分組,一種以發帖類型為指導的方法是將用戶歸到發帖類型最多的那一組.但是這種方式忽略了用戶興趣的多樣性與不同類別帖子間的關聯性.下面介紹二部配置模型,并應用該模型實現頂級用戶分組.

3.1 二部配置模型

R,S分別表示頂級用戶集與普通用戶集,各自有NR,NS位用戶.若某用戶s回復過頂級用戶r的發帖,則建立兩者間的無向連邊.該部分旨在根據普通用戶的回復行為,確定相似的頂級用戶,以實現分組.單射指的是若兩個頂級用戶有共同回復者則建立兩者間的連邊,但僅僅依據單射,會形成一個較為密集的頂級用戶網絡,并且這種相似性很不可靠.一般來說,只有兩個頂級用戶擁有統計意義上足夠多的共同鄰居,才能夠認為它們是相似的,如圖3 中r1,r2用戶有3 個共同回復者,若“3”為統計意義上的“大量”,那么可以認為這兩個頂級用戶間存在相似性連邊.BICM 提供了一種假設檢驗的方法來確定兩頂級用戶間連邊的存在性,這使得頂級用戶間的相似性連接更可信.

在同節點的所有可能圖中某種圖結構M 出現的概率可表示為

若設定兩種類型節點的連接概率為prs,mrs為圖M 的0/1 鄰接矩陣中相應的值,則圖M 出現的概率也可使用下列概率公式表示,即

綜合式(1)和式(2),可得

用〈kr〉,〈ks〉表示兩類節點的期望度,k?r,k?s為兩類節點的實際度,最大化實際圖出現的概率,兩者的關系為進而有

其中LM為二部圖M 中實際的邊數,則得到兩類節點的連接概率prs=k?rk?s/LM.

對于任意的兩個頂級用戶r,r′有共同回復者s的概率Pr(V srr′)=prspr′s=(k?rk?s/LM)(k?r′k?s/LM),兩者的期望回復者數目以及實際回復者數目分別為

假設r,r′之間不存在連邊(即r,r′的共同回復者不是足夠的多),以Vrr′作為代表r,r′間共同回復者數目的隨機變量,取值范圍0,1,...,NS,其服從泊松二項分布fPB,Sn為全部可能的S中的n節點集構成的集合,則

不等式右邊較小,為了簡化計算,用泊松分布代替泊松二項分布,則泊松分布以期望值〈Vrr′〉為參數.

得到系列φ后,使用多重檢驗方法FDR 對原假設進行聯合檢驗.將計算得到的φ從小到大排列

設t=0.05,求滿足φ(i)≤it/C2NR的i最大值i?,并以φ(i?)為閾值,拒絕小于等于閾值的原假設,確定頂級用戶間連邊.當兩頂級用戶沒有共同回復者時,V ?rr′=0,因為NS很大,φ接近1,肯定會接受原假設,即兩者間不存在連邊.

3.2 頂級用戶分組結果

頂級用戶與普通用戶的二部圖中共有43 336 個節點,66 963 條邊.如果采用文獻[19]的方法,對頂級用戶單射后,得到78 個節點,1 635 條加權邊,其中的71 個節點形成一個最大的閉環,其余7 個節點與該閉環相連,則最終會形成一個社區,無法區分不同用戶組.

使用上述BICM 確定頂級用戶間的相似性連邊, 得到頂級用戶單模網絡.使用基于模塊度優化的Louvain 算法[13]對網絡進行社區劃分.頂級用戶網絡包含78 個節點,520 條邊,平均聚類系數0.635,圖密度0.173.經圖劃分后得到4 個大的用戶組,另有6 個孤立節點.

為說明每個社區用戶的話題偏好,統計各社區頂級用戶發布各種類型帖子的數目,結果如圖4 所示.

圖4 各社區頂級用戶發帖類型統計Fig.4 Statistics of post types of top users in each community

圖4 中,C0 頂級用戶組的發帖以故事敘述型為主,另有部分日常生活型,少部分社會風險型;C1 頂級用戶組的發帖以日常生活型為主,兼具故事敘述型與社會風險型;C2 頂級用戶組發帖以社會風險型為主,另有部分日常生活型及少量地區風險型與故事敘述型;C3 頂級用戶組發帖以地區風險型為主,兼具社會風險型,日常生活型.

圖5 為頂級用戶社區分布圖,各個社區基本呈現內部連接緊密,外部稀疏連接的狀態,但C0 與C1 社區外部連接也相對緊密,這是由于故事敘述型發帖與日常生活型發帖兩者間存在共性.介數中心性最大的前4 個節點: (49)“cotton 2000”(日常生活型與故事敘述型對半)、(58)“厚黑教主李宗吾”(社會風險、地區風險對半)、(2)“少華集團高董”(地區風險)和(24)“百財2019”(故事敘述型、日常生活型、社會風險型和地區風險型),從這些用戶所在社區與發帖類型來看,確實起著連接各社區的中介作用.

圖5 頂級用戶社區分布Fig.5 Top user community distribution

為進一步說明每個社區用戶話題的偏好性,提取每個主貼的前20 個TextRank 關鍵詞,帖子標題的前3個TextRank 關鍵詞.將每個頂級用戶組的發帖關鍵詞合并,取詞頻最大的前10 個關鍵詞(對于第10 位次的詞語,則將其相同詞頻的詞語一并陳列):

C0(故事敘述型為主):[(‘沒有’,7),(‘人類’,6),(‘人生’,6),(‘朋友’,5),(‘理論’,5),(‘孩子’,5),(‘七絕’,5),(‘世界’,4),(‘原理’,4),(‘中國’,4),(‘引力’,4),(‘速度’,4),(‘光速’,4),(‘宇宙’,4),(‘時間’,4)];

C1(日常生活型為主):[(‘沒有’,39),(‘時候’,34),(‘開始’,25),(‘感覺’,24),(‘孩子’,15),(‘知道’,13),(‘覺得’,13),(‘看到’,12),(‘事情’,12),(‘生活’,12),(‘早起’,12),(‘鍛煉’,12),(‘可能’,12)];

C2(社會風險型為主):[(‘圖片’,66),(‘沒有’,52),(‘發布’,49),(‘問題’,41),(‘社會’,30),(‘造成’,27),(‘不能’,27),(‘進行’,26),(‘知道’,26),(‘需要’,25)];

C3(區域風險型為主):[(‘公司’,18),(‘沒有’,18),(‘有限公司’,13),(‘法院’,12),(‘相關’,11),(‘投資’,10),(‘詐騙’,6),(‘法律’,6),(‘事實’,6),(‘項目’,6),(‘證據’,6),(‘師范類’,6)].

C0 社區中的“人生”、“七絕”體現出用戶在論壇中談論自己的經歷以及連載個人小說; C1社區中的“孩子”、“生活”表現出用戶發布日常生活中的問題等;C2 社區的特征詞“問題”、“社會”、“造成”體現了用戶關注社會風險型話題;C3 社區中的“公司”、“法院”和“詐騙”等體現了用戶談論的是某個機構或者某個管轄區域的風險.

上文使用第三方普通用戶來建立頂級用戶間的連邊,并對頂級用戶網絡做了社區劃分.各社區頂級用戶的實際交互情況如圖6 所示.圖6 的橫坐標表示每個頂級用戶組,縱坐標表示所回復各社區的總人數.C2中的頂級用戶回復的其它用戶最多,其中大部分為C2 中的人.C3 組的用戶所回復的用戶也大多處在C3組.這是由于同一社區中的用戶偏好相似,往往會產生交互,也說明了本文社區劃分的合理性.

圖6 各社區頂級用戶實際交互情況Fig.6 Actual interaction of top users in each community

4 普通用戶極化分析

考慮二部圖中度大于等于2 的普通用戶(回復的頂級用戶數目多于1),計算每位普通用戶回復每個組的頂級用戶數占總數目的比例,若最值僅一個且大于0.25,認為出現了極化,得到7 253 位極化用戶.

根據比例,極化于C0 的普通用戶組,將其歸到I0 普通用戶組,計算I0 組中普通用戶對各頂級用戶組回復比例的平均值,以相同的方式計算普通用戶的其它組別,得到極化熱度圖(圖7).分布結構顯示普通用戶極化現象明顯,特別是I3 對于C3 社區的極化較為突出,即地區風險型話題更容易引起極化.

圖7 普通用戶極化熱度圖Fig.7 Polarization heat map of ordinary users

極化分析根據回復體現的話題偏好實現了普通用戶的分組.將C3 與I3 用戶合并,該組別的用戶偏向于關注地區風險型話題.圖8 對這些用戶所在地進行了統計,網民參與了關于太原師范大學校園暴力,張家口化工廠爆炸,內蒙古赤峰市2 000 名入學師范類定向大專生就業派遣訴求的地區風險型事件的討論,而該組別中山西、河北和內蒙古的用戶居多,即該組用戶主要集中在風險發生地.其它3 個相應的合并用戶組中用戶主要所在地基本都為北京、廣東和江蘇等.

圖8 關注于地區風險型話題的用戶所在地Fig.8 Location of users focusing on regional risk topics

5 重要回復者識別

上文基于用戶發帖與回帖所體現的話題偏好實現了頂級用戶與普通用戶的分組,并說明了社區劃分的合理性,這有助于為各組別用戶精準推薦其感興趣的帖子,并進一步獲取民意.而根據這種回復關系,尋找每位頂級用戶的歷史重要回復者,對于回復者預測具有重要意義.由于在論壇中,通過用戶界面的回復歷史,就可以溯源到相應原貼,因此回復行為會擴大消息的傳播.重要回復者是頂級用戶眾多回復者中較為穩定的一部分,當頂級用戶發布負面新聞時,通過限制這些重要回復者的發言,有利于及時阻滯負面消息的傳播,加強網絡治理.當頂級用戶發布正面新聞時,即時推送給重要回復者,引起追隨,起到加速消息傳播的效果.下面將結合兩個二部圖以及相應模型嘗試尋找頂級用戶的重要回復者.

5.1 模型設計

R,Q,C分別表示頂級用戶集,帖子集,收集到的全部用戶集,節點數目分別為NR,NQ,NC.圖9 為基于發帖與回帖關系的聯合二部圖,圖中的兩個部分,一個表示發帖關系,另一個表示回貼關系.若某用戶回復了另外一位用戶統計意義上的大部分帖子,那么,認為這個用戶是另外一位用戶的重要回復者,如c2為r1的重要回復者.

圖9 基于發帖與回帖關系的聯合二部圖Fig.9 Joint bipartite graph based on post and reply relationship

利用圖9 中的兩個二部圖, 尋找頂級用戶的重要回復者.將左邊的二部圖記為M1, 右邊的二部圖記為M2,則Pr(M1)=

M1中帖子的度都為1,不需要對其度進行限制,因此采用二部部分配置模型來獲取頂級用戶r發布帖子q的概率prq,則

圖M2仍采用二部配置模型,按照式(1)～式(3),類似地得到用戶c回復帖子q的概率pcq=k?ck?q/LM2,其中LM2為圖M2中的實際邊數.

普通用戶c回復了頂級用戶r的發帖q的概率Pr()=prqpcq=k?rk?ck?q/(NQLM2),普通用戶c回復了頂級用戶r的期望帖子數〈Vrc〉與實際帖子數分別為

對于R,C中的每一組節點(共NRNC組),假設c不是r的重要回復者(即c回復r的帖子不是足夠的多).令隨機變量Vrc代表c回復r的帖子數,取0,1,2,...,NQ,其服從式(4)所示的泊松二項分布fPB,Qn為全部可能的帖子集Q中的n節點集構成的集合.

進而

5.2 重要回復者識別結果

如果從超過平均值的角度確定頂級用戶的重要回復者,計算過程分為兩步:

1)對于僅回復過一個頂級用戶,且回帖數目(指回復頂級用戶發布的不同帖子的數目)不為1 的用戶,初步確定其為該頂級用戶的重要回復者.除此以外,若用戶回復某個頂級用戶的帖子數超過其平均回帖水平,則初步認為該用戶為相應頂級用戶的重要回復者;

2)對于初步確定的重要回復者,如果其對相應頂級用戶的回帖數超過該頂級用戶所有回復者回帖數目的平均值,則將其確定為該頂級用戶的重要回復者.

考慮78 位頂級用戶所發布的452 條帖子以及涉及到的43 237 位回復者,使用上述方法,得到4 783 對重要回復關系,3 742 位重要回復者,統計重要回復者對相應頂級用戶的回復比例(回復該頂級用戶的帖子數目/總回貼數目),繪制圖10 所示的頻數分布直方圖.圖10 表明4 個區間頻數相差不大.

圖10 回復比例分布圖Fig.10 Distribution of reply proportion

如果從回復比例角度確定頂級用戶的重要回復者,首先排除回復頂級用戶帖子數全為1 的回復者、發帖數目僅為1 的頂級用戶, 若某回復者回復某頂級用戶的帖子數與該頂級用戶總發帖數之比大于75%,將其視為相應頂級用戶的重要回復者.得到110 對重要回復關系, 它們在上述4 個區間的分布比例為63:15:14:17,重要回復者對頂級用戶的依附不強.

根據發貼關系與回貼關系建立兩個二部圖,結合5.1 節的模型,從統計意義上確定每位用戶的重要回復者.有65 位頂級用戶有重要回復者,共計8 546 對重要回復關系,重要回復者8 543 位,幾乎一位回復者依附于一位頂級用戶.圖11 統計了頂級用戶回復者的數目.

圖11 各頂級用戶總回復者數目與重要回復者數目Fig.11 Total number of responders and number of important responders per top user

在這8 546 對重要回復關系中,有8 471 對的重要回復者僅僅回復了該頂級用戶的一個帖子,再無其它發言.統計另外175 對中重要回復者的回復比例,圖12 為頻數分布直方圖.

圖12 175 對重要回復關系中回復比例分布圖Fig.12 Distribution of reply proportion in 175 important reply relationships

圖12 中有122 對重要回復關系,其重要回復者對所依附的頂級用戶的回復比值達到75%以上,相比于圖10,回復偏重性明顯.因此本文提出的基于統計驗證確定頂級用戶重要回復者的方法,在保證重要回復者回復頂級用戶足夠多帖子的同時, 也保證了重要回復者對頂級用戶的回復偏重, 且自動給予了“足夠多”、“偏重”合理的限定.175 對重要回復關系中包含22 位存在重要回復者的頂級用戶,這些用戶中有9 個屬于C3 社區(以地區型風險發帖為主),6 個屬于C2 社區(以社會型風險發帖為主),4 個屬于C1 社區(以日常生活型發帖為主),其余3 個是不在社區內的孤立節點,由此可見,關注于風險型話題的頂級用戶易存在重要回復者.

5.3 重要回復關系雙方發言內容情感分析

本小節將分析頂級用戶發帖內容情感極性與重要回復者相應回復內容情感極性間的關系.由于天涯雜談帖子正文通常很長,且多引用事例,而標題一般概括了作者的態度,因此,本文僅考慮帖子標題.因為旨在探索首次回復關系的建立,僅考慮重要回復者對相應帖子的第一次回復.

具體的, 對于每位存在重要回復者的頂級用戶, 使用百度情感分析API2https://ai.baidu.com/tech/nlp/sentiment classify分析其全部重要回復者對其發帖的回復及相應帖子標題對(總計2 958 對)的情感極性,獲取正面情緒發帖–正面情緒回復,正面情緒發帖–負面情緒回復,負面情緒發帖–負面情緒回復,負面情緒發帖–正面情緒回復的比例,見圖13.

圖13 頂級用戶不同情感對比例分布Fig.13 Proportion distribution of top users’different emotion pairs

這些頂級用戶多發表負面情緒的新聞,且負–負比值大于負–正比值的用戶有11 個,前者小于后者的用戶有5 個,兩者相等的用戶有6 個.這說明了在負面情緒新聞居多,負面情緒易被重要回復者放大的網絡環境中,識別重要回復者并在相應頂級用戶發表極負面新聞情境下對該重要回復者進行制約的重要性.

6 結束語

本文以天涯論壇為例,定義頂級用戶與普通用戶,開展了用戶分組與重要回復者識別研究工作.用戶分組研究借助于二部配置模型,通過第三方普通用戶的統計意義上足夠多的回復行為來構建頂級用戶網絡,進而實現頂級用戶社區劃分.不僅所得到的相似性連邊是可信的,而且避免了由直接回復關系構建頂級用戶稀疏單模網而無法劃分社區的后果.帖子標題聚類結果表明網民們關注的話題包含日常生活型、社會風險型、故事敘述型、地區風險型4 大類,得到的4 個用戶組各自主要發帖類型對應這4 個帖子簇類型,同組的用戶具有相似的話題偏好,且交互密切.對于普通用戶,則以回復行為能夠體現興趣偏好為視角,使用極化分析的方法確定所屬組別.用戶分組有助于下游任務——用戶個性化推文,這對于網絡精準營銷與民意及時獲取具有實際意義.本文著眼于使用統計驗證的方法確定頂級用戶的重要回復者,從而推動回復者預測研究.具體的,結合了BICM 與BIPCM 兩種模型建模發帖和回帖關系的二部圖,這是對于配置模型僅用于單一二部圖的擴展.篩選出的重要回復者,不僅是經過驗證的高頻回復者,且對相應頂級用戶的回復偏重性明顯.此外,發現存在重要回復者的頂級用戶多發表負面情緒的新聞,此時重要回復者帶有負面情緒的回復也居多.因此,識別重要回復者并適時對其進行制約有助于輿情管理與凈化網絡環境.

文章所建立的回復關系二部圖未考慮權重,多次回復與單次回復在強度上還是有差異的,今后嘗試將頻次因素加入到研究中,探索其對實驗結果的影響,并進一步分析這種影響是否帶來了本質的改變.未來也將參考不同流派的研究工作,集成各自優勢,改進模型.