社交網絡用戶發布模式和興趣預測研究

2020-05-15 08:11:28崔曉暉

計算機工程與應用 2020年9期

胡璨，崔曉暉

武漢大學國家網絡安全學院，武漢430072

1 引言

近年來，社交網絡服務（SNS）在日常生活中的應用大大增加，已經成為用戶分享想法的主要平臺，使得人們可以跨越政治、經濟和地理邊界進行聯系。社交網絡服務允許用戶創建公共個人資料，并為用戶提供表達意見，分享內容和上傳照片或視頻的空間，其便利性吸引了數十億用戶。根據2018 年6 月更新的前20 個有價值的Facebook 統計數據[1]，每月活躍的Facebook 用戶超過22億，每天上傳大約3億個帖子。

隨著社交媒體的日益普及，為在線社交網絡的增長提供了在更廣泛的背景下分析用戶文本的機會。在社交網絡中，用戶對各種主題感興趣，并且通常具有不同的情感傾向和發布行為。社交網絡用戶的行為通常由他們的興趣引發。例如，對政治感興趣的用戶經常分享很多新聞并發表他們的批評意見。更好地理解用戶發布行為已成為許多個性化和信息過濾應用程序的關鍵。目前對社交網絡用戶發布行為的研究主要對基于帖子特征和發帖的動機來對用戶類型進行分類。然而，現有研究簡單地假設每個用戶具有唯一的用戶類型，由于存在不同的情緒模式和用戶意圖，這在許多社交網絡的應用場景中并不準確。例如，一些用戶可能具有混合的發布模式，而另一些用戶則具有一致的發布行為模式。

為了解決這個問題，本文提出了一種全新的基于離散元組的LDA（Latent Dirichlet Allocation）模型來表征社交網絡用戶的發布行為，從而將用戶的發布行為表示為發布模式的概率分布，而不是單一的類別。作為發布模式分布的應用，將發布模式的分布用于用戶興趣預測。

本文的貢獻可歸納為如下兩點：

第一，提出基于LDA 的社交網絡用戶發布模式模型，從而表征用戶的發布模式。以這種方式，一個用戶的發布活動被表示為發布模式的概率分布。

第二，驗證將發布模式作為特征可提高用戶興趣的準確率。整合用戶發布模式分布、用戶資料和用戶帖子類型特征，并與從用戶喜歡頁面中提取的語義特征相結合，構建興趣預測模型。

在發布模式的實驗中，本文選取最佳LDA 模型并確定了八種發布模式：（1）中立客觀短文本；（2）中立非主觀長文本；（3）積極主觀中長文本；（4）中立客觀長文本；（5）積極偏主觀中長文本；（6）積極偏客觀中短文本；（7）積極偏主觀中短文本；（8）中性偏客觀中長文本。

在興趣預測實驗中，分別使用發布模式分布特征、用戶資料特征、用戶帖子類型特征和用戶喜歡頁面中提取的語義特征。結果表明，使用所有特征比不使用發布模式分布特征時，預測的準確率更高。這表明發布模式分布特征盡管獨立于興趣或主題的語義，但可以有效提高預測的準確率。

2 相關工作

社交網絡用戶分析不是一個新的研究課題，目前已有大量關于分析用戶行為和個人信息的研究。社交網絡用戶分類是一個有監督的機器學習問題，即需要首先確定用戶的類別范圍，然后通過訓練分類模型預測用戶的類別[2]。一些研究基于用戶的行為和使用社交網絡的動機來調查用戶類型。例如，Brandtzaeg 等[3]提出了社交網絡的用戶類型，它識別并描述了人們使用社交網絡的各種方式。他們分析了挪威四個主要社交網絡中5 233 名受訪者的調查數據，并確定了五種不同的用戶類型：（1）散發性，（2）潛伏者，（3）社交者，（4）辯論者，（5）活躍者。Dewi[4]提出了一個兩層的聚類模型并得到五種不同的用戶類型。一些社交網絡用戶分類方法基于文本內容信息，采用成熟的文本分類模型進行用戶分類。例如，Zubiaga[5]等通過采集用戶的社會化標簽數據，并應用支持向量機分類模型進行分類。此外，一些方法融合社交網絡用戶文本內容以及關系網絡信息進行分類，如Mlcmlw 方法[6]集體分類方法。現有研究簡單地假設每個用戶具有唯一的用戶類型。

檢測社交網絡中用戶的情緒狀態也引起了國內外學者的注意。一些研究調查用戶情緒變化的時序模式[7-8]。例如，Gutierrez等[9]表明Twitter用戶至少在30天內始終保持在一個情緒概況集群中。但是，有必要進一步研究典型和穩定的情緒集群。

針對用戶興趣分析，大多數研究側重于通過使用從用戶的日常帖子中提取的語言特征來預測社交網絡用戶的興趣。研究表明，社交網絡中50%左右的用戶選擇了隱藏他們的用戶信息，70%的用戶選擇了隱藏他們的興趣愛好[10]。丁宇新等[11]通過構造主題模型與語言模型相結合的雙層模型，利用朋友關系與組織關系解決微博的個性化搜索問題。何炎祥等[12]提出一種針對社交網絡用戶生成內容和用戶關注信息的用戶偏好挖掘方法。黃泳航等[13]使用社交網絡的拓撲結構信息挖掘社交用戶的朋友圈社區去預測用戶的偏好。Kim 等[14]利用Facebook中的喜歡數量和主題內容來預測用戶興趣。Su等[15]表明，對不同利益群體感興趣的用戶通常會有不同的情緒傾向和發布活動。因此，表征這些發布活動特征將改善用戶興趣的預測模型。

3 發布模式和興趣預測模型

針對傳統用戶發布行為的研究在用戶分類方面的不足，本文提出一種全新的方法，該方法包括發布模式模型和興趣預測模型，方法的整體框架如圖1所示。

圖1 方法整體框架

整個方法由三個子過程來處理完成，其中數據收集模塊從Facebook 中采集用戶和帖子并進行情感分析。發布模式模塊生成帖子的離散元組，并在離散元組上構建LDA 模型，從而獲得潛在的發布模式。本文中，發布模式對應LDA 模型中的主題，指的是用戶帖子集合中同時出現的離散元組的重復模式。經過非監督學習，LDA 模型得到表征用戶的發布模式分布的參數。興趣預測模塊整合用戶的發布模式分布、用戶個人資料和帖子類型，并與從用戶喜歡頁面中提取的語義特征相結合，構建興趣預測模型。

3.1 發布模式模型

3.1.1 離散元組

離散化是將連續變量轉換為離散變量的過程，多元轉換是數據離散化的方法之一。多元轉換中，如果要分成n 類，就要給出n+1個閥值組成的數組，任意一個數都可以被放在某兩個閥值的區間內。

本文利用多元轉換的方法構造離散元組，具體操作主要分為兩步。第一步，對每個帖子計算極性值、主觀性值和字數，其中極性值和主觀性值由TextBlob計算得到，字數即帖子中單詞的數量；第二步，通過多元轉換分別對極性值、主觀性值和字數進行離散化，得到離散變量和，并構造三元組

根據多元轉換方式的不同，可以得到不同類型的離散元組。例如，將極性值分為5 個區間，主觀性值分為3個區間，字數分為5 個區間，可得元組類型1，如表1 所示。類似地，通過更精細的離散化，將三個維度分別分為9、5、9 個區間，得到元組類型2；將三個維度分別分為13、9、13個區間，得到元組類型3。

表1 離散元組類型1的多元轉換方式

3.1.2 基于離散元組的LDA模型

LDA 是一種非監督機器學習技術，可以用來識別大規模文檔集或語料庫中潛藏的主題信息。在LDA中，每個文檔可以被視為各種主題的混合。

基于傳統的LDA 模型，本文提出一種基于離散元組的LDA 模型，模型的基本思想是：將文檔對應于用戶，將主題對應于用戶的發布模式，將詞對應于表示帖子的元組。模型中，每個用戶可以被視為各種發布模式的混合，經過吉布斯采樣（Gibbs Sampling），得到每個用戶的發布模式的分布以及每個發布模式的帖子元組的分布。模型的框架與傳統的基于詞的LDA 模型一致，如圖2所示。

模型基于以下假設：（1）帖子按時間順序獨立生成；（2）每個用戶按照其時間線發帖，獨立于其他用戶；（3）每個帖子選用K 個有限的發布模式；（4）K 個發布模式對所有用戶是統一適用的。

圖2 基于離散元組的LDA模型

經過吉布斯采樣，LDA 模型學習得到參數α，β，θm，φk，tm,n和pm,n，參數的定義以及與傳統的LDA 模型參數的對比如表2所示。

表2 本模型和傳統LDA模型的參數對比

3.1.3 模型的測評

為了生成最佳的LDA 模型，需要調整模型的參數。LDA模型最重要的調整參數是發布模式的數量(K)。本研究采用兩個指標來評估模型的好壞：困惑度（Perplex‐ity）和DB 指數（Davies-Bouldin index）。通過計算和比較不同K 值下模型的困惑度和DB 指數，選取最佳的LDA模型。

困惑度是衡量概率分布或概率模型預測樣本的優劣程度的指標[16]。困惑度越低表示概率模型越善于預測樣本。LDA模型的困惑度的計算方法如下：

DB 指數是聚類質量的內部評估方案[17]。使用歐幾里德距離的DBI由公式（3）給出：

在計算DB指數時，將帖子類型視為聚類，將元組視為點。ci和cj是聚類i和聚類j的中心。Ci是聚類i中的點與聚類的中心之間的平均距離。同樣，Cj是聚類j 中的點與聚類的中心之間的平均距離DB指數越低表示聚類越好地被分離。

3.2 興趣預測模型

作為發布模式模型的應用，將用戶的發布模式分布作為特征，構建興趣預測模型。本數據集中的用戶來自15 個公共Facebook 興趣小組，每個用戶只屬于一個Facebook興趣組。

3.2.1 二元分類模型

采用二元分類（binary classification）模型進行用戶興趣預測。二元分類模型只預測用戶是否對特定的興趣主題感興趣，而不將用戶分為一個特定的興趣小組。因為在現實情況下，一個用戶可能有很多興趣，所以二元預測模型比多元預測模型更為合理，且更適用于推薦系統。例如，旅游公司中的廣告商只想知道一個用戶是否對旅行感興趣，而不關心此用戶是否對其他興趣主題感興趣。對于每個興趣主題，模型預測用戶是否對其感興趣，從而將多分類模型分別拆分為15 個二元預測模型。

3.2.2 用戶興趣預測的特征

用于用戶興趣預測的特征包括以下四類：

（1）用戶發布模式特征：從發布模式模型中提取的用戶發布模式分布。

（2）用戶資料特征：用戶個人資料，如互相關注人數，相冊照片數等。

（3）帖子類型特征：用戶的不同類型的帖子數，如使用表情的帖數，純文本帖數等。

（4）從用戶點贊的主頁中提取的語義特征：使用語義特征進行興趣預測是一種傳統方法。Facebook中，用戶點贊的主頁通常與某些興趣主題相關聯。從用戶點贊的主頁中提取語義特征的方法如下：提取用戶點贊的主頁并將這些頁面分類為1 200 個子類別，對于每個子類別，計算用戶點贊的主頁中屬于此子類別的主頁的數量，然后給每個用戶賦予一個1×1 200向量，該向量即從用戶點贊的主頁中提取的語義特征。

3.2.3 預測算法

采用XG Boost 分類器（Extreme Gradient boost‐ing）[18]作為預測算法。XGBoost 是在Gradient Boosting框架下部署優化的機器學習算法的庫。預測中，采用十倍交叉驗證，訓練集和驗證集之間的比例是7∶3。

4 實驗結果及分析

4.1 數據收集

數據集中的用戶來自15 個Facebook 公共小組，這些小組擁有超過1 000 名成員，與各種興趣主題有關，如商業、政治、寵物、音樂、體育等，各興趣組的用戶數如表3所示。通過FacebookGraphAPI采集活躍用戶，即上個月在關于興趣小組中發表過至少一篇帖子的用戶。剔除將發帖頁面或個人資料頁面設置為私有的用戶后，共獲得1 149 個用戶。開放數據集下載鏈接：http：//gituhub.com/sustainn/LDA-on-discrete-score-tuple。

表3 各興趣小組的用戶數

對于每個用戶，從用戶的主頁中提取2018 年發布的所有公共文本帖子。在刪除非英文帖子后，最終獲得了138 810 個英文文本帖子，對于每個帖子，剔除URL和表情符號。

4.2 發布模式

4.2.1 最佳LDA模型

LDA 模型最重要的調整參數是基于發布模式的數量(K)。通過計算不同K 值下LDA 模型的困惑度和DB指數，選取困惑度和DB 指數均較低的模型為最佳的LDA主題模型。

對于不同的元組，不同K 值下模型的困惑度和DB指數如圖3 和圖4 所示。可以看出，當采用元組1，K 為8時，困惑度和DB指數較低。

圖3 不同發布發布模式數和元組下模型的困惑度

4.2.2 標記發布模式

圖4 不同發布發布模式數和元組下模型的DB指數

通過元組類型1的LDA模型，模型提取出八種發布模式，并得到表征發布模式的元組分布的參數φk。為了標記這八種發布模式，繪制各個發布模式的元組的概率分布的散點圖。用兩個二元組{極性，主觀性}和{極性，字數}來表示三元組{極性，主觀性，字數}，對于每一種發布模式，用兩個散點圖表示二元組（極性，主觀性）和（極性，字數）的概率分布。散點圖中，點的橫坐標表示極性，縱坐標表示主觀性或字數；以點為中心的圓圈表示屬性的值為點的橫縱坐標的元組出現的概率，圓圈的面積與概率成正比；整個散點圖的質心用一個黑色的點表示，質心的坐標標在圖的右上角。根據質心的坐標和圓圈的大小，可為發布模式添加標簽。

例如，發布模式1 的元組的概率分布如圖5 所示。可以看到面積最大的藍色圓圈位于極性軸的中間，主觀性軸的底部和字數軸的底部，因此可以將發布模式標記為“中立客觀短文本”。圖中的質心說明了同樣的結論。通過同樣的方式，可標記其他發布模式為：“中立非主觀長文本”，“積極主觀中長文本”，“中立客觀長文本”，“積極偏主觀中長文本”，“積極偏客觀中短文本”，“積極偏主觀中短文本”，“中性偏客觀中長文本。

圖5 發布模式1的元組概率分布圖

4.2.3 相似用戶

通過元組類型1 的LDA 模型，模型提取出8 種發布模式，并得到表征用戶的發布模式分布的參數θm，即表征用戶m 的發布模式分布的八維向量。通過計算和比較用戶的發布模式分布的余弦相似度，可以找到具有相似發布模式的用戶。余弦相似度，又稱為余弦相似性，是通過計算兩個向量的夾角余弦值來評估向量的相似度。對于向量A和B：

例如，以下2 個用戶的發布模式分布之間的余弦相似度為0.985，如圖6 所示。通過人工檢驗，發現兩個用戶經常發布積極、中等長度的帖子。他們都屬于JazzmastersJaguars 興趣組。通過人工檢驗，可以驗證發布模式分布的合理性和準確性。

圖6 用戶Cody Hanlon和Charles Hoerneman的時間軸帖子

4.3 興趣預測

用于用戶興趣預測的特征包括用戶行為特征和從用戶點贊的主頁中提取的語義特征。其中，用戶行為特征如表4 所示，包含三個部分：（1）用戶資料特征；（2）帖子類型特征；（3）從LDA 模型提取的用戶發布模式概率分布特征。

圖7 和圖8 中顯示了將不同K 值和元組下LDA 模型的參數值θm作為發布模式特征時，預測模型的準確率和F1值。可以看出，對于所有元組，當K 為7到9時，預測模型的準確率和F1值較高；隨著K 值繼續增大，預測模型的準確率和F1值下降。這是因為在LDA 模型中，主題數越多，模型越容易過擬合。預測模型的結果與LDA 模型的困惑度和DB 指數結果吻合。當選取元組1，K 為8 時，興趣預測的準確率最高；當選取元組2，K 為7時，興趣預測的F1值最高。

表4 用戶行為特征

圖7 采用不同發布模式數和元組時預測模型的準確率

圖8 采用不同發布模式數和元組時預測模型的F1值

選取元組2，K 為7 時LDA 模型的結果作為發布模式特征。分別采用以下四種特征用于興趣預測：（1）用戶個人資料特征和帖子類型特征；（2）用戶行為特征，即用戶個人資料特征、帖子類型特征和發布模式特征；（3）用戶行為特征用戶個人資料特征、帖子類型特征和從用戶點贊的主頁中提取的語義特征；（4）所有特征，即用戶個人資料特征、帖子類型特征、用戶發布模式特征和從用戶點贊的主頁中提取的語義特征。表5 中展示了對于各個興趣組，分別采用上述四種特征時二元分類模型的準確率，最佳結果標記為粗體。可以看到，使用特征2比使用特征1時的平均準確率高0.03，使用特征4比使用特征3時的平均準確率高0.02。這表明使用用戶發布模式分布可以有效提高用戶興趣預測的準確率。除了旅行組，對于大多數興趣組，使用所有特征時，預測的準確率最高，平均準確率達到0.81。

表5 使用不同特征時XGB算法下的二元分類模型的準確率

相關研究[15]提出了一種兩層k-means 聚類方法，并發現了七種用戶類型。將聚類模型的興趣預測的準確率與本文結果進行比較，如表6 所示。可以看出，本文提出的發布模式模型比聚類模型在興趣預測模型中可達到更高的準確率。

5 總結

本文提出了一種方法來挖掘社交網絡用戶潛在的發布模式并預測用戶興趣。首先，通過構建基于離散元組的LDA 模型，得到用戶的發布模式分布。然后將發布模式分布特征與用戶資料特征和帖子類型特征結合，得到用戶行為特征。最后，將用戶行為特征用于興趣預測。在興趣預測實驗中，結果顯示本文提出的用戶發布活動特征可以有效預測用戶的興趣。與僅使用語言特征相比，將用戶發布行為特征和語言特征結合可以實現更高的預測準確率。本研究可應用于用戶分析、興趣預測和個性化推薦系統等領域。

表6 發布模式模型與兩層聚類模型的二元分類模型的準確率