李倩 趙中英
摘要 面向社會化媒體數據信息的傳播及預測,是當前研究熱點。提出基于邏輯回歸的用戶轉發行為預測模型,采用Fmeasure和ROC曲線作為評價標準驗證了該模型的有效性。在Twitter數據集上的結果表明,所提模型能夠很好地預測用戶的信息轉發行為。
關鍵詞 信息傳播;社交媒體;邏輯回歸;信息轉發預測
DOI DOI: 10.11907/rjdk.162439
中圖分類號: TP302
文獻標識碼: A 文章編號 文章編號: 16727800(2017)002000403
0 引言
互聯網的發展及移動智能終端的普及,對人們的生產生活產生了重大影響,越來越多的人選擇通過網絡渠道表達自身的利益訴求和對社會事件的意見與看法。因此,以網絡為媒介的網絡輿論成為公眾輿論的主要形式之一。研究社交網絡中的信息傳播機制,有助于各級政府部門更好地了解與把握社情民意,對有效引導和管理社會輿論、化解輿情危機具有重要意義,因而受到眾多學者的廣泛關注。
已有諸多學者從事在線社交網絡的信息傳播分析與建模。曹玖新等[1]以新浪微博為研究對象,對各種可能影響用戶轉發行為的因素進行統計、分析,并建立數學模型。基于微博網關注關系拓撲,利用概率級聯模型對給定微博的轉發路徑進行預測,為預測微博的影響范圍提供依據。周東浩等[2]結合網絡結構特點、節點內容屬性、歷史傳播數據等信息,提出了一個基于隨機游走模型的傳播能力排序算法DiffRank,選擇傳播能力最強的topk個節點作為觀察節點來檢測網絡中可能出現的信息傳播。劉繼等[3]對網絡輿情傳播模式中單關鍵點型、多關鍵點型、鏈式型傳播模式進行分析,對網絡結構中的強勢節點和橋節點的作用進行了討論。李洋等[4]介紹了微博信息的傳播過程,通過介紹微博信息傳播的定性研究工作,揭示微博信息傳播的特點;并從3個不同的角度(以信息為中心、以用戶為中心、以信息和用戶為中心)對微博信息傳播工作進行探索,最后展望了微博信息傳播預測研究的問題與挑戰。韓佳等[5]針對在線社交網絡中信息傳播模式的形式特點,結合傳染病動力學原理,提出了在線社交網絡中的信息傳播模型,分析了不同類型的用戶在網絡中的行為特征以及影響信息傳播的主要因素。王超等[6]結合傳染病動力學的SEIR模型,建立了適用于社交網絡的信息傳播模型。該模型基于社交網絡用戶的行為特征,分析了社交網絡的傳播機理和網絡參數對信息傳播過程的影響,得出了動力學演化方程組,揭示了信息傳播隨時間的演化規律。郭海霞[7]針對新型社交網絡開放平臺來研究社交網絡中信息傳播問題,就其傳播方式、傳播行為、傳播路徑和傳播特點 進行了分析研究,同時以新浪微博為例,在分析大量實例的基礎上,討論了信息傳播的幾種主要模型及特點。其他學者[810]也進行了相關研究工作。
本文提出基于邏輯回歸的用戶轉發行為預測模型,并在Twitter數據集上進行實驗分析與評價。相關研究結果表明,該模型能夠較好地預測用戶的信息轉發行為,幫助政府各部門了解并控制網絡輿論,同時為相關研究領域提供參考。
1 基于邏輯回歸的信息轉發預測模型
1.1 邏輯回歸模型構建
邏輯回歸模型是一種預測分類模型,假設訓練集為Train,測試集為Test,對于數據集Train中的每個記錄,分類結果是y=1或y=0,其中,y=1表示用戶轉發某篇推文,y=0表示用戶未轉發某篇推文。邏輯回歸模型可以對測試集Test的每一個記錄進行預測,判斷其是否轉發某篇推文。因此運用邏輯回歸模型解決問題時,首先運用訓練集構建邏輯回歸模型,然后針對測試集對分類結果進行預測。邏輯回歸方程如式(1):
2 實驗與分析
2.1 實驗數據
本文所用的數據為Twitter中某篇推文在2012年7月1日到7月7日之間的傳播數據,數據包括4個部分:轉發網絡(Retweet Network)、回復網絡(Reply Network)、提及網絡(Mention Network)、關注網絡(FollowingFollower Network),數據描述如表1所示。
2.2 評價指標
運用Fmeasure和ROC曲線來評價邏輯回歸模型。式(6)中α是調節系數,準確率(precision)和召回率(recall)可通過混淆矩陣計算得出。
F1= 1+α 2×recall×precision α2×recall+precision (6)
ROC曲線是以靈敏度TPR為縱坐標,以特異度FPR為橫坐標,繪制成曲線形式。ROC關注的兩個指標可用式(7)、式(8)計算得到。TPR= TP TP+FN (7)
FPR= FP FP+TN (8)
其中,TP表示預測轉發并且實際轉發,FN表示預測未轉發但是實際轉發,FP表示預測轉發但是實際未轉發,TN表示預測未轉發并且實際未轉發。
AUC值是ROC曲線下方面積的大小,其取值范圍介于0.5~1.0,AUC值越大表示模型判斷力越強。如果模型較好,則其ROC曲線呈凸形,即AUC大于0.5;否則若為凹形,說明模型分類結果不理想。
2.3 實驗結果與分析
運用邏輯回歸模型對測試集進行預測,然后對預測結果進行評價。以0.5為界限劃分結果,當概率Pi>=0.5,認為該節點轉發推文,當概率Pi<0.5,認為該節點未轉發推文。試驗中測試了不同的α值對評價結果的影響,如圖1所示。
3 結語
本文構建了基于邏輯回歸的信息轉發預測模型并實現了模型參數求解,提出了基于邏輯回歸的信息轉發預測算法。運用Fmeasure和ROC曲線對邏輯回歸模型進行評價,同時將該模型應用在Twitter數據集上進行實驗分析,相關結果表明,本文設計的邏輯回歸模型能夠很好地預測用戶的轉發行為。
參考文獻 參考文獻:
[1] 曹玖新,吳江林,石偉,等.新浪微博網信息傳播分析與預測[J].計算機學報,2014(4):779790.
[2] 周東浩,韓文報.DiffRank:一種新型社會網絡信息傳播檢測算法[J].計算機學報,2014(4):884893.
[3] 劉繼,李磊.基于微博用戶轉發行為的輿情信息傳播模式分析[J].情報雜志,2013(7):7477.
[4] 李洋,陳毅恒,劉挺.微博信息傳播預測研究綜述[J].軟件學報,2016,27(2):247263.
[5] 韓佳,肖如良,胡耀,等.在線社交網絡中信息傳播模式的特征分析[J].計算機應用,2013,33(1):105107.
[6] 王超,楊旭穎,徐珂,等.基于SEIR的社交網絡信息傳播模型[J].電子學報,2014(11):23252330.
[7] 郭海霞.新型社交網絡信息傳播特點和模型分析[J].現代情報,2012,32(1):5659.
[8] ZHANG J,TANG J,LI J,et al.Who influenced you? predicting retweet via social influence locality[J].ACM Transactions on Knowledge Discovery from Data,2015,9(3):126.
[9] TAHANI M,HEMMATYAR A M A,RABIEE H R,et al.Inferring dynamic diffusion networks in online media[J].ACM Transactions on Knowledge Discovery from Data,2016,10(4):122.
[10] SAITO K,KIMURA M,OHARA K,et al.Detecting changes in information diffusion patterns over social networks[J].ACM Transactions on Intelligent Systems & Technology,2013,4(3):325352.
(責任編輯:孫 娟)