王慧穎,王文樂
(1. 江西科技師范大學理工學院,江西 南昌 330100;2. 江西師范大學軟件學院,江西 南昌 330022)
作為社會化媒體的關鍵平臺,社交網絡的應用量一直呈大幅度上漲趨勢[1],當前的國內社交網絡用戶數量總和已經突破9億人次,且活躍用戶占據較大比例,其中,用戶主體多為影響力極大的高校學生、白領等社會群體。社交網絡的普及基于信息傳播技術的根本改變,轉變了人們生活、工作、交往以及思維的方式,并對社會的各行各業與人類發展產生了深遠影響。社交網絡的用戶行為特征研究,既有助于營銷推廣企業所提供的服務與產品,還為相關部門合理監控、干預網絡輿論給予理論支撐。
文獻[2]圍繞人類動力學研究視角,研究網絡輿論生態環境的構建要素,對在線社交用戶信息傳播行為特征進行了實證分析,為網絡輿情生態環境的完善提供參考,但是其推斷結果誤差較大。文獻[3]提出一種融合用戶信任關系及詞相關關系的詞特征重建方法,在新浪微博和Twitter的四組數據集上進行實驗,取得較好的詞特征重建結果,但是在劃分用戶行為時參考指標單一。文獻[4]構建融合多源異構數據混合推薦模型,取前N個商家推薦給用戶,利用機器學習方法,預測用戶對商家的評分并對商家進行排序,依據排序結果,可更全面地反映用戶個人偏好,但是其計算量較大,推斷結果得不到保證。
對此,本文提出一種基于協同過濾推薦的社交網絡行為推斷方法,創新依據行為序列的時效影響者選擇、社交影響時效偏好選擇以及偏好領域內時效物品選取,得到行為事件的發生概率,通過降序排列候選物品采集概率,完成社交網絡行為推斷。
社交網絡推薦共分三種:標簽推薦、人物推薦以及諸如視頻、新聞以及博客等內容信息推薦。在用戶社交網絡信任關系的推薦里,將用戶間的社交網絡關系看成圖1所示的關系圖,框中為用戶,數字表示用戶間信任關系的強弱度,箭頭指代的是好友關注形式。

圖1 用戶社交網絡關系示意圖
根據圖1,依據社交網絡關系圖對用戶間的信任關系進行估算,將所得信任值作為用戶相似度后,采用協同過濾法求取推薦結果。信任值估算方法的目的是推斷出源用戶對目標用戶的信任值。
協同過濾推薦算法的核心理念為基于鄰近用戶間的交互信息,完成信任值的估算,采用加權平均法對非鄰域用戶間的信任值進行遞歸運算。通過轉換信任值為相似度,利用協同過濾理念實現最終推薦,信任用戶集合的協同過濾算法表達式如下所示

(1)

假設某社交網絡平臺的普通用戶集合為U,明星賬戶集合為C,則普通用戶對明星賬戶的關注數據,可以應用下列表達式進行描述
R=|U|×|C|
(2)
如果用戶u∈U,項目i∈C,評價矩陣為R,那么,用戶u對項目i的標注表示為rui∈{-1,0,1},其中,“-1”說明用戶u拒絕關注項目i,“0”表明用戶還未標注過項目,“1”則表示用戶對項目已經關注。已知社交網絡平臺的名人候選集合列表為L,如下式所示

(3)
依據P(u,i)得到用戶u對項目i的偏好程度,通過偏好程度實施候選列表項目的排序,從中選取最高得分的前N個項目Su當成用戶推薦。
依據一定的相似度模型對指定用戶鄰居集合進行計算,以使噪音得到抑制,提升推薦準確性,采取相似度加權平均鄰居集合的用戶標注,推算出最終預測結果。用戶的社交網絡信息通常由內容、社交關系網以及社交活動構成,利用線性融合方法結合三種信息,創建用戶相似度模型,表達式如下所示
social_sim(u,v)
=α*simc(u,v)+β*simn(u,v)+γ*simα(u,v)
(4)
式中,社交網絡內容的用戶相似度為simc(u,v),社交網絡關系的用戶相似度為simn(u,v),社交網絡活動的用戶相似度為simα(u,v),相似度占據的對應權值分別是α、β和γ。
1)社交網絡內容相似度:在社交網絡平臺上抽取段時間內關鍵詞[5],進行整合后得到一個字典W,若其中所含詞匯量是n,已知一個用戶u,則采用下列表達式表示該用戶的檔案矢量
profile(u)=〈vu(w1),vu(w2),…,vu(wn)〉
(5)
式中,wi∈W,用戶u檔案矢量內第i個關鍵詞的權值為vu(wi),用于描述用戶u對wi的偏好程度。
關鍵詞處理過程中,詞匯重要程度的評估指標為tfidf,即詞頻-反文檔頻率,一個詞在文件中出現的次數越多,重要性越強。通過下列各式完成詞頻-反文檔頻率指標界定

(6)

(7)
Rtfidf(t,d,D)=tf(t,d)×idf(t,D)
(8)
式中,詞匯表示為t,文檔為d,詞匯t的反文檔頻率是Ridf(t,D),詞匯t在文檔d里出現的次數,即初始頻率,為f(t,D)。
同理,采用詞頻-反用戶頻率(即tfiuf)評價用戶對關鍵詞的偏好程度,其界定公式如下所示

(9)

(10)
Rtfiuf(t,u,U)=Rtf(t,u)×Ridf(t,U)
(11)
式中,用戶發布的社交網絡內容為d(u),用戶集合為U,詞匯t在用戶u社交網絡內容中的出現頻率為Rtf(t,u),詞匯t反用戶頻率為Ridf(t,U),詞匯t在d(u)內的出現頻率為f(t,d(u))。
解得用戶檔案矢量的詞匯權值,通過各矢量間的余弦相似度[6],評估用戶偏好相似度。下式所示為矢量V1與V2的余弦相似度

(12)
從而推導出下列用戶u與用戶a的偏好相似度表達式
simc(u,a)=cosine(profile(u),profile(a))

(13)
2)社交關系網相似度:一般通過下列表達式對關系網的非對稱關系進行描述:

(14)
3)社交網絡活動相似度:依據提及、轉發以及評論三種交互形式的頻繁程度,衡量用戶間的偏好相似性。該相似度的構建通過下列公式得以實現:

(15)
式中,與用戶u有過交互的用戶集合為Au,用戶之間提及、回復以及評論過的總次數分別為Pmenuv、Prepuv和Pcomuv。分母作為歸一化因子,指代的是用戶之間的交互次數極大值。
依據社交網絡信息與評價矩陣信息,架構變權值杰卡德相似度模型與社交網絡信息用戶相似度模型,兩者所選的鄰居集合與控制閾值都各不相同。
已知待預測標注rui,評價矩陣信息的鄰居選取由下列公式完成
Tu={v|v∈U∧rating_sim(u,v)>φ}
(16)
式中,評價矩陣信息鄰居集合為Tu,相似度閾值為φ,變權值的杰卡德相似度為rating_sim。
而社交網絡信息的鄰居選取則通過下列公式達成
Su={v|v∈U∧social·sim(u,v)>η}
(17)
式中,社交網絡信息鄰居集合為Su,相似度閾值為η,社交網絡信息用戶相似度為social_sim。在為活躍用戶提供推薦信息的過程中,評價矩陣信息密度將大幅度提升,降低了無法搜索鄰居集合的概率。

已知一次物品采集行為是B(U=u,V=v,A,t),該事件中的行為序列A共含有以下三種潛在行為:
1)時效影響者選擇:對該事件的行為影響者f進行選取,表示為aINF(u→f;t);
()基于社交影響的時效偏好選擇:以影響者f的興趣偏好為參考標準,對某個喜好領域z實施選擇,該選取階段用aINT(f→z;t)表示;
3)偏好領域內時效物品選取:在所選的喜好領域z里挑選一個物品v,標記為aITM(z→v;t)。
因此,推導出下列用戶行為序列表達式
A=[aINF(u→f;t),aINT(f→z;t),aITM(z→v;t)]
(18)
假設Φ={Φα,Φβ,Φγ}為三種潛在行為相關的動態偏好空間與行為推斷的參數集合[7-8],則用戶u在t時刻對物品v進行采集的行為產生概率如下


(19)
由于推斷階段的行為事件B為可見數據,而影響者f與偏好領域z均是不可見數據,所以,根據已知參數Φ,采用下列公式對行為事件B的對數似然函數進行描述,依據已知的用戶u與時刻t,對一組候選物品集合進行推導,得到V′?V,關于集合中的所有候選物品v∈V′,均通過下列公式完成該物品用戶采集概率的求解:
P(v|u;t,Φ)

(20)
按照降序將計算得到的各候選物品采集概率進行排列,生成采集可能性較高的物品集合,該集合即為發生可能性最大的用戶行為。
同理,可以得出時間段中行為發生概率。假定時間段[ts,te]的開始、結束時間分別是ts和te,那么,用戶u在[ts,te]時間段中物品采集行為的事件發生概率,采用下列計算公式求取

(21)
仿真環境的計算機配置為Windows10操作系統,8GB運行內存,英特爾酷睿i5-3579處理器,軟件部分采用Matlab R2012a版本。
測試集數據采集了1500個用戶的社交網絡信息,男女比例為4:6,單個用戶評論數量多達上萬條,少則幾十條,平均評論數量約為800條。
將1500個用戶的社交網絡信息分為30組,每組包括50個用戶,形成信息集,以此進行交互時間長度即用戶持續使用時間測試,測試結果如圖2所示。

圖2
由圖2可知,與其它方法相比,本文方法在不同的在線時間驗證內,可以有效擬合理想用戶持續使用時間,擬合程度高達92%,說明其減少監控和統計過程的數據量計算,為社交網絡行為推斷提供便利。
針對已知的用戶集U={(x1,y1),…,(xm,ym)},依據真實結果與學習器預測推斷結果,分類成TP、FP、TN以及FN四種情況,TP表示實際正確且推斷也正確的真正例,同理,FP、TN以及FN分別為假正例、真反例與假反例。
推斷方法的性能可以由精準率P與召回率R兩個參數指標進行評估,表達式如下所示

(22)

(23)
將兩指標融合得到F1度量方法,以提升評估準確性,度量法公式如下

(24)
為了驗證本文方法的有效性與適用性,分別采用文獻[2]、文獻[3]和文獻[4]方法與本文方法,對兩個不同的社交網絡平臺(微信和微博)用戶進行行為推斷,得到各平臺對應的推斷性能對比圖。

圖3 各平臺性能對比圖
通過圖3可以看出,其它文獻方法的度量系數較低,且增加幅度極小,相比之下,本文方法的度量系數平均在0.97左右,最低數值低于0.9,其它平臺都相對更高,最高數值甚至趨近于1。從兩種方法的度量系數曲線走勢能夠發現,本文方法始終有上升趨勢,且明顯高于傳統方法數值,性能優勢顯著。
1)架構一種基于協同過濾推薦的社交網絡行為推斷方法。以社交網絡內容、社交關系網以及社交網絡活動的相似度模型,對候選物品的采集行為發生概率進行計算,通過降序排序使用戶行為推斷得以實現。
2)通過所建簡化用戶的社交網絡行為,生成物品采集行為事件,根據行為序列的時效影響者、時效偏好選擇和時效物品選取潛在行為,最終交互時間長度與實際擬合度為92%。
3)該方法在微博和微信上的推斷性能得到驗證,其度量系數平均在0.97左右,為后續研究奠定了夯實的理論基礎,具有重要的現實意義與實踐價值。