高亨德,王智強,李 茹,2,3
(1. 山西大學 計算機與信息技術學院,山西 太原 030006;2. 山西大學 計算智能與中文信息處理教育部重點實驗室,山西 太原 030006;3. 山西大學大數據挖掘與智能技術協同創新中心,山西 太原 030006)
近年來,社交媒體逐漸成為了用戶分享和傳播信息的主要平臺。用戶可以通過在社交媒體平臺上發布視頻、圖片或文本等來分享和傳播信息。 其中,文本成為了社交媒體用戶表達觀點、獲取和分享信息的重要內容之一。 從文本中可以抽取出用戶豐富的詞特征信息,對于許多數據挖掘任務如用戶主題建模、興趣挖掘、用戶畫像及個性化推薦等具有重要作用。Jiang等人[1]利用上下文信息的詞特征對用戶進行微博推薦,張晨逸等人[2]利用微博詞特征對微博進行主題挖掘,高明等人[3]對熱門微博進行實時個性化推薦, 程南昌等人[4]利用微博短文本,進行短文本傾向性分析,付博等人[5]利用人工標注微博文本進行用戶的消費意圖識別,另外一些評測任務中也用到用戶歷史文本信息。
在社交媒體中,文本作為用戶信息的重要方面,挖掘用戶的豐富歷史文本信息(如微博/Tweets)是支撐許多社交媒體應用如用戶畫像、社會化推薦等的重要前提。然而,社交媒體中同時存在大量用戶,他們未發表過或者發表過很少量的文本信息,面向此類用戶的文本挖掘任務則無法展開。針對此問題,本文試圖從詞特征層面來重建缺乏歷史文本信息的用戶詞特征,從而為面向社交媒體用戶的挖掘任務奠定基礎。本文將上述所指的缺乏文本信息的用戶稱為冷啟動用戶,本文的具體研究問題稱之為冷啟動用戶詞特征重建。
具體而言,本文將冷啟動用戶的詞特征重建問題形式化為: 給定m個用戶的集合S={u1,…,um}與n個特征詞的集合K={w1,…,wn},其中有m1個用戶具有豐富的歷史文本信息,此類用戶能夠直接通過現有的詞特征提取方法(如tf、tf-idf等)獲取每個用戶的特征詞及其特征權重。而用戶集合S中還包含m2個用戶在社交媒體中缺少歷史文本信息,無法建立其特征詞及特征權重,此類用戶即為冷啟動用戶。本文研究的目標就是針對此類冷啟動用戶,通過借助社交媒體環境中的其他可用信息重建此類用戶的特征詞及其特征權重。圖1為用戶—詞特征矩陣R=[Rij]m×n,矩陣的前m1行對應上文所述的m1個用戶已建立的詞特征向量,而其余m2個冷啟動用戶的詞特征向量為空,需要重建,且m=m1+m2。

圖1 用戶—詞特征矩陣
與該冷啟動用戶的詞特征重建問題類似的研究已有很多,特別是在協同過濾推薦領域中,與推薦領域中的冷啟動推薦問題類似,可以借鑒解決推薦系統冷啟動問題的算法來解決本問題。
在推薦領域中給定一個用戶—商品評分矩陣,我們需要基于歷史評分信息對矩陣中的未知評分進行填充。但有些用戶缺少或只有少量的歷史評分信息從而很難依據這些歷史信息對其進行評分的填充,這就是協同過濾推薦系統中面臨的冷啟動用戶推薦問題。類似的,本文也可看作對信息的填充問題,但同時,用戶特征詞的維度高且詞特征權重取值不同于評分的取值(1~5),詞特征(tf、tf-idf)的值可取范圍更廣,因此本文所研究的詞特征重建問題相對協同過濾推薦系統中的冷啟動問題更具挑戰性。
已有解決冷啟動問題的方法主要有如下三種類型。
(1) 引入輔助信息的推薦
該類方法主要是結合外部數據,如屬性數據、文本數據、標簽數據等來幫助解決冷啟動前提下的推薦問題。例如,于洪等[6]提出充分利用用戶時間權重與標簽、項目屬性、時間等信息,獲得個性化推薦評分,實現個性化推薦,解決新項目冷啟動問題。Zhang等[7-8]提出將標簽信息應用到推薦算法中,并以三分圖的形式來描述用戶、項目與標簽三者之間的關系,以解決推薦算法的冷啟動問題。
Zhang等[9]結合不同的上下文信息構建預測模型,然后通過協同策略使不同模型之間相互學習,以此解決推薦系統中地址冷啟動問題。Wang等[10]引入非拓撲信息并建立非拓撲信息與拓撲信息的連接來預測最終用戶與現有用戶之間連接的可能性,來解決冷啟動問題。高玉凱等[11]結合用戶在其他系統的消費信息,學習用戶的潛在特征,然后使用迭代決策樹算法訓練更優的用戶偏好,達到解決冷啟動問題的目的。
(2) 基于用戶間信任關系的推薦
由于信任關系的可靠性,準確挖掘用戶間的信任關系,發現用戶的信任用戶,是基于信任關系方法的關鍵問題。Jamali等[12]將用戶的信任傳播算法引入矩陣分解方法中,更精確地發現用戶在社交網絡中的信任用戶。郭磊等[13]提出利用信任關系的強度來進一步提高算法的性能,印桂生等[14]提出利用受限的信任關系來約束用戶的信任關系矩陣,解決推薦系統中的冷啟動問題。Wang等[15]利用用戶間的相似值作為對用戶的社會信任關系的約束,通過給用戶的信任關系賦予不同權重,選出信任關系較強的信任用戶,以此提高算法準確率。
(3) 使用混合方法的推薦
該方法在確定和冷啟動用戶相似的用戶之后,使用混合算法計算相似性或者產生預測評分。如Wang等人[16]為解決用戶冷啟動問題,提出一個使用混合方法的推薦框架。首先,結合用戶上下文信息對用戶進行分類,然后,根據分類結果,動態地選擇合適的推薦算法,完成推薦。郭等[17]結合用戶社會網絡數據得出用戶信任關系矩陣,然后利用推薦對象間的關聯關系進行混合計算,生成共享的用戶和推薦對象潛在特征空間,使其同時考慮用戶社會關系和推薦對象間的關聯關系,完成推薦。
從以上解決冷啟動問題的相關研究可看出,如何利用好輔助信息和對用戶信任關系權重進行計算,是解決用戶冷啟動推薦問題的關鍵。如在推薦時,利用社交媒體中用戶間社交關系和用戶屬性等輔助信息,并約束用戶之間的信任度。而以上介紹的這些利用社交關系進行推薦的算法,雖然能很好地對推薦的社會化過程進行建模,但它們在推薦過程中只是單純地從社交關系的角度對用戶信任進行計算,而忽略了推薦對象間的關聯關系,Wang等[15]從評分相似和信任的角度進行了建模,雖然使用用戶相似度但沒有考慮推薦對象間的關聯關系。郭等[17]綜合考慮了信任矩陣與推薦對象間的關聯關系,但忽略了用戶相似度對信任矩陣的影響,且由于用戶所發表的特征詞之間具有密切的詞義或用法上的相關關系,有區別于新項目冷啟動問題,不能將其視為獨立的個體,故已有推薦對象間關聯關系算法不能直接用于解決本文所提出的問題。為此,本文面向冷啟動用戶的詞特征重建研究,提出一種結合用戶信任關系和詞相關關系的冷啟動用戶詞特征重建方法。該方法中除了利用已有的詞特征信息外,還利用用戶信任關系和詞相關關系信息,并將三種信息通過一種聯合概率矩陣分解的方法進行融合,最終實現面向冷啟動用戶的詞特征重建。
本文方法借用矩陣分解方法將用戶信任關系矩陣、用戶詞特征矩陣及詞相關關系矩陣這三個矩陣進行聯合分解,充分利用這三方面的信息,在低維特征空間上得到用戶的隱含特征矩陣及詞特征的隱含特征矩陣。方法中的內容我們將在后文中分小節進行詳細介紹。
為了便于本文方法的描述,以下給出本文方法中所用的主要符號及其解釋,如表1所示。

表1 符號表示
本文在Ma[18]等提出的SoRec方法基礎上,結合社交網絡特點對信任關系權重的計算進行改進,在用戶信任關系矩陣構建時,由于在社交網絡中用戶更傾向于信任其所關注的用戶,所以本文只關注單向的用戶關注網絡,而不關注用戶的被關注網絡。因此,本文將用戶的被關注連邊去掉,在用戶社交關系圖中,假設用戶i關注用戶j,則Dij=1,Dji=0。且加入用戶之間的間接信任關系,比如,關注同一個四六級英語老師的兩個用戶,有可能都在學習四六級相關知識,那么他們之間的經驗就可以相互學習并進行推薦。本文將間接信任關系定義,如式(1)所示。
(1)
其中,d是根據寬度優先搜索算法得出的用戶i和用戶j的最短路徑,當用戶i到用戶j的傳播路徑越長時,用戶i對用戶j表現出的局部信任越小。這一點在現實生活中也可以得到驗證,即當兩個用戶越親密時,他們之間的信任關系也越強烈。tij表示算法搜索的總步數。相似度的計算方法有很多,最簡單的是歐幾里德距離,其他常見的方法有相關相似性(皮爾遜相關系數)、余弦相似性和修正的余弦相似性等。本文使用詞向量的夾角余弦來衡量用戶相似度,如式(2)所示。
Dij=cos(wordui,worduj)
(2)
其中,wordui與worduj表示用戶i與用戶j的所有特征詞的詞向量相加的向量值。
本文使用式(3)將用戶信任關系和用戶相似度相結合構建更加精確的用戶信任關系矩陣。構建新的用戶信任度矩陣分段函數,如式(3)所示。
(3)
用戶發表文本除了受信任用戶影響,還受詞相關關系的影響.例如,文本中出現“籃球”時,“喬丹”“科比”等出現的概率很大。我們采用如下方法構建詞相關關系矩陣。其中,兩個特征詞之間相關性權重的計算方法為: 使用Word Embedding[19]得到全部特征詞的詞向量,遍歷每個用戶的特征詞,將兩詞的相似度作為特征詞之間的相關性權重,將兩個特征詞k與j之間的相關性權重定義為wij。
Ma等[17]提出基于聯合概率矩陣分解(UPMF)方法,并把該方法應用于廣告推薦領域。本文把UPMF方法首次應用于解決冷啟動用戶詞特征重建問題上,它結合三方面的信息進行矩陣分解。在四個數據集上的結果表明,本文算法在解決冷啟動用戶詞特征重建問題上有更高的準確率。
用戶詞頻矩陣R的條件概率分布可以定義為[20]:
(4)

為了分析用戶間的信任關系和詞相關關系是否會影響用戶的文本特征詞,本文使用共享的用戶特征空間將用戶間的信任關系與用戶詞相關信息結合在一起,通過對這兩部分信息進行聯合概率分解,識別出在詞特征上比較相近并且具有社會關系的用戶以幫助用戶進行詞特征的重建。使用的概率圖模型如圖2所示,其中,Wtj表示詞相關關系矩陣中元素,Rij表示用戶-特征詞矩陣中元素,Tik表示用戶信任關系矩陣中元素,Vt、Vj表示詞特征矩陣中元素,Ui表示用戶特征矩陣中元素,Qk表示用戶信任特征矩陣中元素。

圖2 概率圖模型
用戶信任關系矩陣表示成用戶特征矩陣和信任特征矩陣內積的形式; 用戶詞特征矩陣表示成用戶特征矩陣和詞特征矩陣內積的形式,詞相關關系矩
陣表示成不同詞特征矩陣內積的形式。
考慮用戶間信任關系和詞相關關系,經過貝葉斯推斷,可以得到U、V、Q的后驗概率分布如下:
(7)
聯合用戶信任關系矩陣和詞相關關系矩陣的分解可得既滿足用戶信任關系又滿足詞相關關系約束的用戶特征矩陣,進而由用戶特征矩陣和詞特征矩陣的內積得到用戶詞頻矩陣中的缺失詞頻項。其中,S是和參數無關的常量,求參數固定時U、V、Q的極大后驗概率,相當于最小化如下誤差平方和函數:
(8)

對于式(8)所示的目標函數,我們對U、V、Q進行隨機初始化,然后在U、V、Q上,采用梯度下降法求解最小值,將函數逐步進行迭代,直到達到局部最小值。對目標矩陣U、V、Q分別求梯度,如式(9)~式(11)所示。
下面以微博用戶為例對本文算法進行描述:
輸入: 用戶社會關系矩陣,用戶詞頻矩陣。
輸出: 微博冷啟動用戶的用戶詞頻矩陣。
Step1根據余弦相似度公式計算得到用戶相似度矩陣。
Step2使用寬度優先搜索算法遍歷用戶社會關系矩陣得到用戶之間的直接和間接信任關系Tij,結合用戶之間相似度,根據式(1)計算用戶之間的信任關系權重,從而得出用戶信任關系矩陣T。需要注意的是,為了簡化計算,本文將步數設定在三步以內。
Step3使用式(2)計算詞之間的相關性權重,根據用戶詞頻矩陣得到詞相關關系矩陣W。
Step4將用戶信任關系矩陣T和詞相關關系矩陣W進行聯合概率矩陣分解,通過梯度下降求得用戶特征矩陣U,信任特征矩陣Q和詞特征矩陣V。
Step5根據用戶特征矩陣U和詞特征矩陣V重建微博冷啟動用戶詞頻矩陣,從而重建冷啟動用戶的詞特征。
本文數據集來源于Zhang等[22]提供的新浪微博數據集和Twitter數據集。為了滿足實驗需求,本文分別從這兩個數據集中抽取出兩個子集用于實驗。實驗數據中的用戶既包含一定規模文本又包含部分社交關系。其中,用戶網絡抽取方式為: 在大數據集中,隨機選取一個滿足如下約束條件的用戶,抽取和其有連邊的全部用戶,然后抽取和這些用戶有連別的用戶,逐層抽取,最終得到所需的連通子集。
對子集中全部用戶的約束條件如下:
(1) 用戶發送和轉發微博總數超過100條。
(2) 每個用戶至少有一條連邊,即保證本文所抽取的用戶社交關系子圖為連通子圖。
隨后,針對抽取出的用戶所發表的社交媒體文本數據進行預處理,抽取出用戶特征詞。用戶特征詞抽取的詳細步驟如下:
Step1使用停用詞表去掉停用詞、標點符號、非中文和非英文字符、中文單字。另外,針對微博文本,本文將停用詞表加入了“轉發”“分享”“微博”等無意義但出現頻率大的詞。
Step2針對社交媒體中文本的特殊性,本文去除社交媒體文本中常見的表情文本和一些網絡中特有的符號如“23333”“T_T”等文本,因為文本中的這些符號雖然代表了用戶發文時的狀態和情緒,但本文的目的在于重建詞特征,為后續的文本挖掘任務做鋪墊,這些詞不具有實在意義,且詞頻較大,可能為后續挖掘任務增加噪聲。
Step3將詞語進行繁體轉簡體,并將處理完的文本進行分詞處理。
Step4統計詞頻,去掉詞頻數小于5的詞。
Step5構建用戶詞頻矩陣,使用tf-idf計算每個用戶的詞權重,為了防止矩陣維度過大,本文選取每個用戶的tf-idf權重排名為前20的詞作為該用戶特征詞。
最終得到的數據集包含用戶的社交關系數據及用戶的特征詞及詞頻數據,數據集的基本特征信息如表2所示。

表2 數據集的基本特征信息
為了驗證算法的準確性,將每個數據集分為訓練集和測試集,訓練集用來學習或訓練推薦方法中的相關參數,測試集用來驗證推薦的準確性。本文按 9∶1 的比例將數據隨機地分為訓練集和測試集。將測試集中的用戶作為冷啟動用戶,將訓練集中對應的用戶詞頻全部置為0,然后使用處理后的訓練集和測試集進行實驗。
為了驗證用戶間的信任關系和詞相關關系在推薦過程中所起到的作用,以及它們對推薦結果產生的影響,在實驗中我們選擇了五種矩陣分解或其改進算法作為比較算法,分別為PMF、SoRec、SocialMF、PMFUI和TS_MF。
在論文中我們引入概率矩陣分解方法[22]PMF(probabilistic matrix factorization)作為基本比較方法之一。PMF方法通過對用戶-商品的評分矩陣進行分解,得出用戶和推薦商品的低維潛在特征矩陣,然后通過隨機梯度下降法得出最優的潛在特征矩陣,完成對未知評分的填充,但該方法只利用了用戶的評分矩陣信息來對用戶和推薦對象的潛在特征進行計算,推薦結果并不是很精確。
Ma等[18]在PMF算法的基礎上提出SoRec方法,引入用戶的社會關系信息。該方法通過對用戶社會關系分解學習得出用戶社交行為的低維潛在特征信息,并將用戶社會關系信息和用戶評分信息進行聯合分解,識別出在評分上比較相近并且具有社會關系的用戶來進行推薦,相較于PMF,該方法在推薦準確率上有了較大提高。
在SoRec算法基礎上,Ma[23]等又提出SocialMF算法,加入用戶的信任傳播,進一步優化用戶信任矩陣,使算法能夠選出信任度更高的用戶,借此提高算法的推薦準確率。但這兩種方法只利用了用戶社會關系和用戶評分這兩方面的信息,而未考慮推薦對象間的關系。
在SoRec方法基礎上,郭等[17]提出PMFUI(prob- abilistic matrix factorization with user and item relations)算法,該算法在已有的社會化推薦算法基礎上,將推薦對象間的關聯關系用于約束共享的用戶和推薦對象潛在特征空間的求解,使其同時考慮用戶社會關系和推薦對象間的關聯關系,從而進一步提高推薦算法的準確率。
Wang等[15]在利用信任關系算法的基礎上,提出TS_MF算法,該算法結合用戶間的相似關系對用戶的社會信任關系增加不同權重,增強對用戶信任鄰居的計算能力。通過對用戶相似度約束的用戶信任關系矩陣的分解,得到更精確的信任用戶,以此提高算法準確率。
為了評價冷啟動用戶的詞特征重建結果,實驗中借鑒了推薦領域中廣泛使用的平均絕對誤差MAE(mean absolute error)和均方根誤差RMSE(root mean squared error)這兩種指標。它們在本文中反映的是冷啟動用戶的預測詞頻與實際詞頻的貼近程度,MAE與RMSE的值越小,表示方法的預測結果越好。計算公式如下:

在實驗過程中,我們在訓練集上嘗試不同參數值,然后在測試集上驗證結果。經過反復測試,我們發現,實驗中的參數設置為:λu=λv=λa=0.01時,算法耗時最小,故將以上三個參數設置為0.01。表3給出了潛在特征向量為10的情況下的實驗結果。

表3 不同方法的結果比較
從表中可以看出,相比于其他方法,本文方法在RMSE和MAE指標下取得了較好的結果。而PMFUI與SocialMF的結果相近且優于PMF較多,表明結合用戶信任關系與結合詞間關系都對結果有較大影響,而PMFUI結果優于SocialMF較少,表明詞間關系對結果的影響較小。而TS_MF結果優于PMFUI,表明結合相似度和用戶間信任關系的方法對改善實驗結果有影響。而本文方法綜合考慮了用戶間信任關系與詞相關關系及用戶相似度,對實驗結果有較大提升。
圖3給出了推薦結果隨潛在特征矩陣維度l的變化情況。

圖3 潛在特征矩陣維度l對算法影響

圖3 (續)
圖3中的兩個子圖分別表示在四個數據集中,當潛在特征矩陣維度l變化時,本文算法對推薦指標RMSE值和 MAE值的影響。由圖3可知,隨著潛在特征矩陣維度l增加,對四個數據集而言,RMSE值和MAE值都逐漸減少,之后逐漸趨于穩定,即增加潛在特征矩陣維度可以提高算法的準確率,但同時增大潛在特征矩陣維度會降低算法計算效率,且加大計算開銷,通過仔細觀察,發現在l取值為[0,15]時,隨著潛在特征矩陣維度的增加RMSE值和MAE值減小0.1左右,而當l超過15時,RMSE值和MAE值減小幅度不到0.01,綜合算法效率和準確率考慮,本文取l=15為最佳維度。
圖4中的兩個子圖分別表示四個數據集中,當參數α變化時,算法對推薦指標RMSE值和MAE值的影響。


圖4 參數α對算法影響
由圖4可知,隨著參數α增加,推薦誤差先減少后增加,之后逐漸趨于穩定,參數α越大表示用戶相似度的重要性越大,反之用戶社交關系的重要性越大。當α=0.3 時,四個數據集上的推薦效果均達到最優,另外當α從0.2增加到0.3時算法的RMSE值和MAE值的降低幅度達到0.05左右,推薦效果提升最明顯。
本文提出一種融合用戶信任關系及詞相關關系的詞特征重建方法,通過對用戶信任關系矩陣、用戶詞頻矩陣和詞特征相關關系矩陣的聯合概率分解,為冷啟動用戶的詞特征進行重建,為冷啟動用戶的詞特征重建研究提供了新思路。未來我們將結合已有的語言知識庫如HowNet[24],Chinese FrameNet[25]等,來提高冷啟動用戶的詞特征重建準確率。
[1] Jiang M, Cui P, Liu R, et al. Social contextual recommendation[C]//Proceedings of the ACM International Conference on Information and Knowledge Management. ACM, 2012: 45-54.
[2] 張晨逸,孫建伶 ,丁軼群. 基于MB-LDA模型的微博主題挖掘[J]. 計算機研究與發展, 2011,48(10): 1795-1802.
[3] 高明, 金澈清, 錢衛寧,等. 面向微博系統的實時個性化推薦[J]. 計算機學報, 2014(4): 963-975.
[4] 程南昌, 侯敏, 滕永林. 基于文本特征的短文本傾向性分析研究[J]. 中文信息學報, 2015, 29(2): 163-169.
[5] 付博, 陳毅恒, 邵艷秋,等. 基于用戶自然標注的微博文本的消費意圖識別[J]. 中文信息學報, 2017, 31(4): 208-215.
[6] 于洪, 李俊華. 一種解決新項目冷啟動問題的推薦算法[J]. 軟件學報, 2015, 26(6): 1395-1408.
[7] Zhang Z K, Liu C, Zhang Y C, et al. Solving the cold-start problem in recommender systems with social tags[J].2010, 92(2): 28002-28007.
[8] Zi-Ke Zhang, Tao Zhou, Yi-Cheng Zhang. Tag-aware recommender systems: A state-of-the-art survey[J].計算機科學技術學報(英文版), 2011, 26(5): 767-777.
[9] Zhang M, Tang J, Zhang X, et al. Addressing cold start in recommender systems: A semi-supervised co-training algorithm[C]//Proceedings of the International ACM SIGIR Conference on Research & Development in Information Retrieval. ACM, 2014: 73-82.
[10] Wang Z, Liang J, Li R, et al. An approach to cold-start link prediction: Establishing connections between Non-topological and topological information[J]. IEEE Transactions on Knowledge & Data Engineering, 2016, 28(11): 2857-2870.
[11] 高玉凱, 王新華, 郭磊,等. 一種基于協同矩陣分解的用戶冷啟動推薦算法[J]. 計算機研究與發展, 2017(8): 1813-1823.
[12] Jamali M, Ester M.A matrix factorization technique with trust propagation for recommendation in social networks[C]//Proceedings of the ACM Conference on Recommender Systems. ACM, 2010: 135-142
[13] 郭磊, 馬軍, 陳竹敏. 一種信任關系強度敏感的社會化推薦算法[J]. 計算機研究與發展, 2013, 50(9): 1805-1813.
[14] 印桂生, 張亞楠, 董宇欣,等. 基于受限信任關系和概率分解矩陣的推薦[J]. 電子學報, 2014, 42(5): 904-911.
[15] Wang M, Ma J.A novel recommendation approach based on users’ weighted trust relations and the rating similarities[J]. Soft Computing, 2016, 20(10): 3981-3990.
[16] Wang J H, Chen Y H. A distributed hybrid recommendation Frame work to Address the new-user cold-start problem[C]//Proceedings of the Ubiquitous Intelligence and Computing and 2015 IEEE, Intl Conf on Autonomic and Trusted Computing and 2015 IEEE, Intl Conf on Scalable Computing and Communications and ITS Associated Workshops. IEEE, 2016: 1686-1691.
[17] 郭磊, 馬軍, 陳竹敏,等. 一種結合推薦對象間關聯關系的社會化推薦算法[J]. 計算機學報, 2014, 37(1): 219-228.
[18] Ma H, Yang H, Lyu M R, et al. SoRec: Social recommendation using probabilistic matrix factorization[C]//Proceedings of the ACM Conference on Information and Knowledge Management,2008: 931-940.
[19] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of International Conference on Neural Information Processing Systems. Curran Associates Inc,2013: 3111-3119.
[20] Yin D, Hong L, Davison B D. Structural link analysis and prediction in microblogs[C]//Proceedings of ACM Conference on Information and Knowledge Management, CIKM 2011, Glasgow, United Kingdom, October. DBLP, 2011: 1163-1168.
[21] Dueck D, Frey B J. Probabilistic sparse matrix factorization[R]. University of Toronto Technical Report Psi, 2004.
[22] Zhang J, Liu B, Tang J, et al. Social influence locality for modelingretweeting behaviors[C]//Proceedings of the International Joint Conference on Artificial Intelligence. AAAI Press, 2013: 2761-2767.
[23] Ma H, King I, Lyu M R. Learning to recommend with social trust ensemble[C]//Proceedings of the International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2009: 203-210.
[24] Li L F, Fan X Z, Li H Q. Domain-specific QA driven by computation of semantic similarity[J]. Journal of Beijing Institute of Technology, 2005, 25(11): 958-962.
[25] Ru L, Wang Z, Li S, et al. Chinese sentence similarity computing based on frame semantic parsing[J]. Journal of Computer Research & Development, 2013, 50(8): 1728-1736.