(西華大學(xué)計算機與軟件工程學(xué)院 四川 成都 610039)
隨著社交媒體平臺的出現(xiàn)和擴展,人們相互交流的方式發(fā)生了巨大的變化。通過社交網(wǎng)站、意見分享網(wǎng)站、微博等,人們可以自由地相互交流,表達自己的個人經(jīng)驗、對某一產(chǎn)品的感受,甚至對政治、經(jīng)濟問題的看法。能夠影響和改變他人觀點的人被稱為意見領(lǐng)袖。識別這些異常和有影響力的個體的任務(wù)被定義為意見領(lǐng)袖檢測[2]。
不同領(lǐng)域的學(xué)者試圖利用不同領(lǐng)域的技術(shù)來解決這個問題。例如,趙等人[3]提出了一種結(jié)合影響力最大化算法和標(biāo)簽傳播的方法來識別具有社區(qū)結(jié)構(gòu)的社交網(wǎng)絡(luò)中的意見領(lǐng)袖。段[4]將聚類算法與情緒分析相結(jié)合,尋找意見領(lǐng)袖。李等人[5]提出了在線學(xué)習(xí)社區(qū)中意見領(lǐng)袖識別的混合框架。使用隨即游走框架[6]最典型的方法是PageRank算法[7],它根據(jù)節(jié)點接收到的鏈接計算任意節(jié)點(如網(wǎng)頁)的重要性。PageRank設(shè)置在隨機游走中每個鄰居節(jié)點具有相同的轉(zhuǎn)移概率,每個節(jié)點在重新啟動隨機游走時被選擇為開始節(jié)點的概率相等。這些假設(shè)不符合社交網(wǎng)絡(luò)平臺中用戶交互的特點,因此開發(fā)了一系列改進算法,利用主題模型、意見挖掘、情緒分析、社區(qū)發(fā)現(xiàn)、用戶關(guān)系強度分析等技術(shù)來解決這些不足。其他技術(shù)的引進為改進隨機游走模型提供了獨特的視角。
近年來,網(wǎng)絡(luò)表示學(xué)習(xí)(network representation learning)引起了人們的廣泛關(guān)注。網(wǎng)絡(luò)嵌入是利用低維、實值、稠密的向量形式來表示網(wǎng)絡(luò)中的節(jié)點。網(wǎng)絡(luò)嵌入的目的是利用低維、實值、稠密的向量形式來表示網(wǎng)絡(luò)中的節(jié)點,使得到的向量在向量空間中具有表示和推理的能力。網(wǎng)絡(luò)嵌入不僅可以將網(wǎng)絡(luò)結(jié)構(gòu)信息嵌入到向量空間中,而且可以自發(fā)地學(xué)習(xí)節(jié)點間的潛在相似性。在真實的社交平臺中,豐富的文本內(nèi)容除了提供網(wǎng)絡(luò)結(jié)構(gòu)信息外,還能提供有價值的信息,因此在網(wǎng)絡(luò)嵌入模型中也考慮了自然語言處理技術(shù)。
本文從網(wǎng)絡(luò)嵌入的角度出發(fā),討論了如何尋找意見領(lǐng)袖。由于社交平臺中包含的網(wǎng)絡(luò)結(jié)構(gòu)和文本內(nèi)容的不可忽視的作用,我們選擇SNE(social network embedded)[9]作為網(wǎng)絡(luò)嵌入模型,它可以利用深度學(xué)習(xí)技術(shù)來捕捉屬性如何反映節(jié)點的相似性。我們的方法類似于TIURank[5],它依賴于機器學(xué)習(xí)模型來分析用戶之間的連接強度,但是我們使用的是網(wǎng)絡(luò)嵌入模型。
SNE[9]模型是一種神經(jīng)網(wǎng)絡(luò)模型,主要由兩部分組成,第一部分是網(wǎng)絡(luò)結(jié)構(gòu)的嵌入,第二部分是屬性的編碼。
輸入層:模型的輸入由用戶ID向量和用戶屬性向量組成。M是社交網(wǎng)絡(luò)的用戶總數(shù)。輸入是一個m維向量,相應(yīng)的位置標(biāo)記為1,其他的都是0。許多現(xiàn)實世界的社交網(wǎng)絡(luò)包含豐富的屬性或文本內(nèi)容信息,屬性向量可以被設(shè)計為相應(yīng)的表示。對于離散屬性,比如性別屬性有兩個值{男性,女性},可以表示為{0,1}。對于連續(xù)屬性,比如文檔建模,通常將其轉(zhuǎn)換為實值TF-IDF。本文中的屬性編碼方法采用TF-IDF編碼文本數(shù)據(jù)。
嵌入層:嵌入層由兩個完全連接的部分組成。一個部分將一個的用戶的表示向量映射到一個密集的向量捕捉結(jié)構(gòu)信息。另一部分編碼通用的屬性特征向量并生成一個緊湊的向量來聚合屬性信息。
隱藏層:在通過嵌入層后,and會被送入一個多層感知機網(wǎng)絡(luò),每一層的隱層表示為
輸出層:最后,將最后一個隱含層的輸出向量轉(zhuǎn)化為概率向量,其中包含對網(wǎng)絡(luò)中所有節(jié)點的預(yù)測鏈接概率
在PageRank[7]和LeaderRank[5]的假設(shè)中,一個漫游到相鄰節(jié)點的概率是相等的。這一假設(shè)沒有考慮到用戶為鄰居節(jié)點付出的注意力是不同的這一現(xiàn)象。有的研究[3,8,10]通過主題模型計算文本的主題相似度,或者通過意見挖掘模型對比意見差異來衡量差異。但是我們通過將節(jié)點映射到向量空間來測量,差值是由節(jié)點在向量空間中的距離來計算的。我們用上一章節(jié)所描述的模型進行網(wǎng)絡(luò)與屬性嵌入后得到了,權(quán)重矩陣W。
因此,我們的隨即游走迭代公式考慮了網(wǎng)絡(luò)結(jié)構(gòu)和文本內(nèi)容的相似性。隨機游走算法迭代的計算公式如下:
在本文中,我們嘗試探討網(wǎng)絡(luò)嵌入方法是否可以為意見領(lǐng)袖挖掘任務(wù)提供幫助。我們利用SNE模型對文本內(nèi)容和網(wǎng)絡(luò)結(jié)構(gòu)的數(shù)據(jù)擬合能力。利用網(wǎng)絡(luò)節(jié)點在向量空間中的距離來度量轉(zhuǎn)移概率。實驗表明,該方法不僅考慮了網(wǎng)絡(luò)結(jié)構(gòu)中影響者的中心性,還考慮了文本內(nèi)容與網(wǎng)絡(luò)中其他節(jié)點的相似性。在未來的研究中,我們將考慮如何同時嵌入網(wǎng)絡(luò)和挖掘意見領(lǐng)袖。