王楠,孫欽東,周亞東,王漢秦,隋連升
?
基于區域交互模型的SNS網絡用戶影響力評估
王楠1,孫欽東1,周亞東2,王漢秦1,隋連升1
(1. 西安理工大學網絡計算與安全技術陜西省重點實驗室,陜西西安 710048; 2. 西安交通大學智能網絡與網絡安全教育部重點實驗室,陜西西安710049)
針對現有方法與模型未能準確體現不同距離用戶之間真實交互行為的問題,提出了一種基于用戶區域交互模型的用戶影響力評估方法。區域交互模型利用影響力傳遞的不同方式,刻畫不同距離之間用戶的交互行為模式,能更為真實準確地反映在線社會網絡用戶之間的交互行為。通過計算用戶對相鄰用戶的顯性影響力與非相鄰用戶的隱性影響力,可有效識別在線社會網絡中大影響力用戶、僵尸粉用戶等不同類型用戶。基于新浪微博與人人網真實數據開展用戶影響力評估以及相應的用戶角色識別實驗,結果顯示,與現有方法相比,基于區域交互模型的識別方法可以準確有效地識別出在線社會網絡中的大影響力用戶、僵尸粉用戶等各類型用戶。
用戶影響力評估;區域交互模型;在線社會網絡;大影響力用戶;僵尸粉
近年來,Twitter、新浪微博、Facebook等新興在線社會網絡(SNS, online social network services)吸引了大量網絡用戶關注。與傳統的E-mail、新聞站點等網絡信息交換平臺相比,這些新興在線社會網絡具有用戶主動參與度高、信息規模巨大、信息傳播速度快等特點。海量用戶之間通過關注或者添加好友等行為,建立起有向或無向的連接關系,并通過信息轉發或者分享等行為形成了新型的網絡生態系統。用戶影響力評估是在線社會網絡的重要研究內容之一,其研究結果可為網絡的信息傳播規律、用戶行為分析等研究提供理論支撐,并且可用于精準化網絡營銷、網絡輿情管控等提供技術支持[1]。目前,用戶影響力相關研究方法大多基于網絡拓撲結構、用戶行為[2-4]等基礎特征(諸如粉絲連接數、轉發行為)對用戶影響力進行評估。已有方法對用戶影響力評估有著重要的參考價值,但是仍然存在不足。單一拓撲結構并不能真實反映用戶重要性[5],而基于介數等復雜的拓撲結構方法同樣僅考慮到網絡中用戶之間的連接關系,忽略了用戶行為等其他在線社會網絡用戶特性。基于用戶行為的影響力評估方法大多從相鄰用戶之間的交互行為為出發點,對于一定距離范圍內的非直接相鄰用戶行為交互分析不足。此外,現有影響力分析研究中大多數方法的研究對象只針對網絡的大影響力用戶,而在線社會網絡用戶可根據用戶影響力被區分為大影響力用戶、普通用戶、僵尸粉用戶等多種類型用戶。
在線社會網絡中,用戶之間的交互行為與真實社會類似,用戶之間即使并不直接相連,由于信息在不同用戶之間的多次轉發也能夠形成交互關系,如圖1所示。用戶影響力可由與其不同距離用戶之間的交互行為體現,并且對其他用戶的影響方式以及影響力大小能夠體現出該用戶在社會網絡中的地位與角色。本文以新浪微博與人人網為研究對象,針對現有研究中所存在的問題,提出了一個在線社會網絡用戶區域交互模型并對網絡用戶影響力進行評估。通過用影響力傳遞的方式描述用戶與其他相鄰或非相鄰用戶之間的交互行為,反映用戶在在線社會網絡中真實的影響力,并以此來對網絡中的用戶進行類型劃分。實驗結果表明,區域交互模型可應用于在線社會網絡中用戶的影響力評估研究,并且能夠對網絡中不同類型角色的用戶進行有效準確地識別。
目前,在線社會網絡用戶影響力研究大多針對大影響力用戶的識別,現有方法可分為基于拓撲結構與基于用戶行為特征等。早期研究大多將簡單的拓撲結構屬性直接作為評估與識別網絡中重要節點的依據,如Leavitt等[6]直接將用戶粉絲規模的大小作為判斷用戶影響力大小的依據。Kitsak等[7]根據計算用戶的介數(betweenness)、中心度(centralities)等特征值來對用戶影響力進行評估,進而篩選網絡中大影響力的用戶。Brown等[8]通過-shell分解的方法識別Twitter中的大影響力用戶,該方法通過節點在網絡中所處的位置對節點影響力進行評估,認為越靠近中心位置的節點其影響力越大。由于根據介數與中心度評估用戶影響力的方法難以應用到大規模復雜的網絡中,Chen等[9]在中心度等用戶結構特征的基礎上結合時間開銷因素,對網絡中節點進行影響力評估。
基于用戶行為特征的方法是在線社會網絡大影響力用戶識別常用的一類方法。此類方法大多基于用戶轉發、評論等行為,再采取相應的評估手段對用戶影響力進行評估。Huang等[10]將用戶行為與PageRank算法相結合對微博社會網絡中的用戶影響力進行評估,研究結果發現網絡中活躍用戶的影響力更大,并且此現象與粉絲規模的大小并無嚴格的相關關系。Tang等[11]研究了用戶轉發行為、交互信息內容以及相應時間等屬性與用戶影響力之間的關系,并在此基礎上提出了一個在線社會網絡用戶影響力評估架構。
此外,針對大影響力用戶識別還有一些其他類型方法。Uysal等[12]根據用戶轉發微博的習慣,提出了一種用戶微博的排序方法,并以轉發微博的可能性作為用戶影響力評估的標準。Sun等[13]根據在線社會網絡話題傳播過程中用戶行為的差別,將用戶分為不同角色,并利用相應方法對分類過的用戶進行影響力分析。
對于僵尸粉識別,早期研究主要根據一些指標并通過簡單的規則進行僵尸粉的識別[14],這些方法雖然簡單易于實現但是準確率偏低,難以應用到實際的僵尸粉識別工作中。目前,比較有效的僵尸粉識別方法大多通過特征選擇,選出與用戶身份存在密切關聯的特征集,然后通過機器學習的方法對僵尸粉進行識別,如Chu等[15]研究分析了多個正常用戶、僵尸粉用戶等類型用戶的特征,并提出了一個基于熵、用戶屬性以及文本處理的僵尸粉、正常用戶分類系統。Bhat等[16]根據群組特性來對網絡中僵尸粉進行研究,通過分析群組交互性、用戶連接、用戶是否為核心節點等多個屬性,對網絡用戶類型進行劃分。
實驗過程所使用的數據通過爬蟲程序采用廣度優先的策略從新浪微博以及人人網獲得,并且為保障用戶隱私所有數據均進行了匿名化處理。在采集新浪微博數據時,利用新浪提供的API獲取相關數據,采集人人網數據則使用基于頁面內容解析方式的網絡爬蟲進行爬取。最終得到的微博數據如表1所示,采集得到的微博用戶數據中分為用戶信息以及用戶的微博信息,其中,用戶信息包括用戶UID、昵稱、微博數、粉絲數、關注數以及注冊日期等。微博信息則包括了發布時間、轉發量以及轉發列表信息等。

表1 新浪微博數據集
對于人人網,由于其有向圖性質以及受限于隱私保護策略,在爬取數據時選取的實驗室內部成員為根節點,篩選可以瀏覽到新鮮事分享的用戶對其信息進行存儲。最終得到的人人網數據如表2所示。其中,用戶信息包括用戶UID、好友數、學校信息、用戶基本信息等。新鮮事信息包括參與信息分享過程的用戶鏈以及信息ID、分享數等。

表2 人人網數據集
磁場、引力場等物理學的場模型理論描述了物理場中節點之間的相互作用關系,以及物體之間的能量傳遞效應。在線社會網絡用戶之間的交互行為與場模型中節點間的交互作用相類似,具有相近的特征。作者在前期研究中發現,用戶之間的交互行為與影響力相關,用戶影響力由于與其相鄰和非相鄰用戶的信息轉發行為具有與場模型類似的傳遞效應[17]。本文在考慮用戶交互行為與影響力傳遞關系的基礎上,提出了用戶區域交互模型,用戶區域交互行為模式與影響力傳遞機制如圖2所示。
交互行為與影響力傳遞過程可描述如下。
有社會網絡(,),其中,表示社會網絡的節點集合,為邊集合,表示節點之間有無連接關系,其值的大小表示節點之間的距離。={1,2,3},其中,2是1的粉絲節點,3是2的粉絲節點。如果2轉發了1的信息,由于信息內容或者用戶真實身份等因素,1所發布的信息有一定的概率被2的粉絲再次轉發。轉發過程使1的影響力沿著轉發鏈傳遞下去,同時節點由于信息被轉發其影響力得到了增加,此過程與能量反饋相類似。根據參與轉發用戶之間的距離,本文將影響力劃分為2種不同的形式:顯性影響力與隱性影響力。顯性影響力表示距離為1(=1)的情況下,用戶轉發所傳遞的影響力,即由于粉絲用戶轉發所產生的影響力。隱性影響力表示距離大于1(>1)的情況下,用戶轉發所產生的影響力傳遞效應,即由于非直接相連接用戶轉發所產生的影響力。
圖2中由用戶交互產生的影響力傳遞效應可被推廣到一般模型。假設有社會網絡圖(,),表示節點集合={1,2,…,3},表示邊集合={1,2,…,E}。則可以得到如下定義。
定義1時刻節點(即用戶)之間的連接關系(距離)矩陣為

定義2時刻用戶V轉發V信息的轉發關系矩陣為

結論1時刻用戶V轉發總量為,即為中第行的總和。
結論2時刻用戶V信息被轉發總量為,即為中第列的總和。
定義3 所有節點(即用戶)在時刻的發帖數目向量為

定義4時刻用戶V活躍粉絲的規模為(V,),其值為參與轉發的粉絲數,即,其中,,為定義2中轉發關系矩陣中第列的值。
定義5時刻用戶V若轉發了V的信息,且他們之間的距離為,則稱V為V的距父節點,記為;相對應地,稱V為V的距孩子節點,記為。若與V距離為的孩子節點有多個,則,其中,V∈。
用戶的信息越多地被轉發表示該用戶的吸引度越大,其影響力傳遞效應越強,基于上述定義,本文建立的用戶區域交互模型中在時刻用戶V的吸引度為,可由以下公式計算

其中,c為粉絲V轉發V的信息數量,為V總的轉發數量。用戶吸引度為用戶吸引粉絲,并使其信息被轉發的能力。用戶吸引度與粉絲轉發其信息占粉絲轉發平均比例成正比,粉絲轉發其信息的比例越高,表示該用戶對其粉絲的吸引越大。此外用戶活躍度與其粉絲規模(V,)成正比,活躍粉絲越多表示該用戶的信息具有被更廣泛傳播的可能性。
由于用戶影響力分為顯性影響力與隱性影響力,所以在模型中時刻用戶V總的影響力為所有傳遞效應產生的顯性與隱性影響力之和,表達式為

由圖2可以看出,用戶的顯性影響力為相鄰用戶間的影響關系,其物理意義可由某一時刻鄰接用戶轉發引起的用戶影響度變化率表示,其表達式如下


那么,時刻用戶V的顯性影響力I(V,)則可由累計的相鄰用戶影響度變化率表示
(8)
對于時間尺度的間隔Δ,本文實驗取Δ=1,=0,1,2,…,(是考慮到的最大時間,時間單位為天)。在初始時刻用戶之間沒有信息傳遞,其顯性影響力為零,因此在初始時刻(即零時刻)規定I(V,0)=0。
對于用戶的隱性影響力,采取遍歷連接圖中所有父節點的方式,計算每個父節點與其孩子節點的傳遞效應總和衡量該父節點的隱性影響力。所以時刻用戶V的隱性影響力I(V,),本文主要考慮V與其距孩子節點(1)的影響關系。假設此時用戶V有個孩子節點,則I(V,)表達式為

其中,為轉發概率(其值是通過抽樣得到的分布概率),為用戶間信息轉發的路徑距離。
實際中,由于影響力作用的距離不可能是無窮遠。若已知時刻用戶之間的連接距離矩陣中的最大值,則相應地修正隱性影響力I(V,)表達式為

綜上所述,時刻用戶V總的影響力為

用戶任意時刻影響力可基于上述過程計算得到。由于實驗過程中所需要處理的用戶數據都是十萬級別以上的,此時得到的轉發關系矩陣、連接關系(距離)矩陣等是稀疏且相當龐大的,而大數據的存取也制約了模型的求解。為了解決上面的問題,本文采用圖論中樹形結構的方式來表達用戶間的連接關系,使數據的存取和模型的求解得到極大的簡化。
在線社會網絡中,相鄰用戶交互行為可以通過直觀的數據進行分析,而不相鄰用戶之間的交互行為則難以直接被觀測到。本節通過分析表明非直接相鄰用戶之間是否存在交互行為且具有一定規模能夠為區域交互行為模型提供支撐。
5.1 用戶關系的確定
研究不同距離用戶之間的交互行為,需要確定轉發鏈中各個用戶之間的連接關系。由于各SNS站點都設置了隱私保護機制,因此信息傳播鏈中用戶之間是否存在關注關系需要進行判斷分析。新浪微博的共同關注功能顯示了2個用戶之間是否關注了同一個用戶,本文通過共同關注判斷2個用戶之間是否存在關注關系。由于請求限制以及轉發鏈中用戶數量規模,難以準確判斷全部用戶的連接關系。本文根據抽樣推斷的方法,從獲取到的轉發鏈中隨機選擇了一部分用戶,并判斷他們的關系,基于此結果來估計轉發鏈中各個用戶之間的關注關系。具體方法如下。
1) 隨機選取條轉發鏈。
2) 統計距離為且存在關注關系的用戶數目,并計算其占整個轉發鏈的比例P。
3) 為了減少抽樣統計的分布與總體分布的誤差,采取多次抽樣取平均的方法,即重復步驟1)和步驟2),完成次抽樣統計得到一系列的距離為且存在關注關系的用戶比例。
4) 最終的總體分布表示為

例如,分析長度為3的轉發鏈中用戶之間的距離關系,從數據集中選取相應長度的轉發鏈,并判斷不同位置的用戶之間是否存在關注關系。
人人網提供了與微博類似的共同好友查看功能。在判斷轉發鏈中用戶之間的鏈接關系時,共同好友可作為判斷依據之一。由于人人網部分用戶設置了非好友的訪問權限,因此針對有向圖中用戶關系采取以下機制進行判別。
1) 根據有向圖節點之間連接關系以及相應的用戶轉發行為方式,在轉發鏈中相鄰的2個用戶為互為好友的用戶。
2) 對于轉發鏈中非直接相鄰的用戶,若能訪問用戶詳細信息,則進一步判斷2個用戶是否擁有共同好友。
3) 若不能訪問用戶詳細信息,用戶通常會填寫學校信息以及籍貫等,通過個人信息相似性對用戶之間是否存在好友關系進行判斷。
5.2 測量結果
根據轉發鏈中用戶距離的分析過程,將基于轉發順序的用戶序列,轉化成基于距離排列的用戶序列,并且對不同距離用戶轉發進行統計分析。數據集中信息被不同距離用戶轉發比例如圖3和圖4所示。從圖中可知,當用戶之間距離大于1時,用戶之間的交互行為是存在并且活躍的。對于無向圖網絡,雖然用戶之間若非直接好友關系并不能直接訪問,但是非相鄰用戶之間同樣存在一定規模的交互行為。
由于人人網數據規模及其隱私限制,為了減小判斷誤差帶來的影響,在分析時定義用戶的距離最長為4。根據上述結果,在線社會網絡用戶之間的交互關系存在于不相鄰的用戶之間并具有一定數量規模,能夠對基于不同鄰接距離用戶交互行為的區域交互行為模型提供理論依據。
6.1 影響力評估與用戶劃分結果分析
為了驗證區域交互模型在用戶影響力評估以及基于影響力分析的用戶角色劃分研究的有效性,本文基于用戶顯性、隱性影響力對網絡中的大影響力用戶、普通用戶以及僵尸粉用戶進行識別研究。
圖5為基于微博數據得到的部分大影響力用戶、普通用戶以及僵尸粉用戶的顯性、隱性影響力分布。大影響力用戶的隱性影響力與顯性影響力都具有較大的數值規模,此結果表明大影響力用戶的微博信息不僅能夠被大量的粉絲轉發,還能夠由傳遞效應傳播到距離較遠的用戶。普通用戶的信息傳播能力較弱,因此其2類影響力分布取值區域較小。僵尸粉用戶的影響力分布顯示出極為不平均的結果,這是由于僵尸粉用戶的信息很難被正常用戶轉發,其影響力分布也與普通用戶有明顯差別。
由于人人網的有向圖性質,用戶之間的好友關系建立需要用戶審核確認,因此本文研究內容不包括人人網中僵尸粉的識別。圖6為人人網中大影響力用戶與普通用戶的顯性、隱性影響力分布。由于本文實驗所使用的人人網數據中不包括明星賬號、機構賬號或者媒體賬號等用戶,并且人人網用戶整體的活躍性與新浪微博相比相對較低,因此用戶影響力的計算值相對較小。
從圖6所示的各類型用戶的顯性與隱性影響力分布可以看出,大影響力用戶的信息能夠被大量的粉絲轉發,并且還可被大量非連接用戶轉發,因此其區域交互性十分明顯。普通用戶與相鄰、非相鄰用戶之間也存在交互行為但規模相對較小。僵尸粉用戶的信息難以被大規模轉發。即使目前存在通過僵尸粉團等模擬正常用戶的僵尸粉,其不同類型的影響力分布與正常用戶相比仍有明顯區別。
6.2 有效性分析
6.2.1 大影響力用戶
為了分析區域交互模型在識別大影響力用戶時的有效性,本文與基于粉絲數、PageRank[18]以及信息級聯模型[19]的大影響力用戶識別方法進行對比分析。圖7和圖8為新浪微博與人人網中影響力排序前50用戶的粉絲粘性對比結果。
本文用粉絲用戶轉發次數2次上的用戶數來表示用戶粘性,用以反映用戶與其粉絲之間的交互頻度與依賴關系。根據圖7和圖8結果,無論有向圖網絡(新浪微博)或無向圖網絡(人人網),基于區域交互模型識別得到的大影響力用戶要優于其他方法。雖然通過不同方法識別得到的大影響力用戶具有重合部分,但是基于區域交互模型識別得到大影響力用戶在整體上具有較大粉絲粘性。
信息轉發是在線社會網絡中最具特色的功能,信息的轉發規模能夠體現用戶影響力。若排序序列中越靠前的用戶其信息傳播具有越大的覆蓋人數,相應的影響力評估方法具有更好的效果。因此,本文對影響力排名靠前的用戶信息轉發規模進行統計分析,進一步驗證區域交互模型的有效性,結果如圖9和圖10所示。根據圖中結果可知,采用區域交互模型的方法識別得到用戶在信息覆蓋人數上要高于其他方法。從上述分析可以看出,基于區域交互模型的用戶影響力評估方法識別得到的大影響力用戶具有較高的活躍性,并且能夠吸引大量其他用戶關注與轉發其信息,該模型能夠有效體現出在線社會網絡中用戶的真實影響力。
6.2.2 僵尸粉用戶
僵尸粉用戶是在線社會網絡中對正常用戶造成較差用戶體驗度的一類虛假用戶,簡稱為僵尸粉,部分僵尸粉由機器人程序自動注冊生成,以廣告為目的發布大量垃圾信息。還有一些用戶在注冊后并沒有任何使用站點服務的行為,也屬于僵尸粉。為了驗證在識別僵尸粉時模型的有效性,本文采用人工方式從微博中的僵尸粉進行標注,具體判斷原則為:1)判斷用戶發布微博內容中是否明顯為廣告信息,如果比例超過90%則判定其為僵尸粉用戶;2)判斷用戶微博內容的差異性,若用戶微博內容中含有大量短鏈接或者圖片等,判斷文字內容與短鏈接內容是否相關;3)若微博內容為純文字信息,判斷信息內容是否具有意義,是否含有生僻、亂碼等字符。最終通過人工標注方式得到3 000個僵尸粉樣本。
目前識別僵尸粉的方法大多是基于用戶的特征指標,然后利用機器學習的方法來分類識別。對于基于用戶特征的識別方法,單一指標雖然可以被用來識別網絡中的僵尸粉用戶,但是準確率偏低,實際應用效果較差。表3所示內容為根據單個特征進行僵尸粉識別時的準確率(由于數據集的差異,本文中的結果與文獻[15]稍有差異)。因此,為了保證識別效果,此類方法必須要有足夠多的特征指標。

表3 單一指標僵尸粉識別準確率
在使用較多用戶屬性進行僵尸粉識別時,基于機器學習方法,如SVM識別方法能夠達到90%的正確率,但是如果相關算法使用的特征較少時準確率則相對較低。選取2個屬性作為特征向量并使用SVM做2類分類,進行僵尸粉識別,結果如表4所示。從表5中的結果可以看出少量特征并不能保證識別結果能夠有很高的準確性,因為特征對于識別方法的權重也是有區別的。

表4 基于區域交互模型的僵尸粉識別結果

表5 基于少量特征的僵尸粉識別準確率
基于區域交互模型采取的僵尸粉識別方法為:1)獲取用戶顯性、隱性影響力值;2)顯性、隱性影響力值閾值設定;3)根據用戶相應影響力值對其身份進行標定。為了設定合理的影響力閾值取值,本文根據人工篩選得到的數據集以300個僵尸粉與300個普通用戶一組,將用戶分成10組作為訓練與測試數據集,并采用循環估計的方法選取平均準確率最高時相應顯性、隱性影響力數值作為僵尸粉識別過程的閾值。最終僵尸粉判定條件為選取顯性影響力大于100且隱性影響力小于5,隱性影響力大于150且顯性影響力小于10以及選取顯性、隱性影響力同時小于1為僵尸粉用戶,其他則認為是正常用戶。僵尸粉識別實驗結果如表4所示。
根據對識別錯誤的用戶進行分析發現,誤判的主要原因在于某些正常用戶其活躍性非常低,在實驗周期中發微博的行為十分稀疏,雖然在用戶影響力上與僵尸粉用戶極為相似,但通過人工篩檢并不能被歸為僵尸粉用戶。此外把僵尸粉誤認為普通用戶的原因為其信息在本文實驗數據中截止時間的原因并不完整,因此計算出結果未能滿足僵尸粉篩選條件。在分析得到的僵尸粉后,發現存在僵尸粉團的現象存在,部分賬號其信息內容與行為跟普通用戶相比并無較大差異,該賬號微博由其他僵尸粉進行轉發但賬號之間并不存在關注關系,這些模擬正常用戶行為的僵尸粉也被基于區域交互模型的識別方法檢測獲得。綜合上述幾部分實驗,結果表明區域交互模型能夠較為真實地反映用戶之間的交互行為,基于行為不同模式的差異可對在線社會網絡中不同類型用戶進行識別。
本文基于新浪微博與人人網數據發現用戶之間的轉發、分享等交互行為在一定鄰接距離范圍內是廣泛存在的,并不僅限于相鄰用戶。根據不同距離的交互行為提出了一個區域交互模型。該模型基于不同鄰接距離用戶之間的交互行為,對在線社會網絡中用戶的影響力進行判斷分析。用戶對相鄰節點的顯性影響力以及非相鄰節點的隱性影響力可應用于在線社會網絡用戶類型劃分,能夠從用戶行為、用戶影響范疇等方面更真實地體現出用戶在網絡中所處的地位。實驗結果表明,不論是對于大影響力用戶識別,還是僵尸粉識別,本文的方法在準確度等方面具有一定的有效性。
區域交互模型是針對在線社會網絡用戶之間交互行為的抽象,本文開展包括的用戶影響力研究以及相應的用戶角色劃分研究僅是基于該模型展開的部分基礎研究。在下一步研究工作中,將開展在本文工作基礎上的算法復雜度優化研究,并對算法有效性進行更為細致的分析研究。
[1] KANNA A F, YACINE A, AJITH A. Models of influence in online social networks[J]. International Journal of Intelligent Systems, 2013, 29(2): 161-183.
[2] LIM S H, KIM S W, PARK SUN J. Determining content power users in a blog network: an approach and its applications[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part A: Systems and Humans Archive, 2011, 41(5): 853-862.
[3] LI X,CHENG S Y, CHEN W L. Novel user influence measurement based on user interaction in microblog[C]//The 2013 IEEE/ACM International Conference on Advances in Social Networks Analysis and MiningNiagara Falls. Canada, c2013: 615-619.
[4] WU X M,WANG J M. Micro-blog in China: identify influential users and automatically classify posts on Sina micro-blog[J]. Journal of Ambient Intelligence and Humanized Computing, 2014, 5(1): 51-63.
[5] CHA M Y, HADDADI H, BENEVENUTO F. Measuring user influence in Twitter: the million follower fallacy[C]//The Fourth International AAAI Conference on Weblogs and Social Media. Washington, DC, USA, c2010: 10-18.
[6] LEAVITT A, BURCHARD E, FISHER D, et al. The Influentials: New Approaches for Analyzing Influence on Twitter[R]. Web Ecology Project, 2009.
[7] KITSAK M, GALLOS L K, HAVLIN S. Identification of influential spreaders in complex networks[J]. Nature Physics, 2010, 6(11): 888-893.
[8] BROWN P, FENG J L. Measuring user influence on Twitter using modified-shell decomposition[C]//The 2011 ICWSM Workshop on the Social Mobile Web. Barcelona, Spain, c2011: 18-23.
[9] CHEN D B, LV L Y, SHANG M S. Identifying influential nodes in complex networks[J]. Physica A: Statistical Mechanics and its Applications, 2012, 391(4): 1777-1787.
[10] HUANG Y L,LI L. Analysis of user influence in social network based on behavior and relationship[C]//The 2nd International Conference on Measurement, Information and Control. Harbin, China, c2013: 682-686.
[11] TANG X N, YANG C C. Ranking user influence in healthcare social media[J]. ACM Transactions on Intelligent Systems and Technology, 2012, 3(4): 565-582.
[12] UYSAL I, CRFOFT W B. User oriented tweet ranking: a filtering approach to microblogs[C]//The 20th ACM International Conference on Information and knowledge Management. Glasgow, Scotland, c2011: 2261-2264.
[13] SUN B M, VINCENT T Y. Identifying influential users by their postings in social networks[C]//The23rd ACM Conference on Hypertext and Social Media Workshop on Modeling Social Media. Milwaukee, USA, c2012: 1-8.
[14] STRINGHINI G, KRUEGEL C, VIGNA G. Detecting spammers on social networks[C]//The 26th Annual Computer Security Applications Conference. New York, NY , USA: ACM, c2010: 1-9.
[15] CHU Z, GIANVECCHIO S, WANG H N. Detecting automation of Twitter accounts: are you a human, bot, or cyborg[J]. IEEE Transactions on Dependable and Secure Computing, 2012, 9(6): 811-824.
[16] BHAT S Y, ISLAMIA J M, DELHI N. Community-based features for identifying spammers in online social networks[C]//The 2013 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. Niagara Falls, Canada, c2013: 100-107.
[17] SUN Q D, WANG N, ZHOU Y D, et al. Modeling for user Interaction by influence transfer effect in online social networks[C]//The 39th IEEE Conference on Local Computer Networks. Edmonton, Canada, c2014: 486-489.
[18] LIANG H, LU G, XU N S. Analyzing user influence of microblog[C]//2012 IEEE fifth International Conference on Advanced Computational Intelligence (ICACI). Nanjing, China, c2012: 15-22.
[19] BAKSHY E, HOFMAN J M, MASON W A, et al. Everyone’s an influencer: quantifying influence on Twitter[C]//The 4th ACM International Conference on Web Search & Data Mining. HongKong, Ch ina, c2011: 65-74.
Study on user influence analysis via regional user interaction model in online social networks
WANG Nan1, SUN Qin-dong1, ZHOU Ya-dong2, WANG Han-qin1, SUI Lian-sheng1
(1. Shaanxi Key Laboratory of Network Computing and Security, Xi’an University of Technology, Xi’an 710048, China;2. MOE KLINNS Lab, Xi’an Jiaotong University, Xi’an 710049, China)
Conventional user influence researches do not accurately reflect the real interaction pattern between different users in online social networks. In order to solve this problem, a user influence evaluation method based on regional user interaction model has been proposed. The regional user interaction model can illustrate the real online social network user interaction pattern between users with different distance by the influence transfer effect. The method calculates the direct influence and the indirect influence of each user in online social networks and identifies the influential users and zombie users. Experiments are based on the real data of Sina Weibo and RenRen online social networks and the results show that compared with the existing methods the method has better accuracy and efficiency for the influential user and zombie user identification.
user influence evaluation, regional interaction model, online social network, influential user, zombie user
TP393
A
10.11959/j.issn.1000-436x.2016020
2015-02-03;
2015-07-30
孫欽東,sqd@xaut.edu.cn
國家自然科學基金資助項目(No.61172124, No.61571360, No.61202392)
TheNational Natural Science Foundation of China (No.61172124, No.61571360, No.61202392)
王楠(1983-),男,河南安陽人,西安理工大學博士生,主要研究方向為在線社會網絡、數據挖掘等。
孫欽東(1975-),男,山東莒南人,博士,西安理工大學教授,主要研究方向為網絡安全、在線社會網絡、物聯網等。
周亞東(1982-),男,陜西漢中人,博士,西安交通大學講師,主要研究方向為在線社會網絡、Web挖掘等。
王漢秦(1987-),男,陜西西安人,西安理工大學碩士生,主要研究方向為在線社會網絡。
隋連升(1972-),男,陜西韓城人,博士,西安理工大學副教授,主要研究方向為計算機圖形學、數字圖像處理以及計算機視覺等。