摘要:隨著互聯網時代的到來,數據成為當今社會中重要的資源,在龐大的數據體系中蘊藏著無限的價值,對這些數據進行挖掘有著重要的意義。社交網絡是在傳統網絡的基礎上發展而來的,但是當網絡的應用和移動的終端設備快速的發展時,社交網絡也飛速發展起來。文章對新浪微博中的數據通過適當的方式進行了收集,并進行了相關的分析。
關鍵詞:新浪微博;社交網絡;用戶權重;數據分析;數據體系 文獻標識碼:A
中圖分類號:TP391 文章編號:1009-2374(2016)05-0190-02 DOI:10.13535/j.cnki.11-4406/n.2016.05.095
信息的獲取方式有很多種,但是比較常用的主要是兩種:一種是網絡爬蟲;另一種是網頁信息解析。但是微博用這兩種常規的方法很難高效地獲取相關數據,因為微博的用戶量很大,數據更新的速度很快,用戶之間的交流很頻繁,這種常規的方法無法實現這種數據的獲取。所以,微博的數據獲取主要依賴于API接口,它是由微博服務商提供的一種可以查詢微博數據和微博中的交流情況的應用,可以實現微博數據的獲取。
微博服務商不僅可以獲得微博的數據,還可以獲得用戶的數據,這些數據都是很重要的資源,但是API作為一個服務器,同其他服務器一樣,有一定的負荷限度,所以為了保證服務器不出現崩潰、為了保護數據不丟失,必須對每個API接口設置一定的權限。在新浪微博中,一般的權限是用戶在一個小時內調用的次數不能太過于頻繁,最多為1000次,而且在此基礎上每個API中都設有各自的小權限,所以在收集數據的過程中要分別對每個API接口進行相應的設置,這樣才能獲得更多的數據。除了解決API接口的限制問題,還需要系統具備災難恢復功能,這樣可以相對提高數據獲取速度。
1 微博數據收集和特征分析
1.1 微博數據收集
雖然利用開放的API接口可以收集微博中的數據,但是還有一個重要的問題需要解決,那就是關于用戶的身份認證的問題。用戶在微博中注冊的時候進行的身份認證是受保護的,任何第三方在不知道用戶名和密碼的情況下是不能查看該用戶的任何信息的。新浪微博是通過OAUTH認證來實現用戶身份保護的,QAUTH認證不僅安全,而且還特別簡單實用,在新浪微博中主要是用于API的用戶驗證協議。當用戶在微博中進行注冊的時候,通過QAUTH的授權后,用戶會收到一份由API根據用戶的請求而發送的XML或JSON文件。可以通過對這類文件進行解析,從而獲得原始的數據。
1.2 微博特征分析
每個用戶的受關注程度都不相同,為了評價某個用戶的受關注程度,可以通過統計其微博的回復數和轉發數來估計。在新浪微博中,對于用戶所發送的一條微博,關注他的用戶可以有三種行為:第一種是單純的回復,在這種情況下該用戶的微博中的評論數就會增加1個;第二種是單純的轉發,在這種情況下該用戶的原微博中轉發數就會增加1個;第三種是既有回復又有轉發,在這種情況下就會評論數和轉發數都加1個。所以在微博的轉發回復兩者之間既相互聯系,又相互區別。同理,微博的回復數量和轉發數量之間同樣存在著某種關系,如果某一條微博的回復數量很高,那么這條微博被轉發的可能性也很大。
新浪微博較其他的社交網絡平臺有更多的功能,其中很重要的一個就是在新浪微博中含有很多多媒體的信息。經過統計發現,在微博的內容中添加了一些圖片或其他多媒體信息會比單純的文字內容更具吸引力,會有更多的回復量和轉發量。此外,對于同樣具有多媒體信息的微博,如果在微博中存在提及關系,那么它的關注量會比沒有提及關系的更高,而且這個關注度還隨提及的用戶的數量的增加而增加,所以在微博傳播性能參考特征中還有提及特征。
2 用戶特征分析
雖然微博同Facebook、MySpace等一樣都是社交網絡,但是微博有很多不同于它們的特點。比如,在微博中用戶之間的友好關系是雙向的,當用戶A關注用戶B的時候,不需要經過用戶B的審核,而且如果用戶B不關注用戶A的話,用戶A就不會出現在用戶B的關注名單中,在這種情況中,用戶A與用戶B之間的關系比較復雜,與一般的好友關系不同,前者是后者的粉絲,后者是前者的被關注好友。在微博這種社交網絡中,其結構特征可以描述為一種關系式,即G=(U,E),U指網絡中的節點,也就是用戶,E表示各個用戶之間存在的有向的連接關系。該關系式稱為網絡拓撲關系,在這個關系式中,分別設定了出度和入度,其中出度是指一個用戶的關注好友數,入度是指這個用戶的粉絲數量,通過用戶的出度和入度形成了一個網絡節點的度的分布特征。
在新浪微博中用戶是分不同等級的,在本文進行數據收集的過程中發現,在新浪微博中通過認證用戶將用戶分為普通用戶和認證用戶。因為微博在不斷的升級更新,在最新版的新浪微博中對認證用戶進行了更加詳細的分類。在研究過程中發現,經過認證的用戶的粉絲量較普通用戶多很多,而且其微博的評論量和轉發量也更高,所以是否為認證用戶也在很大程度上決定了微博的傳播情況。一般來說,如果一個用戶有很多的粉絲,那么他的微博被轉發或者被評論的可能性就很高,對于用戶微博的轉發與回復數與用戶粉絲數量之間存在著很密切的關系,但是這個關系比較模糊。
當用戶打開微博的時候,最先呈現在其微博首頁的是其所關注的好友的最新微博,一般都是按照時間的順序進行排列,最新的消息排在最上面。一般來說,用戶打開微博后最先出現的就是關注好友的最新微博,但是隨著逐漸向下滑動,會有更多的信息呈現出來,所以每次用戶在打開微博后,會有大量的信息出現,但是一般的用戶都只是簡單瀏覽,很多信息都會被忽略掉。因此,一個微博是否會被關注還會因為用戶的情況不同而不同,如果一條微博的發布時間恰好處于用戶的活躍時段,那么被關注的可能性就會很大,但如果恰好處于不活躍時段,則很有可能會被忽略,所以用戶的活躍時間特征也是微博傳播的重要影響因素。
3 基于HITS算法的節點權重分析
在社交網絡中特別重視人與人之間的相互關系,所以一個很具有權威的微博作者的微博會傳播得更廣。通過前面的分析可知,用戶的權重有很多的影響因素,比如用戶的影響力、用戶的活躍程度等。HITS算法是一種權重排序法,在互聯網中有很廣泛的應用,它主要是指:在同一個網頁中同時存在兩個不同的值,分別是hub值與authority值。其中hub值是指該網頁所指向的所有的網頁中的authority值構成;而網頁的authority值由指向該頁面的所有網頁hub值構成。在互聯網中,有這樣一個規律,如果有很多具有高權威性的網頁都指向一個未知的網頁,那么這個未知的網頁在很大程度上也會是高權威性網頁。
在整個互聯網中,每一個網頁都會含有各種不同的連接,假如在你打開的一個具有很高權威性的網頁中連接到某一個廣告,那么這個廣告就會因此而同樣具有很高的權威性;或者另外一種情況,當你在搜索一個主題的時候,出現一個與你搜索的主題沒有任何關系但是具有很高權威性的頁面,這些情況都會使得HITS的公正性受到嚴重的影響。但是,在微博中,每個用戶都是獨立的個體,都有自己的思想。很多明星在微博中有大量的粉絲,并且一般都只有少量的關注好友,但是他們的微博通常都會有很高的回復率和轉發率。對微博中的用戶進行詳細的分析后,得出了一些重要的規律,比如:在新浪微博中,如果某個用戶有很高的權重,他關注的好友越多,那么說明他所關注的好友越不重要;但是,反過來,如果他關注的好友越少,則說明他所關注的好友對他來說都很重要。為了限制權威性用戶無限度的傳遞其自身的權威性,必須將HITS算法進行相應的改進,因為在微博中用戶之間的友好關系是有方向的,這種關系正好與互聯網的網頁連接非常相似,所以可以按照互聯網中的方法同樣的改進,HITS算法。
在社會快速發展的同時,互聯網也在迅速的發展,特別是社交網絡如微博逐漸成為人們日程生活中不可或缺的一部分。社交網絡比傳統網絡傳播信息速度更快,特征也更復雜,所以傳統的理論和研究模型都不再適用于社交網絡,怎樣才能更加快速、更加高效地獲取社交網絡中的各種信息和數據,具有很重要的研究意義和應用的價值。
本文將API接口的應用合理地運用到研究過程中,并結合網頁信息解析法,分別對微博的數據進行了收集和多角度的分析,根據研究結果發現影響了影響微博用戶的權威性和微博的傳播范圍的相關因素。在微博等社交網絡中,雖然所發布的內容完全相同,但是具有不同權威性的人進行發布將會有不同的效果、不同的影響力。
參考文獻
[1]Linyuan Lü,Matú?Medo,Chi Ho Yeung,Yi-Cheng Zhang,Zi-Ke Zhang,Tao Zhou.Recommender systems[J].Physics Reports,2012,(1).
[2]Chuang Liu,Wei-Xing Zhou.Heterogeneity in initial resource configurations improves a network-based hybrid recommendation algorithm[J].Physica A:Statistical Mechanics and its Applications,2012,(22).
[3]蔣昌金,彭宏,陳建超,等.基于主題詞權重和句子特征的自動文摘[J].華南理工大學學報(自然科學版),2010,(7).
作者簡介:張宇航,男,本溪廣播電視大學計算機講師。
(責任編輯:王 波)