駱偉,陳希邦
(江西理工大學理學院,江西贛州341000)
基于微博數據分析的算法研究
駱偉,陳希邦
(江西理工大學理學院,江西贛州341000)
隨著全球信息化的發展和社交網站的豐富,越來越多的人喜歡在社交網站上分享自己的心情,發布一些動態。微博作為一種新型的既有關注又可以分享信息的社交媒體,它形式多樣化、發布便捷、傳播快、交互式更強的特點受到了大量用戶喜愛。自微博興起以來,微博的發布數量非常龐大,而如何有效、快速地挖掘出自己所需要的信息非常重要。選擇新浪微博為研究對象,通過網絡爬蟲從新浪微博上獲取微博信息,并通過k-means算法對數據進行了分析。
微博;k-means算法;網絡交流平臺;實時信息
微博在當今社會應用范圍越來越廣泛,不同于傳統的網絡交流平臺,比如博客,雖然現今還有一些人在博客上發表文章,但從整體上來看,微博更受到廣大用戶的喜愛,微博上的信息具有較高的時空效率,作為現代社會最流行的人際交往虛擬平臺,具有以下特點:簡短、實時信息以及具有類似廣播的形式。但微博平臺上的信息量如此之大,獲取信息的難度也是很大,因此,選擇一種適合自己的研究算法十分重要。
哈佛大學的心理學教授Stanley Milgram認為,你與任何一個陌生人之間的間隔不會超過6個人,即所謂的著名的“六度分隔理論”。該理論的形成對社交平臺的發展有著極大的貢獻。社交網絡平臺是基于人們日常生活中的社交圈為基礎,將擁有相同興趣愛好的網絡用戶群體通過互聯網服務,在網絡平臺上構建了一種社會網上關系,稱為社交網絡服務,簡稱SNS(Social Networking Services,或Social Network Site)。每個人多少都有自己的人脈圈,在互聯網上也是如此。到目前為止,社交網絡服務已經擁有相對成熟的技術以及受到絕大部分網民的喜愛。當然,由于科技的不斷進步和互聯網的不斷發展,社交網絡服務也隨之不斷加強,出現了垂直類型的SNS(比如淘寶)、學術類型的SNS(比如Wiki、Ning網站)、綜合類型的SNS(比如Facebook、微博)等。
k-means聚類算法是由Steinhaus在1955年、Lloyd在1957年、Ball&Hall在1965年、McQueen在1967年獨立提出的。k-means算法屬于聚類算法,是典型的基于距離的聚類算法,它采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。該算法認為簇是由距離靠近的對象組成的,因此,把得到緊湊、獨立的簇作為最終目標。算法過程如下:①從N個文檔隨機選取k個作為質心;②對剩余的每個文檔測量其到每個質心的距離,并歸入到最近質心的類別中;③重新計算已經得到各個類的質心;④重復上述步驟,直到新的質心與原質心小于等于指定閾值,算法終止。k-means算法實現簡單,且聚類速度快,非常適合于大數據集的計算。到目前為止,已有部分研究者采用k-means算法進行社會網絡相關的問題分析,并對算法本身加以了改進和優化。
本研究利用八爪魚采集器,通過制訂規則,使用網絡爬蟲調用新浪微博開放平臺API接口來獲取微博用戶群體的數據。新浪微博用戶之間的行為有一定的相似性,基于k-means聚類算法,希望能夠得到更加有效的結論證明用戶之間存在共同的行為規律。通過對每一個用戶群體在一周中某一天發布微博的條數占本周所有微博的比例進行處理,反映的是所有用戶在一周時間內各自發布微博的信息統計。基于數據制作K線圖,分別對之前數據進行聚類分析之后的不同群組的用戶群組進行分析。
通過分析可以得出,選取的微博用戶可以大致分為幾類,然后對每一個群組進行分析,從而研究他們的特征。研究發現,微博用戶之間使用微博的頻率確實存在不同的習慣,我們對這些微博用戶進行分組可以發現,相同組的用戶之間的微博行為有著一定的相似性,且用戶使用微博的情況與日常的生活規律有一定的相關性。
從某種程度上講,此次研究的數據量不是所有新浪微博用戶的所有數據,在數據采集方面還有一定的偏差,并不能代表整體微博用戶的行為習慣。如果是全部的數據量,普通的計算機沒有辦法完成此次研究,對算法的要求同樣不能僅僅依靠k-means算法來設計此次的數據分析。所以,此次研究只是一次簡單的嘗試,希望未來在對所有數據的處理中有參考作用。今后,我們還需要大量的數據及更多的研究目標,才能夠更加準確地對新浪微博用戶的習慣進行研究。
[1]肖廣德,高丹陽.應用SNS網站功能構建網絡學習環境初探[J].中國電化教育,2010(04).
[2]王千,王成,馮振元,等.K.means聚類算法研究綜述[J].電子設計工程,2012(07).
〔編輯:張思楠〕
TP311.13
A
10.15913/j.cnki.kjycx.2017.18.026
2095-6835(2017)18-0026-02
駱偉(1989—),女,教師,研究方向為計算機應用技術。