微博的熱點數據處理與公眾關注分析

2021-06-11 23:59:25王坤張益民

錦繡·下旬刊 2021年2期

王坤張益民

摘要：文章在使用爬蟲獲得不同種類的熱點數據后，提取了一些關于用戶和微博間的一些基本相關數據，并用最新的spss分析軟件進行清洗數據和分析軟件中的數據，運用單因素方差分析法，比較不同話題分類樣本和話題樣本對熱門微博下的粉絲數、關注數、轉發數、評論數、點贊數這些觀測值有沒有產生顯著性影響，從而研究分析出公眾對哪方面的熱門話題更感興趣。

關鍵詞：微博;爬蟲;方差分析;熱門話題

0引言

由于熱門話題內容復雜，普通網民往往缺乏對專業性較高問題的判斷能力，需要在新浪微博上找到熱點話題，抓取熱點數據，為人們從海量信息中提取有價值的信息節省時間，正確引導普通網民思考問題的角度和趨勢。對于熱點研究方面角度不同，方法多樣，運用于的領域也不同，本文著重關注某一方面熱點數據，自建合理scrapy框架，運用于微博大量的數據爬取，實現數據的獲取、查找、整理與分析。[2]

1爬蟲系統設計

Scrapy框架用于對微博上的熱門數據抓取。當爬蟲程序成功登錄到微博并獲得微博頁面后，可以解析HTML腳本并將其提取到所需的數據中。一篇熱門微博文章的主要數據包括：用戶昵稱、用戶ID、關注數、粉絲數、微博內容、轉發數等。[1]使用爬蟲爬取數據的主要流程有以下三步。

1.1微博內容獲取

在微博登錄方面，我們使用一種簡單的方式：抓取微博登錄cookie[4]，然后使用cookie登錄微博。這樣就可以瀏覽某個人的微博內容了，爬取微博正文的代碼如下：

#-*-coding：utf-8-*-

fromscrapyimportItem，Field

classTweetsItem（Item）：

"""微博信息"""

_id=Field（）#微博id

weibo_url=Field（）#微博URL

created_at=Field（）#微博發表時間

like_num=Field（）#點贊數

comment_num=Field（）#評論數

content=Field（）#微博內容

user_id=Field（）#發表該微博用戶的id

crawl_time=Field（）#抓取時間戳

1.2用戶信息獲取

抓取登錄微博的cookie，使用cookie登錄微博后我們可以看到登錄用戶的個人信息。為了研究熱門話題對公眾的影響，我們需要確定一個微博用戶作為抓取數據的起點，部分代碼如下：

classInformationItem（Item）：

"""個人信息"""

_id=Field（）#用戶ID

nick_name=Field（）#昵稱

gender=Field（）#性別

province=Field（）#所在省

city=Field（）#所在城市

brief_introduction=Field（）#簡介

birthday=Field（）#生日

tweets_num=Field（）#微博數

1.3用戶關系獲取

新浪微博用戶之間存在互相關注的情況，為了方便起見，本文只對用戶的粉絲進行了爬行，以了解兩個用戶之間是否存在關注關系。代碼如下：

classRelationshipsItem（Item）：

"""用戶關系，只保留與關注的關系"""

_id=Field（）

fan_id=Field（）#關注者，即粉絲的id

followed_id=Field（）#被關注者的id

crawl_time=Field（）#抓取時間戳

微博用戶關系數據表共有5列屬性，采集到的用戶關系信息包括：信息爬取的爬行時間、用戶關注對象ID列表、用戶粉絲ID列表等。

2數據分析結果與解釋

本文把話題分類作為定類數據，關注數、粉絲數、轉發數、評論數、點贊數作為定量數據進行方差分析，結果如下[3]：

（1）分類相比較于關注數呈現出0.01水平顯著性（F=40.25，P=0.00），以及具體對比差異可知，有著較為明顯差異的組別平均值得分對比結果。

（2）分類相比較粉絲數表現出0.01水平顯著性（F=26.31，P=0.00），由具體對比差異可以知到，有著比較明顯差異的分組平均值得分比較結果。

（3）分類相比較轉發數表現出0.01水平顯著性（F=8.18，P=0.00），由具體對比差異可以知到，有著較為明顯差異的分組平均值得分比較結果。

（4）分類相比較評論數表現出0.01水平顯著性（F=6.36，P=0.00），由具體對比差異可以知到，有著較為明顯差異的分組平均值得分比較結果。

（5）分類相比較點贊數表現出0.01水平顯著性（F=17.91，P=0.00），由具體對比差異可以知到，有著較為明顯差異的分組平均值得分比較結果。

總結可知：各種話題樣本對于關注數，粉絲數，轉發數，評論數，點贊數全部均呈現出顯著性差異。為了檢驗以上分析結果是否準確，本文把話題和話題分類這兩個數據指標做成了詞云圖，通過詞云圖顯示具體哪個話題或者話題分類出現的頻率最高[2，5]。通過對微博熱門話題關注程度的分析，發現用戶在娛樂的同時也應該多去了解下國家正在發生的社會事件。

參考文獻

[1]王海玲，周志彬.基于Scrapy框架的爬蟲設計[J].軟件導刊，2020，19（04）：224-228.

[2]方潔，龔立群，魏疆.基于利益相關者理論的微博輿情中的用戶分類研究[J].情報科學，2014，32（01）：18-22.

[3]戴金輝.單因素方差分析中異方差的檢驗與修正[J].統計與決策，2017（08）：23-26.

[4]安子建.基于Scrapy框架的網絡爬蟲實現與數據抓取分析[D].吉林大學，2017.

[5]劉志明，劉魯.微博網絡輿情中的意見領袖識別及分析[J].系統工程，2011，29（06）：8-16.

（遼寧大連東軟信息學院?遼寧?大連?116000）

錦繡·下旬刊2021年2期

錦繡·下旬刊的其它文章: 中國城市意象的研究綜述探討; 探析室內環境設計的創意空間和發展趨勢; 關于網絡環境下公共圖書館采編工作的現狀和發展趨勢探討; 有關CL₂通入FEBR₂溶液中離子方程式的書寫和濃度的計算; 秦至清中國人同質性生存之蔽：可能性探索的喪失; 記憶里的鄉村景觀