999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于爬蟲和SVM的微博評論情感分析研究

2024-06-13 00:00:00汪蘭蘭
無線互聯(lián)科技 2024年9期
關(guān)鍵詞:分類情感

摘要:微博作為熱點時事的重要傳播平臺,每個文章或視頻下面的評論是各路網(wǎng)友關(guān)注的重點,手動下拉后復(fù)制粘貼微博評論是日常行為,但此操作會降低情感分析速率。針對以上情況,文章采用Selenium技術(shù)模擬人登錄和輸入驗證碼,導(dǎo)入Requests庫對網(wǎng)頁源代碼進(jìn)行解析后保存微博評論。將ChnSentiCorp情感分析語料庫導(dǎo)入支持向量機(jī)(Support Vector Machines,SVM)分類模型進(jìn)行訓(xùn)練,對所爬取的微博評論進(jìn)行文本預(yù)處理后,用訓(xùn)練好的SVM模型對微博評論進(jìn)行情感分類。分類后的實驗結(jié)果表明:SVM分類精度較低,主要原因是情感分析語料庫并不具有廣泛性,利用爬蟲技術(shù)自建微博評論語料庫,導(dǎo)入分類模型進(jìn)行訓(xùn)練,會使得情感分類的準(zhǔn)確性更高。

關(guān)鍵詞:微博評論;Selenium技術(shù);ChnSentiCorp情感分析語料庫;SVM;自建微博評論語料庫

中圖分類號:TP389.1

文獻(xiàn)標(biāo)志碼:A

0 引言

微博評論是人們關(guān)注的重點,對于所發(fā)表的文章或視頻而言,評論更容易引起網(wǎng)友的共鳴,其中情感傾向也較為明顯。當(dāng)然熱點時事下面的評論才具有研究的價值,但是獲取這些評論也較為困難,一般是通過復(fù)制每一條評論來收集數(shù)據(jù),不僅操作煩瑣,也增加了情感分類的時間成本。針對以上情況,本文利用網(wǎng)絡(luò)爬蟲技術(shù)來獲取微博評論數(shù)據(jù),爬蟲能夠縮短數(shù)據(jù)收集的時間,加快情感分類的研究進(jìn)度。

1 網(wǎng)絡(luò)爬蟲模塊

網(wǎng)絡(luò)爬蟲技術(shù)是獲取互聯(lián)網(wǎng)信息的關(guān)鍵技術(shù),如谷歌、百度、搜狗等這類公司對搜索引擎的技術(shù)研究較為深入,研究方向為關(guān)鍵詞搜索技術(shù),這部分涉及索引技術(shù)、自動歸類等技術(shù)。但網(wǎng)絡(luò)爬蟲技術(shù)在搜索網(wǎng)頁時占據(jù)主要地位,一般對網(wǎng)頁進(jìn)行訪問是通過一個鏈接(統(tǒng)一資源定位符,URL),鏈接中包括了訪問協(xié)議HTTPS、訪問路徑(根目錄)、資源名稱,在文本框中輸入URL后回車,在瀏覽器中可以找到自己所需的內(nèi)容,這個過程就是獲取網(wǎng)頁的過程。

1.1 網(wǎng)頁獲取流程

網(wǎng)頁獲取的具體過程[1是瀏覽器向網(wǎng)站所在服務(wù)器發(fā)送請求,每發(fā)送多少次請求,服務(wù)器就響應(yīng)多少次。在請求的過程中會出現(xiàn)各類情況,如不返回內(nèi)容和延遲網(wǎng)頁返回時間,這時網(wǎng)站通過網(wǎng)頁對用戶進(jìn)行反爬蟲,判斷該用戶是否存在對該網(wǎng)站訪問次數(shù)過多依據(jù)是IP訪問量(單個IP的訪問量超過了某個閾值,就會進(jìn)行封殺或要求輸入驗證碼)、session訪問量(session對象存儲特定用戶會話所需的屬性和配置信息,當(dāng)用戶在應(yīng)用程序的Web頁之間跳轉(zhuǎn)時,存儲在session對象中的變量在整個用戶會話中一直存在下去,當(dāng)session的訪問量過大就會進(jìn)行封殺或要求輸入驗證碼)、User-Agent(包含瀏覽器和計算機(jī)系統(tǒng)環(huán)境參數(shù),當(dāng)服務(wù)器判斷瀏覽器User-Agent的訪問超過閾值、單個瀏覽器不是真正的瀏覽器的時候予以封鎖)。本文對于無法獲取網(wǎng)頁內(nèi)容的解決辦法是利用Requests庫將請求頭改為瀏覽器的請求頭,另外一種方法是修改爬蟲的間隔時間,當(dāng)運行爬蟲程序的時候,2次訪問之間設(shè)置間隔時間,可以暫時蒙蔽網(wǎng)頁的視線,對微博評論進(jìn)行爬取。

在網(wǎng)頁獲取過程中也會出現(xiàn)另外一種情況,即中文亂碼現(xiàn)象,解決方法是在爬取的網(wǎng)頁結(jié)構(gòu)中找出該源代碼的編碼方式,在請求頭之后加上該網(wǎng)頁的編碼方式,根據(jù)該網(wǎng)頁的編碼方式來解析網(wǎng)頁。

1.2 網(wǎng)頁解析方法

從響應(yīng)體中提取微博評論較為復(fù)雜,需要對網(wǎng)頁節(jié)點結(jié)構(gòu)有個清晰的認(rèn)知,并且網(wǎng)頁的編碼方式不同,也會導(dǎo)致中文亂碼的情況發(fā)生。通常解決方法是利用正則表達(dá)式來獲取網(wǎng)頁內(nèi)容[2,構(gòu)造正則表達(dá)式過程較為煩瑣,會降低爬蟲速度,因此調(diào)用一些庫函數(shù),如Beautiful Soup(遍歷文檔樹、搜索文檔樹、CSS選擇器)、pyquery、lxml(XPath選擇器、CSS選擇器)等來提取主要特征(如節(jié)點屬性、文本值等有用信息)。

1.3 數(shù)據(jù)保存方式

一般保存數(shù)據(jù)的方式有4種,前2種方式是TXT格式和CSV表格形式,另外2種形式是MySQL和MongDB[3。MySQL是一種關(guān)系數(shù)據(jù)庫管理系統(tǒng)(關(guān)系型數(shù)據(jù)庫:建立在關(guān)系模型基礎(chǔ)上的數(shù)據(jù)庫),使用的是訪問數(shù)據(jù)庫最常用的標(biāo)準(zhǔn)化語言——SQL語言。關(guān)系數(shù)據(jù)庫將數(shù)據(jù)保存在不同的表中,例如:存儲A先生的個人信息(性別、年齡等)和購買記錄,把個人消息放在“用戶”表中,購買記錄放在“購買記錄”表中,用A先生的用戶ID作為主關(guān)鍵字把2個表關(guān)聯(lián)起來。

MongDB是一款基于分布式文件存儲的數(shù)據(jù)庫,構(gòu)建一個MongoDB的類,用類來連接數(shù)據(jù)庫、提取數(shù)據(jù)庫中的內(nèi)容、向數(shù)據(jù)庫中加入數(shù)據(jù)以及更新數(shù)據(jù)庫中的數(shù)據(jù)。MongDB和MySQL的區(qū)別在于MongDB調(diào)用方便,對數(shù)據(jù)庫的管理較為條理分明,對于數(shù)據(jù)的添加操作也較為簡潔,應(yīng)用范圍比MySQL更加廣泛。本文對微博評論的存儲對象是中文文本,所用的數(shù)據(jù)保存方式選用TXT格式,將爬取后的微博評論存為TXT的格式,以便后續(xù)迅速調(diào)用文件進(jìn)行情感分類。

1.4 提高網(wǎng)絡(luò)爬蟲速度

1.4.1 控制CSS的加載

CSS框架在網(wǎng)頁布局中較為常見,相比表格嵌套的模式,DIV+CSS的網(wǎng)頁布局現(xiàn)在應(yīng)用較為廣泛[4。DIV+CSS頁面布局主要是將整個頁面獨立出各自的區(qū)域,在加載的時候逐層加載,不會像表格嵌套在整個網(wǎng)頁的一個大表格中,使得頁面布局不能隨意移動。如今較多網(wǎng)頁都是使用DIV+CSS網(wǎng)頁布局,因此,控制CSS加載能夠加快網(wǎng)頁爬取的速度,代碼為:webdriver.FirefoxProfile().set_preference(\"permissions.default.stylesheet\",2)。

1.4.2 限制圖片的加載

圖片在整個網(wǎng)頁中的占比較大,在整個網(wǎng)站中起到非常重要的作用。限制圖片的加載也可以加快網(wǎng)頁爬取的速度,代碼為:webdriver.FirefoxProfile().set_preference(\"permissions.default.image\",2)。

1.4.3 2種方法對比分析

從上述兩者的代碼可以看得出來,對兩者的限制是在驅(qū)動谷歌瀏覽器時不加載CSS和圖片。這2種方式爬取網(wǎng)頁速度的效果對比如表1所示。

從表1可以看出,第一行數(shù)據(jù)為爬取網(wǎng)頁鏈接為2月23號疫情文章下評論所需總時間,限制圖片的加載所用時間比控制CSS的加載所用時間少,實驗結(jié)果表明限制圖片加載明顯可以提高爬蟲的速度。

2 文本預(yù)處理

在自然語言處理領(lǐng)域中,無論是英文還是中文文本,都需要對文本提取出有助于分類的特征,才能夠交給分類器進(jìn)行訓(xùn)練、測試。文本文檔是一系列單詞(包括標(biāo)點符號)的有序不定長列表,這些單詞的種數(shù)反復(fù)出現(xiàn),許多不必要的字符對文本文檔的大體語義并沒有太多的影響。因此,在進(jìn)行情感分類之前需對文本進(jìn)行預(yù)處理操作。文本預(yù)處理的一般步驟為分詞、特征選取、特征向量轉(zhuǎn)化。

2.1 分詞

最早出現(xiàn)的是基于規(guī)則的詞典分詞,這種分詞方式是專家建立規(guī)則后按照這個規(guī)則來編寫程序,然而這種分詞方式?jīng)]有唯一的標(biāo)準(zhǔn)答案可以參考,分詞結(jié)果每次都不一樣,因此,基于規(guī)則的詞典分詞具有快而不準(zhǔn)的特點。現(xiàn)今所用的是基于統(tǒng)計語言模型的中文分詞,這種分詞方式基本上是基于一些小型語料庫來統(tǒng)計已經(jīng)分好句子出現(xiàn)的頻率,進(jìn)一步預(yù)測句子的概率,統(tǒng)計過程中會耗費大量的時間,但分詞結(jié)果較為準(zhǔn)確。

2.2 卡方特征選擇

漢語中有一類沒有多少意義的詞語,此外還有許多與分類類別相關(guān)程度不高的詞語,本文使用了卡方檢驗值來過濾掉相關(guān)程度不高的詞語,使得文本特征凸顯出來,便于精準(zhǔn)訓(xùn)練模型。在統(tǒng)計學(xué)中,χ2檢驗常用于檢驗2個事件的相關(guān)性,則χ2衡量詞語與類別的相似程度,計算此值需要先計算出詞語和類別同時成立與否的4種組合的期望,根據(jù)期望公式計算出這4種組合的期望后,代入χ2的計算公式,如式(1)所示。

由式(1)計算出這4種組合的卡方檢驗值后,根據(jù)自由度為1的χ2分布臨界值表來分析判斷。當(dāng)卡方檢驗值大于10.83時,說明某詞語與某分類類別的獨立假設(shè)成立的置信度小于0.001,兩者相關(guān)程度大于99.9%。卡方檢驗還可以拓展到多分類問題,當(dāng)c∈{教育、汽車、健康、軍事、體育},計算出每個詞語的卡方值后,設(shè)置閾值小于10.83來篩選出相關(guān)程度較高的詞語,能夠提高分類模型訓(xùn)練的精確性。

2.3 詞袋向量

詞袋是信息檢索與自然語言處理中最常用的文檔表示模型,形象地將文檔想象為一個裝有詞語的袋子,將袋子中每種詞語數(shù)量等統(tǒng)計量轉(zhuǎn)化為向量。本文是將詞語的詞頻作為統(tǒng)計量,統(tǒng)計出與類別有關(guān)的n維特征詞語及其頻次,以每種特征詞語所在維數(shù)為ID,頻次為數(shù)值,轉(zhuǎn)化為n維向量。但詞袋模型不考慮詞序,計算成本較低,語序中的語義并沒有凸顯出來,而本文只將與類別有關(guān)的特征轉(zhuǎn)化為向量,導(dǎo)入分類器訓(xùn)練,預(yù)測分類結(jié)果,語義方面不需要考慮。

3 支持向量機(jī)基本原理

支持向量機(jī)(Support Vector Machines,SVM)是一種二分類模型[5,目的就是找出一個最大邊緣超平面將線性可分?jǐn)?shù)據(jù)集進(jìn)行劃分。本文先給定線性可分訓(xùn)練集T,數(shù)據(jù)集T從主觀上看是二分類線性可分?jǐn)?shù)據(jù)集,不可二分類的需要轉(zhuǎn)換為可分類數(shù)據(jù)集再進(jìn)行計算,T表示如下:

T={(x(1),y1),(x(2),y2),…,(x(N),yN)},y∈Y={±1}(2)

找到一個最大邊緣超平面,即2類樣本到超平面的距離最合適,找到平面左邊上的點分別表示為2類數(shù)據(jù)點,先假設(shè)2類數(shù)據(jù)點所在平面函數(shù)分別表示為:

w·xs+b=1,w·xc+b=-1(3)

將式(3)進(jìn)行合并得到邊緣,即超平面的間距為:

d=2‖w‖(4)

為找尋最大邊緣超平面,即使得d為最大,但w和b要先滿足一個約束條件:

為了解決(5)中不等式問題,獲取使得w和b都能夠滿足的約束條件,需要構(gòu)建一個拉格朗日函數(shù)來求解:

將(6)分別對w和b求偏導(dǎo),代入得到含有拉格朗日乘子未知數(shù)的公式來表示w和b,由二次規(guī)劃可以得到一組拉格朗日乘子,將這組拉格朗日乘子代入w和b,直到找到最優(yōu)解w′、b′,最后得到分類決策函數(shù)為y=f(x)=sign(w′·x+b′)。從上述的SVM基本原理闡述可以看出整體算法的計算量較大,當(dāng)數(shù)據(jù)量較大且還是不可分的數(shù)據(jù)集時,此算法失去原有的優(yōu)勢。

4 實驗流程介紹及實驗結(jié)果分析4.1 基于爬蟲的疫情評論爬取技術(shù)

本文是登錄網(wǎng)頁后模擬人類滑動滾動條的情況,對文章內(nèi)容進(jìn)行全部加載、更新評論,在這個過程中用到了Ajax技術(shù)[6。目前,這種技術(shù)在淘寶網(wǎng)頁上應(yīng)用的次數(shù)較多,較大地提高了空間利用率。

本文主要利用Selenium庫。Selenium庫的作用是模擬瀏覽器對文章進(jìn)行爬取,相比于換請求頭和修改間隔時間,這種方式可操作性次數(shù)較多,可以對同一網(wǎng)頁爬取10次左右。但由于微博平臺有登錄、密碼和驗證碼等登錄驗證,需要登錄才能夠?qū)?nèi)容進(jìn)行爬取,超過一定爬取次數(shù),網(wǎng)站會默認(rèn)限制登錄。因此,利用Selenium庫對登錄頁面進(jìn)行節(jié)點分析[7,編寫程序?qū)Φ卿涰撁孢M(jìn)行登錄,用戶名和密碼都是本人自己注冊的,驅(qū)動谷歌瀏覽器登錄之后需要驗證,手動輸入發(fā)送到手機(jī)的驗證碼,來到所需要的爬取疫情評論的網(wǎng)頁,等待加載完全部評論之后,在評論文本節(jié)點位置進(jìn)行定位元素獲取。需要注意的是利用Selenium庫驅(qū)動瀏覽器的時候有隱形等待時間設(shè)置,在設(shè)置數(shù)據(jù)的時候默認(rèn)為6 s,超過這個時間就會返回錯誤,要先獲取總數(shù)的評論再除以20就得到下拉的次數(shù)。將爬取的評論保存為TXT格式,實驗結(jié)果數(shù)據(jù)如表2所示。

4.2 情感分類實驗結(jié)果

此次語料庫所使用的是ChnSentiCorp情感分析語料庫。該語料庫由譚松波博士整理發(fā)布,包含酒店、電腦與書籍3個行業(yè)的評論與相應(yīng)情感極性,分為正負(fù)2大類。將情感語料庫放入SVM分類器進(jìn)行訓(xùn)練,而爬取的微博評論需導(dǎo)入訓(xùn)練好的SVM分類器進(jìn)行預(yù)測,數(shù)據(jù)集是從爬取的1月24日和4月6日評論中各選取100條文本,部分預(yù)測結(jié)果如圖1和表2所示。

從圖1柱狀圖中可以明顯看出,1月24日評論有17個為正面,83個為負(fù)面;4月6日評論有37個為正面,63個為負(fù)面。從表3的數(shù)據(jù)對比可以看出,1月24日評論的情感分類精確率為67%,4月6日評論的情感分類精確率為73%。以上實驗結(jié)果表明:用爬蟲技術(shù)來獲取文本語料庫能夠縮短自建情感語料庫的時間成本,而出現(xiàn)分類精確度較低這種情況,主要是由于情感語料庫數(shù)量較小,語料庫內(nèi)容和本文訓(xùn)練的疫情評論方向相差較大。因此,利用網(wǎng)絡(luò)爬蟲技術(shù)能夠使得自建情感語料庫貼合實驗研究內(nèi)容,使得測試的情感分類結(jié)果準(zhǔn)確率較高。

5 結(jié)語

本文先介紹了網(wǎng)絡(luò)爬蟲技術(shù)獲取微博評論的詳細(xì)過程,概述了網(wǎng)頁獲取過程、解析網(wǎng)頁、微博評論保存方式、網(wǎng)絡(luò)爬蟲提升速度的方法、支持向量機(jī)的基本原理以及支持向量機(jī)對爬取的微博評論進(jìn)行情感分類的實驗過程。從分類的實驗數(shù)據(jù)來看,對1月24日評論的情感分類精確率達(dá)67%,對4月6日評論的情感分類準(zhǔn)確率達(dá)73%。從上述實驗數(shù)據(jù)得出微博評論情感分類準(zhǔn)確度較低,主要是由于所用情感語料庫與評論內(nèi)容相差較大,利用網(wǎng)絡(luò)爬蟲技術(shù)自建情感語料庫能夠使得所研究內(nèi)容的分類模型精度提高。

參考文獻(xiàn)

[1]劉萍.基于Python爬蟲技術(shù)的網(wǎng)頁數(shù)據(jù)抓取方法[J].信息與電腦,2022(14):169-171.

[2]鄧宇,張振銘,陳橙,等.基于正則表達(dá)式的中醫(yī)醫(yī)案術(shù)語抽取方法研究[J].湖南中醫(yī)雜志,2023(5):202-207.

[3]傅磊,曲曉峰.基于異構(gòu)數(shù)據(jù)庫的高可用數(shù)據(jù)管理系統(tǒng)設(shè)計[J].信息技術(shù),2022(7):131-135,141.

[4]程序.基于DIV+CSS布局技術(shù)的網(wǎng)頁設(shè)計實現(xiàn)與優(yōu)化[J].信息記錄材料,2018(5):75-76.

[5]陶敏.基于支持向量機(jī)的中文客戶評論情感文本分類研究[D].武漢:武漢紡織大學(xué),2011.

[6]謝松.Ajax技術(shù)原理及在Web中的實現(xiàn)[J].科技廣場,2013(7):63-67.

[7]陸承佳.基于Python與Selenium的網(wǎng)絡(luò)文檔下載研究[J].信息與電腦,2019(18):45-48.

(編輯 王雪芬)

Research on sentiment analysis of Weibo comments based on crawlers and SVM

Wang" Lanlan

(Wuhan Institute of Engineering Science and Technology, Wuhan 430200, China)Abstract: As an important communication platform for hot current affairs, Weibo is the focus of the attention of netizens on each article or video. Copy and paste Weibo comments after manual pulling down is daily behavior, but this operation will slow down the emotional resolution rate. For the above situations, Selenium technology is used to simulate human login and input verification codes, and import the Requests library to analyze the web source code and save Weibo reviews. Import the ChnSentiCorp emotional analysis library into the support vector machine (SVM) classification model, and after the text pre -processing of the climbing Weibo comments, the Weibo comments are classified by the trained SVM model. The classification experimental results show that the SVM classification accuracy is low. The main reason is that the emotional analysis language library is not widely available. The use of crawlers to self -built Weibo review corpus and introduce training in the classification model will make the accuracy of emotional classification higher.

Key words:Weibo comments; Selenium technology; ChnSentiCorp emotional analysis library; SVM; self-built Weibo review corpus

猜你喜歡
分類情感
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
如何在情感中自我成長,保持獨立
被情感操縱的人有多可悲
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
分類討論求坐標(biāo)
如何在情感中自我成長,保持獨立
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
主站蜘蛛池模板: 欧美在线免费| 国产精品观看视频免费完整版| 国产91在线|中文| 天天综合网站| 午夜精品影院| 久久一色本道亚洲| 91蜜芽尤物福利在线观看| 无码专区在线观看| 亚洲天堂网在线观看视频| 为你提供最新久久精品久久综合| 激情成人综合网| 欧美精品二区| 亚洲欧美极品| 欧美区一区| 日韩精品亚洲一区中文字幕| 国产91av在线| 久久中文字幕2021精品| 国产福利观看| 91精品在线视频观看| 久久精品人妻中文视频| 久久综合激情网| 成人福利在线视频| 亚洲天堂免费在线视频| 青青网在线国产| 97精品伊人久久大香线蕉| 影音先锋丝袜制服| 四虎影视8848永久精品| 亚洲成A人V欧美综合| 丁香亚洲综合五月天婷婷| 狼友视频一区二区三区| 日韩欧美中文亚洲高清在线| 99精品视频九九精品| 亚洲日韩第九十九页| 99免费在线观看视频| 国产精品无码制服丝袜| 99久久免费精品特色大片| 成年人国产视频| 午夜日本永久乱码免费播放片| 18禁影院亚洲专区| 亚洲综合极品香蕉久久网| 青青操国产| 久久成人国产精品免费软件| 精品成人一区二区三区电影| 国产在线精品99一区不卡| 97久久精品人人做人人爽| 国产在线一区视频| 欧美全免费aaaaaa特黄在线| 久久精品国产精品青草app| 欧美一区福利| 国产免费怡红院视频| 无码一区18禁| 日韩 欧美 小说 综合网 另类| 日本在线亚洲| 日本尹人综合香蕉在线观看| 久久国产拍爱| 国产人在线成免费视频| 色呦呦手机在线精品| 波多野结衣一二三| 国内精品自在欧美一区| 一本视频精品中文字幕| 91精品国产自产在线观看| 久久亚洲黄色视频| 制服丝袜一区| 超清无码一区二区三区| 99久久精品国产自免费| 日韩无码黄色| 91亚洲精品国产自在现线| 欧洲亚洲欧美国产日本高清| 国产精品任我爽爆在线播放6080 | 久久青青草原亚洲av无码| 亚洲男人天堂网址| 国产国拍精品视频免费看| 97久久免费视频| 欧美啪啪网| 国产在线一区视频| 国产黑丝视频在线观看| 国产乱人伦精品一区二区| 91麻豆精品视频| 亚洲欧美日韩视频一区| 亚洲一级毛片在线观播放| 67194成是人免费无码| 免费jizz在线播放|