999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

智能時代的網絡輿情分析技術應用

2024-01-12 05:40:46周洪斌賈蘇許禮捷
微型電腦應用 2023年12期
關鍵詞:頁面文本情感

周洪斌, 賈蘇, 許禮捷

(沙洲職業工學院, 數字化與微電子學院, 江蘇, 張家港 215600)

0 引言

數字時代,網絡是輿情傳播的主要途徑之一,并且網絡輿情具有集中式、爆發式的特點,因此對網絡輿情進行及時有效的分析是當今社會治理必須面對的問題[1-2]。隨著網絡爬蟲、中文分詞以及文本情感分析等智能技術的日趨成熟,能夠在極短的時間內準確呈現網絡輿情文本信息中的核心內容,有效應對網絡輿情信息具有的數據量大、動態性、價值密度低等特性,為互聯網輿情數據的高效收集、分析提供了全新的方式、方法,可以實現網絡輿情分析的自動化、智能化,有助于做好網絡輿論引導,傳播正能量。

1 網絡輿情分析常用技術

1.1 爬蟲技術

爬蟲技術來源于網絡搜索引擎,目前應用非常廣泛,通過對特定網站中的頁面信息進行爬取、分析,可以給出輿情態勢的綜合研判。Python程序設計語言在人工智能時代被廣泛應用,目前大量的網絡爬蟲程序采用Python語言開發。基于Python的爬蟲技術通常會用到requests庫、BeautifulSoup庫[3],對應的基本使用方法如下。

(1) 通過requests.get()方法模擬HTTP GET方法發出請求到服務器,然后通過text屬性獲得服務器響應返回的網頁內容(源代碼)。具體代碼如下:

res = requests.get(url)

html = res.text

(2) 使用BeautifulSoup進行網頁解析,調用BeautifulSoup對象的select()等方法抓取指定數據。具體代碼如下:

soup = BeautifulSoup(html.encode('utf-8'),"lxml")

data=soup.select(“html head title”)

當要爬取動態頁面時,普通的requests無法實現,需要用到selenium。selenium是一個自動化測試工具,能夠驅動瀏覽器模擬人的操作,如鼠標單擊、鍵盤輸入等。selenium的使用方法如下:

(1) 根據瀏覽器的型號和版本下載對應的驅動程序,如谷歌瀏覽器的驅動程序為ChromeDriver,再根據具體的版本號下載匹配的驅動程序。

(2) 啟動瀏覽器,訪問對應的頁面,獲得頁面代碼:

driver = webdriver.Chrome()

driver.get(url)

data= driver.page_source

在使用爬蟲技術獲取頁面數據的同時,也要遵循行業規范,即Robots協議[4]。網站通過Robots協議告訴爬蟲哪些頁面可以爬取,哪些頁面不能爬取。在網站首頁的地址后面添加“/robots.txt”,可以查看該robots.txt文件的內容,robots.txt文件主要包括User-Agent、Allow 和Disallow等3部分內容。其中:User-Agent用于指明允許的爬蟲標識,如果是“*”則表明允許所有的爬蟲訪問該網站;Allow表示允許爬蟲訪問的目錄或頁面;Disallow表示不允許爬蟲訪問的目錄或頁面。但根據Robots協議的默認規則,如果一個目錄沒有顯示為Disallow,則是允許訪問的。

1.2 中文分詞技術

中文分詞是中文信息處理的基礎,通過分詞將漢字序列分成一個個單獨的詞,為觀點抽取等進一步的自然語言處理作準備[5]。近年來,jieba中文分詞工具得到了較為廣泛的應用,jieba的3種分詞模式如表1所示。

表1 Jieba分詞模式

以語句“張家港是全國文明城市”為例,通過jieba的3種分詞模式得到的運行結果為:精確模式輸出['張家港', '是', '全國','文明城市'];全模式輸出['張家', '張家港', '是', '全國', '國文', '文明', '文明城市', '城市'];搜索引擎模式輸出['張家', '張家港', '是', '全國', '文明', '城市', '文明城市']。

1.3 文本詞云

在jieba分詞的基礎上可以制作詞云圖[6],實現文本分析的可視化,可以更加直觀和藝術地展示文本。詞云是將文本中出現頻率較高的詞予以視覺上的突出,使得瀏覽者一眼就能領略文本的主旨。詞云圖一般使用字體的大小來反應詞語出現的頻率,頻率越高的詞在詞云圖中的字體就越大。

Python語言可以通過WordCloud庫來制作詞云圖。WordCloud是一個實現詞云展示的第三方庫,其可以設定詞云的形狀、大小和顏色。生成指定字體和背景色的詞云圖的代碼如下:

wordcloud=WordCloud(font_path="simhei.ttf",background_color="white").generate(text)

然后,可以通過matplotlib.pyplot庫將詞云圖展現出來,代碼如下:

plt.imshow(wordcloud)

plt.axis("off")

plt.show()

默認的詞云形狀為長方形,如果要對詞云圖本身進行視覺上的改進,可以在產生詞云時設置mask參數,代碼如下:

cloudMask=imread("mask.png")

wordcloud=WordCloud(font_path="simhei.ttf",background_color="white",mask=cloudMask).generate(text)

1.4 文本情感分析

文本情感分析[7]是指用自然語言處理技術來識別和提取文本中的主觀信息,找出說話者或者作者當時的態度,如積極、消極或者中性,因此文本情感分析在輿情分析方面被廣泛應用。

目前大量的自然語言處理庫都是針對英文的,而SnowNLP庫是一個用Python語言編寫的自然語言處理類庫,支持多種中文文本處理操作,包括詞性標注、情感分析、提取文本摘要等[8]。因此,可以通過SnowNLP對中文文本情感進行分析,代碼如下:

s = SnowNLP(coment)

print(s.sentiments)

其中,sentiments為SnowNLP情感分析的結果,取值在0到1之間,表示情感分析結果為正面的可能性:當數值大于0.5時,情感偏向正面;當數值小于0.5時,情感偏向負面。

隨著人工智能技術與云計算技術的融合,國內部分公司推出了人工智能開放平臺,開發者可以在程序中通過調用平臺提供的接口完成情感分析,如百度AI開放平臺、訊飛開放平臺。以百度AI開放平臺為例,其提供了情感傾向分析、文章分類等自然語言處理服務,開放者完成賬號的注冊與認證后,可以查看不同程序設計語言所對應的SDK文檔,調用百度AI開放平臺完成文本情感分析[9]。Python語言的調用方法如下:

result=client.sentimentClassify(text)

傳入參數text表示待分析文本,最大2048 Byte。數據參數如表2所示。

表2 百度AI開放平臺情感傾向分析返回數據參數詳情

因此,可以通過pos=result['items'][0]['positive_prob'] 獲得情感積極的概率。

2 輿情分析技術應用實例

綜合應用上述技術對新聞評論進行分析,具體流程如圖1所示。

圖1 新聞評論數據分析過程

關鍵步驟如下。

1) 爬取新聞評論

(1) 爬取評論節點

評論的節點為〈div class="comment_que"〉

comment_nodes = data.find_all('div', class_="comment_que")

for node in comment_nodes:

(2) 獲取昵稱

nickname = node.find('div', class_="aqwright").find('h3').find('a').get_text().strip()

nicknames.append(nickname)

(3) 獲取評論主體內容

comment = node.find('div', class_="aqwright").find('div', class_="ansright_cont").get_text().strip()

comments.append(comment)

2) 對評論分詞并制作詞云圖

(1) 使用jieba中文分詞

words=[word for word in jieba.lcut(comments) if len(word)>=2]

text=" ".join(words)

(2) 對詞云圖本身進行視覺上的改進,制作并顯示指定形狀的詞云圖

cloudMask=imread("mask.png")

wordcloud=WordCloud(font_path="simhei.ttf",background_color="white",mask=cloudMask).generate(text)plt.imshow(wordcloud)

plt.axis("off")

plt.show()

詞云顯示效果如圖2所示。

圖2 新聞評論詞云圖

3) 對評論進行情感分析

(1) 本例中使用SnowNLP進行情感分析

for comment in comments

(2) 獲得每條評論的情感分析結果

s=SnowNLP(comment)

result=s.sentiments

emotion+=result

n += 1

(3) 輸出所有評論情感分析的平均值

print('情感分析平均值:',emotion/n)

對于本次分析的結果,所有評論的情感分析平均值為0.7063,說明廣大網民對本條新聞的評論以正面的、積極的評論為主。

3 總結

隨著時代發展,網絡輿情分析越來越受到社會各界重視。智能技術為網絡輿情收集、分析提供了有力高效的手段,通過網絡爬蟲、中文分詞以及文本情感分析技術,實現了新聞評論的自動化采集、可視化分析,能夠在極短的時間內準確呈現網絡輿情文本信息中的核心內容,為網絡輿情分析與引導提供幫助。本文所用的情感分析結果對輿情導向的判斷略顯單一化,如何將情感分析結果與多種因素結合輔助判斷是下一步的重要工作。

猜你喜歡
頁面文本情感
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 玖玖免费视频在线观看| 国内精品视频| 玖玖精品在线| 玖玖精品视频在线观看| 欧美日韩国产精品va| 亚洲av无码成人专区| 国产精品尹人在线观看| 免费人成视频在线观看网站| 亚洲av色吊丝无码| 日韩国产无码一区| 中文字幕资源站| 午夜视频在线观看区二区| 91青青草视频| 丝袜高跟美脚国产1区| 亚洲欧美日韩中文字幕一区二区三区 | 亚洲第一成年免费网站| 青草视频久久| a级高清毛片| 夜夜操国产| 熟妇无码人妻| 啊嗯不日本网站| 在线免费亚洲无码视频| 国产日韩AV高潮在线| 最新日韩AV网址在线观看| 澳门av无码| 国产成人无码AV在线播放动漫| 99热这里都是国产精品| 中文字幕在线视频免费| 国产精品视屏| 亚洲欧美日韩成人在线| 欧美天堂久久| 久久久精品无码一二三区| 国产三级国产精品国产普男人 | 免费全部高H视频无码无遮掩| 日韩高清一区 | 亚洲精品无码人妻无码| 无码AV动漫| 精品一区二区三区自慰喷水| 秘书高跟黑色丝袜国产91在线| 亚洲成人网在线播放| 毛片一区二区在线看| 国产一区二区福利| 欧美久久网| 免费在线色| 九色视频线上播放| 波多野结衣视频一区二区| 最新亚洲人成无码网站欣赏网 | 国产日韩欧美在线播放| 欧美亚洲中文精品三区| 亚洲国产精品日韩专区AV| 1024国产在线| 日韩成人在线视频| 国产午夜小视频| 精品国产Ⅴ无码大片在线观看81| 国产亚洲视频免费播放| 99视频在线观看免费| 伊人久久大线影院首页| 亚洲码一区二区三区| 国产精品久久精品| 国产超碰在线观看| 国产Av无码精品色午夜| 亚洲系列无码专区偷窥无码| 欧美成人精品高清在线下载| 无码日韩精品91超碰| 最新国产高清在线| 欧美影院久久| 国产视频一区二区在线观看| 亚洲综合香蕉| 91亚洲国产视频| 伊人久热这里只有精品视频99| 久久人搡人人玩人妻精品一| 亚洲无码不卡网| 国产精品永久久久久| 99视频在线免费| 亚洲欧美自拍一区| 久久黄色毛片| 激情综合网址| 国产经典在线观看一区| 亚洲美女高潮久久久久久久| 青青操国产视频| 成人午夜亚洲影视在线观看| 97久久超碰极品视觉盛宴|