999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據背景下微博輿情文本關聯度分析與設計

2020-02-22 01:28:51程子文曾豪姜斌陳國俊王鶯
現代信息科技 2020年18期
關鍵詞:大數據

程子文 曾豪 姜斌 陳國俊 王鶯

摘? 要:為了深入分析大數據背景下微博輿情文本關聯度,探索和分析用戶微博發帖時話題及其情感態度,有效提高應對突發網絡事件的處理效率并顯著減少調查的時間。首先采用詞頻分析的方法實現對微博發帖用戶評論內容的整體認識;然后利用樸素貝葉斯算法對評論文本信息的特征結構、語義內容進行自動分析,進而通過云端情感詞典進行篩選遍歷比對計算權重;最后對帖子文本進行情感傾向分析,得到微博文本情感傾向的分析情況。

關鍵詞:大數據;微博輿情;情感分析;文本關聯度;Java

中圖分類號:TP391.1? ? ? 文獻標識碼:A 文章編號:2096-4706(2020)18-0115-04

Abstract:In order to deeply analyze the relevance of microblog public opinion text under the background of big data,explore and analyze the topic and emotional attitude of users when posting on microblog,effectively improve the processing efficiency of dealing with network incidents and significantly reduce the investigation time. Firstly,the word frequency analysis method is used to realize the overall understanding of the users comments on microblog posts;then use the Naive Bayes algorithm to automatically analyze the feature structure and semantic content of the review text information,and then use the cloud sentiment dictionary to filter and traverse to calculate the weight. Finally,analyze the sentiment tendency of the post text to get the analysis of the sentiment tendency of the microblog text.

Keywords:big data;microblog public opinion;sentiment analysis;text relevance;Java

0? 引? 言

二十一世紀是大數據的時代,對大數據的理解在于對數據的發現以及理解信息與信息之間的關系。近年來,互聯網中社交媒體信息量迅速增長,人們以往參與社會事件的形式已經從走訪申訴向著網絡發表言論轉變[1]。面對快速增長的微博信息量,如何及時、全面、精準地分析微博輿論的熱點話題,如何利用好這些網絡事件文本數據,是微博輿情分析過程中所需要解決的首要問題[2]。

本課題來源于無錫太湖學院江蘇省物聯網重點實驗室相關科研項目延伸,課題獲批為江蘇省高等學校大學生創新創業訓練計劃一般項目。本團隊成員是主要是物聯網工程學院的學生,主持人及組員已經在前期較為系統的學習過Python編程技術和數據庫方面的課程知識。本文借助上述技術,對微博輿情分析的相關技術進行研究,結合微博的特點,設計微博輿情文本關聯度分析系統的解決方案,并最終加以實現。

1? 大數據背景下微博輿情情感分析算法需求分析

1.1? 理論需求分析

通過對網絡事件情感分析算法的設計內容、實現功能、操作難度以及配置情況進行研究。針對情感分析文本需求,開發出的整合算法加載模擬系統,該系統分為前臺與后臺。從前臺數據保存的數據庫中取值,通過分類算法以及遍歷計算權重,就可以得出對應的情感傾向分析結果。通過對關鍵詞搜索,可以對所有帖子情況進行遍歷,計算出文中相關聯的情感分析情況,得出分析結論。

1.2? 算法需求分析

情感分析需要對文本內容的各個單獨詞語進行拆分,隨后需要對拆分好的詞語進行情感詞典的匹配以獲取權重值,接著進入設定好的邏輯進行總體文本的情感計算,這樣可以計算得出情感傾向比例。如圖1所示,完成情感分析需要四個步驟:

(1)用算法將輸入的文本分割為一個個單獨的詞語;

(2)需要能夠逐個篩選情感詞語的情感詞典庫,并且對不同的情感詞語設定不同的權重值,這可以有效地提高分析結果的精準度;

(3)需要詳細的情感權重計算邏輯,對不同詞語做出不同情況的計算處理,通過對每個詞語的計算可以得出總體情感權重結果,能夠體現正面、負面以及中性情感;

(4)對關鍵詞的分析,需要對分割出的詞語進行分類,對經過處理的分類算法進行詞語分析,取出能夠代表文本的關鍵詞,最終輸出分析結果。

2? 微博輿情情感分析算法設計

2.1? 算法接入平臺模塊設計

微博輿情情感計算方法研究的算法是否有效需要部署到項目中才得到能驗證,所以需要建立模擬網絡平臺,其基礎功能有前臺用戶模擬發帖評論及跟帖操作、后臺系統模擬發布網絡事件。模擬的網絡平臺模塊如圖2所示。系統開發用到了AJAX,該技術可以將對應的數據內容傳入用戶管理以及等級管理,極大地提高了操作效率。

2.2? 算法總體設計

通過需求分析可知,算法需具備拆分文本、權重匹配、權重計算、關鍵詞分析等功能。所以本課題開發的整個算法,應由多種方法及算法組成。將這些算法整合到一起,可以完整的實現對網絡事件的情感計算分析,最終將算法加載至設計出的模擬平臺進行實現、測試與優化。

2.2.1? 拆分詞語算法設計

在對中文文本進行分析時較為有效的算法為MaxMatch文本匹配算法,該算法在大多數應用到中文詞語分割時都有不錯的表現,所以國內詞語分割技術大多采用該算法。計算結果得出的數組,就是該文本信息所拆分下來的詞語集合,將這些詞語進行權重計算,可以得出相應的情感傾向結果[3]。MaxMatch的方法原理流程如圖3所示。

2.2.2? 事件詞語情感權重設計

拆分后的詞語需要進行權重計算,可采用情感詞典分類方法進行情感分析。原理為:構建好數據情感詞典(本次開發采用百度AI情感詞典),通過發送請求可以將所拆分的詞語發送云端進行分析字符串匹配,同時對反饋過來的詞語進行權重分析,從而得出正面、負面及中性詞語信息。總體規則如圖4所示。

其中具體對情感詞典字符串匹配的規則邏輯如圖5所示,對所抽取的詞語進行分析后,計算權重信息,從而得出正面、負面以及中性詞語[4]。

通過導入情感詞典中的向量詞組,逐個遍歷對比匹配詞典庫中對應的詞語,且其中每個詞語所在情感詞典庫中匹配的權重值都有特定的值。檢測到詞語為否定詞、消極詞時,需要進一步檢測該詞語的前一詞語,當前一詞語為否定詞時,記+1,為程度副詞時,乘前一詞語的權重值,為其他詞語時,減去該權重值;檢測到詞語為積極詞語時,需要檢測出前后詞語,如果前一詞語為否定詞或前后詞語為消極詞,記為-1,如果前一詞語為程度副詞時,需要乘該詞的權重,如果該詞語為其他,則加上該權重;檢測到該詞語為否定詞語時,直接記-1處理。最終將權重值輸出,可以區分正面、負面以及中性情感。

2.2.3? 關鍵詞算法設計

計算出段落粒度的文本數據,本課題開發采取樸素貝葉斯分類器,由于其包含的算法眾多,這里選用貝葉斯方法。在對短文本數據分析時,用它可以得到較為精準的分析結果。

貝葉斯定理,樸素貝葉斯的核心算法如下:

P(A|B)時已知B發生后A的條件概率,反之P(B|A)相同原理,P(A)為A的先驗概率或者邊緣概率,同理P(B)亦如此。貝葉斯定理可以理解為:后驗概率=(相似度*先驗概率)/標準化常量。

在套用該算法后,將其應用至貝葉斯分類中,它對所處理的文本內容,可以作為一個數組進行處理,即設e={e1,e2,e3,……,en},將集合D定義為D={d1,d2,d3,……, dn},計算出P(d1|e),P(d2|e),……,P(dn|e)。分類出的結果即為拆分后的詞語信息。

2.2.4? 綜合檢索數據情感分析設計

本課題采用的MaxMatch分詞算法、情感詞典權重方法應用后,僅能實現對一組數據的文本情感分析,本課題擬突破的研究為:對檢索某一事件后引發的多記錄數據,綜合分析這些帖子的文本內容。應用以上算法后,加以改造設計出邏輯構造,如圖6所示。

對搜索出的多條數據進行判斷,將每條數據進行權重計算,同時需要計算出各文本數量比例,通過該比例乘情感權重分析結果,即可得出該記錄的情感分析比例[5]。將這些數據的結果加在一起,就可得出對這一檢索事件的綜合情感分析。

3? 大數據背景下微博輿情情感計算方法研究實現

3.1? 微博輿情情感分析文本數據存取

微博輿情情感文本分析需要將分析的文本數據存入本地數據表中,首先將發布的網絡事件文本內容存入t_new表中,將用戶評論文本信息存入t_comment表中。對某一事件的評論搜索可以進行模糊查找,查找出所有記錄,并將對應的記錄信息提取出來進行情感文本分析。

情感計算分析的實現先后順序分為:文本拆分詞語,詞語在情感詞典中的權重匹配,多詞語的權重邏輯計算,關鍵詞算法分析。該流程即先實現將網絡事件文本拆分為一個個單獨的詞語;其次將這些詞語傳入情感詞典中匹配獲取權重值信息;然后將整體文本分割的詞語進行權重邏輯計算,即可計算出情感傾向值;最后對關鍵詞進行分析,在詞語拆分后調用樸素貝葉斯算法計算出結果。

3.2? 網絡事件拆分詞語實現

使用MaxMatch文本匹配算法進行文本詞語的拆分,由于算法為基層算法,輸出的結果一般作為參數傳入其他方法中,所以在前端無須顯示[6]。算法執行出的結果以JSON形式輸出,所以需要將其內容轉換為HashMap格式,取出其中包含拆分詞語的“items”字段。同理繼續轉換為HashMap格式,繼續取出items中的“item”字段,拼接加入list數組中。

3.3? 情感詞典獲取權重實現

將拆分好的詞語進行情感詞典的數據匹配,每一個詞語在情感詞典中都可以對應上各自的權重值,將這些權重值結合起來傳入邏輯代碼中,即可計算出情感傾向。

3.4? 情感文本傾向分析實現

成功獲取詞語的權重值后,需要對總體文本的全部詞語進行邏輯運算,即權重值計算得出結果,利用上文已經得出結果的文本分割詞語方法以及權重值設定,進一步進行邏輯處理操作。對發布的網絡事件帖子可以進行情感傾向分析,計算出權重值比例,設定為積極情感占比以及消極情感占比,然后通過算法計算出分析后的精確率,如圖7所示。

4? 結? 論

微博是網絡輿情發生和傳播的重要場域,對微博進行輿情分析具有極為重要的意義。本文利用微博平臺中的輿情數據,通過相關算法進行文本關聯度研究,以情感詞典計算情感傾向分析,以情感詞典暫時處于主導地位為依據,將微博輿情的傳播控制在情感理論的框架中,實現社會和諧穩定。

參考文獻:

[1] 王曉晨,關碩,于文博,等.體育賽事網絡輿情的傳播特征研究——基于2019年女排世界杯的文本情感分析 [J].成都體育學院學報,2020,46(5):74-81.

[2] 陳炳豐.面向文本數據的情感計算研究 [D].廣州:廣東工業大學,2019.

[3] 謝澤澄.基于深度學習的文本識別與文檔切分的研究和應用 [D].廣州:華南理工大學,2019.

[4] 曾江峰.基于深度學習的文本情感計算研究 [D].武漢:華中科技大學,2019.

[5] 徐康.基于主題模型的文本情感和話題建模的研究 [D].南京:東南大學,2017.

[6] 任巨偉,楊亮,吳曉芳,等.基于情感常識的微博事件公眾情感趨勢預測 [J].中文信息學報,2017,31(2):169-178.

作者簡介:程子文(1998—),男,漢族,江西九江人,本科在讀,研究方向:物聯網工程;曾豪(1997—),男,漢族,河南鄧州人,本科在讀,研究方向:通信工程;姜斌(1997—),男,漢族,江蘇鹽城人,本科在讀,研究方向:計算機科學與技術;陳國俊(1978—),男,漢族,江蘇無錫人,副教授,計算機科學專業碩士,研究方向:人工智能、量子通信、物聯網技術;王鶯(1987—),女,漢族,江蘇金壇人,講師,軟件工程碩士,研究方向:大數據分析、算法設計、圖像處理。

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 国产精品人成在线播放| www精品久久| 色九九视频| 国产精品亚洲αv天堂无码| 少妇精品在线| 999国产精品永久免费视频精品久久| 在线精品欧美日韩| 美女视频黄又黄又免费高清| 亚洲人成影院在线观看| 激情无码字幕综合| av大片在线无码免费| 中文字幕无码av专区久久 | 亚洲中文久久精品无玛| 国产91透明丝袜美腿在线| 夜夜拍夜夜爽| 亚洲无码视频一区二区三区| 亚洲无码高清一区二区| 国产日韩欧美视频| 波多野结衣视频网站| 国产成人精彩在线视频50| 精品视频第一页| 欧美另类视频一区二区三区| 青青青草国产| 亚洲久悠悠色悠在线播放| 婷婷色丁香综合激情| 亚洲精品久综合蜜| 日本尹人综合香蕉在线观看| 中文字幕亚洲精品2页| 最新国产精品鲁鲁免费视频| 国产精品无码AV中文| 国产91在线|日本| 国内精自视频品线一二区| 国产精品久久久久久久久kt| 国产毛片久久国产| 久久一本精品久久久ー99| 成人午夜免费视频| 久久久久青草线综合超碰| 日韩一级二级三级| 欧美日韩中文国产va另类| 国产黄色爱视频| 日本三区视频| 99热亚洲精品6码| 欧美一区二区三区香蕉视| 91精品国产91久久久久久三级| 99精品一区二区免费视频| 久久国产V一级毛多内射| 福利姬国产精品一区在线| 国产成人高清在线精品| 亚洲综合网在线观看| 亚洲AV无码乱码在线观看裸奔| 六月婷婷激情综合| 热思思久久免费视频| 国产小视频a在线观看| 国产精品污视频| 91精品小视频| 国产丰满大乳无码免费播放| 国产黑丝视频在线观看| 成人午夜精品一级毛片| 亚洲日韩精品伊甸| 久爱午夜精品免费视频| 精品综合久久久久久97超人| 亚洲人成网站在线观看播放不卡| 一级毛片a女人刺激视频免费| 成人久久18免费网站| 91精品国产一区自在线拍| 久久久久久久久亚洲精品| 亚洲中文字幕久久精品无码一区| 欧美成人精品一级在线观看| 青青草综合网| 国产视频只有无码精品| 国产69精品久久久久妇女| 国产一区免费在线观看| 精品无码一区二区三区在线视频| 亚洲精品视频免费观看| 色婷婷综合激情视频免费看| 日韩欧美中文| 久久久成年黄色视频| 亚洲自拍另类| 国产性精品| 欧美97欧美综合色伦图| 美女扒开下面流白浆在线试听 | 一级毛片免费高清视频|