999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高校網絡輿情監測機制研究

2021-04-05 08:56:11陳蒙李學志
現代信息科技 2021年17期
關鍵詞:數據挖掘

陳蒙 李學志

摘? 要:隨著當今時代網絡的高速發展與廣泛應用,大量的互聯網信息也隨之而來,如何對互聯網進行監測與分析便成了一項重大的命題,識別網絡輿情在公眾情緒中的變化趨勢具有重要意義。基于此,對高校的網絡輿情監測機制進行分析研究,提出一個基于互聯網話題定時的新詞結構發掘方法。通過監測校園中的公共事件,實現對校園中網絡信息的有效監控。

關鍵詞:高校輿情;輿情監測;數據挖掘;情感分析

中圖分類號:TP391.1 ? 文獻標識碼:A 文章編號:2096-4706(2021)17-0145-04

Abstract: With the rapid development and wide application of the network in today's era, a large amount of internet information also appears. How to monitor and analyze the internet has become a major proposition, it is of great significance to identify the change trend of network public opinion in public sentiment. Based on this, this paper analyzes and studies the network public opinion monitoring mechanism of universities, and puts forward a new word structure mining method based on internet topic timing. By monitoring the public events in the campus, we can effectively monitor the network information in the campus.

Keywords: university public opinion; public opinion monitoring; data mining; sentiment analysis

0? 引? 言

現在是大數據的時代同時也處于人人都是自媒體的時代,社交網絡成為現下大家進行溝通、交流和獲取信息的主要且重要媒介和平臺。由于網絡信息傳播的特點一級網絡自身的自由性與包容性,使得我們傳輸的信息不管好與不好,積極與消極,都能在網絡中快速傳播。再加上網民自身對于訊息具有較強的好奇心和獵奇心理,導致其對于消極和負面的信息表現出更大的興趣,這也無形中刺激了信息的二次迭代傳播,甚至會形成一股不可控的影響力。高校也是一個重要的信息傳播場所,學校的主要成員是學生,學生是年輕和活力的代表,這個人群對于新生事物會表現出更強大的關注度,而且作為年輕的一代往往不具備甄別是非好壞的能力,缺少較強的信息識別和判斷意識。而且,現在的趨勢是,社會大眾和媒體對高校校園越來越關注,其所處的輿論環境也是越發復雜,故其對于高校網絡輿情的研究具有現實意義。

針對高校校園網絡輿情的監測和群體網絡的演化研究的需求,對高校網絡輿情監測機制進行研究和分析[1]。校園網絡輿情監測平臺,其目的在于能夠及時、準確、高效地對以大學生為群體的網絡輿情進行監控,提供科學合理的技術方法對網絡輿情態勢進行分析和研判,并將評判結果反饋給高校學生管理部門,以便制定相應的對策,維護高校校園的穩定。學生作為校園網絡輿情的重要載體,交互的對象往往也是學生,而其相互之間的互動以及交互也是導致校園網絡輿情的主因。針對這一基本特點,本文網絡輿情信息獲取的來源主要包括針對大學生的各類論壇、貼吧、微博等。根據以上需求,該機制的研究主要從以下幾個方面開展:輿情信息采集(文本挖掘)、輿情信息預處理(文本挖掘)、輿情分析(情感分析)。在文本挖掘方面,我們采用“Scrapy-Redis-Bloomfilter”分布式爬蟲框架對語料庫進行抓取,并以微博評論為實驗對象。在文本處理方面,系統將自動裝配數據庫中的語料庫,完成相應的處理工作。在情感分析方面,我們嘗試用一種新的思路構建漢語分詞詞典。為了彌補情感詞典在識別“形容詞不定式句”時的有效性不足,我們準備一套情感映射的預備方案,并且考慮到句子中狀語副詞對于情感表達可能會產生的影響[2]。

1? 高校網絡輿情監測

1.1? 數據挖掘

如何從互聯網上去獲取有效的數據使我們進行數據分析的一個非常重要的組成部分。

Pais等人[Pais,Cordeiro,Martins等人(2019)]開發了一種基于API的特定社交網絡爬蟲技術。該技術可以通過社交網絡提供的API輕松方便地去獲取結構化數據。但是對于類似于微博的社交網絡,有限的訪問令牌日期、API數據內容和訪問時間會嚴重阻礙到數據收集。若是使用網絡爬蟲技術的話,則是沒有如上的要求和限制的。在此,我們選擇使用selenium工具去啟動瀏覽器,進而去模擬出登錄的動作,在此基礎之上去分析網頁,最后得到我們想要的數據。在此,介紹一下selenium,它是一個用于進行Web應用程序測試的工具插件,可以拿來處理涉及復雜環節的登錄。但是有一個我們無法忽視的細節問題,它對于抓取數據量大的海量數據效果不是很理想,基于此,提出了一個新的改進方案:可以去利用爬蟲框架Scrapy,把Scrapy-Redis的分布式組件中的Redis數據庫導入到該框架中,進去達到一種更加高效的分布式爬蟲系統,該系統的提出也能用來解決數據率低的問題。基于這樣的研究前提,我們的輿情監測平臺系統的數據采集部分采用Scrapy-Redis分布式框架,使用基于二進制向量和哈希函數的重復數據刪除算法Bloom Filter對抓取前后的url進行過濾和處理。

1.2? 情感分析

對于前面采集到的數據,我們準備采用文本情感分析的方法對獲取的數據進行處理。現在來講,對文本情感進行分析主要是采用兩種方法進行分析研究,分別是基于機器學習的方法和基于詞典的方法[3]。前者主要是從文本中提取一些積極和消極的情感文本作為訓練集,并根據情感分類器對所有的文本進行積極和消極方向的分類。該方法已應用到許多領域,但是仍然有其不足之處:需要人為的標注訓練模型;當遇到的文本數據規模比較大的時候,無法保證一個較高的準確度;由于語言本身句子結構和用法的靈活性,在特征選擇方面存在著許多干擾因素。于是針對上述的研究分析結果,我們選擇用基于詞典的方法對數據進行分析和處理。我們往往會選擇一個比較龐大的,質量稍微比較高一些的情感詞典,結合相應的語義規則,去評判相關的輿情熱度和情感傾向性,為我們提供一個感知輿情,掌控輿情和引導輿情的方法。

2? 相關技術

2.1? 文本挖掘及數據分析

大家都很清楚,基于Scrapy-Redis的分布式爬蟲框架主要是用于協助我們捕獲評論信息的。但是有一個情況需要考慮,當用于爬行的數據超過一定量的時候,Redis會占用大量內存空間。同時爬蟲框架自身也是需要占用內存,故在此使用Scrapy同時進行爬蟲變得有些困難。在這里,我們可以使用一個可以刪除重復數據的算法Bloom Filter,該算法通過使用數組表示要進行檢測的集合,通過概率算法快速去判斷出該集合中是否存在重復元素,通過研判,若是集合中存在有重復的數據,可以進行刪除操作。這個算法在空間和時間上都占用優勢。我們準備了一些解決方案用于對抗微博上的反爬蟲行為的檢測,用來確保獲取數據的任務。具體做法為:

(1)重新編寫代理IP池的維護腳本。國內的幾家主要代理IP供應商的網站,采用的都是“雙進程+多線程+多協程”的維護模式,可以異步操作“代理IP池驗證”和“代理IP池旋轉”,確保可用的IP存活率為90%。以上保證了主爬蟲框架能夠實時使用100多個http類型的代理ip。代理IP的使用頻率控制在1/5分鐘。

(2)基于STAFF對國內24家網絡服務商主頁進行監控框架,采集中繼服務器IP;分布式爬蟲攜帶Socks5來偽裝HTTPS流量以實現全局訪問。

(3)準備200個微博免驗證賬號,定期模擬登錄破解驗證,確保cookie池可用。

我們可使用以下描述的兩種方法進行數據分析,用來確保大多數沒有用處的數據被過濾掉。第一種優先可調用爬蟲智能分析報紙庫,它可以為我們提供更為強大的功能,以及它可讀性也不錯。具體做法是,Article類首先被導入到報紙庫中,然后直接傳入URL,并調用它的下載方法。其次,去調用解析方法來對網頁進行智能解析。最后,根據需要過濾掉沒有用處的數據。而在Scrapy中,有兩種提取數據的方法供我們選擇,一種是使用Xpath選擇器,另一種是使用CSS選擇器。在Scrapy爬蟲框架中,text()函數經常與Xpath表達式一起使用,以提取節點的數據內容,而我們常常會選擇Scrapy自帶的解析器Scrapy Selector的XPath工具來解析HTML信息。

2.2? 數據清理

接下來我們要對已經采集獲取到的文本數據進行分析處理,由于獲取的原始數據會存在錯誤、格式不一致的情況或是帶有一些與情感分析不太相關的內容,我們統稱其為臟數據。為了提高數據的質量,須對數據進行規范化處理。

2.3? 情感分析

我們對文本進行的情感分析,主要是通過分析文本信息數據來挖掘出來情感傾向。對于文本情感分類,首先從文檔中提取情感特征,然后使用分類器對其進行分類。這里使用的分類器主要是采用樸素貝葉斯方法構建文本情感分析分類器[4],繼而將情感粒子細分。

2.3.1? 建立詞典

詞典的覆蓋面和完整性往往決定最終的分析效果,詞典也是文本情感分析中非常核心的環節。我們選取的一般情感詞典有清華大學褒貶義詞典、知網情感分析用詞語集、臺灣大學NTUSD。考慮到網絡新詞更新速度非常快,我們選擇基于這些通用情感詞典,基于時間維度對每天的采樣信息進行分析,發現新詞,擴展情感詞典。

2.3.2? 文本預處理

文本預處理包括中文分詞和停止詞的去除。刪除停止詞就是遍歷語料庫中的所有單詞,并刪除停止詞[5]。

2.3.3? 建立模型

根據分詞的結果進行正負極性的分類。如何實施,我們采用樸素的貝葉斯算法。其是一種基于概率的算法,根據一定的先驗概率,計算出Y變量屬于某一類的后驗概率[6]。具體步驟如下所示:根據構造的向量矩陣,計算公式為:

接下來的工作重點是細分情緒粒子,詞匯本體中的情緒分為7種類型:希望、快樂、沮喪、憤怒、恐懼、失望、震驚,情緒強度為:1、3、5、7、9、5級,9級強度最大,1級強度最小[7]。每個詞對應的信息,如在每種情緒下的極性。將上述分割結果轉換為字典,繼而對對文本分詞結果進行分類操作處理,甄別出其中代表情感的詞匯、否定意義的詞匯以及程度副詞。第一步是先將初始權重W的值設置成為1,從詞匯本體中的第一個情感詞開始,用其情感詞的權重值與情感值進行乘法運算作為分數值,隨之去判斷確認詞匯本體中的情感詞是否有程度副詞和否定詞匯,若是其中有一個是消極的詞匯,則用權重值W乘(-1)作為程度副詞程度值。第二步用新的W的權重值去進行遍歷第二個情感詞,循環操作直到詞匯本體中所有的情感詞都被遍歷一遍。每次遍歷結束之后的權重值之和就是這個文本最終的情感值,當然這個最終結果值是以累加和的形式存在的[8]。

2.4? 系統總體設計

網絡輿情監測系統總體架構,如圖1所示。該設計主要是由以下幾個模塊組成的:數據挖掘采集模塊、數據預處理模塊、情感分析模塊、網絡輿情預測模塊。

2.5? 實驗對象描述

現在的學生使用社交網絡比如微博,貼吧記錄自己的日常以及表達各自的情感,微博和貼吧也是近年來發展比較快的社交網絡,它可以做到信息實時更新與傳播。故選擇它們為主要的研究對象,通過“Scrapy-Redis-Bloomfilter”的分布式爬蟲架構來獲取數據信息,為了保證文本數據的合理性和有效性,我們對其進行了預處理操作,然后采用上述的方法對信息進行情感分析。

2.6? 實驗配置

我們選擇了一臺存儲類型為DDR4 2 400 MHz,硬盤容量為128 GB SSD+2 TB的PC機作為實驗PC。表1詳細說明了PC的配置。

2.7? 監測結果展示

通過對來自新聞、微博、貼吧等相關社交網絡中的有關新疆理工學院的文本類輿情信息進行實時全面監測,并且通過圖片文字識別技術幫助我們進行圖片輿情監測,獲取到的信息更加全面,更加準確。監測到的實時信息如圖2所示。

我們將社交網絡上獲取到的有關新疆理工學院的相關信息數據進行處理分析,數據可視化展示,清楚并且有效地傳達處理輿情信息,如圖3所示。

3? 結? 論

在本文中,我們對高校網絡輿情監測機制進行探索分析和研究。首先,考慮到網絡輿情環境,在可轉移模型有限、種子語料庫不足的情況下,嘗試采用改進的方法區構建情感分析相關的詞典。建立中文分詞詞典。當情感詞典不能直接有效地對文本的深層情感進行分類時,我們可以根據基準的積極情緒和消極情緒進行分類和區分,將情感映射到深層情感,實現間接分類。同時,我們整合了一些優秀的網絡詞匯和情感詞匯,進一步擴展了詞匯語料庫,提高了系統識別的準確性。我們接下來的工作重點將會放在以下幾個方面:在網絡世界中我們經常使用表情符號來表達我們的觀點,但是在數據采集的過程中我們卻人為的沒有考慮這些因素。這是因為不同年齡階段的網友對同一個表情符號的理解是不一樣的,我們無法獲取到準確地信息。我們還會動態持續地改進構建一套“網絡輿情詞典”,畢竟網絡語言更新比較快,不同年齡群體的網絡都有自己的一套網絡習慣用語,而傳統的詞典是不能夠好好去甄別這些詞匯,一套好的詞典是能夠幫助我們提高分詞效率。最后我們需要改進的工作是需要優化網絡爬蟲框架,需適度且適量地增加請求的頻率,進而去提高整體的爬行效率,在前期的工作中我們為了確保爬蟲可以獲取到一些敏感的詞匯信息,我們設計了匿名代理訪問網站的方案,這個在解決問題的同時卻讓我們的數據爬蟲速度降低了,這已成為我們下一個階段關注和解決的重點。

參考文獻:

[1] 李瑋潔.校園網輿情監測平臺與網絡群體演化的研究 [D].北京:北京交通大學,2012.

[2] 賈珊珊.基于規則與模型相結合的中文微博情感分類研究 [D].石家莊:石家莊鐵道大學,2015.

[3] 王世泓.基于情緒詞典擴展技術的中文微博情緒分析 [D].南京:南京航空航天大學,2015.

[4] 馬曉玲,金碧漪,范并思.中文文本情感傾向分析研究 [J].情報資料工作,2013(1):52-56.

[5] 葉翔斌.網絡文本情感分析的研究與實現 [D].長沙:湖南大學,2015.

[6] 宋靜靜.中文短文本情感傾向性分析研究 [D].重慶:重慶理工大學,2013.

[7] 朱儉.基于集成情感成員模型的文本情感分析方法 [J].計算機工程與應用,2014,50(8):211-214.

[8] 孫本旺.漢藏雙語情感詞典構建及情感計算研究 [D].西寧:青海大學,2019.

作者簡介:陳蒙(1991.01—),女,漢族,河南南陽人,講師,碩士研究生,主要研究方向:網絡輿情,數據挖掘。

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 国产精品免费电影| 午夜福利网址| 亚洲综合久久一本伊一区| 日本欧美在线观看| 国产幂在线无码精品| AV天堂资源福利在线观看| 中日韩一区二区三区中文免费视频| 国产成人精品日本亚洲| 东京热高清无码精品| 亚洲永久精品ww47国产| 在线观看免费人成视频色快速| AV不卡无码免费一区二区三区| WWW丫丫国产成人精品| 国产打屁股免费区网站| 国产日韩AV高潮在线| 国产免费看久久久| 日韩无码黄色网站| 精品国产网站| 一区二区三区国产| 午夜国产大片免费观看| 在线看片免费人成视久网下载| 国产手机在线观看| 国产麻豆91网在线看| 毛片免费高清免费| 国产制服丝袜91在线| 久久香蕉国产线看精品| 她的性爱视频| 久久99国产乱子伦精品免| 亚洲色无码专线精品观看| 国产一区二区三区在线精品专区| 美女被操黄色视频网站| 国产福利小视频在线播放观看| 久久久精品国产亚洲AV日韩| 国产精品99r8在线观看| 亚洲综合九九| 91口爆吞精国产对白第三集| 视频在线观看一区二区| 日韩免费毛片视频| 91在线精品麻豆欧美在线| 亚洲国产欧美目韩成人综合| 亚洲欧美成aⅴ人在线观看| 久久成人18免费| 日韩毛片免费| 18禁影院亚洲专区| 国产精品成人一区二区不卡| 国产精品网拍在线| 91国内视频在线观看| 久久精品人妻中文系列| 成人精品免费视频| 国产偷国产偷在线高清| 国产精品永久不卡免费视频| 91日本在线观看亚洲精品| 黄色三级网站免费| 91香蕉视频下载网站| 偷拍久久网| 手机永久AV在线播放| 国产精品入口麻豆| 无码高潮喷水专区久久| 高清精品美女在线播放| 国产玖玖玖精品视频| 操美女免费网站| 天天躁狠狠躁| 亚洲av无码成人专区| 天天躁夜夜躁狠狠躁图片| 国产精品久久久久久久久kt| 国产福利小视频在线播放观看| 亚洲欧洲日韩综合色天使| 97视频在线精品国自产拍| 91高清在线视频| 亚洲精品无码专区在线观看| 制服丝袜 91视频| 国内黄色精品| 国产一区二区精品福利| 亚洲中文字幕av无码区| 五月天综合网亚洲综合天堂网| 不卡国产视频第一页| 中文无码伦av中文字幕| 久久婷婷国产综合尤物精品| 国产日韩欧美黄色片免费观看| 91美女在线| 亚洲性日韩精品一区二区| 在线精品视频成人网|