999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

試論網絡爬蟲技術在輿情監測中的應用

2020-06-03 02:21:44薛重陽
科學技術創新 2020年5期
關鍵詞:文本信息

薛重陽

(西藏自治區互聯網信息辦公室,西藏 拉薩850000)

輿情的發展具有兩大特征,即不斷增大與多方向發展,這一條件下如果輿情發展不受控,其就可能朝著錯誤方向不斷擴散,引起社會錯誤輿論,這種表現在一些特殊事件上會帶來極其重大的影響,由此可見輿情管理工作的重要性。而輿情管理工作必須在了解輿情現狀的基礎上才能開展,但單純依靠人工或傳統技術去了解現狀是不現實的,此時網絡爬蟲技術就可以給該項工作提供技術支撐,妥善使用該項技術來開展輿情監測、管理工作,具有控制輿情、消除社會負面影響的重大意義。

1 網絡爬蟲技術的基本概念

網絡爬蟲技術就是在網絡中根據“爬蟲”原理來獲取、分析、統計關鍵信息,由此生成結果供人工參考,其中“爬蟲”原理是模仿“蜘蛛”爬行機制得出的程序運作機制,因此可以將網絡爬蟲技術視為應用程序。爬蟲程序在運作當中首先會與萬維網相互連接,隨后自動在萬維網上下載網頁,這樣就實現了網頁自動獲取功能,其次當爬蟲下載的網頁達到系統運作停止條件,就會生成分析隊列,此時就進入了信息分析階段,這一階段中系統主要會根據預先設定好的種子樣本對隊列中網頁進行信息搜索,其中種子樣本泛指網頁分類目錄、日志分類目錄,通過搜索可知用戶瀏覽過程中顯示標注的抓取樣本、日志樣本等,最后將樣本與關鍵信息相互比對可得兩者之間的匹配度,根據匹配度對樣本信息進行分類統計,這一過程即為統計關鍵信息,根據統計結果可知當前網絡中關鍵信息的發展情況[1]。

2 網絡爬蟲輿情檢索技術

網絡爬蟲是輿情監測系統的重要組成部分,主要實現輿情檢索功能,而該項技術又可以分為兩個組成部分,分別為互聯網信息采集技術、文本信息抽取技術。對此下文將對兩項技術的具體內容進行分析。圖1 為輿情監測系統網絡基本框架。

圖1 輿情監測系統網絡基本框架(簡化版)

2.1 互聯網信息采集技術

顧名思義,互聯網信息采集技術就是通過互聯網搜索引擎來采集相關信息的一項技術,該項技術在現代發展中有兩種應用形式,分別為元搜索和網絡爬蟲,其中元搜索是一種串聯搜索形式,即在檢索過程中將所有下載到的網絡URL 進行串聯運行,根據預設的搜索條件進行初步處理,再將處理后的URL 發送給串行搜索引擎,由搜索引擎對分配到的URL 進行深度檢索(依靠自身數據庫來進行檢索),通過深度檢索可得初步搜索結果,最后針對初步搜索結果進行二次處理,即通過去重、排列等方式來消除信息冗余,這樣得到的結果就更加精細;網絡爬蟲的原理見文章第一部分內容,對此不多加贅述。相較之下,元搜索與網絡爬蟲在搜索性能上不相伯仲,但網絡爬蟲的流程更加簡便、精準,因此在現代互聯網信息采集當中網絡爬蟲的應用更加普及。此外值得一提的是,元搜索的應用普及性雖然不及網絡爬蟲,但與傳統的單搜索引擎技術相比其具有巨大優勢,即元搜索必須要對所有互聯網信息進行搜集,因此在網絡爬蟲應用受限的條件下使用元搜索也未嘗不可[2]。

2.2 文本信息抽取技術

文本信息抽取技術是在互聯網信息采集技術基礎上,對網頁信息進行抽取,再通過預處理技術得到文本信息的一項技術。原理上,首先需要設定自然語言檢索條件,相應該項技術就會對網絡信息中與檢索條件相關的自然語言進行提取,提取結果代表了用戶所需的與事件相關的要素信息,其次通過預處理技術對自然語言進行規范化處理,讓語言文本變得易于理解,此時再對結果進行記錄生成文本,最后將文本進行展示即可。此外,文本信息抽取技術的功能特點在于信息篩濾,即現代網頁中的信息種類、表現形式有很多,例如導航欄、正文標題、正文內容、相關鏈接、推廣信息、版權公告等,這些信息當中真正與檢索內容相關的只有正文標題、正文內容,其他都屬于無關信息,而在傳統信息抽取技術當中,所有信息都會被列入抽取結果當中,但文本信息抽取技術可以篩除無關信息,具有明顯的效率優勢[3]。

3 網絡爬蟲技術缺陷的改善方法

根據現代網絡爬蟲技術在輿情監測中的應用表現可知,其雖然監測效果良好,但卻存在利用率偏低、主體覆蓋率偏低的問題,對此下文將針對兩個問題缺陷提出對應的改善方法。

3.1 利用率偏低問題的改善方法

網絡爬蟲在輿情監測中的利用率高低代表了該項技術的運作效率、信息全面性與準確性,因此網絡爬蟲利用率自然是越高越好,但因為網絡爬蟲在輿情監測過程中會遇到一些信息復雜的網頁,所以導致其整個監測階段中存在局部效率低下的現象,說明網絡爬蟲利用率偏低,需要得到改善。針對這一問題,本文通過測速方案對網絡爬蟲利用率偏低的具體表現進行了分析,結果顯示真正影響網絡爬蟲利用率的原因是提取頁面的大小,頁面越大則提取速度越慢,利用率也更低,這一條件下網絡爬蟲利用率可以通過公式(1)進行表達。

式中:B 代表網絡爬蟲的提取速度;P 代表時間間隔內提取頁面的大小;T 代表網絡爬蟲提取行為的時間間隔。這一基礎上,以網絡爬蟲運行最大速度(100%)為度,取值40%為準,設置了一個簡易的網絡爬蟲利用率報警系統,該系統會實時監測網絡爬蟲的運行速度,當期低于最大速度的40%時,將會發出警報,同時改變網絡爬蟲的運行策略,起到提升利用率的作用。關于警報后網絡爬蟲的運行策略可以分為兩種,分別為減少爬行線程數、更換爬行網站,前者需要暫時停止當前網絡爬蟲的運作,再減少爬行任務隊列中的線程數,最后在適當的時間重啟爬蟲即可;后者就是直接更換爬行網站,兩項策略的應用可以讓網絡爬蟲運行速度提升,起到改善利用率的作用,但值得注意的是,如果策略應用下網絡爬蟲的運行速度依舊沒有恢復到40%以上,則需要人工干預,這也是報警系統存在的意義。

3.2 主題覆蓋率偏低的改善方法

在輿情監測當中經常會遇到一些突發性的事件,這些事件事出突然,且會不斷擴散,相應當網絡爬蟲沒有預先覆蓋事件主題,就很難第一時間做出反應,這就是主題覆蓋率低的表現。相應,因為主題覆蓋率低問題在現實情況中比較常見,所以需要得到改善,改善方法上,主要對網絡爬蟲主題覆蓋運作策略進行優化,具體可以分為三個步驟。3.2.1 主題關鍵詞優化。任何形式的網絡輿情都有自己的主題關鍵詞,例如娛樂事件的關鍵詞就包括“娛樂圈”、“某明星的名字”、“節目名稱”等等,這些關鍵詞即使在輿情發生之前也可以設置,因此可以人工根據輿情事件類型,設置一些可以反應相關事件的關鍵詞來提升網絡爬蟲的主題覆蓋率,這項工作需要反復運作,可持續不斷的提升覆蓋率。3.2.2 URL 確認與返回。在以上主題關鍵詞優化策略基礎上,當發生突發性事件之后,網絡爬蟲會第一時間做出反應,即根據主題關鍵詞進行輿情信息檢索,而檢索完成之后會隨著搜索引擎返回搜索結果第一頁中與關鍵詞對應的URL。此舉代表關鍵詞主題覆蓋率提升。3.2.3 URL 持續監測與信息更新。因為輿情是一種事件的動態變化,所以在監測中必須保持持續性,這一基礎上網絡爬蟲在第二步驟條件下會反復運作,持續的對對應URL 進行監測,并提取內部相關信息,實現輿情信息更新,滿足輿情全期監測需求。

4 結論

綜上,網絡爬蟲技術作為一種通過“爬蟲”原理進行運作的應用程序,可以根據預設邏輯來監測輿情,對此本文闡述了該項技術在輿情監測中的應用方法、關鍵技術。同時因為網絡爬蟲技術本身存在應用缺陷,所以文中還提出了相關的改善方法,通過這些方法可以讓網絡爬蟲技術運作更加準確、有效,同時輿情檢測工作質量也將得到提升。

猜你喜歡
文本信息
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 免费va国产在线观看| 久久久久九九精品影院| 色综合a怡红院怡红院首页| 亚洲天堂网站在线| 亚洲欧美另类日本| 粗大猛烈进出高潮视频无码| 538国产视频| 啪啪永久免费av| 色成人亚洲| 四虎永久免费在线| 97在线碰| 国产麻豆福利av在线播放| 一本色道久久88| 男女男免费视频网站国产| 中文字幕 欧美日韩| 大学生久久香蕉国产线观看| 国产成人1024精品| 国产乱人激情H在线观看| 免费国产无遮挡又黄又爽| a级毛片一区二区免费视频| 亚洲资源站av无码网址| 国产极品美女在线| 国产亚洲精| 久久久久久久蜜桃| 91精品国产91久久久久久三级| 美女国内精品自产拍在线播放| 国产精品一区二区不卡的视频| 麻豆AV网站免费进入| 精品成人一区二区三区电影 | 欧美一级片在线| 午夜视频免费一区二区在线看| 在线国产欧美| 国产99在线观看| 欧美区一区| 国产玖玖玖精品视频| 青青青视频91在线 | 91免费片| 99这里只有精品免费视频| 91区国产福利在线观看午夜| 一本色道久久88| 人妻精品全国免费视频| 国产日韩精品欧美一区喷| 亚洲第一视频网站| 国产亚洲视频中文字幕视频| 日韩一级二级三级| 黄色一级视频欧美| 18禁色诱爆乳网站| 亚洲欧美日韩另类在线一| 69精品在线观看| 国产一区在线视频观看| 无码免费视频| 日本久久免费| 欧美一区二区三区香蕉视| 91在线播放免费不卡无毒| 欧美成人手机在线观看网址| 99热这里只有精品国产99| 激情综合五月网| 日韩在线播放欧美字幕| 人妻免费无码不卡视频| 色婷婷亚洲综合五月| 1769国产精品免费视频| 国产日韩欧美精品区性色| 国产视频自拍一区| 亚洲永久色| 五月婷婷综合网| 干中文字幕| AV片亚洲国产男人的天堂| 伊人精品视频免费在线| 一本大道无码日韩精品影视| 69视频国产| 国产免费看久久久| 啪啪啪亚洲无码| 中文字幕伦视频| 一级毛片在线播放免费观看| 久久精品国产精品青草app| 国产乱子伦视频三区| 狼友av永久网站免费观看| 国产自在线拍| 免费人欧美成又黄又爽的视频| 伊人久久久久久久| 日韩精品免费一线在线观看 | 思思热精品在线8|