薛重陽
(西藏自治區互聯網信息辦公室,西藏 拉薩850000)
輿情的發展具有兩大特征,即不斷增大與多方向發展,這一條件下如果輿情發展不受控,其就可能朝著錯誤方向不斷擴散,引起社會錯誤輿論,這種表現在一些特殊事件上會帶來極其重大的影響,由此可見輿情管理工作的重要性。而輿情管理工作必須在了解輿情現狀的基礎上才能開展,但單純依靠人工或傳統技術去了解現狀是不現實的,此時網絡爬蟲技術就可以給該項工作提供技術支撐,妥善使用該項技術來開展輿情監測、管理工作,具有控制輿情、消除社會負面影響的重大意義。
網絡爬蟲技術就是在網絡中根據“爬蟲”原理來獲取、分析、統計關鍵信息,由此生成結果供人工參考,其中“爬蟲”原理是模仿“蜘蛛”爬行機制得出的程序運作機制,因此可以將網絡爬蟲技術視為應用程序。爬蟲程序在運作當中首先會與萬維網相互連接,隨后自動在萬維網上下載網頁,這樣就實現了網頁自動獲取功能,其次當爬蟲下載的網頁達到系統運作停止條件,就會生成分析隊列,此時就進入了信息分析階段,這一階段中系統主要會根據預先設定好的種子樣本對隊列中網頁進行信息搜索,其中種子樣本泛指網頁分類目錄、日志分類目錄,通過搜索可知用戶瀏覽過程中顯示標注的抓取樣本、日志樣本等,最后將樣本與關鍵信息相互比對可得兩者之間的匹配度,根據匹配度對樣本信息進行分類統計,這一過程即為統計關鍵信息,根據統計結果可知當前網絡中關鍵信息的發展情況[1]。
網絡爬蟲是輿情監測系統的重要組成部分,主要實現輿情檢索功能,而該項技術又可以分為兩個組成部分,分別為互聯網信息采集技術、文本信息抽取技術。對此下文將對兩項技術的具體內容進行分析。圖1 為輿情監測系統網絡基本框架。

圖1 輿情監測系統網絡基本框架(簡化版)
顧名思義,互聯網信息采集技術就是通過互聯網搜索引擎來采集相關信息的一項技術,該項技術在現代發展中有兩種應用形式,分別為元搜索和網絡爬蟲,其中元搜索是一種串聯搜索形式,即在檢索過程中將所有下載到的網絡URL 進行串聯運行,根據預設的搜索條件進行初步處理,再將處理后的URL 發送給串行搜索引擎,由搜索引擎對分配到的URL 進行深度檢索(依靠自身數據庫來進行檢索),通過深度檢索可得初步搜索結果,最后針對初步搜索結果進行二次處理,即通過去重、排列等方式來消除信息冗余,這樣得到的結果就更加精細;網絡爬蟲的原理見文章第一部分內容,對此不多加贅述。相較之下,元搜索與網絡爬蟲在搜索性能上不相伯仲,但網絡爬蟲的流程更加簡便、精準,因此在現代互聯網信息采集當中網絡爬蟲的應用更加普及。此外值得一提的是,元搜索的應用普及性雖然不及網絡爬蟲,但與傳統的單搜索引擎技術相比其具有巨大優勢,即元搜索必須要對所有互聯網信息進行搜集,因此在網絡爬蟲應用受限的條件下使用元搜索也未嘗不可[2]。
文本信息抽取技術是在互聯網信息采集技術基礎上,對網頁信息進行抽取,再通過預處理技術得到文本信息的一項技術。原理上,首先需要設定自然語言檢索條件,相應該項技術就會對網絡信息中與檢索條件相關的自然語言進行提取,提取結果代表了用戶所需的與事件相關的要素信息,其次通過預處理技術對自然語言進行規范化處理,讓語言文本變得易于理解,此時再對結果進行記錄生成文本,最后將文本進行展示即可。此外,文本信息抽取技術的功能特點在于信息篩濾,即現代網頁中的信息種類、表現形式有很多,例如導航欄、正文標題、正文內容、相關鏈接、推廣信息、版權公告等,這些信息當中真正與檢索內容相關的只有正文標題、正文內容,其他都屬于無關信息,而在傳統信息抽取技術當中,所有信息都會被列入抽取結果當中,但文本信息抽取技術可以篩除無關信息,具有明顯的效率優勢[3]。
根據現代網絡爬蟲技術在輿情監測中的應用表現可知,其雖然監測效果良好,但卻存在利用率偏低、主體覆蓋率偏低的問題,對此下文將針對兩個問題缺陷提出對應的改善方法。
網絡爬蟲在輿情監測中的利用率高低代表了該項技術的運作效率、信息全面性與準確性,因此網絡爬蟲利用率自然是越高越好,但因為網絡爬蟲在輿情監測過程中會遇到一些信息復雜的網頁,所以導致其整個監測階段中存在局部效率低下的現象,說明網絡爬蟲利用率偏低,需要得到改善。針對這一問題,本文通過測速方案對網絡爬蟲利用率偏低的具體表現進行了分析,結果顯示真正影響網絡爬蟲利用率的原因是提取頁面的大小,頁面越大則提取速度越慢,利用率也更低,這一條件下網絡爬蟲利用率可以通過公式(1)進行表達。

式中:B 代表網絡爬蟲的提取速度;P 代表時間間隔內提取頁面的大小;T 代表網絡爬蟲提取行為的時間間隔。這一基礎上,以網絡爬蟲運行最大速度(100%)為度,取值40%為準,設置了一個簡易的網絡爬蟲利用率報警系統,該系統會實時監測網絡爬蟲的運行速度,當期低于最大速度的40%時,將會發出警報,同時改變網絡爬蟲的運行策略,起到提升利用率的作用。關于警報后網絡爬蟲的運行策略可以分為兩種,分別為減少爬行線程數、更換爬行網站,前者需要暫時停止當前網絡爬蟲的運作,再減少爬行任務隊列中的線程數,最后在適當的時間重啟爬蟲即可;后者就是直接更換爬行網站,兩項策略的應用可以讓網絡爬蟲運行速度提升,起到改善利用率的作用,但值得注意的是,如果策略應用下網絡爬蟲的運行速度依舊沒有恢復到40%以上,則需要人工干預,這也是報警系統存在的意義。
在輿情監測當中經常會遇到一些突發性的事件,這些事件事出突然,且會不斷擴散,相應當網絡爬蟲沒有預先覆蓋事件主題,就很難第一時間做出反應,這就是主題覆蓋率低的表現。相應,因為主題覆蓋率低問題在現實情況中比較常見,所以需要得到改善,改善方法上,主要對網絡爬蟲主題覆蓋運作策略進行優化,具體可以分為三個步驟。3.2.1 主題關鍵詞優化。任何形式的網絡輿情都有自己的主題關鍵詞,例如娛樂事件的關鍵詞就包括“娛樂圈”、“某明星的名字”、“節目名稱”等等,這些關鍵詞即使在輿情發生之前也可以設置,因此可以人工根據輿情事件類型,設置一些可以反應相關事件的關鍵詞來提升網絡爬蟲的主題覆蓋率,這項工作需要反復運作,可持續不斷的提升覆蓋率。3.2.2 URL 確認與返回。在以上主題關鍵詞優化策略基礎上,當發生突發性事件之后,網絡爬蟲會第一時間做出反應,即根據主題關鍵詞進行輿情信息檢索,而檢索完成之后會隨著搜索引擎返回搜索結果第一頁中與關鍵詞對應的URL。此舉代表關鍵詞主題覆蓋率提升。3.2.3 URL 持續監測與信息更新。因為輿情是一種事件的動態變化,所以在監測中必須保持持續性,這一基礎上網絡爬蟲在第二步驟條件下會反復運作,持續的對對應URL 進行監測,并提取內部相關信息,實現輿情信息更新,滿足輿情全期監測需求。
綜上,網絡爬蟲技術作為一種通過“爬蟲”原理進行運作的應用程序,可以根據預設邏輯來監測輿情,對此本文闡述了該項技術在輿情監測中的應用方法、關鍵技術。同時因為網絡爬蟲技術本身存在應用缺陷,所以文中還提出了相關的改善方法,通過這些方法可以讓網絡爬蟲技術運作更加準確、有效,同時輿情檢測工作質量也將得到提升。