網絡輿情巡查系統的設計與實現

2011-12-31 00:00:00吳方余蔣崯崯

計算機時代 2011年8期

摘要：網絡輿情作為社會輿論發展的新形式越來越受到社會的關注，對網絡輿情的收集、分析和研判也是今后掌控的社會輿情的重要途徑。網絡輿情巡查系統是網絡輿情采集分析和報送的重要工具。文章探討了網絡輿情巡查系統的設計思路和系統功能，給出了系統的框架，同時對系統實現中的關鍵技術進行了闡述。

關鍵詞：網絡輿情；巡查；采集；任務優先

中圖分類號：TP393.09

文獻標志碼：A

文章編號：1006-8228(2011)08-56-03

引言

互聯網的發展，極大地拓寬了社會輿論空間。網絡媒體已經被公認為是繼報紙、電視、廣播之后的“第四媒體”，且其信息量和受關注度均遠超過傳統的三大媒體。網絡輿情是指在互聯網背景之下，眾多網民關于社會(現實社會、虛擬社會)各種現象、問題所表達的信念、態度、意見和情緒的總和，或簡而言之為網絡輿論和民情。網絡具有掩蔽性、互動性、多元性，使得網絡輿情能真實、快速反應社會輿情。特別是當前互聯網上新聞、論壇、博客的普及更是推動了網絡輿情的發展，倍受政府、企業和各類社會機構的關注。今后網絡空間將承載更多的社會輿論，網絡輿情將成為反映社情民意的重要形式。

作為維護互聯網安全重要力量的網絡警察，對網絡輿情巡查是其主要職責之一。網警通過對互聯網輿情巡查及時發現和處置各類信息，為行政決策提供參考，同時為公安機關打擊違法犯罪提供重要案件來源。傳統網警巡查的方式主要依靠人工巡查和基于搜索引擎模式的采集一查詢巡查方式，兩者的最大不足是實時性不強，容易錯失輿情危機的“黃金4小時媒體”寶貴時間。因此輿情巡查系統應具備響應快速、信息準確和覆蓋范圍廣泛的特點。

1、系統設計思路

1.1 增量式巡查提高響應速度

互聯網巡查主要任務是采集、發現和處置各大網站出現的最新的、有價值的網絡輿情信息，已巡查過的非敏感網絡信息不是巡查重點，而這部分信息內容卻占據了網絡巡查處理數據的絕大部分資源。如巡警在日常巡邏中接觸到的絕大部分是守法公民，發現的違法犯罪人員只有極少數且都隱藏于大眾中。為加快響應速度，提高巡查效率，避免系統陷入非新增的海量信息處理，必須保證系統資源有效用于對新增信息的巡查上。據此，系統設計的主要思路是：巡查各大網站新聞、博客、論壇內容中的最近一個時段內更新的信息內容。有針對性地巡查不僅可以減少對同一個網站信息反復采集、處理的工作量，而且節約了時間，提高了巡查效率。在日常的互聯網巡查中我們發現，所有的新聞、論壇、博客等信息的更新都在特定的網頁頁面以標題列表的形式列出來，若從此類包含內容列表的網頁入手，則可以很方便地獲取最新更新的信息。在巡查頻度方面，由于當前各大網站的網頁都是由腳本動態生成的，隨著內容的新增，已有信息不斷向后刷新，為防止對新增的內容漏巡，必須保證在新增信息的內容列表離開該頁面之前進行一次巡查。

巡查系統和傳統的搜索引擎不同。傳統的搜索引擎是對網站的內容進行采集，通過分詞、建立索引等處理后向用戶提供檢索服務。這能最大限度地采集該網站大部分信息并保存本地用于檢索，該方法是以犧牲時間和空間為代價來實現的。而巡查系統不需要采集網站的整站信息，只要采集該網站的過去某一時刻至現在的一個時段內所有更新的信息即可(增量信息)；同時為快速響應，系統爬蟲程序對網頁進行采集的同時負責網頁處理和關鍵字比對，這和搜索引擎中網絡爬蟲單一的網頁采集任務也有所區別。

1.2 設置巡查級別優化資源分配

互聯網上不同的網站信息更新速度是不同的，在現有軟、硬件的條件下要發揮系統的最大功用，必須保證最大限度地覆蓋巡查范圍、減少漏巡與巡查盲區。對于不同的新聞、博客、論壇網站，根據人氣和信息量的不同，我們在系統中設置了不同的巡查優先權。對于信息量大、更新速度快的網站加大巡查頻度，設置高優先級別的巡查模式，反之則減少巡查頻度，設置低優先級別的巡查模式。傳統平均分時巡查中假設一個巡查系統有n個任務，執行完任務的總時間為T巡l+T巡2+…+T巡n，假設某一任務對應的網頁信息更新速度最快，每次更新時間為T更新。為保證系統在該網頁信息更新前對其進行巡查必須滿足T巡1+T巡2+……+T巡n＜T更新。由此可知系統每次巡查周期須小于該網頁的更新周期，否則將造成漏巡。據此平均分時巡查的缺點凸顯出來：一是當總巡查時間達到一定值后不能增加新的巡查內容；二是某些信息更新周期慢的網頁易重復巡查造成資源浪費。采用加權優先級式分配巡查任務根據權值大小按不同頻度對網頁進行巡查，可以很好地解決上述問題，大大提高巡查范圍和巡查響應速度。

1.3 分類報送

通過增量式巡查篩選出來的網絡輿情包含了各種各樣的信息，這些信息中有急需處置并馬上向用戶報告的，有可暫緩處置稍后報告的，也有不需處理不報告的。系統需對這部分信息建立一套合理的分級研判制度和報告制度，其中關鍵字是分級的重要依據。系統根據關鍵字的緊急程度不同依次為分為五個級別。

在關鍵字設置上系統根據網站地域性和網站針對網民群體的不同而設置不同的關鍵字。對于地域性廣、網民來源分散的，要設置相對具體的關鍵字以求捕獲信息的準確性；對于地域性窄、網民來源集中的，可以設置相對模糊關鍵字，以求獲取最大限度的信息量。對于特定行業、特定網民群體相關的網站，多設置特定關鍵字而少設置通用關鍵字，這樣可以提高信息篩選的效率。

2、系統框架

輿情巡查系統主要有任務調度模塊、信息采集處理分析比對和結果處理三個模塊組成，如圖1所示。

任務調度模塊負責巡查任務的分配，它通過任務調度策略從任務池中選擇一個或多個優先級別相同的任務進入就緒隊列等待執行；信息采集處理分析比對模塊是系統核心所在，它利用多線程技術對所要巡查的網頁信息進行采集分析研判，獲取與預設關鍵字相關的內容，該模塊是系統資源的主要使用單元；結果處理模塊對巡查結果予以顯示、存儲并根據關鍵字中包含的不同分類信息采取不同的報送方式向用戶報送。

3、系統的實現

3.1 任務調度

系統對一個網站(專題、版塊)的巡查對應一個任務，并有一套機制保證任務的合理執行。任務調度主要的功能是對巡查優先級進行調度，對信息量大、更新頻繁的網站增加巡查次數以求及時獲取最新輿情動態，達到資源的優化配置目的。

任務的數據結構如圖2所示，url是待采集網頁標題列表的所在網頁的鏈接地址，通常是一個新聞專題入口、論壇的版塊、博客目錄；domain是URL中包含的域名，該標識不僅用于在提取網頁URL過程中過濾非本網站域名的鏈接達到爬蟲匯聚的目的，還用于將相對鏈接地址組合成絕對鏈接地址；權值是任務調度的核心，權值大小反映了任務被執行的頻度，它由用戶根據某一待巡查內容的信息量和信息更新速度以及人氣等綜合因素而設定。網頁信息更新速度快應設置較小權值。反之設置較大權值。任務每執行一次，其次數標識加1，累計值＝權值×次數，累計值的大小作為任務調度時決定哪個任務選中執行的依據。任務調度時任務管理器首先在任務列表中查找累計值最小的任務，找到后將其加入到就緒任務列表中等待執行。某一時刻有多個相同最小累計值時按照先后順序依次加入到就緒任務列表。當任務執行完成后，該任務的累計值和執行次數標識值都會增加，任務從就緒任務列表中移除，待執行完所有就緒任務列表中的任務后，任務管理器再次查找執行累計值最小的任務，如此循環。

3.2 輿情信息采集

(1)網頁抓取系統爬蟲采用廣度優先的方式對網頁進行抓取。當一個任務(網頁URL)被調度進入執行狀態時，系統利用HTTP協議訪問該網頁URL(新聞專題、論壇版塊等)并將該頁面下載到本地，網絡爬蟲首先提取該網頁包含的一條URL，然后對提取的URL按事先設置好的策略進行過濾，過濾的策略是基于該網頁所在的網站域名符合一定規則，即提取的URL包含所對應的域名時予以保留，反之予以丟棄，系統通過查詢確認隊列中未收錄該URL，否則予以丟棄，最后對過濾后的URL加入待下載全連接隊列并重復前面的步驟直到提取完該網頁內所有URL。系統采用正則表達式提取網頁所包含的所有URL，不同網站的網頁中包含的URL格式有所不同，有絕對超級鏈接和相對超級鏈接之分，對于后者必須添加網站的域名使之成為一個絕對超級鏈接以方便后續網頁采集。待該網頁內所有的URL提取完并按唯一性加入到待下載隊列后，爬蟲程序采用多線程方式對隊列中的URL進行網頁內容抓取。

(2)網頁處理在抓取網頁后，要經過網頁預處理這一步驟。該步驟的主要功能是去除與輿情處理無關的內容，包括網頁中重復的內容和其他與輿情無關的信息。經過處理后就可以對網頁的標題和文本內容進行提取。不同的網站生成的網頁結構不同，要提取不同網站內的網頁不能通過單一的模板。系統采用正則表達式對網頁的標題和內容進行提取。如在標題提取時根據HTML語法使用正則表達式提取和<／title>之間的字符，同樣正文內容的抽取可以提取<body>和<／body>之間的字符實現。</body>

(3)關鍵字比對系統是基于關鍵字預設的巡查系統，不同的任務(巡查內容)對應不同關鍵字列表。當準備運行的任務被加載后，任務管理器根據當前任務從關鍵字庫中查找并加載與之對應的關鍵字列表，關鍵字列表中不同關鍵字包含不同的分類級別、報送等級信息。網頁經過預處理后就與關鍵字列表中的關鍵字逐一進行碰撞比對。當比對成功時，關鍵字和網頁中特定部分信息被加入到報告隊列中的待系統依據關鍵字包含的信息作相應的處理。

3.3 巡查結果的顯示、報送與存儲

對于巡查中發現的有價值的網絡輿情信息，系統要及時向用戶顯示報告。輿情顯示內容包括信息級別、URL、主題、內容摘要以及涉及的敏感詞匯等。通過這些內容，用戶就能對當前所巡查的網站輿情信息有全面的掌握這有利于下一步分析研判。在所有采集到的網絡輿情中，部分信息級別較高、包含敏感話題關鍵字的輿情要第一時間向用戶報告的，系統采用短信報警的方式對這部分重要的信息實現報送。此外，系統采用XML格式對巡查結果予以存儲，將巡查結果存儲的目的是防止相同內容輿情的重復采集報送，使間隔性的巡查在信息獲取方面整體上保持連續性。

4、結束語

網絡輿情越來越受到社會的關注，及時準確的網絡輿情不僅是今后各類機構決策的重要參考，也是各類機構判斷決策施行的效果的依據，這對網絡輿情監測提出了更高的要求，將促進網絡巡查手段的發展。我們在輿情巡查系統實現的過程中遇到了一些難點，包括：網頁結構復雜，特別是包含大量Frame和采用JavaScript生成的網頁在網頁信息采集上有所限制；還有系統是基于關鍵字巡查的，雖然對關鍵字組合出現的各種可能作了預測，但是在表達式設定捕獲范圍上難以掌控，容易造成捕獲范圍過大和過小的問題。本文針對網絡輿情巡查系統的功能和設計過程作了研究，具體的算法和實現方式還有待進一步優化和深入研究。

參考文獻：

[1]周靖.VisualC#2010從入門到精通[M].清華大學出版社，2010.

[2]潘正高.基于主題關鍵詞的網絡輿情分析研究[J].宿州學院學報，2010.5.

[3]何佳，周長勝，石顯鋒，等.網絡輿情監控系統的實現方法[J].鄭州大學學報(理學版)，2010.3.

計算機時代2011年8期

計算機時代的其它文章: Java匿名類的分析和理解; 螺母模型的制作; 航政系統中網上審批技術方案的設計; jQUery在AJAX技術框架中頁面加載的應用; 基于C8051F064的電腦抗張試驗機的研制與開發; 軟件構件質量的量化評價模型研究