摘要:現階段,網民對互聯網技術的發展情況十分關注,究其原因,主要是在互聯網高速發展的背景下,網絡熱點和焦點話題的傳播速度非常快,很容易被別有用心之人所利用,從而引發突發性問題。而互聯網輿情監控系統的設計和實現,可以對上述情況進行預防和控制。本文以互聯網輿情監控系統的設計與實現為主要研究內容,首先介紹網絡輿情監控相關技術,然后對網絡輿情監控系統功能框架設計和詳細設計進行分析,希望為相關行業提供借鑒。
關鍵詞:互聯網;輿情監控系統;輿情預警
引言:在互聯網普及應用的背景下,人人都是信息的制造者和傳播者,網絡也因此成為了眾多輿論事件的發源地,微博、BBS、貼吧就產生了大量的輿情信息,所造成的社會影響十分巨大。由于網絡輿情具有傳播速度快、傳播渠道多、異構性和復雜性等特點,因此對輿情信息正確性和傳播范圍進行控制的難度非常之高,面對眾多輿情信息成為引發社會事件導火索的情況,應通過互聯網輿情監控系統的設計和應用,從海量的輿情信息中挖掘有價值的數據,為政府部門管理網絡輿情信息,提供技術方面的支持。在此背景下,對此項課題進行研究,其意義十分重大。
一、網絡輿情監控相關技術簡介
網絡信息分類、網絡信息分析、網絡信息識別、網絡信息跟蹤等技術是互聯網輿情監控系統所運用的技術,這些技術均屬于計算機文本信息處理技術的范疇。接下來本文會對網絡信息提取識別技術和網絡爬蟲技術進行簡單介紹:
(一)網絡輿情信息提取和識別技術
這項技術可以分析信息,這里所說的信息是指系統通過搜集所得到的網絡輿情信息,如果輿情信息類型為網絡新聞數據,則需要找出信息中與新聞有關的要素,主要包括時間、內容和標題。如果信息類型為網絡論壇數據,所找出的內容主要是用戶信息,比如:用戶的ID、回復用戶的ID等等,然后在信息數據庫中保存這些數據即可。
在查閱資料后得知,一種將模板和自動機器識別相結合作為基礎的信息提取方法,是輿情信息提取分析的實現方式。這種方法需要將啟發式規則作為依據,然后通過自動識別的方式,對網絡文本中不同屬性輿論信息之間的分隔符進行處理,與此同時,在相應的模板中進行配置,并將模板作為依據,對相同類型的輿論網頁信息加以分析和識別,最終以話題線索的方式保存即可。對網絡輿論相關數據信息的描述就是話題線索,比如:網頁點擊率、帖子回復數量等。相較于傳統提取技術而言,這種技術較為先進,在處理多結構類型的網絡輿論網頁數據信息時的效果極為顯著。與此同時,還能促進輿論信息準確率和效率的提升,且這一目標的實現無需對算法進行修改,有利于滿足不同用戶的需求,并為研究提供信息數據上的支持。
總而言之,提取到的輿論數據信息是輿情信息分析識別的主要對象,在內容和行為識別的基礎上,對輿情信息是否為需求信息進行判斷,將判斷結果作為依據,開展有針對性的輿情數據分析,可以取得良好的效果[1]。
(二)網絡爬蟲技術
在互聯網技術高速發展的背景下,人們可以借助網絡獲取所需的各類信息,但有用信息僅占信息總量的少數,再加上信息始終增加,導致信息獲取難度不斷提升,幾乎成為一件不可能的事情,在這種情況下,網絡爬蟲技術應運而生,實踐應用結果表明,這項技術的應用,可以降低有價值信息獲取的難度。
在本文所設計的輿情監控系統之中,網絡爬蟲技術起到了關鍵性的作用,具體表現為運用這項技術在網絡中抓下正在更新的數據信息,滿足輿情監控系統對信息數據的需求,為下一階段工作的開展,創造有利的條件。
二、互聯網輿情監控系統的設計與實現
(一)網絡輿情監控系統功能框架的設計
輿論數據信息采集、預處理和分析處理是監控系統所具備的基礎功能。除基礎功能之外,系統還要對輿情信息未來發展趨勢、傳播方式和途徑進行簡單預測,同時,還能設置人工監控點,負責對重點區域的輿情信息事件進行監控,并在標記預警信息后,對其進行處理,處理措施包括跟蹤、識別、提取和報告。本文將現行技術和標準作為依據,整理和歸納系統,在此基礎上,設計出具有可行性的系統方案,使網絡輿情監控系統功能框架設計需求得到明確。
網絡輿情監控系統主要由四個功能模塊構成,分別為采集系統、預處理系統、分析系統和應用系統。各系統功能如下所述:
1 采集系統:采集系統應用了網絡爬蟲技術,具備抓取和存儲網絡輿情信息數據的功能,且無需人工操作,可實現自動抓取。
2 信息預處理系統:以采集信息為對象,對其進行去重、關鍵詞篩選和分析處理[2]。
3 監控分析系統:通過文本的方式對輿情數據進行表示,同時,還能識別和分析數據庫內存儲的數據,并在處理完成后向分析庫中傳遞分析結果。
4 應用系統:實現用戶交互功能。
(二)網絡輿情監控系統功能模塊的詳細設計
輿情監控系統工作流就是所謂的數據流,由4個處理環節構成:(1)采集子系統會在網絡中抓取輿情信息數據,并存儲到本地數據庫之中;(2)信息預處理子系統會對本地數據庫中所存儲的數據進行預處理,主要處理方法包括分析、識別和加工,簡言之,就是將無用數據剔除,并通過建立索引的方式,降低后續處理難度;(3)將輿情監控系統的特定需求作為依據,分析和處理輿情信息和數據;(4)在客戶端上呈現處理后的輿情數據,設計流程如圖1所示。
1.信息采集功能的模塊設計
論壇、微博和貼吧等網站是輿情信息的主要來源,信息采集功能模塊在設計過程中,對API與網頁抽取相結合的方法進行了應用,通過采集和管理關鍵詞、話題語義、URL管理和過濾詞典管理等方式,使分類歸一管理的目標達成。在數據采集完成后,會在HBase數據庫之中存儲,采集存儲流程如下所述:首先網絡爬蟲技術會對網絡中輿情數據進行抓取,同時將Dom作為依據,實現數據解析和提取的目的,其中,數量眾多的爬蟲器和獲取器會在slaver機器上運行,而調度器的所在位置是master機器,其中前者數量較多[3]。
2.信息預處理功能模塊設計
在獲取輿情數據信息之后,需要通過預處理的方式,剔除其中的無用信息,保留有價值的數據信息即可。無用信息包括網站導航、友情鏈接、索引等。就事實而言,網絡輿情數據信息以非結構化數據為主,且在形式上具有復雜性的特點,很難被直接應用,如果直接分析和加工處理,不僅難度較大,且處理效果極為有限。而信息預處理功能模塊可以提前對輿情數據信息進行清洗和去噪,為后續處理創造有利的條件。所謂的清洗和去噪,就是指分析和提取輿情數據信息的主要內容和特征。
3.輿情分析功能子模塊設計
在輿情監控系統之中,輿情分析功能子模塊的作用不言而喻,具有十分重要的功能,模塊應用的關鍵技術包括兩種,一種是聚類技術;另一種是分類技術。對輿情數據信息進行深入分析和挖掘是模塊的主要功能,值得注意的是,這里所說的輿情信息數據是預處理后的數據信息,在分析和挖掘后,輿情數據信息就會成為滿足話題發現和熱點跟蹤需求的結構化數據。接下來,筆者會對該模塊的主要功能進行介紹:
(1)熱點信息話題的發現和分析。這項功能主要是指依據輿情信息數據內容,對其進行話題的劃分,如果內容較為特殊,創新話題亦可。而追蹤是指跟蹤分析社會上的熱點話題,這項功能的實現,所應用的關鍵技術為文本聚類分析方法。將標準的格式規律作為依據,歸納和區分信息內容較為相似的文檔,這個過程就是所謂的聚類分析。
(2)社會網絡分析。社會網絡是復雜網絡的重要組成部分,存在一定的特殊性,比如:微博就是典型的社會網絡,輿情監控系統所采用的社會網絡分析法,能夠對微博用戶所發布的信息數據進行分析,在話題確定后,計算數據信息中粉絲數量和關注數量的出入度和聚類系數,通過多個Map階段和Reduce階段的運用,將計算結果存儲到分析庫之中,滿足客戶端可視化的使用需要。聚類系數在社會網絡分析法中作用較大,是對網絡集團化程度的體現,同時,還能在一定程度上反映網絡內聚。
4.輿情展示預警功能模塊設計
實現和管理者之間的實時交互操作,向管理者反饋系統分析后的結果,是該模塊的主要作用。其功能主要包括熱點話題排序、敏感話題趨勢。由于該模塊具有可視化功能,因此,管理者可以調用分析結果,對輿情數據信息的后續發展趨勢進行預測,并且,系統針對輿情信息的警示觸發,具有自動化的特點。從而為管理者提前采取預防和控制措施,應對可能會出現的輿情事件,創造有利的條件。
結論:綜上所述,在互聯網技術高速發展的背景下,網絡輿情信息數據量不斷增加,如果不對其加以管控,這些輿情信息可能會成為引發社會性事件的導火索。而傳統監控管理方式較為落后,需要使用大量的硬件設備,且監控和管理效果極為有限。而本文設計的網絡輿情監控系統可以實現云端硬件資源的共享,在應用該系統后,用戶無需借助大量硬件設備即可挖掘數據,從而節省了大量的費用。與此同時,云計算的集群處理能力也會得到充分地利用。實踐應用結果表明,這種技術的應用,能夠在節省管理成本的基礎上,提升工作效率,具有應用的價值。
參考文獻:
[1]劉小滿,王小輝.基于“互聯網+”的網絡輿情監控系統的設計與實現[J].電腦知識與技術,2019,15(31):37-40.
[2]蘇鵬,楊文順.監控互聯網輿情助推民族地區黨建工作智能化[J].云南民族大學學報(哲學社會科學版),2019,36(02):31-33.
[3]黃霄漢,馬兆豐.Android移動互聯網輿情推送技術研究與實現[J].軟件,2017,37(12):26-31.
作者簡介:
李建新,1977年10月,男,河北唐山人,本科,政工師,網絡輿情、黨務、融媒體中心建設、思想宣傳等方向