摘要:網(wǎng)絡輿情及其管理是信息化時代政府和主管部門構(gòu)建和諧社會的關鍵工作之一,針對此進行網(wǎng)絡輿情分析系統(tǒng)研究是有效開展此項工作極為重要的技術保障因素。本文以此為切入點。系統(tǒng)分析網(wǎng)絡輿情分析系統(tǒng)的七大基本功能需求和系統(tǒng)設計中的四個部分,其核心部分功能的八大模塊及相關主要技術等。
關鍵詞:網(wǎng)絡輿情分析 基本功能需求 核心部分 功能模塊
2008年中國的網(wǎng)絡新聞得到快速發(fā)展,網(wǎng)絡新聞的使用率較去年提升了近5個百分點,網(wǎng)絡新聞用戶達到2.34億,互聯(lián)網(wǎng)已經(jīng)成為一個不可忽視的輿情策源地與宣傳陣地。輿情是指在一定的社會空間內(nèi),圍繞社會事件的發(fā)生、發(fā)展和變化,民眾對社會管理者產(chǎn)生和持有的社會政治態(tài)度。它是較多群眾關于社會中各種現(xiàn)象、問題所表達的信念、態(tài)度、意見和情緒等表現(xiàn)的總和。互聯(lián)網(wǎng)因其虛擬性、隱蔽性、發(fā)散性、滲透性和隨意性等特點,吸引越來越多的人通過這一渠道表達自己的想法。當網(wǎng)民的言論達到了一定規(guī)模時,就形成了網(wǎng)絡輿論。作為社會輿論的一種重要表現(xiàn)形式,網(wǎng)絡輿情形成迅速,對社會的影響巨大。
由于網(wǎng)絡的信息量十分巨大,僅依靠人工的方法難以應對網(wǎng)絡海量信息的收集和處理,需要加強相關信息技術的研究,形成一套自動化的網(wǎng)絡輿情分析系統(tǒng),及時應對網(wǎng)絡輿情,由被動防堵化為主動梳理、引導。
網(wǎng)絡輿情分析系統(tǒng)的基本功能
在我國,作為網(wǎng)絡輿情管理的主體一般是地方政府和主管部門,其對網(wǎng)絡輿情管理的基本要求是:及時掌控所轄范圍內(nèi)網(wǎng)站上的信息情況(包括論壇、博客、網(wǎng)站等),防止網(wǎng)絡突發(fā)事件的發(fā)生進而誘發(fā)群體事件,維持安全健康的網(wǎng)絡環(huán)境和穩(wěn)定的社會環(huán)境。
因此,服務于地方政府或主管部門的網(wǎng)絡輿情分析系統(tǒng)應該具備以下七大基本功能。
網(wǎng)站的設置功能:輿情分析系統(tǒng)所配置的來源網(wǎng)站主要包括國內(nèi)知名的門戶網(wǎng)站、論壇、貼吧、博客、所關注的境外網(wǎng)站以及轄區(qū)內(nèi)一些有影響力的網(wǎng)站。
Web頁面瀏覽的功能:網(wǎng)站的設置是為了方便采集信息的管理,也方便用戶在Web頁面上的瀏覽。
指定網(wǎng)站的搜索功能:主管部門所關注的信息類似百度貼吧的網(wǎng)絡社區(qū),以及轄區(qū)內(nèi)具有一定影響力的網(wǎng)站,如各級論壇、各政府網(wǎng)站等;這部分的需求是通過配置指定網(wǎng)站的方法來實現(xiàn)的,指定網(wǎng)站配置采集可以做到信息的準確性。
全網(wǎng)搜索的功能:收集國內(nèi)各個知名門戶網(wǎng)站對該區(qū)域的報道和論壇中一些敏感的話題。由于全網(wǎng)搜索的準確性難免有所下降,應該可以通過配置關鍵字過濾來采集數(shù)據(jù),保證采集回來的信息是用戶所需要的。
主題事件的跟蹤功能:主要通過主題詞來監(jiān)控一些突發(fā)事件和熱點事件,如突發(fā)事件、重大事件。
敏感詞自動檢測功能:基于敏感詞典信息過濾技術,可以有效地識別各種有害文字信息,以擺脫有害信息的侵擾,進一步監(jiān)測各種嚴重政治性錯誤、淫穢色情、兇殺暴力、賭博迷信、非法、負面報道等內(nèi)容的發(fā)生,可對各類有害信息及時有效地發(fā)起預警,并嚴防此類嚴重錯誤見諸報端。
短信提示功能:其主要作用是服務于領導。通過正常的配置,將采集的信息及時用短信的形式發(fā)給領導,使領導可以第一時間知道某些突發(fā)事件和熱點事件的情況。
網(wǎng)絡輿情分析系統(tǒng)的核心功能
充分考慮到使用者的功能需求。對以上基本功能進行軟件工程學的分析后,可以發(fā)現(xiàn)以上七大基本功能的具體實現(xiàn)涉及輿情分析引擎、自動信息采集、數(shù)據(jù)清理、代理服務四大部分。其中,核心部分是輿情分析引擎。
輿情分析引擎是輿情分析系統(tǒng)的核心功能,至少應當具備八個模塊進行功能分解。
識別模塊:熱點話題、敏感話題識別,可以根據(jù)新聞出處的權(quán)威度、評論數(shù)量、發(fā)言時間密集程度等參數(shù),識別出一定時間段內(nèi)的熱門話題。利用關鍵字布控和語義分析,識別敏感話題。
傾向性分析模塊:對于每個話題,對每個發(fā)信人發(fā)表的文章的觀點、傾向性進行分析與統(tǒng)計。
主題跟蹤模塊:分析新發(fā)表文章、帖子的話題是否與已有主題相同。
自動摘要模塊:對各類主題、各類傾向能夠形成自動摘要。
趨勢分析模塊:分析某個主題在不同的時間段內(nèi)。人們所關注的程度。
突發(fā)事件分析模塊:對突發(fā)事件進行跨時間、跨空間綜合分析,獲知事件發(fā)生的全貌并預測事件發(fā)展的趨勢。
報警系統(tǒng)模塊:對突發(fā)事件、涉及內(nèi)容安全的敏感話題及時發(fā)現(xiàn)并報警。
統(tǒng)計報告模塊:根據(jù)輿情分析引擎處理后的結(jié)果庫生成報告,用戶可通過瀏覽器瀏覽,提供信息檢索功能,根據(jù)指定條件對熱點話題、傾向性進行查詢,并瀏覽信息的具體內(nèi)容,提供決策支持。
輿情分析系統(tǒng)的核心技術在于輿情分析引擎,涉及的最主要的技術包括文本分類、聚類、觀點傾向性識別、主題檢測與跟蹤、自動摘要等計算機文本信息內(nèi)容識別技術。這些技術一向是國內(nèi)外信息工作者關注的領域。其中基于關鍵詞統(tǒng)計分析方法的技術相對比較成熟,但在其有效性方面還有很大的提高空間。
網(wǎng)絡輿情分析系統(tǒng)的其他功能
網(wǎng)絡輿情分析系統(tǒng)的輿情分析引擎部分是其核心功能,而自動信息采集、數(shù)據(jù)清理、代理服務也是必不可少的,與輿情分析引擎作為整體進行信息處理,實現(xiàn)輿情有效分析。
自動信息采集部分主要是通過網(wǎng)絡頁面之間的鏈接關系,從網(wǎng)絡中自動獲取頁面信息,并且隨著鏈接不斷向整個網(wǎng)絡擴展。目前,一些搜索引擎使用這項技術對全球范圍內(nèi)的網(wǎng)頁進行檢索。輿情監(jiān)控系統(tǒng)應能根據(jù)用戶信息需求,設定主題目標,使用人工參與和自動信息采集結(jié)合的方法完成信息收集任務。
數(shù)據(jù)清理功能部分主要完成對收集到的信息進行預處理,如格式轉(zhuǎn)換、數(shù)據(jù)清理、數(shù)據(jù)統(tǒng)計。對于新聞評論,需要濾除無關信息,保存新聞的標題、出處、發(fā)布時間、內(nèi)容、點擊次數(shù)、評論人、評論內(nèi)容、評論數(shù)量等。對于論壇BBS,需要記錄帖子的標題、發(fā)言人、發(fā)布時間、內(nèi)容、回帖內(nèi)容、回帖數(shù)量等,最后形成格式化信息。條件允許時,可直接針對服務器的數(shù)據(jù)庫進行操作。
代理服務部分主要是指使用者根據(jù)需要選擇服務功能要求,每個月只需要支出很少的費用,獲得一個使用期限的用戶名和密碼。就可以登錄使用系統(tǒng)平臺,使用過程類似網(wǎng)頁形式的電子郵件;或者完全將監(jiān)控任務委托給系統(tǒng),然后根據(jù)代理服務協(xié)議,為使用者提供全方位的輿情監(jiān)控服務,所獲得的各類反饋信息,采用電話、電子郵件、手機短信等方式及時匯報給使用者,支持個性化的報表定制。
網(wǎng)絡輿情分析系統(tǒng)的相關技術
網(wǎng)絡輿情分析技術是系統(tǒng)的核心應用技術,該技術是一組管理、提煉、應用、共享所有的顯性知識和隱性知識及信息資源的方法,主要包含自然語言處理技術、信息檢索技術、數(shù)據(jù)挖掘技術等相關技術。
自然語言處理技術主要包括自動分詞技術和自動關鍵詞與自動摘要技術。自動分詞技術是中文信息處理與分析的基礎。以詞典和規(guī)則為基礎,綜合利用了基于概率分析的語言模型方法,使分詞的準確性達到一定的信度,并可根據(jù)不同的應用進行適合特定要求的分詞。自動關鍵詞與自動摘要技術:在篇章語義分析的基礎上,綜合考慮詞頻、詞性、位置信息,實現(xiàn)準確的自動關鍵詞與自動摘要。
信息檢索技術主要包括全文檢索技術和圖片內(nèi)容檢索技術。全文檢索技術,即全文引擎將傳統(tǒng)的全文檢索技術與最新的Web搜索技術相結(jié)合,同時融合了多種相關技術,具有豐富的檢索手段以及同義詞等智能檢索方式。圖片內(nèi)容檢索技術,即圖片檢索不僅提供基于圖片描述的檢索,還提供對圖片內(nèi)容的檢索,以及結(jié)合描述與內(nèi)容的綜合檢索。
結(jié)語
網(wǎng)絡輿情分析是有效掌控網(wǎng)絡、促進社會主義和諧社會建設的重要手段。網(wǎng)絡輿情分析系統(tǒng)涉及多媒體數(shù)據(jù)共享、互聯(lián)網(wǎng)搜索、統(tǒng)計分析、數(shù)據(jù)倉庫和數(shù)據(jù)挖掘以及人工智能等領域和技術,是一個復雜而新穎的應用領域。尤其是隨著語義網(wǎng)絡技術的更進一步的發(fā)展,必將使其輿情系統(tǒng)分析的結(jié)果更準確、更科學。
編校:張紅玲