■文/劉 寧
淺談遼寧省互聯網內容綜合監管平臺之互聯網新聞出版輿情監測系統的應用
■文/劉 寧
本文闡述了互聯網新聞出版輿情監測系統的數據采集技術分析。
系統;輿情主題聚焦爬蟲;文本及情感分析技術
隨著互聯網產業的飛速發展,互聯網出版產業的發展空間也在不斷拓展。但是,網絡出版中存在的問題也必須引起我們的高度重視,通過本系統可以及時發現網上傳播的有害網絡出版物與負面輿情,并進行下載取證,全面、完整、詳實地為檢測部門提供日常監測數據和信息。
互聯網內容綜合監管平臺是在統一的數據采集、數據分析、統計編報模塊基礎上,針對手機APP視聽節目、互聯網新聞出版輿情、網絡違規出版物等不同監測領域,形成的一套可擴展的、一體化的智能監測綜合平臺。平臺主要包括“互聯網新聞出版輿情監測”“手機APP視聽節目監測”“網絡違規出版物監測”3個組成部分,如下圖所示。

可以全面監測互聯網中關于新聞出版的實時輿情熱點、輿情專題、手機APP軟件中發布的視聽節目以及各類網絡出版物(例如網絡文學、網絡漫畫、網絡游戲等)在網絡中傳播情況,及時發現網上傳播的違規視聽節目、有害網絡出版物與負面輿情,并進行下載取證,全面、完整、翔實地為監測部門提供日常監測數據和信息。
下面本文將著重介紹互聯網內容綜合監管平臺中的互聯網新聞出版輿情監測系統的數據采集。
2.1 輿情監測系統中的數據處理
首先網絡蜘蛛從互聯網上抓取數據,一邊抓取數據一邊將已抓取的數據信息發送給應用服務器,應用服務器交給智能代理進行處理。
智能代理是系統中實現核心功能的子系統,對所有抓取的網絡數據進行全面的分析過濾,識別出所監管的非法信息,提交給其他子系統做進一步處理。智能代理能夠及時地自學習完善自己的知識體系,提高自身的智能性。
用戶只需要設定要抓取站點的首頁地址,蜘蛛程序就會按設定的站點下載相應的網頁并傳給后臺處理程序做進一步的處理,并根據設定的更新周期,定期對各站點上新發布的網頁或者更新了的網頁進行及時抓取。
將抓取的數據打包成一個個臨時數據包,然后將新數據任務發送給應用服務器,服務器選擇一個空閑的智能代理,將這個任務分配給它進行分析處理,處理完后將這個處理任務反饋給應用服務器,服務器再將此任務分配給一個空閑的轉存器。
轉存器主要做一些處理工作,將系統發現的疑似案件數據及所有的臨時數據存入到案件庫和總庫當中,通過客戶端查看案件信息。根據發現案件的URL解析出其IP地址;將按規則分類出的案件按規則號對其文本內容標紅;將案件從臨時庫轉存到總庫的案件庫中;統計某個臨時表發現的案件類型及其案件數并向服務器報警;將正常的信息都轉存到總庫的Total庫中。
轉存器再做進一步的處理,將有疑似違規的輿情信息導入到數據庫,將正常的信息也導入到總庫中,如果發現違規,則根據違規的類型通知負責監管這一主題的用戶,客戶端用戶再對案件進行審計、反饋、確認、打印等功能。整個系統的數據處理流程如下圖所示:

2.2 文本及情感分析技術
通過互聯網各個信息系統傳播的輿情事件信息,除了用于反應事件客觀事實外,也表達了用戶觀點和情感,例如對該事件的支持、反對或中立態度。這些情感態度多數是通過互聯網上的普通網民發表的文本信息表達出來,包含著人們對社會各種現象的不同觀點和立場,個人和組織越來越多地把網絡上的情感觀點信息用于制定決策方面,從而使得情感分析技術應運而生。
情感分析技術對網絡輿情事件發展走勢的描述和預測有十分重要的作用,但是,由于網絡輿情信息的多樣性和中文文本處理的特殊性,針對網絡輿情事件的中文情感分析面臨諸多難點:
一是網絡輿情事件的情感判斷主觀性較強,不同的人由于其身份背景、認知水平等限制,對同一信息的情感判斷并不一致,因此其判定規則沒有統一標準,因此由機器判定信息情感造成很大困難。
二是網絡信息的載體較多,數據格式和類型不統一。網絡輿情事件可以通過新聞、博客等長文本表述,又可以通過新型的論壇、微博等短文本進行傳播。書面語言與口語混雜出現,新的網絡詞匯和變種詞語大量增加,這種信息特征使得情感分析的難度大大增加。
三是網絡輿情事件相關語料難以獲取。目前互聯網上輿情事件的相關中英文語料建設尚不完善,但情感分析所用的主要技術均需大量語料支撐。
四是中文情感分析難度較大。目前,對于英文的情感分析已做了很多研究,但中文由于其特殊性,準確度與中文分詞、命名實體識別、句法分析等工具的準確度正相關。這些工具的準確度會大大影響中文情感識別的準確率。
下圖為文本情感分析流程。首先輸入一篇文本,進行文本的預處理,即將文本切分成句子,再將句子切分為詞語。第二步進行詞語級情感分析,得到每個句子中的詞語情感傾向,第三步應用每個句子中詞語的情感傾向進行句子級情感分析,獲得每句話的情感傾向,最后,計算每句話在文章中的重要性,結合句子的情感傾向,最終輸出該文檔的正負面傾向性。

文本情感分析流程圖
最終互聯網新聞出版輿情分析系統可以實現對涉及全國、涉我(新聞出版相關的)的境內外熱點、有害信息和涉穩的行動性信息進行主動發現,并對其傳播進行追溯;支持業務相關的特定社會群體關注的熱點的探測與發現;實現以熱點云形式以及多熱點分析指數來刻畫網絡熱點。
通過對專題的分析,完成操作人員對特定關注主題,以及設置主題或事件為驅動的監控任務,實現對數據的主動采集、分析、統計到簡報生成一站式服務,支持對事件走勢情況、當前影響力情況、階段演化分析、信息溯源跟蹤、社交網絡傳播、網絡推手識別、網民區域分布、網民情感分析與觀點提煉、簡報自動生成等功能。
(作者單位:遼寧省廣播電視及信息網絡視聽節目傳播監測中心 )
G206
A
1671-0134(2017)06-099-02
10.19483/j.cnki.11-4653/n.2017.06.031