文/魏春光
隨著市場競爭的日益加劇,如何開發信息資源、利用信息資源,并實現信息資源的最大利益化顯得尤為重要,越來越多的公眾已意識到信息是一種潛在的生產力。根據中國互聯網絡信息中心(CNNIC)發布的第43次《中國互聯網絡發展狀況統計報告》顯示,截至2018年12月,我國網民規模達8.29億,普及率達59.6%。[1]中國互聯網已經進入全新發展階段,各行各業也隨之經歷了不同程度的變革。
在互聯網時代下,誰重視信息安全誰就發展穩定,誰重視網絡輿情監測誰就會實現更大社會效益。因此,本文試圖借助人民公安報社輿情監測系統分析監測信息的必要性,從而論證網絡輿情監測對行業、對公眾、對社會具有重要意義。
黨的十八大以來,以習近平同志為核心的黨中央高度重視網絡安全和信息化工作,緊緊圍繞我國經濟社會發展的總要求和大趨勢,著力推動我國網絡安全和信息化工作實現新發展,維護國家和人民安全。
2016年4月19日,在網絡安全和信息化工作座談會上,習近平總書記指出,要樹立正確的網絡安全觀,加快構建關鍵信息基礎設施安全保障體系,全天候全方位感知網絡安全態勢,增強網絡安全防御能力和威懾能力。同時,習近平強調,維護網絡安全是全社會的共同責任,需要政府、企業、社會組織、廣大網民共同參與,共筑網絡安全防線。[2]
2016年8月,國務院辦公廳印發《關于在政務公開工作中進一步做好政務輿情回應的通知》。該《通知》指出,隨著互聯網的迅猛發展,新型傳播方式不斷涌現,政府的施政環境發生深刻變化,輿情事件頻發多發,加強政務公開、做好政務輿情回應日益成為政府提升治理能力的內在要求。[3]
2018年4月,國務院辦公廳印發《2018年政務公開工作要點》提出,增強輿情風險防控意識,密切監測收集苗頭性輿情,特別是涉及經濟社會重大政策、影響黨和政府公信力、沖擊道德底線等方面的政務輿情,做到及時預警、科學研判、妥善處置、有效回應。[4]
當今時代,網信事業正逐漸成為重塑國際經濟、政治、文化、社會、生態、軍事發展新格局的主導力量。網絡安全關系著國家安危,可以說是“沒有網絡安全就沒有國家安全”,確保網絡安全成為確保國家安全的重要任務。
人民公安報社輿情監測系統作為報社融媒體發展戰略的核心系統之一,將實現對全網的輿情監控和分析,有效引導社會熱點和公眾輿論,有力發揮中央媒體優勢,為國家公安事業發展服務。系統的建設將基于全媒體的輿情監測網絡和分析機制,利用大數據等信息技術,科學、全面、高效地掌握網絡輿情,對指定范圍內的網站信息發布進行全面掌控,實現集“新聞、論壇、博客、微博、新聞客戶端等網絡信息實時監控,輿情信息傳播渠道跟蹤,溯源和輿情導控指揮”三大功能為一體的輿情監控分析平臺。最終形成和生產出具有鮮明行業特色的輿情監測常規產品,包括行業的日、月、年度報告。
人民公安報社輿情監測系統利用當前最先進的分布式計算技術、數據管理與檢索技術、數據智能分析技術,采用傳統關系數據庫、分布式數據倉庫、分布式文件數據庫相結合的方案,實現智能檢索和數據高效管理,深度挖掘和智能分析數據,提供數據自動分類、自動聚類、自動關聯、自動標引等一系列的智能分析,使數據得到最廣泛的關聯,進而挖掘知識。該輿情監測系統的建設目標是對互聯網上媒體反映的輿論與民意實現全面有效的采集、分析、研判和表達,并及時有效響應。
大數據是一種數據集合,其具有大容量、高精度和快速高效等特征。[4]本項目以實現對報社關注的互聯網相關信息采集、專題事件分析、社會熱點發現、重點內容監測、數據統計分析、輿情簡報制作、檢索、管理等功能為目標,力求達到內容全面、功能齊備、方便易用、開放兼容、安全可靠。總之,對輿情的全面了解與掌握是輿情監測系統的重要工作之一。
本系統的建設目的是:掌握網民主要觀點和視角態度;了解媒體的報道情況和關注重點;自動生成輿情簡報,及時響應突發事件,提高工作效率;能對特定事件進行持續性跟蹤和分析;形成統一的運營服務平臺,作為新聞選題采編工作的業務支撐輔助平臺。
2.1.1 系統建設的必要性
建設輿情管理系統,首先是確保國家長治久安的需要,有利于建設好、利用好、管理好互聯網,有利于維護改革發展的大局,有利于鞏固黨的執政基礎。
其次是推動建立正確輿論導向是前提,有利于密切聯系群眾,及時準確掌握社情民意,有效引導網上輿論,把握輿情發展走向。
再次是適應未來網絡輿論管理的迫切需要,有利于及時應對各類網絡新媒體和移動互聯網等媒介融合趨勢,提高處理互聯網輿情問題的準確性。
還有是運用高新技術手段是提升管理工作能力的迫切需要,有利于適應新時期信息化發展戰略,完善電子政務體系。
最后是適應網絡宣傳工作與時俱進、創新發展的需要,有利于提高互聯網從業人員管理能力和思想水平,發揮網絡媒體的行業自律機制。
2.1.2 詳細科學技術內容
(1)分布式數據管理技術:海貝大數據管理系統(Hybase)以存儲、檢索和統計為核心,采用彈性擴展架構設計的新一代大數據管理系統,它融合了全文檢索、自然語言處理、索引分片、多副本機制、對等節點機制(去中心化)、列存儲、內存索引等多項先進技術,為各類非結構化大數據分析應用提供非結構化大數據高效管理和智能檢索。其具備以下優勢:
扁平化設計:扁平化架構使單個節點故障不會影響整個系統對外提供服務;同時,該架構使系統具有良好的擴展性,可在線增加新的節點,擴展系統容量和增加對外服務能力。
異常感知可以自動恢復:當系統自動感知服務器處于異常狀態時,可以進行自我修復。該系統是可以將硬件異常作為常見異常來處理的,不會因單個節點的異常導致整個系統不可使用。
柔性多引擎技術:該系統通過定義一個標準的引擎接口,采用多引擎機制。對于不同的應用需求,可使用不同的引擎,用戶甚至可以自己構建引擎來擴展系統的數據處理能力。
支持異構數據:該系統支持結構化、半結構化、非結構化數據的統一檢索。
高效分區索引機制:根據查詢特點,該系統可將數據自動分區索引。
混合索引方式:該系統提供按詞、按字、字詞混合索引方式,滿足不同應用場景對查全和查準的不同需求。
內存表:該系統支持在內存中建立數據表,適應數據量較少,但查詢并發與響應速度要求很高的應用需求。
列存儲:該系統支持列存儲,實現特定數據列的高效訪問,提高特定數據列的分類統計和排序的速度。
異步檢索:支持異步檢索模式,適應大開發(高連接數)的應用場景要求,避免了同步檢索模式時消耗太多線程資源的問題。
多層次、多粒度的分布式CACHE:該系統具有單節點的檢索緩存和合并后的整體檢索緩存,可以大大提高緩存命中率,減輕高并發下的檢索節點壓力,從而大幅度提高系統在高并發情況下的數據檢索能力。
可擴展的檢索模式:同根詞檢索、算法和詞典結合的英文詞根檢索,準確率達到99.9%。同時,支持基于同義詞、主題詞的擴展檢索。
兼容Hadoop標準:TRSHyBase和Haboop無縫集成,可以充分利用HDFS的可靠性,承擔圖像、音視頻等大對象的存儲。
(2)互聯網信息采集:海量互聯網數據實時監測,數據范圍涵蓋新聞、紙媒、論壇、博客、微博、微信、APP、搜索引擎等。輿情信息傳播渠道跟蹤,溯源和輿情導控指揮三大功能為一體的輿情監控分析平臺。最終形成和生產出具有鮮明特色的輿情監測常規產品,包括各行業的日、月、年度報告。
(3)互聯網信息智能處理:針對不同類型的輿情內容,Hybase大數據管理系統利用先進的統計技術和智能文本分析挖掘技術實現數據過濾。該系統具有多語種識別和自動轉碼、自動分詞、自動分類、自動聚類、自動熱點發現、相似檢索、文章排重、自動摘要、重點信息抽取等功能,可以根據實際工作需要,為輿情監控平臺各項功能進行基礎數據加工。
(4)全文檢索功能:該系統可以按來源、時間、境內、信息源等多種分類檢索,提供智能分析的信息檢索服務。同時,不同用戶,根據其權限檢索相關的內容。如可對正文、標題、時間、作者、網站等進行高級檢索,檢索響應速度平均不超過5秒。此外,系統對用戶可設置權限進行相關內容的檢索。
(5)互聯網信息分析應用:系統實現對重點信息的預警提醒,重點事件的趨勢分析、網站分析、人物分析、熱點分析,及自動生成輿情報告功能。權限上提供了完善用戶和權限管理機制,充分保證情報信息內容的安全性。用戶分組、分類,權限分級。系統支持按照分類進行權限控制,可控制用戶也可控制角色,提供系統數據的安全性及應用性。提供多用戶登錄功能,對用戶功能權限、關鍵詞、欄目、專題、信息提供層級化管理設定。對文章進行管理,如置頂、收藏、隱藏、錄入、編輯、審核,能對網頁痕跡進行證據保留,并且利用探針功能發現原文連接是否有效。系統提供完整詳細的日志,根據日志能夠獲得用戶的登錄和管理情況;日志能夠根據條件進行查詢,實現系統操作日志的詳細記錄及各部門、各用戶的應用統計信息,方便審計管理員進行應用審計。
網絡系統逐漸復雜化,這是技術應用與發展的趨勢,隨著數據量的持續增長,信息正在實現由TB級到PB級的跨越式前進,使數據分析的緯度指標變得更加廣泛。[6]針對本項目研發的大數據管理系統,一方面可以實現結構化數據、半結構化數據、非結構化數據的統一管理和檢索;另一方面,還順應了“非結構化數據的結構化處理、結構化數據的非結構化處理”的技術趨勢。
2.2.1 信息采集技術
本項目在采集方面的關注重點是搜索引擎技術很少涉及的深層次采集技術(面向DeepWeb)。網絡應用技術快速發展,網絡信息呈現出一定的“異構”特點。隨著互聯網社區化的發展、Web2.0的崛起,以HTTP為網絡傳輸協議,以HTML為展示格式的網絡信息已不能適應發展所需,網頁所蘊含的內容正發生著深刻的變化。原來以網站/網頁內容為主導的互聯網,逐漸演變為網站、微博、微信、論壇(社區)、博客等信息共存的局面。微博、微信、論壇、博客等平臺上蘊含著大量的信息,已然成為互聯網上信息的重要來源,而且對行業搜索引擎建設來說,這些平臺上的信息比普通網站上的信息具有更重要的使用價值。
系統不僅對數據進行智能分析及挖掘,還需在此基礎上充分利用數據智能分析技術獲取的知識標簽,對知識進行融合、加工,進而構建知識圖譜,使用戶能夠像使用百科全書一樣查詢、瀏覽知識詞條,以及具備廣泛關聯關系的知識圖譜。系統需充分利用文本挖掘獲取的元數據內容創建“故事流”式的服務,為新聞生產提供智能輔助。系統需從正負面信息、關注程度、傳播速度等方面對傳播內容進行傳播分析,獲取傳播效果,為報社智能決策奠定基礎。
綜上所述,輿情監測系統具備承上啟下、兼容并包的作用,既可以滿足系統建設的功能需求,又能盤活新增的海量數據資產,實現數據的增值及再利用,為報社的新聞發現和智能創作支撐,進而促進媒體融合發展,切實貫徹落實習近平總書記在黨的新聞輿論工作座談會上的重要講話精神。
2.2.2 與當前國內外同類研究、同類技術的綜合比較
分布式大數據管理系統:實現海量數據的組織和管理需要一個可擴展的存儲和處理框架。目前,采用廉價計算機的極具擴展性的分布式云計算環境不僅引起了商業巨頭IBM、EMC、微軟等公司的重視,而且在Google、Amazon、Yahoo等公司已經取得成功。云計算環境一般包括可擴展的文件系統、并發處理的操作原語和可靠的數據存儲。由于對海量數據的管理需要采用全新的計算模式和存儲模式,因此,業界如Google、Yahoo、微軟和IBM等企業和科研機構充分利用底層云計算環境所提供的數據存儲和并發處理的功能實現海量數據的存儲和管理。
分布式計算環境的發展為海量數據提供了存儲和處理基礎。各大公司開始構建分布式計算環境的基于SOA的海量數據集成系統。從目前進展情況看,存在的主要問題包括:目前的非結構化數據中的元數據可能包括錨文字、日期等通用元數據,或者用戶手工輸入的信息,尚未有效集成信息提取和非結構化數據管理;分布式計算模型能夠方便應用關鍵字查詢,但是對數據條件查詢并沒有很好的優化,數據查詢處理的效率有待提高;海量非結構化數據系統的Pay-as-you-go的方式需要進一步支持,包括底層存儲對不同屬性合并、分解、優化存儲等。
2.2.3 智能文本處理技術
國外開展文本挖掘和信息抽取等研究比較早,研究機構眾多,比較著名的有:卡內基梅隆大學、馬里蘭大學、加州大學伯克利分校、IBM公司等。國內從80年代開始文本挖掘和信息抽取等研究,從事該領域研究的主要機構有:北京大學、清華大學、哈工大、中科院計算所、微軟亞洲研究院等。我國對這方面的研究非常重視,國家863計劃等多次組織了對分詞、分類、摘要、關鍵詞標引、信息抽取、褒貶分析等文本智能技術的專門評測,這些評測的舉行極大地推動了國內的相關技術發展。
針對本項目研發的智能文本處理系統,利用先進的統計技術和智能文本分析挖掘技術針對不同類型的輿情實現數據內容過濾,多語種識別和自動轉碼、自動分詞、自動分類、自動聚類、自動熱點發現、相似檢索、文章排重、自動摘要、重點信息抽取等功能,為輿情監控平臺各項功能進行基礎數據加工。
網絡已經成為我國信息傳遞的主要方式,因此對網絡環境必須十分重視,只有維護好網絡環境才能夠真正發揮網絡的作用,更好地為用戶帶來便利,同時也對經濟的發展和文化的發展帶來積極的影響。[7]本項目是全面貫徹落實習近平總書記在黨的新聞輿論工作座談會上重要講話精神的重要組成部分,是將大數據技術的研究成果應用于媒體轉型實踐的重要步驟,具有重要的社會效益。
本項目緊緊圍繞習近平總書記重要講話精神,堅持正確的政治方向和輿論導向,緊抓信息化發展的歷史機遇,加速信息領域核心技術突破進程,維護網絡社會安全,營造風清氣正的網絡空間,充分發揮信息技術對經濟社會發展的引領作用。
網絡輿情可以了解社情民意,對網絡民意的有效數據進行科學篩選、量化統計和分析,并根據實踐經驗,緊密結合歷史發展和中國國情進行研判,對傾向性和苗頭性問題有超前預測作用。[8]通過本項目的建設,可以加強對網絡輿論態勢的把握,做好輿情收集和綜合研判,為中央決策提供參考;還可以搭建政府與群眾間的“綠色通道”,不斷提高輿論引導的有效性,嚴防有害信息及言論的擴散,牢牢把握輿論引導的主動權,為我國改革開放和現代化建設營造良好的輿論氛圍。
本項目在技術上、功能上和服務上實現全面創新,這必將推動我國大數據產業實現自主技術創新,從而推動我國互聯網行業更加健康快速地發展。本項目的建設,對國家信息安全和文化安全、對于抵御西方文化霸權、爭奪信息輿論話語權、引導社情民意,具有重大意義。