周天墨 陳佳林 諸云強
1(中國科學(xué)院地理科學(xué)與資源研究所 北京 100101) 2(中國科學(xué)院大學(xué) 北京 100049) 3(應(yīng)急管理部信息研究院 北京 100029)
信息技術(shù)的快速提升在為人們帶來便利的同時,也帶來了事故和災(zāi)害負(fù)面輿情來源廣且不確定性強[1-2]、蔓延廣且傳播快[3-4]、數(shù)據(jù)量大且表述隨意性強不易甄別[5]等問題,為輿情管理工作帶來前所未有的挑戰(zhàn)。因此,如何從海量信息中快速獲取與處理事件信息是亟需優(yōu)化與解決的問題。
基于前人的研究可知:從系統(tǒng)角度[4,6-7],傳統(tǒng)輿情監(jiān)控系統(tǒng)主要依賴于工作站或服務(wù)器集群,受可擴展性差、單點通信故障等問題的約束,已不能很好地滿足信息快速捕獲與甄別的要求。從數(shù)據(jù)量角度[8-9]來看,隨著人們對于互聯(lián)網(wǎng)與移動終端依賴性的增加,網(wǎng)絡(luò)信息量每日均呈幾何級增長,不僅增加了輿情信息的檢索范圍與挖掘難度,也對海量數(shù)據(jù)的高效分類與處理能力提出了新的要求。從使用習(xí)慣角度[10-11]來看,企業(yè)微信因其針對工作場景的平臺架構(gòu)與模塊設(shè)置,已成為協(xié)同辦公的主要方式之一,因此實現(xiàn)與企業(yè)微信的信息互通,也是當(dāng)前輿情系統(tǒng)在研發(fā)過程中需要重點關(guān)注的內(nèi)容。
本文采用Hadoop分布式框架設(shè)計研發(fā)事故和災(zāi)害網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng),實現(xiàn)自然災(zāi)害、事故災(zāi)難、社會公共安全等領(lǐng)域網(wǎng)絡(luò)輿情信息的實時監(jiān)控、及時搜集、有效甄別、快速預(yù)警、果斷處理與動態(tài)分析。通過試運行,系統(tǒng)可準(zhǔn)確快速地采集與甄別輿情信息,并自動生成熱點事件分析報告,對第一時間獲取突發(fā)事件信息、掌握事態(tài)進展、了解網(wǎng)友情緒動態(tài)、引導(dǎo)正確輿論導(dǎo)向等具有重要意義,可為實際工作提供有力支持。
本文系統(tǒng)基于Hadoop框架展開研發(fā),旨在解決多渠道網(wǎng)絡(luò)輿情信息獲取、快速篩選甄別、按權(quán)限分時自動推送、各層級用戶之間上傳下達(dá)、輿情動態(tài)分析等問題的基礎(chǔ)上,構(gòu)建面向應(yīng)急管理的事故和災(zāi)害網(wǎng)絡(luò)輿情監(jiān)測與管理系統(tǒng)。著重解決自然災(zāi)害、事故災(zāi)難、社會公共安全等多領(lǐng)域事故與災(zāi)害信息在網(wǎng)絡(luò)媒介中傳播時的實時挖掘與跟蹤。系統(tǒng)與實際業(yè)務(wù)關(guān)聯(lián),不同層級用戶可按照要求上報本地事故和災(zāi)害信息或反饋由上級主管部門下發(fā)的輿情信息。通過系統(tǒng)的使用與推廣,依據(jù)指定關(guān)鍵詞、高發(fā)時段、高頻信息發(fā)布者管理、輿情傳播途徑與周期等特征,逐步優(yōu)化系統(tǒng)檢索與甄別模式,實現(xiàn)指定領(lǐng)域事故和災(zāi)害網(wǎng)絡(luò)輿情信息的快速發(fā)現(xiàn)與推送。為進一步提升用戶信息接收與瀏覽的便捷性與使用感,系統(tǒng)與企業(yè)微信關(guān)聯(lián),并依據(jù)用戶權(quán)限進行操作,實現(xiàn)省、市、區(qū)三級用戶一體化應(yīng)急管理。
通過前人的研究可知[7,12],新浪微博因其具有公開化轉(zhuǎn)發(fā)、評論、點贊,曝光量大,易引發(fā)熱議的特點,是很多熱點評論人與爆料愛好者的首選。但隨著微信的普及與深化,微信平臺逐步成為各類事故和災(zāi)害零延遲展現(xiàn)與移動評論的新場所[11]。此外,百度貼吧、抖音、今日頭條等社交平臺也是當(dāng)前輿情信息集中出現(xiàn)的媒介。因此,為提升系統(tǒng)檢索效率與信息提取精度,本文系統(tǒng)的研發(fā)采用“指定網(wǎng)站、逐步完善”的模式,以上述媒介為核心數(shù)據(jù)源,并依據(jù)實際使用情況逐步添加輿情信息高發(fā)的網(wǎng)站及論壇,共同組成系統(tǒng)數(shù)據(jù)源。
依據(jù)應(yīng)急管理工作范圍,結(jié)合日常接警數(shù)據(jù),確定系統(tǒng)檢索范圍為火災(zāi)(城市火災(zāi)和森林火災(zāi))、交通事故、洪澇、地震、地質(zhì)災(zāi)害(山體滑坡和泥石流)等領(lǐng)域,子類別按照高發(fā)以及社會影響大、損失傷亡重的類別進一步細(xì)化。由于多類事故會伴隨爆炸、濃煙等現(xiàn)象,故系統(tǒng)針對爆炸類網(wǎng)絡(luò)信息進行專題抓取。此外,添加政務(wù)類檢索主題,包含違規(guī)曝照、消防通道占用、作風(fēng)規(guī)范等方面。
在明確檢索范圍后,基于Hadoop框架展開研發(fā),技術(shù)路線如圖1所示。采用API調(diào)用與網(wǎng)頁解析的方式,從新浪微博、今日頭條、微信公眾號、百度貼吧、主流媒體網(wǎng)站及重點關(guān)注站點等網(wǎng)絡(luò)媒介獲取原始數(shù)據(jù)。對于提供API接口的平臺服務(wù)商,通過API調(diào)用獲取JSON數(shù)據(jù)并存入HBase庫,未提供的則通過基于HTML的爬蟲技術(shù)抓取數(shù)據(jù)。

圖1 技術(shù)路線
獲取的數(shù)據(jù)經(jīng)清洗過濾等預(yù)處理,去除錯誤、重復(fù)或不一致的數(shù)據(jù)后存儲于分布式文件系統(tǒng)HDFS。然后利用MapReduce作為編程模型,使用K-means算法等實現(xiàn)輿情信息的快速分類,既滿足網(wǎng)絡(luò)數(shù)據(jù)實時檢索甄別、分布式管理與高效傳輸?shù)男枨螅謱崿F(xiàn)了對海量輿情信息高效存儲與挖掘分析的要求。
最后,按照用戶權(quán)限通過命令行交互實現(xiàn)系統(tǒng)可視化管理與操作,并通過API接口與模塊相關(guān)聯(lián)。包括輿情監(jiān)測、輿情處理、統(tǒng)計分析、企業(yè)微信管理等功能。
由于K-means方法具有相似簇間距離小、不同簇間距離大的特點,常被用于文本聚類,但同時具有聚類準(zhǔn)確性受初始聚類數(shù)K值影響的缺點[13],故本文采用基于高頻詞的K-means方法[14-15],既優(yōu)化了初始聚類數(shù)的選擇,也避免了高維空間向量的處理問題。
基于獲取的文本集T={T1,T2,…,Tn},計算文本T1中各分詞的TF-IFD值,選取排名前5的分詞作為T1的關(guān)鍵詞。以此類推獲得每個文本的關(guān)鍵詞,排序后選取前k個形成文本集T的關(guān)鍵詞集W={W1,W2,…,Wk}。將詞集中的關(guān)鍵詞分別作為初始簇的聚類中心,逐個計算剩余樣本到聚類中心的距離,并將樣本賦給最近的簇。然后重新計算每個簇的平均值,不斷重復(fù)直到相鄰兩次調(diào)整沒有明顯變化,說明算法已收斂。其中,k值為每日動態(tài)變化的。通過前期工作積累可知,一般情況下每日事故和災(zāi)害起數(shù)的波動范圍較為穩(wěn)定,因此采用從系統(tǒng)運行第一日起至運行當(dāng)日0時前,所有經(jīng)確認(rèn)的事件總量的平均值為當(dāng)日輿情系統(tǒng)文本聚類的初始簇數(shù)量k。
本文基于MapReduce實現(xiàn)K-means聚類算法,即首先利用map函數(shù)計算每個樣本點與簇中心的距離,將其對應(yīng)到最近的簇,并以
(1)Map部分如下:

輸入

部分代碼for(int i=1;i
(2)Reduce部分如下:

輸入
事件與災(zāi)害網(wǎng)絡(luò)輿情監(jiān)管系統(tǒng)包括輿情監(jiān)測、輿情處理、統(tǒng)計分析、企業(yè)微信管理等四個模塊(如圖2所示),可實現(xiàn)輿情信息的自動監(jiān)測、熱點獲取、自主上報、反饋處置、綜合分析等功能性服務(wù),以及信息檢索、列表導(dǎo)出、系統(tǒng)管理等輔助性服務(wù)。為簡化操作流程,以用戶易理解性與易用性為導(dǎo)向,對輿情監(jiān)測與輿情處置模塊的展示頁面進行合并,將系統(tǒng)入庫的全部網(wǎng)絡(luò)輿情信息按照時間順序統(tǒng)一展示在輿情列表中,通過加注標(biāo)簽、按鈕及已讀信息顏色變化、彈框提示等方式明確表示輿情處置狀態(tài)與可進行的操作。

圖2 功能體系
(1)日常監(jiān)測。基于預(yù)設(shè)的關(guān)鍵詞對指定網(wǎng)站開展爬蟲,并將規(guī)范化的數(shù)據(jù)按照類別、地域、標(biāo)題、摘要、敏感度、傾向性、處置狀態(tài)、來源的形式進行展示。系統(tǒng)自動判斷與其匹配的地址標(biāo)簽,并按照權(quán)限自動推送至相應(yīng)省、市、區(qū)等不同層級的用戶界面中,實現(xiàn)輿情信息的實時推送與預(yù)警。
(2)熱點分析。因日常監(jiān)測范圍為特定領(lǐng)域事故和災(zāi)害信息的實時監(jiān)測,故通過熱點分析模塊對話題進行識別與展示。采用K-means算法[2,11,16]將同一事件網(wǎng)絡(luò)信息匯總合并,熱點話題形成后,進入話題集的輿情信息不再重復(fù)推送,按時間順序依次排列在該話題的輿情列表中。
(3)自主上報。因自動監(jiān)測和熱點分析均為面向指定媒介事故和災(zāi)害網(wǎng)絡(luò)輿情識別與監(jiān)測,為保證分散信息或非主流傳播途徑發(fā)布的輿情信息不被遺漏,平臺提供自主上報功能。各層級用戶均可通過該模塊錄入系統(tǒng)尚未發(fā)現(xiàn)的事故和災(zāi)害信息,經(jīng)本級管理員審核后發(fā)布并按照報送流程推送至上級用戶界面。發(fā)布成功后,若系統(tǒng)后續(xù)再次監(jiān)測到該事件則自動歸類,不再單獨提醒與推送。
基于本功能可實現(xiàn)輿情信息的上傳下達(dá)、多級聯(lián)動與協(xié)同處置的目的。系統(tǒng)提供信息報送接口,上級單位可針對某一事件下達(dá)指導(dǎo)要求,下級部門逐一填報相應(yīng)輿情信息現(xiàn)場或網(wǎng)絡(luò)核實與處置情況。若在規(guī)定時間內(nèi),事件當(dāng)前主管層級未做出實質(zhì)性響應(yīng)或反饋,系統(tǒng)可通過高亮閃爍、語音提醒、彈窗等方式進行提示,同時按照報送流程上報至上級單位,以提高協(xié)同應(yīng)對效率。
(1)常規(guī)分析為系統(tǒng)自帶模板,依據(jù)用戶權(quán)限按照時間維度(周、月、季度、年)對指定區(qū)域在規(guī)定時間內(nèi),系統(tǒng)輿情監(jiān)測與管理的整體情況自動生成圖表形式的統(tǒng)計報告。基于報告,用戶可直觀獲取目標(biāo)區(qū)域在指定時間區(qū)間內(nèi),各類事故和災(zāi)害輿情基本情況、時間特征、傳播媒介、反饋處理情況、本期重點輿情等,并按照權(quán)限推送至相應(yīng)用戶系統(tǒng)界面中。
(2)專題分析只針對某一熱點或?qū)n}事件,基于系統(tǒng)入庫數(shù)據(jù)及熱點詞出現(xiàn)頻率,通過模型計算后獲取該事件概況信息、隨時間變化的走勢特征、熱度指數(shù)、地域分布、傳播脈絡(luò)、用戶與話題活躍度、話題敏感度與傾向性、情緒分析、事件延伸跟蹤等輿情要素的綜合分析結(jié)果,形成專題分析報告并按權(quán)限推送展示。
(3)定制分析則以大量輿情報告為基礎(chǔ),綜合常規(guī)分析和專題分析框架,用戶可依據(jù)實際需求自行添加要素生成輿情簡報或?qū)I(yè)化報告。
移動辦公已成為當(dāng)前的主流辦公方式之一,故基于企業(yè)微信提供的二次開發(fā)平臺,研發(fā)實時輿情推送功能,以實現(xiàn)增強用戶粘性與信息送達(dá)準(zhǔn)確度、降低部署成本等目的。本次在企業(yè)微信自帶的權(quán)限管理基礎(chǔ)上,按照信息推送層級、瀏覽權(quán)限等要求,進一步細(xì)化系統(tǒng)用戶權(quán)限層級。為更好地保障系統(tǒng)用戶的群組性、減少信息泄露的可能性,新增用戶只能通過定向邀請方式進入系統(tǒng)。用戶加入后,依據(jù)權(quán)限收取以鏈接方式實時推送的監(jiān)測信息。發(fā)送的信息包括標(biāo)題、概要、正文、來源、發(fā)布時間、相關(guān)圖片影像資料等,可實現(xiàn)網(wǎng)絡(luò)輿情信息的及時瀏覽。
輔助性功能包括查詢、導(dǎo)出、系統(tǒng)管理等功能。為便于用戶快速查找感興趣的輿情信息,在輿情列表中提供多重檢索功能。用戶可設(shè)置一個或多個檢索條件,按照時間、地點、關(guān)鍵詞、敏感度、傾向性、處理狀態(tài)等進行復(fù)合查詢。針對用戶篩選后的輿情信息、統(tǒng)計分析結(jié)果、系統(tǒng)日志情況等,提供列表導(dǎo)出功能。系統(tǒng)管理主要對用戶權(quán)限、操作日志、個性化設(shè)置等提供需求提供支持。
系統(tǒng)已完成開發(fā),試運行期間共抓取火災(zāi)(城市火災(zāi)和森林火災(zāi))、交通事故、洪澇、地震、地質(zhì)災(zāi)害(山體滑坡和泥石流)、爆炸、政務(wù)類等事故與災(zāi)害信息95萬余條。通過數(shù)據(jù)預(yù)處理后,符合既定類別、滿足篩選條件且地址匹配正確的數(shù)據(jù)約83萬余條,在此基礎(chǔ)上經(jīng)文本聚類分析,最終獲取事故與災(zāi)害15 974起。
通過人工優(yōu)化及系統(tǒng)自學(xué)習(xí),每日事故和災(zāi)害網(wǎng)絡(luò)輿情信息的抓取與分類準(zhǔn)確度不斷提升,基本符合實際事發(fā)數(shù)量。以2018年10月任意一天數(shù)據(jù)為例:初始簇個數(shù)k通過計算設(shè)定為89。參考前人研究[17],采用錯誤率MR評測文本聚類的效果,指標(biāo)定義為:
當(dāng)日系統(tǒng)自動獲取并篩選有效輿情信息4 523條,經(jīng)過系統(tǒng)聚類分析,形成輿情事故共89起。另有5起事件(共5條)為非設(shè)定檢索范圍獲取的輿情信息,通過人工錄入方式加入系統(tǒng)。
因此,當(dāng)日系統(tǒng)內(nèi)有效輿情信息合計4 528條,經(jīng)核對分類錯誤501條,錯誤率11.06%。造成這一情況的主要原因為部分輿情信息事發(fā)地點相同且關(guān)鍵詞相似度高。部分話題聚類評價結(jié)果如表1所示。

表1 部分輿情信息話題聚類結(jié)果
(1)系統(tǒng)基于Hadoop框架進行研發(fā),在保證海量多源數(shù)據(jù)處理效率的同時,保障了數(shù)據(jù)檢索的時效性與準(zhǔn)確性,并通過對話題進行挖掘與分析,獲取輿情信息的敏感性與傾向性,為掌握該事故和災(zāi)害網(wǎng)絡(luò)輿情動態(tài)提供支持。
(2)依據(jù)應(yīng)急工作范圍,通過分析日常接警信息,確定系統(tǒng)檢索范圍,有針對性地對通過網(wǎng)絡(luò)途徑發(fā)布的事故和災(zāi)害數(shù)據(jù)、持續(xù)熱點事件的動態(tài)進行辨析、歸類。
(3)通過對網(wǎng)絡(luò)媒介中輿情信息的自動檢索與甄別,發(fā)現(xiàn)最新事故信息、抽取熱點事件,值守人員可第一時間獲取“原生態(tài)”網(wǎng)絡(luò)輿情信息并跟蹤進展,有助于對異常增長的話題或事件信息,提前預(yù)警并啟動相應(yīng)應(yīng)對措施,減少因信息瞞報、誤報、遲報而導(dǎo)致的被動應(yīng)對狀態(tài)。
(4)區(qū)別于以往的輿情監(jiān)測系統(tǒng),本文系統(tǒng)與實際業(yè)務(wù)相結(jié)合,構(gòu)建省、市、區(qū)三級一體化的輿情監(jiān)測與處置體系,實現(xiàn)以事件為觸發(fā)點、快速聯(lián)通各級應(yīng)急管理人員、多級協(xié)同響應(yīng)的目標(biāo)。采用一張表的展示形式,將與同一事件相關(guān)的輿情信息、現(xiàn)場核查情況、處置意見與狀態(tài)等情況綜合展示,實現(xiàn)不同層級用戶進入系統(tǒng)均可快速了解輿情狀態(tài)與處置情況。
(5)因系統(tǒng)會依據(jù)關(guān)鍵詞所屬的事故和災(zāi)害類別,對檢索入庫的輿情信息進行自動標(biāo)注與分類,故利用其統(tǒng)計分析功能,可獲得指定周期內(nèi)各地區(qū)高發(fā)事故與災(zāi)害的類型、數(shù)量變化等特征,為事故與災(zāi)害的防范與預(yù)警提供參考。