于茜 大連科技學院 數字技術學院
國務院《國家突發公共事件總體應急預案》和國家科技部《國家“十二五”科學和技術發展規劃》中指出當前我國社會公共安全體系建設過程中迫切需要發展社會公共安全應急管控與指揮技術,重點突破應急指揮與處置、輿情監控和預測、圖像處理等關鍵技術,提升社會公共安全的信息預警、應急處置、社會管控能力和水平。
當前大數據環境下突發公共安全事件網絡輿情研究中亟待解決的問題有:(1)缺少針對突發公共安全事件網絡輿情的有效分析方法;(2)缺少大數據環境下的突發公共安全事件網絡輿情知識庫。本文研究的大數據環境下突發公共安全事件網絡輿情預警系統關鍵技術將解決網絡輿情數據特征提取、網絡輿情知識庫構建等問題。
Map/Reduce是面向大數據分析和處理的并行計算模型,是實現大數據背景下突發公共安全事件網絡輿情分析的工具。本文通過網絡爬蟲等軟件獲得與突發公共安全事件相關的網頁信息,將網址和網頁內容作為Map函數參數傳遞進去,計算得到中間鍵值對<突發公共安全事件詞匯,所在網頁段落文字>,再以該中間鍵值對為輸入,使用Reduce函數計算得到該詞匯的特征及特征值。通過Map和Reduce函數的定義使得網絡輿情中雜亂無章的數據得到有效整理,得到含有突發公共安全事件特征及特征值列表的有效數據。
Map/Reduce從網絡輿情數據中抽取出的突發公共安全事件數據特征及特征值列表封裝成Web服務的形式發布服務器上進行下一步分析。下面給出Web服務定義及Web服務約減算法。
(1)Web服務定義
服務由若干輸入構成,輸入是數據特征及特征值列表類型序對。具體定義如下:

(2)Web服務約減算法
由于網絡輿情中數據量過大,產生的服務過多,冗余也較多,影響計算速度,所以在正是計算之前先進行服務約減。基本算法如下:
for i=1 to n do
for j=1 to n do
delete sjfrom S.
end
買車、全家海外旅行,這些大宗消費可能一下子就花掉家庭幾個月的收入,在相關的規劃上要審慎。新婚夫妻最容易出現的就是被甜蜜沖昏頭腦,想到就做,結果在真正需要用錢的時候卻陷入困境。針對家庭的大宗消費,不妨多溝通多商量,看看是否真正需要再作決定。
siand sjkeep only one.
end
end
end
按照上述方法得到的服務隊列是最簡化的服務隊列。
當前各領域成型知識庫已有50多種,但在突發公共安全事件領域還未構建出知識庫,由于突發公共安全事件具有其獨特的特性,與其他領域知識概念完全不同,所以該領域的知識庫需要單獨構建。本文采用手工構建和半監督自動構建相結合的方法構建突發公共安全事件知識庫。
(1)建立突發公共安全事件概念模型
構建突發公共安全事件概念模型的幾個基本構成要素,包括抽取概念、實例、特征和關系。突發公共安全事件概念模型:,是突發公共安全事件對象集合;
(2)手工構建突發公共安全事件知識庫技術
依據已有突發公共安全事件網絡輿情數據,通過Map/Reduce模型計算得到網絡輿情數據的特征和特征值,依據突發公共安全事件概念模型得到知識,添加到知識庫,完成手工構建知識庫。
(3)基于LCRF的半監督知識庫構建技術
將捕獲的網絡輿情實時數據通過Map/Reduce模型計算得到特征和特征值,輸入LCRF(lined conditional random field,LCRF)模型進行學習,識別出來的是新的突發公共安全事件需要進行預警,同時加入知識庫,否則繼續監控。由于LCRF模型訓練時需要標注好的數據,而學習過程使用非標注數據所以屬于半監督學習過程。

break;
next
next
本文提出了基于Map/Reduce的網絡輿情數據特征及特征值提取方法用于從海量網絡數據中提取網絡輿情數據及其特征,提出基于Web服務的突發公共安全事件數據封裝技術用于封裝數據并進行約減從而減少計算量,提出大數據環境下手工和半監督相結合的突發公共安全事件知識庫構建技術構建專門的突發公共安全事件知識庫,彌補這方面的空白。以上關鍵技術能夠解決當前突發公共安全事件網絡輿情研究中亟待解決的缺少分析方法、缺少知識庫等問題,為后續網絡輿情分析奠定基礎。