于茜 大連科技學(xué)院 數(shù)字技術(shù)學(xué)院
隨著互聯(lián)網(wǎng)的快速發(fā)展和普及應(yīng)用,網(wǎng)絡(luò)輿情成為現(xiàn)階段主要的輿情方式。隨著我國(guó)網(wǎng)民數(shù)量的激增和移動(dòng)智能設(shè)備的普及,社交網(wǎng)絡(luò)等新媒體工具逐漸滲透到人們的生活當(dāng)中。近年來,突發(fā)公共安全事件在網(wǎng)上傳播的速度越來越快,人們對(duì)突發(fā)公共安全事件的關(guān)注度越來越高,但網(wǎng)絡(luò)輿情經(jīng)過有特殊目的的過分渲染將會(huì)變成有害的輿論,并且傳播迅速聲勢(shì)浩大,危害社會(huì)公共安全。近年來我國(guó)各類突發(fā)公共安全事件頻繁發(fā)生,給人民生命財(cái)產(chǎn)和經(jīng)濟(jì)社會(huì)發(fā)展造成了重大損失,快速收集網(wǎng)絡(luò)輿情信息,提高當(dāng)前大數(shù)據(jù)環(huán)境下突發(fā)公共安全事件輿情信息的分析能力,及時(shí)準(zhǔn)確地掌握輿情動(dòng)態(tài),主動(dòng)預(yù)警,政府積極引導(dǎo)社會(huì)輿論,跟蹤事態(tài)變化,及時(shí)向有關(guān)部門通報(bào),是網(wǎng)絡(luò)這一新興媒體所面臨的嚴(yán)肅課題與嚴(yán)峻挑戰(zhàn)。
近年來學(xué)者將模擬仿真、數(shù)據(jù)挖掘、文本挖掘等技術(shù)引入至網(wǎng)絡(luò)輿情分析研究中。目前比較成熟的技術(shù)有:文本采集、文本分類、文本聚類、信息抽取、話題監(jiān)測(cè)、情感分析和數(shù)據(jù)挖掘等[1],以上技術(shù)和方法適用于傳統(tǒng)環(huán)境下的網(wǎng)絡(luò)輿情數(shù)據(jù)分析,在大數(shù)據(jù)環(huán)境下這些技術(shù)、方法適用性較差。在大數(shù)據(jù)分析方面,深度學(xué)習(xí)和知識(shí)計(jì)算研究已初見成效,代表性的知識(shí)庫或應(yīng)用系統(tǒng)有KnowItAll[2],TextRunner[3],NELL[4],Probase 等[5],但目前尚未有成熟的突發(fā)公共安全事件知識(shí)庫和網(wǎng)絡(luò)輿情分析方法。綜上所述,當(dāng)前突發(fā)公共安全事件網(wǎng)絡(luò)輿情研究存在四個(gè)問題:(1)沒有針對(duì)突發(fā)公共安全事件的網(wǎng)絡(luò)輿情分析方法;(2)沒有針對(duì)突發(fā)公共安全事件的網(wǎng)絡(luò)輿情預(yù)警系統(tǒng);(3)原有的網(wǎng)絡(luò)輿情數(shù)據(jù)分析方法無法處理大數(shù)據(jù)環(huán)境下的海量數(shù)據(jù);(4)缺少大數(shù)據(jù)環(huán)境下的突發(fā)公共安全事件網(wǎng)絡(luò)輿情知識(shí)庫,不能支持相關(guān)數(shù)據(jù)分析。
本文在現(xiàn)有大數(shù)據(jù)分析模型Map/Reduce、Web 服務(wù)技術(shù)、突發(fā)公共安全事件網(wǎng)絡(luò)輿情預(yù)警機(jī)制等研究基礎(chǔ)上,以突發(fā)公共安全事件概念、網(wǎng)絡(luò)輿情數(shù)據(jù)特征為主要依據(jù),首先基于Map/Reduce 計(jì)算突發(fā)公共安全事件網(wǎng)絡(luò)輿情數(shù)據(jù)特征及特征值列表,并封裝成Web 服務(wù),然后基于已有突發(fā)公共安全事件實(shí)例采用手動(dòng)構(gòu)建突發(fā)公共安全事件知識(shí)庫,并基于線性鏈條件隨機(jī)場(chǎng)(lined conditional random field,LCRF)模型對(duì)知識(shí)庫中已有突發(fā)公共安全事件知識(shí)進(jìn)行訓(xùn)練,得到最好的模型應(yīng)用于突發(fā)公共安全事件網(wǎng)絡(luò)輿情數(shù)據(jù)分析,將新學(xué)習(xí)到的突發(fā)公共安全事件知識(shí)更新到知識(shí)庫,采用此種半監(jiān)督方法構(gòu)建知識(shí)庫,最后基于Web 服務(wù)技術(shù)實(shí)現(xiàn)智能預(yù)警,實(shí)現(xiàn)大數(shù)據(jù)環(huán)境下突發(fā)公共安全事件網(wǎng)絡(luò)輿情預(yù)警系統(tǒng)。
數(shù)據(jù)分析是大數(shù)據(jù)環(huán)境下的突發(fā)公共安全事件網(wǎng)絡(luò)輿情預(yù)警系統(tǒng)的關(guān)鍵技術(shù)。以往的網(wǎng)絡(luò)輿情數(shù)據(jù)分析多采用數(shù)據(jù)挖掘或基于隱馬爾可夫模型的文本語義識(shí)別技術(shù),近年來發(fā)現(xiàn)條件隨機(jī)場(chǎng)(conditional random field,CRF)模型在識(shí)別方面上效果更好,由于突發(fā)公共安全事件網(wǎng)絡(luò)輿情發(fā)展過程有嚴(yán)謹(jǐn)?shù)南群箨P(guān)系,可抽象為線性關(guān)系,即后續(xù)發(fā)展?fàn)顟B(tài)依賴于前續(xù)事件狀態(tài),所以本文將線性鏈條件隨機(jī)場(chǎng)(LCRF)模型引入網(wǎng)絡(luò)輿情數(shù)據(jù)分析。
LCRF 的訓(xùn)練過程就是要得到最優(yōu)的轉(zhuǎn)移特征和狀態(tài)特征,將突發(fā)公共安全事件知識(shí)庫中的知識(shí)作為模型輸入,事件對(duì)象是狀態(tài)序列,對(duì)象特征是觀測(cè)序列,每一個(gè)對(duì)象特征值就是觀測(cè)序列的觀測(cè)值,通過LCRF 模型訓(xùn)練得到最優(yōu)的轉(zhuǎn)移特征和狀態(tài)特征,即得到最優(yōu)的模型。然后將捕獲的網(wǎng)絡(luò)輿情實(shí)時(shí)數(shù)據(jù)通過Map/Reduce模型計(jì)算得到特征和特征值,輸入LCRF 模型進(jìn)行學(xué)習(xí),識(shí)別出新的突發(fā)公共安全事件。
本文對(duì)大數(shù)據(jù)環(huán)境下的突發(fā)公共安全事件網(wǎng)絡(luò)輿情預(yù)警系統(tǒng)進(jìn)行了研究,提出了一個(gè)由數(shù)據(jù)特征及特征值提取、網(wǎng)絡(luò)輿情數(shù)據(jù)分析、突發(fā)公共安全事件知識(shí)庫三層構(gòu)成的預(yù)警系統(tǒng)體系,并對(duì)基于LCRF 的網(wǎng)絡(luò)輿情數(shù)據(jù)分析技術(shù)的使用進(jìn)行了闡述,從而解決了目前大數(shù)據(jù)環(huán)境下的突發(fā)公共安全事件網(wǎng)絡(luò)輿情預(yù)警系統(tǒng)研究中的關(guān)鍵技術(shù)問題。