李陽(yáng)陽(yáng),王亞珅,金 昊
(中國(guó)電子科技集團(tuán)公司電子科學(xué)研究院,北京100041)
輿情,全稱(chēng)“輿論情況”,是指在一定的社會(huì)空間內(nèi),圍繞中介性社會(huì)事件的發(fā)生、發(fā)展和變化,作為主體的民眾對(duì)作為客體的社會(huì)管理者、企業(yè)、個(gè)人及其他各類(lèi)組織及其政治、社會(huì)、道德等方面的取向產(chǎn)生和持有的社會(huì)態(tài)度。簡(jiǎn)而言之,“輿情”一詞是中國(guó)特有的表述,是大多數(shù)民眾對(duì)待某一社會(huì)事件所持的社會(huì)態(tài)度。其中,網(wǎng)絡(luò)輿情是現(xiàn)代信息社會(huì)的一種主要的輿情類(lèi)型。在網(wǎng)絡(luò)環(huán)境下,這類(lèi)輿情信息的主要來(lái)源是各種主流社交媒體諸如微博、論壇和貼吧等,具有自由性、交互性、多元性、偏差性和突發(fā)性等特點(diǎn)[1]。
隨著中國(guó)互聯(lián)網(wǎng)的普及與高速發(fā)展,輿情監(jiān)測(cè)工作已經(jīng)成為政府和企業(yè)工作內(nèi)容中不可或缺的一部分。2006年,黨的十六屆六中全會(huì)通過(guò)的《關(guān)于構(gòu)建社會(huì)主義和諧社會(huì)若干重大問(wèn)題的決定》中明確指出:“堅(jiān)持正確導(dǎo)向,營(yíng)造積極健康的思想輿論氛圍。正確的思想輿論導(dǎo)向是促進(jìn)社會(huì)和諧的重要因素。新聞出版、廣播影視、文學(xué)藝術(shù)、社會(huì)科學(xué),要堅(jiān)持正確導(dǎo)向”。“加強(qiáng)對(duì)互聯(lián)網(wǎng)等的應(yīng)用和管理,理順管理體制,倡導(dǎo)文明辦網(wǎng)、文明上網(wǎng),使各類(lèi)新興媒體成為促進(jìn)社會(huì)和諧的重要陣地。”可見(jiàn)輿情的監(jiān)測(cè)與管理對(duì)于和諧社會(huì)建設(shè)的重要意義,也可以看出,在互聯(lián)網(wǎng)時(shí)代,對(duì)網(wǎng)絡(luò)輿情進(jìn)行監(jiān)測(cè)是政府及時(shí)體察社情民意、準(zhǔn)確把控輿情走向、快速處理突發(fā)事件的必要手段。于企業(yè)而言,第一時(shí)間掌握和了解企業(yè)相關(guān)的負(fù)面熱點(diǎn)信息尤為必要。對(duì)企業(yè)相關(guān)負(fù)面輿情進(jìn)行監(jiān)測(cè),并對(duì)異常情況進(jìn)行預(yù)警,有利于及時(shí)獲取和處理企業(yè)的負(fù)面信息,維護(hù)企業(yè)的健康良好形象。
在現(xiàn)代信息社會(huì),輿情管理存在四個(gè)主要問(wèn)題,分別是缺乏預(yù)警性、缺乏系統(tǒng)機(jī)制、具有嚴(yán)重的滯后性和缺乏影響力。其中提高預(yù)警性是加強(qiáng)輿情監(jiān)管的首要問(wèn)題,也是建立一套輿情監(jiān)測(cè)系統(tǒng)的前提。而提高預(yù)警性的首要任務(wù)是能夠準(zhǔn)確獲取輿情信息,并對(duì)其進(jìn)行分析,進(jìn)而對(duì)輿情民意的趨勢(shì)進(jìn)行研判。在全媒體時(shí)代如何高效及時(shí)準(zhǔn)確地從網(wǎng)絡(luò)上魚(yú)龍混雜的信息中獲取輿情信息,并對(duì)其進(jìn)行解析是一個(gè)不小的挑戰(zhàn)。
輿情是大多數(shù)民眾對(duì)待某一社會(huì)事件所持的社會(huì)態(tài)度,從而可以看出,輿情是社會(huì)事件引發(fā)的。想要準(zhǔn)確的獲取輿情,核心是抓住文本信息中關(guān)鍵的事件以及該事件的觸發(fā)詞。
在目前國(guó)內(nèi)外的研究中,對(duì)輿情的事件觸發(fā)研究并不多。大多數(shù)關(guān)于輿情的研究都停留在對(duì)已出現(xiàn)的輿情的分析和總結(jié)上,即針對(duì)一個(gè)已經(jīng)產(chǎn)生影響的輿情事件,從它的傳播特點(diǎn)和規(guī)模角度出發(fā),去總結(jié)歸納得到輿情的規(guī)律,然而這種思路本身就具有滯后性和過(guò)于泛化的缺點(diǎn)。想要具有預(yù)警性地監(jiān)測(cè)和辨別輿情信息,從輿情事件觸發(fā)詞角度出發(fā),進(jìn)行識(shí)別和解析,是一種全新的思路。
要對(duì)輿情事件的事件觸發(fā)詞進(jìn)行解析,首先需要明確事件的定義,自動(dòng)內(nèi)容抽取(Automatic Content Extraction,ACE)評(píng)測(cè)會(huì)議對(duì)事件[3]的定義為:事件是指發(fā)生了的事情,包含直接引起事件發(fā)生的觸發(fā)詞和事件的參與者。
以人民網(wǎng)輿論版塊上的一條新聞(簡(jiǎn)化版)進(jìn)行說(shuō)明:“六千人員信息泄露引發(fā)社會(huì)關(guān)注”。我們的目標(biāo)是對(duì)上述文本信息中事件觸發(fā)詞進(jìn)行識(shí)別,判斷該文本信息中每個(gè)詞語(yǔ)成為觸發(fā)詞的概率,進(jìn)而對(duì)該事件進(jìn)行抽取,以達(dá)到解析輿情信息的目的。
近年來(lái),在信息識(shí)別抽取的研究領(lǐng)域,對(duì)事件的抽取引發(fā)許多關(guān)注。HAI等提出采用最大熵模型進(jìn)行事件抽取[8];AHN等提出的MAXENT方法使用了MEGAM等分類(lèi)器[9];SAHA則使用支持向量機(jī)分類(lèi)器對(duì)生物醫(yī)學(xué)事件進(jìn)行檢測(cè)[10]。這一類(lèi)方法主要是將事件抽取視作多分類(lèi)問(wèn)題,使用不同的分類(lèi)器進(jìn)行特征的提取,但是其學(xué)習(xí)能力較差,模型難以泛化。GRISHMAN提出基于模式匹配和分類(lèi)器的事件抽取系統(tǒng)ACEJET[11];KIM提出將WORDNET語(yǔ)義數(shù)據(jù)庫(kù)與模式獲取相結(jié)合的方法[12]。這類(lèi)方法主要是基于預(yù)先定義的模式匹配,應(yīng)用范圍相對(duì)比較固定。之后,NGUYEN等[13]和CHEN等[14]提出將卷積神經(jīng)網(wǎng)絡(luò)(CNN)應(yīng)用到事件檢測(cè)和抽取的任務(wù)中,NGUYEN等使用CNN自動(dòng)挖掘隱含特征[13],可以大大降低誤傳率;CHEN等提出了動(dòng)態(tài)多池卷積神經(jīng)網(wǎng)絡(luò)模型(DMCNN)[14],可以同時(shí)對(duì)多個(gè)事件進(jìn)行檢測(cè),并達(dá)到了不錯(cuò)的效果。將事件抽取的方法對(duì)輿情的觸發(fā)詞進(jìn)行研究和解析是從大數(shù)據(jù)時(shí)代海量信息中捕捉輿情信息的一種新型有效的研究思路。本文擬提出一種新的事件檢測(cè)模型,將卷積神經(jīng)網(wǎng)絡(luò)CNN與分類(lèi)器進(jìn)行結(jié)合,從而進(jìn)一步提高事件檢測(cè)的準(zhǔn)確性。
本文主要介紹一種基于卷積神經(jīng)網(wǎng)絡(luò)模型的輿情觸發(fā)詞解析方法,整體流程結(jié)構(gòu)如圖1所示。

圖1 基于卷積神經(jīng)網(wǎng)絡(luò)模型整體流程結(jié)構(gòu)圖
本方法主要包括四個(gè)部分,分別是特征的選取、多卷積融合、最大值池化和觸發(fā)詞分類(lèi)。在選取特征之前,需要對(duì)信息進(jìn)行分詞的預(yù)處理,以便進(jìn)行特征的選取和嵌入。接下來(lái),本文就方法的處理順序以事件“六千人員信息泄露引發(fā)社會(huì)關(guān)注”為例依次介紹說(shuō)明,如圖2所示。

圖2 基于卷積神經(jīng)網(wǎng)絡(luò)模型方法
對(duì)于已經(jīng)預(yù)處理完成的文本信息,M={m1,m2,m3,…,mn}需要在這一步驟進(jìn)行重要特征的提取。本方法中,主要使用以下四種方法依次對(duì)文本信息進(jìn)行處理,擬從四個(gè)維度去盡可能全面而準(zhǔn)確地捕獲輿情事件中觸發(fā)詞的特征。
3.1.1 詞嵌入特征
文本嵌入特征(Word Embedding),是處理文本信息的所有方式中最普遍、應(yīng)用范圍最廣的一種。本方法使用詞嵌入特征下已經(jīng)訓(xùn)練好的GloVe模型對(duì)文本信息進(jìn)行訓(xùn)練,將訓(xùn)練得到的特征作為基本特征。
3.1.2 實(shí)體嵌入特征
現(xiàn)有的研究表明,數(shù)據(jù)庫(kù)中的文本信息往往附帶有人工標(biāo)注的實(shí)體信息。本方法對(duì)所有帶有的人工標(biāo)注的實(shí)體信息進(jìn)行實(shí)體特征嵌入,并在每次訓(xùn)練過(guò)程中對(duì)實(shí)體信息進(jìn)行隨機(jī)初始化和更新,將得到的特征作為本方法中的附加特征。
3.1.3 位置嵌入特征
詞語(yǔ)的位置信息也是捕獲輿情事件觸發(fā)詞的關(guān)鍵所在,可以作為一種語(yǔ)義信息進(jìn)行訓(xùn)練和提取。對(duì)文本的詞語(yǔ)位置進(jìn)行逐一的處理和嵌入,訓(xùn)練完成后得到本方法的位置特征。
3.1.4 詞性嵌入特征
觸發(fā)詞的詞性往往比較固定,通常是動(dòng)詞和動(dòng)名詞。對(duì)文本中詞性的抓取是獲取觸發(fā)詞的重要手段之一。本方法對(duì)句子中的詞語(yǔ)的詞性進(jìn)行標(biāo)注處理和嵌入,訓(xùn)練完成后得到本方法的詞性特征。
經(jīng)過(guò)以上四個(gè)特征嵌入的操作,將分別訓(xùn)練得到的基本特征、附加特征、位置特征和詞性特征進(jìn)行合并,得到一個(gè)四維的向量E∈R4×n。
這一步需要對(duì)已經(jīng)提取好的特征向量進(jìn)行多卷積融合處理。即在每個(gè)卷積層都包含一個(gè)濾波器w,逐一與特征向量進(jìn)行卷積操作,用于產(chǎn)生一個(gè)新的特征映射。
其中濾波器w∈Rh×4,h為窗口長(zhǎng)度,對(duì)特征向量ei,ei+1,…,ei+j∈E進(jìn)行卷積處理如下:

式(1)中:ci為每一次卷積操作產(chǎn)生的新的映射,ci的個(gè)數(shù)取決于濾波器的個(gè)數(shù)l,而其個(gè)數(shù)l則由文本的長(zhǎng)度n和濾波器的長(zhǎng)度h決定;f為非線(xiàn)性函數(shù)處理,本方法使用ReLU方法進(jìn)行非線(xiàn)性化;b∈R為偏差項(xiàng),用于每次訓(xùn)練的更新。
本部分的輸出為新的特征映射的集合:

在這一部分,需要對(duì)新的特征映射的集合C進(jìn)行最大值池化,目的是從特征映射中捕捉最為重要的特征。
具體的操作方法是,首先需要對(duì)特征映射集合中的每一個(gè)特征映射進(jìn)行單獨(dú)的最大值池化:

然后再將所有的最大池化值進(jìn)行特征融合:

式(4)中:輸出的向量MP∈Rl為高層次的主要特征;⊕為拼接符號(hào)。
最后需要利用最終提取處理完成的高層次主要特征進(jìn)行分類(lèi),輸出結(jié)果為每個(gè)詞語(yǔ)成為觸發(fā)詞的概率pi,包括文本信息中無(wú)事件觸發(fā)詞的可能。即:

式(5)中:n為文本信息預(yù)處理之后得到的該條文本信息的詞語(yǔ)個(gè)數(shù),選取n+1作為最終的分類(lèi)個(gè)數(shù)是包括了該文本信息中無(wú)輿情事件觸發(fā)詞的概率Pn+1。
具體的觸發(fā)詞的分類(lèi)方法是,對(duì)于上一部分得到的高層次主要特征{f1,f2,…,f1}∈MP,和給定的輸出分類(lèi)標(biāo)簽T={t1,t2,…,t(n+1)}∈Rn+1,之間存在如下關(guān)系:

得到簡(jiǎn)化的公式為:

通過(guò)訓(xùn)練和測(cè)試,得到最佳的α,作為最終的輸出分類(lèi)權(quán)重值,進(jìn)而得到詞語(yǔ)成為觸發(fā)詞的概率,作為最終的輸出。
定義分類(lèi)器的目標(biāo)函數(shù)為:

使目標(biāo)函數(shù)達(dá)到最小值,進(jìn)而主要使用softmax函數(shù)計(jì)算概率的方法得到每個(gè)詞語(yǔ)最可能成為觸發(fā)詞的概率。
本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的輿情觸發(fā)詞解析方法,利用卷積神經(jīng)網(wǎng)絡(luò)CNN自動(dòng)學(xué)習(xí)隱藏特征,從不同的維度上對(duì)輸入的文本信息進(jìn)行特征的提取,然后進(jìn)行融合,并通過(guò)多層次卷積的操作處理得到一個(gè)新的特征映射的集合,再對(duì)其進(jìn)行最大值池化,進(jìn)而得到一個(gè)高層次的主要特征向量,作為最終觸發(fā)詞分類(lèi)的依據(jù)權(quán)重,在模型訓(xùn)練的過(guò)程中,使用分類(lèi)器進(jìn)行觸發(fā)詞的分類(lèi),并不斷對(duì)輸出向量權(quán)重進(jìn)行更新。在使目標(biāo)函數(shù)最小化的同時(shí),得到一個(gè)最為接近實(shí)測(cè)概率的輸出概率向量,作為本方法的輸出預(yù)測(cè)分類(lèi)。
本方法從解析輿情觸發(fā)詞的角度出發(fā),可以高效檢測(cè)文本信息的事件觸發(fā)詞,進(jìn)而能夠?qū)﹃P(guān)鍵事件進(jìn)行抽取,從而可以判斷文本信息是否為輿情信息,并且能夠?qū)浨樾畔⒌氖录|發(fā)有一個(gè)快捷清晰的定位,有利于短時(shí)間內(nèi)在海量信息中準(zhǔn)確監(jiān)測(cè)輿情信息,并把握其觸發(fā)事件,進(jìn)而找到輿情源頭,實(shí)現(xiàn)對(duì)輿情的有效預(yù)警。