999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經(jīng)網(wǎng)絡(luò)的輿情觸發(fā)詞解析方法*

2021-08-06 08:05:36李陽(yáng)陽(yáng)王亞珅
科技與創(chuàng)新 2021年14期
關(guān)鍵詞:特征文本信息

李陽(yáng)陽(yáng),王亞珅,金 昊

(中國(guó)電子科技集團(tuán)公司電子科學(xué)研究院,北京100041)

1 背景

輿情,全稱(chēng)“輿論情況”,是指在一定的社會(huì)空間內(nèi),圍繞中介性社會(huì)事件的發(fā)生、發(fā)展和變化,作為主體的民眾對(duì)作為客體的社會(huì)管理者、企業(yè)、個(gè)人及其他各類(lèi)組織及其政治、社會(huì)、道德等方面的取向產(chǎn)生和持有的社會(huì)態(tài)度。簡(jiǎn)而言之,“輿情”一詞是中國(guó)特有的表述,是大多數(shù)民眾對(duì)待某一社會(huì)事件所持的社會(huì)態(tài)度。其中,網(wǎng)絡(luò)輿情是現(xiàn)代信息社會(huì)的一種主要的輿情類(lèi)型。在網(wǎng)絡(luò)環(huán)境下,這類(lèi)輿情信息的主要來(lái)源是各種主流社交媒體諸如微博、論壇和貼吧等,具有自由性、交互性、多元性、偏差性和突發(fā)性等特點(diǎn)[1]。

隨著中國(guó)互聯(lián)網(wǎng)的普及與高速發(fā)展,輿情監(jiān)測(cè)工作已經(jīng)成為政府和企業(yè)工作內(nèi)容中不可或缺的一部分。2006年,黨的十六屆六中全會(huì)通過(guò)的《關(guān)于構(gòu)建社會(huì)主義和諧社會(huì)若干重大問(wèn)題的決定》中明確指出:“堅(jiān)持正確導(dǎo)向,營(yíng)造積極健康的思想輿論氛圍。正確的思想輿論導(dǎo)向是促進(jìn)社會(huì)和諧的重要因素。新聞出版、廣播影視、文學(xué)藝術(shù)、社會(huì)科學(xué),要堅(jiān)持正確導(dǎo)向”。“加強(qiáng)對(duì)互聯(lián)網(wǎng)等的應(yīng)用和管理,理順管理體制,倡導(dǎo)文明辦網(wǎng)、文明上網(wǎng),使各類(lèi)新興媒體成為促進(jìn)社會(huì)和諧的重要陣地。”可見(jiàn)輿情的監(jiān)測(cè)與管理對(duì)于和諧社會(huì)建設(shè)的重要意義,也可以看出,在互聯(lián)網(wǎng)時(shí)代,對(duì)網(wǎng)絡(luò)輿情進(jìn)行監(jiān)測(cè)是政府及時(shí)體察社情民意、準(zhǔn)確把控輿情走向、快速處理突發(fā)事件的必要手段。于企業(yè)而言,第一時(shí)間掌握和了解企業(yè)相關(guān)的負(fù)面熱點(diǎn)信息尤為必要。對(duì)企業(yè)相關(guān)負(fù)面輿情進(jìn)行監(jiān)測(cè),并對(duì)異常情況進(jìn)行預(yù)警,有利于及時(shí)獲取和處理企業(yè)的負(fù)面信息,維護(hù)企業(yè)的健康良好形象。

在現(xiàn)代信息社會(huì),輿情管理存在四個(gè)主要問(wèn)題,分別是缺乏預(yù)警性、缺乏系統(tǒng)機(jī)制、具有嚴(yán)重的滯后性和缺乏影響力。其中提高預(yù)警性是加強(qiáng)輿情監(jiān)管的首要問(wèn)題,也是建立一套輿情監(jiān)測(cè)系統(tǒng)的前提。而提高預(yù)警性的首要任務(wù)是能夠準(zhǔn)確獲取輿情信息,并對(duì)其進(jìn)行分析,進(jìn)而對(duì)輿情民意的趨勢(shì)進(jìn)行研判。在全媒體時(shí)代如何高效及時(shí)準(zhǔn)確地從網(wǎng)絡(luò)上魚(yú)龍混雜的信息中獲取輿情信息,并對(duì)其進(jìn)行解析是一個(gè)不小的挑戰(zhàn)。

2 相關(guān)工作

輿情是大多數(shù)民眾對(duì)待某一社會(huì)事件所持的社會(huì)態(tài)度,從而可以看出,輿情是社會(huì)事件引發(fā)的。想要準(zhǔn)確的獲取輿情,核心是抓住文本信息中關(guān)鍵的事件以及該事件的觸發(fā)詞。

在目前國(guó)內(nèi)外的研究中,對(duì)輿情的事件觸發(fā)研究并不多。大多數(shù)關(guān)于輿情的研究都停留在對(duì)已出現(xiàn)的輿情的分析和總結(jié)上,即針對(duì)一個(gè)已經(jīng)產(chǎn)生影響的輿情事件,從它的傳播特點(diǎn)和規(guī)模角度出發(fā),去總結(jié)歸納得到輿情的規(guī)律,然而這種思路本身就具有滯后性和過(guò)于泛化的缺點(diǎn)。想要具有預(yù)警性地監(jiān)測(cè)和辨別輿情信息,從輿情事件觸發(fā)詞角度出發(fā),進(jìn)行識(shí)別和解析,是一種全新的思路。

要對(duì)輿情事件的事件觸發(fā)詞進(jìn)行解析,首先需要明確事件的定義,自動(dòng)內(nèi)容抽取(Automatic Content Extraction,ACE)評(píng)測(cè)會(huì)議對(duì)事件[3]的定義為:事件是指發(fā)生了的事情,包含直接引起事件發(fā)生的觸發(fā)詞和事件的參與者。

以人民網(wǎng)輿論版塊上的一條新聞(簡(jiǎn)化版)進(jìn)行說(shuō)明:“六千人員信息泄露引發(fā)社會(huì)關(guān)注”。我們的目標(biāo)是對(duì)上述文本信息中事件觸發(fā)詞進(jìn)行識(shí)別,判斷該文本信息中每個(gè)詞語(yǔ)成為觸發(fā)詞的概率,進(jìn)而對(duì)該事件進(jìn)行抽取,以達(dá)到解析輿情信息的目的。

近年來(lái),在信息識(shí)別抽取的研究領(lǐng)域,對(duì)事件的抽取引發(fā)許多關(guān)注。HAI等提出采用最大熵模型進(jìn)行事件抽取[8];AHN等提出的MAXENT方法使用了MEGAM等分類(lèi)器[9];SAHA則使用支持向量機(jī)分類(lèi)器對(duì)生物醫(yī)學(xué)事件進(jìn)行檢測(cè)[10]。這一類(lèi)方法主要是將事件抽取視作多分類(lèi)問(wèn)題,使用不同的分類(lèi)器進(jìn)行特征的提取,但是其學(xué)習(xí)能力較差,模型難以泛化。GRISHMAN提出基于模式匹配和分類(lèi)器的事件抽取系統(tǒng)ACEJET[11];KIM提出將WORDNET語(yǔ)義數(shù)據(jù)庫(kù)與模式獲取相結(jié)合的方法[12]。這類(lèi)方法主要是基于預(yù)先定義的模式匹配,應(yīng)用范圍相對(duì)比較固定。之后,NGUYEN等[13]和CHEN等[14]提出將卷積神經(jīng)網(wǎng)絡(luò)(CNN)應(yīng)用到事件檢測(cè)和抽取的任務(wù)中,NGUYEN等使用CNN自動(dòng)挖掘隱含特征[13],可以大大降低誤傳率;CHEN等提出了動(dòng)態(tài)多池卷積神經(jīng)網(wǎng)絡(luò)模型(DMCNN)[14],可以同時(shí)對(duì)多個(gè)事件進(jìn)行檢測(cè),并達(dá)到了不錯(cuò)的效果。將事件抽取的方法對(duì)輿情的觸發(fā)詞進(jìn)行研究和解析是從大數(shù)據(jù)時(shí)代海量信息中捕捉輿情信息的一種新型有效的研究思路。本文擬提出一種新的事件檢測(cè)模型,將卷積神經(jīng)網(wǎng)絡(luò)CNN與分類(lèi)器進(jìn)行結(jié)合,從而進(jìn)一步提高事件檢測(cè)的準(zhǔn)確性。

3 方法

本文主要介紹一種基于卷積神經(jīng)網(wǎng)絡(luò)模型的輿情觸發(fā)詞解析方法,整體流程結(jié)構(gòu)如圖1所示。

圖1 基于卷積神經(jīng)網(wǎng)絡(luò)模型整體流程結(jié)構(gòu)圖

本方法主要包括四個(gè)部分,分別是特征的選取、多卷積融合、最大值池化和觸發(fā)詞分類(lèi)。在選取特征之前,需要對(duì)信息進(jìn)行分詞的預(yù)處理,以便進(jìn)行特征的選取和嵌入。接下來(lái),本文就方法的處理順序以事件“六千人員信息泄露引發(fā)社會(huì)關(guān)注”為例依次介紹說(shuō)明,如圖2所示。

圖2 基于卷積神經(jīng)網(wǎng)絡(luò)模型方法

3.1 特征的選取

對(duì)于已經(jīng)預(yù)處理完成的文本信息,M={m1,m2,m3,…,mn}需要在這一步驟進(jìn)行重要特征的提取。本方法中,主要使用以下四種方法依次對(duì)文本信息進(jìn)行處理,擬從四個(gè)維度去盡可能全面而準(zhǔn)確地捕獲輿情事件中觸發(fā)詞的特征。

3.1.1 詞嵌入特征

文本嵌入特征(Word Embedding),是處理文本信息的所有方式中最普遍、應(yīng)用范圍最廣的一種。本方法使用詞嵌入特征下已經(jīng)訓(xùn)練好的GloVe模型對(duì)文本信息進(jìn)行訓(xùn)練,將訓(xùn)練得到的特征作為基本特征。

3.1.2 實(shí)體嵌入特征

現(xiàn)有的研究表明,數(shù)據(jù)庫(kù)中的文本信息往往附帶有人工標(biāo)注的實(shí)體信息。本方法對(duì)所有帶有的人工標(biāo)注的實(shí)體信息進(jìn)行實(shí)體特征嵌入,并在每次訓(xùn)練過(guò)程中對(duì)實(shí)體信息進(jìn)行隨機(jī)初始化和更新,將得到的特征作為本方法中的附加特征。

3.1.3 位置嵌入特征

詞語(yǔ)的位置信息也是捕獲輿情事件觸發(fā)詞的關(guān)鍵所在,可以作為一種語(yǔ)義信息進(jìn)行訓(xùn)練和提取。對(duì)文本的詞語(yǔ)位置進(jìn)行逐一的處理和嵌入,訓(xùn)練完成后得到本方法的位置特征。

3.1.4 詞性嵌入特征

觸發(fā)詞的詞性往往比較固定,通常是動(dòng)詞和動(dòng)名詞。對(duì)文本中詞性的抓取是獲取觸發(fā)詞的重要手段之一。本方法對(duì)句子中的詞語(yǔ)的詞性進(jìn)行標(biāo)注處理和嵌入,訓(xùn)練完成后得到本方法的詞性特征。

經(jīng)過(guò)以上四個(gè)特征嵌入的操作,將分別訓(xùn)練得到的基本特征、附加特征、位置特征和詞性特征進(jìn)行合并,得到一個(gè)四維的向量E∈R4×n。

3.2 多卷積融合

這一步需要對(duì)已經(jīng)提取好的特征向量進(jìn)行多卷積融合處理。即在每個(gè)卷積層都包含一個(gè)濾波器w,逐一與特征向量進(jìn)行卷積操作,用于產(chǎn)生一個(gè)新的特征映射。

其中濾波器w∈Rh×4,h為窗口長(zhǎng)度,對(duì)特征向量ei,ei+1,…,ei+j∈E進(jìn)行卷積處理如下:

式(1)中:ci為每一次卷積操作產(chǎn)生的新的映射,ci的個(gè)數(shù)取決于濾波器的個(gè)數(shù)l,而其個(gè)數(shù)l則由文本的長(zhǎng)度n和濾波器的長(zhǎng)度h決定;f為非線(xiàn)性函數(shù)處理,本方法使用ReLU方法進(jìn)行非線(xiàn)性化;b∈R為偏差項(xiàng),用于每次訓(xùn)練的更新。

本部分的輸出為新的特征映射的集合:

3.3 最大值池化

在這一部分,需要對(duì)新的特征映射的集合C進(jìn)行最大值池化,目的是從特征映射中捕捉最為重要的特征。

具體的操作方法是,首先需要對(duì)特征映射集合中的每一個(gè)特征映射進(jìn)行單獨(dú)的最大值池化:

然后再將所有的最大池化值進(jìn)行特征融合:

式(4)中:輸出的向量MP∈Rl為高層次的主要特征;⊕為拼接符號(hào)。

3.4 觸發(fā)詞分類(lèi)

最后需要利用最終提取處理完成的高層次主要特征進(jìn)行分類(lèi),輸出結(jié)果為每個(gè)詞語(yǔ)成為觸發(fā)詞的概率pi,包括文本信息中無(wú)事件觸發(fā)詞的可能。即:

式(5)中:n為文本信息預(yù)處理之后得到的該條文本信息的詞語(yǔ)個(gè)數(shù),選取n+1作為最終的分類(lèi)個(gè)數(shù)是包括了該文本信息中無(wú)輿情事件觸發(fā)詞的概率Pn+1。

具體的觸發(fā)詞的分類(lèi)方法是,對(duì)于上一部分得到的高層次主要特征{f1,f2,…,f1}∈MP,和給定的輸出分類(lèi)標(biāo)簽T={t1,t2,…,t(n+1)}∈Rn+1,之間存在如下關(guān)系:

得到簡(jiǎn)化的公式為:

通過(guò)訓(xùn)練和測(cè)試,得到最佳的α,作為最終的輸出分類(lèi)權(quán)重值,進(jìn)而得到詞語(yǔ)成為觸發(fā)詞的概率,作為最終的輸出。

定義分類(lèi)器的目標(biāo)函數(shù)為:

使目標(biāo)函數(shù)達(dá)到最小值,進(jìn)而主要使用softmax函數(shù)計(jì)算概率的方法得到每個(gè)詞語(yǔ)最可能成為觸發(fā)詞的概率。

4 結(jié)論

本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的輿情觸發(fā)詞解析方法,利用卷積神經(jīng)網(wǎng)絡(luò)CNN自動(dòng)學(xué)習(xí)隱藏特征,從不同的維度上對(duì)輸入的文本信息進(jìn)行特征的提取,然后進(jìn)行融合,并通過(guò)多層次卷積的操作處理得到一個(gè)新的特征映射的集合,再對(duì)其進(jìn)行最大值池化,進(jìn)而得到一個(gè)高層次的主要特征向量,作為最終觸發(fā)詞分類(lèi)的依據(jù)權(quán)重,在模型訓(xùn)練的過(guò)程中,使用分類(lèi)器進(jìn)行觸發(fā)詞的分類(lèi),并不斷對(duì)輸出向量權(quán)重進(jìn)行更新。在使目標(biāo)函數(shù)最小化的同時(shí),得到一個(gè)最為接近實(shí)測(cè)概率的輸出概率向量,作為本方法的輸出預(yù)測(cè)分類(lèi)。

本方法從解析輿情觸發(fā)詞的角度出發(fā),可以高效檢測(cè)文本信息的事件觸發(fā)詞,進(jìn)而能夠?qū)﹃P(guān)鍵事件進(jìn)行抽取,從而可以判斷文本信息是否為輿情信息,并且能夠?qū)浨樾畔⒌氖录|發(fā)有一個(gè)快捷清晰的定位,有利于短時(shí)間內(nèi)在海量信息中準(zhǔn)確監(jiān)測(cè)輿情信息,并把握其觸發(fā)事件,進(jìn)而找到輿情源頭,實(shí)現(xiàn)對(duì)輿情的有效預(yù)警。

猜你喜歡
特征文本信息
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠(chéng)的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話(huà)故事《坐井觀天》的教學(xué)隱喻
展會(huì)信息
如何快速走進(jìn)文本
線(xiàn)性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 亚洲高清无码精品| 青青操视频在线| 国产精品太粉嫩高中在线观看| 毛片免费在线视频| 黄片一区二区三区| 黄色一级视频欧美| 免费a在线观看播放| 毛片基地视频| 99精品影院| 久久国产黑丝袜视频| 日韩欧美视频第一区在线观看| 国产第一页屁屁影院| 搞黄网站免费观看| 久久国产毛片| 色噜噜狠狠狠综合曰曰曰| 婷婷色狠狠干| 成人91在线| 一级片一区| 91丝袜美腿高跟国产极品老师| 国产女人水多毛片18| 高清无码一本到东京热 | 国产va在线| 日本不卡在线视频| 91年精品国产福利线观看久久| 久久国产精品娇妻素人| 一本色道久久88亚洲综合| 五月婷婷激情四射| 亚洲第一区精品日韩在线播放| 久久久无码人妻精品无码| 国产在线啪| www精品久久| 国产精品亚洲专区一区| 亚洲色图综合在线| 日本黄色a视频| 欧美激情首页| 欧美黄色网站在线看| 在线视频97| 日韩毛片基地| 九色在线观看视频| 欧美精品在线观看视频| 日韩亚洲综合在线| 国产女人水多毛片18| 在线人成精品免费视频| 伊人久久婷婷五月综合97色| 国产欧美视频综合二区| 成人年鲁鲁在线观看视频| 在线观看网站国产| 最新国产成人剧情在线播放| 韩日免费小视频| 亚洲三级电影在线播放| 国产a在视频线精品视频下载| 中国精品自拍| 欧美中文字幕在线二区| 日本在线亚洲| 亚瑟天堂久久一区二区影院| 欧美a在线视频| 亚洲另类国产欧美一区二区| 97青草最新免费精品视频| 女人18一级毛片免费观看| 久久精品免费国产大片| 国产第八页| 97在线国产视频| 国产精品福利社| 无码aⅴ精品一区二区三区| 欧美日本视频在线观看| 亚洲av无码牛牛影视在线二区| 日韩精品成人在线| 国产高清精品在线91| 欧美精品亚洲日韩a| 日韩第九页| 国产精品性| 国产主播在线观看| 久久综合色天堂av| 日韩色图在线观看| 一级毛片不卡片免费观看| 国产91麻豆免费观看| www.91中文字幕| jizz在线免费播放| 欧美成人h精品网站| 久久久亚洲色| www亚洲天堂| 国产色图在线观看|