999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經網絡的輿情觸發詞解析方法*

2021-08-06 08:05:36李陽陽王亞珅
科技與創新 2021年14期
關鍵詞:特征文本信息

李陽陽,王亞珅,金 昊

(中國電子科技集團公司電子科學研究院,北京100041)

1 背景

輿情,全稱“輿論情況”,是指在一定的社會空間內,圍繞中介性社會事件的發生、發展和變化,作為主體的民眾對作為客體的社會管理者、企業、個人及其他各類組織及其政治、社會、道德等方面的取向產生和持有的社會態度。簡而言之,“輿情”一詞是中國特有的表述,是大多數民眾對待某一社會事件所持的社會態度。其中,網絡輿情是現代信息社會的一種主要的輿情類型。在網絡環境下,這類輿情信息的主要來源是各種主流社交媒體諸如微博、論壇和貼吧等,具有自由性、交互性、多元性、偏差性和突發性等特點[1]。

隨著中國互聯網的普及與高速發展,輿情監測工作已經成為政府和企業工作內容中不可或缺的一部分。2006年,黨的十六屆六中全會通過的《關于構建社會主義和諧社會若干重大問題的決定》中明確指出:“堅持正確導向,營造積極健康的思想輿論氛圍。正確的思想輿論導向是促進社會和諧的重要因素。新聞出版、廣播影視、文學藝術、社會科學,要堅持正確導向”。“加強對互聯網等的應用和管理,理順管理體制,倡導文明辦網、文明上網,使各類新興媒體成為促進社會和諧的重要陣地。”可見輿情的監測與管理對于和諧社會建設的重要意義,也可以看出,在互聯網時代,對網絡輿情進行監測是政府及時體察社情民意、準確把控輿情走向、快速處理突發事件的必要手段。于企業而言,第一時間掌握和了解企業相關的負面熱點信息尤為必要。對企業相關負面輿情進行監測,并對異常情況進行預警,有利于及時獲取和處理企業的負面信息,維護企業的健康良好形象。

在現代信息社會,輿情管理存在四個主要問題,分別是缺乏預警性、缺乏系統機制、具有嚴重的滯后性和缺乏影響力。其中提高預警性是加強輿情監管的首要問題,也是建立一套輿情監測系統的前提。而提高預警性的首要任務是能夠準確獲取輿情信息,并對其進行分析,進而對輿情民意的趨勢進行研判。在全媒體時代如何高效及時準確地從網絡上魚龍混雜的信息中獲取輿情信息,并對其進行解析是一個不小的挑戰。

2 相關工作

輿情是大多數民眾對待某一社會事件所持的社會態度,從而可以看出,輿情是社會事件引發的。想要準確的獲取輿情,核心是抓住文本信息中關鍵的事件以及該事件的觸發詞。

在目前國內外的研究中,對輿情的事件觸發研究并不多。大多數關于輿情的研究都停留在對已出現的輿情的分析和總結上,即針對一個已經產生影響的輿情事件,從它的傳播特點和規模角度出發,去總結歸納得到輿情的規律,然而這種思路本身就具有滯后性和過于泛化的缺點。想要具有預警性地監測和辨別輿情信息,從輿情事件觸發詞角度出發,進行識別和解析,是一種全新的思路。

要對輿情事件的事件觸發詞進行解析,首先需要明確事件的定義,自動內容抽取(Automatic Content Extraction,ACE)評測會議對事件[3]的定義為:事件是指發生了的事情,包含直接引起事件發生的觸發詞和事件的參與者。

以人民網輿論版塊上的一條新聞(簡化版)進行說明:“六千人員信息泄露引發社會關注”。我們的目標是對上述文本信息中事件觸發詞進行識別,判斷該文本信息中每個詞語成為觸發詞的概率,進而對該事件進行抽取,以達到解析輿情信息的目的。

近年來,在信息識別抽取的研究領域,對事件的抽取引發許多關注。HAI等提出采用最大熵模型進行事件抽取[8];AHN等提出的MAXENT方法使用了MEGAM等分類器[9];SAHA則使用支持向量機分類器對生物醫學事件進行檢測[10]。這一類方法主要是將事件抽取視作多分類問題,使用不同的分類器進行特征的提取,但是其學習能力較差,模型難以泛化。GRISHMAN提出基于模式匹配和分類器的事件抽取系統ACEJET[11];KIM提出將WORDNET語義數據庫與模式獲取相結合的方法[12]。這類方法主要是基于預先定義的模式匹配,應用范圍相對比較固定。之后,NGUYEN等[13]和CHEN等[14]提出將卷積神經網絡(CNN)應用到事件檢測和抽取的任務中,NGUYEN等使用CNN自動挖掘隱含特征[13],可以大大降低誤傳率;CHEN等提出了動態多池卷積神經網絡模型(DMCNN)[14],可以同時對多個事件進行檢測,并達到了不錯的效果。將事件抽取的方法對輿情的觸發詞進行研究和解析是從大數據時代海量信息中捕捉輿情信息的一種新型有效的研究思路。本文擬提出一種新的事件檢測模型,將卷積神經網絡CNN與分類器進行結合,從而進一步提高事件檢測的準確性。

3 方法

本文主要介紹一種基于卷積神經網絡模型的輿情觸發詞解析方法,整體流程結構如圖1所示。

圖1 基于卷積神經網絡模型整體流程結構圖

本方法主要包括四個部分,分別是特征的選取、多卷積融合、最大值池化和觸發詞分類。在選取特征之前,需要對信息進行分詞的預處理,以便進行特征的選取和嵌入。接下來,本文就方法的處理順序以事件“六千人員信息泄露引發社會關注”為例依次介紹說明,如圖2所示。

圖2 基于卷積神經網絡模型方法

3.1 特征的選取

對于已經預處理完成的文本信息,M={m1,m2,m3,…,mn}需要在這一步驟進行重要特征的提取。本方法中,主要使用以下四種方法依次對文本信息進行處理,擬從四個維度去盡可能全面而準確地捕獲輿情事件中觸發詞的特征。

3.1.1 詞嵌入特征

文本嵌入特征(Word Embedding),是處理文本信息的所有方式中最普遍、應用范圍最廣的一種。本方法使用詞嵌入特征下已經訓練好的GloVe模型對文本信息進行訓練,將訓練得到的特征作為基本特征。

3.1.2 實體嵌入特征

現有的研究表明,數據庫中的文本信息往往附帶有人工標注的實體信息。本方法對所有帶有的人工標注的實體信息進行實體特征嵌入,并在每次訓練過程中對實體信息進行隨機初始化和更新,將得到的特征作為本方法中的附加特征。

3.1.3 位置嵌入特征

詞語的位置信息也是捕獲輿情事件觸發詞的關鍵所在,可以作為一種語義信息進行訓練和提取。對文本的詞語位置進行逐一的處理和嵌入,訓練完成后得到本方法的位置特征。

3.1.4 詞性嵌入特征

觸發詞的詞性往往比較固定,通常是動詞和動名詞。對文本中詞性的抓取是獲取觸發詞的重要手段之一。本方法對句子中的詞語的詞性進行標注處理和嵌入,訓練完成后得到本方法的詞性特征。

經過以上四個特征嵌入的操作,將分別訓練得到的基本特征、附加特征、位置特征和詞性特征進行合并,得到一個四維的向量E∈R4×n。

3.2 多卷積融合

這一步需要對已經提取好的特征向量進行多卷積融合處理。即在每個卷積層都包含一個濾波器w,逐一與特征向量進行卷積操作,用于產生一個新的特征映射。

其中濾波器w∈Rh×4,h為窗口長度,對特征向量ei,ei+1,…,ei+j∈E進行卷積處理如下:

式(1)中:ci為每一次卷積操作產生的新的映射,ci的個數取決于濾波器的個數l,而其個數l則由文本的長度n和濾波器的長度h決定;f為非線性函數處理,本方法使用ReLU方法進行非線性化;b∈R為偏差項,用于每次訓練的更新。

本部分的輸出為新的特征映射的集合:

3.3 最大值池化

在這一部分,需要對新的特征映射的集合C進行最大值池化,目的是從特征映射中捕捉最為重要的特征。

具體的操作方法是,首先需要對特征映射集合中的每一個特征映射進行單獨的最大值池化:

然后再將所有的最大池化值進行特征融合:

式(4)中:輸出的向量MP∈Rl為高層次的主要特征;⊕為拼接符號。

3.4 觸發詞分類

最后需要利用最終提取處理完成的高層次主要特征進行分類,輸出結果為每個詞語成為觸發詞的概率pi,包括文本信息中無事件觸發詞的可能。即:

式(5)中:n為文本信息預處理之后得到的該條文本信息的詞語個數,選取n+1作為最終的分類個數是包括了該文本信息中無輿情事件觸發詞的概率Pn+1。

具體的觸發詞的分類方法是,對于上一部分得到的高層次主要特征{f1,f2,…,f1}∈MP,和給定的輸出分類標簽T={t1,t2,…,t(n+1)}∈Rn+1,之間存在如下關系:

得到簡化的公式為:

通過訓練和測試,得到最佳的α,作為最終的輸出分類權重值,進而得到詞語成為觸發詞的概率,作為最終的輸出。

定義分類器的目標函數為:

使目標函數達到最小值,進而主要使用softmax函數計算概率的方法得到每個詞語最可能成為觸發詞的概率。

4 結論

本文提出了一種基于卷積神經網絡的輿情觸發詞解析方法,利用卷積神經網絡CNN自動學習隱藏特征,從不同的維度上對輸入的文本信息進行特征的提取,然后進行融合,并通過多層次卷積的操作處理得到一個新的特征映射的集合,再對其進行最大值池化,進而得到一個高層次的主要特征向量,作為最終觸發詞分類的依據權重,在模型訓練的過程中,使用分類器進行觸發詞的分類,并不斷對輸出向量權重進行更新。在使目標函數最小化的同時,得到一個最為接近實測概率的輸出概率向量,作為本方法的輸出預測分類。

本方法從解析輿情觸發詞的角度出發,可以高效檢測文本信息的事件觸發詞,進而能夠對關鍵事件進行抽取,從而可以判斷文本信息是否為輿情信息,并且能夠對輿情信息的事件觸發有一個快捷清晰的定位,有利于短時間內在海量信息中準確監測輿情信息,并把握其觸發事件,進而找到輿情源頭,實現對輿情的有效預警。

猜你喜歡
特征文本信息
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 制服丝袜亚洲| 国产午夜无码片在线观看网站| 一本二本三本不卡无码| 另类欧美日韩| 国产午夜福利在线小视频| 在线毛片网站| 国产精品七七在线播放| 亚洲无码高清一区| 亚洲精品无码日韩国产不卡| 91精品国产无线乱码在线| 国产毛片久久国产| 亚洲第一页在线观看| 天天色天天综合网| 无码一区二区波多野结衣播放搜索| 潮喷在线无码白浆| 国产99视频在线| 国产产在线精品亚洲aavv| 欧美亚洲网| 亚洲综合一区国产精品| 久久久波多野结衣av一区二区| 在线观看国产精品日本不卡网| 中文字幕欧美日韩| 97超爽成人免费视频在线播放| 不卡无码h在线观看| 亚洲妓女综合网995久久| 性色一区| 国产成人久久综合777777麻豆 | 亚洲欧美另类视频| 欧美精品亚洲精品日韩专| 亚洲成人免费在线| 亚洲成人精品在线| 中文字幕首页系列人妻| 国产福利观看| 亚洲天堂久久新| 97人妻精品专区久久久久| 久草视频精品| 国产成人精品免费视频大全五级 | 中文字幕人妻av一区二区| 日韩欧美中文| 人妻少妇乱子伦精品无码专区毛片| 激情亚洲天堂| Jizz国产色系免费| 国产亚洲高清在线精品99| 国产无码精品在线播放| 91精品人妻一区二区| 国产麻豆精品久久一二三| 欧美日韩精品在线播放| 亚洲国产av无码综合原创国产| 在线观看国产精美视频| 福利视频久久| 亚洲视频免费在线| 国产午夜精品一区二区三| 尤物精品视频一区二区三区| 成人在线综合| 午夜免费小视频| 亚洲色欲色欲www网| 欧美有码在线观看| 午夜色综合| 丰满的熟女一区二区三区l| 亚洲中文在线视频| 亚洲无码精品在线播放| 97人妻精品专区久久久久| 久无码久无码av无码| 青青青国产精品国产精品美女| 亚洲综合久久成人AV| 尤物午夜福利视频| 综合网久久| 91精品国产一区自在线拍| 免费观看精品视频999| 日韩国产综合精选| 久久精品这里只有精99品| 韩国福利一区| 特级精品毛片免费观看| 国产福利不卡视频| 久久先锋资源| 999精品在线视频| 人妻一区二区三区无码精品一区| 久久亚洲精少妇毛片午夜无码| 欧美中文字幕第一页线路一| 久久综合丝袜长腿丝袜| 国产精品主播| 91福利免费视频|