999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聯合模型的網絡輿情事件檢測方法

2021-03-11 06:03:48阮樹驊陳興蜀王海舟王文賢蔣術語
信息安全研究 2021年3期
關鍵詞:深度檢測模型

馮 科 阮樹驊, 陳興蜀, 王海舟, 王文賢 蔣術語

1(四川大學網絡空間安全學院 成都 610065)2(四川大學網絡空間安全研究院 成都 610065)

(2676516772@qq.com)

當今社會,網絡媒體實時發布著各類大大小小的熱點事件,特別如軍事外交、武裝沖突、暴恐事件、突發公共安全事件等國內外事件頻繁發生,這給國家安全和社會穩定帶來極大的沖擊與挑戰.國內外學者持續對相關主題下的大量事件進行挖掘分析,以發現不同類型事件的內在模式與發展規律.美國國防部成立專門小組研究極端組織“伊斯蘭國(ISIS)”制造的歷史恐怖事件,分析挖掘其活動規律,預測相關事件活動,以便能夠及時作出相關防護行動[1].然而,面對大量、冗余且混雜數據中的事件信息,如何實現這類特定事件的自動化識別,并進一步抽取以獲得大量精細、機器可處理的精準結構化事件數據具有重要實踐意義.本文致力于網絡輿情事件檢測,也稱網絡輿情事件發現或事件識別,檢測給定新聞文本中所包含的網絡輿情重大事件實例信息,在事件抽取、自動摘要等領域有著重要的運用.

1 相關工作

事件檢測是事件抽取任務的基礎,通常的事件檢測可以通過識別一個句子文本中是否存在能夠表征事件發生的詞語,并且判定這個詞語所觸發的事件所屬類別.事件檢測從研究方法上大體分2種,即基于模式匹配和基于機器學習的事件檢測.基于機器學習的事件檢測方法又可分為基于傳統機器學習的淺層語義特征學習和基于深度神經網絡的深層語義學習.

基于模式匹配的方法是利用定義好的匹配模板和匹配算法,在一段文本中識別出符合預定義模式的事件.Chinatsu等人[2]利用語法和詞法來構造事件模式.Yangarber[3]提出一種基于人工構造的種子模板,并以此為基礎迭代學習新的模板.Karin等人[4]使用了概念識別器來檢測事件.Hung等人[5]使用了語法詞模式匹配事件和標注語義角色.一般來說,基于模式匹配的方法需要針對不同的特定需求制定相應的規則和模板,可移植性差,所以該方法更適合于特定領域.

基于傳統機器學習的事件檢測大多采用統計特征的方法:如Grishman等人[6]和Ahn[7]在傳統詞法和句法特征(如詞性、依存關系等)基礎上使用最大熵模型來識別事件.Ji等人[8]和Liao等人[9]加入跨句子和跨文檔的輔助特征來提升檢測效果.Hong等人[10]利用跨實體推理來獲取更多輔助特征.Li等人[11]基于特征建立了一個包含事件檢測與事件要素識別的聯合模型.然而,基于傳統機器學習方法的特征工程都比較繁瑣,不容易擴展應用到其他領域與語言中;基于傳統機器學習的方法所學習到的是淺層語義特征,丟失的深層語義特征有待挖掘.

隨著深度學習在自然語言處理方面的運用開啟,深度神經網絡方法在事件檢測領域研究逐漸深入.Chen等人[12]率先提出動態多池化卷積神經網絡DMCNN模型,解決一個句子存在多個事件的問題.Nguyen等人[13]發現雙向循環神經網絡模型具有更好的處理效果.Feng等人[14]進一步探索到雙向長短期記憶網絡Bi-LSTM和卷積神經網絡CNN的混合模型,使得能夠在獲取序列信息的同時,也充分利用到短語塊信息.Liu等人[15]引入注意力機制,利用事件元素信息來輔助事件檢測.陳興蜀等人[16]將遞歸神經網絡運用到中文事件檢測中.Lin等人[17]參考Chen等人[12]提出的DMCNN網絡結構,并將字與詞混合表示為NPNs模型.Ding等人[18]提出了TLNN模型,主要使用外部知識庫How Net,lattice LSTM框架,將所有信息動態合并,以增強字與詞的所有語義信息.Xu等人[19]將語義、句法依存等綜合特征信息融入到向量中,再輸入到Bi-LSTM中捕獲句子信息.

基于深度神經網絡學習的方法在事件檢測研究中取得了一定的成果,但是由于中文復雜語言的特性,事件類型和子類型識別效果有待進一步提升.本文將深度神經網絡的事件發現和分類的層級擴展到句子級別,同時,將深度神經網絡事件發現和分類模型與網絡輿情事件專家知識模式庫的模式匹配相融合,通過聯合模型降低網絡輿情重大事件檢測的漏判和誤判,提升網絡輿情事件類型和子類型的識別效果,實現重大網絡輿情事件的檢測.

2 模型設計

本文事件檢測的目標為檢測出新聞報道中所涉及的網絡輿情事件并判別其所屬的事件類別,聯合模型架構及處理流程如圖1所示:

圖1 網絡輿情事件檢測聯合模型圖

首先對新聞文本進行分句、分詞等數據預處理,獲取基于深度神經網絡的事件句檢測模型(event sentence detection model, ESDM)的輸入數據;然后由事件句檢測模型ESDM學習生成候選事件集;在此基礎上,通過事件類型判別模型(event type discrimination model, ETDM)和網絡輿情事件專家知識模式庫(expert knowledge base, EKB)進行聯合分類,得出網絡輿情事件所屬類別,包括該事件的類型和子類型.其中,ETDM模型學習預測網絡輿情事件所屬類型, EKB通過模式匹配學習獲得網絡輿情事件所屬子類型,最后,融合聯結事件類型與事件子類型形成事件類別,得到最終的網絡輿情事件檢測結果.

聯合模型中的EKB模塊通過專家模式干預環節,接受聯合模型輸出結果的反饋調節,能夠動態修正已有的網絡輿情事件模式,同時可以動態擴充網絡輿情事件新模式.

2.1 基于深度學習的事件句檢測模型ESDM

基于深度學習的事件句檢測模型ESDM,通過學習文本深層語義特征獲取文本中的事件句,生成聯合模型共享的候選事件集.ESDM構建方法和流程如下:

1) 對數據集中的文本進行分句、分詞和去除停用詞等數據預處理.分句是將文本根據“.”“?”和“!”等標點符號進行切分;分詞是將每個句子切分為由詞組成的詞序列;去除停用詞是將句子中常用的類似于“的”“不然”之類的停用詞過濾掉.

2) 對進行分句、分詞等預處理后的文本進行Word2Vec詞向量的訓練.每個句子用長度為50的詞序列表示,每個詞用訓練出來的200維詞向量表示,由此獲得200×50的句子詞序列特征向量,作為ESDM模型的輸入特征向量.

3) 編碼訓練集、驗證集的目標向量.目標向量采用one-hot編碼表示,句子標簽含義如表1所示:

表1 句子標簽含義

4) 構建ESDM模型.ESDM架構如圖2所示,輸入層Input由200×50的句子詞序列特征向量構成;隱藏層由CNN和Bi-GRU構成,由4個CNN構成的ensemble網絡深度提取輸入詞序列向量的特征,并通過Bi-GRU學習全局上下文語義特征信息;輸出層為全連接前饋式神經網絡,通過隨機失活Dropout層防止模型過擬合,采用Softmax分類器輸出句子分類結果.

圖2 事件句檢測模型ESDM

(1)

(2)

(3)

輸出層Flatten首先將所有yt轉化到一維空間F(∑yt),經過非線性變換得到句子概率分布Ps,根據概率分布使用Softmax函數對句子是否是事件句進行預測T,如式(4)所示.從而獲得候選事件句集.

T(s)=Softmax(Ps).

(4)

2.2 基于深度學習的事件類型判別模型ETDM

本文定義的網絡輿情事件類型有:“政治”“經濟”“軍事”“涉恐涉暴”“網絡安全”“重大災情”,以及不屬于上述六大類型的第7種網絡輿情事件新類型“其他”,如表2中的“事件類型”所示.各大網絡輿情事件類型下又細分為多種子類型,如表2中的“事件子類型”的部分示例所示,事件子類型合計超過30種,并動態增減.網絡輿情事件類別由事件類型和事件子類型共同定義,并最終通過聯合模型判定.

構建基于深度學習的事件類型判別模型ETDM,當用戶輸入一個事件句時,該模型將會判斷并輸出該事件句所屬的事件類型.由于ETDM模型架構與ESDM一致,構建方法和流程也與ESDM類似,此處不再贅述.

在事件類型判別任務中,ETDM模型的輸出目標向量是長度為7的one-hot向量.7代表上述七大類網絡輿情事件類型,注意“其他”類型表示該事件句不屬于已知的網絡輿情事件類型.對應的事件類型標簽如表2中ID所示.

表2 網絡輿情事件類別

候選事件句S的事件類型目標向量為[t0,t1,…ti…,t6],其中ti的設置方式如式(5)所示:

(5)

2.3 網絡輿情事件專家知識模式庫EKB

事件子類型細分雜多,如果采用深度學習進行訓練,將面臨個別數據樣本缺少、樣本標注困難、樣本分布不均衡、模型泛化性能差、準確度低等問題.本文在事件類型判別模型ETDM判別的事件類型基礎上,聯合網絡輿情事件專家知識模式庫EKB,能夠針對事件更加細粒度的分類問題——事件子類型——進行事件類別的識別.

2.3.1 數據預處理

在專家進行網絡輿情事件模式抽象之前,首先需要對相關的新聞報道進行預處理,提取出關鍵詞集,供專家模式干預參考.首先,按照前述定義的網絡輿情事件類型,將采集到的新聞報道進行分類,并清洗無關、不完整、冗余等糙雜數據.然后基于TextRank算法對各類網絡輿情事件的新聞集提取事件相關關鍵詞,構造關鍵詞集.TextRank算法利用文本序列局部詞匯之間的共現關系獲取關鍵詞序列,從而獲取關鍵詞集.主要思路和方法流程如下:

首先,將給定的新聞事件文檔D分割為n個獨立完整句子,即D={S1,S2,…,Si,…,Sn}.對于事件句Si∈D,進行語義特征提取預處理,如分詞、詞性標注、過濾停用詞,保留與觸發事件相關的動詞、名詞和與名詞構成偏正短語的形容詞,即Si={wi,1,wi,2,…,wi,j,…,wi,m},其中wi,j∈Si.

其次,構建候選事件關鍵詞圖G=(A,C),A表示事件關鍵詞節點集,由候選關鍵詞組成,C表示采用共現關系(Co-occurrence)構造的節點之間的關系邊集.2個節點之間是否存在邊由它們對應的詞匯在長度為k的窗口中是否共現決定.

TR(Ai)=(1-d)+

(6)

根據式(6)迭代計算各節點的權重,直至收斂.其中d是阻尼系數,為G中點Ai到任意點Aj的概率;wji為Ai與Aj邊的權重;In(Ai)為指向點Ai的點集合,k為窗口大小.

最后,對已收斂的節點權重進行倒排序,從而獲得最重要的前m個單詞集,構造為關鍵詞集.同時,將關鍵詞集中的關鍵詞在新聞事件文檔D中進行標記,若形成相鄰詞組,則組合成多詞關鍵詞,添加到關鍵詞集.例如,事件句“臺灣地區11日舉行領導人選舉投票,得票第一的民進黨候選人蔡英文當選連任臺灣地區領導人”“臺灣地區”“領導人”均屬于候選關鍵詞,則組合成“臺灣地區領導人”加入關鍵詞序列.

2.3.2 網絡輿情事件專家知識模式提取

事件類型通常由“動詞”和“名詞”所表征,所以模式關注包含“動詞”和“名詞”的關鍵詞.如網絡安全中網絡攻擊事件:“植入…病毒”“植入…惡意代碼”“實施…網絡攻擊”等.定義網絡輿情事件元模式如式(7)所示,其中,“動詞”V為動詞關鍵詞;“名詞”N為名詞關鍵詞,也可由形容詞Adj和名詞N構成的相鄰詞組.

E(S)=(〈V〉,〈N|Adj-N〉).

(7)

專家對提取出的每類網絡輿情事件的關鍵詞集進行清洗,剔除無用與錯誤的關鍵詞,并進一步將每類網絡輿情事件的關鍵詞集細化成事件子類型相關的關鍵詞子集.然后,對基于專家知識篩選出的各類網絡輿情事件的關鍵詞集和關鍵詞子集,根據網絡輿情事件元模式自動提取形成各類事件類型、子類型的事件觸發模式,得到可以遠程監督觸發事件類型和子類型的專家知識模式庫.專家交互式地模式干預確保形成事件模式的準確性與新穎性.

聯合模型將深度學習模型與專家知識模式庫檢測結果進行融合,形成聯合的反饋信息,再次經專家模式干預,獲取網絡輿情事件新模式,并對EKB信息進行動態反饋調整,動態修正和擴充EKB.

3 實 驗

3.1 實驗語料

本文實驗的數據來源于各大主流新聞媒體上公開發布的與朝鮮和臺灣相關的新聞數據.經過初步篩選獲得1 306條原數據,然后邀請專業人員對網絡輿情事件類別(包括事件類型和子類型)進行標注.對比校正每類事件類別數據,均衡數據類別的分布,確認1 000條原始數據集,并以8∶1∶1的比例按相同分布劃分為訓練集、驗證集和測試集.

3.2 實驗參數與評估方法

為了驗證方法的有效性進行了對比實驗.模型構建設置的相關參數有:詞典大小為800萬中文詞匯,輸入詞向量維度200維,句子長度設置為50;神經網絡Dropout比率為0.3,學習率為0.001,每批次樣本數為32,迭代次數為500;將整個數據集重復實驗5次.

為評估本文方法在事件檢測方面的識別效果,選擇準確率P(precision)、召回率R(recall)以及調和值F1(F1-score)作為模型識別效果的評價指標,3類評估指標的定義和分析如下:

1)Precision表示被判定為正例的樣本中有多少是真正例,反映了模型判定結果的準確率,表達了網絡輿情事件被分類為某特定類別的事件被誤判的情況,準確率越高誤判越低.

(8)

2)Recall表示正例樣本中有多少被預測為正例,反映了模型對正例樣本的識別能力,表達了網絡輿情事件被正確識別并被正確分類的情況,召回率越高漏判越低.

(9)

3)F1表示Precision和Recall的調和平均值,綜合表達了模型對網絡輿情事件識別的能力.

(10)

3.3 實驗結果與分析

實驗結果如表3所示,其中EKB代表基于網絡輿情事件專家知識模式庫的匹配模型,ESDM代表基于深度學習的事件句檢測模型,ETDM代表基于深度學習的事件類型判別模型.由實驗結果可以看出,聯合模型在準確率、召回率和F1上都得到了大幅度的提升:相比于單獨的CNN和Bi-GRU模型, ESDM在事件識別上提升了約1%~2%的準確率,ETDM在事件分類上提升了約2%~4%的準確率;再聯合EKB,事件識別提升約3%~4%的準確率,事件分類再次提升了約7%的準確率.

表3 實驗對比結果 %

實驗結果分析:深度學習模型能夠明顯表達深層語義特征,但誤判率高;網絡輿情事件專家知識模式庫具有較高的準確率,但面對龐雜的新聞文本存在較大的事件漏檢情況,并且對檢測隱性的事件句和事件類型效果不明顯;而聯合模型一方面,通過深度學習的事件發現和判別模型能夠識別深層隱性事件的特性,保證新聞事件不被漏檢;另一方面,通過網絡輿情事件專家知識模式庫準確獲取各類網絡輿情事件模式,保證非網絡輿情事件不被誤判.因此,聯合模型獲得了較好的網絡輿情事件檢測效果.

4 結束語

為了檢測網絡輿情中的重大事件,本文提出一種將深度神經網絡學習和網絡輿情事件專家知識模式庫模式匹配相融合的事件檢測方法.從聯合模型的整體架構上,將網絡輿情事件發現與分類的復雜問題,分解到基于深度學習的事件句檢測模型ESDM、事件類型判別模型ETDM和網絡輿情事件專家知識模式庫EKB的3個模型中,分步又聯合的有針對性地處理.深度神經網絡捕獲深層語義特征,網絡輿情事件模式庫準確表征事件模式,有效解決了特定領域細粒度事件檢測能力弱的問題.模型在語料集上經多方面性能實驗對比,證明了聯合模型的有效性,取得了不錯的網絡輿情事件的識別效果.下一步將擴充實驗語料,繼續對深度學習在中文事件檢測方面的應用進行探究[20-21],獲取網絡輿情特定領域事件深層特征,并運用于事件抽取等任務領域.

猜你喜歡
深度檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
深度觀察
深度觀察
深度觀察
主站蜘蛛池模板: 四虎精品国产永久在线观看| 久久6免费视频| 亚洲欧州色色免费AV| 免费一级大毛片a一观看不卡| 日本成人一区| 色欲国产一区二区日韩欧美| 欧洲精品视频在线观看| 天堂岛国av无码免费无禁网站| 日韩中文精品亚洲第三区| 久综合日韩| 中日无码在线观看| 国产在线高清一级毛片| 亚洲成肉网| 国产综合日韩另类一区二区| 免费看美女自慰的网站| 国产一区二区三区在线观看免费| 人妻21p大胆| 精品视频在线一区| 国产欧美日韩免费| 自慰网址在线观看| 亚洲日韩日本中文在线| 国产导航在线| 国产91熟女高潮一区二区| 国产白丝av| 国产美女人喷水在线观看| 青草91视频免费观看| 婷婷五月在线视频| 成人国产精品网站在线看| 国产一区二区三区在线观看视频| 中国国产A一级毛片| 亚洲无码91视频| 欧洲亚洲一区| 久久久久久久久久国产精品| 亚洲精品视频网| 日韩午夜片| 国产精品午夜福利麻豆| 91在线一9|永久视频在线| 欧美国产视频| 女人18毛片一级毛片在线 | 国产黑丝一区| 国产又粗又爽视频| 久久香蕉欧美精品| 亚洲免费毛片| 欧美日韩高清在线| 国产三级韩国三级理| 人妻精品久久久无码区色视| 成年午夜精品久久精品| 国内精自线i品一区202| 日韩二区三区无| 国产一区在线观看无码| 九九热在线视频| 国产福利一区二区在线观看| 欧美成人午夜影院| 无码国产伊人| 国产91九色在线播放| 亚洲欧美另类日本| 国产激爽大片在线播放| 丁香五月婷婷激情基地| 99性视频| 国产成人永久免费视频| 国产成人免费观看在线视频| 91九色国产porny| 亚洲成人精品久久| 最新国产麻豆aⅴ精品无| 欧美亚洲另类在线观看| 亚洲精品动漫| 亚洲VA中文字幕| 久久国产精品波多野结衣| 无码日韩精品91超碰| 9999在线视频| 日韩av高清无码一区二区三区| 欧美日韩午夜视频在线观看 | 免费毛片网站在线观看| 日韩欧美中文字幕在线韩免费| 国产福利微拍精品一区二区| 日本三区视频| 日本亚洲欧美在线| 欧美精品黑人粗大| 国模粉嫩小泬视频在线观看| 一本无码在线观看| 久久免费视频6| 99视频国产精品|