陳健瑤 夏立新 舒怡嫻



摘 要:[目的/意義]從事件文本句法特征視角出發,提出一種面向突發自然災害的網絡輿情事件識別方法,使得從小規模數據集中精準的識別事件成為一種可能。[方法/過程]通過數據采集和事件語義標注構造訓練集,接著提出了一種面向突發自然災害網絡輿情事件識別的句法特征提取方法,利用句法特征提取方法從訓練集中提取事件句法構造事件句法特征庫,同時以句法向量的形式表示待測事件文本,最后利用事件句法與待測句法的句法相似度計算識別事件。[結果/結論]以“臺風利奇馬”事件為例,證明了本研究提出的事件識別方法能夠精準地從突發自然災害網絡輿情文本中識別事件,同時通過對照試驗證明了在訓練集規模較小的情況下,句法特征優于文本特征的事件識別方法。
關鍵詞:事件識別;突發自然災害;網絡輿情;句法相似度
DOI:10.3969/j.issn.1008-0821.2022.06.002
〔中圖分類號〕G250.2 〔文獻標識碼〕A 〔文章編號〕1008-0821(2022)06-0017-10
Abstract:[Purpose/Significance]This paper proposes a method for network public opinion event recognition of sudden natural disasters based on syntactic features.[ Methods/Process]The training set was constructed through data collection and event semantic annotation,and then a syntactic feature extraction method for network public opinion event recognition of sudden natural disasters was proposed.The syntactic feature extraction method was used to extract the event syntax from the training set,construct the event syntax feature library,and represent the event text in the form of syntactic vector;Finally,the syntactic similarity between event syntax and the syntax to be tested was used to calculate and identify events.[ Results/Conclusion]Taking“typhoon lichima”as an example,through test set D2.It is determined that the optimal similarity of“typhoon lichma”event recognition was 0.93.Under this similarity,from the test set D2 55 events and 82 non events were identified in test set D2、D3 the F1 values of the experimental results were 0.851 and 0.929 respectively.At the same time,the comparative experiment shows that the syntactic feature is better than the text feature in the case of small training set.It provides a new reference for the research of network public opinion of sudden natural disasters.
Key words:event identification;sudden natural disaster;internet public opinion;syntactic similarity
我國是世界上突發自然災害事件頻發的國家之一,且災害事件種類多、災情造成損失嚴重。僅在2019年一季度,我國發生的各種自然災害就造成全國139.6萬人次受災,87人死亡,1.3萬人次緊急轉移安置,直接經濟損失27.9億元[1],頻發的自然災害給廣大人民群眾的生命和財產安全帶來了極大的威脅。突發自然災害事件發生后,經由社交媒體的傳播,相關災害事件在網絡上引起網民熱烈的討論,得益于社交媒體平臺的廣泛參與性,網民們在網絡上發表著自己對災害事件的看法或是評論,形成了災害網絡輿情。一方面,災害網絡輿情有利于相關受災情況和求助信息的傳播,在一定程度上緩解了信息閉塞的問題;另一方面,一些未經證實的信息容易在網絡上引起一系列的鏈式反應,進而演變成網絡謠言,如果這些網絡謠言不及時得到處理,將會引發社會公眾的恐慌,甚至影響到地區和國家的和諧穩定。
突發自然災害網絡輿情事件識別能夠很好地解決災害信息中的謠言問題,輿情管理工作者利用事件識別方法從海量的災害輿情網絡文本中識別出網民們熱烈討論的事件,通過對真實災害情況進行比對,就能發現網民所關注熱點中所存在的謠言或者可能潛在成為謠言的信息,進而阻止這類信息的進一步傳播。除此之外,利用事件識別方法還能夠從災害網絡輿情文本中識別能反映公眾態度、輿論走向的事件,進而理清災害網絡輿情的來龍去脈。
因此,事件識別方法對于災害網絡輿情研究工作十分重要。本文通過對網絡輿情事件文本句法特征進行研究,以句法特征表示事件文本的內在特征,提出一種適用于特定災害網絡輿情的事件識別方法,從海量的災害網絡輿情文本中識別出輿情事件,為災害網絡輿情的進一步研究提供參考。684ED746-DECC-4521-AA5E-60CB09745A21
1 相關研究
突發自然災害事件關乎人民群眾的人身安全和財產安全,因此其所對應的突發自然災害網絡輿情所需要的政府引導與監督要高于其他領域的網絡輿情,社交媒體在突發自然災害網絡輿情的演化中應當扮演信息傳遞和信息交流的角色,而不是謠言和恐慌制造的平臺。對于突發自然災害網絡輿情,事件識別研究能夠提升政府部門應對突發自然災害的網絡輿情的管理能力,降低為應對突發自然災害網絡輿情中虛假信息所耗費的成本,防止災害輿情“二次傷害”,合理引導疏解民眾負面情緒。
1.1 突發自然災害網絡輿情研究現狀
相關學者對我國突發自然災害網絡輿情的研究已取得一定的進展。在突發自然災害事件網絡輿情情感研究方面,金占勇等[2]構建基于LSTM和Word2vec的突發災害事件網絡輿情多情感識別模型,實驗結果表明,其所建立的模型在情感識別效果上優于TF-IDF文本向量化方法、基于卷積神經網絡以及傳統的機器學習方法。陳凌等[3]構建一種用于分析用戶情緒上下文的長短期記憶模型(LSTM),對網絡輿情用戶情感傾向性和公眾情感趨勢進行分析與預測。劉雯等[4]將情感分析和時間序列分析共同引入到對災害網絡輿情的分析中,以雅安地震為例,建立不同情感輿情走勢的時間序列模型并進行預測。
在突發自然災害網絡輿情風險監測研究方面,秦琴等[5]從突發自然災害的災害要素、信息特征、媒體傳播和受眾傾向4個角度,構建了網絡輿情風險監測指標體系,并通過具體的量化分析方法保證了指標體系的合理性。張宇等[6]在輿情監測指標構建基礎上,提出基于加速遺傳算法的BP神經網絡(AGABP)風險評估方法,實驗結果顯示,其所構建的AGABP模型在收斂速度、評估準確度方面優于BP神經網絡、邏輯斯蒂曲線,能夠用于震災網絡輿情風險管理實踐中。劉悅等[7]提出并設計了基于大數據分析法的重大自然災害事件網絡輿情信息智能監測平臺,實驗結果表明,改進設計平臺可有效對自然災害網絡輿情信息進行監測,效果遠勝于傳統監測平臺。
在突發自然災害網絡輿情傳播演化及路徑分析方面,張巖等[8]將情感分析模型、動態演化模型、話題聚類模型、網絡社團模型結合地理可視化技術應用到臺風的災害評估中,并以臺風“山竹”事件為例,從情感值與討論熱度兩個角度入手,完整地展示本次事件網絡輿情的演化過程。李綱等[9]采用生存分析法和內容分析法,描述地震災害事件和臺風災害事件的網絡媒體報道的生命周期,探索影響生存過程的因素,并總結了兩類災害的媒體報道周期特征。王晰巍等[10]應用社會網絡分析方法,以“雅安地震”事件為例對新媒體環境下自然災害輿情傳播路徑及網絡結構進行實證研究,結論顯示,自然災害網絡輿情傳播受到傳播媒介類型的影響。金占勇等[11]運用全面數據分析法,對6·23鹽城龍卷風襲擊事件的網絡輿情傳播進行實證研究,得出網絡輿情傳播具有信息老化、官方傳媒信息掌控力更強、輿論引導者輿情傳播動力機制不同、輿情傳播內容選擇多樣化等結論。馮小東等[12]將自然災害的影響程度與網絡輿情熱度聯系起來,指出自然災害的影響程度與網絡輿情熱度在時間和空間兩個方面存在相關性,并且相關性隨著自然災害強度的增加而增加。
從近些年學者的研究可以看出,關于突發自然災害網絡輿情研究已取得較大的進展,但是關于突發自然災害網絡輿情事件識別的研究較少。因此,本文試圖探究一種適用于突發自然災害下的網絡輿情事件識別方法。
1.2 事件識別方法研究現狀
事件抽取任務于2005年起被納入ACE評測會議[13],ACE認為,事件是事物狀態的改變或事情的發生,并將事件抽取任務定義為從非結構化的文本中識別并抽取事件信息并結構化表示,包括事件觸發詞、事件類型、事件元素、元素角色[14]。在框架表示事件抽取的研究中,Petroni F等[15]提出一種從新聞報道和社交媒體中抽取突發事件的框架表示,用于公共安全預警、政府組織決策支持等。Yang H等[16]在2018年提出一種從金融機構的公告信息中抽取金融事件的框架表示方法,用于輔助決策和市場預測等。劉振[17]采用條件隨機場方法和語義角色標注技術,構建模型進行訓練和學習,提出科技事件抽取框架,實現科技事件抽取系統,取得了一定的抽取效果。在實例表示事件抽取的研究中,Huang L等[18]提出一種全新的自由事件抽取范式,可以同時從任意輸入語料中抽取事件和發現事件模式,利用符號特征和分布式語義來檢測和表示事件結構;Zhou D等[19]提出一種基于詞嵌入的非參數貝葉斯混合模型用于事件抽取,其中,事件的數目可以自動推斷,并且可以正確地處理同一命名實體的詞法變化問題。
在中文事件抽取任務方面,Chen Z等[20]提出一個中文事件抽取系統,指出漢語觸發標記中一個特定語言問題,然后致力于討論詞法、句法和語義特征在觸發標記和參數標注中的貢獻;Zeng Y等[21]在Chen Z等[20]的字符序列標注方法基礎上,使用雙向長短期記憶網絡和條件隨機場[22]抽取句子特征,通過卷積神經網絡抽取上下文語義特征,進而實現中文事件的抽取;Lin H等[23]提出一種Nugget Proposal Networks(NPNs)方法,它可以直接提出以每個字符為中心的、不受單詞邊界限制的整個金塊來解決單詞觸發不匹配問題;Li P等[24]提出兩種新的推理機制,通過漢語觸發器內部的合成語義和觸發器之間的語篇一致性來探索漢語的特殊性。
從現有的事件識別研究可以看出,當前有關事件識別技術已取得一定的進展,且國內學者對于中文事件抽取的研究也取得較為成熟的進步,但同時有關中英文事件抽取的研究也存在一定的問題,就是大多數方法依賴于大規模的訓練數據集以保證識別結果的準確性。如果將這些方法直接應用于突發自然災害網絡輿情事件的識別中,可能會在輿情初期面臨數據量不足的問題。
1.3 句法特征相關研究
當前關于句法特征的研究大多為利用依存句法分析進行信息抽取或識別,在這方面的研究中,李綱等[26]利用句法特征依存句法分析,設計情感標簽抽取算法,實現對抽取出的情感標簽地過濾。王娟等[27]利用短語的內部結構和句法功能,分析情感評價對象及其對應的評價短語在句中的句法位置,并結合情感句中詞性和詞對間的依存關系進行情感評價單元的抽取,最終提升情感評價的整體準確率。任彬等[28]利用依存句法分析,從社交媒體中匹配相關信息,實驗證明該方法相比傳統方法提升信息抽取準確率。霍珺等[29]采用空間句法分析,為圖書館內部空間在可達性方面的效能評價提供一種客觀、量化、圖示化的手段。唐曉波等采用依存句法分析來改進傳統文本相似矩陣,在此基礎上運行聚類算法,挖掘出熱點主題。俞琰等[30]利用依存句法分析抽取中文專利術語,過程包括依存句法分析、剪枝、生成依存子樹3個主要步驟。684ED746-DECC-4521-AA5E-60CB09745A21
可以看出,依存句法分析利用句法特征能夠有效地提升信息抽取的準確率,這是因為句法特征能夠直觀地表達事件內部的語義結構和語法邏輯。因此,本研究認為,句法特征也能夠較好地表示事件特征,并提出一種基于句法特征的輿情事件識別方法,以事件的句法特征表示事件語義結構的邏輯關系,使得事件識別重心繞過了文本特征,聚焦于事件語詞之間的句法結構,增強突發自然災害網絡輿情事件識別方法的廣泛適用性,為突發自然災害網絡輿情進一步研究提供參考。
2 基于句法特征的突發自然災害網絡輿情事件識別模型構建
本文構建基于句法特征的突發自然災害網絡輿情事件識別模型,如圖1所示,該模型的核心內容是以事件的句法特征表示事件內部的語義邏輯結構從而達到事件識別的目的。模型分為突發自然災害語料采集與事件語義標注、面向災害網絡輿情事件識別的句法特征提取和基于句法相似度的事件識別方法。首先通過網絡爬蟲獲取訓練集語料和測試集語料,測試集語料也就是待識別所包含事件的文本,對語料進行清洗,并對訓練集進行人工事件語義標注,獲取其中的事件與非事件文本;接著對所標注的事件文本進行句法特征的提取,通過人工識別錯誤句法特征來降低獲取事件句法特征的誤差率,最終獲得的句法形成事件句法特征庫;最后對測試集中的待測文本也進行句法特征提取,將所獲取的測試集句法特征與事件句法庫中的句法進行相似度計算,句法特征是某一文本本身的特征,而句法相似度是兩個不同文本之間通過一定方法所獲得的句法特征相似度,相似度越高說明兩個文本之間句法特征越為接近,當待測文本與已知事件句法相似度超出模型所設定的閾值時,就可以認為待測文本屬于事件文本,相似度閾值通過多次實驗確定。
2.1 突發自然災害語料采集與事件語義標注
通過網絡爬蟲采集特定突發自然災害語料,再經由事件語義標注從災害網絡輿情語料中提取一定數量的已知事件作為訓練集。災害網絡輿情文本包含大量的實體信息,例如地點實體、時間實體、人物實體、動作實體等一系列的信息,這些信息相互組合形成了災害網絡輿情事件。同時,由于社交媒體文本的隨意性和不規范性,一些無實際意義的文本和不能表達出事件信息的文本也充斥在這些實體信息的周圍,事件語義標注將這些由實體信息組成的事件從非事件的文本中提取出來。
事件語義標注的過程由人工進行,為了確保標注結果的一致性和無人為差異性,本文定義以下幾條事件語義標注注意事項,如表1所示。
2.2 面向災害網絡輿情事件識別的句法特征提取
句法特征提取的目的是為了將已知事件或未知語句中的句法提取出來,方便進行下一步的事件識別。已知事件或未知語句都可以通過分詞操作形成一個由詞語組成的集合,每一個詞語都對應著相應的詞性,按照語句分詞順序所構成的詞性序列就形成了語句的句法特征。語句的句法特征從語義邏輯層面表達了句子的內在邏輯,這與事件具備一定的語法邏輯是相吻合的,因此可以使用語句的句法特征進行事件識別。同時,使用句法表達事件特征有效地降低了事件的文本維度,使得由成千上百個單詞排列組合形成的事件簡化為由十幾個詞性排列組合形成的句法,這也降低了事件識別對于訓練集規模的要求,有利于解決災害網絡輿情初期文本語料不足的問題。
對已知事件或未知語句進行句法特征的提取,例如已經經過詞性標注的事件文本:
E=[“利奇馬”:n,“移出”:v,“浙江”:n,“向”:p,“偏北”:f,“方向”:n,“移動”:v]
對其進行特征提取后得到事件句法特征向量:
P=[n,v,n,p,f,n,v]
在進行事件的句法特征提取時,通過人工糾錯的方式減少事件句法特征的誤差。例如某些詞語存在一詞多義的現象,不同的分詞工具可能對于一詞多義的詞語默認詞性不同,這就造成人工語義標注的正確事件經過句法特征提取后產生了錯誤的句法特征,因此通過人工檢查出這些錯誤的句法特征,將其加入到“wrong_pattern.txt”錯誤句法詞典中,使程序再次遇到相同的錯誤句法后不再提取;根據2.1所定義的事件語義標注注意事項第2條,所推導出的事件是真實發生過或正在發生的事件,一些未來發生或者否定式的觸發詞可能會給事件識別的過程帶來偏差,例如Jieba分詞工具將“不能”“希望”的詞性都定義為“v”,這樣程序會將這些詞語與其他觸發詞等同起來。為了減少這類詞語帶來的誤差,本文將這類不能表示事件是真實發生過或正在發生的觸發詞定義為詞性“o”,通過區分開這類詞語詞性來提升模型識別事件的精確性。本文所進行事件句法模式提取的具體過程如算法1所示。
算法1:語句句法特征提取
輸入:sentences[0..n-1]:包含n條待處理語句(sentence)的數組;wrong_patterns[0..m-1]:包含m條人工識別錯誤句法(wrong_pattern)的數組;f1(sentence):對文本進行分詞的函數;f2(word):對語詞進行詞性標注的函數;
輸出:patterns事件句法集
1: function Pattern(sentences[0..n-1]:array of sentence;wrong_patterns[0..m-1]:array of wrong_pattern;f1:function;f2:function):patterns;
2: var
3: ? words[0..m-1]:包含m個詞的數組;
4: ? nominal:詞性標注序列;
5: begin
6: ? for i←0 to n-1 do
7: ? ? pattern ← null
8: ? ? words[0..m-1]← f1 (sentences[i])684ED746-DECC-4521-AA5E-60CB09745A21
9: ? ? for i←0 to m-1 do
10: ? ? ? nominal ← f2(words[i])
11: ? ? ? pattern ← pattern + nominal
12: ? ? if pattern not in patterns and not in wrong_patterns then
13: ? ? ? patterns ← patterns+pattern
14: ? ? end if
15: ? return patterns
16: end
2.3 基于句法相似度的事件識別方法
句法相似度計算的目的是為了得到待測事件與事件句法庫中已知事件句法特征的相似度。相似度計算度量方法中,余弦相似度度量最為貼近本研究的句法相似度計算方法,因此,本文選用余弦相似度作為相似度計算方法。由于事件文本中必定包含表示一個或多個動作或者狀態改變的觸發詞,因此選用σ作為觸發詞變量,若待測事件句法Pd=[x1,x2,…,xi]中不包含觸發詞,觸發詞變量賦值為0;反之,觸發詞變量賦值為1。同時待測事件句法與事件句法庫Pt={P1,P2,…,Pn|Pi=[y1,y2,…,yi],i≤n}進行余弦相似度計算,取Pd和Pi最大余弦值為最終相似度,計算方法如式(1)。
cos(θ)=∑ni=1(xj·yj)∑ni=1x2i·∑ni=1y2i·σ(1)
句法特征向量的相似度能夠從語義層面表達兩個事件在語法規則和語言形式描述方面的相似度,句法相似度越大表明待測事件句法與事件句法庫中的事件句法越接近,當相似度為100%時,表明相同的事件句法已經存在于句法庫中,因此設置適當的相似度閾值作為最終的判斷標準十分重要,最終所計算的句法相似度大于閾值,即可判定待測文本為事件文本,相似度閾值利用訓練集通過多次實驗獲得,取最優相似度為最終閾值。
事件句法相似度計算算法如算法2所示。
算法2:事件句法相似度計算
輸入:patterns[0..n-1]:包含n條事件句法特征(pattern)的數組;sentence:待測文本的語句句法;f1(sentence):輸入句法中含有觸發詞σ,返回1,否則返回0;f2(pattern,sentence):計算兩個事件句法的余弦相似度;
輸出:cos事件句法相似度
1: function Cos(patterns[0..n-1]:array of pattern;sentences:text to be tested;f1:function;f2:function):cos;
2: var
3: ? σ:觸發詞識別變量;
4: ? cos:句法相似度;
5: ? temp:臨時變量;
6: begin
7: ? for i←0 to n-1 do
8: ? ? pattern ← patterns[i]
9: ? ? σ ← f1 (sentence)
10: ? ? temp ← f2(pattern,sentence)
11: ? ? temp ← temp·σ
12: ? ? if temp>cos then
13: ? ? ? cos ← temp
14: ? ? end if
15: ? return cos
16: end
3 基于事件識別模型的突發自然災害網絡輿情事件識別實證研究——以“臺風利奇馬”為例
2019年,第9號臺風“利奇馬”在浙江省溫嶺市城南鎮沿海登陸[25],因其巨大的破壞力和持久性在社交媒體中引發了長時間的討論,產生了豐富的突發自然災害下的網絡輿情語料。因此,本文以“臺風利奇馬”事件為例,借助本文構建的基于句法特征的突發自然災害網絡輿情事件識別模型進行實證研究,驗證所提出的災害網絡輿情事件識別模型的有效性,將模型轉化為“臺風利奇馬”網絡輿情事件識別的具體識別步驟,如圖2所示。
3.1 數據采集與句法模式提取
通過自主編寫Python爬蟲從新浪微博采集“臺風利奇馬”相關話題下的微博文本語料信息,共得到3 556條有效微博內容。針對事件識別模型對訓練集和測試集的不同要求,將所采集到的微博內容劃分為3個文檔:訓練集D1、測試集D2、測試集D3,其中,訓練集D1用以構造災害輿情事件句法庫,測試集D2用以確定最優相似度閾值,測試集D3用以從中識別出災害輿情事件。
訓練集D1按照2.1所提出的事件標注注意事項,共標注事件2 027件。再通過2.2所提出的句法特征提取方法,將這些事件轉換為句法特征,經過人工糾錯以及排除因分詞工具產生的錯誤句法后,成功構造了一個包含1 752條有效句法的句法特征庫,句法特征庫中的句法特征集用P1={P1,P2,…,Pn|Pi=[x1,x2,…,xi],i≤n}表示。事件與句法庫中句法對應情況(部分)如圖3所示,其中,空白部分表示因誤差產生錯誤句法而不進入句法庫的情況。684ED746-DECC-4521-AA5E-60CB09745A21
3.2 相似度閾值確定
句法相似度衡量當前待測事件句法與已知事件句法庫中的最高相似度,因此設定一個相似度閾值作為待測事件是否是真的事件顯得尤為重要。筆者認為,針對不同特定突發自然災害網絡輿情,其最優相似度有所差別,需要通過實驗獲得特定突發自然災害網絡輿情下的相似度閾值。
測試集D2經過事件標注后得到99件事件、102件非事件,對標注結果進行句法特征提取獲得句法特征集P2=[x1,x2,…,xi],部分標注事件結果及對應句法如圖4所示。
根據2.2所提出的句法相似度計算方法計算P2=[x1,x2…,xi]與句法特征庫P1={P1,P2,…,Pn|Pi=[x1,x2,…,xi],i≤n}的相似度,取最高相似度為最終相似度,部分計算結果如表2所示,其中id范圍1~99為事件、id范圍100~201為非事件。
根據測試集D2句法相似度計算結果,確定適用于突發自然災害事件“臺風利奇馬”的最優相似度。按照步長0.01在區間[0,1]中依次取最優相似度值,以F1值為判斷指標,能獲得最高F1值的相似度即為最優相似度,F1值的計算方法如式(2)所示:
F1=2PRP+R(2)
其中,P、R分別代表查準率和查全率。
經實驗計算,以“臺風利奇馬”突發自然災害事件為例的文本語料中,最優相似度的值為0.93,在此基礎上測試集D2的F1值、P值、R值分別為0.851、0.835、0.869,具體實驗結果如圖5所示。從圖5可以看出,P值隨著相似度的增大而減小,而R值隨著相似度的增大而增大,這就說明相似度越大就有越多的事件能被識別出來,但是也降低了其準確性,只有當相似度閾值為0.93時,才能達到最優結果。
3.3 事件識別結果分析
通過測試集D2確定“臺風利奇馬”事件識別最優相似度為0.93,因此接下來以最優相似度0.93為度量標準去識別測試集D3語料中的事件。測試集D3提前不進行事件語義標注而進行語句分句,用以模擬從未知文本中識別事件的過程。對待測事件文本進行分句的過程需要注意,由于提前并不清楚事件在文本中的位置和結構關系,無法通過一次性的分句確定其中的事件結構,事件本身也可以作為另一個事件的一部分,例如:在文本“臺風利奇馬登陸山東,使東營普降暴雨”中,“臺風利奇馬登陸山東”是一個事件,同時“臺風利奇馬登陸山東”作為一個事件實體也是“使東營普降暴雨”事件的施事者,因此,本文通過重復分句的方式確保識別盡可能多的事件。
對測試集D3進行重復分句操作得到分句結果S3={s1,s2,…,sn},再對分句結果進行句法特征提取得到測試集D3的句法特征集P3={,
在以“臺風利奇馬”為例的突發自然災害事件中,通過人工標注的測試集D2,確定在該災害網絡輿情中,最優相似度為0.93,同時F1值達到了0.851;利用最優相似度成功從未經人工標注的測試集D3中識別出事件和非事件,實驗結果的F1值達到了0.93;同時,為證明本文所提出基于句法特征的事件識別方法在訓練集語料規模不大的情況下的優越性,將基于文本特征的事件識別方法作為對照組,采用相同的數據集和實驗步驟,實驗結果證明本文所提出的方法優于基于文本特征的識別方法。
面對突發自然災害事件,社交媒體往往承擔著信息交流平臺的作用,其信息交流強度要遠高于傳統的新聞報刊,因此,社交媒體成為了折射網絡輿情的傳感器。快速高效地識別出社交媒體災害網絡輿情文本中所包含的事件,有助于政府管理部門及時發現網絡中存在的謠言,幫助網絡輿情研究人員厘清災害網絡輿情發展的來龍去脈。本文提出了一種基于句法特征的突發自然災害網絡輿情事件識別方法,為突發自然災害網絡輿情的進一步研究提供參考。同時,本研究也存在一定的局限性,本文所研究的事件識別方法在小規模數據集中能表現出較大的優勢,但在大規模數據集中存在一定的劣勢,因此當前研究方法適用于突發自然災害網絡輿情初期的事件識別,在后續研究中將考慮結合句法特征與傳統的事件識別方法,使其能夠在大規模數據集中展現出較大的優勢。
參考文獻
[1]新華社.應急管理部發布2019年一季度全國自然災害情況[EB/OL].https://baijiahao.baidu.com/s?id=163014200439994 6578&wfr=spider&for=pc,2019-04-07.
[2]金占勇,田亞鵬,白莽.基于長短時記憶網絡的突發災害事件網絡輿情情感識別研究[J].情報科學,2019,37(5):142-147,154.
[3]陳凌,宋衍欣.基于公眾情緒上下文的LSTM情感分析研究——以臺風“利奇馬”為例[J].現代情報,2020,40(6):98-105.
[4]劉雯,高峰,洪凌子.基于情感分析的災害網絡輿情研究——以雅安地震為例[J].圖書情報工作,2013,57(20):104-110.
[5]秦琴,湯書昆.突發自然災害網絡輿情風險監測指標體系研究[J/OL].電子科技大學學報:社會科學版:1-9[2020-06-14].https://doi.org/10.14071/j.1008-8105(2019)-3023.
[6]張宇,傅敏,羅加蓉.震災網絡輿情風險監測指標及其評估方法[J].重慶大學學報:社會科學版,2018,24(6):33-44.
[7]劉悅,楊樺.基于大數據的自然災害事件網絡輿情信息監測平臺[J].災害學,2018,33(4):13-17.
[8]張巖,李英冰,鄭翔.基于微博數據的臺風“山竹”輿情演化時空分析[J/OL].山東大學學報:工學版:1-9[2020-06-14].http://kns.cnki.net/kcms/detail/37.1391.T.20200221.1529.004.html.
[9]李綱,海嵐,陳璟浩.突發自然災害事件網絡媒體報道的周期特征分析——以地震和臺風災害為例[J].信息資源管理學報,2015,5(3):18-24.
[10]王晰巍,文晴,趙丹,等.新媒體環境下自然災害輿情傳播路徑及網絡結構研究——以新浪微博“雅安地震”話題為例[J].情報雜志,2018,37(2):110-116.
[11]金占勇,田亞鵬,張洋.突發災害事件網絡輿情特征分析——以6·23鹽城龍卷風事件為例[J].吉首大學學報:社會科學版,2018,39(S2):72-78.
[12]馮小東,李卓雅,史志慧.基于網絡輿情熱度的自然災害影響評估分析[J].情報探索,2020,(1):16-22.
[13]Aguilar J,Beller C,McNamee P,et al.A Comparison of the Events and Relations Across Ace,Ere,Tac-kbp,and Framenet Annotation Standards[C]//Proceedings of the Second Workshop on EVENTS:Definition,Detection,Coreference,and Representation,2014:45-53.
[14]Doddington G R,Mitchell A,Przybocki M A,et al.The Automatic Content Extraction(ACE)Program-Tasks,Data,and Evaluation[C]//Lrec,2004,2:1.
[15]Petroni F,Raman N,Nugent T,et al.An Extensible Event Extraction System With Cross-Media Event Resolution[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.ACM,2018:626-635.
[16]Yang H,Chen Y,Liu K,et al.DCFEE:A Document-level Chinese Financial Event Extraction System based on Automatically Labeled Training Data[C]//Proceedings of ACL 2018,System Demonstrations,2018:50-55.684ED746-DECC-4521-AA5E-60CB09745A21
[17]劉振.基于網絡科技信息的事件抽取研究[J].情報科學,2018,36(9):115-117,122.
[18]Huang L,Cassidy T,Feng X,et al.Liberal Event Extraction and Event Schema Induction[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers),2016:258-268.
[19]Zhou D,Zhang X,He Y.Event Extraction from Twitter Using Non-parametric Bayesian Mixture Model with Word Embeddings[C]//Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics:Volume 1,Long Papers,2017:808-817.
[20]Chen Z,Ji H.Language Specific Issue and Feature Exploration in Chinese Event Extraction[C]//Proceedings of Human Language Technologies:The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics,Companion Volume:Short Papers,2009:209-212.
[21]Zeng Y,Yang H,Feng Y,et al.A Convolution BiLSTM Neural Network Model for Chinese Event Extraction[M].Natural Language Understanding and Intelligent Applications.Springer,Cham,2016:275-287.
[22]Lafferty J,McCallum A,Pereira F C N.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proc of the 18th Intelligence Conference on Machine Learning.Francisco,CA,USA:Morgan Kaufmann Publishers Inc,2001:282-289.
[23]Lin H,Lu Y,Han X,et al.Nugget Proposal Networks for Chinese Event Detection[C]//Proc of the 56th ACL,Volume 1:Long Papers.Melbourne,Australia:ACL,2018:1565-1574.
[24]Li P,Zhou G,Zhu Q,et al.Employing Compositional Semantics and Discourse Consistency in Chinese Event Extraction[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,2012:1006-1016.
[25]中國氣象局.超強臺風“利奇馬”在浙江溫嶺市城南鎮登陸[EB/OL].http://www.cma.gov.cn/2011xwzx/zdbk/jdbkxw/2019 08/t20190810_532548.html,2021-09-11.
[26]李綱,劉廣興,毛進,等.一種基于句法分析的情感標簽抽取方法[J].圖書情報工作,2014,58(14):12-20.
[27]王娟,曹樹金,謝建國.基于短語句法結構和依存句法分析的情感評價單元抽取[J].情報理論與實踐,2017,40(3):107-113.
[28]任彬,車萬翔,劉挺.基于依存句法分析的社會媒體文本挖掘方法——以飲食習慣特色分析為例[J].中文信息學報,2014,28(6):208-215.
[29]霍珺,盧章平.基于空間句法分析的高校圖書館建筑空間可達性研究[J].圖書情報工作,2017,61(6):53-60.
[30]俞琰,陳磊,姜金德,等.基于依存句法分析的中文專利候選術語選取研究[J].圖書情報工作,2019,63(18):109-118.
(責任編輯:陳 媛)684ED746-DECC-4521-AA5E-60CB09745A21