于凱 楊富義



摘要:通過構建突發事件網絡輿情事理圖譜,揭示輿情事件之間的邏輯關聯與演化路徑,為突發事件的分析與應對提供參考。首先,基于規則模板提取突發事件網絡輿情中的事件邏輯關系,構建事理圖譜。其次,將事件向量化表示后進行泛化處理,采用 K-Means++算法對相似事件進行聚類和抽象以構建網絡輿情抽象事理圖譜,最后在此基礎上對目標事件進行推演和預測。結果表明:突發事件事理圖譜中的事件關系類型主要為因果、并列和順承關系,大部分事件的邏輯鏈條較短,且與其他事件無明顯關聯;構建突發事件事理圖譜有利于分析事件的演化脈絡、把握關鍵事件節點并預測事件發展方向。
關鍵詞:突發事件;網絡輿情;事理圖譜;演化路徑;規則模板
中圖分類號:G 35; TP 391??????????? 文獻標志碼:A
Construction of an evolution model of emergency network public opinion based on event knowledge graph
YU Kai1,2, YANG Fuyi1
(1. School ofInformation Management, Xinjiang University ofFinance and Economics, Urumqi 830012, China;2. School ofPublicAdministration, Xinjiang University ofFinance and Economics, Urumqi 830012, China)
Abstract: The? event? knowledge? graph? of? emergency? was? constructed? to? reveal? the? logical? correlationand? evolution? path? between? public? opinion? events,? and? provide? reference? for? emergency? analysis? andresponse.? Firstly,? based? on? the? rule? template,? the? logical? relationship? of? events? in? the? network? publicopinion of emergencies was extracted, and the event knowledge graph was constructed. Secondly, theevents were vectorized and generalized, and the K-Means++ algorithm was used to cluster and abstractsimilar events to build an abstract event knowledge graph of network public opinion. Finally, the targetevents were deduced and predicted on this basis. The results show that the types of event relations in theemergency? event? knowledge? graph? are? mainly? causality,? coordination? and? sequence,? and? most? of? theevents have short logical chains and no obvious correlation with other events; The construction of theemergency event knowledge graph is conducive to analyzing the evolution of the emergency, graspingthe key event nodes and predicting the development direction of the events.
Keywords: emergency; network public opinion; event knowledge graph; evolutionary path; ruletemplate
突發公共事件是突然發生,造成或可能造成嚴重社會危害,需要采取應急處置措施予以應對的事件,具有突發性、嚴重危害性等特點。黨的二十大報告指出,提高公共安全治理水平,必須堅持安全第一、預防為主,建立大安全大應急框架,完善公共安全體系,推動公共安全治理模式向事前預防轉型。當前我國正處于社會轉型期和改革攻堅期,面對錯綜復雜的社會環境中發生的各類突發公共事件,如何實現事件的科學分析及預測,并及時采取妥善的應急管理措施,已成為新時代的重大議題。
事件是人類社會的核心概念之一,人們的社會活動往往是事件驅動的[1]。1978年,錢學森、許國志等首次提出“相當于處理物質運動的物理,運籌學也可以叫做“事理”[2]。2011年,顧基發提出了“物理–事理–人理”系統方法論[3]。2018年,哈工大劉挺團隊提出事理圖譜的概念,并用于金融領域事件預測[4]。事理圖譜是以事件為中心的知識圖譜,其聚焦事件間的動態演變關系,在挖掘事件潛在關聯、揭示輿情傳播演變規律方面具有很大優勢。伴隨著互聯網時代的到來和信息傳播方式的變革,線下發生的突發公共事件經互聯網的傳播發酵多表現為復雜多變的網絡輿情。要實現網絡輿情的科學管控,除把握其傳播特征和演化規律外,還需分析事件的前后關聯與發展路徑。
1相關研究
1.1知識圖譜與事理圖譜
知識圖譜最初是由谷歌公司為優化搜索質量而提出的語義知識庫,傳統模式的知識圖譜大多以實體為中心,無法滿足對復雜事件多樣化進行描述的需求。因此,需要將事件作為中心,并且結合事件相關語義特征去構建知識圖譜。事理圖譜可以為揭示和發現事件演化規律提供支持,對推動人工智能的發展具有非常重要的意義[5]。
相比于國內,國外提出事理圖譜的時間更早,目前國外研究主要關注事件及事件關系抽取模型、算法的創新及金融、航空、災害等領域事理圖譜的構建。如Rospocher等[6]提出了一種從新聞文章中自動抽取知識生成事件知識圖譜的方法。 Gottschalk 等[7]提出了一個多語言的以事件為中心的時序知識圖譜。 Deng 等[8]利用知識圖譜技術來輔助機器人傳動系統進行高效有序的故障診斷。 Yang 等[9]將歷史金融事件鏈作為神經網絡模型的輸入,預測未來事件。
國內研究側重于將事理圖譜與大數據、人工智能與機器學習等技術融合應用,以實現事理圖譜的自動構建、事件的分析與預測等。王慕華等[10]以通用事件表示模型(simple event model ,SEM)為基礎,構建了暴雨預警事件圖譜模型,實現了以事件影響為目的的智能推理服務。陳越等[11]構建了一個面向高中地理因果簡答題的抽象事理圖譜,實現了多源知識集成和多跳因果推理。劉政昊等[12]基于知識驅動的事件關聯與演化視角,構建具有雙層結構的事理知識圖譜,并結合案例分析了突發事件的演變邏輯。此外,學者們還探索了事理圖譜在政治、歷史、旅游等領域的應用[13-15]。
1.2事理圖譜構建技術
事理圖譜的構建過程主要分為事件表示、事件抽取和關系抽取3部分。事件表示方法主要包括結構元組表示、框架模板表示、本體表示及分布式表示方法。當前研究者多使用本體在領域中共享信息并采用自上而下的方法構建事理圖譜。Ehrlinger等[16]從理論和實踐中總結出7條功能性要求和兩條指導準則,描述了事件本體構建和選擇的標準。 Van Hage等[17]提出的 SEM 模型因具有良好的事件表示和泛化能力,常被作為事件建模的基礎。
事件抽取是構建事理圖譜的關鍵環節,目前廣泛應用的事件抽取方法主要有基于規則、基于特征學習以及基于神經網絡3種[18]。事件關系的抽取任務主要有時序關系抽取、事件因果關系抽取和共指關系抽取。其中事件時序關系抽取可追溯到 Chambers等[19]的研究,即從新聞數據中自動抽取統計腳本,并用“挖詞填空”方法來評估模型。關于事件間因果關系的抽取與應用的研究成果則比較豐富。單曉紅等[20]通過構建事理圖譜并進行抽象,實現了對網絡輿情事件的演化路徑分析和預測。 Ning 等[21]構建了基于整數線性規劃的時序和因果關系聯合抽取模型。
1.3網絡輿情演化與預測研究
針對網絡輿情演化的現有研究主要從演化階段、演化規律及演化動因3個方面展開。李志鵬等[22]從事件預測的形式化模型與性能度量指標出發, 將數據驅動的事件預測技術分為8類,對事件預測關鍵技術的研究和發展進行了分析與總結。網絡輿情的預測研究集中于輿情風險等級、網民情緒及輿情發展趨勢的預測。連芷萱等[23]通過構建多維指標體系,預測輿情的風險級別。蘭月新等[24]對網絡輿情中網民情緒演化機理和趨勢進行了預測,得到不同類型情緒的網民數量變化。Jin等[25]將事件預測問題轉化為時序事件圖譜上的鏈接預測問題, 提出了一種自回歸的循環事件網絡架構模型。
綜上所述,針對網絡輿情的現有研究更多集中于事件某方面的屬性,而非事件本身的演化路徑。事理圖譜在網絡輿情領域的應用還不成熟,研究涉及到的關系類型主要是因果和順承關系,其他事件關系類型較少。此外,由于大規模標注的突發事件關系數據集稀缺,在該領域上的關系推理及事件預測研究適用范圍較為有限。本文聚焦于突發事件網絡輿情的演化路徑分析及事件預測,試圖在大量的突發事件中尋找出更具代表性的事理邏輯,分析不同類型事件間的發展規律與演化特征,為管理部門對網絡輿情的分析和管控提供依據。
2模型方法介紹
首先,提取突發事件網絡輿情中事件的因果、順承等關系,構建事理圖譜以揭示事件的發展脈絡。其次,將事件向量化表示后進行泛化處理,以構建網絡輿情抽象事理圖譜,利用抽象事理圖譜中的方向和概率大小對新事件進行推演和預測。具體研究模型如圖1所示。
2.1網絡輿情事理圖譜構建
事理圖譜的構建包括事件抽取、事件關系抽取兩部分。其中,事件抽取主要借助哈工大語言技術平臺( Language Technology Platform , LTP )進行處理,事件關系抽取則采用規則模板匹配的方式提取事件三元組,具體步驟如圖2所示。
構建中文規則模板進行事件關系判定,提取網絡輿情中的事件關系三元組用于構建事理圖譜。其中,事件關系包括轉折、順承、并列、條件和因果關系,部分規則模板如表1所示。
2.2網絡輿情抽象事理圖譜構建
抽象事理圖譜中揭示了領域內較為核心的事件知識,事理圖譜泛化為抽象事理圖譜的過程是對事理知識的凝練[26]。本文在構建抽象事理圖譜時主要包括事件向量化、事件泛化及抽象等過程,具體步驟如圖3所示。
2.2.1事件向量化
研究采用騰訊 AI Lab 中文預訓練詞向量對事件文本數據進行向量化表示。該數據集包含800多萬中文詞匯,其中,每個詞對應一個200維的向量。它通過 Directional Skip-Gram 方法訓練而成,可使用gensim模塊調用,相比于現有中文詞向量數據,其覆蓋率和準確性有較大提升。事件的向量由各詞向量平均得到。
2.2.2事件泛化
運用 K-Means++算法對事理圖譜中的具體事件進行泛化,即先對事件進行歸并處理,將同類事件用一個抽象事件來表示。該算法確定初始質心原則是聚類中心之間的距離盡可能大,具體步驟如下:
a.將事件進行向量化表示,每一個向量作為聚類的一個樣本點;
b.隨機選擇一個點作為第一個聚類中心;
c.對于數據集中任意點 x ,用歐式距離計算它與最近聚類中心的距離 D(x);
d.選擇與原聚類中心 D(x)較大的點作為新的聚類中心;
e.重復 c 和 d 直到確定 k 個聚類中心;
f.利用這 k 個初始的聚類中心來運行標準的 K-Means 算法。
3實證分析
3.1數據來源與處理
由于突發事件語料庫較少,本研究在復用上海大學構建的 CEC(Chinese Emergency Corpus)語料庫[27]和武漢理工大學構建的突發事件公共數據集[28]的基礎上,再爬取部分熱點事件數據作為補充,最終數據量為10349條。爬取的熱點事件來自于互聯網社會熱點聚合平臺?“知微事見”,針對輿情事件庫中影響力指數較高的突發事件,采用八爪魚數據采集軟件對該網站頁面內容進行爬取,爬取時間為2022年9月30日,事件時間跨度為2017年1月至2022年9月。共爬取數據17332條,經篩選后保留有效數據8735條。采集字段包括事件分類、時間、事件名稱、內容、影響力指數和標簽,如表2所示。
3.2網絡輿情事理圖譜構建
為了進行事件抽取,需要對數據進行標注處理,采用哈工大 LTP 平臺對數據進行預處理,具體包括句子切分、分詞、詞性標注、命名實體識別、語義角色標注和依存句法分析。研究用到的依存關系類型如表3所示。
根據圖2所示的事件抽取步驟,對所有事件數據進行處理后得到事件三元組共7654條。在事件抽取的基礎上,結合上文構建的規則模板對事件間關系進行抽取,將抽取到的結果以( pre_ event, relation, post_event)三元組的形式存入 Mongo- DB 數據庫中。其中:“pre_event”代表前序事件;“post_event”代表后序事件;“relation ”代表事件間的邏輯關系類型。關系抽取結果如表4所示。
3.3基于事理圖譜的網絡輿情演化與預測
3.3.1突發事件網絡輿情演化路徑分析
通過構建網絡輿情事理圖譜,有利于剖析具體輿情事件的演化路徑,總結某一領域網絡輿情的演化規律。根據上文得到的事件三元組構建事理圖譜,結果如圖4所示。
從事件發展角度來看,事理圖譜可以明晰事件各要素之間的關聯與邏輯特征。由圖4可知,突發事件事理圖譜中除少數事件邏輯關系復雜且形成較長邏輯鏈條外,大部分事件傳播鏈較短,且與其他事件之間關聯較少。其原因可能是研究所爬取的事件數據不夠完整,造成數據稀疏,或不同事件類型之間無明顯關聯。除鏈狀結構外,圖譜中還有大量環狀結構和中心發散的結構,這類結構中往往有度較大的節點,即具有代表性的關鍵事件。重點關注這些事件的關聯關系和演化特征,可以更容易定位熱點和焦點問題,有利于把握事件的未來發展方向。如圖4中部分關鍵節點分別表示“交通事故”、“媒體報道”、“人員傷亡”、“氣候影響”等內容,其對于突發事件的應對和處理具有導向性作用,在關鍵節點處進行把控,有助于引導事件的后續走向,避免造成不良影響。
突發事件事理圖譜共包含事件關系三元組共20115條,各類關系的數量及占比情況如表5所示。
若以事件類型進行區分,事理圖譜能刻畫出特定類型事件的演化路徑,有助于對比分析各類事件演變規律的異同。以社會安全事件為例進行分析,如圖5所示為“唐山燒烤店打人事件”事理圖譜。
由圖5可以看出事件的邏輯關聯與演化路徑,該事件主要產生了4個邏輯鏈條: a.事件的緣起及發展過程。事件施事者因暴力毆打他人導致受害者受傷送醫,警方介入調查后發現嫌疑人團伙存在惡勢力組織,最后7人均被逮捕拘留。 b.事件的處置結果。嫌疑人因數罪并罰被法院判處罰款和有期徒刑。 c.事件造成的不良影響。該事件觸碰了法律底線,危害了公共安全,引發了社會廣泛的討論。 d.事件產生的其他影響。唐山市開展社會治安整治專項行動,通過多種方式發動群眾舉報各類違法犯罪線索。除以上4個主要鏈條外,事件的演化方向還存在分化現象,如對該案件保護傘問題的質疑、對公共安全和社會道德的討論。這些事件在一定程度上也會造成民眾安全感的缺失和社會情緒的極端化,潛在危害難以預估。在實踐中,有關部門應結合事理圖譜,梳理出事件關鍵路徑,重點關注演化過程中涉及的關鍵對象;并且可以采取一些防范措施,預防潛在風險事件的發生。
3.3.2抽象事理圖譜構建
按照上文的步驟構建抽象事理圖譜。首先,使用 python 軟件調用gensim模塊中的KeyedVectors函數,使用騰訊 AI Lab 中文詞向量對事件三元組進行向量化表示,取詞向量的平均值作為事件向量,將事件向量存入 MongoDB 數據庫用于后續聚類處理。
其次,對事件進行泛化,將相似度較高的事件進行歸并處理。由于泛化后無法自動為每一事件類生成標簽,因此,通過 Embedding Projector 應用程序進行高維數據的可視化,輔助尋找聚類后具有代表性的標簽。Embedding Projector 是2016年谷歌開源的用于交互式可視化和高維數據分析的網頁工具,它提供 PCA ( principal component analysis)、 T-SNE ( T-distributedstochastic neighbor embedding)和自定義線性投影3種常用的數據降維方法,輔助用戶實現復雜數據的可視化[29]。本文采用 T-SNE 對向量數據進行處理和聚類,該方法用于探索局部近鄰值和尋找聚類,可以確保一個嵌入保留了數據中的所有含義,結果如圖6所示。
由圖6可見,運行 T-SNE 方法后,向量形成了一些聚簇,聚簇表示事件向量間的余弦距離較為接近,即簇內事件大致屬于同一類別。
如圖7所示,左側每個圓點表示一個事件向量。選中任意事件,右側部分是查找出的與之最接近的100個鄰居節點。節點顏色越接近源節點,表示兩個向量相似度越高。將這些相似節點的標簽中的高頻詞作為事件聚簇整體的標簽,則可以得到一個抽象化描述。
結合前文構建的事理圖譜和事件向量聚類可視化結果,可以梳理出不同類型事件的演化路徑,即抽象事理圖譜。抽象事理圖譜展現了事件之間的關聯關系,暗含了事件未來可能演化的方向,事件間轉移的概率則代表某事件未來發生的可能性。以自然災害事件中的地震為例,如圖8所示,可以得到“地震”這一原因事件可能造成房屋受損、人員傷亡等結果事件,事件間連邊概率大小是根據每一事件占“地震”后序事件的比重來確定的,概率越大,說明該事件越可能出現。圖中:與“地震”直接相連的事件表示該事件為直接結果,如“應急救援”、“人員傷亡”;而與“地震”間接相連的事件則為其次生結果,如“經濟損失”、“傳染病”。在實際應用中,當收到某地的地震預警信息,應首先針對可能發生概率最大的直接結果事件迅速采取應急舉措,同時還應該預防一些潛在危機的發生,如傳染病的預防和交通秩序的維護,盡可能減少災害造成的各種損失。由此可見,抽象事理圖譜的構建有助于識別一般性事件中的一些關鍵節點,為有關部門抓住重點問題、有的放矢地進行突發事件應對提供有效的決策參考。
3.3.3網絡輿情事件預測
在得到抽象事理圖譜的基礎上,可以對突發事件領域內任意一個新發生的網絡輿情事件進行預測,具體步驟為:首先,將該事件進行向量化表示,計算該事件與事理圖譜中各事件之間的相似度值,選擇相似度最高的事件作為預測的起點事件;其次,在突發事件抽象事理圖譜中找到起點事件的泛化事件;最后,遍歷抽象事理圖譜,找到泛化事件的后續事件節點及其權重,根據權重判斷哪些是最有可能發生的事件。
4結束語
互聯網時代,由社交網絡產生的大量輿情信息存儲在無結構化數據中,傳統的以專家經驗為主的輿情治理模式已經無法滿足多樣化和精細化的管理需求,亟需一種先進的知識組織方式來對復雜事件進行描述與處理,提升應急管理水平。本文通過構建突發事件事理圖譜來揭示事件演化規律并預測后續事件。研究發現,利用事理圖譜輔助突發事件的分析和管控,有利于揭示該領域事件的演化規律與特征、識別關鍵事件并挖掘潛在事件關聯。在實際應用中,構建抽象事理圖譜可以基于大量以往案例預測后續事件,優化管理部門的應急處置和預防工作,減輕突發事件給人們帶來的損失。本文通過對突發事件領域事理圖譜構建及應用的研究,豐富了知識圖譜在突發事件領域的應用場景。不足之處在于: a.本文的數據來源為各平臺上關于事件的報道信息,并未爬取完整事件文本及評論內容,丟失了部分關聯事件; b.對于事件間關系的抽取,采用基于規則模板的方式進行匹配,準確率和有效性有待提高。下一步將重點提升知識抽取及泛化算法的準確性和有效性,以優化事件預測效果。
參考文獻:
[1]李忠陽.面向文本事件預測的事理圖譜構建及應用方法研究[D].哈爾濱:哈爾濱工業大學, 2021.
[2]錢學森, 許國志, 王壽云.組織管理的技術——系統工程[J].上海理工大學學報, 2011, 33(6):520–525.
[3]顧基發.物理事理人理系統方法論的實踐[J].管理學報,2011, 8(3):317–322,355.
[4] DINGX,LIZY,LIUT,etal. ELG: aneventlogic graph[EB/OL].(2019-08-07)[2023-01-02]. https://arxiv. org/abs/1907.08015
[5]王蘭成, 張思龍, 許和旭.網絡輿情事理圖譜構建及應用[J].中華醫學圖書情報雜志, 2021, 30(5):17–23.
[6] ROSPOCHERM,VANERPM,VOSSENP,etal. Buildingevent-centricknowledgegraphsfromnews[J]. Journal of Web Semantics, 2016, 37–38:132–151.
[7] GOTTSCHALKS,DEMIDOVAE. EventKG: a multilingual event-centric temporal knowledge graph[C]// Proceedingsofthe 15thEuropeanSemanticWeb Conference. Heraklion: Springer, 2018.
[8] DENG J, WANG T, WANG Z W, et al. Research on eventlogicknowledgegraphconstructionmethodofrobottransmission system fault diagnosis[J]. IEEE Access, 2022,10:17656–17673.
[9] YANG Y Y, WEI Z Y, CHEN Q, et al. Using external knowledge for financial event prediction based on graph neuralnetworks[C]//Proceedingsofthe 28thACM InternationalConferenceonInformationand Knowledge Management. Beijing: ACM, 2019.
[10]王慕華 , 王天岳 , 李雁鵬 , 等.基于通用事件表示模型(SEM)的暴雨預警事件圖譜研究[J].災害學 , 2021, 36(4):74–78.
[11]陳越, 何宇豪, 孫亞偉, 等.基于抽象事理圖譜的因果簡答題求解方法[J].中文信息學報, 2022, 36(4):124–136.
[12]劉政昊, 曾曦, 張志劍.面向應急管理的金融突發事件事理知識圖譜構建與分析研究[J].信息資源管理學報 , 2022, 12(3):137–151.
[13]白璐, 周子雅, 李斌陽, 等.面向政治領域的事理圖譜構建[J].中文信息學報, 2021, 35(4):66–74.
[14]劉忠寶, 黨建飛, 張志劍.《史記》歷史事件自動抽取與事理圖譜構建研究[J].圖書情報工作 , 2020, 64(11):116–124.
[15]鄧君, 彭珺, 孫紹丹, 等.基于事理圖譜的游記文本知識發現——以康養旅游為例[J].現代情報 , 2022, 42(7):105–113.
[16] EHRLINGERL,W??W. Towardsadefinitionof knowledge graphs[C]//Joint Proceedings of the Posters and DemosTrackofthe 12thInternationalConferenceon SemanticSystems - SEMANTiCS2016 andthe 1st International Workshop on Semantic Change & Evolving Semantics (SuCCESS'16) Co-Locatedwiththe 12thnternationalConferenceonSemanticSystems(SEMANTiCS 2016). Leipzig: CEUR-WS. org, 2016.
[17] VAN HAGE W R, MALAIS? V, SEGERS R, et al. Designand use of the simple event model (SEM)[J]. Journal of Web Semantics, 2011, 9(2):128–136.
[18]王毅, 沈喆, 姚毅凡, 等.領域事件圖譜構建方法綜述[J].數據分析與知識發現, 2020, 4(10):1–13.
[19] CHAMBERS N, JURAFSKY D. Unsupervised learning of narrative event chains[C]//Proceedings of ACL-08: HLT. Columbus: ACL, 2008.
[20]單曉紅, 龐世紅, 劉曉燕, 等.基于事理圖譜的網絡輿情事件預測方法研究[J].情報理論與實踐 , 2020, 43(10):165–170.
[21] NING Q, FENG Z L, WU H, et al. Joint reasoningfor temporal and causal relations[C]//Proceedings of the 56thAnnualMeetingoftheAssociationforComputational Linguistics. Melbourne: ACL, 2018.
[22]李志鵬, 楊陽朝, 廖勇, 等.數據驅動的事件預測技術最新研究進展[J].信息安全學報, 2022, 7(1):40–55.
[23]連芷萱, 蘭月新, 夏一雪, 等.面向大數據的網絡輿情多維動態分類與預測模型研究[J].情報雜志, 2018, 37(5):123–133,140.
[24]蘭月新, 夏一雪, 劉冰月, 等.面向輿情大數據的網民情緒演化機理及趨勢預測研究[J].情報雜志, 2017, 36(11):134–140.
[25] JIN W, QU M, JIN X S, et al. Recurrent event network: autoregressive structure inferenceover temporal knowledge graphs[C]//Proceedings of 2020 Conference on Empirical MethodsinNaturalLanguageProcessing. Stroudsburg PA: Association for Computational Linguistics, 2020.
[26]劉雅姝, 欒宇, 周紅磊, 等.基于事理圖譜的重大突發事件動態演變研究[J].圖書情報工作 , 2022, 66(10):143–151.
[27]劉煒, 王旭, 張雨嘉, 等.一種面向突發事件的文本語料自動標注方法[J].中文信息學報, 2017, 31(2):76–85.
[28]邱奇志, 周三三, 劉長發, .等基于文體和詞表的突發事件信息抽取研究[J].中文信息學報, 2018, 32(9):56–65.
[29] SMILKOVD,THORATN,NICHOLSONC,etal. Embeddingprojector: interactivevisualizationand interpretationembeddings[EB/OL].of(2016-11-16)[2023-01-02]. https://arxiv.org/abs/1611.05469
(編輯:丁紅藝)