999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

腳本事件預測:方法、評測與挑戰

2023-01-01 00:00:00劉玉婷劉茗王保衛丁鯤劉姍姍劉瀏
計算機應用研究 2023年5期

摘 要:相較于問答等經典的自然語言處理任務,腳本事件預測并未受到廣泛關注。腳本事件預測旨在通過給定的上下文事件對未來事件進行準確預測,進而為后續可能發生的事件作出相應部署。為此,其研究具有重要意義,需要進行歸納與總結。針對腳本事件預測任務,首先給出腳本事件預測的基本概念;然后,梳理分析了事件表征中論元構成和事件表示學習兩個子任務,其中事件表示學習從嵌入編碼和語義增強兩個方面敘述;接著,又以腳本建模方法為主線,從事件對、事件鏈、事件圖以及結合型建模四個角度對其進行總結;并且,對現有模型進行測試,分析各類模型效果;最后,總結當前研究存在的問題,并展望未來可能的研究方向。

關鍵詞:自然語言處理;腳本事件預測;事件表征;腳本建模

中圖分類號:TP181 文獻標志碼:A 文章編號:1001-3695(2023)05-003-1303-09doi: 10.19734/j.issn.1001-3695.2022.09.0494

理解文本中描述的事件對許多人工智能任務來說至關重要,腳本事件預測正是其中一個具有挑戰性的任務。腳本的概念由Schank等人[1]提出的,用來理解自然語言文本。一個典型的案例是描述一個人去電影院的場景,“顧客進入電影院”“顧客買電影票”“顧客進入影廳”和“顧客觀看電影”等一系列活動相繼發生,這種結構化的表示方式稱之為腳本。腳本事件預測是對這種結構化事件的演化推理。2008年,Chambers等人[2]提出了腳本事件預測的概念,將其定義為通過給定場景中已經發生的一系列上下文事件,預測接下來最有可能發生的事件;另外,他們還提出了一種新的結構化事件表示方法,稱為敘事事件鏈。敘事事件鏈是以一個共同的主角為中心的部分有序的事件集,其中參與者和事件的結構化序列被稱為腳本。他們的工作為腳本事件預測的發展奠定了重要基礎。

腳本事件預測的處理通常是從非結構化文本中提取出與事件相關的信息后,將信息以結構化的形式展現,再利用文本來推斷出事件之間的關系,預測未來可能發生的事件。

1 事件表征

事件是現實世界中信息更為結構化的表示形式,從事件中獲取有效的事件表征有助于推理出正確的后續事件。為獲取有效的事件表征,首先需確定事件要素構成形式,再對事件表示進行學習。下面將針對這兩個部分分別進行介紹。

1.1 要素構成

事件通常由動詞和名詞短語等要素組成,動詞描述主角的動作,名詞短語則描述相關的實體。事件的組成要素包括動作或事件的參與者、事件發生的時間或地點等,可以通過自然語言處理(natural language process,NLP)工具從事件的文本中提取。Chambers等人[2]針對事件表示的方法進行了創新。他們認為,雖然一個敘事事件鏈有多個參與者,但事件鏈只有一個核心角色即主角。因此,他們提出用(predicate; dependency)來表示一個事件,這種表示方式被稱做Predicate-GR。其中predicate指事件描述中的謂語動詞,dependency指動詞和主角之間的語法依賴關系,如“主語”“賓語”或“介詞”等。

文獻[2]所提出的事件表示方法雖然為后續的很多研究工作奠定了重要的基礎,然而這種表示也有其不足之處。由于某些事件文本缺乏一致的主題,所以不同角色的事件就會被錯誤地混合到單個角色中。對于“X去吃飯”和“Y去度假”,它們的表示方法都是〈go,obj〉,所以“go”表示的是“去吃飯”還是“去度假”就無從得知,且無法區分事件的主角是X還是Y。所以,Balasubramanian等人[3]提出了Rel-grams,其事件表示模式為(Arg1; relation; Arg2),這種關系三元組提供了更為具體的事件表示方法。其中Arg1表示事件的主語,Arg2表示事件的賓語,relation表示事件的核心動詞。例如,“He cited a new study that was released by UCLA in 2008(他引用了加州大學洛杉磯分校2008年發布的一項新研究)”,事件被表示為“(He, cited, a new study)(a new study, was released by, UCLA)”。雖然這種事件表示更為具體,但增加了事件表示的稀疏性。為了減少稀疏性以及提高事件表示的泛化性能,他們對事件表示使用規范化的關系字符串,上述事件則表示為“(〈person〉, cite, study)(study, be release by, UCLA)”。

以上工作主要針對的是單個主角事件。對于多主角事件,例如“Mary emailed Jim and he responded to her immediately(Mary給Jim發了郵件,Jim立即回復了她)”,如果根據所涉及的實體進行分組就會產生兩條事件鏈。第一條以Mary為實體,其事件鏈表示為(email,subject)(respond,object);而對于Jim,事件鏈則表示為(email,object)(respond,subject)??梢宰⒁獾絾蝹€動詞可能會產生多個事件對,并且離散的事件對之間彼此沒有聯系。因此,Pichotta等人[4]提出帶有多論元的事件表示方法,這種方法能夠直接捕獲多個實體之間的交互。他們將事件表示為v(es,eo,ep),其中v表示事件的核心動詞,es表示事件的主語,eo表示事件的賓語,ep表示事件的介詞賓語,除v之外的任何參數都可以是1(用-表示),1表示所指參數與動詞沒有語義依賴關系。上述兩條事件鏈則被表示為email(Mary,Jim,-)和respond(Jim,Mary,-)。由此可見,這種事件表示方法可以獲取更多的文本事件結構,更能表達一個事件的具體含義,非常適合作為腳本的表示。

接下來的研究也在不斷改進多論元事件表示。文獻[4]提出來的多論元事件表示方法雖然可以提高預測的準確性,但是這種更豐富的事件表示方法仍有不足。事件表示是基于共指事件鏈的,鏈中的實體在內部映射到變量。但是對于長度為1的實體而言,所有單個實體映射到另一個公共類別后,關于這些實體的信息都丟失了。以order(people,food,-)和order(people,car,-)為例,如果所給文本中沒有出現food和car,那么這兩個事件無法進行區分?;诖藛栴},Ahrendt等人[5]提出了基于參與者的模型。模型將文本表示為由參與者標記的事件鏈(PLE),PLE由一個動詞和它的參與者標簽組成,它的一般形式是verb(psubj,pdobj,piobj),其中psubj、pdobj和piobj不是直接表示事件的主語、直接賓語和間接賓語,而是分別代表著主語、直接賓語和間接賓語的參與者標簽。例如“The waitress brought us some water(服務員給了本文一些水)”,其中直接賓語water的參與者標簽就對應著customer,相應的PLE表示形式為bring(waiter, drink, customer)。實驗表明,明確地標記事件參與者可以提高事件預測性能。為進一步提高預測性能,Pichotta等人[6]將事件表示為五元組v(es,eo,ep,p),與以往的事件表示方法的不同之處在于多了一個介詞論元p。

事件中還有其他要素,如情緒、有生性、事件時間和位置信息等,這些要素都可以潛在地增強事件表示,進而有效地表示事件。Lee等人[7]提出特征事件嵌入學習(featured event embedding learning,FEEL)。FEEL將事件表示為(tok(e),sub(e),obj(e),prep(e),f1(e),f2(e))的形式,它包含四個基本組件和兩個細粒度屬性,其中tok(e)是將謂詞及其依賴關系與事件聯系起來的標記,另外三個基本組件sub(e)、obj(e)和prep(e)的含義與之前工作類似,分別代表事件的主語、賓語和介詞賓語。兩個細粒度屬性f1(e)、f2(e)分別代表句子級情感屬性和事件主角的生命性信息。f1(e)包含三種情感屬性標簽,分別為消極、中立和積極,f2(e)同樣包含三種生命性信息類型,分別為有生命、無生命和未知。以“Jenny went to a restaurant and ordered a lasagna plate(Jenny去餐館點了一份千層面)”為例,FEEL可以捕獲到以Jenny為事件主角的兩個事件表示形式,分別為((go,subj),Jenny,-,restaurant, 中立,有生命性)和((order,subj),Jenny,plate,-,中立,有生命性)。除了事件主角,一個事件可能包含多個參與者,每個參與者對事件的發生都有一定影響。因此,為了獲得更全面的事件語義表示,Bai等人[8]將事件出現的原句子集成到事件表示中,即將事件表示成(v,a0,a1,a2,t),其中v、a0、a1和a2分別代表動詞、主語、賓語和間接賓語,t則代表事件出現的原句。

最初的事件表示主要針對單個事件主角來構建敘事事件鏈,而忽略了事件腳本中的很多重要信息。為了解決這一問題,研究了更為豐富的事件表示方法,考慮事件中更多的要素,以此獲得更全面的語義表示。各類事件要素構成方法如表1所示。

1.2 事件表示學習

為保留事件豐富的語義信息,需將結構化的信息表示為計算機可以理解的形式,即事件表示學習。通常是采用編碼的思想,使事件表示中盡可能地保留事件元素的信息。另外為了獲取更準確的事件表示,還會考慮在事件表示中融合外部知識,即語義增強。

1.2.1 嵌入編碼

事件表示通過事件結構對事件元素的向量進行語義組合,計算事件向量表示。按照組合方式的不同,可以分為基于詞向量與基于神經網絡的語義組合方式。

1) 基于詞向量的語義組合

最簡單的語義組合方式莫過于自然組合。以“人民日報”為例,將“人民”與“日報”進行自然組合后得到了“人民日報”。但由于“日報”可能也是一份報紙的名稱,所以它們組合后可能會得到另一份不同的報紙,所以使用自然組合的處理方式不能用來表示多個單詞組成的短語。

研究發現,使用向量來表示整個短語會有效避免這種情況,即將詞轉換成一個分布式表示?;诖?,Mikolov等人[9,10]提出了一種高效訓練詞向量的模型—word2vec,來學習短語向量表示,根據詞匯的“共現”信息將詞匯編碼成一個向量。在一定程度上,他們的工作是對用矩陣向量表示短語的補充,推進了推理工作的發展。除了提出word2vec來學習短語向量表示,Mikolov等人[9]還發現了向量的“加法”屬性,即簡單的向量加法可以產生有意義的結果,如vec(“中國”)+vec(“首都”)的結果接近vec(“北京”)。通過將事件元素的詞向量進行相加或拼接后映射到事件向量空間,可以充分利用詞向量信息,但在建模事件元素間的交互上較為薄弱。具體來說,通過與其相鄰詞的共現頻次統計得到的向量難以捕獲較長短語的語義,因此限制了其對句意的理解。

2)基于神經網絡的語義組合

雖然文獻[9]提出的向量的“加法”屬性可以獲得有意義的結果,但利用“加法”屬性很難針對事件表面形式的細微差異進行建模。例如,“She throw basketball(她扔籃球)”與“She throw bomb(她扔炸彈)”會得到相近的向量表示,但是這兩個事件在語義上并不相近。為了解決這一問題,Weber等人[11]提出了基于張量(tensor)的神經網絡組合模型,核心思想是:事件嵌入由主語元素和賓語元素的乘法之和構成,其中的權重取決于謂語,通過使用權重來獲取事件中主謂賓的關鍵信息。與以隱式或相加的方式學習語義組合相比,該模型可以通過乘法組合事件的語義。這種方式下,即使事件論元只有細微的表面差異,也能夠在事件表示中體現出語義上的較大差別。

隨著神經網絡的發展,它被廣泛應用于語義特征提取任務上,從文本數據中提取特征。Socher等人[12]提出一種用于組合語義的遞歸神經網絡模型(matrix-vector recursive neural network,MVRNN),將每個單詞和短語都用一個向量和一個矩陣表示,通過解析樹的語法結構,自下而上遞歸組合單詞,從而學習任意語法類型和長度的短語或句子的組合向量表示。2014年,Modi等人[13]提出使用一個簡單的組合模型來表示事件謂詞及其論元的語義,然后通過組合神經網絡將事件單個論元的向量表示組合得到事件的向量表示。類似地,Modi等人[14]又提出在計算事件表示的過程中,參數和模型的排序組件是從文本中聯合估計的,可以用事件排序任務來學習嵌入和評估模型。由于事件不是一個牢不可破的單位,而是由一些包含謂詞及其參數的可分離的組件組成,所以所有的組件可以表示為嵌入向

量,并從預測原型事件排序中學習得到,組件的嵌入是在相同的向量空間中,再通過組合神經網絡獲得整個事件的向量表示。文獻[15]則是聯合使用word2vec和組合神經網絡來學習事件嵌入,將事件元素的詞向量拼接后,輸入多層全連接神經網絡,對事件元素的詞向量進行組合。文獻[16]認為,事件是由一系列子事件組成,而且事件通常在兩個層次上表現出順序結構:a)描述特定子事件的詞按語義順序排列;b)屬于同一事件的多個子事件按順序進行。由于這種順序結構的存在,給準確表示一個子事件帶來了難度,所以,Hu等人[16]提出上下文感知的層次長短期記憶網絡(context-aware hierarchical long short-term memory,CH-LSTM),用于對未來的子事件進行預測。CH-LSTM模型是一個兩層的LSTM架構,第一層用來編碼子事件,將每個子事件映射到一個向量空間中;第二層則是對觀察到的子事件序列進行編碼,其中還結合了上下文的主題特征。

1.2.2 語義增強

基于神經網絡方法的核心在于將事件嵌入到向量空間進行編碼。嵌入的向量保留了事件中的語義信息,克服了事件元素建模較為薄弱的問題。雖然以嵌入編碼的方式可以表達客觀事實,但人類的主觀情感可能會對客觀事件的發生產生影響,且不同事件背后的意圖也有所不同。為更好地建模事件語義,在嵌入編碼工作的基礎上進一步增加語義增強的工作,為事件表示學習帶來了新的突破。

不考慮事件語義的情況下,難以區分事件之間微妙的差別。一方面,如果兩個事件中單詞重疊較少,就會被映射為距離較遠的兩個向量,例如“X threw bomb(X扔炸彈)”和“Y attacked school(Y襲擊學校)”;另一方面,如果兩個事件單詞重疊較多,即使它們關聯很小,也容易被映射為距離較近的兩個向量,被認為具有很高的相似度,例如“X broke record(X打破記錄)”和“Y broke glass(Y打破杯子)”。但從事件發生的意圖來看,“扔炸彈”和“襲擊學?!倍紝儆诒┝κ录瑥亩鴳哂泻芨叩南嗨贫?;從事件參與者的情感來看,“打破記錄”可能會很高興,但“打破杯子”可能心情會很沮喪,因此應被認為關聯很小。為了避免這種情況,研究者在事件中考慮事件意圖以及參與者情感等信息來對事件的語義進行增強。文獻[7]提出的FEEL模型正是歸屬于語義增強的工作之一。模型所采用的六元組表示方法考慮到了事件背后的意圖等細微信息,其表示方法可以更好地將文本信息用做常識性推理。類似地,2019年,Ding等人[17]為了更好地建模事件表示,提出學習事件表示時融入人的情感及意圖等外部常識知識。在學習事件表示過程中使用張量神經網絡(neural tensor network,NTN)[18]作為事件表示模型,模型使用雙線性變換顯式地建模謂語與主語、謂語與賓語及三者間的交互關系。研究表明,具有順承關系的事件間情感的一致性可以幫助預測后續的事件,所以融入人的情感等外部常識性知識在腳本事件預測等任務上能取得更好的效果。

除了事件背后的意圖等信息,語義增強還會考慮到事件之間的邏輯關系,如事件之間的因果關系。因果關系不僅是一種知識,也是推理和理解未知事件的基礎。Zhao等人[19]嘗試使用事件因果關系來預測事件,他們建立了一個抽象的新聞事件因果網絡,從這個因果網絡中可以得到一般的因果模式,另外還將因果網絡嵌入到連續向量空間,簡化了事件匹配過程,使其較易用于其他應用。

經觀察發現,外部知識在理解和預測事件時起著重要的作用,為充分利用額外的事件知識,運用的方法可以分為使用預訓練和使用圖神經網絡融合外部知識兩種類型。針對將常識整合到語言模型中的預訓練方法,文獻[20]提出了K-ADAPTER,其保持了預訓練模型的原始參數,支持持續的知識注入。關于整合外部知識的方法,文獻[21]提出了“只限尾”“事件模板”和“關系嵌入”三種方法,將外部知識集成到模型中,結果表明,與不使用外部知識相比,三種方法的效果均有超過0.44%的提升。雖然預訓練的方法取得了巨大成功,但其缺乏可解釋性,即難以明確說明使用到了訓練語料庫中的哪些知識。而圖神經網絡能提供良好的可解釋性,因此文獻[22]提出從事件圖中學習知識,以引入一個潛在變量的方式對中間事件的信息建模,從而實現融合外部知識。

1.2.3 小結

本節針對事件表示學習方法中存在的問題與挑戰進行了總結,如表2所示。

無論是用嵌入編碼的形式表示事件還是將外部信息融入事件表示進行語義增強,目的都在于將結構化的事件信息表示為機器可理解的形式。基于詞向量的方法將詞轉換成稠密向量,優點在于包含更多的信息,但面臨著元素間交互較為薄弱的問題;基于神經網絡的方法使用神經網絡模型從文本中提取特征進行編碼,有效解決了上述問題,但由于事件中包含豐富的語義信息,所以缺乏對事件語義的充分保留;為保留事件的語義信息,在建模事件語義時考慮事件外部信息,即語義增強。

2 腳本建模

確定事件的表征后,對腳本進行建模。根據建模方法的不同,將其分為基于統計學習的方法和基于深度學習的方法。

2.1 基于統計學習

早期的腳本建模方法主要是統計學習方法,這類模型通過統計訓練集中事件發生的概率來進行后續的預測。Chambers等人[2]提出使用PMI(pairwise mutual information)學習敘事關系,度量事件和敘事鏈之間的關系。PMI統計訓練集任意兩個事件同時發生的頻率作為這兩個事件同時發生的概率,以進行后續事件的預測。敘事鏈是一組敘述事件,由元組(L,O)構成,其中L由一系列的事件—關系對組成,O是事件的部分時序關系。為了生成敘事事件鏈,首先將依存句法分析器與共指消解相結合收集事件腳本統計數據并預測腳本事件,對于其訓練語料庫中的每個文檔,使用共指消解識別所有實體,并使用依存句法分析器識別具有實體作為主語或賓語的所有動詞。另外將事件定義為動詞加上依賴類型(主語或賓語),并為每個實體收集共同論元所參與的事件鏈。然后,計算在語料庫中發生的事件鏈中所有事件對的PMI,再通過最大化來找到下一個最有可能發生的事件。

給定一個包含n個事件的事件鏈E=(e1,e2,…,en-1,en)以及一個候選事件c,事件ei采用Predicate-GR的表示方法。PMI計算過程如式(1)~(3)所示,其中,n是事件鏈中的事件數,ei代表第i個事件,m是訓練語料庫中的候選事件c的數量,C(ei,c)是事件對(ei,c)的共現次數。

由PMI可知,通過給定部分事件鏈,可以預測屬于該腳本的其他事件。進一步地,Jans等人[23]基于Camp;J08的工作提出了Bigram。Bigram采用二元條件概率來表示兩個事件的關聯強度,并按照觀察事件鏈的順序建模事件鏈,其建模思想為:以個別先前已有事件為條件計算后來的每個事件元組的最大似然概率。這種方法按照觀察事件鏈的順序建模事件鏈。

計算事件間的條件概率如式(4)所示(以e1和e2為例)。

候選事件c的得分則是由上下文事件ei和候選事件之間的平均概率得到的,如式(5)所示。

總結起來,PMI和Bigram這類基于統計學習方法的模型是通過統計訓練集中的事件發生的概率來進行后續預測,但對訓練集中沒有出現過的事件則無法進行預測。

2.2 基于深度學習

由于統計學習方法是簡單地從概率論的角度給出每個事件發生的概率,而忽略了事件之間內在的聯系。隨著研究的進一步深入,基于統計學習的方法逐步被基于深度學習的方法所代替。深度神經網絡具有強大的表征能力,同時數據中的信息可以在模型中進行有效編碼。本節根據任務發展階段,將基于深度學習的腳本事件預測方法劃分為基于事件對、事件鏈、事件圖和結合型建模四個部分進行回顧。

2.2.1 事件對

基于事件對的方法研究主要集中在對事件對的關聯進行建模,其建模方法是將候選事件c與整個腳本的關系拆解為和腳本中每個事件ei之間連貫性分數的聚合,公式如式(6)所示。

coh(c,e)=Aggei∈e(coh(c,ei))(6)

word2vec[9]和eventcomp模型[15]正是其中的典型方法。word2vec采用兩個事件嵌入的余弦相似性作為事件對的關聯強度;eventcomp模型則是由輸入層、論元組合層和事件組合層組成,學習單詞的嵌入向量表示和事件的向量表示,以此來預測兩個事件是否會出現在同一個事件鏈中。如圖1所示,以兩個事件為例。在模型中,謂詞和論元進行非線性組合,再通過一個共享權重的孿生神經網絡(siamese network)將兩個事件的向量表示映射到新的空間,將其組合到一起,形成新的向量空間表示。最后利用損失函數計算出這兩個輸入事件在同一鏈中出現的關聯強度。訓練后的eventcomp模型與基于統計學習的方法相比,在NYT英文數據集上,Acc指標提升了905%,證明了將深度學習應用在腳本事件預測領域是有效的。

基于事件對的方法重點關注事件和候選事件之間的相關性,因而可以用來應對更靈活的事件順序。但它忽略了敘事事件鏈中各個事件之間的時序信息,而敘事事件鏈中各個事件的發生順序相互影響,先發生的事情必然影響后續事件的預測。

2.2.2 事件鏈

基于事件鏈的方法重點關注敘事事件鏈中各個事件之間的時序信息,將已知的事件組織成事件序列,并認為待預測事件是序列的下一個元素。而遞歸神經網絡(RNN)則常被用來處理時序信息,原因在于RNN將上個時間節點的隱節點狀態也作為了神經網絡單元的輸入。但它也存在著一些問題,首先是“長距離依賴”問題,所謂依賴,即某個單詞可能與其距離較遠的某個單詞具有強依賴關系。以圖2為例,第一句話中,was受dog影響所以是單數;而第二句話中,were則是受dogs影響,并非它們之前的單詞food。當神經網絡的節點經過許多階段的計算后,之前較長的時間片的特征已經被覆蓋,所以難以建立跨度較大的依賴性。由于句子之間跨度很大,RNN則容易出現梯度消失問題從而捕捉不到句一和句二之間的依賴關系,最終造成語法錯誤。所以,為了解決RNN存在的問題,提出了長短期記憶(LSTM)[24]。LSTM引入了門控(gate)機制用于控制特征的流通和損失,從而解決了長距離依賴和梯度消失問題。

Pichotta等人[25]率先提出將LSTM用于腳本事件預測任務,在任務中直接合并事件論元的名詞信息,并在模型中引入LSTM和GRU,在實現編碼遠距離傳播事件的同時不丟失歷史信息。具體來說,他們將腳本學習任務定義為一個序列建模任務,使用訓練模型來預測下一個輸入,在每個時間步長中,都有一個事件組件被輸入到LSTM模型中。在輸入整個事件鏈后,模型將輸出一個附加事件的預測。在推斷已有事件和新事件這兩項任務上進行評估,使用LSTM后的方法表現均優于之前的方法。但隨著事件文本數量的增多,序列模型進行推斷的難度也會增大。進一步地,Pichotta等人[26]提出事件鏈的原始文本可以被直接用來預測缺失事件。他們采用句子級RNN編碼器—解碼器[27]模型進行文本預測,在實驗中將由原始文本訓練的系統與由結構化事件表示的相同文本的LSTM模型進行了比較,研究結果表明兩者結果相當,僅在Acc指標上有0.1的差別。

事件通常由一系列子事件組成,例如地震事件就會包含險情預報、地震發生和救援工作等一系列的子事件,因此利用歷史事件來自動預測未來的子事件預測是非常有必要的。Hu等人[16]提出了一個端到端的模型CH-LSTM(context-aware hierarchical long short-term memory),它無須手動標記特征,并且可以生成訓練集中沒有的新事件。CH-LSTM正是使用了已發生的子事件進行預測,與文獻[26]的工作類似,將事件鏈原始的子事件的文本作為輸入,未來可能發生的子事件的文本描述作為輸出。CH-LSTM模型使用兩級LSTM架構,在第一層,編碼子事件后將子事件映射到另一個嵌入事件當中;而在第二層,則是對觀察到的子事件順序進行編碼;另外還結合了上下文的主題特征來增強語義。由于CH-LSTM模型考慮了兩個層次上的順序結構,還合并了額外的上下文特征,在單詞分類錯誤任務上和困惑度(perplexity)這兩個指標上相比LSTM,分別降低了5.17%和73.26%,所以證明考慮事件的兩級結構可以有效提升模型的預測能力。

事件鏈中存在著豐富的事件片段關系,若能充分利用這些事件片段之間的關系,則能提升后續事件預測的準確性。而自注意力機制[28]則可以用來提取不同的事件片段并將事件鏈表示成事件片段的組合,學習更準確的事件表示?;诖耍琇yu等人[29]提出SAM-Net,采用動態記憶網絡來提取事件鏈的特征,將事件鏈表示為一組事件片段。由于不同的個體事件或事件片段可能與后續事件有不同的語義關系,SAM-Net使用兩種注意力機制為每個個體事件和事件片段分配不同的對應權重,而模型對后續事件的預測則是基于這兩種注意力機制的結合來實現的。SAM-Net解決了兩個很重要的問題:

a)如何準確地表示事件鏈。由于事件鏈是由一系列事件組成,所以事件可能比句子中的單詞更稀疏。研究者在研究中使用自注意力機制,從事件鏈中獲取不同的事件片段,為了減少冗余,再采用DenseNet[30]進行特征提取,同時得到事件鏈的向量表示。

b)如何將事件鏈和候選事件集成在一起并表示它們之間的關系。SAM-Net模型如圖3所示,首先使用事件級注意力機制匹配候選事件與單個事件,獲取事件級的上下文表征;然后,用鏈級注意力機制匹配候選事件和事件片段,獲得鏈級上下文表征;最后,整合事件級和鏈級上下文表征,與事件鏈表征進行交互預測后續事件。

鑒于事件表示學習的方法主要關注事件或鏈級的粗粒度連接,而忽略了事件之間更細粒度的連接。Wang等人[31]提出了一種新的事件表示學習范式MCer,通過集成事件在多個粒度級別上的連接,包括論元級別、事件級別和鏈級別,來增強事件的表示學習。之前的大部分工作僅考慮單一參與者所對應的事件鏈。在事件層面,以往的研究是將事件視為一個帶有參與者的動詞,而忽略了其他有用的屬性,如參與者的意圖和狀態等;在腳本層面,大多數研究也只考慮與一個共同的主角對應的單一事件序列,這種事件表示方法缺乏必要的信息來獲得更準確的預測。因此,Bai等人[8]提出了一個基于Transformer的模型,利用不同參與者所對應的敘事事件鏈來建模各自的行為趨勢,稱為MCPredictor,該模型集成了深度事件級和腳本級信息。事件級信息包含描述事件的必要元素,如動詞及其參與者,而腳本級信息則描述了事件是如何連接和結構化的,例如通過時間順序或共同參與者。在事件層面,MCPredictor保留文本中描述事件的所有組成部分來獲得更全面的事件語義表示,它包含一個事件編碼組件和一個文本編碼組件,通過對兩個組件的輸出進行聚合,就可以得到更全面的事件語義表示;在腳本層面上,通過注意力機制聚集了多個敘事事件鏈,以刻畫不同參與者各自的行為趨勢。集成了事件級和腳本級的信息后,模型預測性能實現了超11.45%的提升。

2.2.3 事件圖

與基于事件對和事件鏈的模型相比,基于圖的模型可以表達事件之間更密集、更廣泛的聯系,其中包含更豐富的腳本知識。

過去的研究大多是從語料庫中自動地學習腳本知識,由于一些腳本事件屬于常識性知識,并未在文本中詳細闡述,這在一定程度上限制了腳本學習的發展。鑒于此,Regneri等人[32]提出從眾包數據中構建特定場景的時間腳本圖,在構建圖的過程中,關注哪些短語可以用來描述腳本中的同一事件,以及這些事件發生的時間順序有何約束條件。在這之后利用事件序列描述(event sequence descriptions,ESD)來區分發生在故事腳本中不同時間點上的事件,然后使用多序列比對(multiple sequence alignment,MSA)算法來識別相應的事件描述,提取特定場景的釋義和時間順序信息,從而計算出該場景的時間腳本圖。這個腳本圖說明了哪些短語可以描述場景中的同一事件,以及這些事件可以以什么順序發生。

現實生活中的兩個事件通常存在著各種各樣的關系,如時序關系等,但這種關系往往不能從文本中推斷出來。進一步地,如果腳本事件以圖結構表示,就可以使用各種圖算法來解決與腳本相關的任務,并利用事件之間的關系。為了更好地處理面向事件的文本和信息需求,將文檔級事件表示為由句子級事件構建的結構,Glava等人[33]提出用事件圖—EvGraph構造文本信息的新方法,其中事件圖的節點表示單個事件提及,而邊表示事件提及之間的語義關系(例如時間關系)。不同的是,以往研究主要關注于單個事件提取任務,而文獻[33]則是描述了一個完整的端到端系統,用于從文本中提取事件圖,通過引入事件圖的方法彌補了目前句子級事件和文檔級事件之間存在的差距。

事件的演變和發展存在基本規則,發現事件之間的演變模式對事件預測、策略決斷和情景對話系統的發展有極大價值。隨著技術的發展,越來越多的研究者開始關注一種基于事件的知識圖譜,即事理圖譜。相較傳統的知識圖譜,事理圖譜更加關注謂詞性事件及其關系。知識圖譜與事理圖譜的不同點以及相同點如表3所示。

基于此,Li等人[34]提出了一種新的方法來學習事件之間更稠密的連接信息,首先從語料庫中抽取敘事事件鏈來構建敘事事理圖譜(narrative event evolutionary graph,NEEG),之后基于圖學習事件表示,圖中的節點代表事件,邊表示事件之間的關系,最后再利用得到的表示向量預測后續事件。由于事理圖譜規模較大,借鑒分治的思想提出了縮放圖神經網絡(scaled graph neural network,SGNN),將當前所需子圖作為樣本以解決NEEG上的推理問題,即每次從事理圖譜中抽取一個子圖來建模事件交互并學習事件表示,如圖4所示。該研究進一步表明了事件圖結構可以顯著提高事件預測性能,并增加了模型的魯棒性。進一步地,Xiong等人[35]發現使用預訓練語言模型與圖神經網絡相結合的框架進行腳本事件預測會產生更好的效果。

基于事件圖的方法主要是使用圖神經網絡對圖結構信息進行傳遞、聚合以及更新,這種方法在建模上顯示出了較明顯的優勢。相比基于事件對的方法來說,性能有了超越21.93%的提升;相比基于事件圖的方法而言,性能有了超越1.62%的提升。

2.2.4 結合型建模

1)結合事件對和事件鏈

順序靈活的事件鏈可能存在過擬合問題,而事件對可以將鏈中的時間順序作為事件對建模的特征,緩解LSTM過擬合問題,同時LSTM具有編碼無界序列且不丟失歷史事件的優勢。所以,Wang等人[36]提出了PairLSTM,整合了基于鏈的時間順序學習和基于事件對的一致性學習的優勢。另外,事件的多論元結構還存在稀疏性問題,因此模型使用隱藏層來學習事件嵌入,在計算事件對關系中使用LSTM隱藏狀態作為現有事件的特征表示。文獻[36]還考慮到不同的事件對候選事件的重要性不同,使用了一個動態記憶網絡(dynamic memory network)自動地為每一個事件計算事件權值,以推斷出最佳的候選事件。

2)結合事件鏈和事理圖譜

單獨使用基于事件鏈或者是事件圖的方法來進行事件預測時,面臨著以下問題:首先是無法充分考慮論元之間的相關性,其次是不能同時利用事件鏈和事件圖中的信息。為了解決以上問題,克服事件表示不全面、信息融合不充分的問題,孫盼等人[37]提出了一種結合事件鏈和事理圖譜的腳本事件預測方法(ECGNet)。具體來說,為得到更準確的事件表示,先將每個事件的各個元素組成一個短句,使用Transformer獲取元素之間的序列信息;然后,構建一個長程時序模塊(LRTO)學習事件鏈中的時序信息;同時,構建一個全局事件演化模塊(GEEP),先根據訓練集構建敘事事件鏈,再通過可縮放的圖神經網絡(scaled graph neural network,SGNN)獲取隱藏在事理圖譜中的演化模式;最后,通過門控注意力機制動態融合時序信息和演化模式進行腳本事件預測。

現有的方法主要關注候選事件和上下文事件之間的語義相似性,忽略了事件鏈尾部的事件,而尾部事件也很容易影響后續事件的發展方向。因此,Huang等人[38]提出了一個新的腳本事件預測模型。模型由Token編碼層、事件表示層

和預測層組成。其中事件預測層由事件得分和尾部事件得分兩個部分組成。事件得分模塊利用包含一個單一候選事件的整個事件鏈的信息來進行預測,而尾部事件得分模塊則是通過構建事理圖譜,利用鄰接矩陣來計算尾部事件得分。

3)多模型結合

將不同建模方法結合起來可以充分利用它們的優勢,有效解決事件表示不充分等問題,有助于后續事件的推理工作。文獻[31]提出的MCer,通過集成論元級別、事件級別和鏈級別的表示,增強事件的表示學習。此外,研究表明采用MCer與其LSTM變體(即MCer-LSTM)相結合會產生更好的效果,結合后的模型在NYT數據集上與單獨使用MCer相比,準確率提升了412%。

預訓練語言模型具有更強的提取特征能力,很多自然語言處理任務使用預訓練+微調的機制產生了更好的效果,腳本事件預測也不例外。文獻[21]將預先訓練過的RoBERTa模型轉移到事件序列的模型中,相較于SGNN模型,在MCNC任務上的準確率提升了2.63%。Du等人[39]考慮使用BERT模型自動構建事件圖,在BERT中加入了一個額外的結構化變量學習預測訓練過程中的事件連接,稱之為GraphBERT,其可以預測不可見事件的連接強度,從而避免事件圖的稀疏性,提高了事件預測精度。與RoBerta相比,準確率提升了2.06%。

2.2.5 小結

如表4所示,將腳本事件預測方法的發展歷程劃分為基于統計學習和深度學習的方法。早期的腳本建模方法主要是基于統計學習方法,即通過統計訓練集中的事件發生的概率來進行后續預測,其中典型的方法為PMI(ponitwise mutual information)和Bigram方法。但是基于統計學習的方法忽略了敘事事件鏈中各個事件之間的時序信息,僅考慮各個事件和候選事件的相關性,這在很大程度上限制了模型的預測能力。

隨著深度學習進入研究者的視野,上述的統計學習方法逐漸被基于深度學習的方法所替代?;谏疃葘W習的方法可以自動學習出模式特征,并將特征學習融入到建立模型的過程中,事件預測能力取得了極大的進步。因此,按照發展歷程將后續的腳本建模方法從基于事件對、事件鏈、事件圖和結合型建模的角度進行闡述?;谑录Φ姆椒ê诵臑橛嬎闶录χg的關聯強度,但忽略了各個事件之間的時序信息;基于事件鏈的方法則是對基于事件對方法的改進,關注敘事事件鏈中各個事件的時序信息,但事件間的連接信息未得到充分利用;基于事件圖的方法出發點正在于此,利用圖的方法對事件之間的連接信息進行建模,但進行事件預測時同樣存在著信息融合不充分的問題;結合型建模的方法在一定程度上克服了上述問題,取長補短,將多種建模方法結合起來,有效提高了事件預測效率。

3 實驗分析

為了分析各種模型在腳本事件預測任務上的表現,本章對經典的方法進行了分析。實驗主要關注如下方面:采用對比實驗的手段,對基于統計學習和深度學習的方法分別進行了分析;通過在相同數據集下各種方法的性能,證明深度學習方法對事件預測的重要意義;通過對比深度學習方法下的不同建模方法,討論各種模型的準確度的區別,證明多建模結合的方法顯示出更好的效果。

3.1 數據集

數據集中的事件鏈來自Gigaword語料庫的紐約時報(NYT)部分,其中每個事件元組由Camp;C工具進行詞性標注和依賴解析,使用OpenNLP進行短語結構解析和共指消解。按照140331∶10000∶10000的比例劃分訓練集、驗證集和測試集。每個上下文事件鏈有5個候選事件,其中只有一個是正確的。

3.2 評估方法及評價指標

為了對腳本事件預測任務進行評測,對不同模型進行比較,研究者們提出了不同的評測方法。Chambers等人[2]首先提出用敘事完形填空(narrative cloze,NC)評測腳本事件預測任務。敘事完型填空給定文檔中的一系列敘事事件(其中1個事件已被刪除)和5個隨機排序的候選事件(其中1個為該事件上下文的正確的后續事件,其余4個事件是從數據集中隨機抽樣出的處于別的事件上下文中的事件)。這些事件中,使用隨機抽樣出的事件主體替換為當前事件上下文的主體。具體來說,以McCann為主角的文章為例:

a)McCann threw two interceptions early(McCann提前進行了兩次攔截);

b)Toledo pulled McCann aside and told him he’d start(Toledo把McCann拉到一邊,告訴他自己要開始了);

c)McCann quickly completed his first two passes(McCann很快就完成了他的前兩次傳球)。

以上敘事模型由五個事件表示:(threw, subject)(pulled, object)(told, object)(start, subject)(completed, subject)。這些動詞/依賴事件構成了一個敘事總結模型,本文可以刪除(threw, subject),并使用剩下的四個事件來對這個丟失的事件進行排序。通過刪除一對這樣的配對,以此來對模型進行評估。但是NC任務評測仍存在不足之處,首先對于任意給定事件,后續事件都有多個可信的選擇;其次它需要搜索整個事件詞匯表,非常大的詞匯量會導致計算問題。

敘事完形填空的另外一個問題是有時會產生多個可信答案,這就需要手動評估系統輸出的答案,導致成本過高。為了解決這一問題,Modi[40]提出了對抗性敘事完形填空adversarial narrative cloze (ANC)任務。ANC任務顯示兩個事件序列,一個是正確的事件序列;另一個是除了有一個事件被一個隨機事件取代外,其他事件均與正確序列相同的序列。其任務是猜測這兩個事件中的哪一個是正確的事件序列。

與之前評估方法有所不同,為了評估模型對文本的理解能力,Mostafazadeh等人[41]提出了故事填空任務(story cloze test,SCT)來評估模型的效果,即預測一個未完成的故事結局。SCT并不是預測一個事件,而是選擇一個完整的句子來完成給定的故事。因此NC任務可以看做是故事結束任務中的一個子任務,并且事件鏈之外的信息對于SCT任務也很有用。

另外,2016年,Granroth-Wilding等人[15]還提出了一種被稱為多選完形填空(multiple choice narrative cloze,MCNC)的評估標準來評價腳本事件預測模型的有效性(圖5)。MCNC根據特定場景下已經發生的一系列事件,從給定的候選事件集中選擇接下來最有可能發生的后續事件,候選事件集中有且僅有一個事件是標準答案,并且候選事件集中的事件共享主語。MCNC對腳本事件預測任務進行了簡化,大大縮小了候選事件集的范圍,把候選事件集從所有的事件縮小至有限個事件。在MCNC中,系統能夠利用事件上下文中更豐富的信息。

為了評估學習模型的質量,Lee等人[42]基于Granroth-Wilding等人[15]的工作,提出了額外的兩種評測指標:多選敘事序列(multiple-choice narrative sequence,MCNS)和多選敘事解釋(multiple-choice narrative explanation,MCNE)。與MCNC不同的是,MCNS任務是除了第一個事件外,為每個事件生成多個選項,再將每個事件鏈建模為馬爾可夫鏈,最后用推理算法識別得分最高的事件鏈。MCNE任務則是同時提供了開始事件和結束事件,而預測任務則是推斷兩者之間發生了什么。總的來說,MCNS和MCNE旨在評估模型推斷更長事件序列的能力,從而更好地解釋敘事結構。

3.3 實驗結果

選取Gigaword語料庫中NYT的一部分作為數據集,MCNC作為評估方法,準確度(accuracy)作為評估指標。為了對不同方法的性能差異進行說明,針對每一類方法選取了部分基線模型,其性能對比如表5所示。

3.4 結果分析

從表5的實驗結果可以看出,相比于基于統計學習的方法PMI和Bigram,基于深度學習方法的準確度有了超過19.05%的提升,極大地提高了預測事件的效率。原因在于,基于統計學習的方法魯棒性差且模型預測能力不足,而深度學習方法具備很強的學習能力。

通過對比基于深度學習的各種方法發現,從基于事件對的方法eventcomp到基于事件鏈的方法LSTM到基于事件圖的方法NEEG再到結合型建模的方法ECGNet,預測性能正在逐步提升。與基于統計學習的方法相比,基于事件對的方法緩解了事件稀疏性,但它忽略了事件之間的時序關系,因此表現不如基于事件鏈和事件圖的方法。基于事件鏈的方法和基于事件圖的方法由于捕獲了事件之間的序列特征均取得不錯的預測效果,但由于事件之間的演化模式對于腳本事件預測而言也很重要,而基于事件圖的方法正可以以構建圖譜的方式獲取事件的發展規律,所以基于事件圖的方法預測效果優于基于事件鏈的方法。從表5可以看出,結合型建模的方法性能整體表現最佳,MCer+MCer-LSTM取得了最好的實驗效果。ECGNet相比于單純使用基于事件鏈或是事件圖的模型而言,準確度至少提升了3.74%,NEEG+Eventcomp+PairLSTM相比這三個模型準確度提升超過2.56%,MCer+MCer-LSTM相比MCer將準確度從56.64%提升到了60.76%,GraphBERT采用預訓練語言模型BERT自動構建事件圖,同樣表現出很好的預測效果。由于不同模型之間具有互補效應,存在各自的優勢,所以可以相互受益,從而表現出最佳的性能。

4 總結與展望

4.1 腳本事件預測總結

本文對腳本事件預測的已有研究進行了總結,主要是從事件表征、腳本建模和模型分析三個角度進行敘述。

在事件表征部分,事件的要素構成從單個論元演化至圍繞多個論元主角,事件的表示方式也從最初的(predicate;depen-dency)發展至更豐富的事件表示方法。事件表示學習的主要任務是組合事件元素向量,嵌入的向量保留了事件中的語義信息,但存在建模不足的問題,因此需進一步考慮如情感信息等外部知識,以豐富事件的語義信息。

在腳本建模方面,主要分為基于統計學習的方法和基于深度學習的方法。以PMI和Bigram為代表的基于統計學習的方法,模型根據訓練集中事件出現的次數確定相關性,缺乏泛化性能。通過使用適當的神經網絡架構以及足夠大的數據,深度學習網絡可以學習從一個向量空間到另一個向量空間的任何映射,因而深度學習的應用使得腳本事件預測性能獲得明顯提升。在基于深度學習的各項方法中,結合型建模表現最佳,將不同的模型進行組合,模型之間互相補充,產生了更優的預測性能。

4.2 腳本事件預測挑戰

盡管近年來關于腳本事件預測的研究不斷涌現,但相關研究仍面臨一些挑戰[43~46]。

a)標準的評價體系。

腳本事件預測領域目前沒有標準評價體系,這使得不同模型之間的比較更加困難。如果沒有標準的評價體系,就不能準確地判斷一個模型是否真的有效。因此,建立一個標準的評價體系對于腳本事件預測的發展尤為重要。

b)結合事理圖譜。

用圖知識來捕獲事件間豐富的連接關系的研究相對較少,由于現實中很多元素的連接關系很復雜,而圖包含節點和連接,它可以更充分地表示事件,例如兩個事件之間的因果關系等,這樣就可以獲取更多信息用來推理后續事件。在實際工作中,由于事件包含的信息較多,所以事理圖譜的體量也會很大,這就給訓練帶來了一定難度。為了提高運行效率,在后續的研究中可以繼續沿用子圖的處理方法,探索出更高效的算法。

c)進行更深層次的事件表示研究。

在根據上下文事件預測后續事件的情況中,事件對后續事件的影響程度不同,所以可以考慮給不同部分的事件賦予不同的權重以輔助事件預測。例如如果尾部事件與前續事件發生了明顯的轉折,在這種情況下,顯然尾部事件對預測結果的影響更大,因此就可以給尾部事件賦予更高的權重。針對事件表示研究來說,目前的腳本事件預測工作仍然需要提取與事件相關的事件參與者,如果事件的參與者是未知的話,這將會使預測的效率降低,所以在未來如何才能更高效地使用事件腳本仍是值得探索的。另外,為了充分利用事件文本來獲得更多有效信息輔助事件推理工作探索,可以通過挖掘事件之間更復雜的交互的方法,并嘗試引入如知識圖譜等外部背景信息。

d)其他挑戰。

腳本事件預測在未來很有研究前景,但是現在腳本事件預測的下游應用較少,所以隨著腳本事件預測的發展,在未來的工作中,可以逐步將腳本事件預測方法用到更多的下游應用中去?,F在腳本事件預測主要面向的是英文文本,中文的研究較少,加上中文文本的語法較為復雜,所以如何從中文文本中抽取出相關信息來進行預測也是值得研究的。

4.3 腳本事件預測展望

通過對當前腳本事件預測研究進展的梳理,可以展望未來腳本事件預測的發展方向[47~50]:

a)在數據方面。由于大多數現有的腳本事件預測方法的處理范式都是建模成為多項選擇填空的形式,而這種數據集很少,所以構建新的數據集的成本很高。那么如何花費最少的成本達到最大的訓練效果是未來值得關注的研究方向。

b)針對腳本事件預測的評測,提出更有效的評測方法。雖然目前MCNC被廣泛用做任務評測,但完型填空的方法在實際應用當中不便于驗證結果的正確性。因此,隨著神經網絡的發展,研究出更高效的評測方法也是未來研究的發展趨勢。

c)針對事件表示來說。近年來,圖神經網絡在各個研究領域中大放異彩,但是如何才能更好地利用事件表示構建圖?已有研究者嘗試用對比學習[51,52]的方法,考慮多個正例和負例,以此更好地利用事件的共現信息來學習事件表示。所以,如何更好地進行事件表示學習,采用何種形式學習到更多的相關知識,這也是今后的一個研究方向。

d)基于其落地使用來看。目前腳本事件預測在工業界的落地場景中是很少見的。以金融場景的推理為例,如何才能確定一個推理模型是否正確,找到這樣的訓練數據本身就是很難的。因此,在未來的研究中,將腳本事件預測以何種方式應用到更多的現實落地場景中也是值得探索的。

5 結束語

腳本事件預測是通過給定已發生的事件上下文,預測后續最有可能發生的事件,它對于事件風險預測、事件演化挖掘等現實落地場景,能夠起到一定的參考意義。本文詳細闡述了對目前腳本事件預測的研究進展。首先介紹了腳本事件預測的概念;然后以事件表征、腳本建模和任務評測為脈絡梳理了現有研究;最后分析了目前腳本事件預測面臨的挑戰,對其前景進行了展望。希望綜述內容能夠為腳本事件預測領域的研究提供理論指導和創新思路,在未來能夠應用到更多的落地場景中。

參考文獻:

[1]Schank R C,Abelson R P. Scripts,plans,and knowledge [C]// Proc of the 4th International Joint Conference on Artificial Intelligence. San Francisco: Morgan Kaufmann Publishers,1975: 151-157.

[2]Chambers N,Jurafsky D. Unsupervised learning of narrative event chains [C]// Proc of the 46th Annual Meeting of the Asssociation for Computational Linguistics.Stroudsburg,PA:ACL Press,2008:789-797.

[3]Balasubramanian N,Soderland S,Etzioni O. Generating coherent event schemas at scale [R]. Stroudsburg,PA: ACL Press,2013.

[4]Pichotta K,Mooney R. Statistical script learning with multi-argument events [C]// Proc of the 14th Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg,PA: ACL Press,2014: 220-229.

[5]Ahrendt S,Demberg V. Improving event prediction by representing script participants [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: ACL Press,2016: 546-551.

[6]Pichotta K,Mooney R. Learning statistical scripts with LSTM recurrent neural networks [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2016.

[7]Lee I T,Goldwasser D. Feel: featured event embedding learning [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2018: 4840-4847.

[8]Bai Long,Guan Saiping,Guo Jiafeng,et al. Integrating deep event-level and script-level information for script event prediction [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: ACL Press,2021: 9869-9878.

[9]Mikolov T,Sutskever I,Chen Kai,et al. Distributed representations of words and phrases and their compositionality [J]. Advances in Neural Information Processing Systems,2013,2013(2): 3111-3119.

[10]Mikolov T,Chen K,Corrado G,et al. Efficient estimation of word re-presentations in vector space [EB/OL]. (2013). https://arxiv.org/abs/ 1301. 3781.

[11]Weber N,Balasubramanian N,Chambers N. Event representations with tensor-based compositions [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2018: 4946-4953.

[12]Socher R,Huval B,Manning C D,et al. Semantic compositionality through recursive matrix-vector spaces [C]// Proc of Joint Confe-rence on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Stroudsburg,PA: ACL Press,2012: 1201-1211.

[13]Modi A,Titov I. Inducing neural models of script knowledge [C]// Proc of the 18th Conference on Computational Natural Language Learning. Stroudsburg,PA: ACL Press,2014: 49-57.

[14]Modi A,Titov I. Learning semantic script knowledge with event embeddings [EB/OL]. (2013).https://arxiv.org/abs/1312. 5198.

[15]Granroth-Wilding M,Clark S. What happens next?Event prediction using a compositional neural network model [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2016: 2727-2733.

[16]Hu Linmei,Li Juanzi,Nie Liqiang,et al. What happens next?Future subevent prediction using contextual hierarchical LSTM [C]// Proc of the 31st AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2017: 3450-3456.

[17]Ding Xiao,Liao Kuo,Liu Ting,et al. Event representation learning enhanced with external commonsense knowledge [EB/OL]. (2019). https://arxiv.org/abs/1909. 05190.

[18]Ding Xiao,Zhang Yue,Liu Ting,et al. Deep learning for event-driven stock prediction [C]// Proc of the 24th International Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2015: 2327-2333.

[19]Zhao Sendong,Wang Quan,Massung S,et al. Constructing and embedding abstract event causality networks from text snippets [C]// Proc of the 10th ACM International Conference on Web Search and Data Mining. New York: ACM Press,2017: 335-344.

[20]Wang Ruize,Tang Duyu,Duan Nan,et al. K-adapter: infusing know-ledge into pre-trained models with adapters [EB/OL]. (2020).https://arxiv.org/abs/2002. 01808.

[21]Lyu Shangwen,Zhu Fuqing,Hu Songlin. Integrating external event knowledge for script learning [C]// Proc of the 28th International Conference on Computational Linguistics. 2020: 306-315.

[22]Du Li,Ding Xiao,Liu Ting,et al. Learning event graph knowledge for abductive reasoning [C]// Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. 2021: 5181-5190.

[23]Jans B,Bethard S,Vulic I,et al. Skip n-grams and ranking functions for predicting script events [C]// Proc of the 13th Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg,PA: ACL Press,2012: 336-344.

[24]Hochreiter S,Schmidhuber J. Long short-term memory [J]. Neural Computation,1997,9(8): 1735-1780.

[25]Pichotta K,Mooney R. Learning statistical scripts with LSTM recurrent neural networks [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2016: 2800-2806.

[26]Pichotta K,Mooney R J. Using sentence-level LSTM language models for script inference [C]// Proc of the 54th Annual Meeting of the Association for Computational Linguistics. 2016: 279-289.

[27]Kiros R,Zhu Yukun,Salakhutdinov R R,et al. Skip-thought vectors [C]// Proc of the 28th International Conference on Neural Information Processing Systems. 2015: 3294-3302.

[28]Lin Zhouhan,Feng Minwei,Santos C N,et al. A structured self-attentive sentence embedding [EB/OL]. (2017). https://arxiv.org/abs/1703. 03130.

[29]Lyu Shangwen,Qian Wanhui,Huang Longtao,et al. SAM-Net: integrating event-level and chain-level attentions to predict what happens next [C]// Proc of the 33rd AAAI Conference on Artificial Intelligence and the 31st Innovative Applications of Artificial Intelligence Conference and 9th AAAI Symposium on Educational Advances in Artificial Intelligence. Palo Alto,CA: AAAI Press,2019: 6802-6809.

[30]Huang Gao,Liu Zhuang,Van Der Maaten L,et al.Densely connected convolutional networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:2261-2269.

[31]Wang Lihong,Yue Juwei,Guo Shu,et al. Multi-level connection enhanced representation learning for script event prediction [C]// Proc of Web Conference. New York: ACM Press,2021: 3524-3533.

[32]Regneri M,Koller A,Pinkal M. Learning script knowledge with Web experiments [C]// Proc of the 48th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: ACL Press,2010: 979-988.

[33]Glava G,najder J. Construction and evaluation of event graphs [J]. Natural Language Engineering,2015,21(4): 607-652.

[34]Li Zhongyang,Ding Xiao,Liu Ting. Constructing narrative event evolutionary graph for script event prediction [C]// Proc of the 27th International Joint Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2018: 4201-4207.

[35]Xiong Kai,Ding Xiao,Du Li,et al. Heterogeneous graph knowledge enhanced stock market prediction [J]. AI Open,2021,2012(2):168-174.

[36]Wang Zhongqing,Zhang Yue,Chang Chingyun. Integrating order information and event relation for script event prediction [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: ACL Press,2017: 57-67.

[37]孫盼,王琪,萬懷宇. 結合事件鏈與事理圖譜的腳本事件預測模型 [J]. 計算機工程,2022,48(4): 119-125. (Sun Pan,Wang Qi,Wan Huaiyu. Event chains and graphs combined neural network for script event prediction [J]. Computer Engineering,2022,48(4): 119-125.)

[38]Huang Zhenyu,Wang Yongjun Xu Hongzuo,et al. Script event prediction based on pre-trained model with tail event enhancement [C]// Proc of the 5th International Conference on Computer Science and Artificial Intelligence. New York: ACM Press,2021: 242-248.

[39]Du Li,Ding Xiao,Zhang Yue,et al. A graph enhanced BERT model for event prediction [M]// Findings of the Association for Computatio-nal Linguistics. Stroudsburg,PA: ACL Press,2022: 2628-2638.

[40]Modi A. Event embeddings for semantic script modeling [C]// Proc of the 20th SIGNLL Conference on Computational Natural Language Learning. Stroudsburg,PA: ACL Press,2016: 75-83.

[41]Mostafazadeh N,Chambers N,He X,et al. A corpus and cloze evaluation for deeper understanding of commonsense stories [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: ACL Press,2016: 839-849.

[42]Lee I T,Goldwasser D. Multi-relational script learning for discourse relations [C]// Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: ACL Press,2019: 4214-4226.

[43]Taylor W L. Cloze procedure: a new tool for measuring readability [J]. Journalism Quarterly,1953,30(4): 415-433.

[44]Han Yi,Qiao Linbo,Zheng Jianming,et al. A survey of script learning [J]. Frontiers of Information Technology amp; Electronic Engineering,2021,22(3): 341-373.

[45]胡志磊,靳小龍,陳劍赟,等. 事件圖譜的構建、推理與應用 [J]. 大數據,2021,7(3): 80-96. (Hu Zhilei,Jin Xiaolong,Chen Jianyun,et al. Construction,reasoning and applications of event graphs [J]. Big Data,2021,7(3): 80-96.)

[46]吳雨釗. 腳本事件預測綜述 [J]. 現代計算機,2021(15): 113-116. (Wu Yuzhao. Overview of script event prediction [J]. Modern Computer,2021(15): 113-116.)

[47]李忠陽. 面向文本事件預測的事理圖譜構建及應用方法研究 [D]. 哈爾濱: 哈爾濱工業大學,2021.( Li Zhongyang. Research on the construction and application method of affection atlas for text event prediction[D].Harbin:Harbin Institute of Technology,2021.)

[48]孫盼. 基于事理圖譜的腳本事件預測方法研究 [D]. 北京: 北京交通大學,2021.(Sun Pan. Research on scripted event prediction method based on affair map[D].Beijing:Beijing Jiaotong University,2021.)

[49]Rudinger R,Rastogi P,Ferraro F,et al. Script induction as language modeling [C]// Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:ACL Press,2015:1681-1686.

[50]Ding Xiao,Li Zhongyang,Liu Ting,et al. ELG: an event logic graph [EB/OL]. (2019).https://arxiv.org/abs/1907. 08015.

[51]Chen Ting,Kornblith S,Norouzi M,et al. A simple framework for contrastive learning of visual representations [C]// Proc of the 37th International Conference on Machine Learning. Ithaca: Cornell University Press,2020: 1597-1607.

[52]Zheng Jianming,Cai Fei,Liu Jun,et al. Multistructure contrastive learning for pretraining event representation [J/OL]. IEEE Trans on Neural Networks and Learning Systems.(2022).https://doi.org/10.1109 TNNLS.2022.3177641.

主站蜘蛛池模板: 国产情侣一区二区三区| 亚洲91精品视频| 在线观看精品自拍视频| 国产精品人人做人人爽人人添| 高清色本在线www| 国产精品无码作爱| 欧美区国产区| 91尤物国产尤物福利在线| 精品久久久久久中文字幕女| 国产69囗曝护士吞精在线视频| 亚洲乱码在线视频| 日韩欧美国产综合| 中文字幕在线播放不卡| 国产乱码精品一区二区三区中文 | 国产玖玖玖精品视频| 国内精品视频| 日韩精品一区二区三区视频免费看| 国产中文一区a级毛片视频| 国产69精品久久久久妇女| 亚洲中文精品人人永久免费| 亚洲另类国产欧美一区二区| 在线观看视频99| 国产视频资源在线观看| 黄片一区二区三区| 99re在线免费视频| 久久性视频| 国产日韩欧美在线视频免费观看| 在线观看免费黄色网址| 欧美有码在线| 国产麻豆精品久久一二三| 午夜少妇精品视频小电影| 国产系列在线| 久草视频福利在线观看| 伦精品一区二区三区视频| 国产99精品久久| 国产在线麻豆波多野结衣| 国产亚洲精品精品精品| 亚洲精品国产乱码不卡| 亚洲欧洲日韩综合| 五月天丁香婷婷综合久久| 在线无码私拍| 操操操综合网| 亚洲成aⅴ人在线观看| 狠狠色香婷婷久久亚洲精品| 久久香蕉国产线| 国产一级做美女做受视频| 国产在线观看99| 亚洲精品国产精品乱码不卞 | 久草视频精品| 国产一区免费在线观看| 美女无遮挡免费视频网站| 91免费片| 欧美国产精品不卡在线观看| 久久国产精品波多野结衣| 国产精品嫩草影院视频| 国产AV毛片| 1024你懂的国产精品| 日本黄色不卡视频| 国产视频一区二区在线观看| 无码一区二区波多野结衣播放搜索| 国产香蕉97碰碰视频VA碰碰看| 欧美自慰一级看片免费| 女人毛片a级大学毛片免费| 久久亚洲日本不卡一区二区| 一区二区三区在线不卡免费| 在线精品欧美日韩| 亚洲中文字幕无码mv| 午夜无码一区二区三区在线app| 国产网站在线看| 久操线在视频在线观看| 青青草国产免费国产| 国产成人艳妇AA视频在线| 99人妻碰碰碰久久久久禁片| 91亚洲视频下载| 国产乱人乱偷精品视频a人人澡| www.91在线播放| 国产在线拍偷自揄拍精品| 亚洲综合18p| 青青国产在线| 亚洲男人天堂久久| 高清国产在线| 亚洲人成影院午夜网站|