馮沖 康麗琪 石戈 黃河燕
因果關系是“原因”和“結果”之間的關系,是引起和被引起的關系.因果關系作為一種重要的關系類型,在許多任務(例如事件預測[1]、情景生成[2]、問答[3]、文本蘊涵等)中起著重要作用.自然語言文本中存在大量的因果關系.例如,新聞文本中經常報道事故及其造成的后果:Thehe1iarresth/e1ihas caused anhe2ioutcryh/e2iof indignation among some industrial and political circles in France.該例包含了arrest(逮捕)和outcry(強烈抗議)之間的因果關系.其中,he1i、h/e1i、he2i和h/e2i是用來標識兩個實體名詞性詞的位置指示標簽[4].
因果關系的抽取方法主要分為兩類:基于模式匹配的方法和基于機器學習的方法.基于模式匹配的方法包括詞典語法模式、語義關系模式等.基于機器學習的方法包括支持向量機(Support vector machine,SVM)、決策樹(Decision tree)等.這些方法主要依賴特征工程,但是特征工程涵蓋了繁瑣的特征選擇和不準確的特征提取,計算開銷大且存在錯誤傳播的問題.以往的方法利用WordNet、NomLex-Plus以及VerbNet等知識庫抽取特征,對知識庫依賴性強.
為避免特征工程的一系列問題,本文在因果關系抽取任務上探索新的方法.自2014年以來,Goodfellow等[5]提出的生成式對抗網絡(Generative adversarial networks,GAN)在生成式任務上取得巨大進展.GAN在結構上受到博弈論的啟發,系統由一個生成模型和一個判別模型構成,如圖1所示.生成模型捕捉真實數據樣本的潛在分布,并生成新的數據樣本;判別模型是一個二分類器,判別輸入是真實數據還是生成的樣本.判別模型的存在使得GAN中的生成模型能夠學習去逼近真實數據,最終讓其生成的數據達到以假亂真的地步.與傳統基于模式匹配和機器學習的抽取方法相比,GAN能夠利用生成模型和判別模型之間的對抗,獲取逼近訓練目標的生成模型.

圖1 GAN結構Fig.1 The structure of GAN
針對已有因果關系抽取方法在特征工程中存在的問題,本文提出了一個包含因果關系解釋信息的對抗學習框架,分別將原始語句和包含因果關系解釋信息的語句輸入到基本模型和因果關系增強模型,利用兩個相同結構的神經網絡模型進行因果關系分類.通過基本模型與判別模型的對抗訓練,基本模型能模仿和學習因果關系增強模型生成的特征向量,進而捕獲模型間共同特征,提升因果關系抽取效果.
本文的主要貢獻包括:1)提出一種融合對抗學習的因果關系抽取方法,避免因采用特征工程而引起的一系列問題;2)針對因果關系抽取任務的特點,提出“因果關系解釋語句”的概念,嘗試將句子級別的信息作為關系抽取的先驗知識.通過糅合原句和因果關系解釋語句,借助生成對抗網絡的對抗學習方法,得到更加有效的因果關系抽取模型;3)為了讓因果關系解釋信息發揮更大的效用,提出在融合對抗學習的基礎上加入注意力機制,充分發揮關鍵信息在最終分類中的作用.
本文內容安排如下:第1節介紹相關工作;第2節給出模型的具體架構;第3節進行實驗分析;第4節總結全文.
因果關系是關系類型中的一種,對預測未來事件有重要作用.Radinsky等[1]通過從大型新聞語料庫中提取因果關系,預測未來事件;Hashimoto等[2]提出了一種從網絡中提取因果關系的監督方法,產生未來情景.因果關系在問答系統的研究中也有重要地位,Oh等[4]等針對問答系統中詢問原因的一類問題,探究詞或子句之間的因果關系.因果關系抽取是關系抽取中備受關注的一部分.以往的方法多采用基于模式匹配或機器學習的方法,利用詞典語法模式[6]、上下文中的單詞[4]、單詞之間的關聯關系[7]以及謂詞和名詞的語義[8]進行因果關系抽取.相對于因果關系抽取,關系抽取是一個更加廣泛的概念,通常關注的是多種關系類型的總體抽取效果,沒有針對因果關系類型進行深入研究.
多年來,關系抽取任務中的方法層出不窮.Rink和Harabagiu[9]利用外部語料庫生成特征,在SVM分類器上進行研究.Zeng等[10]提出用卷積神經網絡(Convolutional neural networks,CNN)進行關系抽取,采用詞匯向量和詞的位置向量作為卷積神經網絡的輸入,通過卷積層、池化層和非線性層得到句子表示.實體的位置向量和其他相關的詞匯特征使得句子中的實體信息能夠被較好地考慮到關系抽取中.但是由于CNN不適合學習長距離的語義信息[11],所以很多學者嘗試在循環神經網絡(Recurrent neural networks,RNN)上進行關系抽取.Zhang和Wang[12]使用雙向循環神經網絡抽取文本中的關系,雖然該模型能利用上下文信息,但是上下文的范圍受限于梯度消散問題.為此,Zhang等[13]提出雙向長短期記憶網絡(Bidirectional long short-term memory networks,BLSTM),該模型利用自然語言處理工具和詞匯資源來獲取特征,利用LSTM 單元實現了較為理想的結果.Zhou等[14]提出了基于注意力機制的雙向長短期記憶網絡(Bidirectional long short-term memory networks,BLSTM),該模型僅將帶有實體位置指示詞的SemEval-2010-Task8數據集作為輸入,不依賴任何詞匯資源或自然語言處理系統,簡化了關系抽取的過程,并且取得了可觀的結果.因果關系抽取任務關注的是長序列中兩個實體名詞性詞之間的關系.考慮到上下文信息以及訓練速度,本文采用構造更簡單且訓練更快的BGRU[15]網絡.
自從2014年Goodfellow等[5]提出GAN以來,GAN在圖像領域和自然語言處理領域展現了極大潛力.在自然語言處理領域,GAN的應用主要體現在文本生成任務上.Zhang等[16]以LSTM作為GAN的生成模型進行文本的生成.Yu等[17]將序列生成過程當作一個序列決策的過程,將誤差作為一種增強學習的獎勵,以一種前饋的方式訓練,并采用增強學習的探索模式更新生成模型.Li等[18]利用對抗性訓練進行開放式對話生成,將對話生成任務看作強化學習的問題,聯合訓練生成模型和判別模型.雖然GAN被應用到了諸多領域,但在我們掌握的文獻范圍內本文是第一個將其應用于因果關系抽取任務的嘗試與研究.
GAN從出現以來就存在訓練困難、生成樣本缺乏多樣性等問題.近日,Facebook人工智能研究中心(Facebook Arti ficial Intelligence Research Center,FAIR)提出Wasserstein GAN(WGAN)[19],引入Wasserstein距離,既解決了訓練不穩定的問題,也提供了一個可靠的訓練進程指標.而WGAN仍舊存在訓練困難和收斂速度慢等問題.因此,Gulrajani等[20]提出了相應的改進方案,修改了原設計中Lipschitz的施加方式,將權重剪裁(Weight clipping)改為梯度懲罰(Gradient penalty).實驗表明WGAN-GP能夠顯著提高訓練速度,解決了原始WGAN收斂緩慢的問題.鑒于WGAN-GP的明顯優勢,本文采用WGAN-GP的訓練方法.
針對因果關系抽取任務,引入外部資源解釋補充因果關系有助于提升模型在因果關系分類上的效果.通過利用WGAN-GP能夠讓兩個數據分布靠近的特性,本文嘗試在另一數據分布中引入外部資源,使得關系分類模型能夠在對抗學習中學習到外部資源提供的高區分度的分類特征,從而提高關系分類效果.
在本文提出的模型中,兩個數據分布均為通過BGRU抽取后得到的特征向量表示.由于因果關系解釋語句能提供更有區分度的特征,因而在本文的方法中,除了需要與GAN判別模型對抗的關系分類模型(基本模型),還需設計一個包含因果關系解釋信息的增強模型(因果關系增強模型).因果關系增強模型相當于人工注釋器,為每個輸入的句子添加關系解釋語句,使得句子的分類特征更加明顯.因果關系增強模型擁有和基本模型相同的網絡結構,經過對其輸入的額外處理,該模型得到的特征向量會包含更多利于分類的信息.基本模型會向因果關系增強模型學習句子的特征向量表示,尤其是特征向量中具有高區分度的部分,使得兩個模型抽取的潛在特征盡可能地接近,從而獲得更好的分類結果.
該學習過程由基本模型與判別模型通過對抗的方式推動進行.在對抗學習中,判別模型試圖增大基本模型與因果關系增強模型所得特征向量的差異,而基本模型希望兩個模型得到的特征向量越來越接近.最終,在優化基本模型和判別模型的過程中,兩個數據分布會逐漸靠近,即基本模型的特征向量會盡量趨近于關系增強模型的特征向量,使最終分類器的關系抽取結果得到提升.本文模型的整體架構見圖2.
2.1.1 關系抽取網絡
關系抽取網絡由基本模型、因果關系增強模型以及分類器組成.基本模型的輸入是帶有實體名詞性詞標簽的句子,因果關系增強模型的輸入要在此基礎上加入因果關系解釋語句.因果關系解釋語句是依據因果關系的相關定義及解釋,預先準備的多種解釋語句模板.使用模板時需要依據原句將兩個實體名詞性詞填充其中,從而顯式表達出原句的因果關系.在因果關系增強模型的輸入部分,針對每條待抽取關系的句子,每次隨機選擇一個解釋說明語句加入到原句之后,組成新的句子.例如:

圖2 模型整體架構Fig.2 The overall architecture of the model
原句: Thehe1iarresth/e1ihas caused anhe2ioutcryh/e2iof indignation among some industrial and political circles in France.
因果關系解釋語句:Arrest makes outcry take place.
新句: Thehe1iarresth/e1ihas caused anhe2ioutcryh/e2iof indignation among some industrial and political circles in France.Arrest makes outcry take place.
關系:Cause-Effect(e1,e2).
根據關系的方向性,因果關系類型又可以分為Cause-Effect(e1,e2)和Cause-Effect(e2,e1)兩種,括號內前者為原因,后者為結果.本文的因果關系抽取網絡中能夠同時對關系及其方向性作出判斷.
基本模型和因果關系增強模型均采用雙向門控循環單元神經網絡,整個關系抽取網絡的架構見圖3.網絡由輸入層、詞向量層、BGRU層、注意力層以及輸出分類層構成.其中,最后一層分類層被兩個模型共享,又稱分類器.輸入層將句子轉化成單詞序列輸入到網絡中.詞向量層利用預訓練的詞向量,把每個單詞轉化成對應的詞向量,句子中的實體名詞性詞位置標簽同樣作為單詞轉為詞向量.對于BGRU層,一方面,GRU是LSTM的一個變種,與LSTM一樣能夠緩解梯度消散的問題,同時能夠提高訓練速度;另一方面,BGRU包括兩個GRU的子網絡,能夠獲取序列中上下文的信息.所以通過該層的處理,網絡可以得到更高層次的特征.
鑒于注意力機制在序列學習任務上具有巨大的提升作用,本文在模型中加入注意力機制.注意力層使得對句子分類的注意力更加集中在對因果關系分類有決定性作用的詞上.為解釋注意力層的處理過程,用H表示包含BGRU層輸出向量的矩陣,其中T表示句子長度.經注意力層得到的句子表示r由這些輸出向量的加權和得到.

其中,是詞向量的維度,是訓練好的向量,是的轉置.在本文模型中,基本模型與因果關系增強模型得到的特征向量為

最后,兩個網絡都通過softmax層給句子輸出一個分類.
2.1.2 判別模型
判別模型是GAN中最重要的構成之一,與生成模型一同完成GAN的競爭對抗.針對因果關系抽取任務,本文的判別模型被建模為多層感知機(Multi-layer perceptron,MLP),由4個全連接層組成.判別模型近似擬合基本模型與因果關系增強模型所得特征向量之間的EM(Earth mover)距離.
采用GAN最新的訓練方案WGAN-GP,根據判別模型的輸入后向計算出權重梯度,并針對梯度的范數進行懲罰,從而解決原始GAN以及WGAN存在的訓練缺陷.

圖3 帶注意力機制的雙向門控循環單元神經網絡Fig.3 Bidirectional GRU model with attention
為了更清楚地說明訓練過程,用θB和θR分別表示基本模型和因果關系增強模型的參數,用θC表示分類器的參數,用θD表示判別模型的參數.設定輸入句子為xb,添加關系解釋語句后的句子為xr,正確標簽為y.將基本模型得到的特征向量表示為因果關系增強模型得到的特征向量表示為
在對抗訓練開始之前,預訓練基本模型和因果關系增強模型.對于基本模型的預訓練,訓練目標是利用基本模型將句子中兩個名詞性詞之間的關系正確分類,即最小化交叉熵損失.

其中,J(C(HB(xb;θB);θC),y)表示基本模型特征向量通過分類器得到分類標簽和真實標簽y的交叉熵損失.
對于因果關系增強模型的參數,類似于基本模型,也通過最小化交叉熵損失進行學習.

預訓練基本模型和因果關系增強模型的過程是最小化式(5)和式(6)的過程.由于基本模型和因果關系增強模型共享同一個分類器,所以能形成一個統一的特征空間.
預訓練之后,基本模型和判別模型進行競爭對抗.在對抗訓練中,基于帶梯度懲罰的訓練方法,判別模型的損失函數為

判別模型的訓練目標是近似擬合兩數據分布的EM 距離.其中,E(x~data)[·]表示數據分布的期望.對于損失函數最后的懲罰項,是將Lipschitz約束以差分形式加入到了懲罰中.
在對抗訓練中,基本模型的訓練目標是要生成同因果關系增強模型產生的特征向量相近的特征向量.為此,固定因果關系增強模型和分類器的參數,優化基本模型使得二者的EM距離縮小,同時最小化基本模型的交叉熵損失.

其中,λ用于平衡分類損失和調整特征損失權重.在對抗訓練過程中,利用式(7)和式(8)分別訓練判別模型和基本模型,使基本模型和判別模型進行競爭,促進兩個模型的共同優化,直到基本模型與因果關系增強模型得到的特征向量足夠接近,即基本模型能夠抽取到高區分度的因果關系分類特征.整個訓練過程的算法如下:
輸入.訓練數據和因果關系解釋信息.
輸出.對抗學習后的基本模型及分類器.
步驟1.預訓練基本模型和因果關系增強模型.通過最小化式(5)和式(6)來分別初始化θB,θC和θR.
步驟2.進行對抗訓練.用式(7)訓練判別模型.
步驟3.用式(8)訓練關系模型.
步驟4.若未收斂,轉步驟2.
步驟5.算法結束.
本文設計并完成了BGRU因果關系抽取模型預訓練、對抗訓練、帶注意力機制的對抗訓練以及與已有因果關系抽取方法的對比四部分實驗.在對抗訓練之前,先進行BGRU因果關系抽取實驗,即對基本模型和因果關系增強模型進行預訓練;對抗訓練實驗是在上述實驗的基礎上加入GRU框架,利用GRU的對抗學習特性進行訓練學習;為發揮因果關系解釋信息的關鍵作用,在上述實驗中加入詞級別的注意力機制;最后給出傳統因果關系抽取方法SVM[10]的結果和已知文獻中最好的抽取方法[11]與本文提出的方法的對比.
使用的數據集來自兩個部分.1)SemEval-2010-Task8的因果關系數據和非因果關系數據,但因果關系數據的數量不能滿足本文神經網絡模型的需求;2)是人工標注新聞語料后得到的因果關系數據.數據集共包含3931條數據,其中包含因果關系的數據有2031條.數據集的構造說明見表1.

表1 數據集的構造說明Table 1 Description of the dataset
為了進行評估,將語料按照4:1:1的比例隨機分成訓練集、開發集和測試集,分別用于模型的訓練、超參數的調優和模型的評估.
基本模型和因果關系增強模型是本文提出的因果關系抽取方法的重要組成部分,為評價GAN框架發揮的效用,必須對比分析包含因果關系解釋信息的因果關系增強模型與基本模型的關系抽取結果.
基本模型和因果關系增強模型結構相同,都采用雙向門控循環單元神經網絡,包括輸入層、詞向量層、BGRU層以及輸出層.輸出層輸出的是分類器分類后的結果.使用word2vec在包含實體名詞性詞位置指示標簽的新聞語料上訓練出200維的詞向量.在基本模型和因果關系增強模型的訓練中,使用學習率為0.005的Adam進行訓練,batch設為500.模型參數采用10?5的L2正則化.本文在BGRU層使用dropout,將其設為0.5.實驗結果見表2.

表2 BGRU因果關系抽取結果(%)Table 2 Results of BGRU causality extraction(%)
表2中的B-BGRU是基本模型,此處的抽取結果是該模型在預訓練之后通過分類器得到的數據結果.R-BGRU是因果關系增強模型,與B-BGRU擁有相同的網絡結構.但R-BGRU在句子輸入時能夠根據句子中的標簽隨機加入因果關系解釋語句.此處的抽取結果同樣是其預訓練后的分類結果.實驗結果表明,因果關系增強模型的抽取結果高于基本模型.由于訓練目標是讓B-BGRU學習R-BGRU的特征向量,從而在分類結果上靠近R-BGRU,因此該實驗結果是對抗訓練的基礎.
在第3.2節實驗結果的基礎上,將基本模型和因果關系增強模型置于GAN框架內,基本模型與判別模型進行對抗訓練,使得基本模型的因果關系抽取結果得到提升.實驗結果見如表3.
表3展示的是基本模型預訓練后的抽取結果和在GAN框架下與判別模型對抗學習之后的抽取結果.實驗結果表明,GAN的對抗訓練使得基本模型的因果關系抽取結果得到明顯提升.在基本模型和判別模型的對抗訓練中,使用學習率為10?5的Adam進行訓練,對于式(8)中的平衡參數,設置λ=0.2.

表3 GAN框架下的因果關系抽取(%)Table 3 Causality extraction under GAN framework(%)
在基本模型和因果關系增強模型中加入詞級別的注意力層,將特征向量的注意力集中在對因果關系抽取有關鍵性作用的詞上.實驗結果見表4.

表4 帶注意力機制的GAN框架下的因果關系抽取(%)Table 4 Causality extraction under GANframework with attention(%)
表4展示的是在加入注意力層的情況下,基本模型和因果關系增強模型預訓練后的抽取結果以及在GAN框架下基本模型與判別模型對抗學習之后的抽取結果.實驗結果表明,最終模型F1值達到了91.17%,明顯高于表3中的90.58%,說明加入的注意力機制進一步優化了抽取結果.
在因果關系抽取任務上的研究多采用人工設計特征的傳統方法,本文首先借鑒以往工作[10],利用模型SVM 在構造的數據集上進行因果關系抽取.對于已有文獻中最好的關系抽取方法,根據論文[11]中網絡結構及相關參數的設置,對其關系抽取模型進行復現,最終通過在數據集上的實驗得到抽取結果.
圖4匯總了不同模型的因果關系抽取結果.其中Att-BLSTM 是本文復現的關系抽取網絡,在本文數據集上的F1值達到了89.21%,而本文最終的模型GAN-Att-BGRU的F1值達到了91.17%,因果關系抽取結果有明顯提升.
實驗結果說明,基本模型在GAN的對抗訓練中,從包含因果解釋信息的因果關系增強模型中學習了高區分度的特征,并通過注意力機制更好地發揮作用,最終,本文提出的在GAN框架下的帶注意力機制的雙向門控循環單元神經網絡超越了傳統方法和已有文獻中的最好方法,獲得了更優的抽取效果.

圖4 不同模型的對比實驗Fig.4 Comparative experiment of different models
本文提出一種GAN對抗框架下的因果關系抽取方法,將帶注意力機制的BGRU與對抗學習相融合,在因果關系增強模型中引入因果關系解釋語句.基本模型通過模仿學習因果關系增強模型生成的特征向量表示,得到高區分度的特征用于因果關系分類,從而提高因果關系抽取效果.同時,加入的注意力機制在此基礎上進一步優化了抽取結果.通過在SemEval-2010-Task8擴展之后的數據集上進行對比實驗,說明GAN框架下帶注意力機制的雙向門控循環單元神經網絡在因果抽取任務上的有效性和優越性.
因果關系抽取是一項基本任務,除了提高因果關系抽取結果外,還有很多有意義的工作值得深入研究.同時,因果關系抽取及其應用研究仍舊存在諸多挑戰,需要更多的關注和探索.
1 Radinsky K,Davidovich S,Markovitch S.Learning causality for news events prediction.In:Proceedings of the 21st International Conference on World Wide Web.Lyon,France:ACM,2012.909?918
2 Hashimoto C,Torisawa K,Kloetzer J,Sano M,Varga I,Oh J H,et al.Toward future scenario generation:extracting event causality exploiting semantic relation,context,and association features.In:Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics.Baltimore,MD,USA:ACL,2014.987?997
3 Girju R.Automatic detection of causal relations for question answering.In:Proceedings of the 2003 ACL Workshop on Multilingual Summarization and Question Answering.Sapporo,Japan:ACL,2003.76?83
4 Oh J H,Torisawa K,Hashimoto C,Sano M,De Saeger S,Ohtake K.Why-question answering using intra-and intersentential causal relations.In:Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics.So fia,Bulgaria:ACL,2013.1733?1743
5 Goodfellow I J,Pouget-Abadie J,Mirza M,Xu B,Warde-Farley D,Ozair S,et al.Generative adversarial nets.In:Proceedings of the 28th Annual Conference on Neural Information Processing Systems.Montreal,QC,Canada:NIPS,2014.2672?2680
6 Abe S,Inui K,Matsumoto Y.Two-phased event relation acquisition:coupling the relation-oriented and argumentoriented approaches.In:Proceedings of the 22nd International Conference on Computational Linguistics.Manchester,United Kingdom:ACM,2008.1?8
7 Do Q X,Chan Y S,Roth D.Minimally supervised event causality identi fication.In:Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing.Edinburgh,United Kingdom:ACM,2011.294?303
8 Hashimoto C,Torisawa K,De Saeger S,Oh J H,Kazama J.Excitatory or inhibitory:a new semantic orientation extracts contradiction and causality from the web.In:Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning.Jeju Island,Korea:ACM,2012.619?630
9 Rink B,Harabagiu S.UTD:classifying semantic relations by combining lexical and semantic resources.In:Proceedings of the 5th International Workshop on Semantic Evaluation.Los Angeles,California,USA:ACM,2010.256?259
10 Zeng D J,Liu K,Lai S W,Zhou G Y,Zhao J.Relation classification via convolutional deep neural network.In:Proceedings of the 25th International Conference on Computational Linguistics.Dublin,Ireland:ACL,2014.2335?2344
11 Mikolov T,Kara fiát M,Burget L,ernocky J,Khudanpur S.Recurrent neural network based language model.In:Proceedings of the 11th Annual Conference of the International Speech Communication Association.Makuhari,Chiba,Japan:DBLP,2010.1045?1048
12 Zhang D X,Wang D.Relation classi fication via recurrent neural network.arXiv:1508.01006,2015.
13 Zhang S,Zheng D Q,Hu X C,Yang M.Bidirectional long short-term memory networks for relation classi fication.In:Proceedings of the 29th Paci fic Asia Conference on Language,Information and Computation.Shanghai,China:PACLIC,2015.73?78
14 Zhou P,Shi W,Tian J,Qi Z Y,Li B C,Hao H W,et al.Attention-based bidirectional long short-term memory networks for relation classi fication.In:Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics.Berlin,Germany:ACL,2016.207?212
15 Chung J Y,Gulcehre C,Cho K H,Bengio Y.Empirical evaluation of gated recurrent neural networks on sequence modeling.arXiv:1412.3555,2014.
16 Zhang Y Z,Gan Z,Carin L.Generating text via adversarial training.In:Proceedings of the 2016 Workshop on Adversarial Training.Barcelona,Spain:NIPS,2016.
17 Yu L T,Zhang W N,Wang J,Yu Y.SeqGAN:sequence generative adversarial nets with policy gradient.In:Proceedings of the 31st AAAI Conference on Arti ficial Intelligence.San Francisco,California,USA:AAAI,2017.2852?2858
18 Li J W,Monroe W,Shi T L,Jean S,Ritter A,Jurafsky D.Adversarial learning for neural dialogue generation.arXiv:1701.06547,2017.
19 Arjovsky M,Chintala S,Bottou L.Wasserstein GAN.arXiv:1701.07875,2017.
20 Gulrajani I,Ahmed F,Arjovsky M,Dumoulin V,Courville A.Improved training of Wasserstein GANs.In:Proceedings of the 31st Annual Conference on Neural Information Processing Systems.Long Beach,CA,USA:NIPS,2017.5769?5779