999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于生成式對抗網絡的開放式信息抽取

2021-02-25 03:37:36韓家寶王宏志
智能計算機與應用 2021年10期
關鍵詞:單詞信息模型

韓家寶, 王宏志

(哈爾濱工業大學 計算機科學與技術學院, 哈爾濱 150001)

0 引 言

信息抽取是自然語言處理領域內的重要研究內容之一。 研究目的是將文本結構化,結構化后的內容可以是三元組的表示形式,也可以是多元關系的表示形式[1]。 傳統的信息抽取方法側重于在語料庫上建立一套預定義的抽取范式[2-4]。 因此,這些方法離不開大量的人工參與,為了減少信息抽取中的人工參與,研究人員提出了開放式信息抽取[5-6],開放式信息抽取不局限于一組與定義的目標關系,而是提取文本中發現的所有類型關系。 近年來,開放式信息抽取取得了可觀的研究成果[4,7-20],一系列的開放式信息抽取系統陸續被應用到各種工具當中。 這些系統普遍采用多種自然語言處理工具,因此也無一例外地面臨著錯誤積累和傳播的問題[21]。近期的工作多采用端到端的神經網絡方法來進行開放式信息抽取的研究,這些方法雖然有效避免了錯誤積累和傳播問題,但卻沒有考慮到曝光偏差問題,即:使用編碼器-解碼器架構處理序列到序列問題時,訓練階段與測試階段所使用的數據不一致。

本文中,提出了基于生成式對抗網絡(GAN)[6,22]的模型來應對開放式信息抽取任務,GAN 模型不僅避免了傳統方法帶來的錯誤累積和傳播問題,還能很好地解決曝光偏差問題[5,23-25]。 此模型包含一個序列生成器,一個鑒別器。 其中,序列生成器負責生成開放式信息抽取的結果,鑒別器用于鑒定生成器的結果是否來自訓練數據。 文中也對一個大型的Open IE 基準數據集進行了研究,實驗結果表明,該算法的性能優于幾種常用的基準。 同時,也證實了本文提出的模型要比單一的編碼器-解碼器模型好得多。 此外,性能上的明顯改進也證實了GAN 模型在解決開放信息抽取任務中的曝光偏差問題上的有效性。

1 模型架構

生成式對抗網絡已經成功應用于計算機視覺等領域以及一些其他重要的領域[26-30]。 GAN 由2 個模塊組成,分別是:生成器G和鑒別器D,其目的旨在估計當前輸入施工訓練數據而不是從生成器中產生的概率。 在開放式信息抽取任務中使用GAN 模型的價值函數為:

其中,(x,y)表示訓練實例;x表示輸入;y表示輸出;Pd表示數據分布;PG表示生成器的參數分布。

如式(1)目標函數所述,鑒別器的學習目標是確定當前數據是來自訓練數據、還是來自生成器的結果。 生成器的訓練目標是產生與訓練數據相當的結果來混淆鑒別器。 在實際的模型訓練過程中,常用策略梯度[31]法來計算生成器的梯度。 更新生成器參數模型前,先采樣候選答案并使用鑒別器來計算獎勵分數,繼而利用所得獎勵分數來計算生成器的梯度,再使用反向傳播算法來更新一代參數。 在訓練過程中,將訓練數據中的序列和采樣后的候選序列分別作為鑒別器訓練的正例和反例。 為了解決鑒別器的過擬合問題,使用MLE[32-34]提高生成器訓練的穩定性。

圖1 中展示了GAN 模型的整體架構,該模型是由Transformer 模型構成的序列生成器和CNN 模型構成的鑒別器組成。

圖1 模型架構Fig.1 Model architecture

1.1 序列生成器

對于序列生成器,編碼器結構將輸入序列映射到高維空間中的向量表示,解碼器根據中間向量表示進行解碼,與傳統的網絡結構不同,Transformer 模型不包含任何循環單元和卷積單元[35]。 研究中,是通過正弦位置編碼來記錄單詞的相對位置,具體公式可寫為:

其中,pos表示單詞的位置;i表示輸入句子的維度;d表示編碼器輸出的維度。 在第一個編碼器和解碼器部分,位置編碼通過式(2)、式(3) 進行計算。 第j個編碼器的輸出Se j是通過一個自注意力層和一個前饋神經網絡層進行計算得到:

其中,Oe(j)表示第j個編碼器的注意力層的輸出;LN(·) 表示的是歸一化層;表示的是編碼器的輸入;第j個解碼器的輸出是由一個編碼器-解碼器的注意力層EDATT() 產生的。 此處需涉及的數學公式可寫為:

其中,表示解碼器的輸入;表示第j個解碼器自注意力層的輸出;表示第j個編碼器的輸入;最后一個解碼器層的輸出Sd(n)被線性映射到V維的矩陣中,這里的V是輸出詞匯表的長度。

1.2 對抗模型

對于給定的輸入序列x,鑒別器需要區分當前結果是來自生成器的輸出y^,還是來自訓練數據中的實序列y。 因此,研究使用卷積神經網絡來度量序列對(x,y) 的匹配度。 考慮到卷積神經網絡具有逐層卷積和池化的功能,在該項任務中則有著獨特的優勢。 卷積神經網絡可以準確地捕獲(x,y) 在不同空間中的對應關系,給出給定序列對(x,y),先通過簡單地連接標記為x和$y$的嵌入向量構造2D表示。 對于x中的第i個單詞xi和y中的第j個單詞yj,有以下特性映射:

基于這種2D 表示,這里的卷積窗口設置為3*3 大小,通過以下的類型f的特征映射來捕獲x與y的映射關系:

其中,σ(·) 表示sigmoid激活函數,σ(x)=1/(1+exp(- x)),再使用一個2*2 的窗口進行池化操作:

在此基礎上,將提取的特征輸入到一個全連通層,利用上一層的sigmoid激活函數,求得訓練數據中(x,y) 的概率。 該鑒別器的優化目標是以訓練數據(x,y) 為正例,序列生成器采樣數據為負例,以最小化二值分類的交叉熵損失為目標。

訓練目標:生成器模型試圖生成一個高質量的序列來欺騙鑒別器。 對于鑒別器D,使用訓練集和G生成的序列對D進行訓練。 形式上D的目標函數是使V(D,G) 最大化:

對于序列生成器G,G的目標是最大化期望獎勵(D的概率),而不是直接最小化V(D,G),函數如下:

鑒別器的訓練過程與傳統模式訓練沒有區別,只需要向鑒別器提供發生器的輸出和訓練數據。 發生器的訓練過程不同于鑒別器的訓練過程,因為從發生器的離散采樣結果y^使得從鑒別器直接反向傳播誤差信號到發生器要較為困難,使V(D,G) 對G的參數不可微。 為此,研究中使用了enhance 算法來優化生成器G。

2 實驗

研究中使用了大型基準數據集OIE2016[36],包含3 200 個句子,共10 359 個提取、包含24 296 個句子,共56 662 個提取。 為了驗證本文提出方法的性能,仿真中使用了數個最先進的基準測試,包括OLLIE、ClausIE、Stanford OpenIE、PropS 和OPENIE4來與本文方法進行比較。 實驗中,使用了2 個評價指標,即:精確度和查全率。

2.1 模型參數

研究中利用keras-transformer 實現Adversarial-OIE。 本次實驗中使用了Tesla P100 GPU。 該模型包括6 個編碼器和6 個解碼器、768 維的隱藏狀態和512 維的單詞嵌入。 詞匯量有55 K 個。 仿真時采用Relu作為注意激活函數和前饋激活,退出率設為0.05。 同時選用Adam優化了本文模型。 對于對手D,CNN由2 個卷積+池化層、一個全連接層和一個softmax層組成,卷積窗口大小為3*3,池化窗口大小為2*2, 特征大小為20,隱藏層的大小為20。

2.2 實驗結果

在OIE2016 中的腳本作為本次研究的工具來評估精度和召回結果。 仿真得到的精確率/召回率曲線如圖2 所示。 在基準測試集OIE2016 中,將本文提出的模型與許多基準測試方法進行了比較。 從實驗數據可以看出,與現有方法相比,本文方法在精度方面有明顯的優勢。 該模型的主要優點就是端到端神經網絡模型,避免了錯誤傳播的問題。

圖2 實驗結果Fig.2 Experimental results

3 結束語

本文創新性地采用生成對抗網絡模型來處理開放式信息抽取任務。 研究中,將開放式信息提取任務定義為序列到序列的任務。 編碼-解碼器結構的網絡模型處理序列到序列的任務會導致暴露偏差問題(由訓練和推理過程中的文本生成不一致引起)。這種不一致性反映在推理和訓練中使用的不同輸入上。 在訓練過程中,每個單詞輸入都來自于一個真實的樣本,但是當前用于推理的輸入來自于上一個預測的輸出。 采用生成對抗網絡模型可以有效地解決這一問題。 生成對抗網絡模型的再訓練階段給每個單詞設定一個相應的獎勵,而非如同極大似然估計一樣來增加單詞出現的概率,如此就不會產生曝光偏差問題。 本文的模型盡可能地保證了鑒別器的可靠性。 利用高質量的鑒別器改進了序列發生器。無需任何手工制作的模式和其他NLP 工具,序列生成器就可以生成精度更高的三元組。 實驗表明,該模型具有較好的性能。 從實驗結果不難看出GAN模型的不足。 也就是說,在一定的時間間隔內,精度會迅速下降。 究其原因則在于GAN 模型的對抗性訓練不容易控制。 在訓練過程中,如果鑒別器模型有偏差,發生器模型就會被誤導,產生一個劣質循環,這一偏差也會越來越大。 最終,模型的性能會突然下降。

猜你喜歡
單詞信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
單詞連一連
看圖填單詞
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
最難的單詞
單詞拾趣
海外英語(2006年8期)2006-09-28 08:49:00
主站蜘蛛池模板: 99久久精品国产麻豆婷婷| 日韩高清一区 | 欧美日韩北条麻妃一区二区| 国产超碰一区二区三区| 国产成人调教在线视频| 国产三级韩国三级理| 一级毛片免费高清视频| 国产精品亚洲片在线va| 国产欧美日韩另类| 国产综合网站| 久久99国产综合精品女同| 国产亚洲精品精品精品| 亚洲最猛黑人xxxx黑人猛交| 小蝌蚪亚洲精品国产| 国产91无毒不卡在线观看| 国产特一级毛片| 精品三级网站| 精品国产一区91在线| 午夜人性色福利无码视频在线观看| 一本色道久久88亚洲综合| 国产sm重味一区二区三区| 精品99在线观看| 在线毛片网站| 久久精品国产免费观看频道| 2021天堂在线亚洲精品专区| 性69交片免费看| 精品人妻一区二区三区蜜桃AⅤ| 在线国产三级| 欧美精品v欧洲精品| 思思热精品在线8| 国产精品中文免费福利| 潮喷在线无码白浆| 天天色天天操综合网| 伊人天堂网| 国产免费a级片| 亚洲精品成人福利在线电影| 五月婷婷精品| 日韩在线1| 国产精品女熟高潮视频| 日韩国产精品无码一区二区三区| 成人综合网址| 国产精品无码作爱| 98超碰在线观看| 麻豆精品在线视频| 国产伦精品一区二区三区视频优播| 国产自在线播放| 呦女精品网站| 国产va免费精品| 国产精品无码AV中文| 色首页AV在线| 免费国产黄线在线观看| 在线色国产| 久久人人97超碰人人澡爱香蕉 | 2018日日摸夜夜添狠狠躁| 日韩久久精品无码aV| 国产成人一区免费观看| 亚洲欧洲日韩综合色天使| 欧美97欧美综合色伦图| 国产精品第一区| 伊人久综合| 一区二区影院| 乱人伦中文视频在线观看免费| 国产农村妇女精品一二区| 99热这里只有精品国产99| 欧美激情福利| 国产一级精品毛片基地| 亚洲AV成人一区国产精品| 国产精品私拍在线爆乳| 中文国产成人精品久久| 精品国产乱码久久久久久一区二区| 久久夜色撩人精品国产| 亚洲综合天堂网| 亚洲欧美日韩动漫| 精品一区二区无码av| 成人免费午夜视频| 国产主播在线一区| 51国产偷自视频区视频手机观看 | 免费国产黄线在线观看| 91小视频在线播放| 伦伦影院精品一区| 伊人久久综在合线亚洲2019| 波多野结衣一二三|