999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于層次化結構表示的數據到文本生成方法

2023-12-31 00:00:00龔永罡郭怡星廉小親馬虢春王希劉宏宇
計算機應用研究 2023年8期

摘 要:最近的數據到文本生成方法廣泛采用了編碼器—解碼器架構或其變體,但是這些方法無法識別數據中不同部分的信息的重要性,導致在選擇適當的內容和排序方面表現不佳。針對這些問題,提出了一個基于層次化結構表示的數據到文本生成方法,它包括規劃階段和生成階段,規劃階段通過實體級、記錄級的多層次注意力來增強語義空間的表達能力,輸出的計劃代表重要內容的高層次表示,同時將計劃輸入給生成階段的生成器得到最終的文本。通過在兩個數據到文本生成的數據集上進行的廣泛實驗表明,該方法相比于已有的數據到文本生成方法,生成的文本對數據的描述更加準確,質量更高,該方法的提出為數據到文本生成的研究提供了一定的指導性作用。

關鍵詞:數據到文本生成; 多層次注意力; 層次化結構表示; 編碼器—解碼器架構

中圖分類號:TP391文獻標志碼:A

文章編號:1001-3695(2023)08-024-2399-05

doi:10.19734/j.issn.1001-3695.2022.11.0768

Data-to-text generation methods based on hierarchical structural representation

Gong Yonggang, Guo Yixing Lian Xiaoqin, Ma Guochun, Wang Xi, Liu Hongyu

(School of Artificial Intelligence, Beijing Technology amp; Business University, Beijing 100048, China)

Abstract:Recent data-to-text generation methods have widely adopted encoder-decoder architectures or their variants, but these methods fail to identify the different importance of information in different parts of the data, resulting in poor performance in selecting appropriate content and ranking. To address these problems, this paper proposed a data-to-text generation method based on hierarchical structural representation, which consisted of a planning phase and a generation phase. The planning phase enhanced the representation of the semantic space through multi-level attention of entity-level and record-level, and the output plan represented a high-level representation of the important content, while the plan was input to the generator in the generation phase to obtain the final text. Extensive experiments on two datasets generated by data-to-text show that the method generates texts have more accurate descriptions of data and higher quality compared to existing data-to-text generation methods. The proposed method provides some guidance for the research of data-to-text generation.

Key words:data-to-text generation; multi-level attention; hierarchical structure representation; encoder-decoder architecture

0 引言

在信息快速發展的今天,如何讓計算機學習海量知識并像人一樣表達出來演變成一個重要的研究課題。對于一場體育賽事來說,數據量無疑是非常大的,快速地從鋪天蓋地的數據中提取出需要的關鍵信息并創作出可讀性較強的文本,需要耗費巨大的人力和時間,而數據到文本生成技術可以很好地解決這一問題。數據到文本生成技術旨在生成有意義和連貫的文本,準確地傳達結構化數據,這些結構化數據包括表格、知識圖譜和抽象意義表示等。相較于傳統的寫作方式而言,數據到文本生成技術在文章撰寫時是十分有優勢的,不僅可以保證文章的時效性,而且機器處理數據的速度非常快,效率也很高,例如給機器輸入一場比賽的數據,利用數據到文本生成技術就可以快速地得到這場比賽的描述性文本。數據到文本生成目前主要是基于規則和數據驅動兩種方法[1],基于規則的方法需要人為設定規則及特征,這樣大量的人工干預,不僅耗費時間而且時效性也有所降低,基于數據驅動的方法很好地改善了基于規則方法存在的缺點。傳統的數據到文本的生成方法采用單獨的階段來進行文本規劃(確定哪些內容被談論以及如何在話語中談論)、句子規劃(將內容匯總到句子中,決定描述概念和關系的具體詞匯)和語言實現。文獻[2~4]基于神經網絡的方法利用encoder-decoder架構[5]進行端到端訓練,除了注意力和復制[6]等通用機制外,沒有關于如何最好地生成文本的特殊用途模塊。

最近,研究人員做了各種嘗試來改進encoder-decoder架構神經生成模型。Puduppully等人[7]提出了一個數據到文本的生成模型,首先從輸入表的記錄中學習生成一個計劃,然后根據這個計劃生成文本;Shao等人[8]介紹了一個基于計劃的層次變異模型,其中計劃是很多組序列,每個組都包含了一個句子中涉及的輸入項的子集。盡管能夠生成流暢的文本,但基于神經網絡的方法對數據到文本生成模型來講往往是不精確的,容易生成與輸入不符的文本,并且在內容選擇和文本結構方面表現不足。

在現有的基于深度學習的數據到文本生成方法中,語言模型無法理解文本中不同部分的信息重要性,生成的文本連貫性較差且對文本理解不充分容易產生與事實不符的結果。注意力機制可以學習到文本中各個部分的重要性,文本的層次化注意力表征可以通過層層遞進的注意力機制來幫助模型更好地理解數據。基于此,本文提出基于層次化結構表示的數據到文本生成方法,通過實體級、記錄級的層次化結構表示對不同輸入記錄分配不同的關注度。通過在標準數據集上廣泛的實驗表明,本文方法在各項指標的對比中均得到了提升,且生成的文本可以更加全面而真實地反映輸入數據。

1 設計思路

基于層次化結構表示的數據到文本生成方法通過實體級、記錄級的多層次注意力來增強語義空間的表達能力。如圖1所示,將賽事數據作為輸入,賽事的描述文本作為輸出,使用兩階段的架構,即從訓練數據中誘導出文章計劃,然后將其送入文本生成階段得到最終輸出文本,使得數據到文本的生成過程更容易解釋,解決了已有的數據到文本生成方法存在的問題:忽略了不同記錄對于數據到文本生成的重要性不同以及記錄中不同實體對于數據到文本生成的重要性也不同。

1.1 規劃階段

內容規劃歷來被認為是自然語言生成中的一個基本組成部分,它不僅要確定哪些信息被談論,而且要把它們安排成一個合適的結構來創造連貫的輸出。它決定哪些事實應該在文本中被提及,以及這些內容被提及的順序。一個明確的內容規劃器本質上是使神經網絡的工作不那么繁重,可以集中精力產生流暢的自然語言輸出,而不必在內容組織上花費太多精力。

通過瀏覽表1右上方的文本不難發現,它是圍繞實體展開的,例如在比賽中發揮重要作用的球員(如Brad Keller、Hunter Dozier等)和他們各自的球隊。此外,實體在實現話語連貫性方面的突出作用在語言學和認知科學文獻中早已得到認可,其中中心理論[10]在正式確定實體如何在文本中被實現和分配方面最為突出。本文著重于描述性文本的生成,而描述性文本通常被描述為“實體一致性”,因為實體分布將制約每個實體所對應的記錄的概率分布,所以數據到文本生成過程中應該首先關注實體,例如主要球員和他們的球隊;然后關注與這些實體相對應的記錄,例如球員在比賽中的表現。本文通過輸入數據的層次化結構表示來實現上述思想,從而提高生成文本的價值。

1.2 文本生成

文本生成階段使用雙向長短期記憶神經網絡,結合文章內容規劃構建了文本生成器,此外,加入了復制機制來提高生成文本數據的準確率。

2 訓練和推理

3 實驗及分析

3.1 實驗數據

3.2 參數設置

3.3 層次化不同特征的影響

為了探究不同特征在層次化注意力中對模型有效性的影響,本文在ROTOWIRE的測試集上進行了實驗,通過將不同特征級注意力與記錄級注意力層次化結合來探究實體級注意力與記錄級注意力的層次化結合對模型的影響。用HSR表示本文提出的實體級注意力與記錄級注意力的層次化結合;用VALUE表示數值級注意力與記錄級注意力的層次化結合;用TYPE表示類型級注意力與記錄級注意力的層次化結合;用HV表示主客級注意力與記錄級注意力的層次化結合。圖5展示了以上四個模型在BLEU[16]、CO、CS、RG指標下的評測結果。

實驗結果表明,實體級注意力與記錄級注意力的層次化結合在各個指數中均優于其余三個模型,尤其是在RG-P%指標上較為明顯,說明本文方法生成文本中數據的真實性提高較為明顯,實體級特征的關注度在每條記錄的表示中產生了較為明顯的影響。相較于其他特征與記錄級注意力的層次化結合而言,實體級注意力與記錄級注意力的層次化結合能夠幫助模型更好地理解輸入數據中的關鍵部分,進而提升數據到文本生成的質量,證明了本文方法中層次化結構的有效性。

3.4 對比實驗

將基于層次化結構表示的數據到文本生成方法(HSR)與以下模型分別在ROTOWIRE與MLB的測試集上進行了比較:a)WS-2017,文獻[4]提出的帶有條件拷貝機制的encoder-decoder模型;b)ED+CC,文獻[4]提出的模型在MLB數據集上實現的模型;c)NCP+CC,文獻[7]提出的帶有內容選擇及規劃的數據到文本的生成模型;d)ENT,文獻[9]提出的基于實體特征動態更新的模型。對比結果如表3、4所示。

在ROTOWIRE數據集上的測評顯示,相較于其他三個模型來說,除CS-P%以外指標均有所提升或幾乎持平,這可能是ENT模型取消了計劃的生成階段的原因,但HSR的這個指標在MLB數據集上得到了提升。總體來說,本文通過層次化結構表示的方法來對輸入數據構建更加豐富的語義空間,不僅優化了規劃階段(如CS、CO指標所示)的性能,為生成階段提供了更好的生成指引,還提高了生成階段的準確率(如RG指標所示),另外生成文本的流暢性也有所提升(如BLEU指標所示)。因此,基于層次化結構表示的數據到文本生成方法有效地提升了數據到文本生成的效果。

3.5 實例分析

本文通過對原始表格數據進行預處理得到如圖6所示的部分輸入數據,原始表格數據如表1所示。圖6中每一行代表一條記錄(例如34|Tobias_Harris|MIN|HOME),這里用不同顏色對記錄的特征進行區分,黃色代表實體級特征(參見電子版)。

在基于層次化結構表示的數據到文本生成方法中,首先計算實體級(黃色部分之間)注意力,然后與其他特征結合后再計算記錄級(每一行之間)注意力。

表5展示了ENT和HSR兩種方法針對圖6提及賽事的全部數據生成的文本,加粗字體表示該實體在文本中第一次出現。可以看出,本文方法結果中提到的“Al Horford”“Tobias Harris”“Reggie Jackson”三個實體在ENT方法的結果中并沒有相應的描述。此外,從帶有灰色背景的詞的數量可以看出,在ENT方法結果中“Hawks”出現了5次,而在HSR方法結果中只出現了3次。可以看出,本文方法通過層次級結構表示將注意力分散到了更多的實體上,對實體相應的記錄構建了更加充分的表達空間,最終生成的文本對更多的球員產生了對應的描述。因此,本文方法生成的文本可以對賽事進行更加全面的描述,同時又極大程度地保證了文本對數據描述的完整度,進而更加全面而準確地反映了賽事情況。

由于目前的數據到文本生成方法容易產生與輸入數據不符的文本,本文對生成文本的錯誤進行了對比分析,如表6所示,藍色表示符合事實的數據,紅色表示與事實不符的數據。可以看出,本文方法(HSR)生成文本中與事實不符的數據少于ENT方法,說明本文提出的層次化結構對實體及實體對應的記錄構建了豐富且真實度更高的特征空間,幫助模型更好地理解數據,使得生成文本更大程度地還原了原始數據的真實性。

4 結束語

本文提出了一種基于層次化結構表示的數據到文本生成方法,該方法包括基于實體級與記錄級層次化注意力結合指針網絡的規劃階段以及基于雙向長短期記憶神經網絡的文本生成階段。實驗結果表明,在CS、RG、CO、BLEU等指標評測下,相比已有模型,本文方法通過實體級注意力有效地實現了對于記錄中不同實體賦予了不同的關注度,記錄級注意力在實體級注意力的基礎上對不同記錄賦予了不同的關注度,這種層次化結合的結構優化了規劃階段及生成階段,整體性能有所提高。通過實驗分析可知,文中方法能夠突出實體級的重要信息,為賽事記錄構建豐富的特征空間并生成連貫簡潔和符合事實的輸出文本。

盡管所提出的數據到文本生成方法通過實體級注意力及記錄級注意力的層次化結合在標準數據集上表現出了較好的生成效果,但是由于本文是基于數據驅動的方式,生成文本中還是存在與事實不符的文本,后續的研究希望將數據驅動方式與基于模板的方式結合起來以提高生成文本的真實性。

參考文獻:

[1]曹娟, 龔雋鵬, 張鵬洲. 數據到文本生成研究綜述[J]. 計算機技術與發展, 2019,29(1):80-84,89. (Cao Juan, Gong Junpeng, Zhang Pengzhou. Review of data-to-text generation[J]. Computer Technology and Development, 2019,29(1): 80-84,89.)

[2]Lebret R,Grangier D,Auli M. Neural text generation from structured data with application to the biography domain[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA:Association for Computational Linguistics, 2016:1203-1213.

[3]Mei Hongyuan, Bansal M, Walter M R. What to talk about and how? Selective generation using LSTMs with coarse-to-fine alignment[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2016: 720-730.

[4]Wiseman S, Shieber S M, Rush A M. Challenges in data-to-document generation[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2017: 2253-2263.

[5]Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks[C]//Proc of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 3104-3112.

[6]Gu Jiatao, Lu Zhengdong, Li Hang, et al. Incorporating copying mechanism in sequence-to-sequence learning[C]//Proc of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2016: 1631-1640.

[7]Puduppully R,Dong Li,Lapata M. Data-to-text generation with content selection and planning[C]//Proc of the 33rd AAAI Conference on Artificial Intelligence. Palo Alto,CA:AAAI Press, 2019:6908-6915.

[8]Shao Zhihong, Huang Minlie, Wen Jiangtao, et al. Long and diverse text generation with planning-based hierarchical variational model[C]//Proc of Conference on Empirical Methods in Natural Language. Stroudsburg, PA: Association for Computational Linguistics, 2019: 3255-3266.

[9]Puduppully R, Dong Li, Lapata M. Data-to-text generation with entity modeling[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2019: 2023-2035.

[10]Grosz B J, Joshi A K, Weinstein S. Centering: a framework for mo-deling the local coherence of discourse[J]. Computational Linguistics, 1995,21(2): 203-225.

[11]Yang Zichao, Yang Diyi, Chris D, et al. Hierarchical attention networks for document classification[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2016: 1480-1489.

[12]Vinyals O, Fortunato M, Jaitly N. Pointer networks[C]//Proc of the 28th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015: 2692-2700.

[13]Luong T, Pham H, Manning C D. Effective approaches to attention-based neural machine translation[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015: 1412-1421.

[14]Gulcehre C, Ahn S, Nallapati R, et al. Pointing the unknown words[C]//Proc of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2016: 140-149.

[15]Klein G, Kim Y, Deng Yuntian, et al. OpenNMT: open-source toolkit for neural machine translation[C]//Proc of the 55th Annual Mee-ting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2017: 67-72.

[16]Papineni K, Roukos S, Ward T, et al. BLEU: a method for automa-tic evaluation of machine translation[C]//Proc of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2002: 311-318.

主站蜘蛛池模板: 国产精品吹潮在线观看中文| 久久国产精品影院| 伊人网址在线| 日韩在线播放欧美字幕| 欧美黄色网站在线看| 中文字幕在线观| 成人在线观看一区| 无码中文字幕精品推荐| 国产性生交xxxxx免费| 在线视频亚洲色图| 小13箩利洗澡无码视频免费网站| 亚洲人成网站在线观看播放不卡| 精品国产一区91在线| 国产丝袜无码精品| 免费 国产 无码久久久| 欧美成人综合视频| 蜜臀av性久久久久蜜臀aⅴ麻豆| 国产亚洲欧美在线专区| 国产情精品嫩草影院88av| A级毛片高清免费视频就| 国产成人区在线观看视频| 国产尹人香蕉综合在线电影| 一级毛片在线播放免费| 午夜视频www| www中文字幕在线观看| 亚洲一区免费看| 欧美专区在线观看| 国产美女精品人人做人人爽| 欧美黑人欧美精品刺激| 美女被操91视频| 亚洲高清中文字幕| 欧美性久久久久| 五月婷婷丁香色| 日本伊人色综合网| 日韩在线第三页| 免费三A级毛片视频| 激情六月丁香婷婷四房播| 免费观看无遮挡www的小视频| 国产成人精品18| 国产成人调教在线视频| 91亚洲精品国产自在现线| 日韩欧美中文在线| 免费不卡视频| 男女性色大片免费网站| www.亚洲天堂| 欧美、日韩、国产综合一区| 国产三区二区| 欧美日韩精品一区二区在线线 | 操操操综合网| 夜色爽爽影院18禁妓女影院| 国产一级在线观看www色| 国产精品亚洲а∨天堂免下载| 自拍中文字幕| 波多野结衣中文字幕一区| 国产日韩精品欧美一区喷| 国产亚洲一区二区三区在线| 国产精品无码AV中文| 狠狠亚洲五月天| 狠狠色综合网| 国产精品所毛片视频| 亚洲国产综合自在线另类| 亚洲国产成人久久精品软件| 午夜免费视频网站| 亚洲专区一区二区在线观看| 中文字幕波多野不卡一区| 二级特黄绝大片免费视频大片| 亚洲综合婷婷激情| 亚洲综合精品第一页| 奇米影视狠狠精品7777| 日本精品αv中文字幕| 亚洲天堂啪啪| 九九九国产| av在线人妻熟妇| 一级一毛片a级毛片| 亚洲综合色婷婷中文字幕| 国产永久在线观看| 18禁高潮出水呻吟娇喘蜜芽| 精品久久国产综合精麻豆| 四虎亚洲精品| 麻豆精选在线| 久热99这里只有精品视频6| 污视频日本|