摘 要:最近的數據到文本生成方法廣泛采用了編碼器—解碼器架構或其變體,但是這些方法無法識別數據中不同部分的信息的重要性,導致在選擇適當的內容和排序方面表現不佳。針對這些問題,提出了一個基于層次化結構表示的數據到文本生成方法,它包括規劃階段和生成階段,規劃階段通過實體級、記錄級的多層次注意力來增強語義空間的表達能力,輸出的計劃代表重要內容的高層次表示,同時將計劃輸入給生成階段的生成器得到最終的文本。通過在兩個數據到文本生成的數據集上進行的廣泛實驗表明,該方法相比于已有的數據到文本生成方法,生成的文本對數據的描述更加準確,質量更高,該方法的提出為數據到文本生成的研究提供了一定的指導性作用。
關鍵詞:數據到文本生成; 多層次注意力; 層次化結構表示; 編碼器—解碼器架構
中圖分類號:TP391文獻標志碼:A
文章編號:1001-3695(2023)08-024-2399-05
doi:10.19734/j.issn.1001-3695.2022.11.0768
Data-to-text generation methods based on hierarchical structural representation
Gong Yonggang, Guo Yixing Lian Xiaoqin, Ma Guochun, Wang Xi, Liu Hongyu
(School of Artificial Intelligence, Beijing Technology amp; Business University, Beijing 100048, China)
Abstract:Recent data-to-text generation methods have widely adopted encoder-decoder architectures or their variants, but these methods fail to identify the different importance of information in different parts of the data, resulting in poor performance in selecting appropriate content and ranking. To address these problems, this paper proposed a data-to-text generation method based on hierarchical structural representation, which consisted of a planning phase and a generation phase. The planning phase enhanced the representation of the semantic space through multi-level attention of entity-level and record-level, and the output plan represented a high-level representation of the important content, while the plan was input to the generator in the generation phase to obtain the final text. Extensive experiments on two datasets generated by data-to-text show that the method generates texts have more accurate descriptions of data and higher quality compared to existing data-to-text generation methods. The proposed method provides some guidance for the research of data-to-text generation.
Key words:data-to-text generation; multi-level attention; hierarchical structure representation; encoder-decoder architecture
0 引言
在信息快速發展的今天,如何讓計算機學習海量知識并像人一樣表達出來演變成一個重要的研究課題。對于一場體育賽事來說,數據量無疑是非常大的,快速地從鋪天蓋地的數據中提取出需要的關鍵信息并創作出可讀性較強的文本,需要耗費巨大的人力和時間,而數據到文本生成技術可以很好地解決這一問題。數據到文本生成技術旨在生成有意義和連貫的文本,準確地傳達結構化數據,這些結構化數據包括表格、知識圖譜和抽象意義表示等。相較于傳統的寫作方式而言,數據到文本生成技術在文章撰寫時是十分有優勢的,不僅可以保證文章的時效性,而且機器處理數據的速度非常快,效率也很高,例如給機器輸入一場比賽的數據,利用數據到文本生成技術就可以快速地得到這場比賽的描述性文本。數據到文本生成目前主要是基于規則和數據驅動兩種方法[1],基于規則的方法需要人為設定規則及特征,這樣大量的人工干預,不僅耗費時間而且時效性也有所降低,基于數據驅動的方法很好地改善了基于規則方法存在的缺點。傳統的數據到文本的生成方法采用單獨的階段來進行文本規劃(確定哪些內容被談論以及如何在話語中談論)、句子規劃(將內容匯總到句子中,決定描述概念和關系的具體詞匯)和語言實現。文獻[2~4]基于神經網絡的方法利用encoder-decoder架構[5]進行端到端訓練,除了注意力和復制[6]等通用機制外,沒有關于如何最好地生成文本的特殊用途模塊。
最近,研究人員做了各種嘗試來改進encoder-decoder架構神經生成模型。Puduppully等人[7]提出了一個數據到文本的生成模型,首先從輸入表的記錄中學習生成一個計劃,然后根據這個計劃生成文本;Shao等人[8]介紹了一個基于計劃的層次變異模型,其中計劃是很多組序列,每個組都包含了一個句子中涉及的輸入項的子集。盡管能夠生成流暢的文本,但基于神經網絡的方法對數據到文本生成模型來講往往是不精確的,容易生成與輸入不符的文本,并且在內容選擇和文本結構方面表現不足。
在現有的基于深度學習的數據到文本生成方法中,語言模型無法理解文本中不同部分的信息重要性,生成的文本連貫性較差且對文本理解不充分容易產生與事實不符的結果。注意力機制可以學習到文本中各個部分的重要性,文本的層次化注意力表征可以通過層層遞進的注意力機制來幫助模型更好地理解數據。基于此,本文提出基于層次化結構表示的數據到文本生成方法,通過實體級、記錄級的層次化結構表示對不同輸入記錄分配不同的關注度。通過在標準數據集上廣泛的實驗表明,本文方法在各項指標的對比中均得到了提升,且生成的文本可以更加全面而真實地反映輸入數據。
1 設計思路
基于層次化結構表示的數據到文本生成方法通過實體級、記錄級的多層次注意力來增強語義空間的表達能力。如圖1所示,將賽事數據作為輸入,賽事的描述文本作為輸出,使用兩階段的架構,即從訓練數據中誘導出文章計劃,然后將其送入文本生成階段得到最終輸出文本,使得數據到文本的生成過程更容易解釋,解決了已有的數據到文本生成方法存在的問題:忽略了不同記錄對于數據到文本生成的重要性不同以及記錄中不同實體對于數據到文本生成的重要性也不同。
1.1 規劃階段
內容規劃歷來被認為是自然語言生成中的一個基本組成部分,它不僅要確定哪些信息被談論,而且要把它們安排成一個合適的結構來創造連貫的輸出。它決定哪些事實應該在文本中被提及,以及這些內容被提及的順序。一個明確的內容規劃器本質上是使神經網絡的工作不那么繁重,可以集中精力產生流暢的自然語言輸出,而不必在內容組織上花費太多精力。
通過瀏覽表1右上方的文本不難發現,它是圍繞實體展開的,例如在比賽中發揮重要作用的球員(如Brad Keller、Hunter Dozier等)和他們各自的球隊。此外,實體在實現話語連貫性方面的突出作用在語言學和認知科學文獻中早已得到認可,其中中心理論[10]在正式確定實體如何在文本中被實現和分配方面最為突出。本文著重于描述性文本的生成,而描述性文本通常被描述為“實體一致性”,因為實體分布將制約每個實體所對應的記錄的概率分布,所以數據到文本生成過程中應該首先關注實體,例如主要球員和他們的球隊;然后關注與這些實體相對應的記錄,例如球員在比賽中的表現。本文通過輸入數據的層次化結構表示來實現上述思想,從而提高生成文本的價值。
1.2 文本生成
文本生成階段使用雙向長短期記憶神經網絡,結合文章內容規劃構建了文本生成器,此外,加入了復制機制來提高生成文本數據的準確率。
2 訓練和推理
3 實驗及分析
3.1 實驗數據
3.2 參數設置
3.3 層次化不同特征的影響
為了探究不同特征在層次化注意力中對模型有效性的影響,本文在ROTOWIRE的測試集上進行了實驗,通過將不同特征級注意力與記錄級注意力層次化結合來探究實體級注意力與記錄級注意力的層次化結合對模型的影響。用HSR表示本文提出的實體級注意力與記錄級注意力的層次化結合;用VALUE表示數值級注意力與記錄級注意力的層次化結合;用TYPE表示類型級注意力與記錄級注意力的層次化結合;用HV表示主客級注意力與記錄級注意力的層次化結合。圖5展示了以上四個模型在BLEU[16]、CO、CS、RG指標下的評測結果。
實驗結果表明,實體級注意力與記錄級注意力的層次化結合在各個指數中均優于其余三個模型,尤其是在RG-P%指標上較為明顯,說明本文方法生成文本中數據的真實性提高較為明顯,實體級特征的關注度在每條記錄的表示中產生了較為明顯的影響。相較于其他特征與記錄級注意力的層次化結合而言,實體級注意力與記錄級注意力的層次化結合能夠幫助模型更好地理解輸入數據中的關鍵部分,進而提升數據到文本生成的質量,證明了本文方法中層次化結構的有效性。
3.4 對比實驗
將基于層次化結構表示的數據到文本生成方法(HSR)與以下模型分別在ROTOWIRE與MLB的測試集上進行了比較:a)WS-2017,文獻[4]提出的帶有條件拷貝機制的encoder-decoder模型;b)ED+CC,文獻[4]提出的模型在MLB數據集上實現的模型;c)NCP+CC,文獻[7]提出的帶有內容選擇及規劃的數據到文本的生成模型;d)ENT,文獻[9]提出的基于實體特征動態更新的模型。對比結果如表3、4所示。
在ROTOWIRE數據集上的測評顯示,相較于其他三個模型來說,除CS-P%以外指標均有所提升或幾乎持平,這可能是ENT模型取消了計劃的生成階段的原因,但HSR的這個指標在MLB數據集上得到了提升。總體來說,本文通過層次化結構表示的方法來對輸入數據構建更加豐富的語義空間,不僅優化了規劃階段(如CS、CO指標所示)的性能,為生成階段提供了更好的生成指引,還提高了生成階段的準確率(如RG指標所示),另外生成文本的流暢性也有所提升(如BLEU指標所示)。因此,基于層次化結構表示的數據到文本生成方法有效地提升了數據到文本生成的效果。
3.5 實例分析
本文通過對原始表格數據進行預處理得到如圖6所示的部分輸入數據,原始表格數據如表1所示。圖6中每一行代表一條記錄(例如34|Tobias_Harris|MIN|HOME),這里用不同顏色對記錄的特征進行區分,黃色代表實體級特征(參見電子版)。
在基于層次化結構表示的數據到文本生成方法中,首先計算實體級(黃色部分之間)注意力,然后與其他特征結合后再計算記錄級(每一行之間)注意力。
表5展示了ENT和HSR兩種方法針對圖6提及賽事的全部數據生成的文本,加粗字體表示該實體在文本中第一次出現。可以看出,本文方法結果中提到的“Al Horford”“Tobias Harris”“Reggie Jackson”三個實體在ENT方法的結果中并沒有相應的描述。此外,從帶有灰色背景的詞的數量可以看出,在ENT方法結果中“Hawks”出現了5次,而在HSR方法結果中只出現了3次。可以看出,本文方法通過層次級結構表示將注意力分散到了更多的實體上,對實體相應的記錄構建了更加充分的表達空間,最終生成的文本對更多的球員產生了對應的描述。因此,本文方法生成的文本可以對賽事進行更加全面的描述,同時又極大程度地保證了文本對數據描述的完整度,進而更加全面而準確地反映了賽事情況。
由于目前的數據到文本生成方法容易產生與輸入數據不符的文本,本文對生成文本的錯誤進行了對比分析,如表6所示,藍色表示符合事實的數據,紅色表示與事實不符的數據。可以看出,本文方法(HSR)生成文本中與事實不符的數據少于ENT方法,說明本文提出的層次化結構對實體及實體對應的記錄構建了豐富且真實度更高的特征空間,幫助模型更好地理解數據,使得生成文本更大程度地還原了原始數據的真實性。
4 結束語
本文提出了一種基于層次化結構表示的數據到文本生成方法,該方法包括基于實體級與記錄級層次化注意力結合指針網絡的規劃階段以及基于雙向長短期記憶神經網絡的文本生成階段。實驗結果表明,在CS、RG、CO、BLEU等指標評測下,相比已有模型,本文方法通過實體級注意力有效地實現了對于記錄中不同實體賦予了不同的關注度,記錄級注意力在實體級注意力的基礎上對不同記錄賦予了不同的關注度,這種層次化結合的結構優化了規劃階段及生成階段,整體性能有所提高。通過實驗分析可知,文中方法能夠突出實體級的重要信息,為賽事記錄構建豐富的特征空間并生成連貫簡潔和符合事實的輸出文本。
盡管所提出的數據到文本生成方法通過實體級注意力及記錄級注意力的層次化結合在標準數據集上表現出了較好的生成效果,但是由于本文是基于數據驅動的方式,生成文本中還是存在與事實不符的文本,后續的研究希望將數據驅動方式與基于模板的方式結合起來以提高生成文本的真實性。
參考文獻:
[1]曹娟, 龔雋鵬, 張鵬洲. 數據到文本生成研究綜述[J]. 計算機技術與發展, 2019,29(1):80-84,89. (Cao Juan, Gong Junpeng, Zhang Pengzhou. Review of data-to-text generation[J]. Computer Technology and Development, 2019,29(1): 80-84,89.)
[2]Lebret R,Grangier D,Auli M. Neural text generation from structured data with application to the biography domain[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA:Association for Computational Linguistics, 2016:1203-1213.
[3]Mei Hongyuan, Bansal M, Walter M R. What to talk about and how? Selective generation using LSTMs with coarse-to-fine alignment[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2016: 720-730.
[4]Wiseman S, Shieber S M, Rush A M. Challenges in data-to-document generation[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2017: 2253-2263.
[5]Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks[C]//Proc of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 3104-3112.
[6]Gu Jiatao, Lu Zhengdong, Li Hang, et al. Incorporating copying mechanism in sequence-to-sequence learning[C]//Proc of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2016: 1631-1640.
[7]Puduppully R,Dong Li,Lapata M. Data-to-text generation with content selection and planning[C]//Proc of the 33rd AAAI Conference on Artificial Intelligence. Palo Alto,CA:AAAI Press, 2019:6908-6915.
[8]Shao Zhihong, Huang Minlie, Wen Jiangtao, et al. Long and diverse text generation with planning-based hierarchical variational model[C]//Proc of Conference on Empirical Methods in Natural Language. Stroudsburg, PA: Association for Computational Linguistics, 2019: 3255-3266.
[9]Puduppully R, Dong Li, Lapata M. Data-to-text generation with entity modeling[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2019: 2023-2035.
[10]Grosz B J, Joshi A K, Weinstein S. Centering: a framework for mo-deling the local coherence of discourse[J]. Computational Linguistics, 1995,21(2): 203-225.
[11]Yang Zichao, Yang Diyi, Chris D, et al. Hierarchical attention networks for document classification[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2016: 1480-1489.
[12]Vinyals O, Fortunato M, Jaitly N. Pointer networks[C]//Proc of the 28th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015: 2692-2700.
[13]Luong T, Pham H, Manning C D. Effective approaches to attention-based neural machine translation[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015: 1412-1421.
[14]Gulcehre C, Ahn S, Nallapati R, et al. Pointing the unknown words[C]//Proc of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2016: 140-149.
[15]Klein G, Kim Y, Deng Yuntian, et al. OpenNMT: open-source toolkit for neural machine translation[C]//Proc of the 55th Annual Mee-ting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2017: 67-72.
[16]Papineni K, Roukos S, Ward T, et al. BLEU: a method for automa-tic evaluation of machine translation[C]//Proc of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2002: 311-318.