999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自然語言生成綜述

2021-07-02 00:35:16李雪晴王朱君朱俊武
計算機應用 2021年5期
關鍵詞:文本方法模型

李雪晴,王 石,王朱君,朱俊武

(1.揚州大學信息工程學院,江蘇揚州 225000;2.中國科學院計算技術研究所,北京 100190)

(*通信作者電子郵箱wangshi@ict.ac.cn)

0 引言

自然語言生成(Natural Language Generation,NLG)是自然語言處理領域一個重要的組成部分,實現高質量的自然語言生成也是人工智能邁向認知智能的重要標志。作為人工智能和計算語言學的子領域,自然語言生成從抽象的概念層次開始來生成文本[1]。NLG 技術具有極為廣泛的應用價值,應用于智能問答對話系統和機器翻譯系統時,可實現更為智能便捷的人機交互;應用于機器新聞寫作[2]、醫學診斷報告生成[3]和天氣預報生成[4]等領域時,可實現文章報告自動撰寫,有效減輕人工工作;應用于文章摘要、文本復述領域時,可為讀者創造快速閱讀條件等。

按照輸入信息的類型劃分,自然語言生成可以分為三類:文本到文本生成、數據到文本生成和圖像到文本生成。其中,文本到文本生成又可劃分為機器翻譯[5]、摘要生成、文本簡化、文本復述等;數據到文本生成的任務常應用于基于數值數據生成BI(Business Intelligence)報告、醫療診斷報告等;在圖像到文本的生成的應用領域中,常見的是通過新聞圖像生成標題、通過醫學影像生成病理報告、兒童教育中看圖講故事等。國際上對上述技術均進行了多年研究,研究成果主要發表在自然語言處理相關學術會議與期刊上,例如ACL(Annual Meeting of the Association for Computational Linguistics)、EMNLP(conference on Empirical Methods in Natural Language Processing)、NACAL(the North American Chapter of the Association for Computational Linguistic)、CoNLL(Conference on Computational Natural Language Learning)、ICLR(International Conference on Learning Representations)和AAAI(Association for the Advancement of Artificial Intelligence)等。上述每項技術都極具挑戰性,在學界和工業界的研究發展中,已經對人們的生活和工作產生巨大的影響。

NLG的體系結構可分為傳統的管道模型和基于神經網絡的端到端(End-to-End,End2End)模型兩種。管道模型中的不同模塊中包括多個獨立步驟,如文本結構、句子聚合、語法化、參考表達式生成、語言實現等。其缺點一是上一步驟結果的好壞會直接影響到下一步驟,從而影響整個訓練的結果;二是在于需要耗費大量特定領域的手工標注,難以擴展到新的領域。

隨著神經網絡研究的發展,研究人員利用端到端的模型進行自然語言處理。端到端的模型處理問題時,不再人為劃分子問題,而是將中間的操作包含在神經網絡中,省去了代價高而且易出錯的數據標注工作。端到端模型通過縮減人工預處理,增加模型的整體契合度,提高系統解決問題的效率。

端到端模型的操作流程:首先,從輸入端輸入原始數據,然后通過眾多操作層進行數據加工,輸出端會產生一個預測結果;接著,將預測結果與真實結果相比較得到誤差,將誤差在端到端模型的每一層反向傳播,每一層的表示會根據誤差做調整,直到模型收斂或達到預期的效果才結束。端到端模型還可以與基于模板的方法融合以取得更好的效果。2017年發布的Task-Completion Bot 方法[6]在End2End 模型的基礎上將基于模板的NLG 和基于模型的NLG 進行融合,生成自然語言文本。

下面,本文將介紹一些生成方法和模型,以及分別介紹文本到文本、數據到文本、圖像到文本生成。

1 生成方法與生成模型

自然語言生成系統通常在不同階段使用不同的生成技術達到生成結果符合實際需求的目的。下面介紹幾種常用的文本生成技術。

1.1 生成方法

1.1.1 模板生成方法

模板生成方法是最早應用于自然語言生成領域的一種方法[7]。該技術通過將詞匯和短句在模板庫中進行匹配,匹配后將詞匯和短語填入固定模板,從而生成自然語言文本,其本質是系統根據可能出現的幾種語言情況,事先設計并構造相應的模板,每個模板都包括一些不變的常量和可變的變量,用戶輸入信息之后,文本生成器將輸入的信息作為字符串嵌入到模板中替代變量。

模板生成方法的優點是思路較簡單、用途較廣泛,但因技術存在的缺陷使得生成的自然語言文本質量不高,且不易維護。該技術多應用于較簡單的自然語言生成環境中。

1.1.2 模式生成方法

模式生成是一種基于修辭謂語來描述文本結果的方法。這種方法通過語言學中修辭謂詞來描述文本結構的規律,構建文本的骨架,從而明確句子中各個主體的表達順序。此方法表示的文本結構中一般包括五種類型的節點:Root、Predicate、Schema、Argument 以及Modifier。這五種節點中,Root 為結構樹的根節點,表示一篇文章位于根節點下有若干個Schema 節點,Schema 節點表示段落或者句群,位于Schema節點下是Schema 節點或者Predicate 節點,Predicate 節點代表一個句子,句子是文本的基本組成單位。位于Predicate 節點下的是Argument 節點,每個Argument 節點表示句子中的每一個基本語義成分。如果Argument 節點有修飾成分,那么子節點Modifier 就發揮語義成分的修飾的作用。在結構樹中,樹的葉子節點是Argument 或Modifier,樹中每個節點都含有若干個槽,槽用來存放標志的各種信息以供文本生成使用。

模式生成技術的最大優點是通過填入不同的語句和詞匯短語即能生成自然語言文本,較易維護,生成的文本質量較高。不足是只能用于固定結構類型的自然語言文本,難以滿足多變的需求。

1.1.3 修辭結構理論方法

修辭結構理論(Rhetorical Structure Theory,RST)方法來源于修辭結構理論的引申[8],是關于自然語言文本組織的描述性理論。RST 包含Nucleus Satellite 模式和Multi-Nucleus 模式[9]兩種模式:Nucleus Satellite 模式將自然語言文本分為核心部分和附屬部分,核心部分是自然語言文本表達的基本命題,而附屬部分表達附屬命題,多用于描述目的、因果、轉折和背景等關系;Multi-Nucleus 模式涉及一個或多個語段,它沒有附屬部分,多用于描述順序、并列等關系。

RST 技術優點是表達的靈活性很強,但實現起來較為困難,且存在不易建立文本結構關系的缺陷。

1.1.4 屬性生成方法

屬性生成是一項較復雜的自然語言生成方法,其通過屬性特征來反映自然語言的細微變化。例如,生成的句子是主動語氣還是被動語氣,語氣是疑問、命令還是聲明,都需要屬性特征表示。此方法要求輸出的每一個單元都要與唯一具體的屬性特征集相連,這項技術通過屬性特征值與自然語言中的變化對應,直到所有信息都能被屬性特征值表示為止。

該方法的優點是通過增加新的屬性特征值完成自然語言文本內容的擴展,但需要細粒度的語言導致維護較為困難。

以上四種方法在NLG 的發展過程中具有十分重要的作用。雖然這些方法存在一定不足,但仍具有較高的應用價值。

1.2 生成模型

1.2.1 馬爾可夫鏈

在語言生成中,馬爾可夫鏈通過當前單詞可以預測句子中的下一個單詞,是經常用于語言生成的算法。但由于僅注意當前單詞,馬爾可夫模型無法探測當前單詞與句子中其他單詞的關系以及句子的結構,使得預測結果不夠準確,在許多應用場景中受限。

1.2.2 循環神經網絡

循環神經網絡(Recurrent Neural Network,RNN)通過前饋網絡傳遞序列的每個項目信息,并將模型的輸出作為序列中下一項的輸入,每個項目存儲前面步驟中的信息。RNN 能夠捕捉輸入數據的序列特征,但存在兩大缺點:第一,RNN 短期記憶無法生成連貫的長句子;第二,因為RNN 不能并行計算,無法適應主流趨勢。

1.2.3 長短期記憶網絡

長短期記憶(Long Short-Term Memory,LSTM)網絡及其變體能夠解決梯度消失問題并生成連貫的句子,旨在更準確地處理輸入的長序列中的依賴性,但LSTM 也有其局限性:LSTM 處理難以并行化,限制了LSTM 生成系統利用GPU(Graphics Processing Unit)等現代計算設備的能力。

1.2.4 序列到序列模型

序列到序列(Sequence-to-Sequence,Seq2Seq)模型是由Google 工程師Sutskever 等[10]在2014 年提出,該模型一般是通過Encoder-Decoder 框架實現,目的是解決大部分序列不等長的問題,如機器翻譯中,源語言和目標語言的句子往往并沒有相同的長度。Seq2Seq 模型結構如圖1 所示,該模型更善于利用更長范圍的序列全局的信息,并且綜合序列上下文判斷,推斷出與序列相對應的另一種表述序列。

圖1 Seq2Seq模型示意圖Fig.1 Schematic diagram of Seq2Seq model

1.2.5 Attention模型

Attention模型是對人類大腦中的注意力進行模擬,旨在從眾多信息中選擇出對當前任務更關鍵的信息。在Encoder-Decoder框架中,Encoder中的每個單詞對輸出文本中的每一個單詞的影響是相同的,導致語義向量無法完全表示整個序列的信息,隨著輸入的序列長度的增加,解碼后的生成文本的質量準確度下降。Attention模型在處理輸入信息時,對不同的塊或區域采用不同的權值,權重越大越聚焦于其對應的內容信息,Attention模型示意圖如圖2所示,引入該模型后,能夠使得關鍵信息對模型的處理結果影響較大,從而提高輸出的質量。

圖2 注意力模型示意圖Fig.2 Schematic diagram of attention model

1.2.6 Transformer模型

Transformer 模型在2017年由Google團隊[11]首次提出。Transformer 是一種基于注意力機制來加速深度學習算法的模型,由一組編碼器和一組解碼器組成,編碼器負責處理任意長度的輸入并生成其表達,解碼器負責把新表達轉換為目的詞。Transformer 模型利用注意力機制獲取所有其他單詞之間的關系,生成每個單詞的新表示。

Transformer 的優點是注意力機制能夠在不考慮單詞位置的情況下,直接捕捉句子中所有單詞之間的關系。模型拋棄之前傳統的Encoder-Decoder 模型必須結合RNN 或者卷積神經網絡(Convolutional Neural Network,CNN)的固有模式,使用全Attention 的結構代替了LSTM,減少計算量和提高并行效率的同時不損害最終的實驗結果;但是此模型也存在缺陷,首先此模型計算量太大,其次還存在位置信息利用不明顯的問題,無法捕獲長距離的信息。

1.2.7 ELMo模型

2018 年,ELMo(Embedding from Language Model)出世。在之前工作中,每個詞對應一個vector,處理多義詞時會產生偏差。ELMo不同于以往的一個詞對應一個固定向量,而是實現了將一句話或一段話輸入模型,模型根據上下文來推斷每個詞對應的詞向量。該模型的結構如圖3 所示,其優點是利用多層LSTM 和前后向LSTM,實現結合前后語境對多義詞準確理解。

圖3 ELMo模型示意圖Fig.3 Schematic diagram of the ELMo model

1.2.8 BERT模型

BERT(Bidirectional Encoder Representations from Transformers)模型于2018年由Google 團隊首次提出。在自然語言生成任務中,BERT 模型采用雙向Transformer,模型的表示在所有層中,共同依賴于左右兩側的上下文。在自然語言生成中,該模通過查詢字向量表將文本中的每個字轉換為一維向量作為模型輸入;模型輸出則是輸入各字對應的融合全文語義信息后的向量表示。與最近的其他語言表示模型不同,BERT旨在通過聯合調節所有層中的上下文來預先訓練深度雙向表示。此模型在多種NLP任務中取得了先進結果。

1.3 技術對比

在NLG 領域中,每種生成方法和模型各具特點。現按時間順序整理常見的方法模型及其優缺點對比,如表1所示。

表1 常見方法優缺點Tab.1 Advantages and disadvantages of common methods

2 文本到文本生成

文本到文本生成技術主要是指以文本作為輸入,進行變換處理后,生成新的文本作為輸出。此技術包括機器翻譯、文本摘要、文本更正和文本復述等。

2.1 機器翻譯

在文本到文本生成領域中,機器翻譯是使用機器自動地將一種自然語言文本(源語言)翻譯成另一種自然語言文本(目標語言)[12]。在統計機器翻譯時期,Brown 等[13]提出基于信源信道思想的統計機器翻譯模型,其基本思想是把機器翻譯看成是一個信息傳輸的過程,用一種信源信道模型對機器翻譯進行解釋。2005 年,Bannard 等[14]使用雙語并行語料庫來提取和生成釋義,基于雙語平行語料提出了一種復述模型。該模型設置了一組手動詞,利用短語e1和短語e2共有的外文翻譯f作為“樞軸”,P(f|e1)表示f是e1的復述的概率,計算P(f|e1)和P(f|e2)的乘積來計算短語e1是e2的復述的概率P(e1|e2),優點是對翻譯內容進行細化,并且將上下文信息考慮在內。統計機器翻譯的優點是解決了規則法中翻譯知識獲取的難題,開發周期短,實用性較強。缺陷是模型沒有考慮句子的結構信息,模型在句法結構相差加大的語言對中翻譯效果不理想。

目前,神經網絡機器翻譯已經逐漸成為主流方法。相比傳統的統計機器翻譯而言,使用深度學習神經網絡來實現自然語言生成中的機器翻譯,不僅適合處理變長的線性序列,而且會根據上下文選擇合適的單詞。Kalchbrenner 等[15]于2013年提出一種用于機器翻譯的新型編碼器-解碼器結構。該模型使用的數據集來自WMT(Workshop on Machine Translation)公布的新聞部分的144 953 對長度小于80 個單詞的雙語語料庫。使用卷積神經網絡將給定的一段源文本編碼成一個連續的向量,然后再使用循環神經網絡作為解碼器將該狀態向量轉換成目標語言。實驗結果表明,該模型翻譯結果的困惑度比基于對齊的模型低43%。

如今機器翻譯在應用中面臨的問題主要是語言數據資源稀缺、缺少平行數據,未來的核心工作是構建高質量的平行數據庫,使翻譯結果更具有靈活性且貼合語境。

2.2 文本摘要

文本摘要通過分析輸入的文本,捕捉原始文本的核心含義,摘取文本中的重要信息,通過提煉壓縮等操作,生成篇幅短小的摘要,為用戶提供閱讀便利。根據實現技術方案的不同,文本摘要可以分為生成式文本摘要和抽取式文本摘要。

生成式文本摘要是一個端到端的過程,首先利用自然語言理解對文本進行語法語義分析,進行信息融合后,再利用自然語言生成技術生成文本摘要。生成式摘要包含新的詞語或短語,靈活性較高。隨著近幾年神經網絡模型的發展,帶有注意力的序列到序列模型被廣泛地用于生成式摘要任務[16]。其優點在于突破了傳統模型中固定大小的輸入問題,并能從序列中間抓住重點,不丟失重要的信息,從而解決了長距離的信息會被弱化的問題。

抽取式文本摘要是從文檔或文檔集中抽取其中一句話或幾句話,構成摘要。優點是簡單實用,不易產生完全偏離文章主旨的點,但是可能伴隨生成摘要不連貫、字數不好控制、目標句主旨不明確等缺點,其產生的摘要質量好壞決定于原文。在抽取式方法中,最簡單的是抽取文章中的前幾句作為文本摘要。常用的方法為Lead-3,即抽取文章的前三句作為文章的摘要。此方法簡單直接,但只適用于單文檔摘要。利用Text Rank 進行文本摘要生成時,將句子作為節點,使用句子間相似度,構造無向有權邊。使用邊上的權值迭代更新節點值,最后選取N個得分最高的節點,作為文本摘要。使用聚類方法實現文本摘要生成時,首先將句子向量化表示,然后利用K均值聚類和Mean-Shift聚類方法進行句子聚類,接著從得到K個類別中,選擇距離質心最近的句子,最后得到K個句子,作為最終摘要[17]。例如Jadhav 等[18]直接使用Seq2Seq 模型來交替生成詞語和句子的索引序列來完成抽取式摘要任務,其模型SWAP-NET(Sentencesand Words from Alternating Pointer NETwork)計算一個Switch 概率指示生成詞語或者句子,最后解碼出詞語和句子的混合序列,摘要從產生句子的集合選出。

抽取式、生成式摘要各有優點,混合式文本摘要為了結合兩者優點,同時運用抽取方式和生成方式進行文本摘要生成。在生成式摘要中,生成過程缺少關鍵信息的控制和指導,無法很好地定位關鍵詞語,因此一些方法首先提取關鍵內容,再進行摘要生成。Laha 等[19]將抽取式模型的輸出概率作為句子級別的attention 權重,用該權重來調整生成式模型中的詞語級別的attention 權重,當詞語級別的attention 權重高時,句子級別的attention 權重也高。此方法使得模型輸出的句子級別的權重和詞語級別的權重盡量一致,有效定位關鍵信息。

文本摘要作為傳統的自然語言處理任務,核心問題是如何確定關鍵信息。研究人員發現利用外部知識、關鍵詞信息等方式來更好地輔助摘要的生成,同時要盡量避免出現重復、可讀性差這些問題的出現。

2.3 文本復述

文本復述生成技術通過對給定文本進行改寫,生成全新的復述文本,要求輸出與原文形式差異、語義相同的文本。文本簡化是文本復述的一類特殊問題,其目的是將復雜的長句改寫成簡單、可讀性更好、易于理解的多個短句,方便用戶快速閱讀。在文本簡化領域的研究中,Siddharthan[20]于2014 年發表一篇綜述論文,文中使用聯想詞匯銜接的應用來分析文本的復雜性。在Coster 等[21]提出的關于句子簡化的研究中,將英語維基百科與簡單的英語維基百科生成一個平行的簡化語料庫,使用Moses 提供初步的文本簡化結果,發現在未簡化的基礎上有0.005 個BLEU(BiLingual Evaluation Understudy)改善。

3 數據到文本生成

數據到文本生成也是NLG 的重要研究方向,以包含鍵值對的數據作為輸入,旨在自動生成流暢的、貼近事實的文本以描述輸入數據。數據到文本生成廣泛應用于包括基于面向任務的對話系統中的對話動作、體育比賽報告和天氣預報等。基于流水線模型的數據到文本生成系統框架,目前廣泛應用于面向多個領域的數據到文本的生成系統[22]中。

國內關于數據到文本的生成的研究大多是基于模板,通過人工添加數據進行生成。隨著神經網絡的發展,數據到文本生成領域中基于神經網絡序列生成的方法逐步成為熱點。

3.1 基于規則和模板方法

基于規則和模板方法是一種簡單實用的自然語言文本生成技術方法[23],其本質是系統根據可能出現的幾種語言情況,事先設計并構造相應的規則或模板,其中都包括一些不變的常量和可變的變量,用戶輸入信息之后,文本生成器將輸入的信息作為字符串嵌入到模板中替代變量。

2003年Duboue等[24]提出一種內容選擇方法,從文本語料中自動學習內容選擇規則和獲取相關語義,并用于人物傳記的短文本生成。2017 年Gong 等[25]在基于模板技術的自動生成系統中加以改進,提出了一種基于知識規則的模板自動生成方法,用于從模板集中動態選擇模板,實現快速有效地生成海量體育新聞。基于模板集的系統生成的文本靈活性強、內容更加豐富。

模板生成技術是一種簡單實用的自然語言文本生成技術[26],該技術通過將詞匯和短句在模板庫中進行匹配,匹配后將詞匯和短語填入固定模板,從而生成自然語言文本,其本質是系統根據可能出現的幾種語言情況,事先設計并構造相應的模板,每個模板都包括一些不變的常量和可變的變量,用戶輸入信息之后,文本生成器將輸入的信息作為字符串嵌入到模板中替代變量。

基于規則和模板方法是工業應用中主流的做法,此方法具備可解釋性與可控制性,保證所輸出文本的正確性;然而方法的劣勢較為明顯,難以實現端到端的優化,損失信息上限也不高,需要依賴人工干預來抽取優質模板,生成的內容在多樣性、流暢度以及連貫性往往會不盡如人意。

3.2 基于神經網絡序列生成方法

近年來,隨著深度學習技術的推進,研究人員開始使用神經網絡序列生成的方法進行數據到文本生成,這種方法稱為data-to-seq 模型。基于神經網絡的方法又分為基于神經網絡語言模型的方法和基于神經機器翻譯的方法。

3.2.1 基于神經機器翻譯方法

Mei 等[27]的研究中將數據的文本生成任務視為一個翻譯任務,即輸入的是結構化數據,輸出的是文本。在Puduppully等[28]的研究中,為了解決神經系統難以捕獲長期結構的問題,提出了一個神經網絡架構模型,如圖4所示。

圖4 具有內容選擇和規劃的生成模型Fig.4 Generation model with content selection and planning

模型將任務分解為兩個階段:1)內容選擇和規劃對數據庫的輸入記錄進行操作,并生成一個內容計劃,指定哪些記錄將在文檔中以及以何種順序進行語言描述;2)文本生成產生輸出文本給定內容計劃作為輸入;同時加入copy 機制來提升解碼器的效果。實驗結果表明,在輸出文本中包含的相關事實數量和這些事實呈現出的順序性,生成質量都得到了提高。

3.2.2 基于神經網絡語言模型方法

神經網絡語言模型由Bengio 等[29]于2003 年提出,模型解決了n-gram 模型當n較大時會發生數據稀疏的問題。基于神經語言模型的方法不需要太多人工干預,易產生豐富流暢的文字描述,不過受限于語料和模型,使用者無法直接控制內容生成,難以確保所輸出的文本內容同輸入數據中的信息吻合,需要優化來提高實用性。2018 年,在Yang 等[30]關于TEG(Topic to Essay Generation)任務的研究中,將知識圖譜嵌入當作外部知識輔助自然語言生成。過去TEG 工作僅僅基于給定的主題去執行文本生成,忽略常識知識所提供的背景知識,常識知識能夠有效提高生成文章的新穎性和多樣性。Yang等[30]的實驗結果與BLEU 評分的最佳基線相比,取得了11.85%的相對改進,所以通過知識圖譜嵌入來輔助自然語言生成,生成的文章新穎多樣且主題一致。

3.3 公開數據集

在不同的應用領域,有相關特定的數據到文本生成的數據集,如表2 所示。在天氣預報生成領域中的數據集有SumTime-Meteo[31]和Weather Gov[32];體育比賽領域的數據集有RoboCup[33]、NFL(National Football League)[34]、Rotowire[35];航空領域常見的數據集有ATIS(Automatic Terminal Information System)[36];人物傳記領域常見的數據集有WikiBio[37]。

表2 數據到文本生成常見的數據集Tab.2 Data-to-text generated common datasets

4 圖像到文本生成

圖像到文本生成是指根據輸入的圖像信息生成描述圖像的自然語言文本,常應用于給新聞圖片生成標題、兒童教育中看圖講故事、醫學圖像報告等。此項技術能夠為缺乏相關知識或閱讀障礙的人群提供便利。

根據生成文本的長度和內容詳細程度分類,可以將圖像到文本生成分為圖像標題自動生成和圖像說明自動生成。圖像的文本生成技術主要可分為三類:基于模板的圖像描述、檢索式圖像描述以及生成式圖像描述。

4.1 基于模板的圖像描述

早期利用流水線模式實現圖像到文本生成。在Yao 等[38]的研究中,使用句子模板實現生成圖像的描述,其模板為四元組形式。此模型在視頻監控系統和自動駕駛場景理解系統中解析特定域中的圖像視頻進行實驗,生成有使用價值的文本報告。

基于模板的圖像描述方法的優點是能夠有效保證生成文本語法的正確性以及內容的相關性。該方法由于視覺模型數量較少,所以存在所生成的句子新穎度和復雜度不高等問題。

4.2 檢索式圖像描述

檢索式圖像描述是根據待描述圖像,從句子池中檢索出一個或一組句子來為圖像生成描述[39]。Farhadi 等[40]通過建立的三元組對象,動作,場景實現圖像與文本意義的相關聯。根據給定的待描述圖像,首先利用求解Markov Random Field 將其映射到三元組,然后通過Lin 相似度來計算圖像和句子之間的語義距離,最后選擇從句子池中選擇語義最相近的句子來實現圖像描述的生成。

基于檢索式圖像到文本的生成方法能夠使得生成文本在語法上具有正確性和流暢性[41],但由于使用句子池中的句子進行圖像描述,生成效果欠缺新穎性,在描述復雜場景或包含新穎事物的圖片中存在局限性。

4.3 生成式圖像描述

從視覺空間或多模態空間中生成圖像描述的做法是,在分析圖像內容的基礎上,使用語言模型來生成圖像的描述。因為此方法利用了深度學習技術,所以可以適應為多種的圖像生成新的描述的任務需求,生成文本的相關性和準確性較之前方法有所提升。因此,基于深度學習的生成式圖像描述是目前研究的熱點。

4.3.1 基于多模態空間的圖文生成

多模態空間的圖文生成框架包含4 個部分,框架如圖5所示。

圖5 基于多模態空間的圖文生成框架Fig.5 Framework of image text generation based on multimodal space

圖像編碼器在深度卷積神經網絡的作用下實現圖像特征的提取。文本編碼器在提取單詞特征的基礎上學習并更新單詞的特征表示,并將其按照上下文順序饋送給循環神經網絡。多模態空間的作用是將圖像特征和文本特征映射到空間。然后傳至文本解碼器,從而生成圖像描述。Li 等[42]利用知識圖譜技術實現醫學報告生成,其流程是根據輸入的醫學圖像,先用預訓練好的CNN 提取出圖像特征;然后經過一個圖像編碼器得到語境向量;接著用句子解碼器對語境向量進行解碼得到若干個topic;對于每個topic 可以用模板庫或者生成模式進行強化學習,得到診斷報告。

4.3.2 基于生成對抗網絡的圖文生成

生成對抗網絡(Generative Adversarial Network,GAN)由1個生成網絡和1 個判別網絡組成,在兩個神經網絡相互博弈中進行學習。輸入隨機噪聲后,生成網絡會模擬真實樣本進行輸出。生成網絡的輸出作為判別網絡的輸入,目的是分辨數據來自真實樣本還是來自網絡生成。在生成網絡和判別網絡相互對抗中,通過學習調整參數,直到生成結果和真實樣本趨于一致。

基于GAN 的圖像描述方法與傳統神經網絡模型相比,生成的文本更加貼近人類的描述,更具有多樣性。

4.3.3 基于強化學習的圖文生成

強化學習是通過Agent與Environment 交互的方式來獲得獎勵,以此來指導Agent的下一步行為。Ren等[43]提出的基于強化學習的圖文生成體系結構由“策略網絡”和“價值網絡”構成。在每個時間步內,兩個網絡共同計算下一個最佳生成詞,該方法借助實際獎勵值來衡量圖像與句子相似性,并以此評估生成的圖像描述文本的正確性。Rennie等[44]提出了一種基于self-critical 思想的強化學習方法來訓練序列生成模型。此方法沒有直接去估算獎勵,而是使用測試階段的輸出來歸一化獎勵而不是評估一個baseline歸一化獎勵。

基于強化學習的圖文生成方法可以優化序列學習中的曝光偏差問題,但也可能存在具有很高方差的問題。

5 評估方法

5.1 BLEU

BLEU是一個雙語評估輔助工具,主要用來評估機器翻譯的質量。n-gram 在自然語言處理中表示多元精度,可以用來評估一個句子是否合理,也可以用來評估兩個字符串之間的差異程度。BLEU 的核心思想是比較候選文本和參考文本里的n-gram 的重合程度,重合程度越高就認為譯文質量越高。uni-gram 用于衡量單詞翻譯的準確性,高階n-gram 用于衡量句子翻譯的流暢性[45]。實踐中,通常是取n=1~4,然后對進行加權平均。它的計算公式如下:

其中:n表示n-gram,BP為懲罰因子,Pn為多元精度,Wn為多元精度對應的權重。懲罰因子BP具體計算方法為:

其中:c指候選譯文的長度;r指所有參考譯文中,其長度與候選譯文最接近的長度。懲罰因子主要用來懲罰機器譯文與參考譯文長度差距過大情況。

5.2 METEOR

METEOR 又稱顯式排序的翻譯評估指標[46],它在基于BLEU 的基礎上進行了一些改進,其目的是克服一些BLEU 標準中的缺陷。使用WordNet 計算特定的序列匹配,同義詞,詞根和詞綴、釋義之間的匹配關系,改善了BLEU 的效果,使其跟人工判別有更強的相關性。計算公式如下:

其中:α為可調控的參數,m為候選翻譯中能夠被匹配的一元組的數量,c為候選翻譯的長度,r為參考摘要的長度。pen為懲罰因子,懲罰的是候選翻譯中的詞序與參考翻譯中的詞序不同,具體計算方法為:

其中:m是候選翻譯中能夠被匹配的一元組的數量,#chunks指的是chunk 的數量,chunk 是既在候選翻譯中相鄰又在參考翻譯中相鄰的被匹配的一元組聚集而成的單位。

METEOR 主要特點是uni-gram 共現統計、基于F 值和考慮同義詞、詞干,常應用于機器翻譯和圖片說明,因為其依賴于Java 才能實現,并且參數較多,需要外部知識源如WebNet的支持,所以它在應用起來有一定的局限性。

5.3 ROUGE

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)大致分為4 種:ROUGE-N、ROUGE-L、ROUGE-W、ROUGE-S。常用的是前兩種,ROUGE-N 中的“N”指的是ngram,其計算方式與BLEU 類似,只是BLEU基于精確率,而ROUGE基于召回率。ROUGE-L中的“L”指的是Longest common sub sequence,計算的是候選摘要與參考摘要的最長公共子序列長度,長度越長得分越高。

主要介紹ROUGE-N 和ROUGE-L 的計算公式,ROUGE-N計算公式如下:

其中:n表示n-gram,Count(gramn)表示一個n-gram 的出現次數,Countmatch(gramn)表示一個n-gram的共現次數。

ROUGE-L的計算公式如下:

其中:X表示候選摘要,Y表示參考摘要,LCS(X,Y)表示候選摘要與參考摘要的最長公共子序列的長度,m表示參考摘要的長度,n表示候選摘要的長度。

ROUGE 方法的特點是n-gram 共現統計、基于召回率(ROUGE-N)和F 值(ROUGE-L),常應用于文本摘要。值得注意的是,ROUGE 是基于字的對應而非基于語義的對應,不過可以通過增加參考摘要的數量來緩解這一問題。

5.4 Perplexity

Perplexity 又稱困惑度[47]。它的核心思想是:首先根據參考句子,學習一個語言模型P;然后根據語言模型P,計算候選句子的得分;最后根據句子長度對上述得分進行標準化。計算公式如下:

其中:W是候選翻譯,N是候選翻譯的長度,P是根據參考翻譯得到的語言模型,而P(w1w2…wN)則是語言模型對候選翻譯計算出的得分。

Perplexity 這一評估指標是基于語言模型的。困惑度越低,翻譯質量越好,經常應用于機器翻譯、語言模型。它的缺點是:數據集越大困惑度下降得越快、數據中的標點會對模型的PPL產生影響和常用詞干擾。

5.5 CIDEr

CIDEr(Consensus-based Image Description Evaluation)是基于共識的圖像描述進行評估,核心思想:把每個句子看成文檔,然后計算其TF-IDF(Term Frequency-Inverse Document Frequency)向量的余弦夾角,據此得到候選句子和參考句子的相似度。計算公式如下:

其中:c表示候選標題,S表示參考標題集合,n表示評估的是n-gram,M表示參考標題的數量,gn表示基于n-gram 的TF-IDF向量。

該評估方法主要運用于圖片說明,它與ROUGE 一樣,也只是基于字詞的對應而非語義的對應。

5.6 語義命題圖像標題評估

語義命題圖像標題評估(Semantic Propositional Image Caption Evaluation,SPICE)的核心思想是使用基于圖的語義表示來編碼文字中的物體、屬性和關系。它先將候選文本和參考文本用概率上下文無關法解析成句法依賴關系樹,然后用規則法把依存關系樹映射成場景圖[48],最后計算候選文本中物體、屬性和關系中的F-score值。它的計算公式如下:

其中:c表示候選文本,S表示參考文本集合,G(·)函數表示將一段文本轉換成一個場景圖,T(·)函數表示將一個場景圖轉換成一系列元組的集合;?運算類似于交集,與交集不同的地方在于它不是嚴格匹配,而是類似于METEOR中的匹配。

SPICE 方法的主要特點是使用基于圖的語義表示,常應用于圖片說明。在評估的時候主要考察名詞的相似度,不適合用于機器翻譯等任務。

6 發展趨勢

借助自然語言生成的演變可以看到,從使用簡單的馬爾可夫鏈生成句子到使用注意力機制模型生成更長距離的連貫文本,如今正處于自然語言生成建模的攻堅克難時期。Transformer 向真正自主文本生成方向邁出了重要的一步,與此同時,還針對其他類型的內容(例如圖像、視頻和音頻)開發了生成模型。目前在自然語言生成評估標準中,缺乏一個通用的高質量的評估標準,這也是制約NLG 發展的一個重要原因,接下來研究的一個熱點是整理出一個更好的業內公認的高質量的數據集來制定高質量的評價標準。

猜你喜歡
文本方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 无码专区国产精品第一页| 国产一级裸网站| 亚洲精品爱草草视频在线| 亚洲无码熟妇人妻AV在线| 国产爽歪歪免费视频在线观看| 高清无码手机在线观看| 国产精品99久久久久久董美香 | 天天摸夜夜操| 青青草原国产免费av观看| 久久精品欧美一区二区| 国产成人无码综合亚洲日韩不卡| a级毛片免费看| 狠狠干欧美| 有专无码视频| 欧美成人一级| 欧美在线视频不卡第一页| 日韩AV无码一区| 一区二区偷拍美女撒尿视频| 欧美激情网址| 国产资源免费观看| 亚洲最新网址| 欧美午夜视频在线| 国产尤物视频网址导航| 亚洲欧美不卡| 伊人久久综在合线亚洲2019| 亚洲女人在线| 91在线免费公开视频| 18禁黄无遮挡免费动漫网站| 亚洲综合色吧| 国产高清在线精品一区二区三区 | 伊人久综合| 精品视频91| 国产区免费| 99视频在线精品免费观看6| 国产全黄a一级毛片| aⅴ免费在线观看| 永久在线精品免费视频观看| 日韩精品成人在线| 一本大道香蕉久中文在线播放| 99热国产这里只有精品无卡顿"| 免费xxxxx在线观看网站| 亚洲成人精品| 91在线国内在线播放老师| 日本国产一区在线观看| 久久久噜噜噜久久中文字幕色伊伊| 午夜视频免费一区二区在线看| 亚洲国产看片基地久久1024| 国产乱子伦视频三区| 在线免费看片a| 亚洲精品动漫| 99热这里都是国产精品| 亚洲一级毛片| 国产一区免费在线观看| 国产美女精品一区二区| 91无码国产视频| 久久国产精品波多野结衣| 国产一级妓女av网站| 亚洲日韩第九十九页| 东京热av无码电影一区二区| 波多野结衣一区二区三视频| 国产91小视频在线观看| 午夜老司机永久免费看片| 国产高清色视频免费看的网址| 国产剧情一区二区| 青青草国产在线视频| 国产精品美女网站| 色噜噜狠狠狠综合曰曰曰| 看国产毛片| 毛片免费试看| 亚洲另类第一页| 先锋资源久久| 在线毛片免费| 欧美三级视频网站| 91久久精品国产| 国产成人一区二区| 国产亚洲视频中文字幕视频| 欧美人人干| 亚洲成av人无码综合在线观看| 在线欧美日韩国产| 欧美一区二区三区不卡免费| jizz在线观看| 国产SUV精品一区二区6|