999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于指針網絡生成抽象式新聞摘要

2020-06-16 10:40:58黃繼風宋俊典陳海光
計算機應用與軟件 2020年6期
關鍵詞:機制文本實驗

郭 倩 黃繼風 宋俊典 陳海光

1(上海軟中信息技術有限公司 上海 200030)

2(上海師范大學信息與機電工程學院 上海 200030)

0 引 言

自動文本摘要技術是自然語言處理的一項重要分支和基礎性研究工作,隨著文本信息的爆發式增長,從大量文本信息中提取關鍵信息成為業界發展的迫切需求,自動文本摘要技術的研究對于緩解這項需求有著重要意義。目前,自動文本摘要技術分為兩大類,抽取式文本摘要和抽象式文本摘要。抽取式文本摘要是指根據詞頻排序算法,利用統計學算法從原文本中直接抽取排名靠前的句子,這種方法簡單易實現且生成的摘要基本符合語法結構,是目前用的比較多的方法。抽取式文本摘要主要的研究工作有2017年翟飛飛等[2]提出的基于神經網絡的抽取式網絡模型。

抽象式文本摘要的研究現狀并不是很成熟。隨著近幾年深度學習理論算法的應用及開發框架的不斷成熟,抽象式文本摘要的研究也取得了很大的進步。2015年Rush等[4]首次采用神經網絡模型生成抽象式文本摘要。2016年Nallapati等[5]又提出了新的編碼器解碼器結構,編碼器采用卷積神經網絡,解碼器采用循環神經網絡(CNN-RNN)模型結構。2017年Paulus等[6]首次提出基于RNN生成抽象式文本摘要。

本實驗在加入注意力機制的編碼器解碼器模型的基礎上,引入了指針網絡來緩解生成的摘要不符合原文的現象。并且利用加入注意力機制的編碼器解碼器模型生成新詞,達到生成抽象新聞摘要的目的。利用指針網絡從原文中取詞,使得生成的摘要更準確,能夠更好地符合原文意思。采用指針網絡生成抽象式文本摘要的工作流程主要包括數據集的獲取及預處理、網絡模型的搭建、模型的優化調參、實驗結果的評測等。

1 實驗前期準備

實驗開始前需要對實驗數據預處理。數據預處理階段是整個實驗的開始,也是非常關鍵的一步,因為干凈的數據集對于實驗結果的影響至關重要,本實驗采用搜狐語料庫作為數據集,對網絡模型進行驗證。整個實驗的流程如圖1所示。

圖1 生成新聞摘要的工作流程

實驗所用的開發環境為Linux操作系統,開發語言為Python 2.7,開發框架為TensorFlow 1.0,開發工具為Pycharm 2017.1與Sublime組合,需要安裝Pyrouge評測工具及NumPy庫,整個模型訓練在HP Z440工作站上進行。

1.1 新聞語料庫的獲取

實驗語料庫是從搜狐官網下載的完整版的zip格式的壓縮文件,大小為648 MB。其中包含2012年6月至7月期間國內、國際、體育、社會、娛樂等18個頻道的新聞數據,下載的數據包括URL、新聞標題和正文信息。

1.2 數據清洗

具體數據清洗的步驟如下:

(1) 把搜狐語料庫采轉換成UTF-8編碼,再去標簽提取所需要的正文及摘要部分,然后把語料轉換成文本文件。由于轉換后的一個文本文件比較大,不易于進一步的處理,再把文本文件切分成若干個比較小的文本文件。

(2) 利用停用詞表對文本語料去除停用詞,再利用中文分詞系統ICTCLAS進行中文分詞。對文本語料進行標準化處理,去除空行空白字符。

(3) 為了使文本語料便于進一步的處理,對文本語料進行進一步的切分,使得最終的語料庫轉換成一條新聞內容對應一條摘要的格式,最終,文本語料共包含近130萬條文本語料對,文本格式如表1所示。

表1 數據集清洗后最終文本格式

1.3 生成文本詞典

經過數據清洗后的新聞摘要對一共有近130萬條,把近130萬條的新聞摘要對切分成單個文本文件,每個文本文件對應一對新聞摘要對,一共就生成近130萬個文本文件。用這近130萬個文本文件生成對應的詞典,步驟如下:

(1) 生成130萬個數字的列表,把列表分成對應的訓練集、驗證集、測試集三張所對應的數字列表,比例為32∶1∶1,這樣有助于模型的訓練。

(2) 把文本文件對應成訓練集、驗證集、測試集,然后轉換為bin文件。在文本數據訓練集上生成詞典,為了讓詞典覆蓋到所有的文本數據,規定詞典大小為50 000個單詞。詞典生成以后,訓練集、驗證集、測試集已經對應生成,下一步開始訓練模型。

2 指針網絡模型的構建

2.1 加入注意力機制的編碼器解碼器模型

引入注意力機制的編碼器解碼器模型,使得解碼器預測序列的時候可以更多地關注輸入到隱藏層的信息,這樣解碼器生成的預測序列就會更準確。

在編碼器解碼器模型中,編碼器會將完整句子的輸入整合到一個固定維度的向量中,再把這個向量輸入到解碼器中,解碼器就會根據這個向量預測輸出的句子。但是,當輸入的句子比較長時,這個固定維度的中間向量難以存儲足夠的信息,這就成為基本的編碼器解碼器模型的瓶頸。針對這個問題,Bahdanau等[7]2015年首次提出了注意力機制(Attention)模型。注意力機制允許解碼器隨時查看編碼器中輸入句子的單詞或片段,這樣就不再需要中間向量存儲所有的信息。

解碼器在解碼的每一步將隱藏狀態作為查詢的輸入,輸入到編碼器來查詢編碼器的隱藏狀態,在每個輸入的位置計算一個與查詢相關程度的權重,再根據這個權重對每個輸入位置的隱藏狀態求加權平均,加權平均后得到的向量稱為語境向量,表示它與當前輸出的單詞最相關的原文信息。在解碼下一個單詞時,將語境向量作為附加的信息輸入到解碼器的循環神經網絡中,這樣解碼器就可以隨時讀取到與當前輸出最相關的原文信息,而不必完全依賴于上一時刻的隱藏狀態。

注意力機制的數學定義來自文獻[7]中的計算公式:

(1)

(2)

at=softmax(et)

(3)

(4)

2.2 構建指針混合網絡模型

基本的編碼器解碼器模型具有生成抽象詞語的能力,而指針網絡可以從原文中取詞[8],與基本的編碼器解碼器模型的區別是指針網絡不會把一個序列轉換成另一個序列,而是產生一系列指向輸入序列元素的指針。網絡結構源于注意力機制,不考慮輸入元素,生成一個指向輸入元素的概率,實際上得到的是輸入信息。指針網絡混合模型建模過程中所用到的參數符號說明見表2。

表2 符號說明

(5)

(6)

圖2 指針網絡模型的結構示意圖

通過引入指針網絡的編碼器解碼器模型生成抽象式新聞摘要。把文本輸入到編碼器中訓練成詞向量,再通過解碼器接收詞向量,解碼器t時刻的輸入包括t-1時刻解碼器的輸出摘要和編碼器輸出的詞向量。引入指針網絡從原文中取詞使生成的新聞摘要更準確。解碼器的輸出采用集束搜索算法(beam search),beam的大小為4。

2.2.1實驗環境

實驗環境為Linux開發環境,硬件環境為HP Z440工作站,內存為16 GB,顯卡為GTX1080Ti,顯存為11 GB。開發語言為Python2.7,模型的搭建采用深度學習框架TensorFlow1.0。

訓練語料庫采用中文搜狐新聞語料庫,總共有130萬條新聞文本摘要對,把數據集劃分為訓練集,驗證集和測試集,比例為32∶1∶1。這樣有助于模型的訓練。其中在驗證集上調整參數,測試集上進行測試評分。

2.2.2實驗過程

(1) 實驗準備。把下載好的搜狐數據集轉換成文本文件,去除停用詞,再去除空行、空白字符等。停用詞表如表3所示。再用中文分詞系統ICTCLAS進行分詞處理。把分好詞的文本切分成130萬個單個的文本新聞摘要對。把新聞摘要對轉換成bin文件,包括訓練集、驗證集、測試集,生成詞典的大小為50 000個單詞。

表3 停用詞表

(2) 模型搭建。基本的網絡模型為加入注意力機制的編碼器解碼器模型,其中編碼器的網絡結構為單層雙向的LSTM網絡,解碼器的網絡結構選擇單層單向的LSTM網絡模型。將每條文本的詞條wi逐個輸入到編碼器中,編碼器的隱藏層輸出序列記為hi。在訓練階段,解碼器t時刻的輸入為t-1時刻參考摘要的詞向量。在測試階段,解碼器t時刻的輸入為t-1時刻解碼器輸出單詞的詞向量。并且隱藏層的輸出狀態為st。注意力機制[23]的計算公式為:

(7)

(8)

式中:v、Wh、Ws和battn是模型通過學習獲得的參數。注意力機制可以被看作是在原文本上的概率分布,并且能夠告知解碼器在預測下一個單詞的時候更關注輸入到編碼器中的哪個單詞。Softmax函數可以看作詞典上的概率分布,假設詞典的大小為k,{wi|i=1,2,…,k},則Softmax函數可表示為:

(9)

注意力機制分布的計算用于和編碼器隱藏狀態乘積求和,求得的權重之和稱為語境向量,計算公式為:

(10)

語境向量可以被看作當前步從編碼器讀取到的原文信息,與解碼器的隱藏狀態st一起經過兩個全連接層生成詞典上的概率分布Pvocab,其計算公式為:

(11)

P(w)=Pvocab(w)

(12)

式中:V′、V、b和b′是通過學習獲得的參數;Pvocab是在整個詞典上的概率分布。損失函數采用交叉熵函數。t時刻計算公式為:

(13)

整個序列上的損失函數計算公式為:

(14)

根據反向傳播算法,需要求出損失函數的梯度,具體步驟如下:

① 設t時刻解碼器的輸出為zi,損失函數為l。所求的目標函數為:

② 求出:

當i=j時:

當i≠j時:

-P(wi)P(wj)

④ 綜合計算得到:

反向傳播的過程中網絡模型根據梯度函數的變化會不斷更新參數。

(3) 引入指針網絡。指針網絡[8]是在注意力機制模型上新的應用。注意力機制作用在編碼器上,通過解碼器的隱藏狀態與編碼器的隱藏狀態構建語境向量來向解碼器傳輸輸入到編碼器的信息。在指針網絡中,通過注意力機制直接生成概率指向編碼器的輸入信息來選擇輸入到編碼器的信息。計算公式為:

(15)

p(Ci|C1,C2,…,Ci-1,P)=softmax(ui)

(16)

式中:vT、W1、W2為模型訓練獲得的參數。

在基本的編碼器解碼器模型中引入指針網絡,既可以通過解碼器在詞典上生成新的單詞,又可以通過指針網絡從編碼器中直接獲取單詞,使生成的摘要更準確。解碼器的輸出采用集束搜索算法(beam search),beam的大小為4。損失函數同樣采用交叉熵。

(4) 模型優化。實驗模型隱藏單元的個數設為256,詞向量的大小為128,訓練模型batch size為16,學習率從0.1增大到0.15。在HP Z440工作站上訓練7天,損失函數從7.09下降到1.05。

集束搜索算法是基于寬度優先的思想構建搜索樹。模型測試階段,采用此算法選取最優解生成摘要。beam的值選擇越大生成摘要時就有更多的最優解,但常見的一級漢字有3 755個,若beam的值選為5,一次的解碼搜索空間為3 7555個,計算機資源很快就會耗盡。因此綜合考慮beam的大小為4。

(5) 解碼過程。在測試階段,t時刻的輸入為編碼器輸出的詞向量和t-1時刻解碼器預測單詞的詞向量,經過Softmax層,在詞典上生成概率分布。采用集束搜索算法,具體的實現過程如下:

① 設詞典的大小為k,beam的大小為4,解碼器在生成第一個詞的時候,選擇概率最大的4個單詞,設為{w1,w2,w3,w4}。

② 在預測輸出第2個單詞時,將{w1,w2,w3,w4}這4個詞語輸入到解碼器中分別與詞表中的單詞組合,再選出概率最大的前4個詞語序列輸出。

③ 不斷地循環②過程,直到遇到結束符EOS為止,選出概率最大的前4個序列作為最終的輸出。

3 實驗結果與數據分析

本實驗旨在對生成的自動文本摘要進行評測,評測標準為ROUGE評分機制,采用n-gram機制。為了實現生成抽象摘要的目的,對新詞率的生成率也進行了統計。

3.1 實驗結果評測

ROUGE評分機制的原理主要是根據生成的摘要和參考摘要中共同出現n元詞的個數決定。生成的摘要中與參考摘要中共同出現的詞語越多,ROUGE得分就會越高?,F階段學術界ROUGE評分機制用的主要有ROUGE-1、ROUGE-2、ROUGE-3、ROUGE-4。1、2、3、4分別代表1元詞、2元詞、3元詞以及4元詞。本文對生成的摘要分別用ROUGE-1、ROUGE-2、ROUGE-3、ROUGE-4進行了測評。一般會根據需要選擇適合的ROUGE評分模型。ROUGE評分的計算公式如下:

(17)

式中:n-gram表示n元詞;S∈{Ref}表示參考摘要;Countmatch(n-gram)表示生成的摘要中與參考摘要相匹配的n-gram數量。再用∑對其進行計數,分母則表示參考摘要中n-gram的個數。ROUGE的計算公式是根據召回率的公式變換的,對生成摘要與參考摘要的匹配程度進行數量上的衡量與比較,相對其他生成的摘要的衡量標準比較準確。

實驗的測試集有38 261條新聞測試文本,模型訓練收斂耗時7天。測試文本輸入到模型中生成的文本摘要如表4所示。

表4 測試集生成的文本摘要

該實驗分別在加入注意力機制的編碼器解碼器模型和引入指針網絡的模型上進行測試,采用ROUGE評分機制評分結果如表5所示。

表5 基本模型和指針式網絡模型ROUGE評分對比

從表5可以看出,通常未經處理的數據集比匿名數據集能夠得到更高的ROUGE評分,lead-3基本模型在純文本數據集上得分更高。一個可能的解釋就是多句子的命名實體能夠導致更高的重合率。但是,ROUGE評分機制僅能與文獻[5]提出的模型進行比較。lead-3的ROUGE評分與最好的指針網絡模型的ROUGE得分相比高出ROUGE-1評分2.9分,高出ROUGE-2評分1.04分,高出ROUGE-L評分2.15分。并且實驗結果最好的指針網絡模型的ROUGE評分比文獻[5]高出ROUGE-1評分1.98分,高出ROUGE-2評分3.36分,高出ROUGE-L評分1.77分。可以估測出,本文最好的網絡模型超出基本的網絡模型平均2個ROUGE評分。

由表4還可以觀察出,基本的編碼器解碼器模型在ROUGE評分上表現很差,即使是在150 k的詞典上表現效果也不是很好。即使是用50 k詞典的基本編碼器解碼器模型最好的表現效果生成的文本摘要也存在幾個普遍的問題,事實細節頻繁出錯,經常用一個更常見的詞代替詞典中出現但不常用的詞。例如,表6中,基本的編碼器解碼器模型中本應該出現“海峽”,但卻出現了“大陸”,導致語義錯誤。更糟糕的是,有的時候模型會生成重復的無意義的句子,就像表6中基本的模型生成的摘要一樣。并且基本的編碼器解碼器模型也不能夠生成未登錄詞。

表6 不同模型生成的文本摘要舉例

3.2 實驗模型對比

從表5可以看出抽取式模型比抽象式模型可以得到更高的ROUGE評分,并且lead-3基本編碼器解碼器模型具有更強的優勢,獲得最高的ROUGE評分,即使是最好的抽取式模型的ROUGE得分也低于lead-3基本編碼器解碼器模型。這里給出兩種可能的解釋。

首先,新聞文章趨向于把重要信息都放在文章的開頭部分。這一點就解釋了為什么lead-3模型會有那么高的ROUGE評分。實際上,實驗證明,僅僅使用文章的前400個詞條,大約20個句子,比使用前800個詞條能夠得到更高的ROUGE評分。

其次就是自然語言處理任務和ROUGE評分機制的屬性使得抽取式模型和lead-3基本模型的ROUGE評分很難被超越。參考摘要的選擇也非常主觀,有時會自形成一個完備的參考摘要。有時也會只從文章中選取一些比較感興趣的細節作為摘要。測試語料中平均每篇文章有19個句子,利用網絡模型平均每篇摘要會生成3~4句話。抽象模型引入了更多的參考標準,比如選擇措辭、短語,這樣就進一步減少了與參考摘要的匹配程度。例如在表6中“衛隊海軍副司令官湯西里聲稱敵方侵犯領土”可以作為這段文本的摘要,但與參考摘要卻完全不匹配,ROUGE得分為0。只有一個參考摘要也會加劇ROUGE評分機制的不靈活性。文獻[17]指出與多個參考摘要相比,ROUGE評分機制的可靠性降低。

因為文本摘要任務具有主觀性和符合要求摘要的多樣性,ROUGE評分機制會選擇首次出現的內容或者保留原始的措辭作為摘要的得分更高。盡管有時參考摘要會偏離這些技術,表現得更主觀,但這些偏差是無法避免的,以至于ROUGE評分機制會選擇更安全的策略,所以更安全的策略能夠獲得更高的平均得分。這就能夠解釋為什么抽取式模型能夠比抽象式文本摘要獲得更高的ROUGE評分,lead-3基本模型的ROUGE評分高于抽取式模型的ROUGE評分。除了ROUGE評分機制,根據詞根、語義等可以探究更廣泛通用的評分機制,這是個值得進一步探索的方向。

3.3 實驗數據分析

實驗分別對生成的中文摘要做了重復率檢測,從38 261條生成的摘要與參考摘要進行對比,重復率如圖3所示。

圖3 不同模型生成摘要的重復率對比

從圖3可以觀察到基本的編碼器解碼器模型生成的文本摘要出現的重復性詞語較多,并且采用1-grams、2-grams、3-grams、4-grams重復率依次降低,在整個句子上比較,重復率最低。加入指針模型后生成詞語的重復率明顯降低,但與參考摘要對比還有一定的差距。

由于模型生成的是抽象新聞摘要,對生成的新詞率要做統計,本文生成的新詞是指在詞典中出現但未出現在原文本中的詞語。不同模型新詞的生成率對比如圖4所示。

圖4 不同模型生成新詞量的對比

實驗證明,指針網絡使生成的抽象文本摘要更可靠,能夠更準確地拷貝到原文中的細節信息,正確地拷貝原文中的信息并不影響生成摘要的抽象性。圖4表明,最終模型生成的文本摘要的n-grams的新詞生成率比參考摘要低,與參考摘要相比,抽象性更低,也低于基本模型?;镜木幋a器解碼器模型生成了更多的新詞,但這些新詞包括所有不正確的詞語,這些詞語一起構建成完整的抽象實例。

圖4表明最終網絡模型拷貝了整篇文章的38%。通過與參考摘要對比,參考摘要僅拷貝到原文的0.2%,這是模型值得改進的一個地方,因為不希望網絡模型僅僅是簡單的句子抽取,但實驗證明其他62%的句子是依靠抽象模型生成的。文章的句子被截斷以形成語法正確的較短的文本,新生成的句子通過拼接句子片段組成。復制過來的段落有時會省略不必要的插入、從句和帶括號的短語。

4 結 語

本文利用指針式網絡模型生成抽象式新聞摘要,利用搜狐新聞語料庫,先對數據集進行數據清洗、分詞,劃分數據集。在基本的編碼器解碼器的基礎上引入了指針網絡,使得生成的抽象新聞摘要更準確,更符合原文本的意思,采用ROUGE評分機制對生成的抽象摘要文本進行評測,實驗結果證明得到的ROUGE評分平均比基本的編碼器解碼器模型的ROUGE評分高2分。雖然目前采用深度學習的方法生成抽象型文本摘要的技術很多,但還成熟,生成摘要還存在很多問題,譬如不準確、捏造事實、重復詞語等。生成摘要的準確性與重復率還需要進一步優化,在未來的研究工作中需要進一步努力,以達到更好的模型效果。

猜你喜歡
機制文本實驗
記一次有趣的實驗
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
主站蜘蛛池模板: 欧美第一页在线| 亚洲中文字幕97久久精品少妇| 成人在线不卡| 成人一区在线| 小说区 亚洲 自拍 另类| 91欧美亚洲国产五月天| 欧美色视频日本| 福利视频久久| 97国产一区二区精品久久呦| 色综合天天综合中文网| AV熟女乱| 最新亚洲人成无码网站欣赏网| 激情综合婷婷丁香五月尤物| 国产成人精品一区二区免费看京| 国产九九精品视频| 亚洲第一极品精品无码| 啊嗯不日本网站| 香蕉久人久人青草青草| 日本精品视频一区二区| 在线亚洲精品福利网址导航| 久一在线视频| 久久a级片| 高清国产va日韩亚洲免费午夜电影| 中文字幕在线播放不卡| 国产在线视频欧美亚综合| 欧美日韩亚洲综合在线观看| 国产国语一级毛片| 国产麻豆福利av在线播放| 精品视频一区二区观看| 国产精品55夜色66夜色| 亚洲无码37.| 欧美中文字幕一区| 日韩视频福利| 国产尹人香蕉综合在线电影 | 国产又粗又爽视频| 精品无码一区二区三区电影| 国内精品自在自线视频香蕉| 亚洲欧洲综合| 亚洲精品成人片在线观看 | 国产男女免费视频| 亚洲欧美日韩久久精品| AV在线天堂进入| 亚洲黄色高清| 在线视频亚洲色图| 欧美日韩亚洲国产| 亚洲欧美极品| 日韩亚洲综合在线| 国产噜噜噜视频在线观看| 成人精品视频一区二区在线| 成人毛片免费观看| 波多野结衣一二三| 日本三级欧美三级| 亚洲第一黄色网址| 亚洲国产高清精品线久久| 性喷潮久久久久久久久| 一级毛片在线播放免费| 亚洲成人播放| 72种姿势欧美久久久久大黄蕉| swag国产精品| 国产乱子伦无码精品小说| 中文字幕资源站| 国产人碰人摸人爱免费视频| 国产福利影院在线观看| 丝袜美女被出水视频一区| 91精品人妻互换| 久久综合干| 4虎影视国产在线观看精品| 色偷偷av男人的天堂不卡| 国产理论最新国产精品视频| 波多野结衣中文字幕一区二区| 国产精品女同一区三区五区| 久久久亚洲色| 精品国产免费观看一区| 日韩无码视频播放| 国产精品大白天新婚身材| 欧美视频二区| 欧美天堂久久| 香蕉视频国产精品人| 好紧太爽了视频免费无码| 白浆免费视频国产精品视频| 国产SUV精品一区二区6| 国产福利微拍精品一区二区|