999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主題模型與冗余控制的中文多文檔自動文摘技術研究

2017-07-18 11:48:46袁龍云張琳
現代計算機 2017年14期
關鍵詞:文本模型系統

袁龍云,張琳

(上海海事大學信息工程學院,上海 201306)

基于主題模型與冗余控制的中文多文檔自動文摘技術研究

袁龍云,張琳

(上海海事大學信息工程學院,上海 201306)

多文檔自動文摘技術能夠幫助人們從海量的信息中提取到重要的信息,已經成為自然語言處理領域的熱點技術。多文檔摘要的質量與抽取出句子具有的代表性和文摘句之間的冗余性密切相關。將主題模型LDA與冗余控制技術相結合組成LDA-RC系統,在保持文摘代表性的同時有效地降低文摘的信息冗余度。

多文檔摘要;LDA主題模型;冗余控制

0 引言

隨著互聯網技術的飛快發展,互聯網上的信息量與日俱增,人們能夠在海量的信息中獲取到有用的信息尤為重要,因此出現了多文檔自動文摘技術。多文檔自動文摘技術是從各個文本中抽取共同的主題的中心句子,來組成文檔集合的摘要。多文檔自動文摘技術更加注重提取的文摘句是否能夠代表文檔集合的主題,各個文摘句之間是否存在冗余的信息。因此,文摘句的代表性和信息之間的冗余程度決定了文摘質量的優劣程度。

在英文多文本摘要中,代表性的系統包括NeATS[1]和Hub/Authority[2]。NeATS使用三個過濾器來提取摘要:句子位置過濾器、Stigma詞過濾器和最大邊界相關性過濾器。其中最大邊界相關性過濾器處理句子冗余度。一個句子只有在其與已有摘要的詞重疊度小于某個閾值才會被加入到摘要中。但是這種冗余度去除方法相對粗糙。Hub/Authority主要特點是能夠通過句子聚類處理子主題的多文本摘要。但是Hub/Authority在冗余度上并沒有突出優勢。

國內關于中文多文檔自動文摘技術主要的研究包括基于規則和統計的策略[3],基于篇章的文摘策略[4],基于句子抽取的策略[5],基于圖的策略[6]等。國外相關的研究文獻[7,8]表明,通常在英文自動文摘技術中使用主題模型,Arora等[7]使用LDA主題模型,將每個文檔中的每一個句子來對應文檔中所關聯的主題,然后將單詞的權重矩陣表示為每一個主題,使用奇異值分解的方法來求句子集合中的正交形式,以此來減少文摘句的冗余信息。國內,吳曉峰[9]等將LDA主題模型抽取的主題作為特征,加入到CRF模型中進行訓練,有效地提高了CRF文摘系統的質量。

本文將LDA-RC系統進行多文檔文摘句的提取,通過LDA主題模型來提取文檔集合中的主題特征信息,加入冗余控制模型來減少信息的冗余度,LDA-RC系統是一種處理多文檔自動文摘的淺層語義系統。

1 基于主題模型與冗余控制的多文檔自動文摘技術

1.1 基本框架

本文的多文本摘要算法基本框架如圖1所示。其中Ti表示文檔的第i個的主題。Si,j表示文檔第i個主題對應的文檔內容中第j個句子。經過主題模型提取,每個主題找到了對應文檔中句子的集合。經過冗余技術處理之后,冗余的句子被刪除,主題對應文本句子數有所減少。所以a1大于bk。

圖1 多文本摘要流程圖

1.2 主題模型

主題模型主要運用到機器學習和自然處理領域中。一般而言,如果一篇文檔中很頻繁地出現某些特定的詞語,那么這些特定的詞語通常圍繞著文章的中心思想而出現的。使用主題模型來得到文本集合中詞語出現頻率的高低,來分析文本集合中所包含的主題有哪些,并且計算出每一個主題所占的比例。

LDA模型是包含了詞、主題和文檔三層的結構,并且采用了詞袋的方法只考慮每個詞出現的次數,而不考慮詞之間出現的位置關系。每篇文檔都是由每個詞組成的,每個詞都能歸結到文檔中的某個主題思想,并且每篇文檔可以含有多個淺層的主題。例如,每篇文檔d含有一個詞序列{w1,w2,…,wn}。假設文檔集合有K個主題,使用LDA模型生成一篇文檔d,算法如下:

其中,參數θ是一個主題向量;p(θ)是θ的Dirichlet分布;N表示文檔中所包含的單詞個數;wn表示生成的第n個單詞w;zn是選擇的任意一個主題,p(z|θ)是主題z的條件概率分布,其值為p(z=i|θ)=θi;p(w|z)是單詞w的條件概率分布,通過這個概率分布,在已知主題的條件下可以生成該主題下所對應的單詞。LDA概率模型如圖2所示:

主題分布θd;詞語的集合wi是在主題的結果中反復抽取得到的。本文的生成概率模型:

圖2 LDA概率模型圖

將其中的w作為觀察的變量,θ和z當做隱藏變量,可以通過EM算法學習處α和β。

1.3 冗余控制

由于通過主題模型不能有效地控制生成的文摘句的冗余度,所有引入了冗余控制技術。在冗余控制模型中我們通過代表性、信息性和多樣性三個方面進生成文摘句行冗余度的控制。本文冗余控制模型的評價函數定義為:

其中λi為衡量各個文本單元之間的相似度ki的權值,k1、k2和k3分別代表著文檔集合與當前文摘的相似度,文檔集合與當前句子S的相似度,當前文摘與當前句子S的相似度。通過計算評價函數的值來判斷當前句子是否加入擴充文摘句中,冗余控制模型圖3所示。

1.4 相似度計算

在圖3所示的冗余控制模型中,我們要根據計算文本單元之間的相似度的值來決定當前句子是否加入擴充文摘句中。通過計算文本集合中的各個文本在主題上的概率分布來得到各個文本之間的相似度。。以下為文檔集合中任意兩個文本單元m和n元之間的相似度計算:

圖3 冗余控制模型

其中,Pm和Pn分別表示文本單元m和n的在它們各自文本主題上的概率分布n,兩個概率分布之間的KL散度值計算如下:

通過DKL(Pm||Pn)DKL(Pn||Pm)的對稱性,來保證KL散度值的對稱性,從而保證了兩個文本單元之間相似度的對稱性。

2 文摘生成

使用傳統的方法來生成文摘句方法是通過對抽取的句子進行打分,從分值的高低來組合成文摘句。而加入用冗余控制模型后,需要不停地計算其他文本單元與當前句子之間的相似度的得分,逐步的擴充文摘,這是一個動態的過程。

使用LDA-RC系統生成文摘的過程如下:

(1)首先運行LDA模型,得到主題z的條件概率分布p(z|d)和單詞w的條件概率分布p(w|z),計算句子得分并排序;

(2)選取得分最高的句子作為當前的文摘;

(3)將該句子和當前文摘組合形成文摘,并計算文摘與各文本單元之間的相似度;

(4)使用評價函數計算,將得分最高的句子加入到文摘中,形成擴充文摘;

(5)循環第三步和第四步,直到滿足要求。

3 實驗結果及分析

3.1 實驗設置

本文的實驗數據采用來自于互聯網上的新聞報道,涉及到體育、經濟、歷史等,所有數據被劃分成17個文檔的集合,并且每個集合中包含了5-10篇文檔,每個集合中所包含的文檔都存在這一個共同的主題。

本文主要根據經驗和英文語料上的使用結果來設置冗余控制模型評價函數中權值λi為:λ1=0.4,λ2=1.5,λ3=-0.1。在下一步工作中,我們通過實驗來確定評價函數中的權值。

我們采用準確度、冗余度和總體的質量三個標準來評價文摘系統的質量,來解決在傳統多文檔自動文摘評測時,文檔集合中出現多個可以替換的文摘句的問題,計算公式如下:

準確率計算公式如下:

冗余度計算公式如下:

綜合質量計算公式如下:

其中,K是待評測文摘的句子總數。k1是標準的文摘句在所要待評測文摘句中出現的句子的數目。我們通過手工標注的方法得到ωi是每個句子的權值;準(si,sj)是判斷Si與Sj是否為同一類型的文摘句,如果為同類型的則其值為1,否則為0。

3.2 實驗結果

在預處理階段,本文使用了ICTCLAS2016系統進行中文分詞處理,本文實驗的三項指標按照5句,10句和20句文摘長度來測試的。M1是使用的LDA主題模型進行評測的。M2是采用LDA-RC系統進行評測得出的結果。從表1與表2的結果可以看出,采用冗余控制模型后,文摘句的冗余程度明顯降低,說明冗余控制模型的有效性。

表1 M1系統性能

表2 M2系統性能

圖4 不同主題數下的準確率

4 結語

本文提出了LDA-RC系統運用到多文檔自動文摘中,得到了比較好的結果。該模型計算了各個文本單元之間的相似度,包括了句子與當前文摘和文檔集合之間的相似度,以及文檔集合與當前文摘之間的相似度。本實驗結果表明LDA-RC系統能夠在保證摘要信息代表性的同時有效地控制自動文摘的信息冗余度。

本系統在文摘句的抽取時,傾向于抽取長句,影響了系統的性能,在下一步的工作中對抽取出的文摘句進行壓縮控制,進一步提升系統的性能。

[1]Chin-Yew Lin,Eduard Hovy.From Single to Multidocument Summarization:A Prototype System and its Evaluation.Proceedings of the ACLConference,pp.457-464.Philadelphia,PA.2002.

[2]Junlin Zhanq,Le Sun,Quan Zhou.A Cue-Based Hub-Authority Approach for Multi-Document Text Summarization.in Proceeding of NLP-KE'05,IEEE,642-645,2005

[3]傅間蓮,陳群秀.基于規則和統計的中文自動文摘系統[J].中文信息學報,2006,20(6):10-16.

[4]徐永東,徐志明,王曉龍.基于信息融合的多文檔自動文摘技術[J].計算機學報,2007,30(11):2048-2054.

[5]劉德喜,何炎祥,姬東鴻,等.一種基于演化算法進行句子抽取的多文檔自動摘要系統SBGA[J].中文信息學報,2006,20(6):14-20.

[6]馬慧芳,祁云平,楊小東.一種基于文本關系圖的多文檔自動文摘技術[J].情報學報,2007,23(3):67-69.

[7]Arora R.Latent Dirichlet Allocation Based Multi-Document Summarization[C].Proceeding of the 2nd Workshop on Analytics for Noisy Unstructured Text Data,2008:91-97.

[8]Bhandari H,Shimbo M,Ito T,et al.Generic Text Summarization Using Probabilistic Latent Semantic Indexing[C].Proceeding of IJCNLP,2008:133-140.

[9]吳曉峰,宗成慶.一種基于LDA的CRF自動文摘方法[J].中文信息學報,2009,23(6):39-45

Research on Automatic Text Summarization Technology Based on Topic Model and Redundancy Control

YUAN Long-yun,ZHANG Lin

(College of Information Engineering,ShanghaiMaritime University,Shanghai 201306)

Multi-document summarization can help people to access important information in themassive information,which is the hotspot of natural language processing research.The quality ofmulti-document summarization is closely related to the redundancy and the representation of the sentence.Proposes the LDA-RC system which is composed of the topicmodel LDA and the redundant control technology.

袁龍云(1991-),男,江蘇興化人,碩士研究生,研究方向為信息處理與模式識別

2017-02-20

2017-05-12

1007-1423(2017)14-0044-05

10.3969/j.issn.1007-1423.2017.14.009

張琳(1973-),女,博士,副教授,研究方向為港航信息化技術、智能信息處理、信息檢索、本體與知識工程等

Multi-Document Summarization;LDA Topic Model;Redundant Control

猜你喜歡
文本模型系統
一半模型
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
3D打印中的模型分割與打包
主站蜘蛛池模板: 黄色网站在线观看无码| 日本高清免费不卡视频| 热re99久久精品国99热| 人人91人人澡人人妻人人爽 | 国产91精选在线观看| 国产91精品久久| 午夜福利在线观看入口| 亚洲日韩国产精品无码专区| 中文字幕资源站| 免费观看欧美性一级| 97久久免费视频| 久久久久中文字幕精品视频| 久久久久人妻精品一区三寸蜜桃| 久久女人网| 人妻无码一区二区视频| 亚洲综合第一区| 在线观看国产精品日本不卡网| 中文字幕亚洲乱码熟女1区2区| 国产成本人片免费a∨短片| 无码综合天天久久综合网| 久久夜色撩人精品国产| 欧美日韩亚洲综合在线观看| 国产伦精品一区二区三区视频优播 | 亚洲网综合| jizz国产视频| 玖玖免费视频在线观看| 亚洲高清中文字幕| 日韩福利在线视频| 久久天天躁狠狠躁夜夜2020一| 人妻中文久热无码丝袜| 亚洲一区黄色| 日本高清成本人视频一区| 欧美中文一区| 亚洲色图欧美视频| 麻豆a级片| 91福利在线观看视频| 野花国产精品入口| 最新亚洲人成无码网站欣赏网| 亚洲精品国产综合99久久夜夜嗨| 国产99视频在线| 精品少妇人妻一区二区| 男女性色大片免费网站| 国产手机在线ΑⅤ片无码观看| 日本午夜在线视频| 在线视频亚洲欧美| 日本精品一在线观看视频| 国产在线精品香蕉麻豆| 无码精品国产dvd在线观看9久| 欧美国产日韩另类| 99人妻碰碰碰久久久久禁片| 狠狠色丁香婷婷综合| 制服丝袜国产精品| 人人澡人人爽欧美一区| 精品一区二区三区无码视频无码| 色网站免费在线观看| 欧美第一页在线| 国产真实乱了在线播放| 欧美激情综合| 波多野结衣一二三| 国产av色站网站| 国产精品偷伦视频免费观看国产| 国产精品三区四区| 在线观看无码av五月花| 91精品国产无线乱码在线| 亚洲男人在线天堂| 国产中文一区a级毛片视频 | 就去色综合| 天天摸夜夜操| 亚洲精品天堂自在久久77| 国产美女丝袜高潮| 一本大道视频精品人妻 | 亚洲天堂视频在线观看免费| 91免费国产高清观看| 久热这里只有精品6| 97国产在线播放| 国产午夜不卡| 国产婬乱a一级毛片多女| 亚洲成人77777| 精品剧情v国产在线观看| 久操线在视频在线观看| 精品国产免费观看| 四虎成人免费毛片|