999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多重映射的自動中文短文摘提取方法

2016-12-21 11:06:37劉一波
電子技術與軟件工程 2016年20期

摘 要 中文短文摘提取時受其字數限制,難以獲得均衡的提取性能。針對該問題,本文提出了一種基于多重映射的自動短文摘提取方法。

【關鍵詞】自動短文摘提取方法 字數限制 提取性能

自動文摘技術是處理海量信息的重要手段,可以幫助人們高效地獲取信息。自動文摘用計算機自動生成全面反映文獻中心內容的摘要。從其生成策略看,自動文摘分為生成式和抽取式兩類。生成式文摘基于自然語言理解和生成技術。抽取式文摘通過預定義的特征集,選取原文的句子形成文摘。

1 多重映射規則定義

本文采用抽取式方法進行中文短文摘的提取。為抽取反映文本中心內容的句子,需對句子進行特征提取。由于單一特征難以獲得高召回率,本文基于傳統文摘的常用特征,提出了一種多重映射方法。

1.1 句子關聯度映射規則Hst

本文考慮文摘是最能表達文本主題的句子集,因此,可計算句子與文本的關聯度,提取關聯度高的句子作為文摘的候選句子集。

設有文本D={S1,S2,…,Sn},其中Sk={tk1,tk2,…,tkn}為其任意句子,tkr為Sk的詞項。本文認為句子Sk與D的關聯度越大,句子Sk對D的隸屬度越強,則Sk越具代表性。由此,將句子Sk與文本D的關聯度計算看成是分類問題。結合樸素貝葉斯多項式模型,本文將Sk與D的關聯度參數Wst(Sk,D)定義為:Sk相對于D的后驗概率,由此得到關聯度值計算如式(1)所示:

其中,P(Sk)為Sk在D中的先驗概率,tf(tkr,Sk)為詞項tkr在Sk中的頻度,P(tkr|D) 為詞項tkr在D中的條件概率,其計算如式(2)所示:

考慮任一句子在文本中出現的概率均等,令P(sk)=1,由此將式(1)改寫為式(3):

對任意Sk∈D,通過式(3)計算其與D的后驗概率,得到Sk與D的關聯度值Wst(Sk,D)。通過設定閾值α,選取Wst(Sk,D)大于α的句子作為候選文摘句子集。本文將長度小于或等于5的句子稱為特短句,長度大于110的句子稱為特長句,對文本D的句子Sk,通過式(4)計算其長度映射值:

其中,len是句子Sk中包含的字符數。通過設置閾值β,使長度小于β的較短句獲得較大映射值。

1.2 位置映射規則Hp

現有研究表明,文本的首段與尾段句往往蘊含更多主題信息,人工摘要中85%的句子為段首句,7%為段尾句。結合現有文摘技術對位置特征的用法,本文對任意文本D,設置其句子Sk的位置映射值計算如式(6)所示:

由此定義位置映射規則Hp如下:

映射規則Hp:

令映射集

for each Sk in D

計算Wp(Sk)

if Wp(sk) > 0

endif

endfor

規則Hp拋棄了所有非段首、段尾句,對形成的映射集Hp(S),在后續多重映射階段,優先選取位置映射值大的句子。

1.3 長度映射規則Hl

本文將長度小于或等于5的句子稱為特短句,長度大于110的句子稱為特長句,對文本D的句子Sk,通過式(4)計算其長度映射值:

其中,len是句子Sk中包含的字符數。通過設置閾值β,使長度小于β的較短句獲得較大映射值。由此定義長度映射規則Hl如下:

映射規則Hl:

令映射集

for each Sk in D

計算Wl(Sk)

if Wl(Sk) > 0

endif

endfor

1.4 標題相似度規則Ht

本文用余弦夾角作為句子與標題的相似度。以詞頻作為詞的權重,設句子向量 Sk={wk1,wk2,…,wkm},標題向量t={t1,t2,…,tm},相似度計算如式(5)所示:

(5)

由此定義標題相似度映射規則Ht如下:

映射規則Ht:

令映射集

for each Sk in D

計算sim(Sk,t)

if sim(Sk,t) >γ

endif

endfor

通過設置閾值γ,可獲得不同大小的映射集作為候選句子集。

2 多重映射方法

多重映射方法如圖1所示。

如圖1所示,對句子集S={s1,s2,…,sn},多重映射(Multiple MAPPing,MM)包含4種映射:關聯度映射Hst,標題相似度映射Ht,位置映射Hp,長度映射Hl,R為最終提取到的文摘句子集。以映射集為頂點,邊(Hm,Hn)表示映射集,由此得到圖2的映射關系圖。

映射關系可能為完全圖(圖2(a)),也可能非連通(圖2(b))。對此需在多重映射中運用不同策略。

結合前述的多種映射規則,對任意文本,可得到其句子的多種映射值。在現有文摘提取方法中,有將映射值作為權重,通過多映射值加權求和給句子打分,再根據分數排序來進行句子提取。本文將這種方法作為Baseline,同時提出多重映射的方法,再通過多重映射從多個候選句子集中提取出文摘句子集。下面進行了詳細描述:

設待提取文摘文本為d,S={s1,s2,…,sn}是d的句子集。構造任意句子si的結構如下:si(wst, wt, wp, wl, score)

其中,wst, wt, wp, wl分別表示si的幾種映射值,score表示si在各映射集中出現的總頻度。由此,分別計算S的多種映射值,得到:

S={si(wst, wt, wp, wl, score) }i=1…n

調整各映射值的閾值,對S應用前述規則,生成多個映射集,分別為Hst(S),Ht(S),Hp(S),Hl(S)。再對S進行聚類,得到中心句子集Hc(S)。設最終提取到的文摘句子集為R,多重映射的目標是從上述多映射集中提取文摘句子集R。設LEN為待提取文摘的長度,多重映射算法如算法1所示:

算法1:

初始化,令句子序列SS為空

令文摘句子集:

令文摘長度summLen = 0

BEGIN

① for each si in Hst(S)or Ht(S)or Hp(S)or Hl(S)

SS = SS.add(si)

endfor

② for each si in SS

si.score = si在SS中重復出現的次數

endfor

③ 去除SS中的重復句

④ for each si in SS

if si.score == 4

summLen = summLen + lenof(si)

SS = SS.delete(si)

endif

endfor

⑥ 生成句子序列SK

SK = Sort SS on si.score, si.wt, si.wst, si.wp, si.wl

⑦ sen=1

⑧ while(sen <= lenof(SK))

si = SK.get(sen)

if(summLen + lenof(si) < LEN)

去除R的冗余句、進行同義短詞替換

summLen = summLen + lenof(si)

endif

sen = sen + 1

endwhile

⑨ 對R按句子在文本中出現的位置排序,取總長度最接近LEN的前n個句子,作為文摘。

END

算法的第④步處理了映射關系為完全圖的情況。第⑥步處理了非完全圖的情況。在對SS排序時,按關鍵字為句子頻度、標題相似度、文本關聯度、位置、句子長度的次序進行排序。這種對關鍵字的排列順序,是本文根據單一映射規則下的文摘質量排序所得。

3 結束語

針對中文自動短文摘抽取問題,本文提出了基于多重映射的提取方法。本文從特征值計算方法、多映射規則協同策略的角度,討論了如何提高短文摘的提取性能。實際上,短文摘的提取效果還極大地依賴于文本分詞及去冗余等操作。另外,本文方法很大程度依賴于多參數設置,盡管參數選取有一定規律可循,但總體來看,參數設置仍帶有強烈的啟發式特征。下一步將針對上述問題,結合短文摘的特征提取策略展開進一步研究。

參考文獻

[1]蔣效宇.基于關鍵詞抽取的自動文摘算法[J].計算機工程,2012,38(03):183-186.

[2]曹洋,成穎,裴雷.基于機器學習的自動文摘研究綜述[J].圖書情報工作,2014,58(18):122-130.

[3]黃長偉.自動文摘技術研究現狀分析[J].科技之窗,2011(07):150-151.

[4]傅間蓮,陳群秀.基于規則和統計的中文自動文摘系統[J].中文信息學報,2006, 20(05):10-16.

作者簡介

劉一波(1975-),女,湖南省新邵縣人。大學本科學歷。現為海軍南海工程設計院工程師。主要研究方向為計算機。

作者單位

海軍南海工程設計院 廣東省湛江市 524000

主站蜘蛛池模板: 国产av色站网站| 五月婷婷导航| a毛片基地免费大全| 波多野结衣AV无码久久一区| 国产精品青青| 国产网站免费| 欧美成人在线免费| 精品無碼一區在線觀看 | 免费中文字幕在在线不卡 | 国产黄在线免费观看| 亚洲熟女中文字幕男人总站| 亚洲精品国产成人7777| 国产在线观看一区二区三区| 五月婷婷亚洲综合| 午夜限制老子影院888| 亚洲精品无码AⅤ片青青在线观看| 日韩人妻少妇一区二区| 精品国产自在在线在线观看| 亚洲综合日韩精品| 五月天综合婷婷| 亚洲综合18p| 日本免费福利视频| 91色在线观看| 国产精品私拍在线爆乳| 欧美精品一二三区| 露脸国产精品自产在线播| 直接黄91麻豆网站| 亚洲视频影院| 亚洲人成人无码www| av在线无码浏览| 98超碰在线观看| 国产伦片中文免费观看| 免费可以看的无遮挡av无码| 久久综合五月婷婷| 国产成人高清精品免费| 老司国产精品视频91| 国产超碰在线观看| 午夜国产大片免费观看| 精品一区二区三区视频免费观看| 欧美日韩国产高清一区二区三区| 国产在线一区二区视频| 美女无遮挡被啪啪到高潮免费| 国产成人综合日韩精品无码首页 | 色婷婷狠狠干| 一本视频精品中文字幕| 色综合成人| 亚洲综合二区| 欧美啪啪精品| 99re热精品视频国产免费| 国产视频一区二区在线观看 | 狠狠v日韩v欧美v| 欧美高清国产| 欧美一区精品| 伊人AV天堂| 免费国产小视频在线观看| 欧美日韩在线亚洲国产人| 黄色三级毛片网站| 人妻丰满熟妇AV无码区| 囯产av无码片毛片一级| 久久一级电影| 国产成本人片免费a∨短片| 久久亚洲高清国产| 五月激情综合网| 欧美全免费aaaaaa特黄在线| 成人看片欧美一区二区| 成人国产精品一级毛片天堂 | 日韩无码黄色网站| 亚洲精品国产日韩无码AV永久免费网 | 精品国产免费人成在线观看| 黄色网站在线观看无码| 欧美午夜理伦三级在线观看| 91视频国产高清| 午夜欧美理论2019理论| 亚洲欧美一级一级a| 特级毛片免费视频| 日本一区二区不卡视频| 国产福利大秀91| 国产成人一区免费观看| 久久久噜噜噜| 国产成人亚洲无吗淙合青草| 国产精品极品美女自在线网站| 色综合五月|