999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于統計的Web文本自動摘要技術

2019-06-12 00:32:27王健
科教導刊·電子版 2019年12期

王健

摘 要 自動文本摘技術的出現為人們快速閱讀的帶來了極大的方便,本文針對于Web文本的特征設計出了計算詞權重系數公式及句子得分公式,改進并實現了兩種重要的摘要算法

關鍵詞 Web文本 自動摘要 摘要算法 主題詞

中圖分類號:TP391文獻標識碼:A

0引言

基于統計的文本自動摘要方法主要根據線索詞典、詞頻、詞或句子的啟發性函數進行模式匹配,摘取文本中重要句子形成摘要。它不依賴于具體領域,適應面廣,響應速度快,因而受到越來越多的研究者的重視。基于統計的文本自動摘要將文本視為句子的線性序列,將句子視為詞的線性序列。它通常分4步進行:(1)計算詞的權值;(2)計算句子的權值;(3)對原文中的所有句子按權值高低降序排列,權值最高的若干句子被確定為文摘句;(4)將所有文摘句按照它們在原文中的出現順序輸出。在自動摘錄中,計算詞權、句權、選擇文摘句的依據是文本的六種形式特征。

1文本的四種形式特征

(1)詞的頻度:能夠指示文章主題的所謂有效詞(Significant Words),往往是中頻詞。根據句子中有效詞的個數可以計算句子的權值,這是Luhn首先提出的自動摘錄方法的基本依據。V.A.Oswald主張句子的權值應按其所含代表性“詞串”的數量來計算,而Doyle則重視共現頻度最高的“詞對”。美國IBM公司在1960年前后研制了一套文摘自動生產程序ACSI2Matic,該程序在句權的計算方面對Luhn的方法進行了改進。

(2)標題信息:標題是作者給出的提示文章內容的短語,借助停用詞詞表(Stoplist),在標題或小標題中剔除功能詞或只具有一般意義的名詞,剩下的詞和原文內容往往有緊密的聯系,可以作為有效詞。

(3)位置:美國的P.E.Baxendale的調查結果顯示:段落的論題是段落首句的概率為85%,是段落末句的概率為7%。因此,有必要提高處于特殊位置的句子的權值。

(4)句法結構:句式與句子的重要性之間存在著某種聯系,比如文摘中的句子大多是陳述句,而疑問句、感嘆句等則不宜進入文摘。

2主題詞評價

本文針對WEB文檔的結構化特征,在進行主題詞選取時根據文檔中詞頻的出現位置出現的頻繁程度來評價詞的重要性,并以此給出詞的權重,賦予重要詞匯權重,并設計出計算權重系數公式。下面是具體的主題詞選取和評價過程:

3段落中句子權重評價

美國的P.E.Baxendale的研究結果顯示:人工摘要中的句子為段首句的比例為85%,段尾句的比例為7%。美國康奈爾大學G.Salton提出了尋找文章的中心段落為文摘核心的思想。我們觀察表明:除了論題句、段首、段尾等句子之外,段落的第二句常常表示段落的主題。而Mead數據中心的自動摘要系統Searchable Lead,只是簡單的摘錄文件中的前60、150或250個英文詞匯,便達到了90%以上的可接受度(Brandow, et al.,1995)。

4摘要算法分析及改進

4.1 Luhn算法

Luhn在1965年提出了一種基于文章表面級特征的經典的摘要算法,這種算法的核心思想是為文章中的每一個句子賦予一個意義值,那些具有最大意義值的句子將會被抽取出來作為摘要,其中句子的意義值是通過句中意義詞的個數計算得到的。Luhn 認為意義詞應該是文章中的“中”頻詞集。高頻詞區域中的詞多是一些過于普通的詞,沒有什么區分能力,這些無用詞可以通過停用詞表的構造得以消除。

4.2 LSA算法

LSA是建立在奇異值分解(Singlue value decomposition,SVD)之上。SVD是一個矩陣分解技術,已經被人們大量應用到文本集上。給定一個m*n 的矩陣,A = [A1,A2,…An],每一列Ai 表示目標文檔中一個句子的詞頻向量,SVD可以表示為:

A = V U A (T)

其中U = [uij] 是一個m?的列標準化正交矩陣,它的每一列被稱為左奇異向量;∑=diag( 1,2,…,n)是一個n?對角矩陣,其對角線上的元素是按降序排列的非負奇異值;

LSA算法描述:

(1)輸入WEB文檔,并對其進行解析,解析出文本字段;

(2)進行分詞處理,并消除停用詞;

(3)主題詞選擇;

(4)根據主題詞建立句子詞項矩陣,進行奇異值分解;

(5)建立索引矩陣,根據索引矩陣建立句子摘要;

(6)輸出摘要。

LSA能夠通過從語義上對詞和句子進行聚類來捕捉并建模詞語之間的關系,另外,LSA能夠捕獲文章用來表示特定概念和主題的那些顯著的、不斷重現的詞的組合模式。

參考文獻

[1] 劉挺,吳巖,王開鑄.基于信息抽取和文本生成的自動文摘系統設計[J].情報學報,1997,16(增刊):24-29.

[2] 陳燕敏,王曉龍等.一種基于文章主題和內容的摘要方法[J].計算機工程與應用,2004,40(33):11-15.

主站蜘蛛池模板: 午夜国产精品视频黄| 欧美日韩在线第一页| 亚洲欧美国产五月天综合| 午夜国产大片免费观看| 欧美亚洲国产视频| 国产噜噜在线视频观看| 一区二区三区四区精品视频| 内射人妻无套中出无码| 久久这里只精品国产99热8| 又爽又黄又无遮挡网站| 亚洲一区二区三区香蕉| 国产电话自拍伊人| 99久久精品久久久久久婷婷| 国产香蕉在线视频| 97视频在线精品国自产拍| 欧洲亚洲欧美国产日本高清| 91久久国产成人免费观看| 国产午夜精品一区二区三| 亚洲男人天堂网址| 熟妇丰满人妻| 99精品高清在线播放| 伊人久久青草青青综合| 华人在线亚洲欧美精品| 色综合狠狠操| 亚洲国产精品一区二区高清无码久久| 国产亚洲视频免费播放| 四虎永久在线| 日韩福利视频导航| 国产福利小视频高清在线观看| 五月婷婷中文字幕| 国产在线观看91精品亚瑟| 国产爽歪歪免费视频在线观看| 久久天天躁狠狠躁夜夜躁| 欧美日韩国产综合视频在线观看| 爽爽影院十八禁在线观看| 四虎影视8848永久精品| 久久中文字幕不卡一二区| 欧美成在线视频| 亚洲大尺码专区影院| 丁香五月亚洲综合在线 | 久久久国产精品无码专区| 狠狠综合久久久久综| 欧美 亚洲 日韩 国产| 国产区在线看| 日韩av电影一区二区三区四区| 久久一级电影| 欧美精品二区| 国产在线专区| 亚洲人成网址| 国产sm重味一区二区三区| 精品视频第一页| 久久99这里精品8国产| 久久久久免费精品国产| 欧美日韩久久综合| 91精品福利自产拍在线观看| 国产精品成人免费视频99| 色综合五月婷婷| 国产黄色视频综合| 国产在线视频二区| 日韩无码视频专区| 久久先锋资源| 亚洲欧美一级一级a| 伊人中文网| 久久国产精品电影| 在线国产资源| 91啪在线| 国产精品永久久久久| 国产H片无码不卡在线视频| 亚洲国产精品人久久电影| 国产成人做受免费视频| 欧美日韩中文国产| 亚洲欧美日本国产专区一区| 久久国产精品嫖妓| 四虎永久免费网站| 亚洲第一国产综合| 亚洲视频a| 久久久久久尹人网香蕉 | 99在线观看视频免费| 制服丝袜亚洲| 一区二区午夜| 国产在线视频自拍| 亚洲国产一区在线观看|