999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向多文檔集合的文摘萃取系統(tǒng)研究

2015-08-15 00:54:11
科技視界 2015年20期
關(guān)鍵詞:用戶信息系統(tǒng)

李 翀

(北京吉利學(xué)院理工學(xué)院,中國(guó) 北京102202)

1 國(guó)內(nèi)外專(zhuān)利查詢及研究開(kāi)發(fā)情況

國(guó)際上對(duì)多文檔自動(dòng)文摘的研究主要是面向英語(yǔ)信息的處理,在該領(lǐng)域比較著名的方法是美國(guó)哥倫比亞大學(xué)Goldsdein提出的基于MMR(Maximal Marginal Relevance)的多文檔自動(dòng)文摘方法;美國(guó)密歇根大學(xué)Redev提出基于質(zhì)心的多文檔自動(dòng)文摘方法;美國(guó)羅格斯大學(xué)Boros提出的基于聚類(lèi)的多文檔自動(dòng)文摘方法。與此同時(shí),一些多文檔自動(dòng)文摘系統(tǒng)也被開(kāi)發(fā)出來(lái)。比較有代表性的系統(tǒng)有:(1)美國(guó)哥倫比亞大學(xué)的多文檔自動(dòng)文摘系統(tǒng)Newsblaster。其研究主要針對(duì)新聞?lì)I(lǐng)域,可以對(duì)每天發(fā)生的同主題新聞進(jìn)行摘要,目前該系統(tǒng)達(dá)到了每天上萬(wàn)人次的訪問(wèn)記錄(現(xiàn)正在向多語(yǔ)種方向發(fā)展)。(2)美國(guó)密歇根大學(xué)研究開(kāi)發(fā)的WebInEssence。這是一個(gè)個(gè)性化的基于Web的多文檔自動(dòng)文摘和內(nèi)容推薦系統(tǒng)。(3)美國(guó)南加利福尼亞大學(xué)的信息科學(xué)研究所開(kāi)發(fā)的原型系統(tǒng)NeATS,也是一個(gè)比較有名的多文檔自動(dòng)文摘系統(tǒng),主要用于新聞?lì)I(lǐng)域。

由于多文檔自動(dòng)文摘中潛在著巨大商機(jī),一些企業(yè)和公司也在從事相關(guān)的研究,如:微軟多次參加了DUC會(huì)議并取得了不錯(cuò)的成績(jī),表明其對(duì)自動(dòng)文摘技術(shù)研究的重視;Vivisimo公司也都在進(jìn)行這方面的研究。

國(guó)內(nèi)的研究工作大多集中在單文檔自動(dòng)文摘方面。國(guó)內(nèi)研究者針對(duì)漢語(yǔ)特點(diǎn)進(jìn)行了不懈的努力,在漢語(yǔ)自動(dòng)文摘的研究中取得了一定的成就。比較有代表性的工作有:哈爾濱工業(yè)大學(xué)劉挺教授基于篇章多級(jí)依存結(jié)構(gòu)構(gòu)建了HIT2863II型自動(dòng)文摘系統(tǒng)。北京郵電大學(xué)鐘義信教授在“全信息”(包括了語(yǔ)法、語(yǔ)義、語(yǔ)用三個(gè)層面)理論指導(dǎo)下自動(dòng)建立了面向計(jì)算機(jī)病毒方面的Glance系統(tǒng)、面向新聞報(bào)道的News系統(tǒng)、以及面向神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法領(lǐng)域的Ladies自動(dòng)文摘系統(tǒng)。東北大學(xué)姚天順教授和香港城市理工大學(xué)聯(lián)合開(kāi)展了“中文全文自動(dòng)摘要系統(tǒng)”的研究,該系統(tǒng)采用腳本知識(shí)表示,通過(guò)與用戶交互獲取文摘。

2 擬采取的研究方法和技術(shù)路線

多文檔的自動(dòng)文摘可以分為兩步,首先在文檔集合中選擇候選的文摘句子,然后去除掉候選文摘句子集合中的冗余的句子。本研究的主要任務(wù)是第一步,下面首先介紹候選文摘句子抽取的研究方法和技術(shù)路線,其次介紹去除冗余句子的方法。

2.1 候選文摘句子抽取

Wan提出使用關(guān)鍵詞和句子的關(guān)系同時(shí)進(jìn)行關(guān)鍵詞抽取和文章摘要[16],本研究受Wan的工作啟發(fā),提出使用文檔集合中四種類(lèi)型實(shí)體和實(shí)體間關(guān)系進(jìn)行句子抽取及排序的方法。在文檔集合中,最小的單位是詞語(yǔ)(W),詞語(yǔ)的集合組成句子(S),句子集合組成文檔(D),文檔集合組成文檔集(Ds),而主題(T)是由文檔集合中相似度較高的詞語(yǔ)組成,可以通過(guò)聚類(lèi)算法產(chǎn)生文檔集合中的主題。四種類(lèi)型的實(shí)體包括文檔集合中的詞語(yǔ)、句子、主題和文檔。建立的異構(gòu)關(guān)系網(wǎng)絡(luò)圖中不僅包括同種實(shí)體之間的關(guān)系,而且包括不同類(lèi)型實(shí)體間的關(guān)系,本研究所提出的自動(dòng)文摘模型中,句子的重要度不僅取決于與它相連的句子連接數(shù)目和重要度,而且取決于與它相連關(guān)鍵詞、主題、和文檔的連接數(shù)目和重要度,實(shí)體間的關(guān)系。由于句子的重要度綜合考慮了多種類(lèi)型實(shí)體之間的關(guān)系,因此本研究所提出的模型可以更加合理的計(jì)算句子重要度并最終對(duì)它們排序。

本研究所提出的模型基于以下假設(shè):

假設(shè)1:如果一個(gè)句子(或詞語(yǔ)、主題、文檔)被重要度高或數(shù)目較多的其他句子(或詞語(yǔ)、主題、文檔)所連接,那么這個(gè)句子應(yīng)當(dāng)具有較高的重要度。

假設(shè)2:如果一個(gè)句子被較重要的文檔包含、或者與較重要的主題相似程度大、或者包含較重要的詞語(yǔ),那么這個(gè)句子應(yīng)當(dāng)具有較大的重要度。同理文檔、主題和詞語(yǔ)的重要度也分別由與它相連的其他類(lèi)型的實(shí)體所決定。

假設(shè)1類(lèi)似于PageRank算法的思想,利用同構(gòu)實(shí)體之間的關(guān)系進(jìn)行重要度的傳遞,而假設(shè)2類(lèi)似于Hits算法的思想,將各種類(lèi)型的實(shí)體分別看作權(quán)威和中心。本文所提出的方法試圖在一個(gè)模型中融合PageRank和Hits模型的思想。

2.2 去除冗余句子

本系統(tǒng)采用MMR算法進(jìn)行冗余句子消除。該方法的大致思想為:根據(jù)重要度的大小逐句選擇文摘句,在逐步選擇句子的時(shí)候,同時(shí)考慮句子和已選擇句子的信息重疊度及句子本身的重要程度,選擇那些自身權(quán)值較高,而且與已選擇句子的信息重復(fù)量較少的句子。按照這種方法,就可以既可以保證文摘中的句子重要程度都比較高并且文摘的冗余度較低。它選擇句子的準(zhǔn)則就是選擇那些自身權(quán)值較高,而且和已選擇句子的信息重復(fù)量較少的句子。

3 市場(chǎng)和應(yīng)用需求分析

多文檔摘要可以作為單獨(dú)的系統(tǒng)使用,按照用戶定制的規(guī)則從用戶感興趣的網(wǎng)站上獲取信息、生成簡(jiǎn)要的文摘提供給用戶,既可省去用戶直接在網(wǎng)站上瀏覽的大量時(shí)間。目前的很多研究就是在這個(gè)應(yīng)用上進(jìn)行的。

多文檔摘要也可以應(yīng)用在信息檢索領(lǐng)域,它可以對(duì)信息檢索的結(jié)果進(jìn)行處理,將內(nèi)容相似的網(wǎng)頁(yè)進(jìn)行歸納和摘要,將摘要結(jié)果返回給用戶。假如目前的信息檢索給的前30個(gè)結(jié)果可以劃分為5個(gè)主題,但是由于搜索弓|擎的排序規(guī)則,使得其中一個(gè)主題包含的10篇文章全部出現(xiàn)在第一頁(yè),而用戶感興趣的主題出現(xiàn)在第二頁(yè)甚至更后面,那么使用信息的效率將會(huì)大大降低。如果我們對(duì)這30個(gè)文章的5個(gè)主題分別進(jìn)行摘要,把5個(gè)摘要返回給用戶,那么用戶可以很快在第一頁(yè)上找到與自己感興趣的內(nèi)容。這樣就可以在檢索結(jié)果的第一頁(yè)中包含更多更豐富的信息,從而很好地提高了海量信息的使用效率。

話題監(jiān)測(cè)和跟蹤TDT(Topic detection and tracking)是多文檔摘要的另一個(gè)應(yīng)用,即根據(jù)用戶感興趣的主題內(nèi)容從網(wǎng)絡(luò)信息中不斷發(fā)現(xiàn)與其相關(guān)的文本信息并與原有信息進(jìn)行匯總,生成趨勢(shì)發(fā)展分析報(bào)告等提供給用戶使用。此外,在特定領(lǐng)域上多文檔摘要技術(shù)也具有廣闊的應(yīng)用空間,如科技文獻(xiàn)摘要、股票論壇的摘要匯總、國(guó)家安全部門(mén)對(duì)非法信息的監(jiān)控等等。簡(jiǎn)言之,多文檔摘要技術(shù)有著巨大的需求和應(yīng)用前景,這些正是推動(dòng)其發(fā)展的強(qiáng)大動(dòng)力。

[1]Jade Goldstein,Mark Kantrowitz,Vibhu Mittal,Jaime Carbonell.Summarizing Text Documents:Sentence Selection and Evaluation Metrics[C]//Proceedings of SIGⅡ099,Berkeley,CA,1999:121,128.

[2]Dragomir R.Radev,Hongyan Jing,Malgorzata Budzikowska.Centroid-based Summarization of Multiple Documents:Sentence Extraction,Utility-based Evaluation,and User Studies[C]//ANLP/NAACL2000 Workshop,Seattle,Washington,USA,April 2000,21-29.

[3]http://newsblaster.cs.columbia.edu/[OL].

[4]鐘義信.自然語(yǔ)言理解的全信息方法論[J].北京郵電大學(xué)學(xué)報(bào),2004,27(4):1-12.

猜你喜歡
用戶信息系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無(wú)人機(jī)系統(tǒng)
ZC系列無(wú)人機(jī)遙感系統(tǒng)
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關(guān)注用戶
關(guān)注用戶
關(guān)注用戶
如何獲取一億海外用戶
展會(huì)信息
主站蜘蛛池模板: 国产免费高清无需播放器| 欧美性久久久久| 男女精品视频| 国产福利在线观看精品| 日韩高清在线观看不卡一区二区| 国产最爽的乱婬视频国语对白| 99热国产这里只有精品无卡顿"| AV在线麻免费观看网站| 99中文字幕亚洲一区二区| 波多野结衣亚洲一区| 久久美女精品国产精品亚洲| 成人午夜亚洲影视在线观看| 国产91丝袜| 欧美怡红院视频一区二区三区| 精品国产成人三级在线观看| 日本免费a视频| 亚洲最大情网站在线观看| 国产黄视频网站| 亚洲AV无码乱码在线观看代蜜桃| 亚洲精品视频免费看| 91亚洲免费| 国产精品美人久久久久久AV| 亚洲区视频在线观看| 国产区免费| 欧洲亚洲欧美国产日本高清| 久久中文电影| 色婷婷在线播放| 福利在线免费视频| 日本免费高清一区| 国产69精品久久久久孕妇大杂乱| 激情网址在线观看| 91色在线观看| 国产91精品最新在线播放| 国产性猛交XXXX免费看| 人妻丝袜无码视频| 国产精品不卡片视频免费观看| 中文字幕av无码不卡免费| 国产探花在线视频| av一区二区三区在线观看| 无码'专区第一页| 亚洲品质国产精品无码| 国产白丝av| 国产成人亚洲无码淙合青草| 婷婷激情五月网| 真实国产乱子伦高清| 国产成人综合日韩精品无码不卡| 国产国语一级毛片| 亚洲国产高清精品线久久| 97国产成人无码精品久久久| 91精品国产一区| 激情综合激情| 伊人久久大香线蕉成人综合网| 亚洲男女天堂| 久久久无码人妻精品无码| 国产精品手机在线播放| 91九色最新地址| 亚洲国产av无码综合原创国产| 成年人视频一区二区| h网址在线观看| 在线观看国产精美视频| 国产草草影院18成年视频| 98精品全国免费观看视频| 一级高清毛片免费a级高清毛片| 亚洲欧洲日产无码AV| 亚洲色精品国产一区二区三区| 亚洲人成日本在线观看| 日韩精品无码不卡无码| 91po国产在线精品免费观看| 日韩精品一区二区三区swag| 国产色爱av资源综合区| 日韩成人在线视频| 精品无码专区亚洲| 亚洲高清无码久久久| 国产高清免费午夜在线视频| 色综合国产| 午夜高清国产拍精品| 久久精品国产精品国产一区| 久久久久亚洲AV成人人电影软件| 亚洲福利片无码最新在线播放 | 日韩福利在线视频| 91av成人日本不卡三区| 国产成人精品在线|