999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向多文檔集合的文摘萃取系統(tǒng)研究

2015-08-15 00:54:11
科技視界 2015年20期
關(guān)鍵詞:用戶信息系統(tǒng)

李 翀

(北京吉利學(xué)院理工學(xué)院,中國(guó) 北京102202)

1 國(guó)內(nèi)外專(zhuān)利查詢及研究開(kāi)發(fā)情況

國(guó)際上對(duì)多文檔自動(dòng)文摘的研究主要是面向英語(yǔ)信息的處理,在該領(lǐng)域比較著名的方法是美國(guó)哥倫比亞大學(xué)Goldsdein提出的基于MMR(Maximal Marginal Relevance)的多文檔自動(dòng)文摘方法;美國(guó)密歇根大學(xué)Redev提出基于質(zhì)心的多文檔自動(dòng)文摘方法;美國(guó)羅格斯大學(xué)Boros提出的基于聚類(lèi)的多文檔自動(dòng)文摘方法。與此同時(shí),一些多文檔自動(dòng)文摘系統(tǒng)也被開(kāi)發(fā)出來(lái)。比較有代表性的系統(tǒng)有:(1)美國(guó)哥倫比亞大學(xué)的多文檔自動(dòng)文摘系統(tǒng)Newsblaster。其研究主要針對(duì)新聞?lì)I(lǐng)域,可以對(duì)每天發(fā)生的同主題新聞進(jìn)行摘要,目前該系統(tǒng)達(dá)到了每天上萬(wàn)人次的訪問(wèn)記錄(現(xiàn)正在向多語(yǔ)種方向發(fā)展)。(2)美國(guó)密歇根大學(xué)研究開(kāi)發(fā)的WebInEssence。這是一個(gè)個(gè)性化的基于Web的多文檔自動(dòng)文摘和內(nèi)容推薦系統(tǒng)。(3)美國(guó)南加利福尼亞大學(xué)的信息科學(xué)研究所開(kāi)發(fā)的原型系統(tǒng)NeATS,也是一個(gè)比較有名的多文檔自動(dòng)文摘系統(tǒng),主要用于新聞?lì)I(lǐng)域。

由于多文檔自動(dòng)文摘中潛在著巨大商機(jī),一些企業(yè)和公司也在從事相關(guān)的研究,如:微軟多次參加了DUC會(huì)議并取得了不錯(cuò)的成績(jī),表明其對(duì)自動(dòng)文摘技術(shù)研究的重視;Vivisimo公司也都在進(jìn)行這方面的研究。

國(guó)內(nèi)的研究工作大多集中在單文檔自動(dòng)文摘方面。國(guó)內(nèi)研究者針對(duì)漢語(yǔ)特點(diǎn)進(jìn)行了不懈的努力,在漢語(yǔ)自動(dòng)文摘的研究中取得了一定的成就。比較有代表性的工作有:哈爾濱工業(yè)大學(xué)劉挺教授基于篇章多級(jí)依存結(jié)構(gòu)構(gòu)建了HIT2863II型自動(dòng)文摘系統(tǒng)。北京郵電大學(xué)鐘義信教授在“全信息”(包括了語(yǔ)法、語(yǔ)義、語(yǔ)用三個(gè)層面)理論指導(dǎo)下自動(dòng)建立了面向計(jì)算機(jī)病毒方面的Glance系統(tǒng)、面向新聞報(bào)道的News系統(tǒng)、以及面向神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法領(lǐng)域的Ladies自動(dòng)文摘系統(tǒng)。東北大學(xué)姚天順教授和香港城市理工大學(xué)聯(lián)合開(kāi)展了“中文全文自動(dòng)摘要系統(tǒng)”的研究,該系統(tǒng)采用腳本知識(shí)表示,通過(guò)與用戶交互獲取文摘。

2 擬采取的研究方法和技術(shù)路線

多文檔的自動(dòng)文摘可以分為兩步,首先在文檔集合中選擇候選的文摘句子,然后去除掉候選文摘句子集合中的冗余的句子。本研究的主要任務(wù)是第一步,下面首先介紹候選文摘句子抽取的研究方法和技術(shù)路線,其次介紹去除冗余句子的方法。

2.1 候選文摘句子抽取

Wan提出使用關(guān)鍵詞和句子的關(guān)系同時(shí)進(jìn)行關(guān)鍵詞抽取和文章摘要[16],本研究受Wan的工作啟發(fā),提出使用文檔集合中四種類(lèi)型實(shí)體和實(shí)體間關(guān)系進(jìn)行句子抽取及排序的方法。在文檔集合中,最小的單位是詞語(yǔ)(W),詞語(yǔ)的集合組成句子(S),句子集合組成文檔(D),文檔集合組成文檔集(Ds),而主題(T)是由文檔集合中相似度較高的詞語(yǔ)組成,可以通過(guò)聚類(lèi)算法產(chǎn)生文檔集合中的主題。四種類(lèi)型的實(shí)體包括文檔集合中的詞語(yǔ)、句子、主題和文檔。建立的異構(gòu)關(guān)系網(wǎng)絡(luò)圖中不僅包括同種實(shí)體之間的關(guān)系,而且包括不同類(lèi)型實(shí)體間的關(guān)系,本研究所提出的自動(dòng)文摘模型中,句子的重要度不僅取決于與它相連的句子連接數(shù)目和重要度,而且取決于與它相連關(guān)鍵詞、主題、和文檔的連接數(shù)目和重要度,實(shí)體間的關(guān)系。由于句子的重要度綜合考慮了多種類(lèi)型實(shí)體之間的關(guān)系,因此本研究所提出的模型可以更加合理的計(jì)算句子重要度并最終對(duì)它們排序。

本研究所提出的模型基于以下假設(shè):

假設(shè)1:如果一個(gè)句子(或詞語(yǔ)、主題、文檔)被重要度高或數(shù)目較多的其他句子(或詞語(yǔ)、主題、文檔)所連接,那么這個(gè)句子應(yīng)當(dāng)具有較高的重要度。

假設(shè)2:如果一個(gè)句子被較重要的文檔包含、或者與較重要的主題相似程度大、或者包含較重要的詞語(yǔ),那么這個(gè)句子應(yīng)當(dāng)具有較大的重要度。同理文檔、主題和詞語(yǔ)的重要度也分別由與它相連的其他類(lèi)型的實(shí)體所決定。

假設(shè)1類(lèi)似于PageRank算法的思想,利用同構(gòu)實(shí)體之間的關(guān)系進(jìn)行重要度的傳遞,而假設(shè)2類(lèi)似于Hits算法的思想,將各種類(lèi)型的實(shí)體分別看作權(quán)威和中心。本文所提出的方法試圖在一個(gè)模型中融合PageRank和Hits模型的思想。

2.2 去除冗余句子

本系統(tǒng)采用MMR算法進(jìn)行冗余句子消除。該方法的大致思想為:根據(jù)重要度的大小逐句選擇文摘句,在逐步選擇句子的時(shí)候,同時(shí)考慮句子和已選擇句子的信息重疊度及句子本身的重要程度,選擇那些自身權(quán)值較高,而且與已選擇句子的信息重復(fù)量較少的句子。按照這種方法,就可以既可以保證文摘中的句子重要程度都比較高并且文摘的冗余度較低。它選擇句子的準(zhǔn)則就是選擇那些自身權(quán)值較高,而且和已選擇句子的信息重復(fù)量較少的句子。

3 市場(chǎng)和應(yīng)用需求分析

多文檔摘要可以作為單獨(dú)的系統(tǒng)使用,按照用戶定制的規(guī)則從用戶感興趣的網(wǎng)站上獲取信息、生成簡(jiǎn)要的文摘提供給用戶,既可省去用戶直接在網(wǎng)站上瀏覽的大量時(shí)間。目前的很多研究就是在這個(gè)應(yīng)用上進(jìn)行的。

多文檔摘要也可以應(yīng)用在信息檢索領(lǐng)域,它可以對(duì)信息檢索的結(jié)果進(jìn)行處理,將內(nèi)容相似的網(wǎng)頁(yè)進(jìn)行歸納和摘要,將摘要結(jié)果返回給用戶。假如目前的信息檢索給的前30個(gè)結(jié)果可以劃分為5個(gè)主題,但是由于搜索弓|擎的排序規(guī)則,使得其中一個(gè)主題包含的10篇文章全部出現(xiàn)在第一頁(yè),而用戶感興趣的主題出現(xiàn)在第二頁(yè)甚至更后面,那么使用信息的效率將會(huì)大大降低。如果我們對(duì)這30個(gè)文章的5個(gè)主題分別進(jìn)行摘要,把5個(gè)摘要返回給用戶,那么用戶可以很快在第一頁(yè)上找到與自己感興趣的內(nèi)容。這樣就可以在檢索結(jié)果的第一頁(yè)中包含更多更豐富的信息,從而很好地提高了海量信息的使用效率。

話題監(jiān)測(cè)和跟蹤TDT(Topic detection and tracking)是多文檔摘要的另一個(gè)應(yīng)用,即根據(jù)用戶感興趣的主題內(nèi)容從網(wǎng)絡(luò)信息中不斷發(fā)現(xiàn)與其相關(guān)的文本信息并與原有信息進(jìn)行匯總,生成趨勢(shì)發(fā)展分析報(bào)告等提供給用戶使用。此外,在特定領(lǐng)域上多文檔摘要技術(shù)也具有廣闊的應(yīng)用空間,如科技文獻(xiàn)摘要、股票論壇的摘要匯總、國(guó)家安全部門(mén)對(duì)非法信息的監(jiān)控等等。簡(jiǎn)言之,多文檔摘要技術(shù)有著巨大的需求和應(yīng)用前景,這些正是推動(dòng)其發(fā)展的強(qiáng)大動(dòng)力。

[1]Jade Goldstein,Mark Kantrowitz,Vibhu Mittal,Jaime Carbonell.Summarizing Text Documents:Sentence Selection and Evaluation Metrics[C]//Proceedings of SIGⅡ099,Berkeley,CA,1999:121,128.

[2]Dragomir R.Radev,Hongyan Jing,Malgorzata Budzikowska.Centroid-based Summarization of Multiple Documents:Sentence Extraction,Utility-based Evaluation,and User Studies[C]//ANLP/NAACL2000 Workshop,Seattle,Washington,USA,April 2000,21-29.

[3]http://newsblaster.cs.columbia.edu/[OL].

[4]鐘義信.自然語(yǔ)言理解的全信息方法論[J].北京郵電大學(xué)學(xué)報(bào),2004,27(4):1-12.

猜你喜歡
用戶信息系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無(wú)人機(jī)系統(tǒng)
ZC系列無(wú)人機(jī)遙感系統(tǒng)
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關(guān)注用戶
關(guān)注用戶
關(guān)注用戶
如何獲取一億海外用戶
展會(huì)信息
主站蜘蛛池模板: 99国产在线视频| 日韩免费毛片视频| 高清欧美性猛交XXXX黑人猛交 | 在线无码av一区二区三区| 成色7777精品在线| 色网站在线免费观看| 亚洲男人的天堂久久香蕉| 亚洲最黄视频| 亚洲综合专区| 少妇被粗大的猛烈进出免费视频| 日韩免费成人| 亚洲福利视频一区二区| 无码有码中文字幕| 无码丝袜人妻| 国产成人无码综合亚洲日韩不卡| 亚洲天堂免费| 亚洲国产精品日韩欧美一区| 亚洲妓女综合网995久久| 99人妻碰碰碰久久久久禁片| a毛片免费观看| 国产在线观看一区精品| 在线免费a视频| 999国产精品| 中文字幕无线码一区| 亚洲日韩精品无码专区97| 99在线小视频| a亚洲视频| 午夜视频免费一区二区在线看| 九九九久久国产精品| 国产jizzjizz视频| 久草美女视频| 国产人在线成免费视频| 日韩黄色在线| 尤物午夜福利视频| 成人亚洲视频| 久久一日本道色综合久久| 日韩毛片免费观看| 青青操视频在线| 一级福利视频| 亚洲欧美在线看片AI| 亚洲国产综合自在线另类| 91亚洲精品第一| 四虎精品免费久久| A级全黄试看30分钟小视频| 3D动漫精品啪啪一区二区下载| 国产一区二区三区夜色| 制服丝袜一区| 91久久国产成人免费观看| 久久这里只有精品23| 久久精品最新免费国产成人| 国产系列在线| 欧美第九页| 国产亚洲精品va在线| 久久久久国色AV免费观看性色| 久久婷婷五月综合色一区二区| 人妻21p大胆| 亚洲一级毛片在线观播放| 国产对白刺激真实精品91| а∨天堂一区中文字幕| 国产99视频精品免费视频7| 日本一区二区三区精品国产| 国产小视频免费观看| 亚洲欧美在线精品一区二区| 国产亚洲成AⅤ人片在线观看| 国产菊爆视频在线观看| 国产粉嫩粉嫩的18在线播放91| 另类专区亚洲| 九九视频在线免费观看| 91精品啪在线观看国产91| 国产成人精品一区二区秒拍1o| 99偷拍视频精品一区二区| jizz在线免费播放| 国产精品女同一区三区五区| 在线观看网站国产| 看国产一级毛片| 国产黄色视频综合| 精品伊人久久久大香线蕉欧美| 三上悠亚精品二区在线观看| 国产精品网址在线观看你懂的| 欧美在线伊人| 国产成人三级| 亚洲国产综合精品中文第一|