999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自動(dòng)關(guān)鍵短語(yǔ)抽取綜述

2015-02-23 03:27:25姚堯
現(xiàn)代計(jì)算機(jī) 2015年4期
關(guān)鍵詞:排序關(guān)鍵監(jiān)督

姚堯

(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)

自動(dòng)關(guān)鍵短語(yǔ)抽取綜述

姚堯

(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)

自動(dòng)關(guān)鍵短語(yǔ)抽取是知識(shí)抽取和信息檢索等信息技術(shù)的關(guān)鍵步驟,當(dāng)前已經(jīng)被廣泛研究多年,但是和許多自然語(yǔ)言處理任務(wù)的性能相比,現(xiàn)有抽取算法的性能依然很低下。對(duì)自動(dòng)關(guān)鍵短語(yǔ)抽取方法進(jìn)行綜述,并對(duì)其未來研究發(fā)展進(jìn)行展望,為進(jìn)一步自動(dòng)抽取高質(zhì)量的關(guān)鍵短語(yǔ)提供良好借鑒。

自動(dòng)關(guān)鍵短語(yǔ)抽取;自然語(yǔ)言處理;抽取算法;性能

0 引言

文檔的關(guān)鍵短語(yǔ)可以保證對(duì)大規(guī)模的文檔進(jìn)行快速和精確的查詢,并廣泛應(yīng)用于文本摘要[1]、文本分類[2]、情感挖掘[5]、文檔索引等自然語(yǔ)言處理(NLP)和信息檢索(IR)任務(wù)。但實(shí)際中很少有文檔標(biāo)注了關(guān)鍵短語(yǔ),手工去添加關(guān)鍵短語(yǔ)是一項(xiàng)很繁重的工作。因此需要一種方法去自動(dòng)抽取關(guān)鍵短語(yǔ)。

自動(dòng)關(guān)鍵短語(yǔ)抽取是從文檔中自動(dòng)抽取具有重要性和主題性的短語(yǔ)。因?yàn)殛P(guān)鍵短語(yǔ)的重要性,自動(dòng)關(guān)鍵短語(yǔ)抽取受到了很大的關(guān)注。但是,其任務(wù)離真正解決還有很長(zhǎng)的距離。相比于許多的核心自然語(yǔ)言處理任務(wù),當(dāng)前自動(dòng)關(guān)鍵短語(yǔ)抽取方法的性能仍然很低下。本文的目標(biāo)是對(duì)自動(dòng)關(guān)鍵短語(yǔ)抽取方法進(jìn)行綜述,分析各方法的優(yōu)缺點(diǎn),并討論目前遇到的挑戰(zhàn)。

1 關(guān)鍵短語(yǔ)抽取方法

一個(gè)通用的關(guān)鍵短語(yǔ)抽取系統(tǒng)主要分為2步:①利用一些啟發(fā)式方法抽取多個(gè)詞或者短語(yǔ)作為候選關(guān)鍵短語(yǔ);②利用有監(jiān)督或者無監(jiān)督方法判斷候選關(guān)鍵短語(yǔ)是否是正確的關(guān)鍵短語(yǔ)。

2 候選關(guān)鍵短語(yǔ)選擇

如上所述,候選關(guān)鍵短語(yǔ)通過啟發(fā)式規(guī)則抽取。設(shè)計(jì)這些規(guī)則用來避免錯(cuò)誤的候選和保持候選數(shù)目最小。典型的啟發(fā)式方法包括:①利用停用詞表來去除停用詞;②利用特有的詞性標(biāo)簽來作為候選關(guān)鍵短語(yǔ),例如名詞、形容詞、動(dòng)詞;③抽取出現(xiàn)在維基百科條目標(biāo)題中的N元組來作為候選關(guān)鍵短語(yǔ);④抽取滿足預(yù)定義詞匯模板的N元組或者名詞短語(yǔ)。

3 有監(jiān)督方法

早期的有監(jiān)督方法把關(guān)鍵短語(yǔ)抽取當(dāng)做一個(gè)二分類問題[11]。目標(biāo)是從標(biāo)注好關(guān)鍵短語(yǔ)的文檔中訓(xùn)練一個(gè)分類器來判斷一個(gè)候選短語(yǔ)是否是關(guān)鍵短語(yǔ)。關(guān)鍵短語(yǔ)和非關(guān)鍵短語(yǔ)分別用于生成正例和負(fù)例。不同的學(xué)習(xí)算法可以用來訓(xùn)練該分類器,包括樸素貝葉斯、決策樹、最大熵和支持向量機(jī)等分類算法。

劉玲玲等人[4]提出了一種利用決策樹訓(xùn)練分類器解決關(guān)鍵短語(yǔ)抽取的方法。將文檔中詞的詞性、首位置、詞語(yǔ)頻次作為決策樹分類的特征。并加入了詞在文檔中出現(xiàn)的位置信息,對(duì)詞的權(quán)重進(jìn)性調(diào)整。最后采用十折交叉驗(yàn)證和Bagging重采樣技術(shù)進(jìn)行決策樹關(guān)鍵短語(yǔ)的抽取。部分匹配的F值達(dá)到了54.49%。

單純地把關(guān)鍵短語(yǔ)抽取當(dāng)做二分類問題有一定的缺陷。關(guān)鍵短語(yǔ)抽取的目標(biāo)是識(shí)別文檔中最具代表性的短語(yǔ)。但是二分類器在分類時(shí)單獨(dú)考慮每個(gè)候選關(guān)鍵短語(yǔ),導(dǎo)致無法比較候選關(guān)鍵短語(yǔ)之間的好壞。受這種發(fā)現(xiàn)的啟發(fā),Jiang[7]等人提出了一種關(guān)鍵短語(yǔ)抽取的排序方法,利用TF-IDF、短語(yǔ)長(zhǎng)度、首次出現(xiàn)位置以及是否出現(xiàn)在標(biāo)題作為特征,使用Rank_SVM學(xué)習(xí)一個(gè)排序器對(duì)兩個(gè)候選關(guān)鍵短語(yǔ)排序。這種值對(duì)排序方法表現(xiàn)了候選短語(yǔ)之間的比較,并且其結(jié)果比KEA[8]有明顯的提高。

4 無監(jiān)督方法

存在的無監(jiān)督關(guān)鍵短語(yǔ)抽取方法可以分為2類:基于圖的排序方法和基于主題的聚類方法。

4.1 基于圖的排序方法

基于圖的方法的基本思想是從輸入文檔中建立一個(gè)圖,然后利用基于圖的排序方法根據(jù)頂點(diǎn)的重要性對(duì)它排序,圖的每個(gè)頂點(diǎn)相當(dāng)于文檔中的候選關(guān)鍵短語(yǔ),圖的每條邊連接2個(gè)相關(guān)的候選。邊的權(quán)重相當(dāng)于相互連接的候選之間的語(yǔ)義相關(guān)度。TextRank[6]是一種關(guān)鍵短語(yǔ)抽取中比較著名的基于圖的方法。圖中每個(gè)節(jié)點(diǎn)的得分根據(jù)當(dāng)前節(jié)點(diǎn)的鄰居節(jié)點(diǎn)的得分遞歸得到,然后選擇圖中排名高的候選作為輸入文檔的關(guān)鍵短語(yǔ)。

夏天[3]基于TextRank的思想,在此基礎(chǔ)上引入了頻度影響力、覆蓋影響力和位置影響力來計(jì)算短語(yǔ)之間的影響力轉(zhuǎn)移矩陣,然后不斷迭代得到候選構(gòu)建短語(yǔ)的分值,選取前N個(gè)短語(yǔ)作為關(guān)鍵短語(yǔ)。實(shí)驗(yàn)結(jié)果表明,在TextRank上進(jìn)行短語(yǔ)位置加權(quán)的方法優(yōu)于傳統(tǒng)的TextRank方法。

但是基于圖的方法忽略了一個(gè)關(guān)鍵短語(yǔ)抽取中的重要概念,文檔中的一組關(guān)鍵短語(yǔ)應(yīng)該覆蓋文檔中提及的主要主題,但是該方法并沒有關(guān)注這個(gè)問題,所有的主題并沒有被抽取的關(guān)鍵短語(yǔ)代表。盡管有這種缺點(diǎn),但是基于圖代表文本的思想還是被很多的方法采用,并提出了不同的計(jì)算兩個(gè)候選之間相似度的算法。

4.2 基于主題的聚類方法

基于主題的聚類方法是把文檔中的候選關(guān)鍵短語(yǔ)聚合成主題,每個(gè)主題由所有和該主題相關(guān)的候選關(guān)鍵短語(yǔ)組成。采用基于主題的聚類方法有很多動(dòng)機(jī):①抽取的關(guān)鍵短語(yǔ)的綜合語(yǔ)義應(yīng)該覆蓋文檔中所有主要的主題。②一個(gè)關(guān)鍵短語(yǔ)應(yīng)該和文檔中提及的一個(gè)或多個(gè)主要主題相關(guān)。Liu等人[9]提出了一種KeyCluster系統(tǒng),利用維基百科和共現(xiàn)來聚類語(yǔ)義相似的候選關(guān)鍵短語(yǔ)。每個(gè)聚類對(duì)應(yīng)于一個(gè)文檔中的主題,然后選取靠近每個(gè)聚類中心的候選關(guān)鍵短語(yǔ)作為關(guān)鍵短語(yǔ)。實(shí)驗(yàn)結(jié)果顯示KeyCluster性能優(yōu)于TextRank,但是Key-Cluster有個(gè)潛在的缺點(diǎn),在從每個(gè)主題聚類中抽取關(guān)鍵短語(yǔ)時(shí),該系統(tǒng)賦予了每個(gè)主題相同的重要性。實(shí)際上,文檔中具有某些并不重要的主題,這些不重要的主題不應(yīng)該被關(guān)鍵短語(yǔ)代表。Grineva等人[10]提出了一種利用社區(qū)發(fā)現(xiàn)的關(guān)鍵短語(yǔ)抽取系統(tǒng),該系統(tǒng)給更重要的主題賦予了更多的權(quán)重,利用維基百科建立了語(yǔ)義圖,然后通過社區(qū)發(fā)現(xiàn)算法挖掘語(yǔ)義圖中的社區(qū)聚類,最后從有價(jià)值的社區(qū)聚類中抽取所有的候選關(guān)鍵短語(yǔ)作為文檔的關(guān)鍵短語(yǔ)。該方法相比于TF-IDF,TextRank方法在不損失精確率的情況下,得到了更高的召回率。

5 結(jié)語(yǔ)

本文主要對(duì)當(dāng)前的自動(dòng)關(guān)鍵短語(yǔ)抽取進(jìn)行綜述,介紹了具有代表性的有監(jiān)督和無監(jiān)督方法,并分析它們的優(yōu)缺點(diǎn),盡管目前自動(dòng)關(guān)鍵短語(yǔ)抽取取得了較大的進(jìn)展,但是依舊面臨著較多的挑戰(zhàn)。針對(duì)長(zhǎng)文檔自動(dòng)關(guān)鍵短語(yǔ)抽取精確率低的問題需要設(shè)計(jì)更好的算法;在有監(jiān)督模型訓(xùn)練時(shí),存在正例與反例數(shù)量不平衡的問題,如何解決需要作進(jìn)一步工作;當(dāng)前很多方法都只關(guān)注算法的改進(jìn),如何引入背景知識(shí)也是需要解決的問題。

[1] 江開忠,李子成,顧君忠.自動(dòng)文本摘要方法[J].計(jì)算機(jī)工程,2008,34(1):221~223

[2] 羅杰,陳力,夏德麟,等.基于新的關(guān)鍵詞提取方法的快速文本分類系統(tǒng)[J].計(jì)算機(jī)應(yīng)用研究,2006,23(4):32~34

[3] 夏天.詞語(yǔ)位置加權(quán)TextRank的關(guān)鍵詞抽取研究[J].現(xiàn)代圖書情報(bào)技術(shù),2013,29(9):30~34

[4] 劉玲玲,梁穎紅,張永剛等.基于決策樹的關(guān)鍵短語(yǔ)抽取[J].江南大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,9(1)

[5] Berend G.Opinion Expression Mining by Exploiting Keyphrase Extraction[C].IJCNLP.2011:1162~1170

[6] Mihalcea R,Tarau P.TextRank:Bringing Order Into Texts[C].Association for Computational Linguistics,2004

[7] Jiang X,Hu Y,Li H.A Ranking Approach to Keyphrase Extraction[C].Proceedings of the 32nd International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2009:756~757[8] Frank E,Paynter G W,Witten I H,et al.Domain-Specific Keyphrase Extraction[J],1999

[9] Liu Z,Li P,Zheng Y,et al.Clustering to Find Exemplar Terms for Keyphrase Extraction[C].Association for Computational Linguistics, 2009:257~266

[10] Grineva M,Grinev M,Lizorkin D.Extracting Key Terms from Noisy and Multitheme Documents[C].ACM,2009:661~670

[11] Turney P D.Learning Algorithms for Keyphrase Extraction[J].Information Retrieval,2000,2(4):303~336

Overview of Automatic Keyphrase Extraction

YAO Yao
(School of Computer Science,Sichuan University,Chengdu 610065)

Automatic keyphrase extraction is a key step knowledge extraction and information retrieval of information technology,the current has been extensively studied for many years,but many properties as compared to natural language processing tasks,the performance of existing extraction algorithm remains low down.Reviews phrase for automatic extraction methods,and prospects for its future research and development,to provide a good reference for further automatically extract keyphrases of high quality.

Automatic Keyphrase Extraction;Natural Language Processing;Extraction Algorithm;Performance

1007-1423(2015)04-0013-03

10.3969/j.issn.1007-1423.2015.04.003

姚堯(1990-),男,重慶人,在讀碩士研究生,研究方向?yàn)閿?shù)據(jù)挖掘

2014-12-02

2014-12-18

猜你喜歡
排序關(guān)鍵監(jiān)督
排序不等式
高考考好是關(guān)鍵
突出“四個(gè)注重” 預(yù)算監(jiān)督顯實(shí)效
恐怖排序
節(jié)日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
監(jiān)督見成效 舊貌換新顏
夯實(shí)監(jiān)督之基
獲勝關(guān)鍵
NBA特刊(2014年7期)2014-04-29 00:44:03
監(jiān)督宜“補(bǔ)”不宜“比”
浙江人大(2014年4期)2014-03-20 16:20:16
主站蜘蛛池模板: 成人91在线| 久久精品电影| 国禁国产you女视频网站| 小蝌蚪亚洲精品国产| 女同国产精品一区二区| 国产精品一区不卡| 亚洲第一成人在线| 国产欧美视频综合二区| 国产欧美日韩视频一区二区三区| 欧美色图第一页| 亚洲人成影视在线观看| 国产美女在线观看| 日韩福利在线视频| 99爱视频精品免视看| 无码视频国产精品一区二区| 亚洲精品麻豆| 国产成人喷潮在线观看| 日本三区视频| 亚洲国产中文在线二区三区免| 色天堂无毒不卡| 亚洲第一网站男人都懂| 成年av福利永久免费观看| 国产无遮挡猛进猛出免费软件| 久久综合九色综合97婷婷| 久久精品国产一区二区小说| 中文国产成人精品久久| 激情综合网激情综合| 青青草一区| 国产福利拍拍拍| 国产欧美日韩va另类在线播放| 久久综合九九亚洲一区| 精品一区二区三区无码视频无码| 亚洲性色永久网址| 韩日免费小视频| 国产在线精品网址你懂的| 波多野结衣在线se| 亚洲国产看片基地久久1024| 99re精彩视频| 日韩A∨精品日韩精品无码| 国产区精品高清在线观看| 色综合中文| 极品尤物av美乳在线观看| 午夜激情福利视频| 日本成人精品视频| 综合天天色| 天天色天天综合网| 亚洲视频三级| 亚洲永久免费网站| 在线观看国产精美视频| 日本91视频| 精品1区2区3区| 亚洲系列中文字幕一区二区| 国产凹凸视频在线观看| aⅴ免费在线观看| 精品福利网| 精品国产自在在线在线观看| 亚洲国产天堂久久综合| 国产激爽大片高清在线观看| 成人一级免费视频| 国产性爱网站| a毛片免费观看| 亚洲男人的天堂在线观看| 无码精品国产dvd在线观看9久| 欧美成人日韩| 99久久国产综合精品女同| 多人乱p欧美在线观看| 欧美高清三区| 亚洲国产精品国自产拍A| 亚洲天堂.com| 亚洲福利片无码最新在线播放| 天堂网亚洲综合在线| 四虎成人精品在永久免费| 亚洲男人天堂2020| 伊人久久精品亚洲午夜| 五月婷婷激情四射| 国产激情无码一区二区APP| 91日本在线观看亚洲精品| 欧美亚洲香蕉| 亚洲天堂久久新| 91无码视频在线观看| 欧美天堂久久| 日韩毛片免费观看|