999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自動關鍵詞抽取在中文專利文本中的研究綜述

2017-02-23 06:48:40楊祎萬琪
現代計算機 2017年2期
關鍵詞:排序監督文本

楊祎,萬琪

(四川大學計算機學院,成都 610065)

自動關鍵詞抽取在中文專利文本中的研究綜述

楊祎,萬琪

(四川大學計算機學院,成都 610065)

隨著知識經濟的快速發展,對專利文本的分析與研究可以幫助人們了解新技術,推測技術的發展方向。自動關鍵詞抽取在中文專利文本的分析與研究中有著至關重要的意義。介紹一些目前已有的自動關鍵詞抽取技術成果,包括有監督方法和無監督方法,并對關鍵詞抽取的評價指標做簡單的介紹。

專利文本;關鍵詞抽取;有監督方法;無監督方法;評價指標

0 引言

專利文獻是人類社會技術信息的重要載體,它包含了全世界90%的最新技術信息,專利文獻的數量也伴隨著技術的發展而快速地增長。隨著社會知識經濟的深入發展,知識產權也日益成為國家和企業發展的戰略性資源和核心競爭力[1]。而中國對于知識產權還的保護還不夠重視,在專利文本方面的研究也落后于其他國家。因此,從龐大的專利文本中分析和挖掘出信息顯得尤為重要,通過分析專利中的詳細技術信息、類型與發展趨勢,我們可以推測出新的技術發展方向和方法,甚至開發出新的技術應用領域。

然而,專利文本的數據結構相對復雜,而且大部分篇幅很長,關鍵詞作為表達文章主題和意思的短語,可以幫助人們在大量的文本集中快速而又精確查找一篇文章并了解文章的主要內容,在提升許多自然語言處理和信息檢索任務中有著顯著的效果,如文本摘要、文本分類聚類,觀點挖掘、文檔索引等。考慮到關鍵詞的重要性,自動關鍵詞抽取受到很多的關注,但是,結合現有的研究,關鍵詞抽取的性能仍然低于很多其他的自然語言處理任務[2,10]。本文主要介紹了最新的專利文本關鍵詞抽取方法和現有系統的主要問題。

1 專利文本

相比于現有的其他類型的語料,如新聞、微博、郵件等,專利文本語料主要有著以下特點:

領域廣泛性:專利文本里的詞匯涉及領域很廣,擁有大量專業術語,而且隨著新技術的發展以及新領域的產生,還會不斷出現新的術語。例如“人工智能”、“大數據”等都是隨著信息技術領域的發展而出現的新的專業詞匯。

領域相關性:專利文本中的詞匯有時會具有極強的專業性,即某詞匯在某個特定領域內經常被使用,在其他領域或者是普通文本內則很少被使用。例如“疫苗株”、“抗原”等詞,在醫學領域的專利文獻中經常會被使用,而在其他領域的專利文獻或者是普通文本中卻極少出現。

規則性:因為國家對于專利申請有一定的規范,所以專利文本中的詞匯用詞嚴謹,遵循一定的規則,通常很少會有歧義的用語。

2 關鍵詞抽取方法

一般關鍵詞抽取分為兩個步驟:(1)利用一些啟發式規則抽取詞或短語集充當取候選關鍵詞;(2)檢測候選關鍵詞是否正確,有監督方法和無監督方法兩種。

2.1 抽取候選

用一些啟發式規則,去除掉錯誤的詞。規則包含:(1)去除停用詞;(2)詞性標注候選;(3)允許出現在維基百科標題中的N元語法成為候選短語;(4)N元語法滿足預定義詞匯-句法的模式[3]。

2.2 有監督方法

在早期,有監督方法將關鍵詞抽取任務看做是一個二分類問題,方法的主要目標就是訓練一個分類器判斷候選短語是否是關鍵詞,常用的分類器如,樸素貝葉斯、決策樹分類、最大熵模型、多層感知機和支持向量機等[4]。分類隱含的假設候選短語之間條件獨立,因此,通過分類不能比較兩個候選之間的優先級。另一種是基于排序的方法,解決了將關鍵詞抽取看做是分類問題的缺點,該方法學習一個排序器對兩個候選短語進行排序,排序后越靠前的候選越可能是關鍵詞[5]。

2.3 無監督方法

(1)基于圖的排序TextRank算法

從輸入文本建立一個圖G={V,E}并利用基于圖的排序方法根據重要性對節點進行排序[6]。其中節點V=(w1,w2,…,wn)代表候選短語的集合,N為候選短語節點的個數,E=(wi,wj)表示節點相連的邊的集合,Text Rank的打分思想依然是從PageRank的迭代思想衍生過來的,候選短語的得分由公式(1)計算。

其中:

上述的公式中e(wj,wi)為候選短語節點wj→wi邊上的權重,表示兩個候選短語之間的語義相似性,λ是平滑因子,V表示節點的集合。

一個關鍵詞序列應該覆蓋文章中所討論的主題,但是,基于圖的排序算法不能保證抽取的關鍵詞能代表所有的主題。

(2)基于主題聚類Topical PageRank算法

為了解決基于圖的排序算法的缺點,提出了基于主題的聚類的Topical PageRank方法,將候選短語通過主題進行分組,每一個主題都是由主題相關的候選短語組成?;谥黝}聚類方法的動機:關鍵詞應該與文章中討論的一個或多個主題相關聯、抽取關鍵詞應該從意義上綜合覆蓋文章中的所有主題[7]。該方法對文檔多次運行PageRank,通過對每一個主題運行PageRank保證抽取的關鍵詞能覆蓋文章中的所有主題。

Topical PageRank算法步驟如圖1所示:

圖1 關鍵詞抽取Topical PageRank算法

候選短語的得分通過每一個主題得分與主題在文章中的概率加權和來計算[8],公式如(3):

其中:

上述的公式中e(wj,wi)為候選短語節點wj→wi邊上的權重,表示兩個候選短語之間的語義相似性,λ是平滑因子,pz(wi)表示詞在主題中的隨機游走概率。

(3)基于語言模型的方法(Language Modeling)

許多現在的方法分步進行關鍵詞抽取,在關鍵詞排序或抽取之前先采用一些啟發式規則抽取候選關鍵詞,因此,提出了一種結合兩步的關鍵詞抽取方法[9],該方法基于兩種特征對候選關鍵詞打分,這兩種特征分別是phraseness(一個詞序能被當做是短語的程度)和informativeness(一個詞序能表達它在其中出現的文檔的中心思想的程度),根據兩種特征值的和對候選短語進行排序。

總而言之,LMA(Language Modeling Approach)用語言模型而不是啟發式規則判斷短語,它使得我們能夠發現在文檔中tf*idf值低的關鍵詞。

3 評價指標

關鍵詞抽取常用的評價指有precision精確率、recall召回率和F-score(F值)[11],由公式(4)、(5)和(6)計算得到。

4 結語

關鍵詞抽取作為一個重要的研究領域在自然語言處理和信息檢索任務中有著很重要的作用,隨著新技術的提出和完善,這一研究方向的工作也越來越成熟,但是,最新的關鍵詞抽取系統的性能還遠遠低于其他自然語言處理任務,因此,我們需要更多的研究者們深入研究關鍵詞抽取,這不僅僅是挑戰,也是機遇。

[1]于正河,李娜.論知識產權化.東方論壇,2009(5).

[2]Zhi-yuan Liu,Wen-yi Huang,Ya-bin Zheng,Mao-song Sun.Automatic Keyphrase Extraction Via Topic Decomposition,2010.

[3]Chau Q.Nguyen,Tuoi T.Phan.Anontology-Based Approach for Key Phrase Extraction,2009.

[4]Peter Turney.Learning Algorithms for Keyphrase Extraction,2000.

[5]Chen Wang,Su-jian Li.CoRankBayes:Bayesian Learning to Rank under the Co-Training Framework and Its Application in Keyphrase Extraction,2011.

[6]Adrien Bougouin,Florian Boudin,B'eatrice Daille.Topicrank:Graph-Based Topic Ranking for Keyphrase Extraction,2013.

[7]Zhi-yuan Liu,Chen Liang,Mao-song Sun.Topical Word Trigger Model for Keyphrase Extraction,2012.

[8]Zhi-yuan Liu,Wen-yi Huang,Ya-bin Zheng,Mao-song Sun.Automatic Keyphrase Extraction Via Topic Decomposition,2010.

[9]Takashi Tomokiyo,Matthew Hurst.A Language Model Approach to Keyphrase Extraction,2003.

[10]Kazi Saidul Hasan,Vincent NgAutomatic Keyphrase Extraction:A Survey of the State of the Art,2014.

[11]Su Nam Kim,Timothy Baldwin,Min-Yen Kan.Evaluating N-gram Based Evaluation Metrics for Automatic Keyphrase Extraction,2010.

Survey of Automatic Keyphrase Extraction for Patent Text

YANG Yi,WAN Qi

(College of Computer Science,Sichuan University,Chengdu 610065)

With the rapid development of the knowledge economy,the analysis and research on patent text is useful for to comprehend the state of the art and prediction the development direction of the technology.Automatic keyword extraction is significant for the analysis and Research of the patent text.Presents a survey of current commonly automatic keyword extraction techniques that including supervised methods and unsupervised methods,and briefly introduces the evaluation metrics of keyword extraction.

PatentText;Keyphrase Extaction;Supervised Approaches;Unsupervised Approaches;Evaluation Metrics

1007-1423(2017)02-0029-03

10.3969/j.issn.1007-1423.2017.02.007

楊祎(1993-),女,四川南充人,碩士研究生,研究方向為自然語言處理

2016-11-01

2016-12-28

萬琪(1991-),男,湖北荊門人,碩士研究生,研究方向為自然語言處理

猜你喜歡
排序監督文本
排序不等式
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
恐怖排序
在808DA上文本顯示的改善
節日排序
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 手机在线看片不卡中文字幕| 日韩精品一区二区三区大桥未久 | a级毛片免费看| 欧美有码在线观看| 天天综合网站| 亚洲天堂福利视频| 91色在线观看| 久久精品这里只有国产中文精品| yjizz国产在线视频网| 婷婷中文在线| 国产自视频| 国产精品三级av及在线观看| 国产精品久久自在自线观看| 国产精品亚洲日韩AⅤ在线观看| 日本免费a视频| 蜜桃臀无码内射一区二区三区| 久久无码av一区二区三区| 在线毛片免费| 超级碰免费视频91| 欧美在线一二区| 波多野结衣一区二区三区四区视频 | 欧美不卡视频在线观看| 欧美日韩精品在线播放| 久久久精品久久久久三级| 91精品国产福利| 无码又爽又刺激的高潮视频| 欧美一区二区三区不卡免费| 精品一区二区三区自慰喷水| 国产黄网站在线观看| 国产综合亚洲欧洲区精品无码| 99久久精品免费看国产电影| 亚洲国产精品人久久电影| 福利国产在线| 亚洲动漫h| 日韩av无码精品专区| 熟妇丰满人妻| 热思思久久免费视频| 91娇喘视频| 国产成人乱码一区二区三区在线| 国产精品自在拍首页视频8 | 国产精品九九视频| 在线观看精品自拍视频| 54pao国产成人免费视频| 国产免费看久久久| 亚洲国产精品一区二区第一页免 | 一区二区三区四区精品视频| 伊人成人在线视频| 亚洲欧美综合在线观看| 日韩国产综合精选| 亚洲资源在线视频| www亚洲天堂| 免费国产高清视频| 欧洲日本亚洲中文字幕| 99久久精品美女高潮喷水| 亚洲第一成年网| 天天综合网色| 欧美日本在线一区二区三区| 国产手机在线ΑⅤ片无码观看| JIZZ亚洲国产| 国产永久无码观看在线| 日韩av手机在线| 午夜精品影院| 亚洲成人动漫在线观看| 中文字幕av无码不卡免费| 中文字幕无码中文字幕有码在线| 国产自无码视频在线观看| 激情無極限的亚洲一区免费| 麻豆精品在线视频| 精品久久久久久中文字幕女| 精品一区国产精品| a级毛片免费网站| 欧美区一区| 亚洲欧美成人在线视频| 人人看人人鲁狠狠高清| 国产乱码精品一区二区三区中文 | 亚洲性影院| 国产在线一区二区视频| 国产在线视频欧美亚综合| 2021国产精品自拍| 久久黄色一级片| 午夜不卡视频| 2021国产精品自拍|