999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

術(shù)語(yǔ)抽取方法研究

2021-12-09 06:42:06鄭坤薛明晰紀(jì)傳胤
科學(xué)與信息化 2021年29期
關(guān)鍵詞:深度文本方法

鄭坤 薛明晰 紀(jì)傳胤

中國(guó)人民解放軍32180部隊(duì) 北京 100012

引言

術(shù)語(yǔ)抽取技術(shù)是信息處理中的一個(gè)很重要的課題。術(shù)語(yǔ)集中體現(xiàn)和負(fù)載了一個(gè)學(xué)科領(lǐng)域的核心知識(shí),術(shù)語(yǔ)的變化在一定程度上反映了一個(gè)學(xué)科領(lǐng)域的發(fā)展變化。術(shù)語(yǔ)抽取應(yīng)用在本體構(gòu)建、機(jī)器翻譯和語(yǔ)義檢索等諸多研究領(lǐng)域。因此,研究出一套自動(dòng)、高效和高可移植性的術(shù)語(yǔ)抽取方法具有十分重要的意義。

1 概述

術(shù)語(yǔ)是隨著人類對(duì)各個(gè)研究領(lǐng)域的不斷探索和研究而逐步形成的,用來(lái)記錄或標(biāo)記在此過(guò)程中積累沉淀的專業(yè)知識(shí)概念,通常表現(xiàn)形式為動(dòng)詞、形容詞、介詞和名詞構(gòu)成的詞或詞組(又稱短語(yǔ))。

1.1 術(shù)語(yǔ)的定義

“術(shù)語(yǔ)”目前還沒(méi)有統(tǒng)一明確的定義,但是中外不少學(xué)者從語(yǔ)言學(xué)或者術(shù)語(yǔ)學(xué)角度給出了自己的觀點(diǎn)。本文列舉一些國(guó)內(nèi)外比較通用的術(shù)語(yǔ)定義[1]。Sager認(rèn)為“terms are the linguistic representation of concepts”,即“術(shù)語(yǔ)是概念的語(yǔ)言表征”。馮志偉將術(shù)語(yǔ)定義為“通過(guò)語(yǔ)音或文字來(lái)表達(dá)或限定專業(yè)概念的約定性符號(hào)”。《術(shù)語(yǔ)工作原則與方法》中寫(xiě)到“術(shù)語(yǔ)是專業(yè)領(lǐng)域中概念的語(yǔ)言指稱”[2]。以上幾種術(shù)語(yǔ)的定義雖然角度和內(nèi)容各有不同,但我們不難看出,術(shù)語(yǔ)與特定領(lǐng)域中的概念之間存在著緊密的聯(lián)系。

1.2 術(shù)語(yǔ)抽取效果的評(píng)價(jià)

目前還不存在統(tǒng)一的術(shù)語(yǔ)抽取效果評(píng)價(jià)方法,常見(jiàn)的術(shù)語(yǔ)抽取結(jié)果評(píng)價(jià)方法有三個(gè),準(zhǔn)確率(Precision)、召回率(Recall)和F值(F-Measure或F-Score)。在某個(gè)領(lǐng)域語(yǔ)料上,術(shù)語(yǔ)抽取結(jié)果統(tǒng)計(jì)信息如表1所示。

表1 術(shù)語(yǔ)抽取結(jié)果統(tǒng)計(jì)表

以上結(jié)果統(tǒng)計(jì)時(shí)需要參照一個(gè)標(biāo)準(zhǔn)術(shù)語(yǔ)表(golden standard)[3]。設(shè)標(biāo)準(zhǔn)術(shù)語(yǔ)表為ST,提取出的術(shù)語(yǔ)集合為T(mén),則被抽取出的術(shù)語(yǔ)個(gè)數(shù)為:

準(zhǔn)確率是衡量術(shù)語(yǔ)抽取的準(zhǔn)確程度,計(jì)算公式為 :

召回率是衡量術(shù)語(yǔ)抽取的全面程度,計(jì)算公式為:

F值是綜合考慮了準(zhǔn)確率和召回率,計(jì)算公式為:

其中, 是可調(diào)節(jié)參數(shù),常使用的值為0.5,1,2。當(dāng) 時(shí),準(zhǔn)確率和召回率的權(quán)重相同;當(dāng)時(shí),準(zhǔn)確率的權(quán)重較高;當(dāng) 時(shí),召回率的權(quán)重較高。

以上幾種評(píng)價(jià)方法各有特點(diǎn),在實(shí)際的術(shù)語(yǔ)抽取工作中,根據(jù)術(shù)語(yǔ)抽取方法的特點(diǎn)以及不同的應(yīng)用場(chǎng)景會(huì)選取不同的評(píng)價(jià)方法。

2 術(shù)語(yǔ)抽取方法

術(shù)語(yǔ)自動(dòng)抽取的研究已長(zhǎng)達(dá)20多年,20世紀(jì)90年代國(guó)外就有了一批術(shù)語(yǔ)自動(dòng)抽取系統(tǒng)。國(guó)內(nèi)的研究則集中在近10年,主要是在國(guó)外研究基礎(chǔ)上對(duì)已有方法進(jìn)行改進(jìn)。

早期的術(shù)語(yǔ)自動(dòng)抽取中使用的大多是基于語(yǔ)言學(xué)知識(shí)。后來(lái),隨著統(tǒng)計(jì)自然語(yǔ)言處理技術(shù)的快速發(fā)展,術(shù)語(yǔ)抽取系統(tǒng)中逐步引入了一種或多種統(tǒng)計(jì)策略。而隨著隱馬爾可夫模型(Hidden Markov Model)、條件隨機(jī)場(chǎng)(Conditional Random Fields)等機(jī)器學(xué)習(xí)算法在詞性標(biāo)注、命名實(shí)體識(shí)別等領(lǐng)域的使用,結(jié)合機(jī)器學(xué)習(xí)算法的方法也被引入到術(shù)語(yǔ)的抽取研究中。總的來(lái)說(shuō),目前術(shù)語(yǔ)自動(dòng)抽取方法主要分為6大類[4]:①基于規(guī)則的方法;②基于統(tǒng)計(jì)的方法;③基于主題模型的方法;④基于深度學(xué)習(xí)的方法;⑤基于詞圖模型的方法;⑥基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法。

2.1 基于規(guī)則的方法

基于規(guī)則的方法主要使用術(shù)語(yǔ)的詞語(yǔ)詞性以及詞法模式等語(yǔ)言知識(shí),利用這些知識(shí)可以從語(yǔ)料中自動(dòng)抽取出術(shù)語(yǔ)。

這類方法基于已有的術(shù)語(yǔ)集以及領(lǐng)域特點(diǎn)進(jìn)行規(guī)則總結(jié),在準(zhǔn)確率上有一定的優(yōu)勢(shì)。但該類方法的可移植性很差,即不同的語(yǔ)言、不同的領(lǐng)域、不同的語(yǔ)料集,語(yǔ)言規(guī)則各不相同,需要根據(jù)具體情況制定。

2.2 基于統(tǒng)計(jì)的方法

基于統(tǒng)計(jì)的方法以統(tǒng)計(jì)學(xué)理論為基礎(chǔ),利用語(yǔ)料庫(kù)中的分布統(tǒng)計(jì)屬性來(lái)識(shí)別術(shù)語(yǔ)。經(jīng)常使用到的統(tǒng)計(jì)方法可以分為兩大類:一類衡量詞或詞組的領(lǐng)域性,如詞頻(Frequency)、TF-IDF值、領(lǐng)域相關(guān)性(Domain Relevance)和領(lǐng)域共識(shí)(Domain Consensus)等;一類衡量詞組的單元性,如互信息(Mutual Information)、對(duì)數(shù)似然比(Log-Likehood Rate)等[5]。

2.3 基于主題模型的方法

主題模型是以無(wú)監(jiān)督學(xué)習(xí)方式對(duì)文本集合的隱含語(yǔ)義進(jìn)行聚類的概率模型,旨在根據(jù)主題描述文本,確定每個(gè)文本與哪些主題相關(guān)以及每個(gè)主題由哪些單詞(或短語(yǔ))構(gòu)成。事實(shí)上,每個(gè)主題可以表示為一組經(jīng)常出現(xiàn)的單詞(或短語(yǔ))集合,該組單詞按照對(duì)主題的相關(guān)程度降序排列。

基于主題模型自動(dòng)抽取方法的理論基礎(chǔ):大多數(shù)術(shù)語(yǔ)可以表示成特定領(lǐng)域子主題相關(guān)的概念,最新研究結(jié)果表明,在文檔集合中劃分主題,然后根據(jù)主題抽取術(shù)語(yǔ),可以提高自動(dòng)術(shù)語(yǔ)抽取的質(zhì)量。基于主題模型的術(shù)語(yǔ)抽取的基本步驟如下:①使用主題建模技術(shù)(例如聚類,LDA)將目標(biāo)語(yǔ)料庫(kù)映射到由多個(gè)主題組成的語(yǔ)義空間;②詞的主題概率分布來(lái)對(duì)術(shù)語(yǔ)候選詞進(jìn)行評(píng)分。

2.4 基于深度學(xué)習(xí)的方法

基于深度學(xué)習(xí)的自動(dòng)術(shù)語(yǔ)抽取方法主要結(jié)合最新的深度學(xué)習(xí)技術(shù)來(lái)進(jìn)行自動(dòng)術(shù)語(yǔ)的抽取,是一種數(shù)據(jù)表示的特殊機(jī)器學(xué)習(xí)方法,可解決抽取術(shù)語(yǔ)中人工挑選最佳特征工程的問(wèn)題。其基本思想是:通常將候選術(shù)語(yǔ)或整個(gè)句子的詞嵌入表示(word embedding representation)作為輸入,喂給特定的深度學(xué)習(xí)模型(例如深層神經(jīng)網(wǎng)絡(luò)DNNs、深層信念網(wǎng)絡(luò)DBNs、遞歸神經(jīng)網(wǎng)絡(luò)RNNs、深層遞歸神經(jīng)網(wǎng)絡(luò)DRNNs),然后由多個(gè)處理層組成的深度計(jì)算模型學(xué)習(xí)出具有多個(gè)抽象級(jí)別的候選術(shù)語(yǔ)表示,最后對(duì)該表示進(jìn)行術(shù)語(yǔ)類別劃分[6]。

近年來(lái),深度學(xué)習(xí)技術(shù)為各種NLP任務(wù)提供了多種解決方案以及接近專家水平的準(zhǔn)確率。因此,深度學(xué)習(xí)模型在自動(dòng)術(shù)語(yǔ)抽取任務(wù)中得到了應(yīng)用。

基于深度學(xué)習(xí)的術(shù)語(yǔ)抽取步驟:

獲取文本關(guān)鍵詞數(shù)據(jù)庫(kù),文本關(guān)鍵詞數(shù)據(jù)庫(kù)中包含若干組文本和其對(duì)應(yīng)的關(guān)鍵詞;

使用word2vec將每組文本和其對(duì)應(yīng)的關(guān)鍵詞轉(zhuǎn)化為詞向量;

使用詞向量形式的文本和其對(duì)應(yīng)的關(guān)鍵詞來(lái)訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò):

循環(huán)后,對(duì)于新的文本,利用訓(xùn)練后的循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行關(guān)鍵詞的提取神經(jīng)網(wǎng)絡(luò)訓(xùn)練完成。

基于深度學(xué)習(xí)的自動(dòng)術(shù)語(yǔ)抽取方法主要利用深度學(xué)習(xí)模型來(lái)抽取術(shù)語(yǔ)。該方法無(wú)須人工篩選術(shù)語(yǔ)特征,減少了昂貴的人工成本,并有助于將候選術(shù)語(yǔ)和上下文信息結(jié)合起來(lái),以詞嵌入向量表示融合更多類型的特征,從而達(dá)到較好的術(shù)語(yǔ)抽取效果,尤其適合超大文檔集合。但該方法的缺點(diǎn)也很明顯,依賴于復(fù)雜的深度學(xué)習(xí)模型,需要非常大量的標(biāo)注數(shù)據(jù)或標(biāo)注句子(對(duì)應(yīng)序列標(biāo)注方法)以及較長(zhǎng)的訓(xùn)練時(shí)間,且模型的跨領(lǐng)域泛化能力較弱。

2.5 基于詞圖模型的TextRank算法

基于圖的自動(dòng)術(shù)語(yǔ)抽取方法是最近幾年開(kāi)始在術(shù)語(yǔ)領(lǐng)域流行的一類無(wú)監(jiān)督抽取方法。該類方法的靈感來(lái)源于PageRank中網(wǎng)頁(yè)重要度的排序方。2004年,Mihalcea等人最先將 PageRank思想應(yīng)用于自然語(yǔ)言處理領(lǐng)域,提出可以抽取關(guān)鍵單詞的TextRank方法。它利用一篇文檔內(nèi)部的詞語(yǔ)間的共現(xiàn)信息(語(yǔ)義)便可以抽取關(guān)鍵詞,它能夠從一個(gè)給定的文本中抽取出該文本的關(guān)鍵詞、關(guān)鍵詞組,并使用抽取式的自動(dòng)文摘方法抽取出該文本的關(guān)鍵句。關(guān)鍵字的抽取就是從文本種確定一些能夠描述文檔含義的術(shù)語(yǔ)的過(guò)程。

2.6 基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法

基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法包括了SVM、樸素貝葉斯等有監(jiān)督學(xué)習(xí)方法,以及K-means、層次聚類等無(wú)監(jiān)督學(xué)習(xí)方法。在此類方法中,模型的好壞取決于特征提取,而深度學(xué)習(xí)正是特征提取的一種有效方式。由Google推出的Word2Vec詞向量模型,是自然語(yǔ)言領(lǐng)域中具有代表性的學(xué)習(xí)工具。它在訓(xùn)練語(yǔ)言模型的過(guò)程中將詞典映射到一個(gè)更抽象的向量空間中,每一個(gè)詞語(yǔ)通過(guò)高維向量表示,該向量空間中兩點(diǎn)之間的距離就對(duì)應(yīng)兩個(gè)詞語(yǔ)的相似程度。

Word2Vec詞聚類文本關(guān)鍵詞抽取方法的主要思路是對(duì)于用詞向量表示的文本詞語(yǔ),通過(guò)K-Means算法對(duì)文章中的詞進(jìn)行聚類,選擇聚類中心作為文章的一個(gè)主要關(guān)鍵詞,計(jì)算其他詞與聚類中心的距離即相似度,選擇topN個(gè)距離聚類中心最近的詞作為文本關(guān)鍵詞,而這個(gè)詞間相似度可用Word2Vec生成的向量計(jì)算得到。

3 結(jié)束語(yǔ)

隨著網(wǎng)絡(luò)空間中所蘊(yùn)含的文本數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng),從大型文本集合中抽取出描述某一特定領(lǐng)域(例如科技文獻(xiàn)、社交推文等領(lǐng)域)的術(shù)語(yǔ)是文本挖掘和信息抽取的首要步驟,也是本體構(gòu)建、文本分類、文本摘要、機(jī)器翻譯、知識(shí)圖譜等領(lǐng)域的關(guān)鍵基礎(chǔ)問(wèn)題和研究熱點(diǎn)。總體看來(lái),現(xiàn)有的術(shù)語(yǔ)抽取方法相比于研究早期已經(jīng)有了很大的進(jìn)步,其中部分方法已經(jīng)取得了不錯(cuò)的效果,有一定實(shí)際應(yīng)用價(jià)值。但是,現(xiàn)有術(shù)語(yǔ)自動(dòng)抽取技術(shù)還不夠成熟,未來(lái)的術(shù)語(yǔ)抽取研究工作可以進(jìn)一步完善術(shù)語(yǔ)抽取的理論體系,在現(xiàn)有的方法基礎(chǔ)上進(jìn)行改進(jìn),借鑒其他領(lǐng)域的成功經(jīng)驗(yàn),不斷探索和研究新的方法,針對(duì)具體的應(yīng)用領(lǐng)域或場(chǎng)景進(jìn)行針對(duì)性的研究。

猜你喜歡
深度文本方法
深度理解一元一次方程
在808DA上文本顯示的改善
深度觀察
深度觀察
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
深度觀察
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚(yú)
主站蜘蛛池模板: 久久久久亚洲av成人网人人软件 | 亚洲综合久久成人AV| 亚洲系列无码专区偷窥无码| 亚洲精品视频网| 久久精品人人做人人爽电影蜜月| 四虎国产成人免费观看| 五月天在线网站| 色悠久久综合| 精品在线免费播放| 黄片一区二区三区| 欧亚日韩Av| 国产制服丝袜无码视频| 国产91精品久久| 无码粉嫩虎白一线天在线观看| 亚洲天堂视频在线观看免费| 中文字幕乱码二三区免费| 19国产精品麻豆免费观看| 国产日韩欧美中文| 日本欧美在线观看| 国产成人久久综合777777麻豆| 强奷白丝美女在线观看| 99人妻碰碰碰久久久久禁片| 91精品国产自产91精品资源| 亚洲AV无码乱码在线观看裸奔| AV片亚洲国产男人的天堂| 国产欧美性爱网| 亚洲欧美成aⅴ人在线观看 | 亚洲国产欧美中日韩成人综合视频| 亚洲无码精品在线播放| 制服丝袜亚洲| 亚洲天堂区| jizz国产视频| hezyo加勒比一区二区三区| 尤物午夜福利视频| 免费中文字幕一级毛片| 欧美激情综合一区二区| 欧美一区二区三区欧美日韩亚洲| 欧美a在线| 婷婷亚洲最大| 久久99国产乱子伦精品免| 日韩少妇激情一区二区| 精品国产免费人成在线观看| 国产AV毛片| 国产视频入口| 香蕉伊思人视频| 国产精品视频久| 91在线播放国产| jijzzizz老师出水喷水喷出| 99热国产这里只有精品9九| 91精品国产91欠久久久久| 久久精品无码一区二区国产区| 久久久久国产精品免费免费不卡| 久久精品娱乐亚洲领先| 九色视频在线免费观看| 中文字幕欧美日韩| 69av免费视频| 中文精品久久久久国产网址| 特级aaaaaaaaa毛片免费视频| 91成人在线免费视频| 国产精品美女网站| 丁香六月激情婷婷| 91精品免费高清在线| 久久成人国产精品免费软件| 人人爱天天做夜夜爽| 国产精品福利导航| 99re热精品视频中文字幕不卡| 全部免费毛片免费播放 | 伊人久久精品无码麻豆精品| 欧美午夜视频| 精品一区国产精品| 国产精品手机在线观看你懂的| a天堂视频| 久久中文字幕2021精品| 国产色网站| 日本人真淫视频一区二区三区| 国产在线97| 欧美a在线| 日韩 欧美 小说 综合网 另类| 欧美午夜网站| 一级毛片免费播放视频| 久久亚洲国产视频| 中文字幕 欧美日韩|