999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

學(xué)術(shù)文本中細(xì)粒度知識實(shí)體的關(guān)聯(lián)分析*

2021-03-19 10:59:30章成志謝雨欣宋云天
圖書館論壇 2021年3期
關(guān)鍵詞:關(guān)聯(lián)分析方法

章成志,謝雨欣,宋云天

0 引言

學(xué)術(shù)文獻(xiàn)作為科研成果和科學(xué)知識的載體,是科研工作者接觸最頻繁的資源之一。大數(shù)據(jù)時代學(xué)術(shù)文獻(xiàn)數(shù)量的快速增長加重了科研工作者的負(fù)擔(dān),他們必須閱讀大量文獻(xiàn)以獲取其中的知識。因此,向用戶提供精細(xì)化的、面向知識層面的信息服務(wù)具有重要意義。知識由許多相互關(guān)聯(lián)的知識單元組成,這些知識單元被封裝為學(xué)術(shù)文獻(xiàn)中的知識實(shí)體[1]。目前針對知識實(shí)體抽取及評估的研究已擴(kuò)展到領(lǐng)域知識實(shí)體層面,如生物醫(yī)學(xué)領(lǐng)域的基因、藥物和疾病[2],計(jì)算機(jī)科學(xué)領(lǐng)域的任務(wù)、數(shù)據(jù)集、評測指標(biāo)[3]。然而,當(dāng)前研究側(cè)重于單一知識實(shí)體的評估[4],對知識實(shí)體間的語義關(guān)系挖掘較少[5-6]。針對特定領(lǐng)域知識實(shí)體間的關(guān)聯(lián)分析研究,從宏觀層面可全面描繪特定領(lǐng)域知識的使用和轉(zhuǎn)移情況,進(jìn)而輔助科研工作者的文獻(xiàn)分析和知識獲取工作;從微觀層面可用以了解知識實(shí)體的應(yīng)用場景,如圍繞某個算法或模型獲取具體解決的任務(wù)、使用的數(shù)據(jù)集規(guī)模及相關(guān)評測指標(biāo)等,從而提升知識實(shí)體的評估效果。

本研究以自然語言處理(NLP)為例,開展領(lǐng)域知識實(shí)體的關(guān)聯(lián)分析。NLP 是一個以方法和數(shù)據(jù)為核心的研究領(lǐng)域,大多數(shù)學(xué)者的研究需要算法、模型及相關(guān)工具的支持。基于此,本文針對NLP特點(diǎn)將相關(guān)知識實(shí)體細(xì)分為“方法實(shí)體”“工具實(shí)體”“資源實(shí)體”“指標(biāo)實(shí)體”4種類型,提取全國計(jì)算語言學(xué)會議(即中國計(jì)算語言學(xué)大會,China National Conference on Computational Linguistics,CCL)2009-2018年間收錄的中文論文,通過人工標(biāo)注的方式構(gòu)建知識實(shí)體語料庫,并以此為基礎(chǔ)進(jìn)行知識實(shí)體的關(guān)聯(lián)分析研究;所得結(jié)果可輔助相關(guān)領(lǐng)域的科研人員,尤其是初學(xué)者進(jìn)行知識實(shí)體的評估與選擇。本研究的創(chuàng)新點(diǎn)有:(1)利用學(xué)術(shù)論文全文對特定領(lǐng)域的知識實(shí)體進(jìn)行關(guān)聯(lián)分析,可為傳統(tǒng)基于論文題錄數(shù)據(jù)的知識實(shí)體語義分析作補(bǔ)充,并為考察知識實(shí)體間的關(guān)系提供一定依據(jù);(2)構(gòu)建了中文NLP領(lǐng)域的知識實(shí)體標(biāo)注數(shù)據(jù)集,為今后實(shí)現(xiàn)大規(guī)模的知識實(shí)體自動抽取提供訓(xùn)練語料。

1 相關(guān)研究概述

隨著情報(bào)大數(shù)據(jù)智能分析服務(wù)的不斷精細(xì)化,學(xué)術(shù)文獻(xiàn)分析的對象逐步從論文元數(shù)據(jù)(題錄信息)、主題、術(shù)語和關(guān)鍵詞等,擴(kuò)展到面向自然語言描述文本的知識實(shí)體及其相關(guān)工作,包括知識實(shí)體抽取和知識實(shí)體關(guān)聯(lián)分析。

1.1 知識實(shí)體抽取

現(xiàn)有的知識實(shí)體抽取方法可概括為4類:人工標(biāo)注[7-9]、基于規(guī)則的方法[10-12]、基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法[13-17]和基于深度學(xué)習(xí)的方法[18-20]。從研究的知識實(shí)體類型來說,用戶往往比較關(guān)注與特定領(lǐng)域的需求及研究特點(diǎn)密切相關(guān)的知識實(shí)體。以NLP為例,該領(lǐng)域的研究人員需要了解針對特定任務(wù)的評估基準(zhǔn),以進(jìn)行方法的改進(jìn)或創(chuàng)新,因此文本中涉及的方法類實(shí)體是論文的重要信息,如算法、模型、數(shù)據(jù)集及評測指標(biāo)。比如,Zadeh等[8]對300篇ACL論文摘要進(jìn)行手動注釋,把所標(biāo)注的術(shù)語分為7 個語義類別:method、tool、language resource、language resource product、model、measures、other。Hou等[3]以經(jīng)典的CNN+BiLSTM+CRF框架為基礎(chǔ),識別計(jì)算機(jī)科學(xué)領(lǐng)域?qū)W術(shù)文獻(xiàn)全文中的方法、數(shù)據(jù)集和指標(biāo)實(shí)體。余麗等[5]建立深度學(xué)習(xí)模型,從ACL 論文摘要中識別出“研究范疇”“研究方法”“實(shí)驗(yàn)數(shù)據(jù)”“評價指標(biāo)及取值”4類細(xì)粒度的知識實(shí)體。

1.2 知識實(shí)體關(guān)聯(lián)分析

關(guān)聯(lián)分析又稱關(guān)聯(lián)規(guī)則挖掘,用于從數(shù)據(jù)集中挖掘出對象之間潛在的關(guān)聯(lián)性或相關(guān)性。對學(xué)術(shù)文獻(xiàn)中的知識實(shí)體進(jìn)行關(guān)聯(lián)分析,有助于揭示學(xué)術(shù)文獻(xiàn)中蘊(yùn)含的豐富的知識模式,對于學(xué)術(shù)文獻(xiàn)的結(jié)構(gòu)化表示以及知識實(shí)體的評估和推薦都具有一定的意義。Yao等[6]提出一種新穎的實(shí)體識別框架MDER,它結(jié)合規(guī)則嵌入技術(shù)和CNNBiLSTM-Attention-CRF 結(jié)構(gòu),用于學(xué)術(shù)文獻(xiàn)中方法和數(shù)據(jù)集實(shí)體的挖掘,并構(gòu)造復(fù)雜網(wǎng)絡(luò)圖對方法實(shí)體的關(guān)聯(lián)數(shù)據(jù)集進(jìn)行可視化分析。Zha等[21]提出一種結(jié)合注意力機(jī)制的跨語句關(guān)系抽取模型CANTOR,從學(xué)術(shù)文獻(xiàn)中抽取算法實(shí)體及算法實(shí)體之間的關(guān)系,從而構(gòu)建算法演化路線圖。另外,機(jī)器之心平臺的SOTA(State-Of-The-Art,https://www.jiqizhixin.com/sota)項(xiàng)目也是近幾年較為有代表性的工作之一。該項(xiàng)目基于人工標(biāo)注,從大量機(jī)器學(xué)習(xí)研究論文中獲取某個任務(wù)當(dāng)前最優(yōu)效果的模型,用戶可以根據(jù)自己的需要尋找機(jī)器學(xué)習(xí)對應(yīng)領(lǐng)域和任務(wù)下的SOTA論文,平臺會提供論文、模型、數(shù)據(jù)集和Benchmark的相關(guān)信息。

綜合國內(nèi)外相關(guān)研究,本文有兩點(diǎn)認(rèn)識:首先,近年來知識實(shí)體抽取研究多以機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法為基礎(chǔ),而人工標(biāo)注方法往往耗時耗力,但因其質(zhì)量可靠,常用于構(gòu)建實(shí)體自動抽取系統(tǒng)的模型訓(xùn)練及性能評估語料。其次,學(xué)者們往往關(guān)注實(shí)體抽取方法的改進(jìn)或者單一知識實(shí)體的評估[22-25],對知識實(shí)體間的關(guān)系分析較少。因此,本研究嘗試結(jié)合NLP領(lǐng)域的研究特點(diǎn),人工標(biāo)注學(xué)術(shù)文本中的“方法實(shí)體”“工具實(shí)體”“資源實(shí)體”“指標(biāo)實(shí)體”4類細(xì)粒度的知識實(shí)體,并在此基礎(chǔ)上挖掘知識實(shí)體的關(guān)聯(lián)關(guān)系。

2 研究方法

2.1 基本思路

本次知識實(shí)體關(guān)聯(lián)分析的研究框架如圖1所示。關(guān)聯(lián)結(jié)果的可視化展示可幫助用戶更好地獲取領(lǐng)域知識,如可輔助相關(guān)研究人員了解NLP領(lǐng)域常見的研究方法在本領(lǐng)域的實(shí)際應(yīng)用場景,從而根據(jù)特定的研究任務(wù)選擇合適的算法或者模型,同時可為選擇相關(guān)開源工具、數(shù)據(jù)集以及評測指標(biāo)等提供參考。

本研究以自然語言處理(NLP)領(lǐng)域?yàn)槔x擇NLP領(lǐng)域?qū)W術(shù)論文全文作為原始語料,人工標(biāo)注論文中使用的知識實(shí)體及知識實(shí)體所在的句子。標(biāo)注工作結(jié)束后,對各種知識實(shí)體進(jìn)行名稱標(biāo)準(zhǔn)化處理,即對描述名稱不同但具體含義相同的知識實(shí)體進(jìn)行人工校對和合并。在此基礎(chǔ)上分別基于頻次分析和關(guān)聯(lián)分析考察知識實(shí)體的使用情況。本文主要依據(jù)圖2所示的流程圖展開研究。

圖1 知識實(shí)體關(guān)聯(lián)分析框架圖

圖2 研究流程圖

2.2 數(shù)據(jù)集及預(yù)處理

(1)原始語料概述。本研究原始全文語料來自全國計(jì)算語言學(xué)會議(CCL)。CCL著重致力于中國境內(nèi)各類語言的計(jì)算處理,是國內(nèi)自然語言處理領(lǐng)域權(quán)威性最高、規(guī)模最大的學(xué)術(shù)會議,而且公開歷屆會議論文全文數(shù)據(jù)集[26]。選擇CCL 會議2009-2018 年間收錄的中文論文(共728篇)作為原始標(biāo)注語料,并從中國中文信息學(xué)會計(jì)算語言學(xué)專業(yè)委員會官方網(wǎng)站(http://www.cips-cl.org/anthology)獲取論文題錄信息及全文信息。標(biāo)注論文數(shù)的年代分布如表1所示。

表1 標(biāo)注論文數(shù)的年份分布 (單位:篇)

(2)知識實(shí)體標(biāo)注。綜合考慮領(lǐng)域需求和以往針對NLP領(lǐng)域的知識實(shí)體分類[15],將NLP領(lǐng)域的知識實(shí)體細(xì)分為“方法實(shí)體”“工具實(shí)體”“資源實(shí)體”“指標(biāo)實(shí)體”4種類型,具體的分類標(biāo)準(zhǔn)見表2。本研究在標(biāo)注過程中先標(biāo)注包含知識實(shí)體的完整句子(以下簡稱“知識實(shí)體句”),再標(biāo)注知識實(shí)體句中的知識實(shí)體。表3為知識實(shí)體句的標(biāo)注示例。

表2 NLP領(lǐng)域4種類型知識實(shí)體及其分類標(biāo)準(zhǔn)

表3 NLP領(lǐng)域4種類型知識實(shí)體的語義標(biāo)注示例

標(biāo)注規(guī)范制定后,由一位標(biāo)注人員單獨(dú)對728 篇論文進(jìn)行標(biāo)注。對于不確定的地方,標(biāo)注人員會及時與研究組的情報(bào)學(xué)教授商討,以提高標(biāo)注的準(zhǔn)確性。全部標(biāo)注工作完成后,再從原始全文語料庫中隨機(jī)抽取50篇論文,由另一位標(biāo)注人員依據(jù)最新的標(biāo)注規(guī)范進(jìn)行單獨(dú)標(biāo)注。本研究使用kappa 系數(shù)對標(biāo)注結(jié)果進(jìn)行一致性檢驗(yàn),經(jīng)計(jì)算,方法實(shí)體、工具實(shí)體、資源實(shí)體和指標(biāo)實(shí)體的一致性檢驗(yàn)結(jié)果分別為0.75、0.82、0.84、0.78,說明標(biāo)注結(jié)果一致性較好[27]。

(3)知識實(shí)體名稱標(biāo)準(zhǔn)化。考慮到學(xué)術(shù)文本中知識實(shí)體命名形式的多樣性,對部分知識實(shí)體的名稱進(jìn)行標(biāo)準(zhǔn)化處理。例如,對于方法實(shí)體“SVM”,本文將“SVM”“SVMs”“支持向量機(jī)”等實(shí)行標(biāo)準(zhǔn)化規(guī)范,統(tǒng)一表述為“SVM(Support Vector Machine)”。

2.3 細(xì)粒度知識實(shí)體的關(guān)聯(lián)分析方法

為考察4類知識實(shí)體在學(xué)術(shù)論文中的使用情況,首先基于頻次統(tǒng)計(jì)找出高頻的知識實(shí)體,接著結(jié)合關(guān)聯(lián)規(guī)則挖掘算法Apriori[28]和卡方值(Chi-Square)[29]探究知識實(shí)體的使用相關(guān)性。

(1)頻次分析。以論文為單位統(tǒng)計(jì)知識實(shí)體頻次,即某種知識實(shí)體無論在一篇論文中出現(xiàn)多少次,只記為1次。因此,每個知識實(shí)體的頻次在數(shù)量上就等于使用該知識實(shí)體的論文數(shù),知識實(shí)體頻次越高,表明該知識實(shí)體被越多學(xué)者所使用。基于頻次統(tǒng)計(jì)可找出該領(lǐng)域中使用范圍較廣、影響力較大的高頻知識實(shí)體。

(2)關(guān)聯(lián)分析。基于頻次分析的結(jié)果,進(jìn)一步結(jié)合關(guān)聯(lián)規(guī)則挖掘算法Apriori 和卡方值(Chi-Square)進(jìn)行知識實(shí)體的關(guān)聯(lián)分析,包括同類型知識實(shí)體間和不同類型知識實(shí)體間的關(guān)聯(lián)分析兩種情況。具體步驟包括:

第一步,基于Apriori算法生成知識實(shí)體對。對同類型知識實(shí)體間的關(guān)聯(lián),以方法實(shí)體為例,將所有出現(xiàn)在同一篇論文中的方法實(shí)體進(jìn)行匹配,生成方法實(shí)體對{“方法實(shí)體1”,“方法實(shí)體2”}。不同類型知識實(shí)體間的關(guān)聯(lián)與此類似,即將出現(xiàn)在同一篇論文中不同類型的知識實(shí)體進(jìn)行匹配。考慮到NLP領(lǐng)域的相關(guān)研究大多以算法、模型等為中心,根據(jù)其特性選取合適的開源工具、數(shù)據(jù)集、評測指標(biāo)等,通過實(shí)驗(yàn)研究對算法或模型等的性能進(jìn)行評估,因此本研究只針對方法實(shí)體進(jìn)行不同類型知識實(shí)體間的關(guān)聯(lián)分析,即生成{“方法實(shí)體”,“工具實(shí)體”}、{“方法實(shí)體”,“資源實(shí)體”}和{“方法實(shí)體”,“指標(biāo)實(shí)體”}這3種知識實(shí)體對,使知識實(shí)體關(guān)聯(lián)分析的結(jié)果更貼合NLP領(lǐng)域研究方法的使用需求及特點(diǎn)。

第二步,計(jì)算所有知識實(shí)體對中兩個知識實(shí)體間的卡方值。卡方值是非參數(shù)檢驗(yàn)中的一個統(tǒng)計(jì)量,它的作用是檢驗(yàn)數(shù)據(jù)的相關(guān)性,可用于兩個分類變量的關(guān)聯(lián)性分析。卡方值比頻次更能反映兩個知識實(shí)體間的關(guān)聯(lián)性強(qiáng)弱,因此本文先基于頻次篩選出高頻的知識實(shí)體對,再以卡方值作為知識實(shí)體間關(guān)聯(lián)性強(qiáng)弱的度量指標(biāo)。

3 結(jié)果分析

本研究共標(biāo)注728篇CCL會議收錄的中文論文,每類知識實(shí)體所在論文數(shù)和知識實(shí)體總數(shù)的統(tǒng)計(jì)情況見表4。為便于用戶瀏覽和發(fā)現(xiàn)領(lǐng)域知識,借助科學(xué)知識圖譜軟件VOSviewer對前文獲取的關(guān)聯(lián)數(shù)據(jù)進(jìn)行可視化分析。

表4 知識實(shí)體標(biāo)注數(shù)據(jù)集統(tǒng)計(jì)信息

3.1 同類型知識實(shí)體的關(guān)聯(lián)分析

獲取同類型知識實(shí)體的關(guān)聯(lián)數(shù)據(jù)后,首先過濾掉所有頻次為1的知識實(shí)體對,然后構(gòu)建復(fù)雜網(wǎng)絡(luò),結(jié)果見圖3-6。復(fù)雜網(wǎng)絡(luò)圖中的每個節(jié)點(diǎn)對應(yīng)一個知識實(shí)體,節(jié)點(diǎn)的大小與該節(jié)點(diǎn)的“度”(即與該節(jié)點(diǎn)有邊相連的其他節(jié)點(diǎn)的數(shù)目)成正比;邊連接著出現(xiàn)在同一篇論文中的兩個知識實(shí)體,邊的權(quán)重為這兩個知識實(shí)體的卡方值。

圖3 方法實(shí)體關(guān)聯(lián)結(jié)果網(wǎng)絡(luò)

(1)方法實(shí)體間的關(guān)聯(lián)分析結(jié)果。如圖3 所示,在4類知識實(shí)體中,方法實(shí)體的總體數(shù)量最大,說明NLP領(lǐng)域注重對研究方法的使用。其中,與其他方法實(shí)體關(guān)聯(lián)最多的是統(tǒng)計(jì)語言模型N-gram,其次是用于評估模型的交叉驗(yàn)證法和傳統(tǒng)的基于規(guī)則的方法。機(jī)器學(xué)習(xí)算法也引起很多關(guān)注,SVM、CRF、最大熵模型、決策樹模型的使用次數(shù)比較高(對應(yīng)節(jié)點(diǎn)面積較大),而樸素貝葉斯、KMeans、LDA、KNN 等也較為常用。TF-IDF 和向量空間模型(VSM)通常一起用作文本表示方法。深度學(xué)習(xí)領(lǐng)域的相關(guān)方法實(shí)體,如LSTM、 BiLSTM、 CNN、RNN、Attention 等往往也是一起使用的。

(2)工具實(shí)體間的關(guān)聯(lián)分析結(jié)果。如圖4 所示,工具實(shí)體總量較少,說明在NLP 領(lǐng)域的相關(guān)學(xué)術(shù)論文中工具實(shí)體的出現(xiàn)較少。工具實(shí)體ICTCLAS 和Stanford CoreNLP 與其他工具實(shí)體的共現(xiàn)頻次最高,其次是機(jī)器翻譯領(lǐng)域的工具實(shí)體,如GIZA++、Moses 和SRILM,它們經(jīng)常是一起使用的;此外,詞向量計(jì)算工具Word2vec和分詞工具Jieba也常與其他工具一起使用。國內(nèi)研究者也經(jīng)常使用機(jī)器學(xué)習(xí)相關(guān)工具,如CRF++、LibSVM、MaxEnt工具包。

圖4 工具實(shí)體關(guān)聯(lián)結(jié)果網(wǎng)絡(luò)

圖5 資源實(shí)體關(guān)聯(lián)結(jié)果網(wǎng)絡(luò)

圖6 指標(biāo)實(shí)體關(guān)聯(lián)結(jié)果網(wǎng)絡(luò)

(3)資源實(shí)體間的關(guān)聯(lián)分析結(jié)果。如圖5 所示,HowNet、 Gigaword、 同義詞林和人民日報(bào)等都是使用頻次較高的資源實(shí)體;而且,搜狗實(shí)驗(yàn)室相關(guān)資源(包括搜狗新聞、搜狗詞典等)、微博、Wiki(維基百科)和百度搜索相關(guān)資源(包括百度百科、百度貼吧、百度新聞等)經(jīng)常和HowNet、同義詞林一起使用。研究者也經(jīng)常使用一些評測語料,如NIST 評測語料、Senseval/Semeval 評測語料、NLP&CC 評測語料和CoNLL評測語料。

(4)指標(biāo)實(shí)體間的關(guān)聯(lián)分析結(jié)果。圖6中面積最大的節(jié)點(diǎn)對應(yīng)指標(biāo)實(shí)體“F-measure”,即該節(jié)點(diǎn)的“度”數(shù)最大,表明“F-measure”最經(jīng)常與其他指標(biāo)實(shí)體一起使用;同時可看到,與“F-measure”聯(lián)系較為緊密的指標(biāo)實(shí)體有“Recall”“Precision”“Accuracy”等,這些都是NLP中使用頻率最高的評測指標(biāo),常用于分類任務(wù)的評測;此外,還有一些衍生出來的統(tǒng)計(jì)指標(biāo),如“F-measure”附近的“Macro-F1”“ROC 曲線”等。機(jī)器翻譯評價指標(biāo)(如“BLEU”)也較為常用,與之相關(guān)的有“NIST”“METEOR”“CIDEr”等。BLEU 是最早提出的機(jī)器翻譯評價指標(biāo),NIST(National Institute of standards and Technology)是在BLEU基礎(chǔ)上的一種改進(jìn),METEOR 測度的目的是解決BLEU標(biāo)準(zhǔn)中一些固有的缺陷,而CIDEr最早是針對圖片摘要問題提出的度量標(biāo)準(zhǔn)。此外,指標(biāo)實(shí)體“Coverage”是多標(biāo)簽學(xué)習(xí)系統(tǒng)的評價指標(biāo),與其相關(guān)的常用指標(biāo)有Hamming Loss、One Error、Ranking loss 和Average Precision等,這與圖6展示的結(jié)果是一致的。

3.2 不同類型知識實(shí)體的關(guān)聯(lián)分析

對不同類型知識實(shí)體的關(guān)聯(lián)結(jié)果,同樣以復(fù)雜網(wǎng)絡(luò)形式展示。由于不同類型知識實(shí)體對中包含的節(jié)點(diǎn)數(shù)量較多,為了更清晰地展示關(guān)聯(lián)結(jié)果,本文過濾所有共現(xiàn)頻次小于等于2的知識實(shí)體對,與“方法實(shí)體”相關(guān)的分析結(jié)果如圖7所示。圖7給出了方法實(shí)體和其他3種知識實(shí)體的關(guān)聯(lián)結(jié)果。從整體的分布來看,與其他知識實(shí)體關(guān)聯(lián)性較強(qiáng)的方法實(shí)體(紅色節(jié)點(diǎn))有N-gram、交叉驗(yàn)證、基于規(guī)則的方法、SVM、CRF、最大熵模型和TF-IDF等,這些都是該領(lǐng)域常用的經(jīng)典研究方法;同時,可以看到方法實(shí)體的分布比較集中,反映了NLP領(lǐng)域的研究往往涉及多種研究方法,如數(shù)據(jù)的采集和預(yù)處理以及具體的實(shí)驗(yàn)步驟都要使用不同的研究方法,其中實(shí)驗(yàn)步驟經(jīng)常對多種類似的算法或模型進(jìn)行性能比較。另外,與方法實(shí)體的關(guān)聯(lián)較為密切的工具實(shí)體(綠色節(jié)點(diǎn))有ICTCLAS、Stanford CoreNLP、Word2vec、LTP、CRF++等,這些都是該領(lǐng)域使用較為廣泛的開源工具。而資源實(shí)體(藍(lán)色節(jié)點(diǎn))的總體數(shù)量則相對較少,反映了該領(lǐng)域可使用的數(shù)據(jù)集、語料庫等資源相對較少;此外,可以看到資源實(shí)體在復(fù)雜網(wǎng)絡(luò)圖中的分布較為均勻,沒有明顯的聚集現(xiàn)象,因?yàn)樵擃I(lǐng)域的研究者針對特定的研究任務(wù)往往只會選取一個合適的數(shù)據(jù)集,一般很少針對不同的數(shù)據(jù)集進(jìn)行研究方法的評測和比較。圖7也表明,大多數(shù)方法實(shí)體最常搭配的指標(biāo)實(shí)體(黃色節(jié)點(diǎn))有F-measure、Recall、Precision等,而且這幾個指標(biāo)有明顯的聚集現(xiàn)象,說明它們經(jīng)常被同時用作模型性能評估的評測指標(biāo)。

同理可得到“工具實(shí)體-指標(biāo)實(shí)體”“工具實(shí)體-資源實(shí)體”“資源實(shí)體-指標(biāo)實(shí)體”的復(fù)雜網(wǎng)絡(luò)圖,限于篇幅,這里不再展示這部分內(nèi)容的具體結(jié)果。從上面的可視化結(jié)果分析中可以發(fā)現(xiàn):首先,NLP領(lǐng)域中,知識實(shí)體間的關(guān)聯(lián)分析結(jié)果基本符合該領(lǐng)域常見知識實(shí)體的使用規(guī)律,這說明針對知識實(shí)體的關(guān)聯(lián)分析可為建立各類型知識實(shí)體間的語義關(guān)系網(wǎng)絡(luò)提供一定依據(jù),有助于科研人員全面了解特定領(lǐng)域知識實(shí)體的具體使用及應(yīng)用情況;其次,后續(xù)可將各種NLP任務(wù)與知識實(shí)體的關(guān)聯(lián)分析結(jié)果結(jié)合起來,從而針對具體的應(yīng)用場景找到最合適的方法、工具及評價指標(biāo)等知識實(shí)體,服務(wù)于知識實(shí)體的評估與推薦。

4 結(jié)論與展望

本文以自然語言處理領(lǐng)域?yàn)槔趯W(xué)術(shù)全文本內(nèi)容,通過人工標(biāo)注“方法實(shí)體”“工具實(shí)體”“資源實(shí)體”“指標(biāo)實(shí)體”4類細(xì)粒度的知識實(shí)體,構(gòu)建了一個知識實(shí)體語料庫。在此基礎(chǔ)上對各類知識實(shí)體進(jìn)行頻次統(tǒng)計(jì),并結(jié)合Apriori算法和卡方值挖掘不同知識實(shí)體在使用上的相關(guān)性。知識實(shí)體間的關(guān)聯(lián)分析,不但可以讓研究人員更全面地了解特定領(lǐng)域方法實(shí)體的實(shí)際使用情況,并且有利于知識實(shí)體的科學(xué)評估。

本研究存在的不足有:一是采取人工標(biāo)注的方式抽取學(xué)術(shù)文本中的細(xì)粒度知識實(shí)體,標(biāo)注難度大,費(fèi)時費(fèi)力,且標(biāo)注質(zhì)量依賴于標(biāo)注者的判斷,語義標(biāo)注的內(nèi)容和規(guī)模也相對有限;二是只選取CCL會議收錄的中文論文作為標(biāo)注樣本,樣本量相對較小。未來將考慮從以下幾個方面進(jìn)行改進(jìn):(1)擴(kuò)大學(xué)術(shù)全文語料庫的規(guī)模,并以自然語言處理領(lǐng)域的英文論文為原始語料,用傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法實(shí)現(xiàn)對知識實(shí)體的自動抽

取;(2)增加學(xué)術(shù)文獻(xiàn)的主題、任務(wù)等知識實(shí)體類型,從而進(jìn)行更多維度的分析;(3)加入時間維度,構(gòu)建知識實(shí)體的動態(tài)關(guān)聯(lián)網(wǎng)絡(luò),用于揭示知識實(shí)體的演化情況;(4)根據(jù)細(xì)粒度知識實(shí)體間的關(guān)聯(lián)分析,進(jìn)行知識實(shí)體推薦的相關(guān)應(yīng)用研究。

猜你喜歡
關(guān)聯(lián)分析方法
“苦”的關(guān)聯(lián)
隱蔽失效適航要求符合性驗(yàn)證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
電力系統(tǒng)及其自動化發(fā)展趨勢分析
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
語言學(xué)與修辭學(xué):關(guān)聯(lián)與互動
主站蜘蛛池模板: 9啪在线视频| 亚州AV秘 一区二区三区| 国产成人久久综合777777麻豆| 亚洲视频免费播放| 久久免费视频6| 免费观看男人免费桶女人视频| 国产在线日本| 亚卅精品无码久久毛片乌克兰| 国产精品30p| 多人乱p欧美在线观看| 4虎影视国产在线观看精品| 亚洲最猛黑人xxxx黑人猛交| 亚洲av日韩综合一区尤物| 亚洲成a∧人片在线观看无码| 色综合久久久久8天国| 色成人亚洲| 国产福利小视频高清在线观看| 污视频日本| 国产在线精品网址你懂的| 欧美在线中文字幕| 中国一级毛片免费观看| 日本午夜精品一本在线观看| 国产亚洲精品yxsp| 亚洲综合久久成人AV| 综合色区亚洲熟妇在线| 国产一二视频| 国产精品永久在线| 91破解版在线亚洲| 亚洲日韩第九十九页| 91口爆吞精国产对白第三集| 免费看久久精品99| 久久国产精品麻豆系列| 国产剧情一区二区| 91在线精品免费免费播放| 国产女人在线视频| 99免费视频观看| 精品成人一区二区三区电影| 动漫精品中文字幕无码| 成人午夜网址| 毛片免费视频| 中文字幕欧美日韩| 亚洲无卡视频| 亚洲v日韩v欧美在线观看| 久久免费看片| 亚洲有无码中文网| 国产不卡国语在线| 亚洲精品无码AV电影在线播放| 久久久久亚洲AV成人人电影软件| 内射人妻无码色AV天堂| 国产在线一区二区视频| 亚洲日韩国产精品综合在线观看 | 国产精品女主播| 久久国语对白| 一级毛片免费播放视频| 欧美视频在线播放观看免费福利资源| 91福利一区二区三区| 亚洲精品视频免费观看| 国产精品亚洲一区二区三区在线观看| 国产精品亚洲片在线va| 亚洲大学生视频在线播放| 国产麻豆永久视频| 国产乱论视频| 国产黑丝视频在线观看| 亚洲男人的天堂在线观看| 老熟妇喷水一区二区三区| 国产成人欧美| 欧美性爱精品一区二区三区| 国产自视频| 久久婷婷综合色一区二区| 日本午夜三级| 日韩一区二区在线电影| 日韩无码视频网站| 伊人色天堂| 国产午夜一级毛片| 精品伊人久久久大香线蕉欧美| 亚洲熟妇AV日韩熟妇在线| 久久综合激情网| 欧美日韩国产高清一区二区三区| 四虎国产在线观看| 日韩视频免费| 91麻豆国产精品91久久久| 色呦呦手机在线精品|