學(xué)術(shù)文本中細(xì)粒度知識實(shí)體的關(guān)聯(lián)分析*

2021-03-19 10:59:30章成志謝雨欣宋云天

圖書館論壇 2021年3期

章成志，謝雨欣，宋云天

0 引言

學(xué)術(shù)文獻(xiàn)作為科研成果和科學(xué)知識的載體，是科研工作者接觸最頻繁的資源之一。大數(shù)據(jù)時代學(xué)術(shù)文獻(xiàn)數(shù)量的快速增長加重了科研工作者的負(fù)擔(dān)，他們必須閱讀大量文獻(xiàn)以獲取其中的知識。因此，向用戶提供精細(xì)化的、面向知識層面的信息服務(wù)具有重要意義。知識由許多相互關(guān)聯(lián)的知識單元組成，這些知識單元被封裝為學(xué)術(shù)文獻(xiàn)中的知識實(shí)體[1]。目前針對知識實(shí)體抽取及評估的研究已擴(kuò)展到領(lǐng)域知識實(shí)體層面，如生物醫(yī)學(xué)領(lǐng)域的基因、藥物和疾病[2]，計(jì)算機(jī)科學(xué)領(lǐng)域的任務(wù)、數(shù)據(jù)集、評測指標(biāo)[3]。然而，當(dāng)前研究側(cè)重于單一知識實(shí)體的評估[4]，對知識實(shí)體間的語義關(guān)系挖掘較少[5-6]。針對特定領(lǐng)域知識實(shí)體間的關(guān)聯(lián)分析研究，從宏觀層面可全面描繪特定領(lǐng)域知識的使用和轉(zhuǎn)移情況，進(jìn)而輔助科研工作者的文獻(xiàn)分析和知識獲取工作；從微觀層面可用以了解知識實(shí)體的應(yīng)用場景，如圍繞某個算法或模型獲取具體解決的任務(wù)、使用的數(shù)據(jù)集規(guī)模及相關(guān)評測指標(biāo)等，從而提升知識實(shí)體的評估效果。

本研究以自然語言處理(NLP)為例，開展領(lǐng)域知識實(shí)體的關(guān)聯(lián)分析。NLP 是一個以方法和數(shù)據(jù)為核心的研究領(lǐng)域，大多數(shù)學(xué)者的研究需要算法、模型及相關(guān)工具的支持。基于此，本文針對NLP特點(diǎn)將相關(guān)知識實(shí)體細(xì)分為“方法實(shí)體”“工具實(shí)體”“資源實(shí)體”“指標(biāo)實(shí)體”4種類型，提取全國計(jì)算語言學(xué)會議(即中國計(jì)算語言學(xué)大會，China National Conference on Computational Linguistics，CCL)2009-2018年間收錄的中文論文，通過人工標(biāo)注的方式構(gòu)建知識實(shí)體語料庫，并以此為基礎(chǔ)進(jìn)行知識實(shí)體的關(guān)聯(lián)分析研究；所得結(jié)果可輔助相關(guān)領(lǐng)域的科研人員，尤其是初學(xué)者進(jìn)行知識實(shí)體的評估與選擇。本研究的創(chuàng)新點(diǎn)有：(1)利用學(xué)術(shù)論文全文對特定領(lǐng)域的知識實(shí)體進(jìn)行關(guān)聯(lián)分析，可為傳統(tǒng)基于論文題錄數(shù)據(jù)的知識實(shí)體語義分析作補(bǔ)充，并為考察知識實(shí)體間的關(guān)系提供一定依據(jù)；(2)構(gòu)建了中文NLP領(lǐng)域的知識實(shí)體標(biāo)注數(shù)據(jù)集，為今后實(shí)現(xiàn)大規(guī)模的知識實(shí)體自動抽取提供訓(xùn)練語料。

1 相關(guān)研究概述

隨著情報(bào)大數(shù)據(jù)智能分析服務(wù)的不斷精細(xì)化，學(xué)術(shù)文獻(xiàn)分析的對象逐步從論文元數(shù)據(jù)(題錄信息)、主題、術(shù)語和關(guān)鍵詞等，擴(kuò)展到面向自然語言描述文本的知識實(shí)體及其相關(guān)工作，包括知識實(shí)體抽取和知識實(shí)體關(guān)聯(lián)分析。

1.1 知識實(shí)體抽取

現(xiàn)有的知識實(shí)體抽取方法可概括為4類：人工標(biāo)注[7-9]、基于規(guī)則的方法[10-12]、基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法[13-17]和基于深度學(xué)習(xí)的方法[18-20]。從研究的知識實(shí)體類型來說，用戶往往比較關(guān)注與特定領(lǐng)域的需求及研究特點(diǎn)密切相關(guān)的知識實(shí)體。以NLP為例，該領(lǐng)域的研究人員需要了解針對特定任務(wù)的評估基準(zhǔn)，以進(jìn)行方法的改進(jìn)或創(chuàng)新，因此文本中涉及的方法類實(shí)體是論文的重要信息，如算法、模型、數(shù)據(jù)集及評測指標(biāo)。比如，Zadeh等[8]對300篇ACL論文摘要進(jìn)行手動注釋，把所標(biāo)注的術(shù)語分為7 個語義類別：method、tool、language resource、language resource product、model、measures、other。Hou等[3]以經(jīng)典的CNN+BiLSTM+CRF框架為基礎(chǔ)，識別計(jì)算機(jī)科學(xué)領(lǐng)域?qū)W術(shù)文獻(xiàn)全文中的方法、數(shù)據(jù)集和指標(biāo)實(shí)體。余麗等[5]建立深度學(xué)習(xí)模型，從ACL 論文摘要中識別出“研究范疇”“研究方法”“實(shí)驗(yàn)數(shù)據(jù)”“評價指標(biāo)及取值”4類細(xì)粒度的知識實(shí)體。

1.2 知識實(shí)體關(guān)聯(lián)分析

關(guān)聯(lián)分析又稱關(guān)聯(lián)規(guī)則挖掘，用于從數(shù)據(jù)集中挖掘出對象之間潛在的關(guān)聯(lián)性或相關(guān)性。對學(xué)術(shù)文獻(xiàn)中的知識實(shí)體進(jìn)行關(guān)聯(lián)分析，有助于揭示學(xué)術(shù)文獻(xiàn)中蘊(yùn)含的豐富的知識模式，對于學(xué)術(shù)文獻(xiàn)的結(jié)構(gòu)化表示以及知識實(shí)體的評估和推薦都具有一定的意義。Yao等[6]提出一種新穎的實(shí)體識別框架MDER，它結(jié)合規(guī)則嵌入技術(shù)和CNNBiLSTM-Attention-CRF 結(jié)構(gòu)，用于學(xué)術(shù)文獻(xiàn)中方法和數(shù)據(jù)集實(shí)體的挖掘，并構(gòu)造復(fù)雜網(wǎng)絡(luò)圖對方法實(shí)體的關(guān)聯(lián)數(shù)據(jù)集進(jìn)行可視化分析。Zha等[21]提出一種結(jié)合注意力機(jī)制的跨語句關(guān)系抽取模型CANTOR，從學(xué)術(shù)文獻(xiàn)中抽取算法實(shí)體及算法實(shí)體之間的關(guān)系，從而構(gòu)建算法演化路線圖。另外，機(jī)器之心平臺的SOTA(State-Of-The-Art，https：//www.jiqizhixin.com/sota)項(xiàng)目也是近幾年較為有代表性的工作之一。該項(xiàng)目基于人工標(biāo)注，從大量機(jī)器學(xué)習(xí)研究論文中獲取某個任務(wù)當(dāng)前最優(yōu)效果的模型，用戶可以根據(jù)自己的需要尋找機(jī)器學(xué)習(xí)對應(yīng)領(lǐng)域和任務(wù)下的SOTA論文，平臺會提供論文、模型、數(shù)據(jù)集和Benchmark的相關(guān)信息。

綜合國內(nèi)外相關(guān)研究，本文有兩點(diǎn)認(rèn)識：首先，近年來知識實(shí)體抽取研究多以機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法為基礎(chǔ)，而人工標(biāo)注方法往往耗時耗力，但因其質(zhì)量可靠，常用于構(gòu)建實(shí)體自動抽取系統(tǒng)的模型訓(xùn)練及性能評估語料。其次，學(xué)者們往往關(guān)注實(shí)體抽取方法的改進(jìn)或者單一知識實(shí)體的評估[22-25]，對知識實(shí)體間的關(guān)系分析較少。因此，本研究嘗試結(jié)合NLP領(lǐng)域的研究特點(diǎn)，人工標(biāo)注學(xué)術(shù)文本中的“方法實(shí)體”“工具實(shí)體”“資源實(shí)體”“指標(biāo)實(shí)體”4類細(xì)粒度的知識實(shí)體，并在此基礎(chǔ)上挖掘知識實(shí)體的關(guān)聯(lián)關(guān)系。

2 研究方法

2.1 基本思路

本次知識實(shí)體關(guān)聯(lián)分析的研究框架如圖1所示。關(guān)聯(lián)結(jié)果的可視化展示可幫助用戶更好地獲取領(lǐng)域知識，如可輔助相關(guān)研究人員了解NLP領(lǐng)域常見的研究方法在本領(lǐng)域的實(shí)際應(yīng)用場景，從而根據(jù)特定的研究任務(wù)選擇合適的算法或者模型，同時可為選擇相關(guān)開源工具、數(shù)據(jù)集以及評測指標(biāo)等提供參考。

本研究以自然語言處理(NLP)領(lǐng)域?yàn)槔x擇NLP領(lǐng)域?qū)W術(shù)論文全文作為原始語料，人工標(biāo)注論文中使用的知識實(shí)體及知識實(shí)體所在的句子。標(biāo)注工作結(jié)束后，對各種知識實(shí)體進(jìn)行名稱標(biāo)準(zhǔn)化處理，即對描述名稱不同但具體含義相同的知識實(shí)體進(jìn)行人工校對和合并。在此基礎(chǔ)上分別基于頻次分析和關(guān)聯(lián)分析考察知識實(shí)體的使用情況。本文主要依據(jù)圖2所示的流程圖展開研究。

圖1 知識實(shí)體關(guān)聯(lián)分析框架圖

圖2 研究流程圖

2.2 數(shù)據(jù)集及預(yù)處理

(1)原始語料概述。本研究原始全文語料來自全國計(jì)算語言學(xué)會議(CCL)。CCL著重致力于中國境內(nèi)各類語言的計(jì)算處理，是國內(nèi)自然語言處理領(lǐng)域權(quán)威性最高、規(guī)模最大的學(xué)術(shù)會議，而且公開歷屆會議論文全文數(shù)據(jù)集[26]。選擇CCL 會議2009-2018 年間收錄的中文論文(共728篇)作為原始標(biāo)注語料，并從中國中文信息學(xué)會計(jì)算語言學(xué)專業(yè)委員會官方網(wǎng)站(http：//www.cips-cl.org/anthology)獲取論文題錄信息及全文信息。標(biāo)注論文數(shù)的年代分布如表1所示。

表1 標(biāo)注論文數(shù)的年份分布 (單位：篇)

(2)知識實(shí)體標(biāo)注。綜合考慮領(lǐng)域需求和以往針對NLP領(lǐng)域的知識實(shí)體分類[15]，將NLP領(lǐng)域的知識實(shí)體細(xì)分為“方法實(shí)體”“工具實(shí)體”“資源實(shí)體”“指標(biāo)實(shí)體”4種類型，具體的分類標(biāo)準(zhǔn)見表2。本研究在標(biāo)注過程中先標(biāo)注包含知識實(shí)體的完整句子(以下簡稱“知識實(shí)體句”)，再標(biāo)注知識實(shí)體句中的知識實(shí)體。表3為知識實(shí)體句的標(biāo)注示例。

表2 NLP領(lǐng)域4種類型知識實(shí)體及其分類標(biāo)準(zhǔn)

表3 NLP領(lǐng)域4種類型知識實(shí)體的語義標(biāo)注示例

標(biāo)注規(guī)范制定后，由一位標(biāo)注人員單獨(dú)對728 篇論文進(jìn)行標(biāo)注。對于不確定的地方，標(biāo)注人員會及時與研究組的情報(bào)學(xué)教授商討，以提高標(biāo)注的準(zhǔn)確性。全部標(biāo)注工作完成后，再從原始全文語料庫中隨機(jī)抽取50篇論文，由另一位標(biāo)注人員依據(jù)最新的標(biāo)注規(guī)范進(jìn)行單獨(dú)標(biāo)注。本研究使用kappa 系數(shù)對標(biāo)注結(jié)果進(jìn)行一致性檢驗(yàn)，經(jīng)計(jì)算，方法實(shí)體、工具實(shí)體、資源實(shí)體和指標(biāo)實(shí)體的一致性檢驗(yàn)結(jié)果分別為0.75、0.82、0.84、0.78，說明標(biāo)注結(jié)果一致性較好[27]。

(3)知識實(shí)體名稱標(biāo)準(zhǔn)化。考慮到學(xué)術(shù)文本中知識實(shí)體命名形式的多樣性，對部分知識實(shí)體的名稱進(jìn)行標(biāo)準(zhǔn)化處理。例如，對于方法實(shí)體“SVM”，本文將“SVM”“SVMs”“支持向量機(jī)”等實(shí)行標(biāo)準(zhǔn)化規(guī)范，統(tǒng)一表述為“SVM(Support Vector Machine)”。

2.3 細(xì)粒度知識實(shí)體的關(guān)聯(lián)分析方法

為考察4類知識實(shí)體在學(xué)術(shù)論文中的使用情況，首先基于頻次統(tǒng)計(jì)找出高頻的知識實(shí)體，接著結(jié)合關(guān)聯(lián)規(guī)則挖掘算法Apriori[28]和卡方值(Chi-Square)[29]探究知識實(shí)體的使用相關(guān)性。

(1)頻次分析。以論文為單位統(tǒng)計(jì)知識實(shí)體頻次，即某種知識實(shí)體無論在一篇論文中出現(xiàn)多少次，只記為1次。因此，每個知識實(shí)體的頻次在數(shù)量上就等于使用該知識實(shí)體的論文數(shù)，知識實(shí)體頻次越高，表明該知識實(shí)體被越多學(xué)者所使用。基于頻次統(tǒng)計(jì)可找出該領(lǐng)域中使用范圍較廣、影響力較大的高頻知識實(shí)體。

(2)關(guān)聯(lián)分析。基于頻次分析的結(jié)果，進(jìn)一步結(jié)合關(guān)聯(lián)規(guī)則挖掘算法Apriori 和卡方值(Chi-Square)進(jìn)行知識實(shí)體的關(guān)聯(lián)分析，包括同類型知識實(shí)體間和不同類型知識實(shí)體間的關(guān)聯(lián)分析兩種情況。具體步驟包括：

第一步，基于Apriori算法生成知識實(shí)體對。對同類型知識實(shí)體間的關(guān)聯(lián)，以方法實(shí)體為例，將所有出現(xiàn)在同一篇論文中的方法實(shí)體進(jìn)行匹配，生成方法實(shí)體對{“方法實(shí)體1”，“方法實(shí)體2”}。不同類型知識實(shí)體間的關(guān)聯(lián)與此類似，即將出現(xiàn)在同一篇論文中不同類型的知識實(shí)體進(jìn)行匹配。考慮到NLP領(lǐng)域的相關(guān)研究大多以算法、模型等為中心，根據(jù)其特性選取合適的開源工具、數(shù)據(jù)集、評測指標(biāo)等，通過實(shí)驗(yàn)研究對算法或模型等的性能進(jìn)行評估，因此本研究只針對方法實(shí)體進(jìn)行不同類型知識實(shí)體間的關(guān)聯(lián)分析，即生成{“方法實(shí)體”，“工具實(shí)體”}、{“方法實(shí)體”，“資源實(shí)體”}和{“方法實(shí)體”，“指標(biāo)實(shí)體”}這3種知識實(shí)體對，使知識實(shí)體關(guān)聯(lián)分析的結(jié)果更貼合NLP領(lǐng)域研究方法的使用需求及特點(diǎn)。

第二步，計(jì)算所有知識實(shí)體對中兩個知識實(shí)體間的卡方值。卡方值是非參數(shù)檢驗(yàn)中的一個統(tǒng)計(jì)量，它的作用是檢驗(yàn)數(shù)據(jù)的相關(guān)性，可用于兩個分類變量的關(guān)聯(lián)性分析。卡方值比頻次更能反映兩個知識實(shí)體間的關(guān)聯(lián)性強(qiáng)弱，因此本文先基于頻次篩選出高頻的知識實(shí)體對，再以卡方值作為知識實(shí)體間關(guān)聯(lián)性強(qiáng)弱的度量指標(biāo)。

3 結(jié)果分析

本研究共標(biāo)注728篇CCL會議收錄的中文論文，每類知識實(shí)體所在論文數(shù)和知識實(shí)體總數(shù)的統(tǒng)計(jì)情況見表4。為便于用戶瀏覽和發(fā)現(xiàn)領(lǐng)域知識，借助科學(xué)知識圖譜軟件VOSviewer對前文獲取的關(guān)聯(lián)數(shù)據(jù)進(jìn)行可視化分析。

表4 知識實(shí)體標(biāo)注數(shù)據(jù)集統(tǒng)計(jì)信息

3.1 同類型知識實(shí)體的關(guān)聯(lián)分析

獲取同類型知識實(shí)體的關(guān)聯(lián)數(shù)據(jù)后，首先過濾掉所有頻次為1的知識實(shí)體對，然后構(gòu)建復(fù)雜網(wǎng)絡(luò)，結(jié)果見圖3-6。復(fù)雜網(wǎng)絡(luò)圖中的每個節(jié)點(diǎn)對應(yīng)一個知識實(shí)體，節(jié)點(diǎn)的大小與該節(jié)點(diǎn)的“度”(即與該節(jié)點(diǎn)有邊相連的其他節(jié)點(diǎn)的數(shù)目)成正比；邊連接著出現(xiàn)在同一篇論文中的兩個知識實(shí)體，邊的權(quán)重為這兩個知識實(shí)體的卡方值。

圖3 方法實(shí)體關(guān)聯(lián)結(jié)果網(wǎng)絡(luò)

(1)方法實(shí)體間的關(guān)聯(lián)分析結(jié)果。如圖3 所示，在4類知識實(shí)體中，方法實(shí)體的總體數(shù)量最大，說明NLP領(lǐng)域注重對研究方法的使用。其中，與其他方法實(shí)體關(guān)聯(lián)最多的是統(tǒng)計(jì)語言模型N-gram，其次是用于評估模型的交叉驗(yàn)證法和傳統(tǒng)的基于規(guī)則的方法。機(jī)器學(xué)習(xí)算法也引起很多關(guān)注，SVM、CRF、最大熵模型、決策樹模型的使用次數(shù)比較高(對應(yīng)節(jié)點(diǎn)面積較大)，而樸素貝葉斯、KMeans、LDA、KNN 等也較為常用。TF-IDF 和向量空間模型(VSM)通常一起用作文本表示方法。深度學(xué)習(xí)領(lǐng)域的相關(guān)方法實(shí)體，如LSTM、 BiLSTM、 CNN、RNN、Attention 等往往也是一起使用的。

(2)工具實(shí)體間的關(guān)聯(lián)分析結(jié)果。如圖4 所示，工具實(shí)體總量較少，說明在NLP 領(lǐng)域的相關(guān)學(xué)術(shù)論文中工具實(shí)體的出現(xiàn)較少。工具實(shí)體ICTCLAS 和Stanford CoreNLP 與其他工具實(shí)體的共現(xiàn)頻次最高，其次是機(jī)器翻譯領(lǐng)域的工具實(shí)體，如GIZA++、Moses 和SRILM，它們經(jīng)常是一起使用的；此外，詞向量計(jì)算工具Word2vec和分詞工具Jieba也常與其他工具一起使用。國內(nèi)研究者也經(jīng)常使用機(jī)器學(xué)習(xí)相關(guān)工具，如CRF++、LibSVM、MaxEnt工具包。

圖4 工具實(shí)體關(guān)聯(lián)結(jié)果網(wǎng)絡(luò)

圖5 資源實(shí)體關(guān)聯(lián)結(jié)果網(wǎng)絡(luò)

圖6 指標(biāo)實(shí)體關(guān)聯(lián)結(jié)果網(wǎng)絡(luò)

(3)資源實(shí)體間的關(guān)聯(lián)分析結(jié)果。如圖5 所示，HowNet、 Gigaword、同義詞林和人民日報(bào)等都是使用頻次較高的資源實(shí)體；而且，搜狗實(shí)驗(yàn)室相關(guān)資源(包括搜狗新聞、搜狗詞典等)、微博、Wiki(維基百科)和百度搜索相關(guān)資源(包括百度百科、百度貼吧、百度新聞等)經(jīng)常和HowNet、同義詞林一起使用。研究者也經(jīng)常使用一些評測語料，如NIST 評測語料、Senseval/Semeval 評測語料、NLP&CC 評測語料和CoNLL評測語料。

(4)指標(biāo)實(shí)體間的關(guān)聯(lián)分析結(jié)果。圖6中面積最大的節(jié)點(diǎn)對應(yīng)指標(biāo)實(shí)體“F-measure”，即該節(jié)點(diǎn)的“度”數(shù)最大，表明“F-measure”最經(jīng)常與其他指標(biāo)實(shí)體一起使用；同時可看到，與“F-measure”聯(lián)系較為緊密的指標(biāo)實(shí)體有“Recall”“Precision”“Accuracy”等，這些都是NLP中使用頻率最高的評測指標(biāo)，常用于分類任務(wù)的評測；此外，還有一些衍生出來的統(tǒng)計(jì)指標(biāo)，如“F-measure”附近的“Macro-F1”“ROC 曲線”等。機(jī)器翻譯評價指標(biāo)(如“BLEU”)也較為常用，與之相關(guān)的有“NIST”“METEOR”“CIDEr”等。BLEU 是最早提出的機(jī)器翻譯評價指標(biāo)，NIST(National Institute of standards and Technology)是在BLEU基礎(chǔ)上的一種改進(jìn)，METEOR 測度的目的是解決BLEU標(biāo)準(zhǔn)中一些固有的缺陷，而CIDEr最早是針對圖片摘要問題提出的度量標(biāo)準(zhǔn)。此外，指標(biāo)實(shí)體“Coverage”是多標(biāo)簽學(xué)習(xí)系統(tǒng)的評價指標(biāo)，與其相關(guān)的常用指標(biāo)有Hamming Loss、One Error、Ranking loss 和Average Precision等，這與圖6展示的結(jié)果是一致的。

3.2 不同類型知識實(shí)體的關(guān)聯(lián)分析

對不同類型知識實(shí)體的關(guān)聯(lián)結(jié)果，同樣以復(fù)雜網(wǎng)絡(luò)形式展示。由于不同類型知識實(shí)體對中包含的節(jié)點(diǎn)數(shù)量較多，為了更清晰地展示關(guān)聯(lián)結(jié)果，本文過濾所有共現(xiàn)頻次小于等于2的知識實(shí)體對，與“方法實(shí)體”相關(guān)的分析結(jié)果如圖7所示。圖7給出了方法實(shí)體和其他3種知識實(shí)體的關(guān)聯(lián)結(jié)果。從整體的分布來看，與其他知識實(shí)體關(guān)聯(lián)性較強(qiáng)的方法實(shí)體(紅色節(jié)點(diǎn))有N-gram、交叉驗(yàn)證、基于規(guī)則的方法、SVM、CRF、最大熵模型和TF-IDF等，這些都是該領(lǐng)域常用的經(jīng)典研究方法；同時，可以看到方法實(shí)體的分布比較集中，反映了NLP領(lǐng)域的研究往往涉及多種研究方法，如數(shù)據(jù)的采集和預(yù)處理以及具體的實(shí)驗(yàn)步驟都要使用不同的研究方法，其中實(shí)驗(yàn)步驟經(jīng)常對多種類似的算法或模型進(jìn)行性能比較。另外，與方法實(shí)體的關(guān)聯(lián)較為密切的工具實(shí)體(綠色節(jié)點(diǎn))有ICTCLAS、Stanford CoreNLP、Word2vec、LTP、CRF++等，這些都是該領(lǐng)域使用較為廣泛的開源工具。而資源實(shí)體(藍(lán)色節(jié)點(diǎn))的總體數(shù)量則相對較少，反映了該領(lǐng)域可使用的數(shù)據(jù)集、語料庫等資源相對較少；此外，可以看到資源實(shí)體在復(fù)雜網(wǎng)絡(luò)圖中的分布較為均勻，沒有明顯的聚集現(xiàn)象，因?yàn)樵擃I(lǐng)域的研究者針對特定的研究任務(wù)往往只會選取一個合適的數(shù)據(jù)集，一般很少針對不同的數(shù)據(jù)集進(jìn)行研究方法的評測和比較。圖7也表明，大多數(shù)方法實(shí)體最常搭配的指標(biāo)實(shí)體(黃色節(jié)點(diǎn))有F-measure、Recall、Precision等，而且這幾個指標(biāo)有明顯的聚集現(xiàn)象，說明它們經(jīng)常被同時用作模型性能評估的評測指標(biāo)。

同理可得到“工具實(shí)體-指標(biāo)實(shí)體”“工具實(shí)體-資源實(shí)體”“資源實(shí)體-指標(biāo)實(shí)體”的復(fù)雜網(wǎng)絡(luò)圖，限于篇幅，這里不再展示這部分內(nèi)容的具體結(jié)果。從上面的可視化結(jié)果分析中可以發(fā)現(xiàn)：首先，NLP領(lǐng)域中，知識實(shí)體間的關(guān)聯(lián)分析結(jié)果基本符合該領(lǐng)域常見知識實(shí)體的使用規(guī)律，這說明針對知識實(shí)體的關(guān)聯(lián)分析可為建立各類型知識實(shí)體間的語義關(guān)系網(wǎng)絡(luò)提供一定依據(jù)，有助于科研人員全面了解特定領(lǐng)域知識實(shí)體的具體使用及應(yīng)用情況；其次，后續(xù)可將各種NLP任務(wù)與知識實(shí)體的關(guān)聯(lián)分析結(jié)果結(jié)合起來，從而針對具體的應(yīng)用場景找到最合適的方法、工具及評價指標(biāo)等知識實(shí)體，服務(wù)于知識實(shí)體的評估與推薦。

4 結(jié)論與展望

本文以自然語言處理領(lǐng)域?yàn)槔趯W(xué)術(shù)全文本內(nèi)容，通過人工標(biāo)注“方法實(shí)體”“工具實(shí)體”“資源實(shí)體”“指標(biāo)實(shí)體”4類細(xì)粒度的知識實(shí)體，構(gòu)建了一個知識實(shí)體語料庫。在此基礎(chǔ)上對各類知識實(shí)體進(jìn)行頻次統(tǒng)計(jì)，并結(jié)合Apriori算法和卡方值挖掘不同知識實(shí)體在使用上的相關(guān)性。知識實(shí)體間的關(guān)聯(lián)分析，不但可以讓研究人員更全面地了解特定領(lǐng)域方法實(shí)體的實(shí)際使用情況，并且有利于知識實(shí)體的科學(xué)評估。

本研究存在的不足有：一是采取人工標(biāo)注的方式抽取學(xué)術(shù)文本中的細(xì)粒度知識實(shí)體，標(biāo)注難度大，費(fèi)時費(fèi)力，且標(biāo)注質(zhì)量依賴于標(biāo)注者的判斷，語義標(biāo)注的內(nèi)容和規(guī)模也相對有限；二是只選取CCL會議收錄的中文論文作為標(biāo)注樣本，樣本量相對較小。未來將考慮從以下幾個方面進(jìn)行改進(jìn)：(1)擴(kuò)大學(xué)術(shù)全文語料庫的規(guī)模，并以自然語言處理領(lǐng)域的英文論文為原始語料，用傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法實(shí)現(xiàn)對知識實(shí)體的自動抽

取；(2)增加學(xué)術(shù)文獻(xiàn)的主題、任務(wù)等知識實(shí)體類型，從而進(jìn)行更多維度的分析；(3)加入時間維度，構(gòu)建知識實(shí)體的動態(tài)關(guān)聯(lián)網(wǎng)絡(luò)，用于揭示知識實(shí)體的演化情況；(4)根據(jù)細(xì)粒度知識實(shí)體間的關(guān)聯(lián)分析，進(jìn)行知識實(shí)體推薦的相關(guān)應(yīng)用研究。