摘 要:[目的/意義]目前的共詞網(wǎng)絡(luò)僅能捕獲知識實體在同一文獻(xiàn)中的關(guān)聯(lián),難以建模跨文獻(xiàn)的知識實體關(guān)聯(lián),并且缺乏語義信息。此外,現(xiàn)有的跨文獻(xiàn)知識實體網(wǎng)絡(luò)在建模知識實體的跨文獻(xiàn)關(guān)聯(lián)等方面仍存在不足。因此,有必要探索更加完善的跨文獻(xiàn)知識實體共現(xiàn)網(wǎng)絡(luò)構(gòu)建方法。[方法/過程]本文結(jié)合引文內(nèi)容分析的研究成果,提出一種基于施引文本—被引片段對的跨文獻(xiàn)知識實體共現(xiàn)網(wǎng)絡(luò)的構(gòu)建方法,并通過微觀引文重要性來區(qū)分知識實體的同文獻(xiàn)關(guān)聯(lián)和跨文獻(xiàn)關(guān)聯(lián)。隨后,本文將構(gòu)建的跨文獻(xiàn)知識實體共現(xiàn)網(wǎng)絡(luò)與傳統(tǒng)共詞網(wǎng)絡(luò)、基于施引文本的知識實體共現(xiàn)網(wǎng)絡(luò)進(jìn)行了比較分析。[結(jié)果/結(jié)論]自然語言處理領(lǐng)域的實證研究表明,本文構(gòu)建的網(wǎng)絡(luò)規(guī)模更大,知識實體間關(guān)聯(lián)更為豐富,且具有一定的稀疏性和“小世界”特性。在知識實體重要性評估中,基于該類網(wǎng)絡(luò)的加權(quán)度中心性方法蘊含著更豐富的信息,與頻次方法具有較高的相關(guān)性,且表現(xiàn)出更強的區(qū)分能力。通過該網(wǎng)絡(luò)挖掘的研究主題更為集中凝練。本文綜合運用了知識網(wǎng)絡(luò)、實體計量和引文內(nèi)容分析等領(lǐng)域的方法,不僅有效推動了這些領(lǐng)域的邊界延展與交叉融合,還為相關(guān)研究提供了新的方法論支撐。此外,本文對推動科學(xué)文獻(xiàn)的知識發(fā)現(xiàn)與利用、提升研究人員的認(rèn)知效率具有重要意義。
關(guān)鍵詞:知識實體;實體計量;知識網(wǎng)絡(luò);引文內(nèi)容分析;共詞網(wǎng)絡(luò)
DOI:10.3969/j.issn.1008-0821.2025.09.004
〔中圖分類號〕G254 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2025)09-0032-14
Construction and Analysis of Cross-Document Knowledge Entity
Co-occurrence Networks Based on Citation Content
Nie Weimin Ou Shiyan*
(School of Information Management,Nanjing University,Nanjing 210023,China)
Abstract:[Purpose/Significance]Existing co-word networks are confined to capturing associations of knowledge entities within individual documents and struggle to model cross-document associations of knowledge entities.Furthermore,they lack semantic information.Current cross-document knowledge entity networks also exhibit certain shortcomings in modeling cross-document associations of knowledge entities.Therefore,it is necessary to explore more refined construction methods for cross-document knowledge entity co-occurrence networks.[Method/Process]The study integrated research from citation content analysis to propose a novel method for constructing cross-document knowledge entity co-occurrence networks based on citing text-cited span pairs.And the method distinguished between intra-document and cross-document associations of knowledge entities by introducing micro citation importance.Subsequently,the study conducted a comparative analysis of the constructed cross-document knowledge entity co-occurrence networks,traditional co-word networks and knowledge entity co-occurrence networks based on citing text.[Result/Conclusion]Empirical research in natural language processing indicates that the proposed networks exhibit a larger scale,enrich associations among knowledge entities,and demonstrate characteristics of sparsity and“small-world”to a certain extent.In terms of knowledge entity importance evaluation,the weighted degree centrality method applied to the constructed networks encapsulates richer information,demonstrates a higher correlation with the frequency-based method,and exhibits stronger discriminatory capability.Additionally,research topics identified through the constructed networks are more concise and cohesive.This study integrates methodologies stemmed from knowledge networks,entitymetrics,and citation content analysis and so on,thereby pushing the frontiers of these domains and fostering interdisciplinary fusion,and offers novel methodological support for relevant research.Furthermore,this study holds significant implications for advancing knowledge discovery and utilization within scientific literature,as well as boosting researchers cognitive efficiency.
Key words:knowledge entity;entitymetrics;knowledge network;citation content analysis;co-word network
隨著科學(xué)文獻(xiàn)數(shù)量迅猛增長,研究人員面臨著日益沉重的認(rèn)知負(fù)擔(dān)。因此,從海量文獻(xiàn)中精準(zhǔn)提取有價值的信息,幫助研究人員高效獲取散布于文獻(xiàn)中的關(guān)鍵知識,具有重要意義。實體計量(Entitymetrics)從知識實體的視角分析科學(xué)文獻(xiàn)[1-2],提供了一種新穎的基于文獻(xiàn)的知識發(fā)現(xiàn)方法[3]。知識實體(Knowledge Entity)是科學(xué)文獻(xiàn)中承載知識的基本單元,包括作者關(guān)鍵詞、標(biāo)引詞以及領(lǐng)域?qū)嶓w等[2],以語詞的形式在文獻(xiàn)中發(fā)揮關(guān)鍵作用。實體計量分析方法主要分為基于頻次與基于網(wǎng)絡(luò)兩類[4]。基于頻次的分析方法重點關(guān)注知識實體在特定數(shù)據(jù)集中出現(xiàn)的頻次,雖然能夠直觀反映知識實體的重要程度[4],但難以揭示知識實體間的復(fù)雜關(guān)聯(lián)。為克服這一局限,研究人員引入知識實體網(wǎng)絡(luò),如共詞網(wǎng)絡(luò),以深化對知識實體的分析理解。然而目前的共詞網(wǎng)絡(luò)存在以下缺陷:一方面,僅能捕獲同一文獻(xiàn)內(nèi)的知識實體關(guān)聯(lián),難以有效建模知識實體的跨文獻(xiàn)關(guān)聯(lián)[5];另一方面,網(wǎng)絡(luò)中的邊缺乏語義信息,只能籠統(tǒng)反映知識實體間的相關(guān)性[6]。針對這些問題,后續(xù)研究提出諸如作者關(guān)鍵詞引用網(wǎng)絡(luò)[7]等新型知識實體網(wǎng)絡(luò)。然而,這些研究在構(gòu)建跨文獻(xiàn)知識實體關(guān)聯(lián)時仍顯粗糙,如未能有效區(qū)分知識實體的同文獻(xiàn)關(guān)聯(lián)與跨文獻(xiàn)關(guān)聯(lián)。
近年來,引文內(nèi)容分析逐漸成為研究熱點,通過分析描述引用行為的上下文內(nèi)容,深入探討施引文獻(xiàn)與被引文獻(xiàn)之間的語義關(guān)系,從而揭示引用行為的本質(zhì)[8]。其中,施引文本是施引文獻(xiàn)中帶有引用標(biāo)記的施引句及其上下文[8];在被引文獻(xiàn)中與之對應(yīng)的文本片段被稱為被引片段,即促成該引用行為的內(nèi)容[9]。施引文本與被引片段對引用行為進(jìn)行了詳細(xì)描述,共同構(gòu)成基于文獻(xiàn)引用的正式學(xué)術(shù)交流渠道[9],在語義層面緊密相關(guān),因此,本文將兩者統(tǒng)稱為引文內(nèi)容。施引文本與被引片段中的知識實體是施引文獻(xiàn)提及被引文獻(xiàn)時的具體內(nèi)容,構(gòu)成兩者在內(nèi)容層面的關(guān)鍵連接點。這些知識實體數(shù)量豐富、關(guān)聯(lián)緊密,能夠更細(xì)粒度地揭示知識的流動與傳播特征,因此被視為重要的知識載體,并在研究中得到廣泛使用[10]。譬如,王佳敏等[11]基于施引文本中的知識實體構(gòu)建網(wǎng)絡(luò)。然而,目前相關(guān)研究大多并未考慮被引片段中的知識實體,導(dǎo)致構(gòu)建的網(wǎng)絡(luò)仍然僅能反映知識實體的同文獻(xiàn)關(guān)聯(lián)。有鑒于此,本文將知識實體的抽取范圍擴(kuò)展到被引片段,提出一種基于施引文本—被引片段對的跨文獻(xiàn)知識實體共現(xiàn)網(wǎng)絡(luò)構(gòu)建方法,并考慮文獻(xiàn)間引用關(guān)系的重要程度,以區(qū)分知識實體的同文獻(xiàn)關(guān)聯(lián)與跨文獻(xiàn)關(guān)聯(lián)。本文綜合知識網(wǎng)絡(luò)、實體計量和引文內(nèi)容分析等多領(lǐng)域的方法,有效推動了這些領(lǐng)域的邊界擴(kuò)展與交叉融合,并為相關(guān)研究提供了新的思路。進(jìn)一步,本文在促進(jìn)科學(xué)文獻(xiàn)的知識發(fā)現(xiàn)與利用、提升研究人員的認(rèn)知效率等方面同樣具有重要意義。
1 相關(guān)研究
1.1 共詞網(wǎng)絡(luò)
共詞網(wǎng)絡(luò)是一種描述知識實體共現(xiàn)關(guān)系的知識網(wǎng)絡(luò)[12-14],通常表現(xiàn)為無向有權(quán)圖,其節(jié)點代表知識實體,邊表示與之相連的知識實體在同一文獻(xiàn)內(nèi)共現(xiàn),邊權(quán)反映知識實體間的共現(xiàn)強度。
傳統(tǒng)共詞網(wǎng)絡(luò)構(gòu)建主要基于題錄數(shù)據(jù),通常選取作者關(guān)鍵詞[15]或從標(biāo)題[16]及摘要[17]中抽取知識實體。此后,知識實體抽取范圍逐漸從題錄數(shù)據(jù)擴(kuò)展至全文數(shù)據(jù)[18-19],顯著提升了分析效果。譬如,章成志等[20]從《情報學(xué)報》、ACL年會[18,21]以及CCL[22]文獻(xiàn)全文中抽取知識實體。此外,也有研究人員將知識實體抽取范圍從全文數(shù)據(jù)進(jìn)一步縮小至施引文本,如Bornmann L等[23]提出基于施引文本的知識實體共現(xiàn)關(guān)系。Nam D等[24]比較了基于全文和施引文本的共詞網(wǎng)絡(luò),發(fā)現(xiàn)后者在網(wǎng)絡(luò)密度及新穎實體關(guān)聯(lián)挖掘等方面具有優(yōu)勢。
盡管知識實體間存在多種語義關(guān)系,如屬性—宿主關(guān)系、工具—事件關(guān)系等,但共詞網(wǎng)絡(luò)僅能通過“相關(guān)性”來對這些語義關(guān)系進(jìn)行籠統(tǒng)概括[25-26],因此在語義信息的表達(dá)上存在局限性。為了在共詞網(wǎng)絡(luò)中更好地編碼語義信息,一些研究將知識實體間的相似度作為其邊權(quán),計算方法包括隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)[27]、詞嵌入余弦相似度[28]以及本體位置[29]等。
1.2 跨文獻(xiàn)知識實體網(wǎng)絡(luò)
為克服共詞網(wǎng)絡(luò)僅能捕獲知識實體的同文獻(xiàn)關(guān)聯(lián)的局限性,一些研究人員提出知識實體引用網(wǎng)絡(luò),以建模知識實體的跨文獻(xiàn)關(guān)聯(lián)。Ding Y等[2]和Song M等[30]將文獻(xiàn)間引用關(guān)系直接拓展到其中的知識實體,在文獻(xiàn)的標(biāo)題和摘要中抽取領(lǐng)域?qū)嶓w,構(gòu)建實體間引用關(guān)系并形成知識實體引用網(wǎng)絡(luò)。類似地,Cheng Q K[7]、程齊凱等[31]將文獻(xiàn)間引用關(guān)系拓展至作者關(guān)鍵詞,形成作者關(guān)鍵詞引用網(wǎng)絡(luò),并將作者關(guān)鍵詞劃分為“問題”和“方法”兩類,作者關(guān)鍵詞間關(guān)系也進(jìn)一步分為問題—問題、問題—方法以及方法—方法三類[32]。此外,Tu Y N等[33]首先生成引文網(wǎng)絡(luò)的主路徑,接著通過詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)算法從主路徑文獻(xiàn)的題錄數(shù)據(jù)中獲取知識實體,并以這些知識實體替換原始文獻(xiàn)節(jié)點,形成知識實體引用路徑。
還有研究人員通過LDA從文獻(xiàn)題錄數(shù)據(jù)中生成主題詞,并構(gòu)建主題詞引用網(wǎng)絡(luò)[34]。譬如,Kim E H J等[35]使用LDA中概率最大的主題詞代替引文網(wǎng)絡(luò)中的文獻(xiàn),形成主題詞引用網(wǎng)絡(luò)。Huo C G等[36]構(gòu)建主題詞—文獻(xiàn)—文獻(xiàn)—主題詞元路徑[37],實質(zhì)上形成主題詞引用網(wǎng)絡(luò)。除上述知識實體外,其他知識實體也被用于構(gòu)建知識實體引用網(wǎng)絡(luò)。譬如,翟東升等[38]將專利間的引用關(guān)系拓展至其國際專利分類(International Patent Classification,IPC)的分類號,形成IPC分類號引用網(wǎng)絡(luò)。王佳敏等[11]深入文獻(xiàn)全文,提出施引文本中的知識實體與作者關(guān)鍵詞之間存在引用關(guān)系。
然而,當(dāng)前知識實體引用網(wǎng)絡(luò)仍然存在諸多缺陷。一方面,將文獻(xiàn)引用關(guān)系直接拓展至其中的知識實體缺乏充分的理論基礎(chǔ);另一方面,出于種種原因,知識實體引用網(wǎng)絡(luò)的有向性在實踐中常被忽略,許多研究仍傾向于將其弱化為無向網(wǎng)絡(luò)進(jìn)行分析[11]。
鑒于知識實體引用網(wǎng)絡(luò)的局限性,研究人員還探索了構(gòu)建知識實體跨文獻(xiàn)關(guān)聯(lián)的其他方法。與知識實體引用網(wǎng)絡(luò)不同,這些方法通常生成無向網(wǎng)絡(luò)。Nam D等[24,39]認(rèn)為,位于不同文獻(xiàn)中的同類章節(jié)且指向同一研究人員的施引文本中的知識實體存在關(guān)聯(lián),從而構(gòu)建了跨文獻(xiàn)知識實體共現(xiàn)網(wǎng)絡(luò)。Hsiao T M等[40]借鑒文獻(xiàn)耦合概念,提出跨文獻(xiàn)的知識實體耦合關(guān)系:將從文獻(xiàn)摘要中抽取的知識實體與該文獻(xiàn)的參考文獻(xiàn)集合關(guān)聯(lián),若兩個知識實體關(guān)聯(lián)的參考文獻(xiàn)集合存在交集,則認(rèn)為其存在耦合關(guān)系,耦合強度由交集大小決定。Zhang X Y等[41]則綜合了知識實體的共現(xiàn)、引用關(guān)系和共同作者信息,構(gòu)建了更全面的知識實體網(wǎng)絡(luò)。
需要指出的是,現(xiàn)有的跨文獻(xiàn)知識實體關(guān)聯(lián)構(gòu)建方法仍顯粗糙。譬如,Nam D等[24,39]和Zhang X Y等[41]認(rèn)為,與特定研究人員相關(guān)的知識實體形成跨文獻(xiàn)關(guān)聯(lián)。然而,一位研究人員的興趣通常涉及多個方面,導(dǎo)致與之相關(guān)的知識實體未必具有足夠的相關(guān)性。此外,知識實體的同文獻(xiàn)關(guān)聯(lián)和跨文獻(xiàn)關(guān)聯(lián)存在明顯差異,但現(xiàn)有研究通常并未對二者加以區(qū)分。盡管存在不足,但這些研究仍為共詞網(wǎng)絡(luò)優(yōu)化提供了異于知識實體引用網(wǎng)絡(luò)的創(chuàng)新思路。
1.3 知識實體抽取
知識是與使用者的能力和經(jīng)驗相結(jié)合的信息,或是通過學(xué)習(xí)、實踐和探索獲得的認(rèn)識、判斷或技能[42]。知識本身缺乏物理形態(tài)[43-44],因此需要借助一定的載體呈現(xiàn),如研究人員、科學(xué)文獻(xiàn)等[44]。在科學(xué)文獻(xiàn)中,知識實體是承載知識的基本單元[2],通常以語詞的形式出現(xiàn)。對知識實體深入分析有助于揭示領(lǐng)域演化動態(tài)、分析知識擴(kuò)散規(guī)律、進(jìn)行科學(xué)評價以及測度創(chuàng)新性等。其中,知識實體抽取是這些分析的基礎(chǔ),主要方法包括人工標(biāo)注、規(guī)則匹配、傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)[18]。
人工標(biāo)注方法通過專家閱讀文獻(xiàn)并標(biāo)記其中的知識實體[10]。這種方法雖然能夠產(chǎn)生高質(zhì)量的標(biāo)注,但因依賴專業(yè)知識且耗時耗力,標(biāo)注規(guī)模受限。規(guī)則匹配方法需領(lǐng)域?qū)<翌A(yù)先制定規(guī)則,再依據(jù)規(guī)則匹配知識實體[45]。該方法查準(zhǔn)率較高,但在遷移到其他領(lǐng)域時需重新制定規(guī)則,增加了人力成本。為克服規(guī)則匹配的局限,研究人員引入基于傳統(tǒng)機(jī)器學(xué)習(xí)的抽取方法,常用算法包括隱馬爾可夫模型、條件隨機(jī)場、最大熵和支持向量機(jī)等。相較于規(guī)則匹配,傳統(tǒng)機(jī)器學(xué)習(xí)方法增強了泛化能力,但對標(biāo)注語料和特征工程依賴較高。
為減少特征工程工作量,深度學(xué)習(xí)逐漸興起。基于深度學(xué)習(xí)的知識實體抽取通常采用序列標(biāo)注模型,典型的模型框架包含詞編碼層、序列編碼層以及解碼層[46-47]。Huang Z H等[48]提出,將詞嵌入(Word Embedding,WE)、雙向長短期記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,BiLSTM)和條件隨機(jī)場(Conditional Random Field,CRF)分別用于詞編碼層、序列編碼層以及解碼層。此后,該WE-BiLSTM-CRF框架得以廣泛應(yīng)用[46]。隨著預(yù)訓(xùn)練語言模型(Pre-trained Language Model,PLM)的崛起,其逐漸在詞編碼層中取代詞嵌入,形成PLM-BiLSTM-CRF框架,進(jìn)一步提升了識別表現(xiàn)。除序列標(biāo)注模型外,一些研究還探索了通過片段分類[49]和閱讀理解[50]模型進(jìn)行知識實體抽取,效果同樣顯著。片段分類模型將句子中的子片段分為“知識實體”或“非知識實體”兩類,盡管原理簡單,但需反復(fù)遍歷句子生成長度不同的子片段,導(dǎo)致計算開銷較大。閱讀理解模型則將知識實體抽取視為一種自然語言生成任務(wù),其模型復(fù)雜度和計算開銷同樣較高。
2 跨文獻(xiàn)知識實體共現(xiàn)網(wǎng)絡(luò)構(gòu)建方法
為克服共詞網(wǎng)絡(luò)及相關(guān)研究的局限性,本文提出一種基于施引文本—被引片段對的知識實體跨文獻(xiàn)關(guān)聯(lián)構(gòu)建方法,并引入微觀引文重要性,以區(qū)分知識實體的同文獻(xiàn)和跨文獻(xiàn)關(guān)聯(lián),由此構(gòu)建跨文獻(xiàn)知識實體共現(xiàn)網(wǎng)絡(luò),并進(jìn)行后續(xù)分析。整體框架如圖1所示。首先,在知識實體抽取實驗語料上訓(xùn)練和測試模型;其次,通過預(yù)處理獲得實證分析語料,從中提取題錄數(shù)據(jù)及施引句,并對施引句進(jìn)行引文內(nèi)容分析處理,具體包括施引文本抽取、微觀引文重要性識別以及被引片段識別;然后,通過知識實體抽取模型從施引文本、被引片段以及題錄數(shù)據(jù)中抽取知識實體,并對其進(jìn)行規(guī)范化及篩選處理;最后,基于篩選后的知識實體構(gòu)建同文獻(xiàn)和跨文獻(xiàn)知識實體共現(xiàn)網(wǎng)絡(luò),并進(jìn)行比較分析。
2.1 語 料
本文采用兩類語料:知識實體抽取實驗語料與實證分析語料。前者用于訓(xùn)練和測試知識實體抽取模型,以確定最優(yōu)模型,隨后通過該最優(yōu)模型對后者進(jìn)行處理,以支持實證分析。
具體而言,本文知識實體抽取實驗語料為SciERC[51],該語料詳細(xì)標(biāo)注了人工智能領(lǐng)域科學(xué)文獻(xiàn)中的知識實體及其類型、關(guān)系和共指信息。其中,知識實體類型包括方法、任務(wù)、數(shù)據(jù)、評價指標(biāo)、其他以及通用。
綜合考慮筆者的知識背景及文獻(xiàn)全文數(shù)據(jù)的可獲得性,本文基于ACL文集全文語料(ACL Anthology Corpus with Full Text)[52]開展實證分析。該語料來自國際計算語言學(xué)學(xué)會(Association for Computational Linguistics,ACL)建立的開放獲取全文數(shù)據(jù)庫ACL文集,基本涵蓋自然語言處理(Natural Language Processing,NLP)領(lǐng)域最具影響力的期刊和會議文獻(xiàn)。然而,ACL文集全文語料并未維護(hù)文獻(xiàn)間引用關(guān)系,因此,本文進(jìn)一步提取了其中的引用關(guān)系,獲得552 383條引用關(guān)系,覆蓋64 004篇文獻(xiàn)。
為揭示NLP領(lǐng)域的演化動態(tài),本文不僅考察年度發(fā)文量,還借鑒文獻(xiàn)老化理論[53],引入“平均施引間隔”指標(biāo),以量化某年發(fā)表的文獻(xiàn)與其所引文獻(xiàn)發(fā)表年份之間的平均差值。平均施引間隔下降反映出研究人員傾向于引用近期文獻(xiàn),表明研究興趣或范式的轉(zhuǎn)變;反之,平均施引間隔上升則表明研究人員仍傾向于引用較早期文獻(xiàn)。需要指出的是,1980年之前的數(shù)據(jù)不完整,且ACL文集全文語料采集截至2022年9月,圖2展示的是1980—2022年的年度發(fā)文量與平均施引間隔。
可以發(fā)現(xiàn),NLP領(lǐng)域的年度發(fā)文量呈指數(shù)增長,表明該領(lǐng)域仍處于蓬勃發(fā)展階段。而平均施引間隔曲線中的1999年和2014年兩個極值點,將1980—2022年大致劃分為3個發(fā)展階段:1999年之前為第一階段,研究主要依賴小規(guī)模專家知識,平均施引間隔波動上升,表明NLP領(lǐng)域初步成型;1999—2014年為第二階段,平均施引間隔先降后升,反映出傳統(tǒng)機(jī)器學(xué)習(xí)算法逐步替代專家知識并趨向成熟;第三階段始于2015年,平均施引間隔下降并維持低位,揭示出深度學(xué)習(xí)算法取代傳統(tǒng)機(jī)器學(xué)習(xí)算法,成為NLP領(lǐng)域的主導(dǎo)范式。上述發(fā)展階段劃分與領(lǐng)域?qū)<乙庖姡?4]基本相符,不過在相
圖1 研究框架Fig.1 Research Framework
圖2 年度發(fā)文量及平均施引間隔Fig.2 Annual Number of Publications and Average Citation Interval
關(guān)時間節(jié)點上略有滯后,原因可能在于新研究范式從興起到普及需要一定時間。
基于提取的引用關(guān)系,本文進(jìn)一步獲取了789 961條施引句。結(jié)合前述引用關(guān)系數(shù)量,計算得到每條引用關(guān)系平均對應(yīng)1.43條施引句,與已有研究中的1.63[55]及1.46[56]相近。此外,抽樣分析顯示92.87%的引用關(guān)系成功匹配到施引句。這些發(fā)現(xiàn)進(jìn)一步驗證了本文實證分析語料構(gòu)建的合理性和有效性。
本文接著對施引句進(jìn)行引文內(nèi)容分析處理,包括施引文本抽取、微觀引文重要性識別以及被引片段識別。在施引文本抽取方面,已有工作主要采用靜態(tài)方法[39]。譬如,王佳敏等[11]將施引文本范圍擴(kuò)展至施引句的前后句。靜態(tài)方法盡管簡單易行,但可能引入較多噪聲[57]。為提升抽取精度,Nambanoor K S等[58]提出一種基于文本相似度的動態(tài)抽取方法,首先計算施引句與被引文獻(xiàn)標(biāo)題和摘要的相似度并將其作為閾值,將相似度超過閾值的施引句上下文句子作為施引文本,并在引文分類任務(wù)中表現(xiàn)優(yōu)異。本文采用該動態(tài)方法,以期更加全面、準(zhǔn)確地抽取施引文本,保證后續(xù)分析質(zhì)量。此外,本文分別采用文獻(xiàn)[59]和文獻(xiàn)[60]的方法,識別施引句的微觀引文重要性及其對應(yīng)的被引片段。
2.2 知識實體抽取模型構(gòu)建
基于深度學(xué)習(xí)的知識實體抽取方法表現(xiàn)優(yōu)異[46],其中片段分類和閱讀理解模型盡管在性能上具有優(yōu)勢,但計算開銷較高且模型較為復(fù)雜。相比之下,序列標(biāo)注模型在計算開銷及性能之間取得較好的平衡。有鑒于此,本文選用序列標(biāo)注模型,具體實現(xiàn)為典型的PLM-BiLSTM-CRF框架,如圖3所示。
圖3 知識實體抽取模型框架Fig.3 Framework of the Knowledge Entity Extraction Model
需要指出的是,本文使用的知識實體抽取實驗語料和實證分析語料分別來自人工智能與NLP領(lǐng)域,其中知識實體抽取實驗語料中部分文獻(xiàn)來自NLP領(lǐng)域[51]。此外,NLP與人工智能其他領(lǐng)域密切相關(guān),許多知識實體在不同領(lǐng)域間通用,如卷積神經(jīng)網(wǎng)絡(luò)最初用于機(jī)器視覺,后被引入NLP領(lǐng)域。因此,將基于人工智能領(lǐng)域語料訓(xùn)練的知識實體抽取模型應(yīng)用于本文的實證分析語料具有合理性。
2.3 知識實體共現(xiàn)網(wǎng)絡(luò)構(gòu)建
針對共詞網(wǎng)絡(luò)及相關(guān)研究的不足,本文構(gòu)建了兩類跨文獻(xiàn)知識實體共現(xiàn)網(wǎng)絡(luò):基于施引文本—被引片段對的知識實體共現(xiàn)網(wǎng)絡(luò)Gcc和基于施引文本—被引片段對的知識實體共現(xiàn)語義網(wǎng)絡(luò)Gcci。兩者區(qū)別在于,Gcci在邊權(quán)計算中引入微觀引文重要性,以區(qū)分知識實體的同文獻(xiàn)關(guān)聯(lián)和跨文獻(xiàn)關(guān)聯(lián)。此外,為便于比較,本文還構(gòu)建了兩類同文獻(xiàn)知識實體共現(xiàn)網(wǎng)絡(luò):基于題錄數(shù)據(jù)的知識實體共現(xiàn)網(wǎng)絡(luò)Gb(即傳統(tǒng)共詞網(wǎng)絡(luò))和基于施引文本的知識實體共現(xiàn)網(wǎng)絡(luò)Gc。
為便于描述網(wǎng)絡(luò)構(gòu)建過程,對相關(guān)標(biāo)記作以下約定:具有對應(yīng)關(guān)系的施引文本和被引片段分別記為C與P,并構(gòu)成形式為二元組lt;C,Pgt;的施引文本—被引片段對,每個lt;C,Pgt;對應(yīng)一個微觀引文重要性預(yù)測值;此外,一篇文獻(xiàn)由標(biāo)題和摘要構(gòu)成的題錄數(shù)據(jù)表示為B(ACL文集不含作者關(guān)鍵詞)。經(jīng)過知識實體抽取后,題錄數(shù)據(jù)B、施引文本C和被引片段P可進(jìn)一步表示為知識實體集合,分別記為B={eb1,eb2,…,ebk}、C={ec1,ec2,…,ecn}以及P={ep1,ep2,…,epm}。接下來將詳細(xì)介紹知識實體共現(xiàn)網(wǎng)絡(luò)構(gòu)建過程。
基于題錄數(shù)據(jù)的知識實體共現(xiàn)網(wǎng)絡(luò)記為Gb=(Vb,Eb,Wb)。其中,Vb表示知識實體的節(jié)點集合,其中的知識實體ei,ej∈Vb且ei≠ej。若ei,ej∈B,則認(rèn)為ei與ej共現(xiàn)于題錄數(shù)據(jù)B。Eb∈Vb×Vb為代表知識實體基于題錄數(shù)據(jù)的共現(xiàn)關(guān)系的邊集合,Wb是對應(yīng)的有權(quán)鄰接矩陣。若兩個知識實體在至少一篇文獻(xiàn)的題錄數(shù)據(jù)中同時出現(xiàn),則代表它們的節(jié)點間形成一條邊,邊的權(quán)重代表其共現(xiàn)強度。類似地,基于施引文本的知識實體共現(xiàn)網(wǎng)絡(luò)表示為Gc=(Vc,Ec,Wc),其構(gòu)建方式與Gb基本相同。區(qū)別在于,Gc中的知識實體共現(xiàn)于施引文本而非題錄數(shù)據(jù)。
基于施引文本—被引片段對的知識實體共現(xiàn)網(wǎng)絡(luò)表示為Gcc=(Vcc,Ecc,Wcc)。Vcc是知識實體節(jié)點集合,知識實體ei,ej∈Vcc且ei≠ej。若ei,ej∈(C∪P),則認(rèn)為ei和ej共現(xiàn)于施引文本—被引片段對lt;C,Pgt;,EccVcc×Vcc為代表知識實體基于施引文本—被引片段對的共現(xiàn)關(guān)系的邊集合。Wcc是對應(yīng)的有權(quán)鄰接矩陣。若ei和ej在至少1個施引文本—被引片段對中共現(xiàn),則代表它們的節(jié)點之間形成一條邊,邊權(quán)同樣為兩者共現(xiàn)強度。
基于施引文本—被引片段對的知識實體共現(xiàn)語義網(wǎng)絡(luò)記為Gcci=(Vcc,Ecci,Wcci)。其知識實體節(jié)點集合Vcc與Gcc相同。不同于Gcc,Gcci中的知識實體關(guān)聯(lián)進(jìn)一步劃分為同文獻(xiàn)關(guān)聯(lián)和跨文獻(xiàn)關(guān)聯(lián)。具體而言,若(ei,ej∈C)∨(ei,ej∈P),則表明知識實體ei與ej共現(xiàn)于同一施引文本或被引片段,此時兩者均來自同一篇文獻(xiàn),本文稱ei與ej形成同文獻(xiàn)關(guān)聯(lián)。相對地,若((ei∈C∧eiP)∧(ej∈P∧ejC))∨((ei∈P∧eiC)∧(ej∈C∧ejP)),則代表ei與ej分別來自施引文本C和被引片段P。鑒于兩者分屬不同的施引文獻(xiàn)和被引文獻(xiàn),本文稱ei與ej形成跨文獻(xiàn)關(guān)聯(lián)。Gcci的邊集合Ecci也被劃分為兩個子集:代表同文獻(xiàn)關(guān)聯(lián)的邊集合EintraVcc×Vcc以及代表跨文獻(xiàn)關(guān)聯(lián)的邊集合EinterVcc×Vcc,即Ecci=Eintra∪Einter。
需要指出的是,知識實體跨文獻(xiàn)關(guān)聯(lián)弱于同文獻(xiàn)關(guān)聯(lián)(詳見3.3.1節(jié)分析),因此有必要對兩者進(jìn)行區(qū)分。Nie W M等[59]提出一種基于回歸的微觀引文重要性識別方法,通過生成0~1之間的預(yù)測值,從施引句角度衡量被引文獻(xiàn)對施引文獻(xiàn)的智力支持程度,為量化知識實體間的跨文獻(xiàn)關(guān)聯(lián)強度提供了新方法。有鑒于此,本文在計算Gcci有權(quán)鄰接矩陣Wcci時,引入微觀引文重要性,以精確區(qū)分知識實體的同文獻(xiàn)關(guān)聯(lián)與跨文獻(xiàn)關(guān)聯(lián)。具體而言,對于知識實體ei,ej∈(C∪P),若兩者形成同文獻(xiàn)關(guān)聯(lián),則邊權(quán)增量為1;若形成跨文獻(xiàn)關(guān)聯(lián),則邊權(quán)增量為lt;C,Pgt;對應(yīng)的微觀引文重要性預(yù)測值。需要注意的是,知識實體ei與ej可能同時形成同文獻(xiàn)關(guān)聯(lián)和跨文獻(xiàn)關(guān)聯(lián)。在這種情況下,鑒于同文獻(xiàn)關(guān)聯(lián)更為緊密,邊權(quán)增量仍設(shè)定為1,以優(yōu)先表示同文獻(xiàn)關(guān)聯(lián)。
從知識實體關(guān)聯(lián)類型來說,Gb與Gc屬于同文獻(xiàn)知識實體共現(xiàn)網(wǎng)絡(luò),而Gcc與Gcci則屬于跨文獻(xiàn)知識實體共現(xiàn)網(wǎng)絡(luò)。從知識實體來源角度分析,Gb基于題錄數(shù)據(jù)構(gòu)建,而Gc、Gcc與Gcci則基于全文數(shù)據(jù)構(gòu)建。值得注意的是,Nam D等[24,39]發(fā)現(xiàn),基于施引文本的知識實體共現(xiàn)網(wǎng)絡(luò)在諸多方面優(yōu)于基于全文的知識實體共現(xiàn)網(wǎng)絡(luò),如網(wǎng)絡(luò)密度及新穎實體關(guān)聯(lián)挖掘,因此本文并未構(gòu)建后者。
3 結(jié)果分析
3.1 知識實體抽取實驗
本文基于PLM-BiLSTM-CRF框架[61]構(gòu)建知識實體抽取模型。在PLM詞編碼層,本文比較了BERT、SciBERT以及RoBERTa的表現(xiàn)。鑒于PLM中的自注意力機(jī)制在文本序列建模方面優(yōu)于BiLSTM,本文進(jìn)一步考察是否保留BiLSTM序列編碼層對模型整體表現(xiàn)的影響,以優(yōu)化知識實體抽取表現(xiàn)。
此外,為確保抽取結(jié)果與現(xiàn)有研究[62]具有可比性,本文保留SciERC語料中的全部6個知識實體類別(參見2.1節(jié)),并選取微F1作為評價指標(biāo)。知識實體抽取模型的表現(xiàn)如表1所示。
結(jié)果表明,去除BiLSTM序列編碼層后,采用不同PLM詞編碼層的知識實體抽取模型表現(xiàn)均有所提升。其中,以RoBERTa為詞編碼層的模型表現(xiàn)最佳,SciBERT次之,BERT相對較差。因此,本文選擇以RoBERTa為詞編碼層且不含BiLSTM序列編碼層的模型(即RoBERTa-CRF)作為最優(yōu)的知識實體抽取模型。
3.2 知識實體數(shù)量及頻次分析
為深化對實證分析語料中知識實體的分析理解,在完成知識實體抽取后,本文對其數(shù)量及頻次進(jìn)行了系統(tǒng)考察。需要指出的是,盡管知識實體抽取實驗保留了SciERC語料中的全部六類知識實體,以便與已有研究進(jìn)行比較,但其中的“其他”和“通用”類別知識實體主要用于支持原研究的共指消解任務(wù),與本文關(guān)聯(lián)有限。因此,本文在后續(xù)分析中僅關(guān)注“方法”“任務(wù)”“數(shù)據(jù)”與“評價指標(biāo)”四類知識實體。
本文分析了這四類知識實體的數(shù)量占比及頻次數(shù)量比,如圖4所示。數(shù)量占比指某類知識實體數(shù)量在全部四類知識實體中的比例,旨在反映該類知識實體在NLP研究中的相對重要性。頻次數(shù)量比則為特定類型知識實體的頻次總和與其數(shù)量之比,即平均出現(xiàn)頻次,反映其復(fù)用情況。可以發(fā)現(xiàn),“方法”類知識實體的數(shù)量占比超過一半,表明NLP領(lǐng)域的研究主要由“方法”驅(qū)動。而“評價指標(biāo)”類知識實體的頻次數(shù)量比最高,表明其在NLP領(lǐng)域中被反復(fù)提及的可能性最大。
為揭示知識實體的分布特征并為后續(xù)篩選提供依據(jù),本文對知識實體的頻次分布進(jìn)行了詳細(xì)分析,如圖5所示。圖中藍(lán)色實線為知識實體頻次的概率密度分布曲線。本文使用Powerlaw工具[63]對其進(jìn)行冪律分布擬合,紅色點劃線為擬合得到的冪律分布曲線。可以發(fā)現(xiàn),知識實體的頻次分布呈現(xiàn)較為明顯的冪律特征。進(jìn)一步地,本文通過似然比檢驗,定量比較了冪律分布與對數(shù)正態(tài)分布、指數(shù)分布、截斷冪律分布、拓展指數(shù)分布和正對數(shù)正態(tài)分布的擬合效果。定量分析結(jié)果表明,在這些分布中,知識實體頻次分布最符合冪律分布。
圖4 不同類型知識實體數(shù)量占比及頻次數(shù)量比Fig.4 Proportion and Frequency-to-Quantity Ratio ofDifferent Types of Knowledge Entities
圖5 知識實體頻次概率密度分布及冪律分布擬合曲線Fig.5 Probability Density Distribution of Knowledge EntityFrequencies and Power Law Distribution Fitting Curve
3.3 知識實體共現(xiàn)網(wǎng)絡(luò)分析
為揭示構(gòu)建的跨文獻(xiàn)知識實體共現(xiàn)網(wǎng)絡(luò)的特點,本文對Gb、Gc、Gcc與Gcci進(jìn)行系統(tǒng)比較分析,涵蓋整體拓?fù)涮卣鞣治觥⒅R實體重要性評價,以及領(lǐng)域研究主題挖掘。需要指出的是,由于涉及的知識實體數(shù)量龐大,分析如此規(guī)模的網(wǎng)絡(luò)計算開銷很大。因此,在構(gòu)建網(wǎng)絡(luò)之前,需對知識實體進(jìn)行篩選,以在保留重要知識實體并保持分析結(jié)果穩(wěn)定的同時,顯著減少知識實體的數(shù)量。鑒于知識實體的頻次分布呈現(xiàn)冪律特征,本文采用綜合考慮知識實體數(shù)量與累計頻次的二八定律篩選方法,最終選取頻次排名前20.782%的知識實體,其累計頻次占比達(dá)81.057%。
3.3.1 整體拓?fù)涮卣鞣治?/p>
為比較網(wǎng)絡(luò)整體結(jié)構(gòu)的差異,本文選用7個網(wǎng)絡(luò)指標(biāo):節(jié)點數(shù)、邊數(shù)、平均度、密度、平均路徑長度、網(wǎng)絡(luò)直徑以及平均聚類系數(shù)。節(jié)點和邊是構(gòu)成網(wǎng)絡(luò)的基本要素,其數(shù)量共同反映網(wǎng)絡(luò)規(guī)模。平均度是網(wǎng)絡(luò)中所有節(jié)點的平均連接數(shù),用以衡量知識實體間關(guān)聯(lián)的豐富程度。密度表示實際邊數(shù)與最大可能邊數(shù)之比,用于描述網(wǎng)絡(luò)的稀疏程度。平均路徑長度代表節(jié)點間最短路徑的平均值,網(wǎng)絡(luò)直徑則是節(jié)點間最短路徑的最大值。聚類系數(shù)度量特定節(jié)點鄰居間的連接比例,平均聚類系數(shù)則是所有節(jié)點聚類系數(shù)的均值。平均路徑長度、網(wǎng)絡(luò)直徑和平均聚類系數(shù)綜合揭示了網(wǎng)絡(luò)的“小世界”特性。
本文通過Pajek軟件[64]計算這些網(wǎng)絡(luò)指標(biāo),結(jié)果如表2所示。盡管Gb、Gc、Gcc與Gcci均為有權(quán)網(wǎng)絡(luò),但為更準(zhǔn)確揭示網(wǎng)絡(luò)整體拓?fù)涮卣鳎疚脑谟嬎銜r將其作為無權(quán)網(wǎng)絡(luò)處理,以消除邊權(quán)的影響。需要注意的是,Gcc與Gcci的主要區(qū)別在于邊權(quán)不同,因此在無權(quán)化處理后,兩者的網(wǎng)絡(luò)指標(biāo)值一致。
首先,從節(jié)點數(shù)和邊數(shù)來看,Gcc/Gcci、Gc與Gb的規(guī)模依此遞減,表明相較于題錄數(shù)據(jù)與施引文本,同時從施引文本和被引片段中抽取知識實體顯著擴(kuò)大了覆蓋范圍,使得跨文獻(xiàn)知識實體共現(xiàn)網(wǎng)絡(luò)規(guī)模更大。其次,Gcc/Gcci的平均度高于Gb和Gc,表明在跨文獻(xiàn)知識實體共現(xiàn)網(wǎng)絡(luò)中,知識實體能夠跨越文獻(xiàn)界限建立更加豐富的關(guān)聯(lián)。而在密度方面,Gb、Gcc/Gcci與Gc依次遞減,即基于全文數(shù)據(jù)的Gc、Gcc與Gcci比基于題錄數(shù)據(jù)的Gb更稀疏。然而,在基于全文數(shù)據(jù)的知識實體共現(xiàn)網(wǎng)絡(luò)內(nèi)部,Gcc/Gcci的密度顯著高于Gc,表明雖然基于全文數(shù)據(jù)的知識實體共現(xiàn)網(wǎng)絡(luò)較為稀疏,但知識實體間更為豐富的跨文獻(xiàn)關(guān)聯(lián)仍然提升了網(wǎng)絡(luò)密度。最后,Gcc/Gcci的平均路徑長度、網(wǎng)絡(luò)直徑和平均聚類系數(shù)均小于Gb與Gc。較小的平均路徑長度和網(wǎng)絡(luò)直徑表明跨文獻(xiàn)知識實體共現(xiàn)網(wǎng)絡(luò)具有更顯著的“小世界”特性,而較低的平均聚類系數(shù)與之相反。類似地,Cheng Q K等[7]構(gòu)建的作者關(guān)鍵詞引用網(wǎng)絡(luò)的平均聚類系數(shù)也低于傳統(tǒng)共詞網(wǎng)絡(luò)。這與本文結(jié)果共同表明,與其他知識實體具有跨文獻(xiàn)關(guān)聯(lián)的知識實體間的關(guān)聯(lián)性較低,即知識實體的跨文獻(xiàn)關(guān)聯(lián)弱于同文獻(xiàn)關(guān)聯(lián)。這進(jìn)一步說明,本文區(qū)分這兩類關(guān)聯(lián)的必要性與合理性。
綜上所述,相較于傳統(tǒng)共詞網(wǎng)絡(luò)以及基于施引文本的知識實體共現(xiàn)網(wǎng)絡(luò),本文提出的跨文獻(xiàn)知識實體共現(xiàn)網(wǎng)絡(luò)不僅在網(wǎng)絡(luò)規(guī)模和關(guān)聯(lián)豐富性方面具備優(yōu)勢,還展現(xiàn)了一定的稀疏性和“小世界”特性。
3.3.2 知識實體重要性評價
衡量知識實體重要性的方法主要分為基于頻次和基于網(wǎng)絡(luò)兩類[65]。前者依據(jù)知識實體在特定數(shù)據(jù)集中出現(xiàn)的頻次判定其重要性,后者則通過網(wǎng)絡(luò)分析方法評估網(wǎng)絡(luò)中代表知識實體的節(jié)點重要性,常用的指標(biāo)包括度中心性、接近中心性、介數(shù)中心性和PageRank等。度中心性通過統(tǒng)計與節(jié)點直接相連的節(jié)點數(shù)量來評估其重要性,加權(quán)度中心性(Weighted Degree Centrality,WDC)則進(jìn)一步考慮邊的權(quán)重,更適用于有權(quán)網(wǎng)絡(luò)。接近中心性考察特定節(jié)點與其他節(jié)點的平均最短路徑長度,介數(shù)中心性則關(guān)注經(jīng)過某節(jié)點的最短路徑數(shù)量。PageRank源于網(wǎng)頁排序[66],通常用于有向網(wǎng)絡(luò)。
值得注意的是,接近中心性與介數(shù)中心性的計算復(fù)雜度較高,在大規(guī)模網(wǎng)絡(luò)中實現(xiàn)高效計算仍具挑戰(zhàn)。Zhao W Y等[4]發(fā)現(xiàn),在共詞網(wǎng)絡(luò)中,前述節(jié)點重要性指標(biāo)之間具有較強相關(guān)性。鑒于本文涉及的網(wǎng)絡(luò)規(guī)模較大,且與共詞網(wǎng)絡(luò)一樣均為無向有權(quán)網(wǎng)絡(luò),本文選用加權(quán)度中心性(WDC)衡量Gb、Gc、Gcc以及Gcci中知識實體的重要性,同時將頻次作為基準(zhǔn)。本文使用了5種評價方法:頻次方法、Gb+WDC、Gc+WDC、Gcc+WDC以及Gcci+WDC。其中,后4種統(tǒng)稱為基于網(wǎng)絡(luò)的評價方法。
為比較各評價方法的差異,本文借鑒相關(guān)研究[67-68],引入變異系數(shù)和重復(fù)值比例作為衡量指標(biāo)。變異系數(shù),即標(biāo)準(zhǔn)差與均值之比,用于反映評價方法的變異程度[69]及蘊含的信息量[67]。重復(fù)值比例表示某評價方法中具有相同指標(biāo)值的知識實體占比[67]。較高的重復(fù)值比例意味著相當(dāng)數(shù)量的知識實體的評價指標(biāo)值相同,增加了區(qū)分其重要性的難度。因此,重復(fù)值比例越低,表明對應(yīng)評價方法的區(qū)分能力越強。變異系數(shù)和重復(fù)值比例的計算結(jié)果如表3所示。
結(jié)果顯示,頻次方法的變異系數(shù)高于基于網(wǎng)絡(luò)的評價方法。而在4種基于網(wǎng)絡(luò)的評價方法中,Gcci+WDC的變異系數(shù)最高,Gcc+WDC與Gc+WDC次之,而Gb+WDC最低,表明擴(kuò)大知識實體抽取范圍以及引入微觀引文重要性有助于知識實體共現(xiàn)網(wǎng)絡(luò)編碼更豐富的信息。此外,基于網(wǎng)絡(luò)的評價方法在重復(fù)值比例上均低于頻次方法,尤其是Gcci+WDC的下降幅度最為顯著,表明引入微觀引文重要性后,知識實體間關(guān)聯(lián)得到了更精細(xì)的量化,從而提升了區(qū)分能力。
為評估各評價方法之間的相關(guān)性,本文計算了斯皮爾曼秩相關(guān)系數(shù),如表4所示。需要指出的是,所有方法對的p值均接近0,說明在0.01水平下(雙尾),各評價方法的相關(guān)性顯著。結(jié)果顯示,Gc+WDC、Gb+WDC與頻次方法的相關(guān)性較低,但仍達(dá)到中等水平;而Gcci+WDC、Gcc+WDC和頻次方法的相關(guān)性較高。
綜上所述,通過加權(quán)度中心性衡量網(wǎng)絡(luò)中知識實體重要性時,相較于傳統(tǒng)共詞網(wǎng)絡(luò)與基于施引文本的知識實體共現(xiàn)網(wǎng)絡(luò),跨文獻(xiàn)知識實體共現(xiàn)網(wǎng)絡(luò)包含更為豐富的信息,與頻次方法相關(guān)性更高,并且表現(xiàn)出更強的區(qū)分能力。
3.3.3 領(lǐng)域研究主題挖掘
為探討NLP領(lǐng)域的研究主題并評估跨文獻(xiàn)知識實體共現(xiàn)網(wǎng)絡(luò)在領(lǐng)域研究主題挖掘中的表現(xiàn),本文選用在信息資源管理領(lǐng)域應(yīng)用廣泛的基于模塊度優(yōu)化的Louvain算法[70]將網(wǎng)絡(luò)節(jié)點聚成不同簇,并根據(jù)簇內(nèi)代表性知識實體標(biāo)記其研究主題。模塊度(Modularity)是Louvain算法衡量網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)顯著性的關(guān)鍵指標(biāo),當(dāng)模塊度值超過0.3時,社團(tuán)結(jié)構(gòu)具有統(tǒng)計顯著性[71]。
表5顯示,Gb、Gc、Gcc與Gcci的模塊度均超過0.3,表明在這些網(wǎng)絡(luò)中Louvain算法均識別出顯著的社團(tuán)結(jié)構(gòu)。具體而言,Gb形成108個簇,Gc形成654個簇,Gcc形成98個簇,而Gcci形成35個簇。為便于分析,本文移除節(jié)點數(shù)小于20及意義不明的簇,最終保留了Gb的22個簇,Gc的28個簇,Gcc的21個簇及Gcci的16個簇。可以發(fā)現(xiàn),相較于Gb和Gc,Gcc和Gcci生成的簇數(shù)量有所減少。
為進(jìn)一步分析NLP領(lǐng)域的研究主題,本文根據(jù)頻次選取每個簇的代表性知識實體并標(biāo)注其研究主題。限于篇幅,僅展示Gcci中部分簇的主題名稱、節(jié)點數(shù)量以及代表性知識實體,如表6所示。接著,使用維恩圖分析Gb、Gc、Gcc和Gcci中的研究主題間關(guān)系,如圖6所示。
可以發(fā)現(xiàn),全部4種網(wǎng)絡(luò)的交集涵蓋8個研究主題:“句法解析”“機(jī)器學(xué)習(xí)算法”“機(jī)器翻譯”“自然語言理解”“自然語言生成”“詞嵌入”“語法糾錯”以及“預(yù)訓(xùn)練語言模型”。這些主題在全部網(wǎng)絡(luò)中普遍存在,反映了NLP領(lǐng)域的核心研究內(nèi)容。此外,“多模態(tài)”“對抗學(xué)習(xí)”“指代/共指消解”“社交媒體文本處理”“評估”“形態(tài)切分”“語篇分析”“語言類型”“事件預(yù)測”“詞義消歧”“語音翻譯”“意圖檢測”和“實體與關(guān)系抽取”這些主題也在多個網(wǎng)絡(luò)中出現(xiàn),同樣揭示了NLP領(lǐng)域的重要研究方向。
接著對各網(wǎng)絡(luò)中的特有研究主題進(jìn)行分析,發(fā)現(xiàn)在Gb和Gc中均存在可歸并的特有研究主題。譬如,Gb中的“新聞推薦”可視為“個性化推薦”的子主題,“雙關(guān)語檢測”是“自然語言理解”的具體應(yīng)用;而Gc中的“中文文本處理”與“阿拉伯文本處理”均屬于面向特定語言的NLP子領(lǐng)域,“生物醫(yī)學(xué)實體與關(guān)系抽取”是“實體與關(guān)系抽取”的一個子類。盡管如此,Gb與Gc仍揭示了NLP領(lǐng)域中的若干重要研究內(nèi)容,如“知識圖譜分析”“語義分析”“語料”等。此外,Gcc中特有的“詞形變化”也屬于NLP領(lǐng)域的重要研究內(nèi)容。值得注意的是,Gcci并不包含特有的研究主題。
綜合表5可以發(fā)現(xiàn),Gb與Gc的研究主題相對零散且存在一定冗余,相比之下,跨文獻(xiàn)知識實體共現(xiàn)網(wǎng)絡(luò)Gcc與Gcci的研究主題則更加集中和凝練。這一差異可能源于跨文獻(xiàn)知識實體共現(xiàn)網(wǎng)絡(luò)通過施引文本—被引片段對,使得語義相關(guān)的知識實體得以跨越文獻(xiàn)邊界建立關(guān)聯(lián),從而顯著增強了網(wǎng)絡(luò)中知識實體節(jié)點的內(nèi)聚性。這種內(nèi)聚性同樣體現(xiàn)在3.3.1節(jié)中跨文獻(xiàn)知識實體共現(xiàn)網(wǎng)絡(luò)所展現(xiàn)的“小世界”特性。
4 總 結(jié)
現(xiàn)有的共詞網(wǎng)絡(luò)只能捕獲知識實體在同一文獻(xiàn)中的關(guān)聯(lián),無法建模跨文獻(xiàn)的知識實體關(guān)聯(lián),且缺乏語義信息。此外,現(xiàn)有的跨文獻(xiàn)知識實體網(wǎng)絡(luò)在構(gòu)建知識實體的跨文獻(xiàn)關(guān)聯(lián)時仍顯粗糙。有鑒于此,本文引入引文內(nèi)容分析方法,提出一種基于施引文本—被引片段對的跨文獻(xiàn)知識實體共現(xiàn)網(wǎng)絡(luò)構(gòu)建方法,并通過微觀引文重要性區(qū)分知識實體的同文獻(xiàn)關(guān)聯(lián)和跨文獻(xiàn)關(guān)聯(lián)。
自然語言處理領(lǐng)域的實證研究表明,相較于傳統(tǒng)共詞網(wǎng)絡(luò)與基于施引文本的知識實體共現(xiàn)網(wǎng)絡(luò),本文構(gòu)建的跨文獻(xiàn)知識實體共現(xiàn)網(wǎng)絡(luò)具有以下特點:首先,網(wǎng)絡(luò)規(guī)模更大,知識實體間的關(guān)聯(lián)更為豐富,且具備一定的稀疏性和“小世界”特性;其次,在知識實體重要性評價方面,基于此類網(wǎng)絡(luò)的加權(quán)度中心性評價方法信息含量更高,與頻次方法的相關(guān)性更強,且具有更好的區(qū)分能力;最后,從中挖掘得到的研究主題更為集中凝練。
本文綜合知識網(wǎng)絡(luò)、實體計量和引文內(nèi)容分析多個領(lǐng)域的理論和方法,不僅有效推動了這些領(lǐng)域的邊界延展與交叉融合,還為相關(guān)研究提供了新的方法論支持。此外,本文對促進(jìn)科學(xué)文獻(xiàn)的知識發(fā)現(xiàn)與利用,提升研究人員的認(rèn)知效率具有重要意義。
然而,本文仍存在一些局限:一方面,缺乏跨領(lǐng)域的實證分析;另一方面,知識實體抽取未考慮嵌套實體的影響。未來研究可進(jìn)一步擴(kuò)展應(yīng)用領(lǐng)域并完善知識實體抽取方法,以提高研究的適用性與準(zhǔn)確性。
參考文獻(xiàn)
[1]Zhang C Z,Mayr P,Lu W,et al.Guest Editorial:Extraction and Evaluation of Knowledge Entities in the Age of Artificial Intelligence[J].Aslib Journal of Information Management,2023,75(3):433-437.
[2]Ding Y,Song M,Han J,et al.Entitymetrics:Measuring the Impact of Entities[J].PLoS One,2013,8(8):e71416.
[3]代冰,胡正銀.基于文獻(xiàn)的知識發(fā)現(xiàn)新近研究綜述[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2021,5(4):1-12.
[4]Zhao W Y,Mao J,Lu K.Ranking Themes on Co-Word Networks:Exploring the Relationships Among Different Metrics[J].Information Processing amp; Management,2018,54(2):203-218.
[5]Wang Z Y,Li G,Li C Y,et al.Research on the Semantic-Based Co-Word Analysis[J].Scientometrics,2012,90(3):855-875.
[6]王忠義,譚旭,夏立新.共詞分析方法的細(xì)粒度化與語義化研究[J].情報學(xué)報,2014,33(9):969-978.
[7]Cheng Q K,Wang J M,Lu W,et al.Keyword-Citation-Keyword Network:A New Perspective of Discipline Knowledge Structure Analysis[J].Scientometrics,2020,124(3):1923-1943.
[8]陸偉,孟睿,劉興幫.面向引用關(guān)系的引文內(nèi)容標(biāo)注框架研究[J].中國圖書館學(xué)報,2014,40(6):93-104.
[9]徐健,李綱,毛進(jìn),等.文獻(xiàn)被引片段特征分析與識別研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,1(11):37-45.
[10]Wang Y Z,Zhang C Z.What Type of Domain Knowledge Is Cited by Articles with High Interdisciplinary Degree?[C]//Proceedings of the 81st ASISamp;T Annual Meeting.Hoboken,New Jersey,USA:Wiley,2018:919-921.
[11]王佳敏,陸偉,程齊凱,等.基于細(xì)粒度關(guān)鍵詞引用網(wǎng)絡(luò)的領(lǐng)域知識多維分析[J].情報學(xué)報,2022,41(7):733-744.
[12]Castriotta M,Loi M,Marku E,et al.Disentangling the Corporate Entrepreneurship Construct:Conceptualizing Through Co-Words[J].Scientometrics,2021,126(4):2821-2863.
[13]Hosseini S,Baziyad H,Norouzi R,et al.Mapping the Intellectual Structure of GIS-T Field(2008—2019):A Dynamic Co-Word Analysis[J].Scientometrics,2021,126(4):2667-2688.
[14]Miyashita S,Sengoku S.Scientometrics for Management of Science:Collaboration and Knowledge Structures and Complexities in an Interdisciplinary Research Project[J].Scientometrics,2021,126(9):7419-7444.
[15]陸泉,曹越,陳靜.基于語義關(guān)聯(lián)與模糊聚類的共詞分析方法[J].情報學(xué)報,2022,41(10):1003-1014.
[16]Whittaker J.Creativity and Conformity in Science:Titles,Keywords and Co-Word Analysis[J].Social Studies of Science,1989,19(3):473-496.
[17]Yu Q,Wang Q,Zhang Y F,et al.Analyzing Knowledge Entities About COVID-19 Using Entitymetrics[J].Scientometrics,2021,126(5):4491-4509.
[18]章成志,謝雨欣,張恒.學(xué)術(shù)文獻(xiàn)全文內(nèi)容中的方法實體細(xì)粒度抽取及演化分析研究[J].情報學(xué)報,2023,42(8):952-966.
[19]趙一鳴,尹嘉穎.語義增強型全文本共詞網(wǎng)絡(luò)的構(gòu)建與分析[J].情報學(xué)報,2023,42(10):1187-1198.
[20]章成志,張穎怡.基于學(xué)術(shù)論文全文的研究方法實體自動識別研究[J].情報學(xué)報,2020,39(6):589-600.
[21]Wang Y Z,Zhang C Z,Song M,et al.Exploring Academic Influence of Algorithms by Co-Occurrence Network Based on Full-Text of Academic Papers[J/OL].Aslib Journal of Information Management:1-30[2024-12-12].https://doi.org/10.1108/AJIM-09-2023-0352.
[22]章成志,謝雨欣,宋云天.學(xué)術(shù)文本中細(xì)粒度知識實體的關(guān)聯(lián)分析[J].圖書館論壇,2021,41(3):12-20.
[23]Bornmann L,Haunschild R,Hug S E.Visualizing the Context of Citations Referencing Papers Published by Eugene Garfield:A New Type of Keyword Co-Occurrence Analysis[J].Scientometrics,2018,114(2):427-437.
[24]Nam D,Kim J,Yoon J,et al.Characterizing Knowledge Entity Extracted from Citation Sentences[C]//Zhang C Z,Mayr P,Lu W,et al.Proceedings of the 3rd Workshop on Extraction and Evaluation of Knowledge Entities from Scientific Documents(EEKE 2022).Aachen,Germany:Sun SITE Central Europe,2022:80-91.
[25]馮璐,冷伏海.共詞分析方法理論進(jìn)展[J].中國圖書館學(xué)報,2006(2):88-92.
[26]Krenn M,Zeilinger A.Predicting Research Trends with Semantic and Neural Networks with an Application in Quantum Physics[J].Proceedings of the National Academy of Sciences,2020,117(4):1910-1916.
[27]Xiong T,Zhou L,Zhao Y,et al.Mining Semantic Information of Co-Word Network to Improve Link Prediction Performance[J].Scientometrics,2022,127(6):2981-3004.
[28]陳翔,黃璐,倪興興,等.基于動態(tài)語義網(wǎng)絡(luò)分析的主題演化路徑識別研究[J].情報學(xué)報,2021,40(5):500-512.
[29]Feng J,Zhang Y Q,Zhang H.Improving the Co-Word Analysis Method Based on Semantic Distance[J].Scientometrics,2017,111(3):1521-1531.
[30]Song M,Han N G,Kim Y H,et al.Discovering Implicit Entity Relation with the Gene-Citation-Gene Network[J].PLoS One,2013,8(12):e84639.
[31]程齊凱,王佳敏,陸偉.基于引用共詞網(wǎng)絡(luò)的領(lǐng)域基礎(chǔ)詞匯發(fā)現(xiàn)研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(6):57-65.
[32]Wang J M,Cheng Q K,Lu W,et al.A Term Function-Aware Keyword Citation Network Method for Science Mapping Analysis[J].Information Processing amp; Management,2023,60(4):103405.
[33]Tu Y N,Hsu S L.Constructing Conceptual Trajectory Maps to Trace the Development of Research Fields[J].Journal of the Association for Information Science and Technology,2016,67(8):2016-2031.
[34]王菲菲,王筱涵,徐碩,等.基于三維引文關(guān)聯(lián)網(wǎng)絡(luò)的潛在知識流動探測——以基因編輯領(lǐng)域為例[J].情報學(xué)報,2021,40(2):184-193.
[35]Kim E H J,Jeong Y K,Kim Y,et al.Exploring Scientific Trajectories of a Large-Scale Dataset Using Topic-Integrated Path Extraction[J].Journal of Informetrics,2022,16(1):101242.
[36]Huo C G,Ma S T,Liu X Z.Hotness Prediction of Scientific Topics Based on a Bibliographic Knowledge Graph[J].Information Processing amp; Management,2022,59(4):102980.
[37]Sun Y Z,Han J W,Yan X F,et al.PathSim:Meta Path-Based Top-K Similarity Search in Heterogeneous Information Networks[J].Proceedings of the VLDB Endowment,2011,4(11):992-1003.
[38]翟東升,劉鶴,張杰,等.一種基于鏈路預(yù)測的技術(shù)機(jī)會挖掘方法[J].情報學(xué)報,2016,35(10):1090-1100.
[39]Nam D,Kim J,Yoon J,et al.Examining Knowledge Entities and Its Relationships Based on Citation Sentences Using a Multi-Anchor Bipartite Network[J].Scientometrics,2024,129(11):7197-7228.
[40]Hsiao T M,Chen K H.The Dynamics of Research Subfields for Library and Information Science:An Investigation Based on Word Bibliographic Coupling[J].Scientometrics,2020,125(1):717-737.
[41]Zhang X Y,Xie Q,Song C,et al.Mining the Evolutionary Process of Knowledge Through Multiple Relationships Between Keywords[J].Scientometrics,2022,127(4):2023-2053.
[42]圖書館·情報與文獻(xiàn)學(xué)名詞審定委員會.圖書館·情報與文獻(xiàn)學(xué)名詞[M].北京:科學(xué)出版社,2019.
[43]王曉光.科學(xué)知識網(wǎng)絡(luò)的形成與演化(Ⅰ):共詞網(wǎng)絡(luò)方法的提出[J].情報學(xué)報,2009,28(4):599-605.
[44]文庭孝,劉曉英,梁秀娟,等.知識計量研究綜述[J].圖書情報知識,2010(1):95-101.
[45]Shao W,Hua B L,Ma Q,et al.An Unsupervised Method for Terminology Extraction from Scientific Text[C]//Zhang C Z,Mayr P,Lu W,et al.Proceedings of the 1st Workshop on Extraction and Evaluation of Knowledge Entities from Scientific Documents.Aachen,Germany:Sun SITE Central Europe,2020:86-88.
[46]Li J,Sun A X,Han J L,et al.A Survey on Deep Learning for Named Entity Recognition[J].IEEE Transactions on Knowledge and Data Engineering,2022,34(1):50-70.
[47]鄧依依,鄔昌興,魏永豐,等.基于深度學(xué)習(xí)的命名實體識別綜述[J].中文信息學(xué)報,2021,35(9):30-45.
[48]Huang Z H,Xu W,Yu K.Bidirectional LSTM-CRF Models for Sequence Tagging[EB/OL].[2024-12-12].http://arxiv.org/abs/1508.01991.
[49]Ma Y Q,Liu J W,Lu W,et al.Beyond Tasks,Methods,and Metrics:Extracting Metrics-Driven Mechanism from the Abstracts of AI Articles[C]//Zhang C Z,Mayr P,Lu W,et al.Proceedings of the 3rd Workshop on Extraction and Evaluation of Knowledge Entities from Scientific Documents(EEKE 2022).Aachen,Germany:Sun SITE Central Europe,2022:5-18.
[50]Ma Y Q,Liu J W,Lu W,et al.From“What”to“How”:Extracting the Procedural Scientific Information Toward the Metric-Optimization in AI[J].Information Processing amp; Management,2023,60(3):103315.
[51]Luan Y,He L H,Ostendorf M,et al.Multi-Task Identification of Entities,Relations,and Coreference for Scientific Knowledge Graph Construction[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing.Stroudsburg,Pennsylvania,USA:Association for Computational Linguistics,2018:3219-3232.
[52]Rohatgi S.ACL Anthology Corpus with Full Text[EB/OL].[2022-11-29].https://github.com/shauryr/ACL-anthology-corpus.
[53]陳京蓮,羅紅,羅小臣,等.基于文獻(xiàn)老化負(fù)指數(shù)方程的半衰期與普賴斯指數(shù)關(guān)系的研究[J].圖書情報工作,2012,56(8):73-76,101.
[54]哈爾濱工業(yè)大學(xué)自然語言處理研究所.ChatGPT調(diào)研報告[EB/OL].[2024-12-12].https://mp.weixin.qq.com/s/NyoSRvdk-_kVMbwQf2RgEQ.
[55]Ding Y,Liu X Z,Guo C,et al.The Distribution of References Across Texts:Some Implications for Citation Analysis[J].Journal of Informetrics,2013,7(3):583-592.
[56]胡志剛,陳超美,劉則淵,等.從基于引文到基于引用——一種統(tǒng)計引文總被引次數(shù)的新方法[J].圖書情報工作,2013,57(21):5-10.
[57]金賢日,歐石燕.無監(jiān)督引用文本自動識別與分析[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2021,5(1):66-77.
[58]Nambanoor K S,Pride D,Knoth P.Dynamic Context Extraction for Citation Classification[C]//Proceedings of the 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing(Volume 1:Long Papers).Stroudsburg,Pennsylvania,USA:Association for Computational Linguistics,2022:539-549.
[59]Nie W M,Ou S Y.Micro Citation Importance Identification and Its Application to Literature Evaluation[C]//Sserwanga I,Joho H,Ma J,et al.Proceedings of the 19th International Conference on Wisdom,Well-Being,Win-Win,iConference 2024.Cham,Switzerland:Springer Cham,2024:356-375.
[60]聶維民,歐石燕.面向被引片段識別的改進(jìn)混合方法[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2023,7(1):113-127.
[61]Jie A,Lin Y C,elik F.LSTM/BERT-CRF Model for Named Entity Recognition(or Sequence Labeling)[EB/OL].[2024-12-12].https://github.com/allanj/pytorch_neural_crf.
[62]Eberts M,Ulges A.Span-Based Joint Entity and Relation Extraction with Transformer Pre-Training[C]//ECAI 2020-24th European Conference on Artificial Intelligence.Santiago de Compostela,Spain,2020:2006-2013.
[63]Alstott J,Bullmore E,Plenz D.Powerlaw:A Python Package for Analysis of Heavy-Tailed Distributions[J].PLoS One,2014,9(1):e85777.
[64]Batagelj V,Mrvar A.Pajek-Program for Large Network Analysis[J].Connections,1998,21(2):47-57.
[65]梁爽,劉小平,柴文越.主題—引文融合視角下重要主題發(fā)現(xiàn)及知識流動路徑研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2024,8(2):99-113.
[66]Page L,Brin S,Motwani R,et al.The PageRank Citation Ranking:Bringing Order to the Web[R].Stanford,California:Stanford infolab,1999.
[67]耿樹青,楊建林.基于引用情感的論文學(xué)術(shù)影響力評價方法研究[J].情報理論與實踐,2018,41(12):93-98.
[68]姜霖,張麒麟.基于引文細(xì)粒度情感量化的學(xué)術(shù)評價研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2020,4(6):129-138.
[69]Albarrán P,Herrero C,Ruiz-Castillo J,et al.The Herrero-Villar Approach to Citation Impact[J].Journal of Informetrics,2017,11(2):625-640.
[70]Blondel V D,Guillaume J L,Lambiotte R,et al.Fast Unfolding of Communities in Large Networks[J].Journal of Statistical Mechanics:Theory and Experiment,2008,2008(10):P10008.
[71]Newman M E J.Fast Algorithm for Detecting Community Structure in Networks[J].Physical Review E,2004,69(6):066133.
(責(zé)任編輯:楊豐僑)