摘 要:[目的/意義]目前的共詞網(wǎng)絡僅能捕獲知識實體在同一文獻中的關聯(lián),難以建模跨文獻的知識實體關聯(lián),并且缺乏語義信息。此外,現(xiàn)有的跨文獻知識實體網(wǎng)絡在建模知識實體的跨文獻關聯(lián)等方面仍存在不足。因此,有必要探索更加完善的跨文獻知識實體共現(xiàn)網(wǎng)絡構建方法。[方法/過程]本文結(jié)合引文內(nèi)容分析的研究成果,提出一種基于施引文本—被引片段對的跨文獻知識實體共現(xiàn)網(wǎng)絡的構建方法,并通過微觀引文重要性來區(qū)分知識實體的同文獻關聯(lián)和跨文獻關聯(lián)。隨后,本文將構建的跨文獻知識實體共現(xiàn)網(wǎng)絡與傳統(tǒng)共詞網(wǎng)絡、基于施引文本的知識實體共現(xiàn)網(wǎng)絡進行了比較分析。[結(jié)果/結(jié)論]自然語言處理領域的實證研究表明,本文構建的網(wǎng)絡規(guī)模更大,知識實體間關聯(lián)更為豐富,且具有一定的稀疏性和“小世界”特性。在知識實體重要性評估中,基于該類網(wǎng)絡的加權度中心性方法蘊含著更豐富的信息,與頻次方法具有較高的相關性,且表現(xiàn)出更強的區(qū)分能力。通過該網(wǎng)絡挖掘的研究主題更為集中凝練。本文綜合運用了知識網(wǎng)絡、實體計量和引文內(nèi)容分析等領域的方法,不僅有效推動了這些領域的邊界延展與交叉融合,還為相關研究提供了新的方法論支撐。此外,本文對推動科學文獻的知識發(fā)現(xiàn)與利用、提升研究人員的認知效率具有重要意義。
關鍵詞:知識實體;實體計量;知識網(wǎng)絡;引文內(nèi)容分析;共詞網(wǎng)絡
DOI:10.3969/j.issn.1008-0821.2025.09.004
〔中圖分類號〕G254 〔文獻標識碼〕A 〔文章編號〕1008-0821(2025)09-0032-14
Construction and Analysis of Cross-Document Knowledge Entity
Co-occurrence Networks Based on Citation Content
Nie Weimin Ou Shiyan*
(School of Information Management,Nanjing University,Nanjing 210023,China)
Abstract:[Purpose/Significance]Existing co-word networks are confined to capturing associations of knowledge entities within individual documents and struggle to model cross-document associations of knowledge entities.Furthermore,they lack semantic information.Current cross-document knowledge entity networks also exhibit certain shortcomings in modeling cross-document associations of knowledge entities.Therefore,it is necessary to explore more refined construction methods for cross-document knowledge entity co-occurrence networks.[Method/Process]The study integrated research from citation content analysis to propose a novel method for constructing cross-document knowledge entity co-occurrence networks based on citing text-cited span pairs.And the method distinguished between intra-document and cross-document associations of knowledge entities by introducing micro citation importance.Subsequently,the study conducted a comparative analysis of the constructed cross-document knowledge entity co-occurrence networks,traditional co-word networks and knowledge entity co-occurrence networks based on citing text.[Result/Conclusion]Empirical research in natural language processing indicates that the proposed networks exhibit a larger scale,enrich associations among knowledge entities,and demonstrate characteristics of sparsity and“small-world”to a certain extent.In terms of knowledge entity importance evaluation,the weighted degree centrality method applied to the constructed networks encapsulates richer information,demonstrates a higher correlation with the frequency-based method,and exhibits stronger discriminatory capability.Additionally,research topics identified through the constructed networks are more concise and cohesive.This study integrates methodologies stemmed from knowledge networks,entitymetrics,and citation content analysis and so on,thereby pushing the frontiers of these domains and fostering interdisciplinary fusion,and offers novel methodological support for relevant research.Furthermore,this study holds significant implications for advancing knowledge discovery and utilization within scientific literature,as well as boosting researchers cognitive efficiency.
Key words:knowledge entity;entitymetrics;knowledge network;citation content analysis;co-word network
隨著科學文獻數(shù)量迅猛增長,研究人員面臨著日益沉重的認知負擔。因此,從海量文獻中精準提取有價值的信息,幫助研究人員高效獲取散布于文獻中的關鍵知識,具有重要意義。實體計量(Entitymetrics)從知識實體的視角分析科學文獻[1-2],提供了一種新穎的基于文獻的知識發(fā)現(xiàn)方法[3]。知識實體(Knowledge Entity)是科學文獻中承載知識的基本單元,包括作者關鍵詞、標引詞以及領域?qū)嶓w等[2],以語詞的形式在文獻中發(fā)揮關鍵作用。實體計量分析方法主要分為基于頻次與基于網(wǎng)絡兩類[4]。基于頻次的分析方法重點關注知識實體在特定數(shù)據(jù)集中出現(xiàn)的頻次,雖然能夠直觀反映知識實體的重要程度[4],但難以揭示知識實體間的復雜關聯(lián)。為克服這一局限,研究人員引入知識實體網(wǎng)絡,如共詞網(wǎng)絡,以深化對知識實體的分析理解。然而目前的共詞網(wǎng)絡存在以下缺陷:一方面,僅能捕獲同一文獻內(nèi)的知識實體關聯(lián),難以有效建模知識實體的跨文獻關聯(lián)[5];另一方面,網(wǎng)絡中的邊缺乏語義信息,只能籠統(tǒng)反映知識實體間的相關性[6]。針對這些問題,后續(xù)研究提出諸如作者關鍵詞引用網(wǎng)絡[7]等新型知識實體網(wǎng)絡。然而,這些研究在構建跨文獻知識實體關聯(lián)時仍顯粗糙,如未能有效區(qū)分知識實體的同文獻關聯(lián)與跨文獻關聯(lián)。
近年來,引文內(nèi)容分析逐漸成為研究熱點,通過分析描述引用行為的上下文內(nèi)容,深入探討施引文獻與被引文獻之間的語義關系,從而揭示引用行為的本質(zhì)[8]。其中,施引文本是施引文獻中帶有引用標記的施引句及其上下文[8];在被引文獻中與之對應的文本片段被稱為被引片段,即促成該引用行為的內(nèi)容[9]。施引文本與被引片段對引用行為進行了詳細描述,共同構成基于文獻引用的正式學術交流渠道[9],在語義層面緊密相關,因此,本文將兩者統(tǒng)稱為引文內(nèi)容。施引文本與被引片段中的知識實體是施引文獻提及被引文獻時的具體內(nèi)容,構成兩者在內(nèi)容層面的關鍵連接點。這些知識實體數(shù)量豐富、關聯(lián)緊密,能夠更細粒度地揭示知識的流動與傳播特征,因此被視為重要的知識載體,并在研究中得到廣泛使用[10]。譬如,王佳敏等[11]基于施引文本中的知識實體構建網(wǎng)絡。然而,目前相關研究大多并未考慮被引片段中的知識實體,導致構建的網(wǎng)絡仍然僅能反映知識實體的同文獻關聯(lián)。有鑒于此,本文將知識實體的抽取范圍擴展到被引片段,提出一種基于施引文本—被引片段對的跨文獻知識實體共現(xiàn)網(wǎng)絡構建方法,并考慮文獻間引用關系的重要程度,以區(qū)分知識實體的同文獻關聯(lián)與跨文獻關聯(lián)。本文綜合知識網(wǎng)絡、實體計量和引文內(nèi)容分析等多領域的方法,有效推動了這些領域的邊界擴展與交叉融合,并為相關研究提供了新的思路。進一步,本文在促進科學文獻的知識發(fā)現(xiàn)與利用、提升研究人員的認知效率等方面同樣具有重要意義。
1 相關研究
1.1 共詞網(wǎng)絡
共詞網(wǎng)絡是一種描述知識實體共現(xiàn)關系的知識網(wǎng)絡[12-14],通常表現(xiàn)為無向有權圖,其節(jié)點代表知識實體,邊表示與之相連的知識實體在同一文獻內(nèi)共現(xiàn),邊權反映知識實體間的共現(xiàn)強度。
傳統(tǒng)共詞網(wǎng)絡構建主要基于題錄數(shù)據(jù),通常選取作者關鍵詞[15]或從標題[16]及摘要[17]中抽取知識實體。此后,知識實體抽取范圍逐漸從題錄數(shù)據(jù)擴展至全文數(shù)據(jù)[18-19],顯著提升了分析效果。譬如,章成志等[20]從《情報學報》、ACL年會[18,21]以及CCL[22]文獻全文中抽取知識實體。此外,也有研究人員將知識實體抽取范圍從全文數(shù)據(jù)進一步縮小至施引文本,如Bornmann L等[23]提出基于施引文本的知識實體共現(xiàn)關系。Nam D等[24]比較了基于全文和施引文本的共詞網(wǎng)絡,發(fā)現(xiàn)后者在網(wǎng)絡密度及新穎實體關聯(lián)挖掘等方面具有優(yōu)勢。
盡管知識實體間存在多種語義關系,如屬性—宿主關系、工具—事件關系等,但共詞網(wǎng)絡僅能通過“相關性”來對這些語義關系進行籠統(tǒng)概括[25-26],因此在語義信息的表達上存在局限性。為了在共詞網(wǎng)絡中更好地編碼語義信息,一些研究將知識實體間的相似度作為其邊權,計算方法包括隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)[27]、詞嵌入余弦相似度[28]以及本體位置[29]等。
1.2 跨文獻知識實體網(wǎng)絡
為克服共詞網(wǎng)絡僅能捕獲知識實體的同文獻關聯(lián)的局限性,一些研究人員提出知識實體引用網(wǎng)絡,以建模知識實體的跨文獻關聯(lián)。Ding Y等[2]和Song M等[30]將文獻間引用關系直接拓展到其中的知識實體,在文獻的標題和摘要中抽取領域?qū)嶓w,構建實體間引用關系并形成知識實體引用網(wǎng)絡。類似地,Cheng Q K[7]、程齊凱等[31]將文獻間引用關系拓展至作者關鍵詞,形成作者關鍵詞引用網(wǎng)絡,并將作者關鍵詞劃分為“問題”和“方法”兩類,作者關鍵詞間關系也進一步分為問題—問題、問題—方法以及方法—方法三類[32]。此外,Tu Y N等[33]首先生成引文網(wǎng)絡的主路徑,接著通過詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)算法從主路徑文獻的題錄數(shù)據(jù)中獲取知識實體,并以這些知識實體替換原始文獻節(jié)點,形成知識實體引用路徑。
還有研究人員通過LDA從文獻題錄數(shù)據(jù)中生成主題詞,并構建主題詞引用網(wǎng)絡[34]。譬如,Kim E H J等[35]使用LDA中概率最大的主題詞代替引文網(wǎng)絡中的文獻,形成主題詞引用網(wǎng)絡。Huo C G等[36]構建主題詞—文獻—文獻—主題詞元路徑[37],實質(zhì)上形成主題詞引用網(wǎng)絡。除上述知識實體外,其他知識實體也被用于構建知識實體引用網(wǎng)絡。譬如,翟東升等[38]將專利間的引用關系拓展至其國際專利分類(International Patent Classification,IPC)的分類號,形成IPC分類號引用網(wǎng)絡。王佳敏等[11]深入文獻全文,提出施引文本中的知識實體與作者關鍵詞之間存在引用關系。
然而,當前知識實體引用網(wǎng)絡仍然存在諸多缺陷。一方面,將文獻引用關系直接拓展至其中的知識實體缺乏充分的理論基礎;另一方面,出于種種原因,知識實體引用網(wǎng)絡的有向性在實踐中常被忽略,許多研究仍傾向于將其弱化為無向網(wǎng)絡進行分析[11]。
鑒于知識實體引用網(wǎng)絡的局限性,研究人員還探索了構建知識實體跨文獻關聯(lián)的其他方法。與知識實體引用網(wǎng)絡不同,這些方法通常生成無向網(wǎng)絡。Nam D等[24,39]認為,位于不同文獻中的同類章節(jié)且指向同一研究人員的施引文本中的知識實體存在關聯(lián),從而構建了跨文獻知識實體共現(xiàn)網(wǎng)絡。Hsiao T M等[40]借鑒文獻耦合概念,提出跨文獻的知識實體耦合關系:將從文獻摘要中抽取的知識實體與該文獻的參考文獻集合關聯(lián),若兩個知識實體關聯(lián)的參考文獻集合存在交集,則認為其存在耦合關系,耦合強度由交集大小決定。Zhang X Y等[41]則綜合了知識實體的共現(xiàn)、引用關系和共同作者信息,構建了更全面的知識實體網(wǎng)絡。
需要指出的是,現(xiàn)有的跨文獻知識實體關聯(lián)構建方法仍顯粗糙。譬如,Nam D等[24,39]和Zhang X Y等[41]認為,與特定研究人員相關的知識實體形成跨文獻關聯(lián)。然而,一位研究人員的興趣通常涉及多個方面,導致與之相關的知識實體未必具有足夠的相關性。此外,知識實體的同文獻關聯(lián)和跨文獻關聯(lián)存在明顯差異,但現(xiàn)有研究通常并未對二者加以區(qū)分。盡管存在不足,但這些研究仍為共詞網(wǎng)絡優(yōu)化提供了異于知識實體引用網(wǎng)絡的創(chuàng)新思路。
1.3 知識實體抽取
知識是與使用者的能力和經(jīng)驗相結(jié)合的信息,或是通過學習、實踐和探索獲得的認識、判斷或技能[42]。知識本身缺乏物理形態(tài)[43-44],因此需要借助一定的載體呈現(xiàn),如研究人員、科學文獻等[44]。在科學文獻中,知識實體是承載知識的基本單元[2],通常以語詞的形式出現(xiàn)。對知識實體深入分析有助于揭示領域演化動態(tài)、分析知識擴散規(guī)律、進行科學評價以及測度創(chuàng)新性等。其中,知識實體抽取是這些分析的基礎,主要方法包括人工標注、規(guī)則匹配、傳統(tǒng)機器學習和深度學習[18]。
人工標注方法通過專家閱讀文獻并標記其中的知識實體[10]。這種方法雖然能夠產(chǎn)生高質(zhì)量的標注,但因依賴專業(yè)知識且耗時耗力,標注規(guī)模受限。規(guī)則匹配方法需領域?qū)<翌A先制定規(guī)則,再依據(jù)規(guī)則匹配知識實體[45]。該方法查準率較高,但在遷移到其他領域時需重新制定規(guī)則,增加了人力成本。為克服規(guī)則匹配的局限,研究人員引入基于傳統(tǒng)機器學習的抽取方法,常用算法包括隱馬爾可夫模型、條件隨機場、最大熵和支持向量機等。相較于規(guī)則匹配,傳統(tǒng)機器學習方法增強了泛化能力,但對標注語料和特征工程依賴較高。
為減少特征工程工作量,深度學習逐漸興起。基于深度學習的知識實體抽取通常采用序列標注模型,典型的模型框架包含詞編碼層、序列編碼層以及解碼層[46-47]。Huang Z H等[48]提出,將詞嵌入(Word Embedding,WE)、雙向長短期記憶網(wǎng)絡(Bi-directional Long Short-Term Memory,BiLSTM)和條件隨機場(Conditional Random Field,CRF)分別用于詞編碼層、序列編碼層以及解碼層。此后,該WE-BiLSTM-CRF框架得以廣泛應用[46]。隨著預訓練語言模型(Pre-trained Language Model,PLM)的崛起,其逐漸在詞編碼層中取代詞嵌入,形成PLM-BiLSTM-CRF框架,進一步提升了識別表現(xiàn)。除序列標注模型外,一些研究還探索了通過片段分類[49]和閱讀理解[50]模型進行知識實體抽取,效果同樣顯著。片段分類模型將句子中的子片段分為“知識實體”或“非知識實體”兩類,盡管原理簡單,但需反復遍歷句子生成長度不同的子片段,導致計算開銷較大。閱讀理解模型則將知識實體抽取視為一種自然語言生成任務,其模型復雜度和計算開銷同樣較高。
2 跨文獻知識實體共現(xiàn)網(wǎng)絡構建方法
為克服共詞網(wǎng)絡及相關研究的局限性,本文提出一種基于施引文本—被引片段對的知識實體跨文獻關聯(lián)構建方法,并引入微觀引文重要性,以區(qū)分知識實體的同文獻和跨文獻關聯(lián),由此構建跨文獻知識實體共現(xiàn)網(wǎng)絡,并進行后續(xù)分析。整體框架如圖1所示。首先,在知識實體抽取實驗語料上訓練和測試模型;其次,通過預處理獲得實證分析語料,從中提取題錄數(shù)據(jù)及施引句,并對施引句進行引文內(nèi)容分析處理,具體包括施引文本抽取、微觀引文重要性識別以及被引片段識別;然后,通過知識實體抽取模型從施引文本、被引片段以及題錄數(shù)據(jù)中抽取知識實體,并對其進行規(guī)范化及篩選處理;最后,基于篩選后的知識實體構建同文獻和跨文獻知識實體共現(xiàn)網(wǎng)絡,并進行比較分析。
2.1 語 料
本文采用兩類語料:知識實體抽取實驗語料與實證分析語料。前者用于訓練和測試知識實體抽取模型,以確定最優(yōu)模型,隨后通過該最優(yōu)模型對后者進行處理,以支持實證分析。
具體而言,本文知識實體抽取實驗語料為SciERC[51],該語料詳細標注了人工智能領域科學文獻中的知識實體及其類型、關系和共指信息。其中,知識實體類型包括方法、任務、數(shù)據(jù)、評價指標、其他以及通用。
綜合考慮筆者的知識背景及文獻全文數(shù)據(jù)的可獲得性,本文基于ACL文集全文語料(ACL Anthology Corpus with Full Text)[52]開展實證分析。該語料來自國際計算語言學學會(Association for Computational Linguistics,ACL)建立的開放獲取全文數(shù)據(jù)庫ACL文集,基本涵蓋自然語言處理(Natural Language Processing,NLP)領域最具影響力的期刊和會議文獻。然而,ACL文集全文語料并未維護文獻間引用關系,因此,本文進一步提取了其中的引用關系,獲得552 383條引用關系,覆蓋64 004篇文獻。
為揭示NLP領域的演化動態(tài),本文不僅考察年度發(fā)文量,還借鑒文獻老化理論[53],引入“平均施引間隔”指標,以量化某年發(fā)表的文獻與其所引文獻發(fā)表年份之間的平均差值。平均施引間隔下降反映出研究人員傾向于引用近期文獻,表明研究興趣或范式的轉(zhuǎn)變;反之,平均施引間隔上升則表明研究人員仍傾向于引用較早期文獻。需要指出的是,1980年之前的數(shù)據(jù)不完整,且ACL文集全文語料采集截至2022年9月,圖2展示的是1980—2022年的年度發(fā)文量與平均施引間隔。
可以發(fā)現(xiàn),NLP領域的年度發(fā)文量呈指數(shù)增長,表明該領域仍處于蓬勃發(fā)展階段。而平均施引間隔曲線中的1999年和2014年兩個極值點,將1980—2022年大致劃分為3個發(fā)展階段:1999年之前為第一階段,研究主要依賴小規(guī)模專家知識,平均施引間隔波動上升,表明NLP領域初步成型;1999—2014年為第二階段,平均施引間隔先降后升,反映出傳統(tǒng)機器學習算法逐步替代專家知識并趨向成熟;第三階段始于2015年,平均施引間隔下降并維持低位,揭示出深度學習算法取代傳統(tǒng)機器學習算法,成為NLP領域的主導范式。上述發(fā)展階段劃分與領域?qū)<乙庖姡?4]基本相符,不過在相
圖1 研究框架Fig.1 Research Framework
圖2 年度發(fā)文量及平均施引間隔Fig.2 Annual Number of Publications and Average Citation Interval
關時間節(jié)點上略有滯后,原因可能在于新研究范式從興起到普及需要一定時間。
基于提取的引用關系,本文進一步獲取了789 961條施引句。結(jié)合前述引用關系數(shù)量,計算得到每條引用關系平均對應1.43條施引句,與已有研究中的1.63[55]及1.46[56]相近。此外,抽樣分析顯示92.87%的引用關系成功匹配到施引句。這些發(fā)現(xiàn)進一步驗證了本文實證分析語料構建的合理性和有效性。
本文接著對施引句進行引文內(nèi)容分析處理,包括施引文本抽取、微觀引文重要性識別以及被引片段識別。在施引文本抽取方面,已有工作主要采用靜態(tài)方法[39]。譬如,王佳敏等[11]將施引文本范圍擴展至施引句的前后句。靜態(tài)方法盡管簡單易行,但可能引入較多噪聲[57]。為提升抽取精度,Nambanoor K S等[58]提出一種基于文本相似度的動態(tài)抽取方法,首先計算施引句與被引文獻標題和摘要的相似度并將其作為閾值,將相似度超過閾值的施引句上下文句子作為施引文本,并在引文分類任務中表現(xiàn)優(yōu)異。本文采用該動態(tài)方法,以期更加全面、準確地抽取施引文本,保證后續(xù)分析質(zhì)量。此外,本文分別采用文獻[59]和文獻[60]的方法,識別施引句的微觀引文重要性及其對應的被引片段。
2.2 知識實體抽取模型構建
基于深度學習的知識實體抽取方法表現(xiàn)優(yōu)異[46],其中片段分類和閱讀理解模型盡管在性能上具有優(yōu)勢,但計算開銷較高且模型較為復雜。相比之下,序列標注模型在計算開銷及性能之間取得較好的平衡。有鑒于此,本文選用序列標注模型,具體實現(xiàn)為典型的PLM-BiLSTM-CRF框架,如圖3所示。
圖3 知識實體抽取模型框架Fig.3 Framework of the Knowledge Entity Extraction Model
需要指出的是,本文使用的知識實體抽取實驗語料和實證分析語料分別來自人工智能與NLP領域,其中知識實體抽取實驗語料中部分文獻來自NLP領域[51]。此外,NLP與人工智能其他領域密切相關,許多知識實體在不同領域間通用,如卷積神經(jīng)網(wǎng)絡最初用于機器視覺,后被引入NLP領域。因此,將基于人工智能領域語料訓練的知識實體抽取模型應用于本文的實證分析語料具有合理性。
2.3 知識實體共現(xiàn)網(wǎng)絡構建
針對共詞網(wǎng)絡及相關研究的不足,本文構建了兩類跨文獻知識實體共現(xiàn)網(wǎng)絡:基于施引文本—被引片段對的知識實體共現(xiàn)網(wǎng)絡Gcc和基于施引文本—被引片段對的知識實體共現(xiàn)語義網(wǎng)絡Gcci。兩者區(qū)別在于,Gcci在邊權計算中引入微觀引文重要性,以區(qū)分知識實體的同文獻關聯(lián)和跨文獻關聯(lián)。此外,為便于比較,本文還構建了兩類同文獻知識實體共現(xiàn)網(wǎng)絡:基于題錄數(shù)據(jù)的知識實體共現(xiàn)網(wǎng)絡Gb(即傳統(tǒng)共詞網(wǎng)絡)和基于施引文本的知識實體共現(xiàn)網(wǎng)絡Gc。
為便于描述網(wǎng)絡構建過程,對相關標記作以下約定:具有對應關系的施引文本和被引片段分別記為C與P,并構成形式為二元組lt;C,Pgt;的施引文本—被引片段對,每個lt;C,Pgt;對應一個微觀引文重要性預測值;此外,一篇文獻由標題和摘要構成的題錄數(shù)據(jù)表示為B(ACL文集不含作者關鍵詞)。經(jīng)過知識實體抽取后,題錄數(shù)據(jù)B、施引文本C和被引片段P可進一步表示為知識實體集合,分別記為B={eb1,eb2,…,ebk}、C={ec1,ec2,…,ecn}以及P={ep1,ep2,…,epm}。接下來將詳細介紹知識實體共現(xiàn)網(wǎng)絡構建過程。
基于題錄數(shù)據(jù)的知識實體共現(xiàn)網(wǎng)絡記為Gb=(Vb,Eb,Wb)。其中,Vb表示知識實體的節(jié)點集合,其中的知識實體ei,ej∈Vb且ei≠ej。若ei,ej∈B,則認為ei與ej共現(xiàn)于題錄數(shù)據(jù)B。Eb∈Vb×Vb為代表知識實體基于題錄數(shù)據(jù)的共現(xiàn)關系的邊集合,Wb是對應的有權鄰接矩陣。若兩個知識實體在至少一篇文獻的題錄數(shù)據(jù)中同時出現(xiàn),則代表它們的節(jié)點間形成一條邊,邊的權重代表其共現(xiàn)強度。類似地,基于施引文本的知識實體共現(xiàn)網(wǎng)絡表示為Gc=(Vc,Ec,Wc),其構建方式與Gb基本相同。區(qū)別在于,Gc中的知識實體共現(xiàn)于施引文本而非題錄數(shù)據(jù)。
基于施引文本—被引片段對的知識實體共現(xiàn)網(wǎng)絡表示為Gcc=(Vcc,Ecc,Wcc)。Vcc是知識實體節(jié)點集合,知識實體ei,ej∈Vcc且ei≠ej。若ei,ej∈(C∪P),則認為ei和ej共現(xiàn)于施引文本—被引片段對lt;C,Pgt;,EccVcc×Vcc為代表知識實體基于施引文本—被引片段對的共現(xiàn)關系的邊集合。Wcc是對應的有權鄰接矩陣。若ei和ej在至少1個施引文本—被引片段對中共現(xiàn),則代表它們的節(jié)點之間形成一條邊,邊權同樣為兩者共現(xiàn)強度。
基于施引文本—被引片段對的知識實體共現(xiàn)語義網(wǎng)絡記為Gcci=(Vcc,Ecci,Wcci)。其知識實體節(jié)點集合Vcc與Gcc相同。不同于Gcc,Gcci中的知識實體關聯(lián)進一步劃分為同文獻關聯(lián)和跨文獻關聯(lián)。具體而言,若(ei,ej∈C)∨(ei,ej∈P),則表明知識實體ei與ej共現(xiàn)于同一施引文本或被引片段,此時兩者均來自同一篇文獻,本文稱ei與ej形成同文獻關聯(lián)。相對地,若((ei∈C∧eiP)∧(ej∈P∧ejC))∨((ei∈P∧eiC)∧(ej∈C∧ejP)),則代表ei與ej分別來自施引文本C和被引片段P。鑒于兩者分屬不同的施引文獻和被引文獻,本文稱ei與ej形成跨文獻關聯(lián)。Gcci的邊集合Ecci也被劃分為兩個子集:代表同文獻關聯(lián)的邊集合EintraVcc×Vcc以及代表跨文獻關聯(lián)的邊集合EinterVcc×Vcc,即Ecci=Eintra∪Einter。
需要指出的是,知識實體跨文獻關聯(lián)弱于同文獻關聯(lián)(詳見3.3.1節(jié)分析),因此有必要對兩者進行區(qū)分。Nie W M等[59]提出一種基于回歸的微觀引文重要性識別方法,通過生成0~1之間的預測值,從施引句角度衡量被引文獻對施引文獻的智力支持程度,為量化知識實體間的跨文獻關聯(lián)強度提供了新方法。有鑒于此,本文在計算Gcci有權鄰接矩陣Wcci時,引入微觀引文重要性,以精確區(qū)分知識實體的同文獻關聯(lián)與跨文獻關聯(lián)。具體而言,對于知識實體ei,ej∈(C∪P),若兩者形成同文獻關聯(lián),則邊權增量為1;若形成跨文獻關聯(lián),則邊權增量為lt;C,Pgt;對應的微觀引文重要性預測值。需要注意的是,知識實體ei與ej可能同時形成同文獻關聯(lián)和跨文獻關聯(lián)。在這種情況下,鑒于同文獻關聯(lián)更為緊密,邊權增量仍設定為1,以優(yōu)先表示同文獻關聯(lián)。
從知識實體關聯(lián)類型來說,Gb與Gc屬于同文獻知識實體共現(xiàn)網(wǎng)絡,而Gcc與Gcci則屬于跨文獻知識實體共現(xiàn)網(wǎng)絡。從知識實體來源角度分析,Gb基于題錄數(shù)據(jù)構建,而Gc、Gcc與Gcci則基于全文數(shù)據(jù)構建。值得注意的是,Nam D等[24,39]發(fā)現(xiàn),基于施引文本的知識實體共現(xiàn)網(wǎng)絡在諸多方面優(yōu)于基于全文的知識實體共現(xiàn)網(wǎng)絡,如網(wǎng)絡密度及新穎實體關聯(lián)挖掘,因此本文并未構建后者。
3 結(jié)果分析
3.1 知識實體抽取實驗
本文基于PLM-BiLSTM-CRF框架[61]構建知識實體抽取模型。在PLM詞編碼層,本文比較了BERT、SciBERT以及RoBERTa的表現(xiàn)。鑒于PLM中的自注意力機制在文本序列建模方面優(yōu)于BiLSTM,本文進一步考察是否保留BiLSTM序列編碼層對模型整體表現(xiàn)的影響,以優(yōu)化知識實體抽取表現(xiàn)。
此外,為確保抽取結(jié)果與現(xiàn)有研究[62]具有可比性,本文保留SciERC語料中的全部6個知識實體類別(參見2.1節(jié)),并選取微F1作為評價指標。知識實體抽取模型的表現(xiàn)如表1所示。
結(jié)果表明,去除BiLSTM序列編碼層后,采用不同PLM詞編碼層的知識實體抽取模型表現(xiàn)均有所提升。其中,以RoBERTa為詞編碼層的模型表現(xiàn)最佳,SciBERT次之,BERT相對較差。因此,本文選擇以RoBERTa為詞編碼層且不含BiLSTM序列編碼層的模型(即RoBERTa-CRF)作為最優(yōu)的知識實體抽取模型。
3.2 知識實體數(shù)量及頻次分析
為深化對實證分析語料中知識實體的分析理解,在完成知識實體抽取后,本文對其數(shù)量及頻次進行了系統(tǒng)考察。需要指出的是,盡管知識實體抽取實驗保留了SciERC語料中的全部六類知識實體,以便與已有研究進行比較,但其中的“其他”和“通用”類別知識實體主要用于支持原研究的共指消解任務,與本文關聯(lián)有限。因此,本文在后續(xù)分析中僅關注“方法”“任務”“數(shù)據(jù)”與“評價指標”四類知識實體。
本文分析了這四類知識實體的數(shù)量占比及頻次數(shù)量比,如圖4所示。數(shù)量占比指某類知識實體數(shù)量在全部四類知識實體中的比例,旨在反映該類知識實體在NLP研究中的相對重要性。頻次數(shù)量比則為特定類型知識實體的頻次總和與其數(shù)量之比,即平均出現(xiàn)頻次,反映其復用情況。可以發(fā)現(xiàn),“方法”類知識實體的數(shù)量占比超過一半,表明NLP領域的研究主要由“方法”驅(qū)動。而“評價指標”類知識實體的頻次數(shù)量比最高,表明其在NLP領域中被反復提及的可能性最大。
為揭示知識實體的分布特征并為后續(xù)篩選提供依據(jù),本文對知識實體的頻次分布進行了詳細分析,如圖5所示。圖中藍色實線為知識實體頻次的概率密度分布曲線。本文使用Powerlaw工具[63]對其進行冪律分布擬合,紅色點劃線為擬合得到的冪律分布曲線。可以發(fā)現(xiàn),知識實體的頻次分布呈現(xiàn)較為明顯的冪律特征。進一步地,本文通過似然比檢驗,定量比較了冪律分布與對數(shù)正態(tài)分布、指數(shù)分布、截斷冪律分布、拓展指數(shù)分布和正對數(shù)正態(tài)分布的擬合效果。定量分析結(jié)果表明,在這些分布中,知識實體頻次分布最符合冪律分布。
圖4 不同類型知識實體數(shù)量占比及頻次數(shù)量比Fig.4 Proportion and Frequency-to-Quantity Ratio ofDifferent Types of Knowledge Entities
圖5 知識實體頻次概率密度分布及冪律分布擬合曲線Fig.5 Probability Density Distribution of Knowledge EntityFrequencies and Power Law Distribution Fitting Curve
3.3 知識實體共現(xiàn)網(wǎng)絡分析
為揭示構建的跨文獻知識實體共現(xiàn)網(wǎng)絡的特點,本文對Gb、Gc、Gcc與Gcci進行系統(tǒng)比較分析,涵蓋整體拓撲特征分析、知識實體重要性評價,以及領域研究主題挖掘。需要指出的是,由于涉及的知識實體數(shù)量龐大,分析如此規(guī)模的網(wǎng)絡計算開銷很大。因此,在構建網(wǎng)絡之前,需對知識實體進行篩選,以在保留重要知識實體并保持分析結(jié)果穩(wěn)定的同時,顯著減少知識實體的數(shù)量。鑒于知識實體的頻次分布呈現(xiàn)冪律特征,本文采用綜合考慮知識實體數(shù)量與累計頻次的二八定律篩選方法,最終選取頻次排名前20.782%的知識實體,其累計頻次占比達81.057%。
3.3.1 整體拓撲特征分析
為比較網(wǎng)絡整體結(jié)構的差異,本文選用7個網(wǎng)絡指標:節(jié)點數(shù)、邊數(shù)、平均度、密度、平均路徑長度、網(wǎng)絡直徑以及平均聚類系數(shù)。節(jié)點和邊是構成網(wǎng)絡的基本要素,其數(shù)量共同反映網(wǎng)絡規(guī)模。平均度是網(wǎng)絡中所有節(jié)點的平均連接數(shù),用以衡量知識實體間關聯(lián)的豐富程度。密度表示實際邊數(shù)與最大可能邊數(shù)之比,用于描述網(wǎng)絡的稀疏程度。平均路徑長度代表節(jié)點間最短路徑的平均值,網(wǎng)絡直徑則是節(jié)點間最短路徑的最大值。聚類系數(shù)度量特定節(jié)點鄰居間的連接比例,平均聚類系數(shù)則是所有節(jié)點聚類系數(shù)的均值。平均路徑長度、網(wǎng)絡直徑和平均聚類系數(shù)綜合揭示了網(wǎng)絡的“小世界”特性。
本文通過Pajek軟件[64]計算這些網(wǎng)絡指標,結(jié)果如表2所示。盡管Gb、Gc、Gcc與Gcci均為有權網(wǎng)絡,但為更準確揭示網(wǎng)絡整體拓撲特征,本文在計算時將其作為無權網(wǎng)絡處理,以消除邊權的影響。需要注意的是,Gcc與Gcci的主要區(qū)別在于邊權不同,因此在無權化處理后,兩者的網(wǎng)絡指標值一致。
首先,從節(jié)點數(shù)和邊數(shù)來看,Gcc/Gcci、Gc與Gb的規(guī)模依此遞減,表明相較于題錄數(shù)據(jù)與施引文本,同時從施引文本和被引片段中抽取知識實體顯著擴大了覆蓋范圍,使得跨文獻知識實體共現(xiàn)網(wǎng)絡規(guī)模更大。其次,Gcc/Gcci的平均度高于Gb和Gc,表明在跨文獻知識實體共現(xiàn)網(wǎng)絡中,知識實體能夠跨越文獻界限建立更加豐富的關聯(lián)。而在密度方面,Gb、Gcc/Gcci與Gc依次遞減,即基于全文數(shù)據(jù)的Gc、Gcc與Gcci比基于題錄數(shù)據(jù)的Gb更稀疏。然而,在基于全文數(shù)據(jù)的知識實體共現(xiàn)網(wǎng)絡內(nèi)部,Gcc/Gcci的密度顯著高于Gc,表明雖然基于全文數(shù)據(jù)的知識實體共現(xiàn)網(wǎng)絡較為稀疏,但知識實體間更為豐富的跨文獻關聯(lián)仍然提升了網(wǎng)絡密度。最后,Gcc/Gcci的平均路徑長度、網(wǎng)絡直徑和平均聚類系數(shù)均小于Gb與Gc。較小的平均路徑長度和網(wǎng)絡直徑表明跨文獻知識實體共現(xiàn)網(wǎng)絡具有更顯著的“小世界”特性,而較低的平均聚類系數(shù)與之相反。類似地,Cheng Q K等[7]構建的作者關鍵詞引用網(wǎng)絡的平均聚類系數(shù)也低于傳統(tǒng)共詞網(wǎng)絡。這與本文結(jié)果共同表明,與其他知識實體具有跨文獻關聯(lián)的知識實體間的關聯(lián)性較低,即知識實體的跨文獻關聯(lián)弱于同文獻關聯(lián)。這進一步說明,本文區(qū)分這兩類關聯(lián)的必要性與合理性。
綜上所述,相較于傳統(tǒng)共詞網(wǎng)絡以及基于施引文本的知識實體共現(xiàn)網(wǎng)絡,本文提出的跨文獻知識實體共現(xiàn)網(wǎng)絡不僅在網(wǎng)絡規(guī)模和關聯(lián)豐富性方面具備優(yōu)勢,還展現(xiàn)了一定的稀疏性和“小世界”特性。
3.3.2 知識實體重要性評價
衡量知識實體重要性的方法主要分為基于頻次和基于網(wǎng)絡兩類[65]。前者依據(jù)知識實體在特定數(shù)據(jù)集中出現(xiàn)的頻次判定其重要性,后者則通過網(wǎng)絡分析方法評估網(wǎng)絡中代表知識實體的節(jié)點重要性,常用的指標包括度中心性、接近中心性、介數(shù)中心性和PageRank等。度中心性通過統(tǒng)計與節(jié)點直接相連的節(jié)點數(shù)量來評估其重要性,加權度中心性(Weighted Degree Centrality,WDC)則進一步考慮邊的權重,更適用于有權網(wǎng)絡。接近中心性考察特定節(jié)點與其他節(jié)點的平均最短路徑長度,介數(shù)中心性則關注經(jīng)過某節(jié)點的最短路徑數(shù)量。PageRank源于網(wǎng)頁排序[66],通常用于有向網(wǎng)絡。
值得注意的是,接近中心性與介數(shù)中心性的計算復雜度較高,在大規(guī)模網(wǎng)絡中實現(xiàn)高效計算仍具挑戰(zhàn)。Zhao W Y等[4]發(fā)現(xiàn),在共詞網(wǎng)絡中,前述節(jié)點重要性指標之間具有較強相關性。鑒于本文涉及的網(wǎng)絡規(guī)模較大,且與共詞網(wǎng)絡一樣均為無向有權網(wǎng)絡,本文選用加權度中心性(WDC)衡量Gb、Gc、Gcc以及Gcci中知識實體的重要性,同時將頻次作為基準。本文使用了5種評價方法:頻次方法、Gb+WDC、Gc+WDC、Gcc+WDC以及Gcci+WDC。其中,后4種統(tǒng)稱為基于網(wǎng)絡的評價方法。
為比較各評價方法的差異,本文借鑒相關研究[67-68],引入變異系數(shù)和重復值比例作為衡量指標。變異系數(shù),即標準差與均值之比,用于反映評價方法的變異程度[69]及蘊含的信息量[67]。重復值比例表示某評價方法中具有相同指標值的知識實體占比[67]。較高的重復值比例意味著相當數(shù)量的知識實體的評價指標值相同,增加了區(qū)分其重要性的難度。因此,重復值比例越低,表明對應評價方法的區(qū)分能力越強。變異系數(shù)和重復值比例的計算結(jié)果如表3所示。
結(jié)果顯示,頻次方法的變異系數(shù)高于基于網(wǎng)絡的評價方法。而在4種基于網(wǎng)絡的評價方法中,Gcci+WDC的變異系數(shù)最高,Gcc+WDC與Gc+WDC次之,而Gb+WDC最低,表明擴大知識實體抽取范圍以及引入微觀引文重要性有助于知識實體共現(xiàn)網(wǎng)絡編碼更豐富的信息。此外,基于網(wǎng)絡的評價方法在重復值比例上均低于頻次方法,尤其是Gcci+WDC的下降幅度最為顯著,表明引入微觀引文重要性后,知識實體間關聯(lián)得到了更精細的量化,從而提升了區(qū)分能力。
為評估各評價方法之間的相關性,本文計算了斯皮爾曼秩相關系數(shù),如表4所示。需要指出的是,所有方法對的p值均接近0,說明在0.01水平下(雙尾),各評價方法的相關性顯著。結(jié)果顯示,Gc+WDC、Gb+WDC與頻次方法的相關性較低,但仍達到中等水平;而Gcci+WDC、Gcc+WDC和頻次方法的相關性較高。
綜上所述,通過加權度中心性衡量網(wǎng)絡中知識實體重要性時,相較于傳統(tǒng)共詞網(wǎng)絡與基于施引文本的知識實體共現(xiàn)網(wǎng)絡,跨文獻知識實體共現(xiàn)網(wǎng)絡包含更為豐富的信息,與頻次方法相關性更高,并且表現(xiàn)出更強的區(qū)分能力。
3.3.3 領域研究主題挖掘
為探討NLP領域的研究主題并評估跨文獻知識實體共現(xiàn)網(wǎng)絡在領域研究主題挖掘中的表現(xiàn),本文選用在信息資源管理領域應用廣泛的基于模塊度優(yōu)化的Louvain算法[70]將網(wǎng)絡節(jié)點聚成不同簇,并根據(jù)簇內(nèi)代表性知識實體標記其研究主題。模塊度(Modularity)是Louvain算法衡量網(wǎng)絡社團結(jié)構顯著性的關鍵指標,當模塊度值超過0.3時,社團結(jié)構具有統(tǒng)計顯著性[71]。
表5顯示,Gb、Gc、Gcc與Gcci的模塊度均超過0.3,表明在這些網(wǎng)絡中Louvain算法均識別出顯著的社團結(jié)構。具體而言,Gb形成108個簇,Gc形成654個簇,Gcc形成98個簇,而Gcci形成35個簇。為便于分析,本文移除節(jié)點數(shù)小于20及意義不明的簇,最終保留了Gb的22個簇,Gc的28個簇,Gcc的21個簇及Gcci的16個簇。可以發(fā)現(xiàn),相較于Gb和Gc,Gcc和Gcci生成的簇數(shù)量有所減少。
為進一步分析NLP領域的研究主題,本文根據(jù)頻次選取每個簇的代表性知識實體并標注其研究主題。限于篇幅,僅展示Gcci中部分簇的主題名稱、節(jié)點數(shù)量以及代表性知識實體,如表6所示。接著,使用維恩圖分析Gb、Gc、Gcc和Gcci中的研究主題間關系,如圖6所示。
可以發(fā)現(xiàn),全部4種網(wǎng)絡的交集涵蓋8個研究主題:“句法解析”“機器學習算法”“機器翻譯”“自然語言理解”“自然語言生成”“詞嵌入”“語法糾錯”以及“預訓練語言模型”。這些主題在全部網(wǎng)絡中普遍存在,反映了NLP領域的核心研究內(nèi)容。此外,“多模態(tài)”“對抗學習”“指代/共指消解”“社交媒體文本處理”“評估”“形態(tài)切分”“語篇分析”“語言類型”“事件預測”“詞義消歧”“語音翻譯”“意圖檢測”和“實體與關系抽取”這些主題也在多個網(wǎng)絡中出現(xiàn),同樣揭示了NLP領域的重要研究方向。
接著對各網(wǎng)絡中的特有研究主題進行分析,發(fā)現(xiàn)在Gb和Gc中均存在可歸并的特有研究主題。譬如,Gb中的“新聞推薦”可視為“個性化推薦”的子主題,“雙關語檢測”是“自然語言理解”的具體應用;而Gc中的“中文文本處理”與“阿拉伯文本處理”均屬于面向特定語言的NLP子領域,“生物醫(yī)學實體與關系抽取”是“實體與關系抽取”的一個子類。盡管如此,Gb與Gc仍揭示了NLP領域中的若干重要研究內(nèi)容,如“知識圖譜分析”“語義分析”“語料”等。此外,Gcc中特有的“詞形變化”也屬于NLP領域的重要研究內(nèi)容。值得注意的是,Gcci并不包含特有的研究主題。
綜合表5可以發(fā)現(xiàn),Gb與Gc的研究主題相對零散且存在一定冗余,相比之下,跨文獻知識實體共現(xiàn)網(wǎng)絡Gcc與Gcci的研究主題則更加集中和凝練。這一差異可能源于跨文獻知識實體共現(xiàn)網(wǎng)絡通過施引文本—被引片段對,使得語義相關的知識實體得以跨越文獻邊界建立關聯(lián),從而顯著增強了網(wǎng)絡中知識實體節(jié)點的內(nèi)聚性。這種內(nèi)聚性同樣體現(xiàn)在3.3.1節(jié)中跨文獻知識實體共現(xiàn)網(wǎng)絡所展現(xiàn)的“小世界”特性。
4 總 結(jié)
現(xiàn)有的共詞網(wǎng)絡只能捕獲知識實體在同一文獻中的關聯(lián),無法建模跨文獻的知識實體關聯(lián),且缺乏語義信息。此外,現(xiàn)有的跨文獻知識實體網(wǎng)絡在構建知識實體的跨文獻關聯(lián)時仍顯粗糙。有鑒于此,本文引入引文內(nèi)容分析方法,提出一種基于施引文本—被引片段對的跨文獻知識實體共現(xiàn)網(wǎng)絡構建方法,并通過微觀引文重要性區(qū)分知識實體的同文獻關聯(lián)和跨文獻關聯(lián)。
自然語言處理領域的實證研究表明,相較于傳統(tǒng)共詞網(wǎng)絡與基于施引文本的知識實體共現(xiàn)網(wǎng)絡,本文構建的跨文獻知識實體共現(xiàn)網(wǎng)絡具有以下特點:首先,網(wǎng)絡規(guī)模更大,知識實體間的關聯(lián)更為豐富,且具備一定的稀疏性和“小世界”特性;其次,在知識實體重要性評價方面,基于此類網(wǎng)絡的加權度中心性評價方法信息含量更高,與頻次方法的相關性更強,且具有更好的區(qū)分能力;最后,從中挖掘得到的研究主題更為集中凝練。
本文綜合知識網(wǎng)絡、實體計量和引文內(nèi)容分析多個領域的理論和方法,不僅有效推動了這些領域的邊界延展與交叉融合,還為相關研究提供了新的方法論支持。此外,本文對促進科學文獻的知識發(fā)現(xiàn)與利用,提升研究人員的認知效率具有重要意義。
然而,本文仍存在一些局限:一方面,缺乏跨領域的實證分析;另一方面,知識實體抽取未考慮嵌套實體的影響。未來研究可進一步擴展應用領域并完善知識實體抽取方法,以提高研究的適用性與準確性。
參考文獻
[1]Zhang C Z,Mayr P,Lu W,et al.Guest Editorial:Extraction and Evaluation of Knowledge Entities in the Age of Artificial Intelligence[J].Aslib Journal of Information Management,2023,75(3):433-437.
[2]Ding Y,Song M,Han J,et al.Entitymetrics:Measuring the Impact of Entities[J].PLoS One,2013,8(8):e71416.
[3]代冰,胡正銀.基于文獻的知識發(fā)現(xiàn)新近研究綜述[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2021,5(4):1-12.
[4]Zhao W Y,Mao J,Lu K.Ranking Themes on Co-Word Networks:Exploring the Relationships Among Different Metrics[J].Information Processing amp; Management,2018,54(2):203-218.
[5]Wang Z Y,Li G,Li C Y,et al.Research on the Semantic-Based Co-Word Analysis[J].Scientometrics,2012,90(3):855-875.
[6]王忠義,譚旭,夏立新.共詞分析方法的細粒度化與語義化研究[J].情報學報,2014,33(9):969-978.
[7]Cheng Q K,Wang J M,Lu W,et al.Keyword-Citation-Keyword Network:A New Perspective of Discipline Knowledge Structure Analysis[J].Scientometrics,2020,124(3):1923-1943.
[8]陸偉,孟睿,劉興幫.面向引用關系的引文內(nèi)容標注框架研究[J].中國圖書館學報,2014,40(6):93-104.
[9]徐健,李綱,毛進,等.文獻被引片段特征分析與識別研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,1(11):37-45.
[10]Wang Y Z,Zhang C Z.What Type of Domain Knowledge Is Cited by Articles with High Interdisciplinary Degree?[C]//Proceedings of the 81st ASISamp;T Annual Meeting.Hoboken,New Jersey,USA:Wiley,2018:919-921.
[11]王佳敏,陸偉,程齊凱,等.基于細粒度關鍵詞引用網(wǎng)絡的領域知識多維分析[J].情報學報,2022,41(7):733-744.
[12]Castriotta M,Loi M,Marku E,et al.Disentangling the Corporate Entrepreneurship Construct:Conceptualizing Through Co-Words[J].Scientometrics,2021,126(4):2821-2863.
[13]Hosseini S,Baziyad H,Norouzi R,et al.Mapping the Intellectual Structure of GIS-T Field(2008—2019):A Dynamic Co-Word Analysis[J].Scientometrics,2021,126(4):2667-2688.
[14]Miyashita S,Sengoku S.Scientometrics for Management of Science:Collaboration and Knowledge Structures and Complexities in an Interdisciplinary Research Project[J].Scientometrics,2021,126(9):7419-7444.
[15]陸泉,曹越,陳靜.基于語義關聯(lián)與模糊聚類的共詞分析方法[J].情報學報,2022,41(10):1003-1014.
[16]Whittaker J.Creativity and Conformity in Science:Titles,Keywords and Co-Word Analysis[J].Social Studies of Science,1989,19(3):473-496.
[17]Yu Q,Wang Q,Zhang Y F,et al.Analyzing Knowledge Entities About COVID-19 Using Entitymetrics[J].Scientometrics,2021,126(5):4491-4509.
[18]章成志,謝雨欣,張恒.學術文獻全文內(nèi)容中的方法實體細粒度抽取及演化分析研究[J].情報學報,2023,42(8):952-966.
[19]趙一鳴,尹嘉穎.語義增強型全文本共詞網(wǎng)絡的構建與分析[J].情報學報,2023,42(10):1187-1198.
[20]章成志,張穎怡.基于學術論文全文的研究方法實體自動識別研究[J].情報學報,2020,39(6):589-600.
[21]Wang Y Z,Zhang C Z,Song M,et al.Exploring Academic Influence of Algorithms by Co-Occurrence Network Based on Full-Text of Academic Papers[J/OL].Aslib Journal of Information Management:1-30[2024-12-12].https://doi.org/10.1108/AJIM-09-2023-0352.
[22]章成志,謝雨欣,宋云天.學術文本中細粒度知識實體的關聯(lián)分析[J].圖書館論壇,2021,41(3):12-20.
[23]Bornmann L,Haunschild R,Hug S E.Visualizing the Context of Citations Referencing Papers Published by Eugene Garfield:A New Type of Keyword Co-Occurrence Analysis[J].Scientometrics,2018,114(2):427-437.
[24]Nam D,Kim J,Yoon J,et al.Characterizing Knowledge Entity Extracted from Citation Sentences[C]//Zhang C Z,Mayr P,Lu W,et al.Proceedings of the 3rd Workshop on Extraction and Evaluation of Knowledge Entities from Scientific Documents(EEKE 2022).Aachen,Germany:Sun SITE Central Europe,2022:80-91.
[25]馮璐,冷伏海.共詞分析方法理論進展[J].中國圖書館學報,2006(2):88-92.
[26]Krenn M,Zeilinger A.Predicting Research Trends with Semantic and Neural Networks with an Application in Quantum Physics[J].Proceedings of the National Academy of Sciences,2020,117(4):1910-1916.
[27]Xiong T,Zhou L,Zhao Y,et al.Mining Semantic Information of Co-Word Network to Improve Link Prediction Performance[J].Scientometrics,2022,127(6):2981-3004.
[28]陳翔,黃璐,倪興興,等.基于動態(tài)語義網(wǎng)絡分析的主題演化路徑識別研究[J].情報學報,2021,40(5):500-512.
[29]Feng J,Zhang Y Q,Zhang H.Improving the Co-Word Analysis Method Based on Semantic Distance[J].Scientometrics,2017,111(3):1521-1531.
[30]Song M,Han N G,Kim Y H,et al.Discovering Implicit Entity Relation with the Gene-Citation-Gene Network[J].PLoS One,2013,8(12):e84639.
[31]程齊凱,王佳敏,陸偉.基于引用共詞網(wǎng)絡的領域基礎詞匯發(fā)現(xiàn)研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(6):57-65.
[32]Wang J M,Cheng Q K,Lu W,et al.A Term Function-Aware Keyword Citation Network Method for Science Mapping Analysis[J].Information Processing amp; Management,2023,60(4):103405.
[33]Tu Y N,Hsu S L.Constructing Conceptual Trajectory Maps to Trace the Development of Research Fields[J].Journal of the Association for Information Science and Technology,2016,67(8):2016-2031.
[34]王菲菲,王筱涵,徐碩,等.基于三維引文關聯(lián)網(wǎng)絡的潛在知識流動探測——以基因編輯領域為例[J].情報學報,2021,40(2):184-193.
[35]Kim E H J,Jeong Y K,Kim Y,et al.Exploring Scientific Trajectories of a Large-Scale Dataset Using Topic-Integrated Path Extraction[J].Journal of Informetrics,2022,16(1):101242.
[36]Huo C G,Ma S T,Liu X Z.Hotness Prediction of Scientific Topics Based on a Bibliographic Knowledge Graph[J].Information Processing amp; Management,2022,59(4):102980.
[37]Sun Y Z,Han J W,Yan X F,et al.PathSim:Meta Path-Based Top-K Similarity Search in Heterogeneous Information Networks[J].Proceedings of the VLDB Endowment,2011,4(11):992-1003.
[38]翟東升,劉鶴,張杰,等.一種基于鏈路預測的技術機會挖掘方法[J].情報學報,2016,35(10):1090-1100.
[39]Nam D,Kim J,Yoon J,et al.Examining Knowledge Entities and Its Relationships Based on Citation Sentences Using a Multi-Anchor Bipartite Network[J].Scientometrics,2024,129(11):7197-7228.
[40]Hsiao T M,Chen K H.The Dynamics of Research Subfields for Library and Information Science:An Investigation Based on Word Bibliographic Coupling[J].Scientometrics,2020,125(1):717-737.
[41]Zhang X Y,Xie Q,Song C,et al.Mining the Evolutionary Process of Knowledge Through Multiple Relationships Between Keywords[J].Scientometrics,2022,127(4):2023-2053.
[42]圖書館·情報與文獻學名詞審定委員會.圖書館·情報與文獻學名詞[M].北京:科學出版社,2019.
[43]王曉光.科學知識網(wǎng)絡的形成與演化(Ⅰ):共詞網(wǎng)絡方法的提出[J].情報學報,2009,28(4):599-605.
[44]文庭孝,劉曉英,梁秀娟,等.知識計量研究綜述[J].圖書情報知識,2010(1):95-101.
[45]Shao W,Hua B L,Ma Q,et al.An Unsupervised Method for Terminology Extraction from Scientific Text[C]//Zhang C Z,Mayr P,Lu W,et al.Proceedings of the 1st Workshop on Extraction and Evaluation of Knowledge Entities from Scientific Documents.Aachen,Germany:Sun SITE Central Europe,2020:86-88.
[46]Li J,Sun A X,Han J L,et al.A Survey on Deep Learning for Named Entity Recognition[J].IEEE Transactions on Knowledge and Data Engineering,2022,34(1):50-70.
[47]鄧依依,鄔昌興,魏永豐,等.基于深度學習的命名實體識別綜述[J].中文信息學報,2021,35(9):30-45.
[48]Huang Z H,Xu W,Yu K.Bidirectional LSTM-CRF Models for Sequence Tagging[EB/OL].[2024-12-12].http://arxiv.org/abs/1508.01991.
[49]Ma Y Q,Liu J W,Lu W,et al.Beyond Tasks,Methods,and Metrics:Extracting Metrics-Driven Mechanism from the Abstracts of AI Articles[C]//Zhang C Z,Mayr P,Lu W,et al.Proceedings of the 3rd Workshop on Extraction and Evaluation of Knowledge Entities from Scientific Documents(EEKE 2022).Aachen,Germany:Sun SITE Central Europe,2022:5-18.
[50]Ma Y Q,Liu J W,Lu W,et al.From“What”to“How”:Extracting the Procedural Scientific Information Toward the Metric-Optimization in AI[J].Information Processing amp; Management,2023,60(3):103315.
[51]Luan Y,He L H,Ostendorf M,et al.Multi-Task Identification of Entities,Relations,and Coreference for Scientific Knowledge Graph Construction[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing.Stroudsburg,Pennsylvania,USA:Association for Computational Linguistics,2018:3219-3232.
[52]Rohatgi S.ACL Anthology Corpus with Full Text[EB/OL].[2022-11-29].https://github.com/shauryr/ACL-anthology-corpus.
[53]陳京蓮,羅紅,羅小臣,等.基于文獻老化負指數(shù)方程的半衰期與普賴斯指數(shù)關系的研究[J].圖書情報工作,2012,56(8):73-76,101.
[54]哈爾濱工業(yè)大學自然語言處理研究所.ChatGPT調(diào)研報告[EB/OL].[2024-12-12].https://mp.weixin.qq.com/s/NyoSRvdk-_kVMbwQf2RgEQ.
[55]Ding Y,Liu X Z,Guo C,et al.The Distribution of References Across Texts:Some Implications for Citation Analysis[J].Journal of Informetrics,2013,7(3):583-592.
[56]胡志剛,陳超美,劉則淵,等.從基于引文到基于引用——一種統(tǒng)計引文總被引次數(shù)的新方法[J].圖書情報工作,2013,57(21):5-10.
[57]金賢日,歐石燕.無監(jiān)督引用文本自動識別與分析[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2021,5(1):66-77.
[58]Nambanoor K S,Pride D,Knoth P.Dynamic Context Extraction for Citation Classification[C]//Proceedings of the 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing(Volume 1:Long Papers).Stroudsburg,Pennsylvania,USA:Association for Computational Linguistics,2022:539-549.
[59]Nie W M,Ou S Y.Micro Citation Importance Identification and Its Application to Literature Evaluation[C]//Sserwanga I,Joho H,Ma J,et al.Proceedings of the 19th International Conference on Wisdom,Well-Being,Win-Win,iConference 2024.Cham,Switzerland:Springer Cham,2024:356-375.
[60]聶維民,歐石燕.面向被引片段識別的改進混合方法[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2023,7(1):113-127.
[61]Jie A,Lin Y C,elik F.LSTM/BERT-CRF Model for Named Entity Recognition(or Sequence Labeling)[EB/OL].[2024-12-12].https://github.com/allanj/pytorch_neural_crf.
[62]Eberts M,Ulges A.Span-Based Joint Entity and Relation Extraction with Transformer Pre-Training[C]//ECAI 2020-24th European Conference on Artificial Intelligence.Santiago de Compostela,Spain,2020:2006-2013.
[63]Alstott J,Bullmore E,Plenz D.Powerlaw:A Python Package for Analysis of Heavy-Tailed Distributions[J].PLoS One,2014,9(1):e85777.
[64]Batagelj V,Mrvar A.Pajek-Program for Large Network Analysis[J].Connections,1998,21(2):47-57.
[65]梁爽,劉小平,柴文越.主題—引文融合視角下重要主題發(fā)現(xiàn)及知識流動路徑研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2024,8(2):99-113.
[66]Page L,Brin S,Motwani R,et al.The PageRank Citation Ranking:Bringing Order to the Web[R].Stanford,California:Stanford infolab,1999.
[67]耿樹青,楊建林.基于引用情感的論文學術影響力評價方法研究[J].情報理論與實踐,2018,41(12):93-98.
[68]姜霖,張麒麟.基于引文細粒度情感量化的學術評價研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2020,4(6):129-138.
[69]Albarrán P,Herrero C,Ruiz-Castillo J,et al.The Herrero-Villar Approach to Citation Impact[J].Journal of Informetrics,2017,11(2):625-640.
[70]Blondel V D,Guillaume J L,Lambiotte R,et al.Fast Unfolding of Communities in Large Networks[J].Journal of Statistical Mechanics:Theory and Experiment,2008,2008(10):P10008.
[71]Newman M E J.Fast Algorithm for Detecting Community Structure in Networks[J].Physical Review E,2004,69(6):066133.
(責任編輯:楊豐僑)