摘 要:[目的/意義]目前的共詞網絡僅能捕獲知識實體在同一文獻中的關聯,難以建??缥墨I的知識實體關聯,并且缺乏語義信息。此外,現有的跨文獻知識實體網絡在建模知識實體的跨文獻關聯等方面仍存在不足。因此,有必要探索更加完善的跨文獻知識實體共現網絡構建方法。[方法/過程]本文結合引文內容分析的研究成果,提出一種基于施引文本—被引片段對的跨文獻知識實體共現網絡的構建方法,并通過微觀引文重要性來區分知識實體的同文獻關聯和跨文獻關聯。隨后,本文將構建的跨文獻知識實體共現網絡與傳統共詞網絡、基于施引文本的知識實體共現網絡進行了比較分析。[結果/結論]自然語言處理領域的實證研究表明,本文構建的網絡規模更大,知識實體間關聯更為豐富,且具有一定的稀疏性和“小世界”特性。在知識實體重要性評估中,基于該類網絡的加權度中心性方法蘊含著更豐富的信息,與頻次方法具有較高的相關性,且表現出更強的區分能力。通過該網絡挖掘的研究主題更為集中凝練。本文綜合運用了知識網絡、實體計量和引文內容分析等領域的方法,不僅有效推動了這些領域的邊界延展與交叉融合,還為相關研究提供了新的方法論支撐。此外,本文對推動科學文獻的知識發現與利用、提升研究人員的認知效率具有重要意義。
關鍵詞:知識實體;實體計量;知識網絡;引文內容分析;共詞網絡
DOI:10.3969/j.issn.1008-0821.2025.09.004
〔中圖分類號〕G254 〔文獻標識碼〕A 〔文章編號〕1008-0821(2025)09-0032-14
Construction and Analysis of Cross-Document Knowledge Entity
Co-occurrence Networks Based on Citation Content
Nie Weimin Ou Shiyan*
(School of Information Management,Nanjing University,Nanjing 210023,China)
Abstract:[Purpose/Significance]Existing co-word networks are confined to capturing associations of knowledge entities within individual documents and struggle to model cross-document associations of knowledge entities.Furthermore,they lack semantic information.Current cross-document knowledge entity networks also exhibit certain shortcomings in modeling cross-document associations of knowledge entities.Therefore,it is necessary to explore more refined construction methods for cross-document knowledge entity co-occurrence networks.[Method/Process]The study integrated research from citation content analysis to propose a novel method for constructing cross-document knowledge entity co-occurrence networks based on citing text-cited span pairs.And the method distinguished between intra-document and cross-document associations of knowledge entities by introducing micro citation importance.Subsequently,the study conducted a comparative analysis of the constructed cross-document knowledge entity co-occurrence networks,traditional co-word networks and knowledge entity co-occurrence networks based on citing text.[Result/Conclusion]Empirical research in natural language processing indicates that the proposed networks exhibit a larger scale,enrich associations among knowledge entities,and demonstrate characteristics of sparsity and“small-world”to a certain extent.In terms of knowledge entity importance evaluation,the weighted degree centrality method applied to the constructed networks encapsulates richer information,demonstrates a higher correlation with the frequency-based method,and exhibits stronger discriminatory capability.Additionally,research topics identified through the constructed networks are more concise and cohesive.This study integrates methodologies stemmed from knowledge networks,entitymetrics,and citation content analysis and so on,thereby pushing the frontiers of these domains and fostering interdisciplinary fusion,and offers novel methodological support for relevant research.Furthermore,this study holds significant implications for advancing knowledge discovery and utilization within scientific literature,as well as boosting researchers cognitive efficiency.
Key words:knowledge entity;entitymetrics;knowledge network;citation content analysis;co-word network
隨著科學文獻數量迅猛增長,研究人員面臨著日益沉重的認知負擔。因此,從海量文獻中精準提取有價值的信息,幫助研究人員高效獲取散布于文獻中的關鍵知識,具有重要意義。實體計量(Entitymetrics)從知識實體的視角分析科學文獻[1-2],提供了一種新穎的基于文獻的知識發現方法[3]。知識實體(Knowledge Entity)是科學文獻中承載知識的基本單元,包括作者關鍵詞、標引詞以及領域實體等[2],以語詞的形式在文獻中發揮關鍵作用。實體計量分析方法主要分為基于頻次與基于網絡兩類[4]?;陬l次的分析方法重點關注知識實體在特定數據集中出現的頻次,雖然能夠直觀反映知識實體的重要程度[4],但難以揭示知識實體間的復雜關聯。為克服這一局限,研究人員引入知識實體網絡,如共詞網絡,以深化對知識實體的分析理解。然而目前的共詞網絡存在以下缺陷:一方面,僅能捕獲同一文獻內的知識實體關聯,難以有效建模知識實體的跨文獻關聯[5];另一方面,網絡中的邊缺乏語義信息,只能籠統反映知識實體間的相關性[6]。針對這些問題,后續研究提出諸如作者關鍵詞引用網絡[7]等新型知識實體網絡。然而,這些研究在構建跨文獻知識實體關聯時仍顯粗糙,如未能有效區分知識實體的同文獻關聯與跨文獻關聯。
近年來,引文內容分析逐漸成為研究熱點,通過分析描述引用行為的上下文內容,深入探討施引文獻與被引文獻之間的語義關系,從而揭示引用行為的本質[8]。其中,施引文本是施引文獻中帶有引用標記的施引句及其上下文[8];在被引文獻中與之對應的文本片段被稱為被引片段,即促成該引用行為的內容[9]。施引文本與被引片段對引用行為進行了詳細描述,共同構成基于文獻引用的正式學術交流渠道[9],在語義層面緊密相關,因此,本文將兩者統稱為引文內容。施引文本與被引片段中的知識實體是施引文獻提及被引文獻時的具體內容,構成兩者在內容層面的關鍵連接點。這些知識實體數量豐富、關聯緊密,能夠更細粒度地揭示知識的流動與傳播特征,因此被視為重要的知識載體,并在研究中得到廣泛使用[10]。譬如,王佳敏等[11]基于施引文本中的知識實體構建網絡。然而,目前相關研究大多并未考慮被引片段中的知識實體,導致構建的網絡仍然僅能反映知識實體的同文獻關聯。有鑒于此,本文將知識實體的抽取范圍擴展到被引片段,提出一種基于施引文本—被引片段對的跨文獻知識實體共現網絡構建方法,并考慮文獻間引用關系的重要程度,以區分知識實體的同文獻關聯與跨文獻關聯。本文綜合知識網絡、實體計量和引文內容分析等多領域的方法,有效推動了這些領域的邊界擴展與交叉融合,并為相關研究提供了新的思路。進一步,本文在促進科學文獻的知識發現與利用、提升研究人員的認知效率等方面同樣具有重要意義。
1 相關研究
1.1 共詞網絡
共詞網絡是一種描述知識實體共現關系的知識網絡[12-14],通常表現為無向有權圖,其節點代表知識實體,邊表示與之相連的知識實體在同一文獻內共現,邊權反映知識實體間的共現強度。
傳統共詞網絡構建主要基于題錄數據,通常選取作者關鍵詞[15]或從標題[16]及摘要[17]中抽取知識實體。此后,知識實體抽取范圍逐漸從題錄數據擴展至全文數據[18-19],顯著提升了分析效果。譬如,章成志等[20]從《情報學報》、ACL年會[18,21]以及CCL[22]文獻全文中抽取知識實體。此外,也有研究人員將知識實體抽取范圍從全文數據進一步縮小至施引文本,如Bornmann L等[23]提出基于施引文本的知識實體共現關系。Nam D等[24]比較了基于全文和施引文本的共詞網絡,發現后者在網絡密度及新穎實體關聯挖掘等方面具有優勢。
盡管知識實體間存在多種語義關系,如屬性—宿主關系、工具—事件關系等,但共詞網絡僅能通過“相關性”來對這些語義關系進行籠統概括[25-26],因此在語義信息的表達上存在局限性。為了在共詞網絡中更好地編碼語義信息,一些研究將知識實體間的相似度作為其邊權,計算方法包括隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)[27]、詞嵌入余弦相似度[28]以及本體位置[29]等。
1.2 跨文獻知識實體網絡
為克服共詞網絡僅能捕獲知識實體的同文獻關聯的局限性,一些研究人員提出知識實體引用網絡,以建模知識實體的跨文獻關聯。Ding Y等[2]和Song M等[30]將文獻間引用關系直接拓展到其中的知識實體,在文獻的標題和摘要中抽取領域實體,構建實體間引用關系并形成知識實體引用網絡。類似地,Cheng Q K[7]、程齊凱等[31]將文獻間引用關系拓展至作者關鍵詞,形成作者關鍵詞引用網絡,并將作者關鍵詞劃分為“問題”和“方法”兩類,作者關鍵詞間關系也進一步分為問題—問題、問題—方法以及方法—方法三類[32]。此外,Tu Y N等[33]首先生成引文網絡的主路徑,接著通過詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)算法從主路徑文獻的題錄數據中獲取知識實體,并以這些知識實體替換原始文獻節點,形成知識實體引用路徑。
還有研究人員通過LDA從文獻題錄數據中生成主題詞,并構建主題詞引用網絡[34]。譬如,Kim E H J等[35]使用LDA中概率最大的主題詞代替引文網絡中的文獻,形成主題詞引用網絡。Huo C G等[36]構建主題詞—文獻—文獻—主題詞元路徑[37],實質上形成主題詞引用網絡。除上述知識實體外,其他知識實體也被用于構建知識實體引用網絡。譬如,翟東升等[38]將專利間的引用關系拓展至其國際專利分類(International Patent Classification,IPC)的分類號,形成IPC分類號引用網絡。王佳敏等[11]深入文獻全文,提出施引文本中的知識實體與作者關鍵詞之間存在引用關系。
然而,當前知識實體引用網絡仍然存在諸多缺陷。一方面,將文獻引用關系直接拓展至其中的知識實體缺乏充分的理論基礎;另一方面,出于種種原因,知識實體引用網絡的有向性在實踐中常被忽略,許多研究仍傾向于將其弱化為無向網絡進行分析[11]。
鑒于知識實體引用網絡的局限性,研究人員還探索了構建知識實體跨文獻關聯的其他方法。與知識實體引用網絡不同,這些方法通常生成無向網絡。Nam D等[24,39]認為,位于不同文獻中的同類章節且指向同一研究人員的施引文本中的知識實體存在關聯,從而構建了跨文獻知識實體共現網絡。Hsiao T M等[40]借鑒文獻耦合概念,提出跨文獻的知識實體耦合關系:將從文獻摘要中抽取的知識實體與該文獻的參考文獻集合關聯,若兩個知識實體關聯的參考文獻集合存在交集,則認為其存在耦合關系,耦合強度由交集大小決定。Zhang X Y等[41]則綜合了知識實體的共現、引用關系和共同作者信息,構建了更全面的知識實體網絡。
需要指出的是,現有的跨文獻知識實體關聯構建方法仍顯粗糙。譬如,Nam D等[24,39]和Zhang X Y等[41]認為,與特定研究人員相關的知識實體形成跨文獻關聯。然而,一位研究人員的興趣通常涉及多個方面,導致與之相關的知識實體未必具有足夠的相關性。此外,知識實體的同文獻關聯和跨文獻關聯存在明顯差異,但現有研究通常并未對二者加以區分。盡管存在不足,但這些研究仍為共詞網絡優化提供了異于知識實體引用網絡的創新思路。
1.3 知識實體抽取
知識是與使用者的能力和經驗相結合的信息,或是通過學習、實踐和探索獲得的認識、判斷或技能[42]。知識本身缺乏物理形態[43-44],因此需要借助一定的載體呈現,如研究人員、科學文獻等[44]。在科學文獻中,知識實體是承載知識的基本單元[2],通常以語詞的形式出現。對知識實體深入分析有助于揭示領域演化動態、分析知識擴散規律、進行科學評價以及測度創新性等。其中,知識實體抽取是這些分析的基礎,主要方法包括人工標注、規則匹配、傳統機器學習和深度學習[18]。
人工標注方法通過專家閱讀文獻并標記其中的知識實體[10]。這種方法雖然能夠產生高質量的標注,但因依賴專業知識且耗時耗力,標注規模受限。規則匹配方法需領域專家預先制定規則,再依據規則匹配知識實體[45]。該方法查準率較高,但在遷移到其他領域時需重新制定規則,增加了人力成本。為克服規則匹配的局限,研究人員引入基于傳統機器學習的抽取方法,常用算法包括隱馬爾可夫模型、條件隨機場、最大熵和支持向量機等。相較于規則匹配,傳統機器學習方法增強了泛化能力,但對標注語料和特征工程依賴較高。
為減少特征工程工作量,深度學習逐漸興起。基于深度學習的知識實體抽取通常采用序列標注模型,典型的模型框架包含詞編碼層、序列編碼層以及解碼層[46-47]。Huang Z H等[48]提出,將詞嵌入(Word Embedding,WE)、雙向長短期記憶網絡(Bi-directional Long Short-Term Memory,BiLSTM)和條件隨機場(Conditional Random Field,CRF)分別用于詞編碼層、序列編碼層以及解碼層。此后,該WE-BiLSTM-CRF框架得以廣泛應用[46]。隨著預訓練語言模型(Pre-trained Language Model,PLM)的崛起,其逐漸在詞編碼層中取代詞嵌入,形成PLM-BiLSTM-CRF框架,進一步提升了識別表現。除序列標注模型外,一些研究還探索了通過片段分類[49]和閱讀理解[50]模型進行知識實體抽取,效果同樣顯著。片段分類模型將句子中的子片段分為“知識實體”或“非知識實體”兩類,盡管原理簡單,但需反復遍歷句子生成長度不同的子片段,導致計算開銷較大。閱讀理解模型則將知識實體抽取視為一種自然語言生成任務,其模型復雜度和計算開銷同樣較高。
2 跨文獻知識實體共現網絡構建方法
為克服共詞網絡及相關研究的局限性,本文提出一種基于施引文本—被引片段對的知識實體跨文獻關聯構建方法,并引入微觀引文重要性,以區分知識實體的同文獻和跨文獻關聯,由此構建跨文獻知識實體共現網絡,并進行后續分析。整體框架如圖1所示。首先,在知識實體抽取實驗語料上訓練和測試模型;其次,通過預處理獲得實證分析語料,從中提取題錄數據及施引句,并對施引句進行引文內容分析處理,具體包括施引文本抽取、微觀引文重要性識別以及被引片段識別;然后,通過知識實體抽取模型從施引文本、被引片段以及題錄數據中抽取知識實體,并對其進行規范化及篩選處理;最后,基于篩選后的知識實體構建同文獻和跨文獻知識實體共現網絡,并進行比較分析。
2.1 語 料
本文采用兩類語料:知識實體抽取實驗語料與實證分析語料。前者用于訓練和測試知識實體抽取模型,以確定最優模型,隨后通過該最優模型對后者進行處理,以支持實證分析。
具體而言,本文知識實體抽取實驗語料為SciERC[51],該語料詳細標注了人工智能領域科學文獻中的知識實體及其類型、關系和共指信息。其中,知識實體類型包括方法、任務、數據、評價指標、其他以及通用。
綜合考慮筆者的知識背景及文獻全文數據的可獲得性,本文基于ACL文集全文語料(ACL Anthology Corpus with Full Text)[52]開展實證分析。該語料來自國際計算語言學學會(Association for Computational Linguistics,ACL)建立的開放獲取全文數據庫ACL文集,基本涵蓋自然語言處理(Natural Language Processing,NLP)領域最具影響力的期刊和會議文獻。然而,ACL文集全文語料并未維護文獻間引用關系,因此,本文進一步提取了其中的引用關系,獲得552 383條引用關系,覆蓋64 004篇文獻。
為揭示NLP領域的演化動態,本文不僅考察年度發文量,還借鑒文獻老化理論[53],引入“平均施引間隔”指標,以量化某年發表的文獻與其所引文獻發表年份之間的平均差值。平均施引間隔下降反映出研究人員傾向于引用近期文獻,表明研究興趣或范式的轉變;反之,平均施引間隔上升則表明研究人員仍傾向于引用較早期文獻。需要指出的是,1980年之前的數據不完整,且ACL文集全文語料采集截至2022年9月,圖2展示的是1980—2022年的年度發文量與平均施引間隔。
可以發現,NLP領域的年度發文量呈指數增長,表明該領域仍處于蓬勃發展階段。而平均施引間隔曲線中的1999年和2014年兩個極值點,將1980—2022年大致劃分為3個發展階段:1999年之前為第一階段,研究主要依賴小規模專家知識,平均施引間隔波動上升,表明NLP領域初步成型;1999—2014年為第二階段,平均施引間隔先降后升,反映出傳統機器學習算法逐步替代專家知識并趨向成熟;第三階段始于2015年,平均施引間隔下降并維持低位,揭示出深度學習算法取代傳統機器學習算法,成為NLP領域的主導范式。上述發展階段劃分與領域專家意見[54]基本相符,不過在相
圖1 研究框架Fig.1 Research Framework
圖2 年度發文量及平均施引間隔Fig.2 Annual Number of Publications and Average Citation Interval
關時間節點上略有滯后,原因可能在于新研究范式從興起到普及需要一定時間。
基于提取的引用關系,本文進一步獲取了789 961條施引句。結合前述引用關系數量,計算得到每條引用關系平均對應1.43條施引句,與已有研究中的1.63[55]及1.46[56]相近。此外,抽樣分析顯示92.87%的引用關系成功匹配到施引句。這些發現進一步驗證了本文實證分析語料構建的合理性和有效性。
本文接著對施引句進行引文內容分析處理,包括施引文本抽取、微觀引文重要性識別以及被引片段識別。在施引文本抽取方面,已有工作主要采用靜態方法[39]。譬如,王佳敏等[11]將施引文本范圍擴展至施引句的前后句。靜態方法盡管簡單易行,但可能引入較多噪聲[57]。為提升抽取精度,Nambanoor K S等[58]提出一種基于文本相似度的動態抽取方法,首先計算施引句與被引文獻標題和摘要的相似度并將其作為閾值,將相似度超過閾值的施引句上下文句子作為施引文本,并在引文分類任務中表現優異。本文采用該動態方法,以期更加全面、準確地抽取施引文本,保證后續分析質量。此外,本文分別采用文獻[59]和文獻[60]的方法,識別施引句的微觀引文重要性及其對應的被引片段。
2.2 知識實體抽取模型構建
基于深度學習的知識實體抽取方法表現優異[46],其中片段分類和閱讀理解模型盡管在性能上具有優勢,但計算開銷較高且模型較為復雜。相比之下,序列標注模型在計算開銷及性能之間取得較好的平衡。有鑒于此,本文選用序列標注模型,具體實現為典型的PLM-BiLSTM-CRF框架,如圖3所示。
圖3 知識實體抽取模型框架Fig.3 Framework of the Knowledge Entity Extraction Model
需要指出的是,本文使用的知識實體抽取實驗語料和實證分析語料分別來自人工智能與NLP領域,其中知識實體抽取實驗語料中部分文獻來自NLP領域[51]。此外,NLP與人工智能其他領域密切相關,許多知識實體在不同領域間通用,如卷積神經網絡最初用于機器視覺,后被引入NLP領域。因此,將基于人工智能領域語料訓練的知識實體抽取模型應用于本文的實證分析語料具有合理性。
2.3 知識實體共現網絡構建
針對共詞網絡及相關研究的不足,本文構建了兩類跨文獻知識實體共現網絡:基于施引文本—被引片段對的知識實體共現網絡Gcc和基于施引文本—被引片段對的知識實體共現語義網絡Gcci。兩者區別在于,Gcci在邊權計算中引入微觀引文重要性,以區分知識實體的同文獻關聯和跨文獻關聯。此外,為便于比較,本文還構建了兩類同文獻知識實體共現網絡:基于題錄數據的知識實體共現網絡Gb(即傳統共詞網絡)和基于施引文本的知識實體共現網絡Gc。
為便于描述網絡構建過程,對相關標記作以下約定:具有對應關系的施引文本和被引片段分別記為C與P,并構成形式為二元組lt;C,Pgt;的施引文本—被引片段對,每個lt;C,Pgt;對應一個微觀引文重要性預測值;此外,一篇文獻由標題和摘要構成的題錄數據表示為B(ACL文集不含作者關鍵詞)。經過知識實體抽取后,題錄數據B、施引文本C和被引片段P可進一步表示為知識實體集合,分別記為B={eb1,eb2,…,ebk}、C={ec1,ec2,…,ecn}以及P={ep1,ep2,…,epm}。接下來將詳細介紹知識實體共現網絡構建過程。
基于題錄數據的知識實體共現網絡記為Gb=(Vb,Eb,Wb)。其中,Vb表示知識實體的節點集合,其中的知識實體ei,ej∈Vb且ei≠ej。若ei,ej∈B,則認為ei與ej共現于題錄數據B。Eb∈Vb×Vb為代表知識實體基于題錄數據的共現關系的邊集合,Wb是對應的有權鄰接矩陣。若兩個知識實體在至少一篇文獻的題錄數據中同時出現,則代表它們的節點間形成一條邊,邊的權重代表其共現強度。類似地,基于施引文本的知識實體共現網絡表示為Gc=(Vc,Ec,Wc),其構建方式與Gb基本相同。區別在于,Gc中的知識實體共現于施引文本而非題錄數據。
基于施引文本—被引片段對的知識實體共現網絡表示為Gcc=(Vcc,Ecc,Wcc)。Vcc是知識實體節點集合,知識實體ei,ej∈Vcc且ei≠ej。若ei,ej∈(C∪P),則認為ei和ej共現于施引文本—被引片段對lt;C,Pgt;,EccVcc×Vcc為代表知識實體基于施引文本—被引片段對的共現關系的邊集合。Wcc是對應的有權鄰接矩陣。若ei和ej在至少1個施引文本—被引片段對中共現,則代表它們的節點之間形成一條邊,邊權同樣為兩者共現強度。
基于施引文本—被引片段對的知識實體共現語義網絡記為Gcci=(Vcc,Ecci,Wcci)。其知識實體節點集合Vcc與Gcc相同。不同于Gcc,Gcci中的知識實體關聯進一步劃分為同文獻關聯和跨文獻關聯。具體而言,若(ei,ej∈C)∨(ei,ej∈P),則表明知識實體ei與ej共現于同一施引文本或被引片段,此時兩者均來自同一篇文獻,本文稱ei與ej形成同文獻關聯。相對地,若((ei∈C∧eiP)∧(ej∈P∧ejC))∨((ei∈P∧eiC)∧(ej∈C∧ejP)),則代表ei與ej分別來自施引文本C和被引片段P。鑒于兩者分屬不同的施引文獻和被引文獻,本文稱ei與ej形成跨文獻關聯。Gcci的邊集合Ecci也被劃分為兩個子集:代表同文獻關聯的邊集合EintraVcc×Vcc以及代表跨文獻關聯的邊集合EinterVcc×Vcc,即Ecci=Eintra∪Einter。
需要指出的是,知識實體跨文獻關聯弱于同文獻關聯(詳見3.3.1節分析),因此有必要對兩者進行區分。Nie W M等[59]提出一種基于回歸的微觀引文重要性識別方法,通過生成0~1之間的預測值,從施引句角度衡量被引文獻對施引文獻的智力支持程度,為量化知識實體間的跨文獻關聯強度提供了新方法。有鑒于此,本文在計算Gcci有權鄰接矩陣Wcci時,引入微觀引文重要性,以精確區分知識實體的同文獻關聯與跨文獻關聯。具體而言,對于知識實體ei,ej∈(C∪P),若兩者形成同文獻關聯,則邊權增量為1;若形成跨文獻關聯,則邊權增量為lt;C,Pgt;對應的微觀引文重要性預測值。需要注意的是,知識實體ei與ej可能同時形成同文獻關聯和跨文獻關聯。在這種情況下,鑒于同文獻關聯更為緊密,邊權增量仍設定為1,以優先表示同文獻關聯。
從知識實體關聯類型來說,Gb與Gc屬于同文獻知識實體共現網絡,而Gcc與Gcci則屬于跨文獻知識實體共現網絡。從知識實體來源角度分析,Gb基于題錄數據構建,而Gc、Gcc與Gcci則基于全文數據構建。值得注意的是,Nam D等[24,39]發現,基于施引文本的知識實體共現網絡在諸多方面優于基于全文的知識實體共現網絡,如網絡密度及新穎實體關聯挖掘,因此本文并未構建后者。
3 結果分析
3.1 知識實體抽取實驗
本文基于PLM-BiLSTM-CRF框架[61]構建知識實體抽取模型。在PLM詞編碼層,本文比較了BERT、SciBERT以及RoBERTa的表現。鑒于PLM中的自注意力機制在文本序列建模方面優于BiLSTM,本文進一步考察是否保留BiLSTM序列編碼層對模型整體表現的影響,以優化知識實體抽取表現。
此外,為確保抽取結果與現有研究[62]具有可比性,本文保留SciERC語料中的全部6個知識實體類別(參見2.1節),并選取微F1作為評價指標。知識實體抽取模型的表現如表1所示。
結果表明,去除BiLSTM序列編碼層后,采用不同PLM詞編碼層的知識實體抽取模型表現均有所提升。其中,以RoBERTa為詞編碼層的模型表現最佳,SciBERT次之,BERT相對較差。因此,本文選擇以RoBERTa為詞編碼層且不含BiLSTM序列編碼層的模型(即RoBERTa-CRF)作為最優的知識實體抽取模型。
3.2 知識實體數量及頻次分析
為深化對實證分析語料中知識實體的分析理解,在完成知識實體抽取后,本文對其數量及頻次進行了系統考察。需要指出的是,盡管知識實體抽取實驗保留了SciERC語料中的全部六類知識實體,以便與已有研究進行比較,但其中的“其他”和“通用”類別知識實體主要用于支持原研究的共指消解任務,與本文關聯有限。因此,本文在后續分析中僅關注“方法”“任務”“數據”與“評價指標”四類知識實體。
本文分析了這四類知識實體的數量占比及頻次數量比,如圖4所示。數量占比指某類知識實體數量在全部四類知識實體中的比例,旨在反映該類知識實體在NLP研究中的相對重要性。頻次數量比則為特定類型知識實體的頻次總和與其數量之比,即平均出現頻次,反映其復用情況。可以發現,“方法”類知識實體的數量占比超過一半,表明NLP領域的研究主要由“方法”驅動。而“評價指標”類知識實體的頻次數量比最高,表明其在NLP領域中被反復提及的可能性最大。
為揭示知識實體的分布特征并為后續篩選提供依據,本文對知識實體的頻次分布進行了詳細分析,如圖5所示。圖中藍色實線為知識實體頻次的概率密度分布曲線。本文使用Powerlaw工具[63]對其進行冪律分布擬合,紅色點劃線為擬合得到的冪律分布曲線。可以發現,知識實體的頻次分布呈現較為明顯的冪律特征。進一步地,本文通過似然比檢驗,定量比較了冪律分布與對數正態分布、指數分布、截斷冪律分布、拓展指數分布和正對數正態分布的擬合效果。定量分析結果表明,在這些分布中,知識實體頻次分布最符合冪律分布。
圖4 不同類型知識實體數量占比及頻次數量比Fig.4 Proportion and Frequency-to-Quantity Ratio ofDifferent Types of Knowledge Entities
圖5 知識實體頻次概率密度分布及冪律分布擬合曲線Fig.5 Probability Density Distribution of Knowledge EntityFrequencies and Power Law Distribution Fitting Curve
3.3 知識實體共現網絡分析
為揭示構建的跨文獻知識實體共現網絡的特點,本文對Gb、Gc、Gcc與Gcci進行系統比較分析,涵蓋整體拓撲特征分析、知識實體重要性評價,以及領域研究主題挖掘。需要指出的是,由于涉及的知識實體數量龐大,分析如此規模的網絡計算開銷很大。因此,在構建網絡之前,需對知識實體進行篩選,以在保留重要知識實體并保持分析結果穩定的同時,顯著減少知識實體的數量。鑒于知識實體的頻次分布呈現冪律特征,本文采用綜合考慮知識實體數量與累計頻次的二八定律篩選方法,最終選取頻次排名前20.782%的知識實體,其累計頻次占比達81.057%。
3.3.1 整體拓撲特征分析
為比較網絡整體結構的差異,本文選用7個網絡指標:節點數、邊數、平均度、密度、平均路徑長度、網絡直徑以及平均聚類系數。節點和邊是構成網絡的基本要素,其數量共同反映網絡規模。平均度是網絡中所有節點的平均連接數,用以衡量知識實體間關聯的豐富程度。密度表示實際邊數與最大可能邊數之比,用于描述網絡的稀疏程度。平均路徑長度代表節點間最短路徑的平均值,網絡直徑則是節點間最短路徑的最大值。聚類系數度量特定節點鄰居間的連接比例,平均聚類系數則是所有節點聚類系數的均值。平均路徑長度、網絡直徑和平均聚類系數綜合揭示了網絡的“小世界”特性。
本文通過Pajek軟件[64]計算這些網絡指標,結果如表2所示。盡管Gb、Gc、Gcc與Gcci均為有權網絡,但為更準確揭示網絡整體拓撲特征,本文在計算時將其作為無權網絡處理,以消除邊權的影響。需要注意的是,Gcc與Gcci的主要區別在于邊權不同,因此在無權化處理后,兩者的網絡指標值一致。
首先,從節點數和邊數來看,Gcc/Gcci、Gc與Gb的規模依此遞減,表明相較于題錄數據與施引文本,同時從施引文本和被引片段中抽取知識實體顯著擴大了覆蓋范圍,使得跨文獻知識實體共現網絡規模更大。其次,Gcc/Gcci的平均度高于Gb和Gc,表明在跨文獻知識實體共現網絡中,知識實體能夠跨越文獻界限建立更加豐富的關聯。而在密度方面,Gb、Gcc/Gcci與Gc依次遞減,即基于全文數據的Gc、Gcc與Gcci比基于題錄數據的Gb更稀疏。然而,在基于全文數據的知識實體共現網絡內部,Gcc/Gcci的密度顯著高于Gc,表明雖然基于全文數據的知識實體共現網絡較為稀疏,但知識實體間更為豐富的跨文獻關聯仍然提升了網絡密度。最后,Gcc/Gcci的平均路徑長度、網絡直徑和平均聚類系數均小于Gb與Gc。較小的平均路徑長度和網絡直徑表明跨文獻知識實體共現網絡具有更顯著的“小世界”特性,而較低的平均聚類系數與之相反。類似地,Cheng Q K等[7]構建的作者關鍵詞引用網絡的平均聚類系數也低于傳統共詞網絡。這與本文結果共同表明,與其他知識實體具有跨文獻關聯的知識實體間的關聯性較低,即知識實體的跨文獻關聯弱于同文獻關聯。這進一步說明,本文區分這兩類關聯的必要性與合理性。
綜上所述,相較于傳統共詞網絡以及基于施引文本的知識實體共現網絡,本文提出的跨文獻知識實體共現網絡不僅在網絡規模和關聯豐富性方面具備優勢,還展現了一定的稀疏性和“小世界”特性。
3.3.2 知識實體重要性評價
衡量知識實體重要性的方法主要分為基于頻次和基于網絡兩類[65]。前者依據知識實體在特定數據集中出現的頻次判定其重要性,后者則通過網絡分析方法評估網絡中代表知識實體的節點重要性,常用的指標包括度中心性、接近中心性、介數中心性和PageRank等。度中心性通過統計與節點直接相連的節點數量來評估其重要性,加權度中心性(Weighted Degree Centrality,WDC)則進一步考慮邊的權重,更適用于有權網絡。接近中心性考察特定節點與其他節點的平均最短路徑長度,介數中心性則關注經過某節點的最短路徑數量。PageRank源于網頁排序[66],通常用于有向網絡。
值得注意的是,接近中心性與介數中心性的計算復雜度較高,在大規模網絡中實現高效計算仍具挑戰。Zhao W Y等[4]發現,在共詞網絡中,前述節點重要性指標之間具有較強相關性。鑒于本文涉及的網絡規模較大,且與共詞網絡一樣均為無向有權網絡,本文選用加權度中心性(WDC)衡量Gb、Gc、Gcc以及Gcci中知識實體的重要性,同時將頻次作為基準。本文使用了5種評價方法:頻次方法、Gb+WDC、Gc+WDC、Gcc+WDC以及Gcci+WDC。其中,后4種統稱為基于網絡的評價方法。
為比較各評價方法的差異,本文借鑒相關研究[67-68],引入變異系數和重復值比例作為衡量指標。變異系數,即標準差與均值之比,用于反映評價方法的變異程度[69]及蘊含的信息量[67]。重復值比例表示某評價方法中具有相同指標值的知識實體占比[67]。較高的重復值比例意味著相當數量的知識實體的評價指標值相同,增加了區分其重要性的難度。因此,重復值比例越低,表明對應評價方法的區分能力越強。變異系數和重復值比例的計算結果如表3所示。
結果顯示,頻次方法的變異系數高于基于網絡的評價方法。而在4種基于網絡的評價方法中,Gcci+WDC的變異系數最高,Gcc+WDC與Gc+WDC次之,而Gb+WDC最低,表明擴大知識實體抽取范圍以及引入微觀引文重要性有助于知識實體共現網絡編碼更豐富的信息。此外,基于網絡的評價方法在重復值比例上均低于頻次方法,尤其是Gcci+WDC的下降幅度最為顯著,表明引入微觀引文重要性后,知識實體間關聯得到了更精細的量化,從而提升了區分能力。
為評估各評價方法之間的相關性,本文計算了斯皮爾曼秩相關系數,如表4所示。需要指出的是,所有方法對的p值均接近0,說明在0.01水平下(雙尾),各評價方法的相關性顯著。結果顯示,Gc+WDC、Gb+WDC與頻次方法的相關性較低,但仍達到中等水平;而Gcci+WDC、Gcc+WDC和頻次方法的相關性較高。
綜上所述,通過加權度中心性衡量網絡中知識實體重要性時,相較于傳統共詞網絡與基于施引文本的知識實體共現網絡,跨文獻知識實體共現網絡包含更為豐富的信息,與頻次方法相關性更高,并且表現出更強的區分能力。
3.3.3 領域研究主題挖掘
為探討NLP領域的研究主題并評估跨文獻知識實體共現網絡在領域研究主題挖掘中的表現,本文選用在信息資源管理領域應用廣泛的基于模塊度優化的Louvain算法[70]將網絡節點聚成不同簇,并根據簇內代表性知識實體標記其研究主題。模塊度(Modularity)是Louvain算法衡量網絡社團結構顯著性的關鍵指標,當模塊度值超過0.3時,社團結構具有統計顯著性[71]。
表5顯示,Gb、Gc、Gcc與Gcci的模塊度均超過0.3,表明在這些網絡中Louvain算法均識別出顯著的社團結構。具體而言,Gb形成108個簇,Gc形成654個簇,Gcc形成98個簇,而Gcci形成35個簇。為便于分析,本文移除節點數小于20及意義不明的簇,最終保留了Gb的22個簇,Gc的28個簇,Gcc的21個簇及Gcci的16個簇??梢园l現,相較于Gb和Gc,Gcc和Gcci生成的簇數量有所減少。
為進一步分析NLP領域的研究主題,本文根據頻次選取每個簇的代表性知識實體并標注其研究主題。限于篇幅,僅展示Gcci中部分簇的主題名稱、節點數量以及代表性知識實體,如表6所示。接著,使用維恩圖分析Gb、Gc、Gcc和Gcci中的研究主題間關系,如圖6所示。
可以發現,全部4種網絡的交集涵蓋8個研究主題:“句法解析”“機器學習算法”“機器翻譯”“自然語言理解”“自然語言生成”“詞嵌入”“語法糾錯”以及“預訓練語言模型”。這些主題在全部網絡中普遍存在,反映了NLP領域的核心研究內容。此外,“多模態”“對抗學習”“指代/共指消解”“社交媒體文本處理”“評估”“形態切分”“語篇分析”“語言類型”“事件預測”“詞義消歧”“語音翻譯”“意圖檢測”和“實體與關系抽取”這些主題也在多個網絡中出現,同樣揭示了NLP領域的重要研究方向。
接著對各網絡中的特有研究主題進行分析,發現在Gb和Gc中均存在可歸并的特有研究主題。譬如,Gb中的“新聞推薦”可視為“個性化推薦”的子主題,“雙關語檢測”是“自然語言理解”的具體應用;而Gc中的“中文文本處理”與“阿拉伯文本處理”均屬于面向特定語言的NLP子領域,“生物醫學實體與關系抽取”是“實體與關系抽取”的一個子類。盡管如此,Gb與Gc仍揭示了NLP領域中的若干重要研究內容,如“知識圖譜分析”“語義分析”“語料”等。此外,Gcc中特有的“詞形變化”也屬于NLP領域的重要研究內容。值得注意的是,Gcci并不包含特有的研究主題。
綜合表5可以發現,Gb與Gc的研究主題相對零散且存在一定冗余,相比之下,跨文獻知識實體共現網絡Gcc與Gcci的研究主題則更加集中和凝練。這一差異可能源于跨文獻知識實體共現網絡通過施引文本—被引片段對,使得語義相關的知識實體得以跨越文獻邊界建立關聯,從而顯著增強了網絡中知識實體節點的內聚性。這種內聚性同樣體現在3.3.1節中跨文獻知識實體共現網絡所展現的“小世界”特性。
4 總 結
現有的共詞網絡只能捕獲知識實體在同一文獻中的關聯,無法建模跨文獻的知識實體關聯,且缺乏語義信息。此外,現有的跨文獻知識實體網絡在構建知識實體的跨文獻關聯時仍顯粗糙。有鑒于此,本文引入引文內容分析方法,提出一種基于施引文本—被引片段對的跨文獻知識實體共現網絡構建方法,并通過微觀引文重要性區分知識實體的同文獻關聯和跨文獻關聯。
自然語言處理領域的實證研究表明,相較于傳統共詞網絡與基于施引文本的知識實體共現網絡,本文構建的跨文獻知識實體共現網絡具有以下特點:首先,網絡規模更大,知識實體間的關聯更為豐富,且具備一定的稀疏性和“小世界”特性;其次,在知識實體重要性評價方面,基于此類網絡的加權度中心性評價方法信息含量更高,與頻次方法的相關性更強,且具有更好的區分能力;最后,從中挖掘得到的研究主題更為集中凝練。
本文綜合知識網絡、實體計量和引文內容分析多個領域的理論和方法,不僅有效推動了這些領域的邊界延展與交叉融合,還為相關研究提供了新的方法論支持。此外,本文對促進科學文獻的知識發現與利用,提升研究人員的認知效率具有重要意義。
然而,本文仍存在一些局限:一方面,缺乏跨領域的實證分析;另一方面,知識實體抽取未考慮嵌套實體的影響。未來研究可進一步擴展應用領域并完善知識實體抽取方法,以提高研究的適用性與準確性。
參考文獻
[1]Zhang C Z,Mayr P,Lu W,et al.Guest Editorial:Extraction and Evaluation of Knowledge Entities in the Age of Artificial Intelligence[J].Aslib Journal of Information Management,2023,75(3):433-437.
[2]Ding Y,Song M,Han J,et al.Entitymetrics:Measuring the Impact of Entities[J].PLoS One,2013,8(8):e71416.
[3]代冰,胡正銀.基于文獻的知識發現新近研究綜述[J].數據分析與知識發現,2021,5(4):1-12.
[4]Zhao W Y,Mao J,Lu K.Ranking Themes on Co-Word Networks:Exploring the Relationships Among Different Metrics[J].Information Processing amp; Management,2018,54(2):203-218.
[5]Wang Z Y,Li G,Li C Y,et al.Research on the Semantic-Based Co-Word Analysis[J].Scientometrics,2012,90(3):855-875.
[6]王忠義,譚旭,夏立新.共詞分析方法的細粒度化與語義化研究[J].情報學報,2014,33(9):969-978.
[7]Cheng Q K,Wang J M,Lu W,et al.Keyword-Citation-Keyword Network:A New Perspective of Discipline Knowledge Structure Analysis[J].Scientometrics,2020,124(3):1923-1943.
[8]陸偉,孟睿,劉興幫.面向引用關系的引文內容標注框架研究[J].中國圖書館學報,2014,40(6):93-104.
[9]徐健,李綱,毛進,等.文獻被引片段特征分析與識別研究[J].數據分析與知識發現,2017,1(11):37-45.
[10]Wang Y Z,Zhang C Z.What Type of Domain Knowledge Is Cited by Articles with High Interdisciplinary Degree?[C]//Proceedings of the 81st ASISamp;T Annual Meeting.Hoboken,New Jersey,USA:Wiley,2018:919-921.
[11]王佳敏,陸偉,程齊凱,等.基于細粒度關鍵詞引用網絡的領域知識多維分析[J].情報學報,2022,41(7):733-744.
[12]Castriotta M,Loi M,Marku E,et al.Disentangling the Corporate Entrepreneurship Construct:Conceptualizing Through Co-Words[J].Scientometrics,2021,126(4):2821-2863.
[13]Hosseini S,Baziyad H,Norouzi R,et al.Mapping the Intellectual Structure of GIS-T Field(2008—2019):A Dynamic Co-Word Analysis[J].Scientometrics,2021,126(4):2667-2688.
[14]Miyashita S,Sengoku S.Scientometrics for Management of Science:Collaboration and Knowledge Structures and Complexities in an Interdisciplinary Research Project[J].Scientometrics,2021,126(9):7419-7444.
[15]陸泉,曹越,陳靜.基于語義關聯與模糊聚類的共詞分析方法[J].情報學報,2022,41(10):1003-1014.
[16]Whittaker J.Creativity and Conformity in Science:Titles,Keywords and Co-Word Analysis[J].Social Studies of Science,1989,19(3):473-496.
[17]Yu Q,Wang Q,Zhang Y F,et al.Analyzing Knowledge Entities About COVID-19 Using Entitymetrics[J].Scientometrics,2021,126(5):4491-4509.
[18]章成志,謝雨欣,張恒.學術文獻全文內容中的方法實體細粒度抽取及演化分析研究[J].情報學報,2023,42(8):952-966.
[19]趙一鳴,尹嘉穎.語義增強型全文本共詞網絡的構建與分析[J].情報學報,2023,42(10):1187-1198.
[20]章成志,張穎怡.基于學術論文全文的研究方法實體自動識別研究[J].情報學報,2020,39(6):589-600.
[21]Wang Y Z,Zhang C Z,Song M,et al.Exploring Academic Influence of Algorithms by Co-Occurrence Network Based on Full-Text of Academic Papers[J/OL].Aslib Journal of Information Management:1-30[2024-12-12].https://doi.org/10.1108/AJIM-09-2023-0352.
[22]章成志,謝雨欣,宋云天.學術文本中細粒度知識實體的關聯分析[J].圖書館論壇,2021,41(3):12-20.
[23]Bornmann L,Haunschild R,Hug S E.Visualizing the Context of Citations Referencing Papers Published by Eugene Garfield:A New Type of Keyword Co-Occurrence Analysis[J].Scientometrics,2018,114(2):427-437.
[24]Nam D,Kim J,Yoon J,et al.Characterizing Knowledge Entity Extracted from Citation Sentences[C]//Zhang C Z,Mayr P,Lu W,et al.Proceedings of the 3rd Workshop on Extraction and Evaluation of Knowledge Entities from Scientific Documents(EEKE 2022).Aachen,Germany:Sun SITE Central Europe,2022:80-91.
[25]馮璐,冷伏海.共詞分析方法理論進展[J].中國圖書館學報,2006(2):88-92.
[26]Krenn M,Zeilinger A.Predicting Research Trends with Semantic and Neural Networks with an Application in Quantum Physics[J].Proceedings of the National Academy of Sciences,2020,117(4):1910-1916.
[27]Xiong T,Zhou L,Zhao Y,et al.Mining Semantic Information of Co-Word Network to Improve Link Prediction Performance[J].Scientometrics,2022,127(6):2981-3004.
[28]陳翔,黃璐,倪興興,等.基于動態語義網絡分析的主題演化路徑識別研究[J].情報學報,2021,40(5):500-512.
[29]Feng J,Zhang Y Q,Zhang H.Improving the Co-Word Analysis Method Based on Semantic Distance[J].Scientometrics,2017,111(3):1521-1531.
[30]Song M,Han N G,Kim Y H,et al.Discovering Implicit Entity Relation with the Gene-Citation-Gene Network[J].PLoS One,2013,8(12):e84639.
[31]程齊凱,王佳敏,陸偉.基于引用共詞網絡的領域基礎詞匯發現研究[J].數據分析與知識發現,2019,3(6):57-65.
[32]Wang J M,Cheng Q K,Lu W,et al.A Term Function-Aware Keyword Citation Network Method for Science Mapping Analysis[J].Information Processing amp; Management,2023,60(4):103405.
[33]Tu Y N,Hsu S L.Constructing Conceptual Trajectory Maps to Trace the Development of Research Fields[J].Journal of the Association for Information Science and Technology,2016,67(8):2016-2031.
[34]王菲菲,王筱涵,徐碩,等.基于三維引文關聯網絡的潛在知識流動探測——以基因編輯領域為例[J].情報學報,2021,40(2):184-193.
[35]Kim E H J,Jeong Y K,Kim Y,et al.Exploring Scientific Trajectories of a Large-Scale Dataset Using Topic-Integrated Path Extraction[J].Journal of Informetrics,2022,16(1):101242.
[36]Huo C G,Ma S T,Liu X Z.Hotness Prediction of Scientific Topics Based on a Bibliographic Knowledge Graph[J].Information Processing amp; Management,2022,59(4):102980.
[37]Sun Y Z,Han J W,Yan X F,et al.PathSim:Meta Path-Based Top-K Similarity Search in Heterogeneous Information Networks[J].Proceedings of the VLDB Endowment,2011,4(11):992-1003.
[38]翟東升,劉鶴,張杰,等.一種基于鏈路預測的技術機會挖掘方法[J].情報學報,2016,35(10):1090-1100.
[39]Nam D,Kim J,Yoon J,et al.Examining Knowledge Entities and Its Relationships Based on Citation Sentences Using a Multi-Anchor Bipartite Network[J].Scientometrics,2024,129(11):7197-7228.
[40]Hsiao T M,Chen K H.The Dynamics of Research Subfields for Library and Information Science:An Investigation Based on Word Bibliographic Coupling[J].Scientometrics,2020,125(1):717-737.
[41]Zhang X Y,Xie Q,Song C,et al.Mining the Evolutionary Process of Knowledge Through Multiple Relationships Between Keywords[J].Scientometrics,2022,127(4):2023-2053.
[42]圖書館·情報與文獻學名詞審定委員會.圖書館·情報與文獻學名詞[M].北京:科學出版社,2019.
[43]王曉光.科學知識網絡的形成與演化(Ⅰ):共詞網絡方法的提出[J].情報學報,2009,28(4):599-605.
[44]文庭孝,劉曉英,梁秀娟,等.知識計量研究綜述[J].圖書情報知識,2010(1):95-101.
[45]Shao W,Hua B L,Ma Q,et al.An Unsupervised Method for Terminology Extraction from Scientific Text[C]//Zhang C Z,Mayr P,Lu W,et al.Proceedings of the 1st Workshop on Extraction and Evaluation of Knowledge Entities from Scientific Documents.Aachen,Germany:Sun SITE Central Europe,2020:86-88.
[46]Li J,Sun A X,Han J L,et al.A Survey on Deep Learning for Named Entity Recognition[J].IEEE Transactions on Knowledge and Data Engineering,2022,34(1):50-70.
[47]鄧依依,鄔昌興,魏永豐,等.基于深度學習的命名實體識別綜述[J].中文信息學報,2021,35(9):30-45.
[48]Huang Z H,Xu W,Yu K.Bidirectional LSTM-CRF Models for Sequence Tagging[EB/OL].[2024-12-12].http://arxiv.org/abs/1508.01991.
[49]Ma Y Q,Liu J W,Lu W,et al.Beyond Tasks,Methods,and Metrics:Extracting Metrics-Driven Mechanism from the Abstracts of AI Articles[C]//Zhang C Z,Mayr P,Lu W,et al.Proceedings of the 3rd Workshop on Extraction and Evaluation of Knowledge Entities from Scientific Documents(EEKE 2022).Aachen,Germany:Sun SITE Central Europe,2022:5-18.
[50]Ma Y Q,Liu J W,Lu W,et al.From“What”to“How”:Extracting the Procedural Scientific Information Toward the Metric-Optimization in AI[J].Information Processing amp; Management,2023,60(3):103315.
[51]Luan Y,He L H,Ostendorf M,et al.Multi-Task Identification of Entities,Relations,and Coreference for Scientific Knowledge Graph Construction[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing.Stroudsburg,Pennsylvania,USA:Association for Computational Linguistics,2018:3219-3232.
[52]Rohatgi S.ACL Anthology Corpus with Full Text[EB/OL].[2022-11-29].https://github.com/shauryr/ACL-anthology-corpus.
[53]陳京蓮,羅紅,羅小臣,等.基于文獻老化負指數方程的半衰期與普賴斯指數關系的研究[J].圖書情報工作,2012,56(8):73-76,101.
[54]哈爾濱工業大學自然語言處理研究所.ChatGPT調研報告[EB/OL].[2024-12-12].https://mp.weixin.qq.com/s/NyoSRvdk-_kVMbwQf2RgEQ.
[55]Ding Y,Liu X Z,Guo C,et al.The Distribution of References Across Texts:Some Implications for Citation Analysis[J].Journal of Informetrics,2013,7(3):583-592.
[56]胡志剛,陳超美,劉則淵,等.從基于引文到基于引用——一種統計引文總被引次數的新方法[J].圖書情報工作,2013,57(21):5-10.
[57]金賢日,歐石燕.無監督引用文本自動識別與分析[J].數據分析與知識發現,2021,5(1):66-77.
[58]Nambanoor K S,Pride D,Knoth P.Dynamic Context Extraction for Citation Classification[C]//Proceedings of the 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing(Volume 1:Long Papers).Stroudsburg,Pennsylvania,USA:Association for Computational Linguistics,2022:539-549.
[59]Nie W M,Ou S Y.Micro Citation Importance Identification and Its Application to Literature Evaluation[C]//Sserwanga I,Joho H,Ma J,et al.Proceedings of the 19th International Conference on Wisdom,Well-Being,Win-Win,iConference 2024.Cham,Switzerland:Springer Cham,2024:356-375.
[60]聶維民,歐石燕.面向被引片段識別的改進混合方法[J].數據分析與知識發現,2023,7(1):113-127.
[61]Jie A,Lin Y C,elik F.LSTM/BERT-CRF Model for Named Entity Recognition(or Sequence Labeling)[EB/OL].[2024-12-12].https://github.com/allanj/pytorch_neural_crf.
[62]Eberts M,Ulges A.Span-Based Joint Entity and Relation Extraction with Transformer Pre-Training[C]//ECAI 2020-24th European Conference on Artificial Intelligence.Santiago de Compostela,Spain,2020:2006-2013.
[63]Alstott J,Bullmore E,Plenz D.Powerlaw:A Python Package for Analysis of Heavy-Tailed Distributions[J].PLoS One,2014,9(1):e85777.
[64]Batagelj V,Mrvar A.Pajek-Program for Large Network Analysis[J].Connections,1998,21(2):47-57.
[65]梁爽,劉小平,柴文越.主題—引文融合視角下重要主題發現及知識流動路徑研究[J].數據分析與知識發現,2024,8(2):99-113.
[66]Page L,Brin S,Motwani R,et al.The PageRank Citation Ranking:Bringing Order to the Web[R].Stanford,California:Stanford infolab,1999.
[67]耿樹青,楊建林.基于引用情感的論文學術影響力評價方法研究[J].情報理論與實踐,2018,41(12):93-98.
[68]姜霖,張麒麟.基于引文細粒度情感量化的學術評價研究[J].數據分析與知識發現,2020,4(6):129-138.
[69]Albarrán P,Herrero C,Ruiz-Castillo J,et al.The Herrero-Villar Approach to Citation Impact[J].Journal of Informetrics,2017,11(2):625-640.
[70]Blondel V D,Guillaume J L,Lambiotte R,et al.Fast Unfolding of Communities in Large Networks[J].Journal of Statistical Mechanics:Theory and Experiment,2008,2008(10):P10008.
[71]Newman M E J.Fast Algorithm for Detecting Community Structure in Networks[J].Physical Review E,2004,69(6):066133.
(責任編輯:楊豐僑)