基于三維主題特征測度的新興主題識別研究

2024-03-11 07:18:08鄭德俊程為

情報學報 2024年2期

鄭德俊，程為

（南京農業大學信息管理學院，南京 210095）

0 引言

新興主題是一個相對概念，隨時間推移而動態變化，是指在觀測時間點的未來一段時間內，具有發展潛力與應用價值并處于萌芽期或上升期階段的研究主題[1-2]。識別領域新興主題有利于及時跟蹤領域發展的最新動態，厘清領域前沿研究主題的分布概況，輔助認知學科內在的發展機制與軌跡[3-4]，能夠為領域未來發展與應用提供可參考的方向，為科研工作者的選題以及科研管理者的決策提供情報支撐。領域新興主題識別是情報分析領域的一項熱點研究內容，相關研究總結了其研究路徑，識別方法部分包括主題建模與主題新興程度測度兩個遞進階段[5]。目前，一方面，主題建模基于關鍵詞、摘要或全文抽取特征詞進行主題聚類與表示，但該方法強調特征詞的共現或語義關聯，通常忽視單篇文獻更豐富的內外部特征信息，使得后續主題的特征測度與分析維度相對單一[6]；另一方面，主題新興程度測度以時間、引文網絡與相似度作為切入點，選用一個或少數幾個定量指標進行計算，當面臨領域特點不同或主題類型不同時，較少指標由于揭示的主題信息不夠系統、全面，難以適應具體問題下的合適指標選用[7]。

基于此，本文以完整摘要內容為基本單位進行語義向量表示和主題建模，并以摘要代表單篇文獻作為線索串聯時間、引用等相關特征信息，探索構建綜合時間、引用與關聯的多維度指標框架，以更全面、細致地挖掘與表示主題特征，實現新興主題的識別。在理論層面，能夠為新興主題的特征挖掘與測度提供一套可借鑒與擴展的特征指標框架，以期為新興主題識別的相關研究提供一種可參考的方法和思路；在實踐層面，本文提出的新興主題識別方法可作為一種參考工具應用于科技情報分析、領域發展態勢分析等場景，為新興主題發現提供數據支持。

1 相關研究

新興主題識別包括主題識別與新興主題發現兩個階段的任務。其中，主題識別方法分為兩類：一是網絡社區發現法，構建共被引網絡、直接引文網絡、文獻耦合網絡、共詞網絡、語義網絡等識別研究主題[8-10]；二是基于內容挖掘法，實現主題特征詞抽取與表示[11]。新興主題發現則通常采用主題新興度、主題新穎性、主題成長度等指標，識別并衡量新興主題的發展潛力[11-13]。本文以文本內容為主題建模的基礎，從基于內容挖掘的主題建模與主題新興程度測度指標兩個方面梳理相關研究。

1.1 基于內容挖掘的主題建模

主題建模是一種無監督的聚類算法，挖掘數據集中語義單元的潛在關聯性進而劃分主題。在建模算法上，LDA（latent Dirichlet allocation）及其改進模型應用較為廣泛[14]，比較有影響力的改進算法有LDA2vec[15]、動態LDA算法[16]、融合高斯函數加權的LDA算法[17]等，其面向科技文獻的主要應用場景有主題挖掘[18-19]、主題演化分析[20-21]、學術評價[22-23]等。近年來，隨著語義向量嵌入模型的廣泛應用，topic2vec[24-25]、BERTopic[26-27]等算法在主題建模中取得了較好效果。在特征詞抽取上，相關研究基于年份-關鍵詞詞頻矩陣識別研究熱點[10]；結合客戶價值細分模型，對高價值關鍵詞進行篩選進而識別熱點主題[28]；融合關鍵詞順序與詞頻、文獻與關鍵詞關聯關系等構建關鍵詞綜合影響力模型，進而識別領域熱點主題[29]等，使得主題建模的結果具有更強的可解釋性。上述研究雖然有在關鍵詞的基礎上深入文獻摘要或全文進行主題挖掘，但仍以主題特征詞為基本單位對主題進行建模，導致文獻更豐富的內外部特征信息無法得到充分利用。

1.2 主題新興程度測度指標

主題新興程度測度指標的特征基礎可以分為時間要素、引文網絡與語義挖掘三大類，主要包括如下代表性研究。在時間要素中，時序關系下特征詞的首次出現時間、平均時間和拐點時間是衡量主題新穎度的重要指標[12,30]，另外，按時間切片的形式衡量主題的發展歷程與成長性也具有有效性[13,31]。引文網絡是指基于引用關系（引用、共被引和引用耦合）構建復雜網絡，在主題聚類的基礎上，分析不同階段主題的知識流動路徑與強度[32-33]，進而明確主題在引用網絡中的定位與影響力，將其作為新興主題不確定性和模糊性的測度指標[34]，實現新興主題的預測。在語義挖掘中，主要通過相似度計算考量不同主題之間的語義距離[35]，從內容層面測度主題之間的差異性，并將這種差異性表達為主題創新度、主題新穎性或主題新興度[36-37]。上述主題測度指標都在一定程度上反映了主題新興程度，并得到了實踐檢驗，具有深入研究的價值，是本文的借鑒對象。但是，在科學計量與評價領域強調具體問題具體分析的要求下[38]，需要集成側重不同主題特征的已有指標與新指標，以強化多指標融合視角下識別結果的可解釋性，提升人工判定的準確性與客觀性。

1.3 相關研究述評

目前，一方面，在主題建模上，基于特征詞的主題表示難以充分挖掘與表示主題的多維特征，有必要利用摘要的完整語義信息進行主題建模，使無監督的主題聚類取得更符合領域知識分布特征的結果，具有更強的可解釋性，并且能夠充分融合文獻發表時間等信息豐富主題特征的觀測視角；另一方面，以時間、引用或關聯3個維度中的某一指標作為新興主題識別的依據，越來越難以適應主題多元化發展的場景，因此，有研究嘗試融合不同指標進行新興主題識別并比單一指標取得了更好的效果[39-40]。然而，這部分研究仍是選用單維度或多維度的少數幾個指標，未形成系統的指標框架，在主題特征的挖掘深度與廣度上仍具有一定局限性，有必要在篩選現有指標的基礎上，提出新的主題特征指標，構建3個維度并列共存、相互補充、相互驗證的指標框架，以不同主題特征作為切入點識別新興主題。

更全面的主題語義知識表示是優化主題建模結果的重要手段，系統指標框架的建立是更客觀評估主題新興程度的工具。因此，以摘要作為主題建模、表示與特征測度的基本單位，符合深度主題知識挖掘的需求；探索基于時間、引用和關聯的三維主題特征指標框架，對新興主題識別具有更廣泛的應用價值。

2 新興主題識別方法

2.1 識別方法概述

現有研究中基于特征詞的主題表示，存在難以充分揭示主題特征信息、單個或少數指標難以全面且深入地挖掘主題特征信息的問題。本文嘗試解決這兩個方面的問題，提出新興主題識別方法的實現框架，如圖1所示。主要操作如下：第一，獲取數據包括領域文獻題錄及引用數據，通過數據預處理構建摘要語料；第二，以文獻為基本單位，基于語義詞向量嵌入摘要語料實現領域主題建模及評估，并通過主題置信概率保證主題建模的效果；第三，構建三維主題特征指標框架，分別基于3個維度的指標計算識別新興主題；第四，融合各個維度下的識別結果相互補充來輔助人工判定，匯總形成領域新興主題識別結果；第五，通過基于LDA+word2vec+similarity的方法對比分析、指標相關性計算分析、資料分析法來綜合評估本文方法的有效性。其中，充分挖掘文獻的語義內涵并以文獻摘要為基本單位進行主題建模、構建融合多因素的細粒度主題特征指標框架是本文的創新所在。

圖1 新興主題識別方法的實現框架

2.2 主題建模及評估

2.2.1 BERTopic主題建模

傳統主題建模算法，如LSA（latent semantic analysis）、PLSA（probabilistic latent semantic analy‐sis）、LDA等，通過詞袋表示進行建模，忽略了詞間的語義關系，不能解釋文檔語料中詞的上下文，難以準確表示文檔。BERT（bi-directional encoder representations from transformers）及其改進模型能夠生成融合文檔語料上下文語義信息詞向量與句子向量，在該方式下，相似文本在向量空間中更接近[41]。BERTopic融合深度語義向量與傳統聚類方法對主題進行建模，本文舍棄抽取特征詞進行主題表示的過程，核心思路分為兩個階段：①通過詞嵌入的預訓練模型得到文檔語料的深度語義向量；②通過HDBSCAN（hierarchical density-based spatial clus‐tering of applications with noise）、k-means等聚類算法進行聚簇處理，以文檔為基本單位實現領域研究主題建模。以摘要文本為語料，基于BERTopic挖掘更深層次的語義信息進行向量表示，進而以摘要為基本單位進行主題聚類與表示，相較于主題特征詞，能夠融合更豐富的信息如參考文獻與施引文獻的語義信息作為后續主題特征測度的數據基礎。

2.2.2 評估方法

當存在N個樣本與K個主題時，BERTopic模型會計算任意一個樣本分別聚類至K個主題的概率，并最終將其聚類至最大概率對應的主題；將N個樣本被聚類至最大概率對應的主題的平均概率稱為主題置信概率，用于評估主題建模的結果。主題置信概率最小取值為1/K，此時建模效果最差，N個樣本聚類至各主題完全隨機；理想狀態下，主題置信概率取值為1，即樣本屬于某一主題的概率為100%且屬于其他主題的概率為0%，此時建模達到理想的最佳效果，主題內部樣本高度集中，且與主題外部的樣本高度分離，聚類結果不存在任何誤差可能。在區間[1/K, 1]內，主題置信概率取值越高，主題建模效果越好。

2.3 三維主題特征指標框架

主題的時間、引用和語義特征是評估主題新興程度的主要參考線索，吸納現有指標并補充新指標，本文構建了包含14個指標的三維主題特征指標框架。

2.3.1 時間維度

時間維度下，主題新興度計算思路有主題中最新樣本的時間屬性、主題中最早樣本與觀測時間的時間間隔、主題內樣本的時間屬性的平均值等。雖然以上計算方法可以直觀反映主題的重要時間點，但是容易受到極端單樣本的影響。因此，基于上述指標，著重關注觀測時間的最近一段時間的主題樣本分布情況，考慮到觀測時間點不一定能夠以完整的年份為間隔劃分樣本，將主題中樣本的局部分布與領域中樣本的整體分布進行對比，按不均等劃分時間段的方式衡量主題在觀測時間點的發展潛力。時間維度的各主題特征指標如表1所示。

表1 時間維度的主題特征測度指標

2.3.2 引用維度

文獻間的引用關系通常用于探測知識的跨主題流動，可以揭示主題間的關聯程度、測度主題在領域中所處的位置，相關測度指標主要基于主題的被引頻次、施引頻次等基本計量指標衡量主題在領域中的核心度。但是，被引文獻與施引文獻客觀存在的時間先后關系在一定程度上反映了知識更新的周期，而上述指標對引用關系潛在的時間關系關注較少。因此，融合主題內部和跨主題引用數據的時間屬性，采用表2中的指標來綜合測度主題引用維度的特征。

表2 引用維度的主題特征測度指標

2.3.3 關聯維度

相似度計算是衡量主題新興度的重要手段，當前新興主題發現研究通常以詞共現關系及其頻次、詞向量等作為相似度計算基礎。但是，詞在主題中不是孤立存在或以簡單的共現關系存在的。因此，本文以標題為基本單位，充分挖掘標題的語義信息構建向量，進而測度主題內外部的語義關聯程度。同時，僅考慮主題內部或主題間的語義關聯會忽略非領域內的相關數據，在當前多學科領域知識交叉融合的背景下，跨領域知識流動程度能夠揭示研究的潛在價值，有必要獲取文獻完整引用數據用于主題特征測度。SimCSE（simple contrastive sentence embedding）基于對比學習的思想，利用自監督學習來提升句子的表示能力，能夠充分學習文本的語義知識[45]。因此，本文以文獻標題作為輸入，選擇sup-simcse-bert-base-uncased預訓練模型，輸出表示文獻的768維語義向量。以主題中各文獻語義向量的平均向量作為主題的語義向量。關聯維度的各指標詳情如表3所示。

表3 關聯維度的主題特征測度指標

3 實證研究

3.1 數據來源與預處理

以“文本分類”領域為例進行實證，限定Web of Science核心合集，為提升檢索結果與領域的相關性，不額外限制“text classification”這一通用概念，并限制其同義概念必須以詞組形式出現。因此，構建檢索式“TS=((text classification) OR ("docu‐ment classification") OR ("document categorization")OR ("text categorization") OR ("text tagging") OR("document tagging"))”進行檢索，檢索時間為2022年10月2日，出版日期截至2022年9月30日，得到檢索結果28095條，經過人工判斷初步剔除不相關或弱相關記錄，得到25714條記錄。為獲取更規范、完整的數據，在2022年10月7日至2022年10月11日，遍歷檢索結果中每一文獻的DOI（digital object identifier），通過開源學術搜索引擎Semantic Scholar提供的API（application programming interface）獲取文獻的題錄信息、參考文獻與施引文獻數據。由于檢索結果中部分文獻沒有DOI或文獻未被Semantic Scholar收錄，最終通過API獲得23096條文獻的JSON（JavaScript object notation）數據，包括770559條參考文獻記錄和685406條施引文獻記錄。本文實驗所用數據雖然無法涵蓋領域所有文獻，但數據已具有一定規模，能夠較全面地反映領域的主要研究內容。

基于NLTK（natural language toolkit）庫，對23096條文獻的摘要進行大寫轉小寫、分詞、詞形還原和去停用詞的預處理，形成摘要語料。由于領域文獻的主題均與“文本分類”相關，為防止詞頻過高的詞集中于某一主題進而導致過多文獻被分類至該主題，在基本去停用詞表的基礎上，選取詞頻超過10000的詞并基于人工篩選補充停用詞表，基本統計信息如表4所示。

表4 補充停用詞表的統計信息

3.2 主題建模

基于23096條文獻的摘要語料進行主題建模實驗，主要分為4個步驟：①選擇BERTopic中處理英文文本的默認嵌入模型all-MiniLM-L6-v2，將每一摘要文本的語義信息映射到一個384維的稠密向量空間；②基于默認的UMAP（uniform manifold ap‐proximation and projection）降維算法對摘要向量進行降維，為平衡計算開銷與信息量大小，以區間[2,10]內的整數作為候選空間維數；③選擇HDB‐SCAN算法進行聚類，以區間[2,100]內的整數作為候選最小聚類樣本數；④基于sklearn庫的文本特征抽取實現主題序列化，訓練BERTopic模型時，nr_topics設為“auto”，由模型自動迭代生成最佳主題數。當降維空間維數為5時，模型聚類結果相對穩定，重復實驗，可以獲得相似的聚類結果；當最小聚類樣本數分別為65、66、68時，模型取得較好效果，主題置信概率均在90%左右。對實驗結果進行人工審查后，最終確定最小聚類樣本數為66，此時有4319條樣本屬于離群文檔或無法劃分主題歸屬的文檔，剩余18777條樣本被模型分別聚類至42個主題，主題置信概率為90.12%，從定量評估的角度可以認為主題建模結果較為合理。

分別在42個主題中隨機選取部分摘要樣本人工研讀，總結各主題的基本內涵，42個主題的基本信息如表5所示。將18777條摘要樣本由高維空間映射至二維語義空間，其在42個主題的分布情況如圖2所示，圖中各主題的示例特征詞由BERTopic模型給出以便區分與可視化，并非主題的實際表示方式。

表5 42個主題基本信息

圖2 摘要樣本在二維語義空間的可視化分布

在定性評估方面，圖2中主題內部的樣本分布相對集中，不同主題間的界限明顯，達到了較好的聚類效果。其中，部分主題如“功能性磁共振成像”的樣本相對游離孤立，考慮到該部分主題也具有分析的需要，不對聚類結果做進一步人工處理。綜合來看，主題建模結果具有較強的可解釋性，未出現違反客觀事實的重大誤判，建模結果可信。

3.3 新興主題識別

3.3.1 指標計算

基于三維主題特征指標框架，計算各主題特征指標值。在時間維度，有4個主題的最早發文點為1991年，取值最小；3個主題最早發文點為2012年，取值最大；除極少數主題外，其他主題的最新發文點均為2022年。以上兩個指標的區分度較差，難以用于各主題的對比分析。計算各主題平均發文點與相對增長度，如圖3a所示。在引用維度，基于參考文獻數據集，構建領域18777篇文獻的引用網絡，共包含45658條引用關系，計算指標值如圖3b和圖3c所示。圖3b和圖3c中的節點數字代表主題編號，節點大小分別代表內引時差和主題內引度。在關聯維度，對于施引豐富度與被引豐富度兩個指標，構建每一文獻的參考文獻標題集與施引文獻標題集，基于SimCSE，以標題文本輸入sup-simcsebert-base-uncased預訓練模型構建語義向量，采用余弦相似度分別計算參考文獻標題集與施引文獻標題集的相似度矩陣，進而計算指標值，如圖3d所示。

圖3 各主題三維主題特征指標值對比圖

3.3.2 識別結果

由圖3a可以發現，“虛假信息監測”的平均發文點（2020.008）距觀測點最近，表明在2020年前后有關虛假信息監測的研究引起領域學者的廣泛關注；另外，“網絡平臺負面言論檢測”“圖神經網絡技術”“對抗式生成網絡模型”等主題的平均發文點都在2019年以后，表明它們具有較新的研究場景與內容。“音樂流派與情感分類”和“創新技術發現”兩個主題的平均發文點都在2016年左右，但二者的相對增長度遙遙領先其他主題，均超過0.58，表明與領域整體發展相比，這兩個主題的研究在當下具有貼合外部需求、融合新興技術并且更與時俱進的研究內容，迎來了新的小高峰。

由圖3b可以發現，主題的出度時差與入度時差基本都在兩年以上，而“融合多模態的情感分類”“網絡平臺負面言論檢測”“圖神經網絡技術”等主題內引時差、出度時差與入度時差均較小，知識更新的速度較快，更具有產生新知識的潛力。

由圖3c可以發現，“用戶消費滿意度情感分析”“引文分類與推薦”等跨主題入度較高且跨主題出度較小，即它們廣泛吸收了同領域其他主題的知識，但還未在其他主題大范圍知識擴散，在將來具有更廣闊的發展前景。“空間知識標注與計算”“自動問答”“自動摘要”等主題內引度較小且跨主題出度較小，表明其仍處于發展上升期，具有發展潛力。

由圖3d可以發現，“醫學信息挖掘”由于樣本數最多，主題內聚度最低；而“功能性磁共振成像”是一個比較孤立的主題，主題內聚度高而交叉度低，在前面各項指標中它也是一個具有明顯特征差異的主題，與文本分類領域本身關聯性較弱。“作者風格與文本體裁分類”“金融信息分類與挖掘”等主題內聚度與主題交叉度均較低，表明主題具有相對新穎、獨到的研究內容，仍處于發展上升期。“金融信息分類與挖掘”“法律文本智能挖掘”“用戶消費滿意度情感分析”“作者風格與文本體裁分類”等被引豐富度與施引豐富度均較高，表明這些主題在未來具有跨領域知識融合與發現的價值。

在2022年10月這個觀測點上，綜合圖3的各指標結果，判定文本分類領域的新興主題，如表6所示。結合表6，基于對部分領域文獻的內容分析，歸納文本分類領域未來的新興研究主題如下：①文本分類前沿技術的改進，如圖神經網絡、對抗式生成網絡等模型的優化；②文本分類方法在通用場景下的下游任務創新，如網絡信息的智能挖掘與質量評估、情感分析在多模態數據與細粒度分類標準上的擴展等；③文本分類方法結合領域知識特征在垂直領域的深入應用，如金融、法律等領域的知識結構化建模與價值發現；④文本分類與其他相關技術的協同優化，如增強自動問答與自動摘要的自然語言可理解性、提升多模態數據細粒度分類的準確性等。

表6 三維特征指標測度下的文本分類領域新興主題識別結果

3.3.3 結果與分析

在實驗中，最早發文點和最新發文點由于區分度較差未作為新興主題識別的依據，因此，對任意一個主題，由3個維度共12個指標值定量描述。例如，“虛假信息監測”可表示為[({平均發文點:2020.008}, {相對增長度: -0.0259}); ({主題內引度:0.9280}, {內引時差:2.4138}, {跨主題出度: 0.5120},{出度時差: 2.1875}, {跨主題入度: 1.0720}, {入度時差: 4.1716}); ({被引豐富度: 0.5548}, {施引豐富度:0.6169}, {主題內聚度: 0.4882}, {主題交叉度:0.3409})]。對任意一個主題，分別取12個指標值在42個主題中的升序排名值，對于平均發文點等與新興程度正相關的指標，單指標的新興程度量化結果為排名值，對于主題內聚度等與新興程度負相關的指標，單指標的新興程度量化結果為43減去排名值；3個維度量化結果取下屬單指標量化結果的平均值；整體量化結果取3個維度量化結果的平均值。例如，“虛假信息監測”在時間、引用與關聯維度的新興程度量化結果分別為24、28.6667、25.25，整體量化結果為25.9722。匯總表6中的新興主題，基于上述處理過程繪制圖4，主題標簽大小取決于整體新興程度。

圖4 主題新興程度在三維空間的量化分布

在圖4中，“作者風格與文本體裁分類”“自動摘要”等主題僅在單一維度新興程度較高，“引文分類與推薦”“融合多模態的情感分類”等主題同時在2個維度新興程度較高，而僅有“用戶消費滿意度情感分析”“法律文本智能挖掘”等少數主題在3個維度新興程度均較高。各主題在三維空間中分布較為離散，且極少有主題在3個維度的新興程度均較高，這說明從不同維度分類討論新興主題是有價值且符合客觀結果的，結合具體主題的實際特征，綜合考量各維度的指標值能夠有效識別不同類型的新興主題。

3.4 方法評估

3.4.1 方法對比分析

遞進式組合使用LDA、word2vec與similarity是目前較為常用的新興主題識別方法，為驗證本文識別方法（以下簡稱“A方法”）的有效性，增加LDA+word2vec+similarity方法（以下簡稱“B方法”）作為實驗對照組。首先，對于預處理后的摘要語料，基于LDA識別領域主題及主題特征詞；其次，利用word2vec訓練主題特征詞的詞向量；最后，基于特征詞向量，計算主題與其他主題余弦相似度的平均值，用1減去該值來表示主題的新興度。基于gensim庫訓練LDA主題模型，訓練時通過語料庫的次數為10，文檔-主題分布的先驗al‐pha與主題-詞分布的先驗均設置為“auto”，以區間[2,50]內的整數作為候選主題數，主題數為27時主題困惑度最低，達到最優建模效果；主題由分布概率較高的N個特征詞表示，設置N為30，設置詞向量維度為100。經計算，得到對照組新興主題識別結果，如表7所示。

通過表7可以發現，與A方法識別結果相比，B方法難以有效表示主題的語義信息，導致難以識別更細致的主題差異，同時，因為僅有新興度一個指標，難以綜合考慮主題的各特征因素，導致結果具有一定的局限性。例如，排名第1、3、6位的主題在內涵上隸屬對照實驗中的“醫學信息挖掘”，而實驗數據集更多是文本分類技術與應用的相關文獻，大量醫學相關文獻的缺失導致對照實驗高估了其新興度，導致誤判；排名第4位的主題“情感識別”屬于新興主題，但其主題范疇過于寬泛，A方法能識別出更細分的新興主題“用戶消費滿意度情感分析”“融合多模態的情感分類”“網絡平臺負面言論檢測”等；單個指標的局限性也導致A方法識別出的新興主題在對照實驗中被大量漏識。

通過與B方法的對比分析，可以認為本文方法具有新興主題識別粒度更細、更準確、更全面的優勢。

3.4.2 指標相關性分析

對42個主題的各指標值進行相關性分析，樣本數小于50條，因此，選擇夏皮洛-威爾克（Shapiro-Wilk，S-W）法進行檢驗，變量檢驗結果均不符合正態分布；根據變量的數據類型和分布形態，選取斯皮爾曼（Spearman）相關系數法對變量進行相關性檢驗，結果如表8所示。從表8可以發現，一方面，14個指標兩兩之間大部分不存在顯著的相關關系，這表明各指標具有差異性，形式上相互補充，能夠從不同角度更加全面地揭示主題特征，這在3.3節中的實證得以驗證。另一方面，部分指標之間存在正向或負向的顯著性相關關系，正向相關性反映了相關指標之間內在的協同性，如內引時差、入度時差與出度時差3個指標彼此存在正向相關性，從圖3b中也可發現這一規律，“融合多模態的情感分類”等主題在3個指標上的取值均較小，在圖中的分布相對集中且與其他主題存在明顯特征差異，能夠更準確地發現新興主題；負向相關性反映了指標之間在極端值內涵上的互斥性，如最早發文點通常較早，反映了一個主題的發展時間與成熟度，與新興程度相互對立，因此，它與內引時差等多個指標存在負向相關性，從側面反映了這些指標作為新興主題識別依據的科學性與合理性。

表8 各指標相關性分析

3.4.3 識別結果驗證

由于新興主題識別是一種預測性任務，沒有一種通用的定量標準衡量識別結果的準確性[5,30]，因此，采用資料分析法驗證文本分類領域新興主題識別結果的科學性。在2022年1月1日至2023年3月1日，收集Web of Science核心合集、中文社會科學引文索引（Chinese Social Sciences Citation Index，CSSCI）與中國科學引文數據庫（Chinese Science Citation Database，CSCD）里文本分類相關的中英文綜述，對其內容進行深入分析。相關文獻談到如何優化深度學習模型、改進前沿技術[48]；文本分類將重點關注算法改進、信息拓展以及二者的相互融合，并探索特定領域應用[49]；應當加強情感分析與知識問答對自然語言的理解能力[50]等。綜合來看，本文結合識別結果總結的新興研究主題基本貼合了上述相關表述，證明了本文方法的有效性與準確性。

4 結論與展望

4.1 研究結論

（1）以文獻為基本單位表示主題能輔助主題深入挖掘。傳統以特征詞進行主題表示的方法通常依靠詞間共現或關聯關系進行主題特征測度，在一定程度上限制了對主題的深入挖掘。本文以文獻為基本單位進行主題表示。其一，主題表示由一系列詞的集合替換為包含更豐富語義信息的摘要文本集合，使得主題能夠涵蓋更細致的語義內容，為主題內涵的凝練與分析提供更易理解的數據支撐，更精準地溯源主題的某一文獻進行深入分析；其二，以文獻為基本單位表示主題能夠擴展主題的內外部關聯類型，如特征詞之間難以準確表示的引用關系可以通過文獻精準表示，為主題的關聯分析提供不同的切入點；其三，以文獻為基本單位能夠融合更多樣的相關數據輔助主題特征的測度，如領域文獻與非領域文獻之間基于引用的相關關系，可以探測知識跨領域流向特定主題的方向及強度，豐富主題觀測的思路。

（2）三維主題特征指標框架具有較好的適應性與擴展性。本文從時間、引用與關聯3個維度構建了包含14個指標的主題特征指標框架，從更全面的角度深入考察新興主題區別于一般主題的特征因素，并通過各指標的整體協同分析定量評估主題，以得到更客觀的識別結果。一方面，3個維度的各指標有不同的側重因素，以定量指標形式科學化、精細化地展示與描述主題，有利于輔助人工更客觀、有效地判定新興主題。在宏觀上，立足領域考量其知識生產及擴散的特殊性選取適用指標對具體問題具體分析，如引用數據較少的領域應適當降低相關指標的重要性；在微觀上，針對不同主題類型可以綜合各項指標進行差異化解讀與評估，如交叉主題、迎來新發展機遇的經典主題、新誕生的主題等。另一方面，指標框架具有較強的擴展性，在面向特定領域或特定需求時，可靈活新增具有測度價值的定量或定性指標，建立更完善適用的指標框架，更好地服務于新興主題發現。

（3）本文提出的新興主題識別方法存在泛化應用的參考價值。首先，實驗所用數據的時間跨度為1991—2022年，領域經歷了較長的發展歷程，共有18777篇文獻聚類至42個主題，數據具有一定規模，實驗數據選取具有合理性。其次，文本分類本身是一個隨技術進步不斷迭代發展的領域，同時與醫學、金融、法律等領域形成具有交叉領域特色的研究內容。除此之外，與圖像分類、語音識別等相關領域存在諸多共通性與差異性，實證領域特點鮮明，具有一定代表性。最后，實驗證明了本文方法的可操作性，通過與LDA+word2vec+similarity方法的對比分析、指標相關性分析及資料分析法討論了實驗結果的科學性與有效性。因此，在結合其他泛化領域自身特征的基礎上，參考本文方法，選取適用指標組合使用能夠幫助人工動態識別領域新興主題。

4.2 未來展望

（1）以文獻為線索充分挖掘主題特征。以文獻為線索，可以串聯文獻題錄各字段信息、全文本內容、引文信息等各類型數據，以更全面的數據作為深入觀測主題的切入點。本文初步探討了從不同視角評估主題新興度的可行性，未來可從兩個方面做進一步的探索。一是在數據范圍廣度上，融合更多元的數據拓展可能影響新興主題預測的因素和維度，完善現有指標框架，使得新興主題的識別結果更加準確、豐富。例如，參考文獻與施引文獻的發表時間及其被引量等、評估主題跨領域的知識擴散強度及可賦予更高權重的高影響力知識擴散強度等，還可關聯專利、政策文件等多源數據觀測新興主題的其他相關特征因素。二是在指標內涵深度上，基于更深層次的語義知識挖掘，定量描述主題的細粒度特征以更微觀地觀測主題。例如，針對引用維度的相關指標，可以通過更細致的分類，綜合考量引用位置、引用情感與引用動機等語義信息，使得指標在簡單計數的基礎上向更復雜的語義計量進行深化。

（2）智能評估的需求下減少人工干預。當前，新興主題的自動識別無法完全消除人工干預，主要體現為兩個方面。一是在主題建模階段，由于不同主題獨特的內涵與語境，算法無法準確理解并概括主題，仍依賴人工對主題內涵進行總結；二是在新興主題識別結果分析階段，指標雖然能客觀量化主題，但是無法自動分析新興主題的內容，依賴人工進一步評估與解讀。針對上述問題，可以明確各指標的權重，提出綜合多因素的唯一指標，以主題排序的形式自動生成新興主題，但仍無法解決新興主題的智能解讀問題。因此，還可以借助現有生成式人工智能技術，面向特定場景下的需求，基于領域知識輸入對預訓練模型進行繼續訓練，在人工提示的基礎上，根據定量指標計算結果，由機器智能化概括主題內涵并生成新興主題的定性評估報告，在減少人工干預的同時，通過人機合作達到相互參照、相互驗證的效果，以實現更高效的新興主題發現。

5 結語

本文提出一種基于三維主題特征測度的領域新興主題識別方法，具體包括兩個方面的優勢：①基于BERTopic模型對領域知識進行主題建模，相較于特征詞，采用包含更豐富語義信息的摘要文本進行主題表示，能夠挖掘到更深層次的主題特征；②構建融合時間、引用與關聯因素的三維主題特征指標框架，對14個指標進行計算與觀測，能夠基于更廣泛、更深入的主題特征挖掘實現更有效的新興主題發現。

然后，利用文本分類領域相關數據進行了實證研究，驗證了本文方法的可行性，識別出虛假信息監測、網絡平臺負面言論檢測、自動問答、自動摘要、圖神經網絡技術、作者風格與文本體裁分類等新興主題，并將識別結果歸納為文本分類前沿技術的改進、文本分類方法在通用場景下的下游任務創新、文本分類方法結合領域知識特征在垂直領域的深入應用、文本分類與其他相關技術的協同優化四個方面。通過方法對比分析、指標相關性分析和資料分析法驗證了本文方法的有效性，說明該方法具有泛化應用至其他領域的價值。

此外，本文存在一定的局限性：①僅獲取領域文獻的參考文獻與施引文獻標題，沒有利用相關的更豐富的信息做進一步的挖掘與分析；②僅初步討論了各指標的有效性，需要進一步明確各指標的權重，進而提出綜合性指標。未來研究將做進一步的改進。