盧天旭,余正濤,黃于欣+
(1.昆明理工大學 信息工程與自動化學院,云南 昆明 650500; 2.昆明理工大學 云南省人工智能重點實驗室,云南 昆明 650500)
涉案輿情由于其涉案的特殊性,通常具備敏感性和易爆發性,如何有效地進行涉案輿情監管是一個關鍵問題。而涉案話題包含了涉案輿情信息的準確凝練和大多數網民的關注點,及時發現涉案新聞的話題并疏導涉案輿情對于維護社會穩定而言至關重要。涉案新聞話題發現是指在司法案件相關的新聞信息中,針對同一案件把描述相同話題的新聞信息歸到同一個話題簇中,可以轉化為一個話題級的聚類任務。目前現有的話題發現模型主要是通過對文檔進行表征和使用聚類算法計算文檔相似度度量這兩個問題上實現的。通過研究[1-3]發現這些方法在處理大規模涉案新聞語料數據時依賴詞頻統計信息,表征質量不高,對于同一案件不同話題下的新聞文檔,無法區分共現詞較少但屬于同一話題的情況,且使用的聚類方法對數據輸入順序敏感。此外,應用主題模型在話題檢測發現、熱點主題挖掘以及子話題關聯等相關研究任務上也取得了一定的效果。但通過研究[4,5]發現,這些方法捕獲的主題信息由于相似度過高而被歸為同一個主題下,同樣不能夠很好地區分同一案件不同話題下的新聞文檔,這些研究表明了話題發現任務很大程度上依賴于文檔的表征能力。因此,認為提高涉案新聞文本表征的能力才能得到質量更好的涉案新聞話題簇,從而提高話題發現的準確性。
近年來國內外學者針對涉案領域話題發現研究較少,在通用領域,目前話題發現方法集中于使用傳統聚類模型、主題模型以及改進型的聚類模型等方法實現。
基于傳統聚類模型的話題發現方法旨在利用基于劃分、密度、增量等經典的聚類算法來計算文檔樣本之間的歐氏距離,根據相似度度量實現話題發現。Nur'aini等[6]使用經典K-means聚類算法實現了Twitter社交媒體話題發現;Mustakim等[7]使用基于密度的應用程序空間聚類DBSCAN(density-based spatial clustering of applications with noise)算法對Twitter文本數據進行聚類,挖掘社交媒體中用戶近期感興趣的熱點話題;Zhang等[8]提出了一種基于多視圖文本語義和Single-Pass聚類算法的話題發現方法, 在財經新聞數據集中,通過融合模型的特征可以實現從海量數據中獲取對投資者有效的話題信息。
基于主題模型的話題發現方法通過LDA(latent dirichlet allocation)等常見的主題模型以及衍生模型,基于詞袋模型考慮詞條的共現,生成新聞文檔的主題分布。Rortais等[9]使用LDA主題模型快速檢測媒體中特定的食品欺詐事件,通過探索大量文檔,發現與欺詐事件相關的話題,并組織和總結識別其中包含的話題的文本文檔;Kumar等[10]提出了一種用于短文本流聚類的在線語義增強Dirichlet主題模型,將語義信息集成到一個新的圖形模型中,并在每個輸入的短文本中自動聚類,解決話題發現中短文本語義稀疏問題;Fan等[11]提出了一種基于分層貝葉斯非參數框架在線新聞話題發現和跟蹤方法,該方法允許在語料庫中的不同新聞故事之間共享話題,應用于在線新聞數據流上取得了一定的效果。
基于改進型聚類模型的話題發現方法是在經典的聚類算法的基礎上,融入其它模塊以增強數據的表示,解決經典聚類算法自身的缺陷。Li等[12]提出了一種基于時間窗口的改進的基于密度的DBSCAN算法,以實現更加準確的話題發現,并具有降低時間復雜度的輔助優勢;Xiao等[13]提出了一種基于圖形分解的新型文檔表示方法,將每個新聞文檔分解為不同的語義單元,然后構建語義單元之間的關系以形成膠囊語義圖,最后通過Single-Pass算法實現新聞文檔的話題發現;Wu等[14]基于BTM(bayesian sparseto-pic model)和GloVe(global vectors)相似性線性融合的方法,將微博短文本分別使用BTM模型和GloVe詞向量建模,計算兩種不同的相似度,將兩種相似度線性融合作為距離函數,實現K-means聚類,提高了微博短文本話題發現精度。
已有的話題發現方法在處理通用領域的任務時已經取得了不錯的效果,但是在涉案領域的話題發現任務上效果表現較差,這是由于這些方法所使用相似度度量方法在計算高維數據時效率偏低,且不具備較強的涉案新聞表征能力。
近年來深度學習在大規模數據表征和處理方面表現突出,在聚類算法上融入深度學習強大的表征能力越來越受到重視。Xie等提出模型的聚類不是從數據本身來聚類,而是學習到數據到隱空間的映射,然后設置了聚類優化目標來學習隱空間的聚類;Yang等[15]未采用以往方法的先降維再進行聚類的模式,認為聯合這兩個過程可以得到更好的聚類效果,提出一種基于深度網絡降維和K-means聚類的聯合優化準則。這些方法在涉案新聞表征能力上都明顯強于以往的話題發現方法,因此本文考慮將深度學習融入聚類算法,并應用到涉案新聞話題發現任務中以提高模型的準確性。本文在學習數據樣本的表征中考慮到了數據樣本之間關系的重要性,提出一種融合近鄰標題圖的涉案新聞話題發現方法,既考慮到新聞文檔數據自身的特征,又學習到標題關系間的潛在相似性,通過深度網絡和圖卷積網絡學習的表征融合,來提高涉案新聞話題發現聚類的準確性。
針對已有的話題發現方法在涉案新聞話題發現任務中準確度不高,難以區分同一案件話題下新聞信息的問題,本文提出融合近鄰標題圖的涉案新聞話題發現模型,模型框架如圖1所示。該模型主要分為5部分,分別為標題編碼模塊、近鄰標題圖的構建、文檔特征提取模塊、標題結構信息提取模塊和指導模塊。

圖1 融合近鄰標題圖的涉案新聞話題發現模型
標題編碼模塊用于編碼涉案新聞話題數據集中標題部分,通過BERT(bidirectional encoder representation from transformers)預訓練模型[16]訓練完成后能夠獲得標題的表征,以便接下來構建近鄰標題圖。BERT模型是由多個Transformer模型[17]組合而成的,其訓練方式分為兩個任務:
其一是隨機選擇15%的詞用于預測,其中80%采用MASK符號遮蓋,10%用隨機詞替換,其余保持不變,這使得模型傾向于依賴上下文來預測詞匯,具備一定的糾錯能力;其二是預測兩句話是否為連貫文本。因此BERT模型在結束訓練后能夠獲得涉案新聞標題的單詞表征和句子表征。Transformer模型結構如圖2所示。
具體如下,設涉案新聞話題數據集中標題Title數量為N,Title={title1,title2,…,titleN}, 每條涉案新聞標題長度為S,E={e1,e2,…,eS} 為每條標題中詞向量的集合,將標題的詞向量輸入到BERT模型中進行編碼,可以得到每條標題的向量表征。以編碼一條標題為例,編碼過程如圖3所示。
BERT模型要求每條標題輸入的詞元表征必須含有3種類型的嵌入,即詞元嵌入rwordi、片段嵌入rA和位置嵌入ri,每條標題的詞元前都有一個[CLS]標記用來表示整個標題句子。將詞向量集合E輸入到BERT模型中,經過多層Transformer網絡得到每個詞元各自的表征。其中位于輸出起始位置的[CLS]表征Ti即為整個標題句子的向量表征。將所有標題的詞向量分別輸入到BERT模型中編碼,最終得到融合語義信息后的標題向量表征集合T,T={T1,T2,…,TN}。

圖2 Transformer模型結構

圖3 BERT編碼涉案新聞標題模型結構
近鄰標題圖構建模塊采用K近鄰算法構建近鄰標題圖來提取標題的全局特征。設標題數據T∈RN×a, 其中每行Ti代表第i個標題樣本,N是樣本數,a代表維度。對于每個標題樣本,首先找到它的前K個相似度最高的鄰居作為鄰居節點,并通過邊來連接,以構成近鄰標題圖。利用向量的點積運算來計算任意兩個標題之間的相似度矩陣Sij,它是一個N×N維矩陣,如式(1)所示
(1)
對于任意兩個標題節點ti和tj,令wij為節點之間的權重。如果節點之間有邊相連,則wij>0,若沒有邊相連,則wij=0。由于我們構建的近鄰標題圖是無向權重圖,因此wij=wji。圖中任意節點的度為和它連接的所有邊的權重之和,定義如式(2)所示
(2)
通過計算每個節點的度,得到一個只有主對角線有值的節點度矩陣D∈RN×N, 如式(3)所示
(3)
主對角線的值表示第i行第i個點的度數。計算所有節點之間的權重,得到N×N維的鄰接矩陣M,其第i行第j個元素就是權重wij,wij=sij。
文檔特征提取模塊的作用是提取涉案新聞話題數據集中文檔的局部特征,本文使用深度神經網絡自編碼器來學習有效的數據表征。自編碼器是一種表示模型,利用輸入數據作為參考,不利用標簽監督,以用來提取特征和降維。自編碼器將輸入映射到特征空間,再映射回輸入空間進行數據重構。設自編碼器有L層,編碼器學到的第L層的表征如式(4)所示
H(l)=σ(Wenc(l)H(l-1)+benc(l))
(4)
其中,σ為relu函數,Wenc(l)為編碼器中第l層的變換矩陣,benc(l)為偏置。H(0)表示為原始文檔數據X。
H(l)=σ(Wdec(l)H(l-1)+bdec(l))
(5)

文檔特征提取模塊的損失函數如式(6)所示
(6)
通過最小化重構誤差和梯度下降算法不斷優化網絡參數進行訓練。
圖神經網絡GNN(graph neural network)是一類處理圖結構信息的方法的統稱,其中代表方法是圖卷積神經網絡。圖卷積神經網絡是一個對圖數據進行特征提取的多層神經網絡。傳統的卷積神經網絡可以處理有規則空間結構的數據,這些數據的結構可以用一維和二維的矩陣來表示。然而許多數據是不具備規則的空間結構的,傳統的卷積神經網絡就不能處理這些數據。在不規則空間結構的圖數據中,每個節點有屬于自己的特征信息,每個節點還具有結構信息且圖的形狀不規則,鄰居節點也不固定。圖卷積網絡可以從這類數據中提取特征,得到圖的嵌入表示,從而實現邊預測、節點分類等任務。在模型計算過程中,圖卷積網絡結構如圖4所示。

圖4 圖卷積網絡結構
網絡首先對節點的特征進行抽取,將每個節點自身的屬性信息變換后傳送給鄰居節點,每個節點收集鄰居節點的特征,融合局部結構信息,聚集結構信息和屬性信息后做非線性變換以增強網絡的表達能力。圖卷積網絡處理圖數據具有以下優勢,首先網絡中節點的表征與下游任務具有很好的適應性,節點表征與下游任務被統一到一個模型端到端訓練,監督信號可以同時指導卷積層與分類層更新參數。其次圖卷積網絡可以同時學習節點的屬性信息與結構信息,使它們協同影響節點的最終表征。
2.4節提到的文檔特征提取模塊能夠從涉案新聞話題數據集的文檔中提取有用的表征,但自編碼器只提取到了文檔局部特征,不能提取到樣本之間的關聯關系。2.3節構建的近鄰標題圖蘊含了大量的標題全局結構信息,使用圖卷積網絡提取近鄰標題圖中的結構特征,并將自編碼器提取到的文檔局部特征集成到圖卷積網絡中,這樣模型就可以同時提取到數據的兩種不同特征。圖卷積網絡第l層提取的表征通過卷積運算得到,如式(7)所示
(7)

本文為了使圖卷積網絡學習到的涉案新聞話題數據特征同時具有標題的全局特征和文檔的局部特征,將兩種表征U(l-1)和H(l-1)通過融合因子結合在一起,得到一種更全面的數據表征,如式(8)所示
(8)

(9)
以此類推得到圖卷積網絡最后一層輸出的表征U(L)。網絡的輸出端連接了一個softmax多分類器,最終輸出的結果如式(10)所示
(10)
模型得到的結果U是一個概率分布,其元素uij表示涉案新聞樣本i屬于簇中心j的概率。
在上一節中已經將自編碼器和圖卷積網絡學習到的表征通過融合因子結合了起來,并且得到了概率分布U。但是自編碼器的作用主要是用來學習文檔的局部表征,是一種無監督的學習,而圖卷積網絡主要用來學習標題的關系特征,它們都不是直接用來做聚類任務的,需要在表征中引入聚類信號。因此本文使用指導模塊將兩個模塊統一到一個框架中同時進行端到端的聚類優化訓練。
對于第i個樣本和第j個簇,引用自由度為1的student-t分布作為核函數衡量自編碼器的表征hi和簇心μi之間的距離,如式(11)所示
(11)
其中,hi表示H(L)的第i行,μi是經過K-means算法初始化后的簇心。我們將q視為文檔樣本i被分配到簇j的概率,Q即為所有文檔樣本分配到簇的分布。
為了得到高置信度的分配來迭代聚類結果,提高聚類準確度,構造一個目標分布P來輔助模型訓練,如式(12)所示
(12)
在目標分布P中,每一個在文檔樣本分配分布Q中的聚類分配都被先平方再歸一化處理,這樣可以獲得更高置信度的聚類分配,迫使簇內的樣本更加接近簇心,簇與簇間的距離最大化,分配更加清晰。指導模塊的損失函數之一為分布Q和目標分布P之間的KL散度損失,如式(13)所示
(13)
通過最小化損失函數更新參數,目標分布P使自編碼器學習到更接近簇心的樣本文檔聚類表征。
為了使標題全局特征提取模塊和文檔特征提取模塊在訓練迭代過程中趨于一致,需要將兩個模塊統一在同一目標分布中,因此也可以使用目標分布P指導圖卷積網絡輸出的蘊含標題全局特征的樣本分布U。指導模塊的損失函數之二為分布U和目標分布P之間的KL散度(Kullback-Leibler divergence)損失,如式(14)所示
(14)
通過指導模塊的不同權重參數可以將兩種不同表征的聚類分配統一在同一個損失函數中,模型的整體損失函數如式(15)所示
(15)
β為平衡損失函數一和損失函數二的權重參數。整個模型經過訓練達到穩定后,可以將圖卷積網絡最終輸出的聚類分布U作為涉案新聞話題發現的最終結果。
涉案新聞話題發現任務屬于針對司法案件特定領域的任務,目前尚未有公開的涉案新聞話題數據集。因此本文在自行構建的涉案新聞話題數據集的基礎上開展具體工作。
本文通過分析“百度新聞”、“新浪新聞”、“今日頭條”等各大新聞網站和公眾號平臺近年來的涉案重點新聞,選取了“奔馳車主維權案”、“孫小果涉黑案”等十余個網民關注度較高的案件進行涉案新聞話題數據集的構建。使用爬蟲技術根據新聞網站上的案件相關話題和案件關鍵詞爬取有關的新聞數據,通過對爬取的新聞進行分析使每條涉案新聞只屬于一個案件話題,人工標注新聞與哪個案件話題相關,經過數據篩選和預處理,保存為json格式的文件。數據的篩選和預處理過程包括對新聞數據和案件話題相關性的人工校準,去除非案件話題相關的數據和重復的數據,去除特殊符號和鏈接等。最終得到每條清晰、準確的涉案新聞標題和文檔,構建出涉案新聞話題數據集。數據集的具體信息見表1。

表1 實驗數據集統計信息
對涉案新聞話題發現的結果進行評估,本文使用準確率(Accuracy,ACC)、標準化互信息(normalized mutual information,NMI)和調整蘭德系數(adjusted rand index,ARI)作為模型的評價指標。
準確率(ACC)是衡量話題發現算法對話題簇劃分準確程度的評價指標。具體計算如式(16)所示
(16)
其中,TP,TN,FP,FN為混淆矩陣中的每一項,TP和TN分別表示模型與真實標簽同時判定樣本為正或負,即聚類準確的樣本,反之FP和FN為聚類錯誤的樣本。ACC的取值在0到1之間,取值越大代表話題發現準確率越高。混淆矩陣見表2。

表2 樣本混淆矩陣
標準化互信息(NMI)是衡量話題發現聚類結果與真實樣本分布之間的熵,NMI的取值在0到1之間,取值越大代表話題發現聚類效果好,如式(17)所示
(17)
其中,Y表示真實的樣本分布,C表示話題簇的分布,I(Y;C) 表示Y分布與C分布之間的互信息,H(Y) 與H(C) 表示信息熵。
調整蘭德系數(ARI)是衡量話題簇分布和真實分布的重疊程度的評價指標。ARI取值在-1到1之間,取值越大代表話題模型效果越好。其計算公式如式(18)所示
(18)
其中,RI為蘭德系數,E(RI)為蘭德系數的期望值,計算公式如式(19)所示
(19)
式中:a,b,c,d為表3中的變量。蘭德系數變量見表3。

表3 蘭德系數變量
在模型的參數設置方面,本文通過預先訓練的BERT中文語料庫來表征涉案新聞話題數據集中的標題,詞表為BERT模型自帶詞表,BERT模型包含12層Transformer網絡,每層網絡包含12個注意力頭,模型參數為110 M,隱藏層維數為768;文檔特征提取模塊中自編碼器的維數為“輸入-768-768-2000-10”,標題全局特征提取模塊中使用了4層圖卷積神經網絡來迭代近鄰標題圖的關系特征,近鄰標題圖中K的個數取值為10,話題簇初始簇心由K-means算法經過20次初始化獲得,融合因子中平衡系數α設置為0.5;模型訓練輪次為200,學習率為1e-3,優化器采用Adam。
為了驗證融合近鄰標題圖聯合標題和文檔進行話題建模對提高涉案新聞話題發現任務聚類效果的有效性,本文選取8個模型作為基線模型,分別在涉案新聞話題數據集上進行實驗,其基線模型為:經典K-means算法、LDA、AE+Kmeans、DeepLDA、DEC、DCN、IDEC和NMC。
(1)K-means[6]是一種經典的聚類算法,在給定數據和聚類數目k的基礎上,根據某個距離函數將數據分入k個簇中。
(2)LDA是一種經典的主題模型,可將每篇文檔的主題以概率分布的形式給出,可根據主題分布進行聚類。
(3)AE+K-means是一種同時利用自編碼器的表征和數據重構并結合K-means算法的聚類模型。
(4)DeepLDA[18]是一種融合深度神經網絡的主題模型,將文檔的詞袋表示輸入深度神經網絡中,將LDA的輸出作為一個標簽,對神經網絡進行監督訓練,使神經網絡既能學習主題文檔分布,又能學習主題詞分布。
(5)DEC利用深度網絡進行數據降維,通過軟分配構造數據樣本的簇分布,構造輔助目標分布計算其與樣本分布的KL散度。
(6)DCN[15]聯合優化降維和聚類任務,利用深度神經網絡逼近任何非線性函數的能力的同時,保持降維和聚類共同優化的優勢。
(7)IDEC[19]考慮到保留數據的結構,并利用聚類損失作為指導,操控特征空間分散數據點,即模型可以聯合聚類并學習代表性特征。
(8)NMC[20]是一種神經主題模型,利用伽馬分布的重參數化和泊松分布的高斯逼近,開發了神經變分推理算法來推斷模型參數,在大規模數據和特征稀疏的短文本數據上具有優勢。基線模型性能比較見表4。

表4 基線模型性能比較
從表4的實驗結果中能夠看出,經典K-means算法在處理涉案新聞話題數據時效果最差,因為它使用原始數據,不能很好地進行表征,且易受孤立點的影響。LDA主題模型應用于通用領域的話題發現任務可以取得不錯的效果,但是由于涉案新聞數據的特殊性,LDA依賴于統計特征,聚類結果經常出現同類不同案的現象,準確率仍然不高。AE+K-means方法通過自編碼器對數據降維后,得到數據的表征,再利用K-means算法進行聚類,話題簇的準確性得到了較為明顯的提高,說明構造準確有效的表征對提升聚類準確率非常重要。DeepLDA方法通過深度網絡加強表征,并將LDA作為監督信號后,模型的計算效率大幅提升,但是由于缺乏標題信息等外部知識和聚類監督信號對主題分布的幫助,模型的內聚性仍然不高。DEC和DCN模型相比較以上基線模型取得了更好的效果,因為這兩種模型都引入了損失函數或目標分布作為監督信號,可以同時學習數據表征和聚類分配,并優化聚類樣本使其更加接近話題簇心。IDEC模型相較于DEC和DCN模型效果又有了一定提升,因為模型引入了重構損失可以學習到數據中具有局部結構保護的代表性特征。NMC模型是一個比較新型的神經主題模型,相較于其它基線模型,NMC在準確性指標上具有優勢,可以較好地模擬具有過度分散和層次依賴特征的隨機變量,但受限于數據規模和涉案新聞的特點,通過統計分布學習文檔局部特征仍然具有主題不一致問題。
本文方法與其它基準模型相比取得了更優的性能,與NMC基線模型相比,ACC提升了4.33%,NMI提升了2.73%,ARI提升了3.93%。這是因為基線方法在做涉案新聞話題發現任務時,通常只著重提取文檔自身的局部特征,而同一涉案新聞不同話題下的新聞文檔包含了許多相似案件要素信息,基線方法不能很好地區分。本文的模型利用圖卷積網絡提取了近鄰標題間的關聯關系,并將其與文檔的局部特征融合起來以增強標題的表征,從而實現話題建模更好的效果。這也證明了通過融入近鄰標題圖,聯合標題與文檔進行話題建模是有效的。
為了驗證本文模型各個模塊的有效性,將模型拆解為主模型去除文檔特征模塊和主模型去除標題全局特征模塊兩個子模型,3個評價指標保持不變,最優結果用加粗表示。消融實驗結果見表5。

表5 簡化模型性能分析
從消融實驗結果可以看出,去除模型中的標題特征部分,只利用文檔局部特征和指導模塊進行建模效果最差,ACC下降了13.7%,NMI下降了11.9%,ARI下降了15.7%。雖然文檔中包含了大量的案件要素信息,但是同一案件下不同話題的新聞文檔要素有很多相似之處,噪聲數據多,容易出現同一案件下劃分為同一話題簇的數據卻本該屬于不同話題,或屬于同一類型的案件卻不是同一案件的情況。只利用標題全局特征和指導模塊建模,效果比僅用文檔特征要好一些,ACC下降了9.3%,NMI下降了7.5%,ARI下降了11.9%。因為模型提取到了近鄰標題間的結構關系,但是由于標題篇幅的限制,所涵蓋案件話題信息的內容有限,容易出現標題的信息偏置。將標題特征與文檔特征結合起來建模,即本文主模型,效果提升明顯。在獲取涉案新聞之間的關聯關系的基礎上,同時引入文檔表征增強標題的表示避免偏置可以更好地實現涉案新聞話題發現,這也從側面驗證了本文模型的有效性。
為了驗證調整融合因子的權重系數,即式(8)中權重系數α是否對模型性能有提升,本文做了如下實驗。取步長為0.2的多個α值分別做對比實驗。實驗結果如圖5所示。

圖5 不同融合因子權重系數對模型的影響分析
從實驗結果中可以看出,當α取0.5時,本文模型達到了最好的效果,而當α取值比0.5大或者比0.5小時,模型的性能都有所下降。因為α是融合因子的平衡權重系數,起到平衡標題全局特征和文檔局部特征的作用。當α過大時,文檔的局部特征權重就被削弱,模型只能學習到近鄰標題圖的關聯關系,缺乏文檔的內容信息,容易產生標題的信息偏置,圖卷積網絡容易產生過度平滑,同時模型失去了自編碼器的重構損失,涉案新聞話題發現的準確性會降低;當α過小時,標題的全局特征權重被削弱,模型學習到的表征幾乎全部來自文檔自身,相似要素不能得到很好的區分,涉案新聞話題發現的準確性同樣會降低。因此,將融合因子的權重系數α設置為0.5可以很好地融合兩種特征。
為了驗證時間指標對本文模型性能的影響,選取了DEC、IDEC、NMC這3個在基線對比實驗中表現較好的模型和本文模型,在時間指標上進一步對比模型的準確率,如圖6所示。

圖6 不同模型隨訓練時間增加準確率的變化分析
從訓練模型的收斂時間上可以看出,DEC模型收斂的時間最快,在模型訓練4個小時左右即達到了該模型準確率的最優值,但是準確率最高僅有0.7602,不能滿足準確性的要求。而NMC和IDEC模型在準確性上要比DEC好很多,但受限于模型復雜程度的影響,需要訓練16個小時以上才能達到收斂并達到最佳準確率,在實際應用中可操作性較差,不能及時發現涉案輿情話題。本文模型雖然沒有DEC收斂速度快,但是相比另外兩個對比模型,僅需一半的時間就可以達到收斂,且準確率可以達到0.89以上,在實際應用中非常適用于涉案輿情新聞早期傳播的話題發現,對于有關部門開展輿情監管具有實際意義,也印證了本文方法的實用性。
為了進一步驗證本文方法模型的效果,通過實例分析對比了不同方法話題詞的效果。以涉案話題“孫小果被判處死刑”為例,本文通過提取不同方法生成的話題簇中新聞文檔的關鍵詞,來直觀地展示模型效果。實驗結果見表6。

表6 實例分析
從話題詞的質量上可以看出,傳統的聚類方法和主題模型方法以及它們的改進型方法的話題詞中混入了同類型案件話題詞,提取出了與“孫小果被判處死刑”話題同類型的“操場埋尸案杜少平被判處死刑”的話題詞,說明使用原始數據以及依賴統計特征不能區分涉案新聞的要素信息,導致同類不同案的情況發生。而使用融入深度學習表征的聚類方法的話題詞雖然描述的是同一案件,但是摻雜了同一案件下不同話題的詞語,比如“孫小果被判處死刑”的話題詞摻雜了“孫小果案掛牌督辦”的話題詞,這是因為此類方法在話題發現的過程中只重視文檔自身的表征,沒有考慮文檔之間的關聯,也沒有融入外部信息指導。本文方法的話題詞全部來自同一話題,話題發現準確率較高,充分說明引入標題的關聯關系以及聚類指導模塊,適用于涉案新聞話題發現任務。可以取得較好的效果,也驗證了本文方法的有效性。
本文針對涉案新聞話題發現任務,提出一種融合近鄰標題圖,聯合標題和文檔的表征進行話題建模的方法。解決了同一案件下話題新聞要素信息較為接近,表征不理想的問題,并提升了話題發現的準確性指標。基于涉案新聞話題數據集的實驗結果表明,本文方法不僅可以得到質量更高的話題簇,而且在模型訓練的時間指標上也有優勢。
在未來的工作中,將探索如何從話題簇中得到準確的話題表示,并考慮話題關鍵信息的摘要抽取,以及長文本的處理工作,來進一步提高話題模型的性能。