混合粒度多視圖新聞數據聚類方法

2021-04-12 10:11:04代勁，胡艷

小型微型計算機系統 2021年4期

代勁，胡艷

(重慶郵電大學軟件工程學院，重慶 400065)

1 引言

網絡技術的飛速發展，對網絡新聞的分析和監督無疑對社會和政府有著極大的作用.多視圖數據是指從不同的源頭采集或由不同屬性的特征進行描述的數據，例如網絡新聞數據通常通過文本、圖片以及多媒體信息等特征進行描述，可以按照特征所屬的不同類型劃分為不同的視圖.目前，多視圖聚類算法在無人駕駛、異常點檢測、生物醫學分析等領域中都得到了充分的應用.

文獻[1]中，首次提出了以協同訓練為基礎的多視圖聚類方法.文獻[2]基于核的思想，將每個視圖表示為圖，將多個圖融合后進行譜聚類.文獻[3]結合多視圖K-均值算法和集成技術，提高了聚類的性能.文獻[4]將共正則化和非負矩陣分解結合，然后再進行聚類.文獻[5]利用正則相關性分析從多個視圖特征中選取最相關的視圖作為視圖數據的唯一表示，然后再用傳統的聚類方法.

上述方法都默認不同視圖對簇結構的貢獻程度一樣大.但是，在現實世界的聚類問題中，某些視圖包含不同數量的信息，同時當某些視圖已經被噪聲破壞導致聚類效果較差的時候，平等的看待各個視圖會影響最終的聚類結果.文獻[6]提出通過結合先驗知識粗略地計算權重，這種方法是人工干預的.文獻[7]以拉普拉斯秩約束為基礎，通過引入超參數來學習視圖間的權重.文獻[8]提出的TW-K-means方法可以學習視圖和樣本特征的權重.文獻[9]提出的WMCFS算法，可以選取特征和給視圖加權，但是目標函數中的兩個超參數均依賴先驗知識.文獻[10]從不同樣本間存在的差異出發，提出SWMVC算法，它能自適應確定不同視圖中樣本的權重，但沒有考慮關注不同視圖對簇結構的貢獻.

當前關于新聞數據的聚類分析中，大多數是基于新聞文本的，忽略了新聞圖片和新聞視頻等多媒體信息.詳細地分析當前的網絡新聞結構，可以看到新聞內容除了直接的文本信息之外，通常還使用高度語義概括后的標簽信息對新聞中出現的圖片、音頻視頻等多媒體信息進行描述，直接導致新聞內容中的文本、圖片和視頻視圖的特征的粒度和語義不在同一個層次.若不經過粒度和語義層次的統一操作而將直接的文本特征與標簽特征進行分析或學習，將嚴重影響新聞數據挖掘性能.本文首先在網絡新聞不同視圖上分別進行特征選擇，使得各個視圖的特征均統一到標簽的粒度上.然后在此基礎上構建視圖間的自適應權重方法，提出了一種混合粒度新聞數據的多視圖聚類算法(multi-view clustering of multi-granularity news data，MVCN)，可以較優的融合新聞各個視圖的數據，反映不同視圖對聚類簇結構的貢獻程度，以此來提升聚類效果.

2 相關理論

2.1 多視圖K-means聚類

(1)

2.2 信息熵(Shannon Entropy，簡稱熵)

“熵”主要是用來衡量不確定的程度的大小.對于隨機變量X，其熵取值如下：

(2)

其中，n是X可能的取值類別總數，P(x)表示x發生的概率.

3 混合粒度多視圖新聞數據聚類存在的問題分析

通過分析網絡新聞的特性，本文發現新聞內容除了由詞粒度特征構成的文本信息之外，通常還使用高度語義概括后的標簽粒度特征對新聞中出現的圖片、音視頻等多媒體信息進行描述.其結構如圖1所示.

1)不同視圖中不同標簽粒度的統一：標簽抽取

通過圖1看到，圖片和多媒體(音視頻)視圖中的數據特征由幾個高度語義概括后的詞條(標簽粒度)組成，而文本視圖中的數據特征則由成百上千的詞條(詞粒度)組成.如果將新聞文本、圖片和視頻等不同粒度層次的視圖當作同一粒度層次進行處理，在邏輯上有所欠缺考慮，難以體現出由各種粒度特征表示的視圖的區別.同時文本視圖詞粒度得到的特征向量空間維度過高，導致特征數較少的視圖(圖片和視頻等多媒體信息)在聚類中的作用可能會被弱化.本文通過不同的標簽生成方法來探討混合粒度視圖的粒度統一化.

圖1 網絡新聞結構示例Fig.1 Network news structure example

首先，由于新聞圖片和多媒體視圖中的數據特征通常是由幾個高度語義概括后的詞條組成，所以本文直接提取圖片和多媒體信息視圖中的數據特征，作為圖片和多媒體視圖的標簽.

考慮到文本視圖中是由成百上千的詞粒度特征組成，本文首先在新浪新聞的基礎上調用百度AI文章標簽生成接口獲得文本的標簽，各視圖的特征數量變化如表1所示.

表1 新浪新聞特征變化情況1Table 1 Sina news features changes 1

百度AI生成的標簽會在一定程度上受到語料庫的影響，進一步會影響標簽質量.由于TF-IDF值可以用來評估某個詞條的重要程度，所以本文將通過經典的TF-IDF提取新聞文本視圖的關鍵詞作為文本視圖的標簽特征.當新浪和網易新聞數據集的文本視圖分別進行單獨的聚類時，聚類效果隨著關鍵詞個數text_features取值的不同而變化，如圖2所示.其中，橫縱坐標分別指文本視圖中的text_features取值和各評價指標的百分比.

圖2 新浪和網易新聞單獨的文本聚類效果Fig.2 Effect of separate text clustering on Sina andNetEase news

通過圖2可以看出，當新浪和網易新聞的text_features取30時各聚類指標均表現較好，故本文提取文本視圖TF-IDF值前30的關鍵詞作為各新聞數據集文本視圖的標簽特征.其中，新浪新聞各視圖的特征數量變化如表2所示.

表2 新浪新聞特征變化情況2Table2 Sina news features changes 2

2)視圖間的融合處理

接下來，本文分析了新聞數據中不同視圖單獨聚類的效果.當單獨對新浪新聞文本、圖片和視頻視圖進行K-均值聚類20次時，結果如表3所示.

表3 單獨的新浪文本、圖片和視頻數據聚類結果Table 3 Individual clustering results of Sina text，picture and video data

然后，簡單融合新浪新聞各視圖的特征后再進行聚類，得到的結果如表4所示.

表4 簡單融合新浪新聞3個視圖特征的聚類結果Table 4 Clustering result of simple fusion of three view features of Sina News

通過表3的結果可以分析出，圖片和視頻視圖的數據對聚類結果有一定的作用.同時，新聞數據由于采樣的特征空間的不同，造成了各視圖樣本并不一定均具有良好的聚類特性.通過表4中簡單融合各個視圖特征的聚類結果與表3單獨的文本聚類結果對比，ACC、NMI和Purity分別降低了0.1986，0.3140，0.0843.實驗結果說明在新聞數據各個視圖特征的簡單融合中，某些簇結構劃分不清晰的特征的視圖(文本、圖片或視頻視圖)在整個多視圖聚類的過程中的作用較弱，甚至會起到不好的作用，因此應減弱這種視圖在聚類中的作用.

4 混合粒度多視圖新聞數據聚類方法

針對上面提出的網絡新聞每個視圖特征的粒度不統一，各個視圖對最終的簇結構的貢獻程度不一樣等問題，本文提出了一種混合粒度多視圖新聞數據聚類方法(multi-view clustering of mixed-granularity news data，MVCN).首先通過TF-IDF提取出各個視圖的特征作為視圖的標簽，使得文本、圖片和多媒體信息等視圖的特征統一為標簽.同時，考慮到各個視圖對最終的簇結構的貢獻程度不一樣，本文借助信息熵確定視圖間的自適應權重.技術路線如圖3所示.

圖3 混合粒度多視圖新聞數據聚類方法技術路線Fig.3 Technical route of mixed-granularity multi-view news data clustering method

4.1 各視圖混合粒度信息統一為標簽

本文通過特征選擇使得各視圖混合粒度特征統一到相同的標簽粒度，減小了特征數較少的視圖在聚類中被弱化的程度，最終提高聚類的效果.

首先，本文在第3部分簡單的分析了文本視圖中特征數量text_features的取值，在文本視圖上采用詞頻-逆文本頻率提取TF-IDF值前30的特征作為文本視圖的標簽信息.

本文中各個多視圖新聞數據樣本中特征的重要程度通過TF-IDF值來確定，圖片和視頻視圖的特征數量分別由picture_features和video_features表示，本文設置各個視圖特征數量取值在[5，50]區間，步長設為5，特征選取了之后再單獨聚類，選取聚類性能最優的特征數量作為圖片和視頻視圖的特征數量取值.

4.2 基于熵的視圖間的自適應權重確定

考慮到各個視圖對最終的簇結構的貢獻程度不一樣，本文借助熵確定視圖間的自適應權重.具體的符號含義如表5所示.

表5 符號含義Table 5 The meaning of symbol

4.2.1 視圖間自適應權重的確定

本文將權重看作概率分布，用熵來描述各個視圖的權重.則視圖權重可表示為：

(3)

通過將上述的加權項引入到多視圖K-均值聚類中，則目標函數如下：

(4)

目標函數由兩部分組成：首先是在標準的多視圖K-均值算法上進行聚類，使各個視圖的信息相互補充.同時，增加了視圖權重參數w(v)，引入超參數θ來控制各個視圖的權重.最終的聚類效果與θ的取值有較大的關系，本文通過網格貪心搜索方法獲取.

4.2.2 MVCN模型建立及參數求解

本文引入拉格朗日算子τ進行極值求解，構造拉格朗日目標函數L對公式(4)進行優化求解，函數構造形式及求解過程如下：

(5)

通過對公式(5)中w(v)求偏導，得到：

(6)

(7)

(8)

固定視圖權重w(v)，推導出各個視圖的簇中心：

(9)

4.3 MVCN算法

混合粒度多視圖新聞數據聚類方法(multi-view clustering of mixed-granularity news data，MVCN)的詳細步驟如下所示：

算法1.MVCN算法

輸入：數據X={x1，x2，…，xV}∈RN×Dv，V是視圖總數，N為樣本總數，Dv是視圖v的特征維度，超參數θ，最大迭代更新的次數t.

1.不同粒度信息的視圖進行統一的標簽生成處理

步驟1.分別提取各個視圖的第n_sample個樣本的TF-IDF值前text_features、picture_features和video_features的特征；

步驟2.n_sample=n_sample+1；

步驟3.如果n_sample>N，則文本視圖標簽生成處理結束，跳出循環，返回新的數據樣本X；否則，跳回步驟1.

2.視圖間自適應權重的確定

步驟1.利用公式(8)更新各個視圖的權重w(v)

步驟3.n_run=n_run+1；

步驟4.當n_run>t時，則最終權重確定，結束循環；否則跳回步驟1.

本文提出的MVCN方法與多視圖K-均值在時間性能上相似，為Ο(N×k×t×V).其中，N，k，t以及V均為上述MVCN算法描述中所示.

5 實驗結果與分析

5.1 數據集

本文通過網絡爬蟲獲得新浪和網易在2019年07月01日至12月01的新聞數據作為實驗數據集.其中新浪新聞由3個視圖組成，分別是詞粒度特征構成的文本視圖、高度語義概括后的標簽粒度特征構成的圖片和視頻視圖.網易新聞則由兩個視圖組成，分別是詞粒度特征構成的文本視圖和標簽粒度特征構成的圖片視圖.

同時，本文還選用了UCI經典的Digits(手寫數字圖片)多視圖數據集，由6個視圖構成.

本文的混合粒度多視圖新聞數據是通過TF-IDF來進行特征選擇，使得各個視圖統一為標簽粒度，但Digits數據集則是通過卡方檢驗.設置特征數量取值在[2，50]區間變化，步長設為2，和新聞文本、圖片以及視頻視圖一樣，選取最優的特征數量作為最終的取值.上述的新浪、網易以及Digits的詳細信息如表6所示.

表6 數據集詳細信息Table 6 Details of the dataset

5.2 聚類有效性評價指標

本文選取常用的聚類有效性評價指標進行驗證，分別為準確率(Accuracy，簡稱ACC)、歸一化互信息(簡稱NMI)和純度(Purity).具體定義如下：

1)ACC：它用來衡量聚類算法精確性.計算公式定義為：

(10)

其中，num表示聚類正確的樣本數，N是樣本總數.

2)NMI：利用熵計算聚類結果相似度.計算公式定義為：

(11)

其中，I(m，n)是互信息，H(m)和H(n)是信息熵.

3)Purity：其計算公式定義為：

(12)

其中，k是簇的數量，ni，j表示簇i和j的樣本交集數.

上述3個指標的取值均在[0，1]區間，且越接近1越好.

5.3 對比方法

為了全面評估本文提出的MVCN多視圖聚方法，對比算法的簡要信息描述如下：

1)Pair-wise CoNMF算法：該算法是文獻[4]中提出的一種通過成對共正則化，使得從兩個視圖中學到的系數矩陣可以在分解過程中相互補充的方法.

2)Cluster-wise CoNMF算法：該算法是文獻[4]中提出的另一種方法.

3)PwMC算法：由文獻[7]提出，基于拉普拉斯秩約束，通過引入超參數γ來學習權重，本文設置γ=0.6.

4)SwMC算法：該算法是文獻[7]中通過分析PwMC算法的不足而提出的另一種新的完全自加權的多視圖聚類方法.

5)SWMVC算法：由文獻[10]提出，其實驗效果與其樣本重要度正則項參數λ有關，本文設置λ=0.5.

5.4 實驗對比結果

MVCN是本文提出的混合粒度多視圖新聞數據聚方法，其中參數θ的取值通過網格尋優方法獲得，在新浪新聞和網易新聞兩個新聞數據集以及Digits上均設為0.5.MVCN和其他方法20次實驗的均值如表7、表8和表9，以及圖4、圖5和圖6所示.

表7 不同聚類方法在新浪新聞數據集上的實驗結果Table 7 Clustering results of different clustering methods on different multi-view news datasets

表8 不同聚類方法在網易新聞數據集上的實驗結果Table 8 Clustering results of different clustering methods on different multi-view news datasets

表9 不同聚類方法在Digits數據集上的實驗結果Table 9 Clustering results of different clustering methods on different multi-view Digits datasets

圖4 不同聚類方法在新浪新聞數據集上的聚類結果Fig.4 Clustering results of different clustering methods on the Sina news dataset

圖5 不同聚類方法在網易新聞數據集上的聚類結果Fig.5 Clustering results of different clustering methods on the NetEase news dataset

圖6 不同聚類方法在Digits數據集上的聚類結果Fig.6 Clustering results of different clustering methods on the Digits news dataset

5.5 實驗結果分析

由表7和表8可以得到，本文提出的方法在各個新聞數據集中的聚類效果有較好的提升，分析其主要原因是：1)Pair-wise CoNMF、Cluster-wise CoNMF、PwMC、SwMC和SWMVC并未考慮不同視圖之間特征的差異，本文前幾節一直強調新聞內容中，出現了不同語義層次、不同粒度的內容概念(直接的文本特征與標簽特征)描述.本文通過特征選擇，使得各個視圖的特征均由標簽粒度表示，不僅可以減少特征維度，而且能得到更好的聚類效果；2)Pair-wise CoNMF和Cluster-wise CoNMF是在假設各個視圖的重要性程度一樣的基礎上進行的實驗，未考慮視圖的權重.

通過表9可以分析出本文提出的方法MVCN在Digits數據集上表現較弱，分析其根本原因是Digits各個視圖的特征均由圖像特征組成，并未出現不同語義層次、不同粒度的內容概念描述，且視圖間互補的信息較少.

5.6 視圖權重分析

為了進一步驗證本文提出的MVCN方法，本文通過主成分分析法(簡稱PCA)將原始的高維數據(新浪和網易)降到二維，并在圖7和圖8進行了可視化展示.

圖7 新浪新聞原始數據集Fig.7 Sina news raw dataset

圖8 網易新聞原始數據集Fig.8 Netease news raw dataset

通過圖7和圖8可以看到新聞文本視圖和其他視圖是互補的，但具有不同程度的噪聲，文本視圖的噪聲相對于圖片和視頻視圖要低一點.

圖9 MVCN在新浪和網易新聞數據集中學習到的各視圖權重Fig.9 View weights learned by MVCN in sina and netease news datasets

然后，本文在圖9展示了MVCN方法在兩個新聞數據集Sina和NetEase上學到的視圖權重.其中，橫縱坐標分別是視圖的名稱和權重.

由圖9可以看出，在新浪新聞數據集中，文本圖片和視頻視圖權重分別約為0.74，0.16和0.10.在新浪和網易新聞數據集中，文本視圖所占權重均大于其他的視圖，和在圖7和圖8初步觀察的結果相吻合，即文本視圖更能反映數據的特性.同時，新聞圖片和視頻視圖同樣也包含一定的信息量.

6 結論與下一步工作

本文初步的研究了如何融合新聞文本、圖片和視頻等多媒體信息來對混合粒度多視圖新聞數據進行聚類，這對于新聞聚類有了顯著的效果.在混合粒度視圖中針對不同粒度進行統一的標簽生成處理中，本文通過對各個視圖進行特征選擇，使各個視圖的特征統一到相同的粒度.同時，本文借助信息熵確定視圖間的自適應權重，將3個視圖更優的融合起來，然后再進行聚類操作.實驗表明，本文提出的MVCN方法在新聞數據上的性能較好.

盡管本文的實驗數據集各個視圖的數據都是完整的，但視圖間數據缺失的情況卻不可避免.所以接下來將致力于解決各視圖數據有所缺失的聚類問題.