999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結構正則化多視圖非負矩陣分解

2022-12-31 00:00:00連佳琪王毅剛儲志偉尹學松
計算機應用研究 2022年10期

摘要:現存非負矩陣分解(non-negative matrix factorization,NMF)研究多考慮單一視圖分解數據,忽略了數據信息的全面性。此外,NMF限制其獲取數據的內在幾何結構。針對以上問題,提出一個結構正則化多視圖非負矩陣分解算法(structure regularized multi-view nonnegative matrix factorization,SRMNMF)。首先,通過主成分分析來對數據進行全局結構的判別式學習;其次,利用流形學習來捕獲數據的局部結構;然后,通過利用多視圖數據的多樣性和差異性來學習表征。模型提升了算法聚類的整體性能,更加有效地挖掘數據的結構信息。此外,采用高效的交替迭代算法優化目標函數得到最優的因子矩陣。在六個數據集上與現存的代表性方法進行比較,所提出的SRMNMF的準確率、NMI和Purity分別最大提高4.4%、6.1%和4.05%。

關鍵詞:多視圖學習;非負矩陣分解;圖正則化;主成分分析;聚類

中圖分類號:TP391文獻標志碼:A

文章編號:1001-3695(2022)10-023-3033-06

doi:10.19734/j.issn.1001-3695.2022.04.0136

Structure regularized multi-view nonnegative matrix factorization

Lian Jiaqi,Wang Yigang,Chu Zhiwei,Yin Xuesong

(School of Media amp; Design,Hangzhou Dianzi University,Hangzhou 310018,China)

Abstract:Existing non-negative matrix factorization(NMF) studies mostly consider a single view to decompose data,ignoring the comprehensiveness of data information.Additionally,NMF limit their access to the intrinsic geometry of the data.This paper proposed a novel matrix factorization method,called structure regularized multi-view nonnegative matrix factorization(SRMNMF).Specifically,this paper firstly performed discriminative learning of the global structure of the data through principal component analysis.Then,it used manifold learning to capture the local structure of the data.Finally,it learnt representations by exploiting the diversity and difference of multi-view data.The model improved the overall performance of the algorithm clustering and mined the structural information of the data more effectively.The objective function of SRMNMF could be easily optimized using an efficient alternate iterative algorithm.Comparing with existing representative methods on 6 datasets,the proposed SRMNMF achieves a maximum improvement of 4.4%,6.1% and 4.05% in accuracy,NMI and Purity,respectively.

Key words:multi-view learning;non-negative matrix factorization;graph regularization;principal component analysis;clustering

0引言

表征學習作為機器學習的重要組成部分,旨在從當今生活中的高維、多態數據中提取數據特征并學習表征。非負矩陣分解(non-negative matrix factorization,NMF)作為一種具有代表性的表征學習方法[1],可將高維非負矩陣分解為兩個非負因子矩陣,分別解釋為基矩陣和系數矩陣,有效地挖掘和學習數據的低維結構和局部表征。一些研究表明,NMF已成功應用于機器學習[2,3]、模式識別[4,5]和數據挖掘[6~8]中。

近年來,NMF引起了越來越多的關注,為了提升NMF的效率和性能,不同的NMF變體算法被提出。Akashi等人[9]將稀疏編碼理論引入NMF,對基矩陣和稀疏矩陣都應用了稀疏約束,并提出了稀疏非負矩陣分解算法(sparse non-negative matrix factorization,SNMF)。Kong等人[10]提出了一種基于L21范數的魯棒非負矩陣分解算法(robust non-negative matrix factorization based on L21 norm,RNMF L21),該算法克服了標準NMF算法對噪聲和異常值敏感的缺點,提高了算法的魯棒性。Liu等人[11]將一般子空間約束強制到NMF中,在保留原始數據的結構屬性的同時獲得更豐富表達的子空間,提出子空間約束非負矩陣分解(general subspace constrained non-negative matrix factorization ,GSCNMF)。近年來,諸多研究發現高維數據通常位于非線性的低維流形空間中。根據高維空間中兩個相近的樣本點在低維流形中也具有短距離的局部不變特征[12],Cai等人[13]提出了圖非負矩陣分解(graph regularized non-negative matrix factorization,GNMF),它結合了流形正則化和NMF來尋找數據內在的幾何信息和判別結構。Peng等人[14]提出了針對二維數據的半非負矩陣分解算法,結合特征學習和流形學習,從而提升二維數據的聚類性能。

盡管NMF及其變體已被證明可以實現令人滿意的性能,但是它們的應用多針對于單視圖數據。在大數據的時代,數據規模龐大、形態多樣,多視圖的數據更是常態。多視圖數據可能通過不同的源頭采集或是用于不同任務的不同特征進行表示。不同的特征捕獲數據的不同方面,并且可以是相互補充的。因此多視圖數據信息豐富,多視圖學習方法在各種任務中都優于單視圖學習方法[15,16]。傳統的單視圖數據聚類不能集成全面的信息,因此在面對多視圖數據時,其聚類性能和魯棒性會受到限制。多視圖聚類旨在消除這一瑕疵,能夠整合多視圖數據的差異和互補信息,得到了普遍的關注。

基于非負矩陣分解的多視圖聚類方法利用基于質心的協同正則化和非負矩陣分解來尋找多視圖數據的共識表示[17,18]。Liu等人[19]提出基于NMF的多視圖聚類算法(multi-view based on non-negative matrix factorization,multi-NMF),有效地學習嵌入在多個視圖中的基礎聚類結構來獲得更好的聚類性能。但是,該方法只考慮各視圖系數矩陣與共識系數矩陣之間的相似性,而忽略了視圖間的相似性。此外,該算法無法發現多視圖數據空間的局部幾何結構。Wang等人[20]提出了一個基于局部圖正則化的多視圖非負矩陣分解特征提取方法,在考慮每個視圖的系數矩陣和一致系數矩陣之間的相似性的同時,構造了一個最近鄰圖來獲得多視圖數據的基于部件的表示,以此保持數據空間的局部幾何結構信息。然而,基于非負矩陣分解的方法所引起的非負約束并不能捕獲數據的底層結構。受這些想法的啟發,提出了一種新穎的結構正則化多視圖非負矩陣分解算法(structure regularized multi-view nonnegative matrix factorization,SRMNMF)。具體來說,本文的主要貢獻為以下三個方面:

a)提出了一種通用的基于結構正則化的多視圖非負矩陣分解聚類方法,所提出的方法將經典的NMF擴展到多視圖聚類NMF來捕獲不同異構視圖之間的關系,并在所有視圖中學習一個一致的潛在特征矩陣。

b)通過主成分分析來對全局結構進行編碼,使得具有相同結構的學習表征具有相同的聚類標簽;引入流形學習來對局部結構進行建模,使得相鄰的表征具有相同的聚類標簽。因此,所提出的算法學習的表征可以實現局部和全局的一致性,從而提高了數據的表示能力。

c)研發了一種簡單的迭代更新算法來優化所提出的模型,從而得到最優的學習表征。在多個實際應用的多視圖數據,包括圖像和文本等的實驗結果表明,所提出的算法優于其他的主流方法。

1預備理論

1.1非負矩陣分解

給定一個非負的數據矩陣X=[x1,x2,…,xN]∈Euclid Math TwoRApM×N+,其中每一列表示一個數據點,每一行表示一個特征,M表示特征的維數,N表示數據點的個數。NMF的目的是找到兩個非負的低秩因子矩陣U=[uik]∈Euclid Math TwoRApM×d+和V=[vjk]∈Euclid Math TwoRApN×d+,其中兩個矩陣的乘積可以更好地逼近原始數據矩陣X,表示為X≈UVT,其中,U代表基矩陣,V代表系數矩陣。得到所需的維數d,通常dlt;lt;min{M,N}。為了更好地表示X,Lee等人[21,22]引入了兩個代價函數,即Frobenius范數和Kullback-Leibler(K-L)散度,以量化近似的質量。關注第一種形式,目標函數定義為

minU,V‖X-UVT‖2Fs.t.U≥0,V≥0(1)

其中:當U和V都作為變量時,目標函數是不凸的,導致無法求解。然而,當U固定或V固定時,目標函數是凸的。同時文獻[18,19]提出了一種迭代乘法更新算法來尋找目標函數的局部最小值,目標函數的迭代更新規則如下:

uik ←uik(XV)ik(UVTV)ik ,vjk←vjk(XTV)jk(VUTU)jk(2)

1.2多視圖非負矩陣分解算法

利用非負矩陣分解的局部特征學習和降維的技術,結合多視圖數據的信息兼容和互補性,Liu等人[19]提出了基于非負矩陣分解的多視圖聚類(multi-view based on non-negative matrix factorization,multi-NMF)。假設給定一個含有B個視圖的多視圖數據集X={X(1),X(2),…,X(B)},每個視圖的樣本數據矩陣X(b)={x(b)1,x(b)2,…,x(b)N}∈Euclid Math TwoRAp{Mb×N}+(b=1,…,B)。對于多視圖數據,多視圖聚類(multi-view clustering)算法的目的是為了學習每個視圖緊湊的表征V(b)(1≤b≤B),通過聯合各個視圖的表征,使它們趨向于一致共識表征矩陣。

D(V(b),V*)=‖V(b)-V*‖2F(3)

其中:V*為一致共識表征矩陣。根據式(3)定義基于非負矩陣分解的多視圖聚類模型:

minU(b),V(b),V*b=1,2,…,B∑Bb=1‖X(b)-U(b)(V(b))T‖2F+λb‖V(b)-V*‖2F

s.t.U(b)≥0,V(b)≥0,V*≥0,‖U(b)*.k‖1=1

k=1,2,…,K;b=1,2,…,B(4)

根據式(4),在優化過程中每個視圖的基矩陣U(b)的每列對應1范數都被約束為1; 每個視圖的系數矩陣V(b)均具有相同的尺寸,以便后期進行聯合; λb作為權重系數不僅能調節不同視圖之間的學習表征的相對權重,而且還可以調節標準NMF的重構誤差與D(V(b),V*)之間的比重。

使用對角矩陣Q,UVT=UQ-1QVT,其中Qb定義為

QbDiag(∑Mm=1Ubm,1,∑Mm=1Ubm,2…∑Mm=1Ubm,K)(5)

其中:Diag(·)表示對角矩陣。每個基向量的絕對和為1,即‖U*.i‖1=1。根據式(5),問題式(4)可以等價于:

minU(b),V(b),V*b=1,2,…,B∑Bb=1‖X(b)-U(b)(V(b))T‖2F+∑Bb=1λb‖V(b)Qb-V*‖2F

s.t.U(b)≥0,V(b)≥0,V*≥0,b=1,2,…,B(6)

2結構正則化多視圖非負矩陣分解

最近研究表明[11],可通過添加主成分分析到非負矩陣分解中,利用數據的總方差來編碼全局結構,在保留原始數據的底層結構屬性的同時獲得更豐富表達的子空間。此外,為進一步提升數據的表征能力以及聚類性能,結合多視圖數據的信息互補性和兼容性,并且結合圖正則化項對數據的局部結構信息和不同類別的判別信息的獲取進行增強,提出了一種結構正則化多視圖非負矩陣分解方法。

2.1全局結構學習

數據的全局結構在分離各種對象方面起著重要作用,然而全局結構是由在監督或半監督學習場景中具有可用類標簽的類間散布定義的。由于缺少標簽,基于矩陣分解的無監督特征學習方法不關注全局結構。最近的研究表明,主成分分析(principal component analysis,PCA)可以通過最大化表示方差來描述無監督場景中的全局信息[11,23]。因此構建一個主成分圖來對全局結構進行建模并將其引入矩陣分解中。假設樣本數據集為{x1,x2,…,xn},PCA的線性變換可以表示為uTxi=yi,其中u為U的基向量,yi為表示向量。然后,PCA的優化函數表示為

maxu∑ni=1(yi-)2,=1n∑ni=1yi(7)

其中:向量u1,u2,…,ur為正交。對于X=UVT的非負矩陣分解形式,存在X=[x1,x2,…,xn],U=[u1,u2,…,ud]和V=[v1,v2,…,vd]。這時V的行向量可以看做是原始數據集X在U的列向量構造的子空間的投影,即xi=UvTi。令P=(1/n)I-(1/n2)eeT,其中,I是n階單位矩陣,e是所有元素都為1的n維向量,用c代表投影向量的均值,即c=1n∑ni=1vTi,然后

VTPV=1nVT(I-1neeT)V=1nVTV-1n2(VTe)(VTe)T=

1n∑ivTivi-1n2(nm)(nm)T=1n∑i(hTi-m)(hi-m)T+

1n∑ivTimT+1n∑imvi-1n∑immT-mmT=E[(vT-m)(vT-m)T]+

2mmT-2mmT=E[(vT-m)(vT-m)T](8)

其中:E[(vT-m)(vT-m)T]是投影的協方差矩陣,因此最大化VTPV等價于最大化PCA的核心優化函數∑ni=1‖vTi-m‖,同時保證基矩陣正交。

2.2局部結構學習

NMF的目標是找到一種新的數據表示帶近似原始數據。然而實際應用可能進一步要求系數表示考慮內在的黎曼結構而不是環境歐幾里德結構[13]。自然提出假設,如果兩個數據點在潛在分布上接近,那么表征中也彼此接近。利用流形理論和圖論的知識[24~26]可以通過構造每個數據點的最近鄰圖來保持其固有的幾何結構。一個最近鄰圖可以是其近似解,將每一個數據點xi看做一個頂點,找到它最近的鄰居,并在它和它的鄰居之間設置邊的權重矩陣W。存在三種定義權重矩陣W的計算方法:

a)0-1。Wij=1,當且僅當數據點xi和xj存在一條邊連接時。

b)熱內核權重。Wij=e-[‖xi-xj‖2σ],當且僅當數據點xi和xj存在一條邊連接時。

c)點積權重。Wij=xixTj,當且僅當數據點xi和xj存在一條邊連接時。

另外對于兩個數據點xi和xj分別對應表示為vi和vj,使用d(vi,vj)=‖vi-vj‖2目標函數去測量流形數據結構上兩個數據點之間的相似度。然后利用如下方法測量兩個數據點之間的平滑度:

R=12∑Ni,j=1‖vi-vj‖2FWij=

∑Ni=1vTiviDii-∑Ni,j=1vTivjWij=

tr(VTDV)-tr(VTWV) =tr(VTLV)(9)

其中:tr(·)代表矩陣的跡;D為度矩陣,其對角項為Dii=∑jWij,i=1,2,…,N,并且拉普拉斯矩陣的定義為L=D-W。正則化項R可以在xi和xj的低維表示vi和vj中保留具有相似特征的xi和xj之間的局部信息,從而提高其表示能力和聚類性能。

2.3結構正則化多視圖非負矩陣分解(SRMNMF)

在文獻[20]中,提出圖正則化多視圖非負矩陣分解模型,將多個視圖的局部幾何結構融入到多視圖非負矩陣分解中,目標函數為

minU(b),V(b),V*b=1,2,…,B∑Bb=1‖X(b)-U(b)(V(b))T‖2F+λb‖V(b)Qb-V*‖2F+

α ∑Bb=1λbtr((Vb)TLbVb)s.t.U(b)≥0,V(b)≥0,V*≥0,b=1,2,…,B(10)

其中:α為局部流形正則化的圖權重參數;圖拉普拉斯矩陣Lb分別通過各個視圖數據計算所得;λb為權重系數,其在調節不同視圖之間的學習表征的相對權重的同時,還調節重構誤差與D(V(b),V*)之間的比重。然而,上述模型基于部分的表示而忽略了數據的底層結構,添加主成分分析約束到圖正則化多視圖非負矩陣分解模型中,目標函數為

minU(b),V(b),V*b=1,2,…,B∑Bb=1‖X(b)-U(b)(V(b))T‖2F+λb‖V(b)Qb-V*‖2F+

α ∑Bb=1λbTr((Vb)TLbVb)+β∑Mm=1λbTr((V(b))TPbV(b))

s.t.U(b)≥0,V(b)≥0,V*≥0,b=1,2,…,B(11)

其中:P=(1/n)I-(1/n2)eeT,β為主成分分析約束的正則化參數,可以捕獲數據的底層結構,加速目標函數的收斂。在2.4節中,將展示目標函數的優化步驟,并推導出U(b)、V(b)和V*的更新公式。

2.4模型優化

問題式(11)是難以解決的,因為目標函數在U和V上都不是凸的。在本節中開發了一種迭代優化算法來獲取基矩陣和稀疏矩陣的近似解。為了方便后面的優化,引入拉格朗日乘數Ψi,k和Φj,k約束U≥0和V≥0,將目標函數式(11)改寫為

Γ=∑Bb=1‖X(b)-U(b)(V(b))T‖2F+λb‖V(b)Qb-V*‖2F+

α ∑Bb=1λbtr((V(b))TLbV(b))+β∑Mm=1λbtr((V(b))TPbV(b))+

∑Bb=1(tr(Ψ(U(b))T)+tr(Φ(V(b))T))(12)

2.4.1固定V*,更新U和V

當V*固定時,每個視圖獨立存在,簡而言之,U、V和Q可以表示U(b)、V(b)和Qb,則每個視圖的拉格朗日函數為

Euclid Math OneLAp=‖X-UVT‖2F+λb‖VQ-V*‖2F+

α*λbtr(VTLV)+β*λbtr(VTPV)+tr(ΨUT)+tr(ΦVT)(13)

求解拉格朗日函數Euclid Math OneLAp對U和V的偏導為

Euclid Math OneLApU=UVTV+ λbJ-XV+Ψ

Euclid Math OneLApV=VUTU-XTU+ λb(V-V*+αLV+βPV)+Φ(14)

其中:J(∑Mm=1Um,k∑Nn=1V2n,k-∑Nn=1Vn,kV*n,k) ,使用Karush-Kuhn-Tucker(KKT)條件Ψi,kUi,k=0以及Φj,kVj,k=0,可以得到如下更新規則:

Ui,k←Ui,k×(XV)i,k+λb∑Nn=1Vn,kV*n,k(UVTV)i,k+λb∑Nn=1V2n,k

Vj,k←Vj,k×(XTV+λbV*+λb×αWV)j,k(VUTU+λbV+λb×αDV+λb×βPV)j,k(15)

在計算U(b)和V(b)時,首先計算然后使用Qb規范化U(b)和V(b)的列向量:

U(b)←U(b)(Qb)-1,V(b)←V(b)Qb(16)

2.4.2固定U和V,更新V*

當對每個視圖計算U和V時,對函數式(12)中的V*求導,并得到接近V*的形式解:

V*=∑Bb=1λbV(b)Qb∑Bb=1λb(17)

通過優化目標函數,可以得到如上所有的迭代公式。另外,經過多次迭代,損失值可以收斂。算法1總結了關于SRMNMF的所有操作步驟。

2.5復雜度分析

接下來,分析上述所提出的方法的計算成本,使用大寫字符O來表示所提出算法的計算復雜度。本算法的主要計算代價來自基矩陣U(b)和系數矩陣V(b)的迭代更新,其中,b=1,2,…,B。對于基矩陣U(b),關鍵步驟是根據式(14)對于基矩陣U(b)的每一列進行優化,式(14)的復雜度為O(MbN)。因此,對于基矩陣U(b)的總復雜度為O(dMbN)。同理,對于系數矩陣V(b)的總復雜度為O(dMbN)。綜上所述,將這兩部分相結合,得出優化第b個視圖目標函數的總計算代價為O(dMbN)。因此,本算法對所有視圖的計算復雜度為O(dBMbN),其中Mb=max{M1,M2,…,MB}。

算法1所提出算法框架

輸入:每個視圖的非負數據樣本{X1,X2,…,XF};每個視圖的權重參數{λ1,λ2,…,λB,α,β}。

輸出:基矩陣U={U(1),U(2),…,U(B)};系數矩陣V={V(1),V(2),…,V(B)};一致共識矩陣V*。

初始化:令每個數據1范數為1,即‖Xb‖1=1,使用GNMF來計算初始{U,V,V*}。

重復:

for b=1 to B do

重復:

固定V*,使用式(15)對U(b)和V(b)進行更新;

通過式(16)歸一化U(b)和V(b);

直到:式(13)收斂或者達到迭代次數;

end for

通過式(17)更新V*;

直到:式(11)收斂或者達到迭代次數;

3實驗結果與分析

在本章中,對圖像和文本多視圖數據集進行了SRMNMF的廣泛實驗分析。首先,介紹了實驗中的數據集、比較算法、評價指標和參數設置;然后,將所提出的算法與現有的多視圖聚類算法進行了比較,并對聚類結果進行了分析;最后,進一步分析了該算法的收斂性和參數敏感性。

3.1數據集

在兩個基準的多視圖數據集上評估了所提出的算法。下面簡單介紹這些數據集的統計信息。

a) UCI手寫數字數據集(http://archive.ics.uci.edu/ml/ datasets/Multiple+Features)。該數據集從UCI存儲庫中收集。數據集由0~9(10個類)的手寫數字灰度圖像組成,每類數字含有200幅圖像,由多個手寫數字特征組成。此數據集包含六個視圖:(a)字符形狀的Fourier系數(Fourier);(b)剖面相關性(profile);(c)2×3窗口中的像素平均(pixel);(d)Karhunen-Love系數(kar);(e)Zernike矩(Zer);(f)形態學特征(mor)。

b) BBCSport(http://mlg.ucd.ie/datasets/segment.html)。該數據集來自BBC體育新聞網站。將每篇原始文章分割成若干個連續段落,將這些段落分成兩個部分并隨機分配到兩個視圖中,總共包含544篇文章,分別屬于五個體育主題(田徑、板球、足球、橄欖球和網球)。

為了更好地進行實驗驗證,整理并結合UCI手寫數字數據集的不同特征,獲得不同視圖的多個多視圖數據集。實驗中所有數據集的統計情況如表1所示。

3.2對比算法

為了驗證所提出算法的聚類性能,將其與以下幾種具有競爭力的算法模型進行比較:

a)NMF。此模型為標準的非負矩陣分解方法[27]。

b)Col-NMF。此模型為非負矩陣分解方法的變體[28],將多視圖數據分解為不同的基矩陣和共識表征矩陣。

c)GNMF。此模型為基于圖正則化的非負矩陣分解方法[13]。

d)Multi-NMF。此模型為基于非負矩陣分解的多視圖聚類[19]。為了縮小個視圖的系數表征矩陣V(b)和共識表征矩陣V*之間的差異,Multi-NMF聯合所有視圖中的V(b)來獲得一致性。在實驗中,各視圖的基矩陣U(b)各列的1范數取1,同時采用與該文一樣的參數設置,設置共識性懲罰權重λb為0.01。

e)Multi-GNMF。此模型為基于圖約束非負矩陣分解的多視圖聚類[20]。由于圖流形結構能夠保護數據間的局部消息,并且有效提高NMF的性能,所以Multi-GNMF在Multi-NMF的基礎上引入了圖拉普拉斯算子。在實驗中,采用與該文一樣的參數設置,設置共識性懲罰權重λb為0.01,圖約束參數α=10。

f)NMF-CC。此模型為基于正交約束非負矩陣分解的多視圖聚類[29]。利用正交性來度量多樣性,通過對各自表示矩陣的正交性約束來捕獲每個視圖內的多樣性,沿此正交約束被添加到基于非負矩陣分解發基矩陣中,提出NMF-CC。將依據該文規則,從{0.000 1,0.001,0.01,0.1,1}搜索選擇參數。

g)SRMNMF。提出的方法模型使用0-1加權方案構造最近鄰圖,最近鄰的個數設置為20,含有三個主要的參數,即α、β和λb。參數選擇將在后面的章節中討論。

其他實現細節如下所示:

a)由于比較方法是無監督的,所以使用數據集中的所有樣本作為測試樣本。采用K-means 算法對學習的表示進行聚類。

b)對于所有基于NMF的方法,將子空間維度設置為數據類別的數量。

c)對于具有圖約束的方法,即GNMF、Multi-GNMF、NMF-CC和SRMNMF,采用0-1加權的方案,并將最近鄰個數設置為20。

d)為了減少初始化帶來的隨機性,對每種方法執行重復20次運行,并報告這20次運行的平均聚類結果。

3.3性能評價指標

本節實驗選取相關文獻中對應模型所采用的聚類方法進行性能評估,NMF、Col-NMF、GNMF、Multi-NMF、NMF-CC與Multi-GNMF采用K-means聚類。最后SRMNMF采用K-means聚類。為了評估模型的性能,采用accuracy(ACC)、normalized mutual information(NMI)和聚類純度(purity)三個評價指標,值越高表示三個指標性能越好。ACC表示集群標簽在測試數據上的正確率。給定實例總數為n的一個實例xi,讓li和ti分別獲得集群標簽和真實標簽。ACC定義為

ACC=∑ni=1δ(ti,map(li))n(18)

其中:指示函數δ(x,y)當且僅當x=y時,其值等于1,否則為0;map(li)為Mapping函數,將簇類標簽li映射到數據集中的等效標簽,利用Kuhn-Munkres算法可以找到最佳的Mapping算法。ACC的取值為[0,1]。NMI表示兩組聚類之間的相似度。給定C={c1,c2,…,ck}和C′={c′1,c′2,…,c′k}分別為真實和算法所預測的簇類中心集合,NMI定義為

NMI(C,C′)=MI(C,C′)max(H(C),H(C′))(19)

其中:H(C)和H(C′)分別為C和C′的熵;MI(C,C′)表示兩個樣例集群之間的相互信息,定義為

MI(C,C′)=∑ci∈C,c′j∈C′p(ci,c′j)log2p(ci,c′j)p(ci)×p(c′j)(20)

其中:p(ci)和p(c′j)表示在數據集中隨機選擇一個實例分別屬于簇中心ci和c′j的概率;p(ci,c′j)表示在數據集中隨機選擇的一個實例。MI(C,C′)的取值為(0,max(H(C),H(C′))),因此NMI的取值為[0,1]。

Purity度量聚類方法正確聚類的百分比,定義為

Purity(C,Ω)=1N∑kmaxj|ck∩Ωj|(21)

其中:Purity的取值為[0,1]。

3.4實驗結果

所有基線方法代碼由作者提供,同時根據相關文獻對所有比較方法的參數進行調整,以獲得最佳的聚類性能。在實驗中,設置算法的最大迭代次數為100次,收斂閾值為1E-6。在后面的章節中,將對參數敏感性進行實證分析,結果表明,在合適的參數值范圍內,該算法可以獲得穩定的聚類結果。

在實驗中,在數據集BBCSport上,設置參數α=1,β=0.000 1,λb=0.001;在圖像數據集上設置參數α=1,β=0.1,λb=0.01。表2~7為所有模型在圖像數據集UCI和文字數據集BBCSport上獲得的ACC、NMI和Purity。同時報告了在六個數據集上的聚類性能的平均值。最佳性能以粗體突出顯示。

根據表2~7的測試結果,可以得到以下結論:

a)根據三類常用的聚類準則,該算法在所有數據集上都取得了較好的聚類性能。這表明數據的全局和局部結構在發現判別表現子空間中起著至關重要的作用。

b)在圖像和文字數據集中,利用多視圖Multi-GNMF、NMF-CC、Multi-NMF的聚類性能優于NMF、GNMF,基于多視圖的NMF對于基于單視圖的NMF更有效。當多視圖被忽略時,Multi-GNMF降級為GNMF、Multi-NMF降級為NMF。正如所見,Multi-GNMF和Multi-NMF在所有六個數據集上都優于GNMF和NMF。這表明只考慮單視圖數據的算法忽略了多視圖數據之間的共同信息或特殊統計特性,而基于多視圖框架可以學習并整合互補視圖里更多信息,由此得到更好的聚類性能。

c)在圖像和文字數據集中,Multi-GNMF、NMF-CC是基于局部結構發矩陣分解方法。通過構建最近鄰圖來學習表示,從而獲得比Multi-NMF更好的性能。這表明在學習隱藏因子時考慮局部幾何結構是必要的。基于圖結構重點關注了樣本數據之間的局部信息,避免了在學習過程中相似樣本之間的內在聯系的丟失,從而得到更好的學習表征。

d)在這些數據集上,提出的算法SRMNMF比NMF-CC和Multi-GNMF算法具有更好的性能,這表明Multi-GNMF和NMF-CC無法有效地捕捉內核空間中的全局結構。顯然,如果重視全局結構,Multi-GNMF和NMF-CC的學習性能可以明顯提高。然而Multi-GNMF不如SRMNMF,主要原因是SRMNMF使用主成分分析約束能更好地學習全局信息,從而提升聚類性能。

綜上所述,本文算法利用主成分分析約束、圖正則化約束以及多視圖學習來捕獲數據的聚類結構,可以獲得較好的聚類性能。

3.5收斂性分析

本文算法采用迭代更新規則來尋找目標函數的局部最小值。這里,將通過經驗驗證證明迭代更新規則在所有數據集上是收斂的,如圖1所示。對于每個圖,將x軸設為迭代次數,y軸設為目標函數值。從圖中可以看出,SRMNMF算法在迭代更新規則方面是收斂的。

3.6參數敏感性分析

在本節中,將進一步評估所提出的算法中不同參數的選擇對最終性能的影響。SRMNMF模型包含三種基本參數,即圖正則化參數α、主成分分析約束參數β、多視圖權重系數λb。其中,圖正則化參數α表示流行正則化的使用權重;主成分分析約束參數β用來調節捕獲數據的全局結構的權重,加速目標函數的收斂;多視圖權重系數λb調節不同視圖之間的學習表征的相對權重,同時還調節重構誤差與D(V(b),V*)之間的比重。

在此以digit2數據集為例,測試參數的敏感性,并展示對ACC、NMI和Purity的影響。圖2~4顯示了RSMNMF根據三個參數α、β和λb改變而得到的聚類性能。同時,在其余數據集上也可以獲得類似的觀察結果,因此在此省略。

4結束語

本文提出了一種新穎的多視圖非負矩陣分解方法,稱為結構正則化多視圖非負矩陣分解算法(SRMNMF)。SRMNMF從多視圖視角出發,分別將數據的全局和局部結構作為正則化項引入到NMF的歐氏距離代價函數中,使學到的表征更有判別力。實驗結果表明,與流行的多視圖聚類方法相比,所提出的SRMNMF可以在圖像和文本數據集上得到更好的聚類性能。在將來的工作中,將從多視圖技術出發,將全局和局部結構應用到非負矩陣分解的離散目標函數中,嘗試從另一個視角來提升矩陣分解的質量。

參考文獻:

[1]Peng Xinjun,Xu Dong,Chen De.Progressive transduction nonnegative matrix factorization for dimensionality reduction[J].Neurocompu-ting,2020,414:76-89.

[2]Lu Zhoumin,Liu Genggeng,Wang Shiping.Sparse neighbor constrained co-clustering via category consistency learning[J].Knowledge-Based Systems,2020,201-202:105987.

[3]Tang Jiayi,Wan Zhong.Orthogonal dual graph-regularized nonnegative matrix factorization for co-clustering[J].Journal of Scientific Computing,2021,87(3):1-37.

[4]張駿.基于類別信息和稀疏表示的非負矩陣分解[J].哈爾濱商業大學學報:自然科學版,2017,33(5):607-610.(Zhang Jun.Soft-constrained nonnegative matrix factorization with sparse coding[J].Journal of Harbin University of Commerce :Natural Sciences Edition,2017,33(5):607-610.)

[5]Wang Ke,Liao Ruijin,Yang Lijun,et al.Nonnegative matrix factorization aided principal component analysis for high-resolution partial discharge image compression in Transformers[J].International Review of Electrical Engineering,2013,8(1):479-490.

[6]Li Hao,Li Keqin,An Jiyao.An efficient manifold regularized sparse non-negative matrix factorization model for large-scale recommender systems on GPUs[J].Information Sciences,2019,496(C):464-484.

[7]Poonam B ,Shaily M.Matrix factorization-based improved classification of gene expression data[J].Recent Advances in Computer Science and Communications,2020,13(5):858-863.

[8]李全剛,時金橋,秦志光,等.面向郵件網絡事件檢測的用戶行為模式挖掘[J].計算機學報,2014,37(5):1135-1146.(Li Quan-gang,Shi Jinqiao,Qin Zhiguang,et al.Mining user behavior patterns for event detection in email networks[J].Chinese Journal of Computers,2014,37(5):1135-1146.)

[9]Akashi Y,Okatani T.Separation of reflection components by sparse non-negative matrix factorization[J].Computer Vision and Image Understanding,2016,146:77-85.

[10]Kong Deguang,Ding C,Huang Heng.Robust nonnegative matrix factorization using L21-norm[C]//Proc of the 20th ACM International Conference on Information and Knowledge Management.New York:ACM Press,2011:673-682.

[11]Liu Yong,Liao Yiyi,Tang Liang,et al.General subspace constrained non-negative matrix factorization for data representation[J].Neurocomputing,2016,173:224-232.

[12]Hettiarachchi R,Peters J F.Multi-manifold LLE learning in pattern recognition[J].Pattern Recognition,2015,48(9):2947-2960.

[13]Cai Deng,He Xiaofei,Han Jiawei,et al.Graph regularized nonnegative matrix factorization for data representation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2011,33(8):1548-1560.

[14]Peng Chong,Zhang Zhilu,Chen Chenglizhao,et al.Two-dimensional semi-nonnegative matrix factorization for clustering[J].Information Sciences,2022,590:106-141.

[15]Liu Xiangyu,Song Peng,Sheng Chao,et al.Robust multi-view non-negative matrix factorization for clustering[J].Digital Signal Processing,2022,123:103447.

[16]Khan G A,Hu Jie,Li Tianrui,et al.Multi-view data clustering via non-negative matrix factorization with manifold regularization[J].International Journal of Machine Learning and Cybernetics,2021,13:677.

[17]何雪梅.多視圖聚類算法綜述[J].軟件導刊,2019,18(4):79-81,86.(He Xuemei.A survey of multi-view clustering algorithms[J].Software Guide,2019,18(4):79-81,86.)

[18]Deepak P ,Anna J.Multi-view clustering[M].Cham:Springer,2019:27-53.

[19]Liu Jialu,Wang Chi,Gao Jing.Multi-view clustering via joint nonne-gative matrix factorization[C]//Proc of SIAM International Confe-rence on Data Mining.2013:252-260.

[20]Wang Zhenfan,Kong Xianwei,Fu Haiyan,et al.Feature extraction via multi-view non-negative matrix factorization with local graph regularization[C]//Proc of IEEE International Conference on Image Proces-sing.Piscataway,NJ:IEEE Press,2015:3500-3504.

[21]Lee D D,Seung H S.Algorithms for non-negative matrix factorization[C]//Proc of the 13th International Conference on Neural Information Processing Systems.[S.l.]:MIT Press,2000:535-541.

[22]Lee D D,Seung H S.Learning the parts of objects by non-negative matrix factorization.[J].Nature,1999,401(6755):788-791.

[23]Yao Chao,Han Junwei,Nie Feiping,et al.Local regression and global information-embedded dimension reduction[J].IEEE Trans on Neural Networks and Learning Systems,2018,29(10):4882-4893.

[24]Geng Bo,Tao Dacheng,Xu Chao,et al.Ensemble manifold regularization[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2012,34(6):1227-1233.

[25]Wang J J Y,Bensmail H,Gao Xin.Multiple graph regularized nonne-gative matrix factorization[J].Pattern Recognition,2013,46(10):2840-2847.

[26]Huang Qi,Yin Xuesong,Chen Songcan,et al.Robust nonnegative matrix factorization with structure regularization[J].Neurocomputing,2020,412:72-90.

[27]Xu Wei,Liu Xin,Gong Yihong.Document clustering based on non-negative matrix factorization[C]//Proc of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,2003:267-273.

[28]Ajit P S,Geoffrey J G.Relational learning via collective matrix factorization[J].Knowledge Discovery and Data Mining,2008,1:650-658.

[29]Liang Naiyao,Yang Zuyuan,Li Zhenni,et al.Multi-view clustering by non-negative matrix factorization with co-orthogonal constraints[J].Knowledge-Based Systems,2020,194:105582.

收稿日期:2022-04-01;修回日期:2022-05-27

作者簡介:連佳琪(1999-),女,湖北荊州人,碩士研究生,主要研究方向為機器學習與模式識別;王毅剛(1971-),男,河南嵩縣人,教授,博導,碩導,主要研究方向為計算機圖形學與虛擬現實;儲志偉(1995-),男,碩士,主要研究方向為計算機圖形學;尹學松(1975-),男(通信作者),教授,碩導,主要研究方向為機器學習、模式識別、數據挖掘和圖像處理(yinxs@hdu.edu.cn).

主站蜘蛛池模板: 亚洲福利视频一区二区| 在线观看精品国产入口| 免费国产不卡午夜福在线观看| 专干老肥熟女视频网站| 中国成人在线视频| 亚洲精品自在线拍| 无码AV日韩一二三区| 农村乱人伦一区二区| 无码AV高清毛片中国一级毛片| 新SSS无码手机在线观看| 992Tv视频国产精品| 国产毛片基地| 99er这里只有精品| 全部毛片免费看| 91精品在线视频观看| 国产成人免费观看在线视频| 拍国产真实乱人偷精品| 在线视频精品一区| 日韩最新中文字幕| 国产精品自拍合集| 日韩一级毛一欧美一国产| 国产区在线观看视频| 国产精品久久久久久久伊一| 91在线一9|永久视频在线| 97在线国产视频| 88av在线| 亚洲制服丝袜第一页| 青青草91视频| 久久久久亚洲AV成人网站软件| 久久久久免费看成人影片 | 精品国产中文一级毛片在线看| 成人免费网站久久久| 国语少妇高潮| 麻豆国产精品视频| 国产美女无遮挡免费视频| 操操操综合网| 久久77777| 99热这里只有精品2| 国产jizzjizz视频| 99久久国产自偷自偷免费一区| www欧美在线观看| 91年精品国产福利线观看久久| 久久99久久无码毛片一区二区 | 国产精品丝袜视频| 一级福利视频| 欧美国产日韩在线| 免费无码在线观看| 国产精品美女自慰喷水| 国产精品三级专区| 日韩小视频在线观看| 欧美日韩午夜| 成人噜噜噜视频在线观看| 一级毛片免费不卡在线视频| 久久国产黑丝袜视频| 亚洲美女高潮久久久久久久| 9啪在线视频| 亚洲欧美国产高清va在线播放| 欧美成人A视频| 久久动漫精品| 国产视频自拍一区| 欧美成人综合在线| 国产视频自拍一区| 毛片a级毛片免费观看免下载| 精品综合久久久久久97超人该| 欧美成人区| 国产精品女人呻吟在线观看| 福利在线不卡一区| 久久久亚洲色| 国产人前露出系列视频| 欧美亚洲综合免费精品高清在线观看 | 男女男免费视频网站国产| 色妞www精品视频一级下载| 无码内射在线| 久久人妻xunleige无码| 女人毛片a级大学毛片免费| a级毛片网| 97在线视频免费观看| 九九精品在线观看| 99国产在线视频| 亚洲第一极品精品无码| 亚洲性一区| 伊人91在线|