檔案管理中文本數據的增量多模態聚類方法

2022-06-21 06:15:16劉麗華

重慶大學學報 2022年5期

劉麗華

(內蒙古財經大學檔案館，呼和浩特 010010)

海量檔案文本數據急劇增長，也伴隨著文本數據描述的多樣化[1]。例如，一則新聞消息可以通過不同的語言進行表達和傳播；一個文本可以利用不同的特征描述(Word2Vec、TF-IDF等)進行分析。這樣的數據稱為多模態數據，不同領域或不同描述形式可以代表一種模態。通常，不同模態之間可以為語義相同的數據對象相互補充信息，結合多個模態的數據信息對一個物體進行描述相比于單模態可以更加全面地了解該物體的特征并且精準對該物體進行辨別。另外，隨著檔案文本不斷增長，給檔案管理帶來了一定困難，有效對檔案數據進行聚類、劃分，能夠按主題對檔案文本進行分類管理，便于后期查閱、處理。

近年來多模態文本數據聚類或分類算法的研究備受關注[2]。例如，Amini等[3]將不同語言的文檔看作是原始文檔的不同模態，成功設計了多視圖多數投票和多視圖共分類[4]等方法對文檔進行學習；Bickel等[5]研究了眾多多模態數據形式下的聚類方法，例如k-means、k-medoids和EM(expectation-maximization)等。挖掘不同模態結合過程中潛在的數據信息是研究者們共同的目標，由此可見，研究多模態數據融合的有效方法已成為文本大數據分析中的重要方向。文中針對海量檔案文本數據的多模態特點，研究有效的增量多模態文本聚類方法。

非負矩陣分解[6](NMF, nonnegative matrix factorization)是一種經典的矩陣分解技術，它可以將每個觀測對象解釋為非負基向量的線性組合相加后得到的結果[7]，這恰好符合了人們在大腦和心理上所習慣的“局部構成整體”的思想[8-9]。近幾年內，NMF已經被廣泛運用于數據聚類中，它與許多先進的無監督聚類算法相比，其性能極具競爭力[10]。例如，Xu等[11]將NMF應用于文本聚類，取得了較好的結果；Brunet等[12]在生物數據聚類方面也獲得了類似的成功。這些基于NMF的單模態聚類算法都取得了不錯的成果。如果將NMF技術應用于多模態檔案文本數據將取得令人期待的結果。NMF本身具有屬性降維的功能，可以很好地解決多模態檔案文本大數據存在的維數災難問題。然而，基于NMF的多模態文本數據聚類方法也將面臨以下問題：多模態文本數據存在異構性，如何充分結合多個模態的數據信息是首要的挑戰；當多模態的文本數據出現爆炸式增長的時候，傳統的學習方法需要損耗大量的空間和時間成本。

針對以上問題，文中將研究基于NMF的增量多模態文本聚類方法。與傳統的非負矩陣分解方法使用得到的系數矩陣進行數據分析不同，文中提出的方法將直接用融合后的共享特征矩陣進行聚類分析，檢測融合數據的效果。該方法是基于語義的，在考慮每種模態的實際意義的情況下求得所有模態的共享特征，并且在多模態數據語義融合的基礎上引入圖規則化的思想，保證各模態數據與共享特征的幾何結構相似性，力求能夠獲得更好的特征學習與聚類分析效果。然而，當大規模檔案文本數據遇到實時性的需求時，傳統的多模態數據融合算法無法滿足在短時間對大量數據進行處理的任務，因此實現2種增量自適應文本數據特征學習方案，并求解對應的增量優化規則，可以節約數據處理的時間成本，同時學習的增量方法在一定程度上也更加節省數據占據的存儲空間。2個實際文本數據集上的實驗結果表明：文中提出方法優于現有的一些增量和非增量學習方法，能夠對多模態文本數據進行有效劃分。

1 相關技術

1.1 非負矩陣分解

給定一個M×N大小的非負矩陣X(矩陣中的元素均為負)，每個列向量代表一個數據實例，數據實例大小為N，每個行向量代表一種特征屬性，共有M維特征屬性。這個矩陣被近似分解為一個M×d的基矩陣U和一個N×d的編碼矩陣V，其原理如圖1所示[6]。

圖1 非負矩陣分解原理原理Fig.1 The principle of non-negative matrix factorization

通常，設定d的數值遠遠小于N，假設d為數據聚類的類數。非負矩陣分解可以形式化表示為

X≈UVT(U≥0，V≥0 )。

(1)

為了求得矩陣X的近似表示，可以將目標函數最小化：

(2)

(3)

(4)

按照式(3)和式(4)依次對U、V進行交替迭代直到函數收斂，求得最后的U、V矩陣。

非負矩陣分解將一個原始矩陣分解成一個基矩陣和一個編碼矩陣相乘的形式，要求得到的基矩陣和編碼矩陣非負，因此原矩陣中的某一行數據可以看作編碼矩陣中所有列向量的加權和，具體的系數對應編碼矩陣中列向量的元素。該分解過程可以理解為一種特征提取的行為，編碼矩陣則為原始矩陣的潛在特征表示。

1.2 多模態非負矩陣分解

(5)

通過共享矩陣V的耦合，聯合迭代更新各變量，得到優化后的多模態共享特征。

2 增量多模態文本聚類方法

文中提出的增量多模態算法考慮每個模態的語義信息，使用NMF抽取出多模態數據的共享特征子空間。為提升其學習特征的有效性，算法還嵌入圖拉普拉斯正則化項，保證高維數據在降維過程中盡量維持其原始的數據結構，進一步提升共享特征學習的準確性。最后，為每個模態設立模態權值，通過權值的自適應更新，合理控制每個模態對于特征子空間的貢獻。在實際應用中，數據往往是分批到來的，這導致了非增量算法時間開銷巨大。因此，在上述基礎算法的基礎上，進行算法的2種增量改進來大幅度減少時間消耗。第一種增量改進算法基于數據相對獨立這一假設[13]：當新數據到來時，它僅通過計算新數據的特征子空間從而減少時間開銷。第二種增量改進算法結合了緩沖區的思想[14]，為數據開創時間緩沖區，通過緩沖區來減少時間開銷。

2.1 基于圖規則化的多模態NMF

拉普拉斯特征映射是一種基于圖的降維方法，它可以使圖中原本相近的2個點在降維后依然盡量地靠近。因此，拉普拉斯矩陣使數據中具有相似性的實例在降維后的空間內依舊保持高度相似，以達到后續更好的特征學習效果[15]。

根據數據間的歐氏距離，采用p-最近鄰算法構造出一個鄰接矩陣W，Wij表示數據實例i和數據實例j的相似度，要求在降維后的子空間內原本靠近的數據仍舊相近，即在共享特征子空間V中，原始空間相近的行向量vi與行向量vj(Wij較大)的距離要盡可能的小。故得到目標函數：

Tr(VDVT)-Tr(VWVT) =Tr(VLVT)，

(6)

式中：L是圖的拉普拉斯矩陣，L=D-W；W是鄰接矩陣；D是度矩陣，它是一個對角矩陣，其每一行的對角元素是W矩陣中對應每一行或列之和。

根據上述方法計算得到每一個模態數據的拉普拉斯矩陣L(v)后，便可得到基于圖規則化的多模態NMF的目標函數：

s.t.V≥0，U(v)≥0，v=1,2,3,…,nv。

(7)

式中，λ為圖正則化項的控制參數。

2.2 增量自適應圖規則化多模態NMF

基于2.1節的圖規則化的多模態NMF，文中提出增量自適應圖非負矩陣分解模型(IAGNMF, incremental adaptive graph regularized multi-modal NMF)。模型中假設新數據與原有數據是相對獨立的，因此對于新到來的數據，在保持原有數據共享特征子空間不變的基礎上為新數據開辟新的特征子空間。對于圖的增量計算則是對每個模態新數據在全局數據集合空間上的分布特點進行擬合，保證新數據對應特征子空間分布與各個模態所有數據分布相似。最后為每個模態設立一個模態權值，通過權值自適應更新來控制各模態對于新數據特征子空間學習的貢獻，具體細節如下：

(8)

(9)

(10)

最后，在式(10)的基礎上為模態添加自適應權重因子(α(v))γ，其中，α(v)為第v個模態的權重因子，γ為控制權重分散程度的參數。自動更新自身模態權重，約束不同模態對特征子空間的影響。這樣得到了目標函數：

(11)

(12)

(13)

(14)

(15)

(16)

(17)

利用拉格朗日優化函數對式(17)進行優化表示得到：

(18)

其中：?為限定條件Vl≥0的拉格朗日乘子，用式(18)對Vl求偏導得到：

(19)

通過KKT(Karush-Kuhn-Tucher)條件(?)ij(Vl)ij=0，得到Vl的更新規則為：

(20)

(21)

利用拉格朗日優化公式對式(21)進行優化表示得到

(22)

利用式(22)對α(v)求導，使導數為0，得到：

(23)

(24)

2.3 在線自適應圖規則化多模態NMF

與IAGNMF不同，在線自適應圖非負矩陣分解(OAGNMF, online adaptive graph regularized multi-modal NMF)假設新數據總是與它到達時間相近的數據關聯性更強，而與到達時間較遠的數據關聯更弱。因此，模型中設立一個固定大小的緩沖區，總是存放s個最近到來的數據，將其他較早到來的數據丟棄。運用緩存區的數據進行特征子空間學習。

因此，在構造圖正則化項時，僅需要計算緩沖區實例的p-最近鄰圖即可。頂點對應緩存區的實例，同樣采用余弦距離來衡量文本實例的相似度：

(25)

(26)

類似的，目標函數(26)是非凸的，采取同樣的策略尋找局部最優解：

(27)

(28)

同理，對目標函數(26)進行拉格朗日優化表示后對Vs求導，通過KKT條件使導數為0得到Vl的更新規則：

(29)

(30)

2.4 復雜度分析

設多模態數據平均模態維度為M，算法IAGNMF的空間復雜度為O(V(Mk+Ml+MMc+3(k+l)2+1)+Mc(k+l)+2)(V(Mk+Ml+MMc+3(k+l)2+1)+Mc(k+l)+2)≈O((k+l)2)。假設迭代更新平均收斂次數是tt，多模態數據平均模態維度為M，算法IAGNMF一次增量過程的時間復雜度為O(Vt(2MMc(k+l)+Ml(k+l))+VMvl(k+l))≈O(k)O(Vt(2MMc(k+l)+Ml(k+l))+VMvl(k+l))O(Vt(2MMc(k+l)+Ml(k+l))+VMvl(k+l))。

設多模態數據平均模態維度為M，算法OAGNMF的空間復雜度為O(V(Ms+MMc+3s2+1)+Mcs+2)≈O(1)O(V(Ms+MMc+3s2+1)+Mcs+2)O(V(Ms+MMc+3s2+1)+Mcs+2)。假設迭代更新平均收斂次數是tt，多模態數據平均模態維度為M，那么算法OAGNMF一次增量過程的時間復雜度為O(Vt(2MMcs+Ms2)+VMvs2)≈O(1)O(Vt(2MMcs+Ms2)+VMvs2)O(Vt(2MMcs+Ms2)+VMvs2)。

3 實驗分析

為驗證文中提出算法的有效性，設計了一系列算法對比實驗，并在多模態文本數據集LegalText和Webkb上驗證算法IAGNMF和OAGNMF和現有的一些相關算法：ConcatNMF(concatenation NMF)[6]，INMF (incremental NMF)[13]，MultiINMF (multi-view Incremental NMF)[10]和MultiGNMF(multi-view graph NMF)[15]的性能。一是比較共享特征學習效果，將算法提取出來的低維特征進行k-means聚類分析，分析聚類的準確度(ACC, accuracy)和純度(PUR, purity)。二是比較運行算法的時間開銷。

3.1 數據集

3.1.1 數據集LegalText

LegalText數據集是具有7個大類6 300個法律案例的文本數據，分別是瀆職，妨害社會管理秩序，破壞社會主義市場經濟秩序，侵犯財產，侵犯公民人身權利、民主權利，貪污受賄，危害公共安全。通過預處理得到150維word2vec特征和500維tfidf特征2個模態。

3.1.2 數據集Webkb

Webkb數據集[16]源自于康奈爾大學計算機科學系的網頁文本內容，該數據集包含屬于4個類別的8 282個數據樣例，共有2 500維網頁中的文本特征屬性和1 380維網頁中超鏈接的錨文本特征屬性2種模態信息。

3.2 算法比較

文中基于NMF提出2種增量多模態聚類算法，實驗中，將提出的2種算法與現有的一些基于NMF的增量和非增量方法進行比較，驗證提出算法的性能。具體比較算法包括：①ConcatNMF：將多模態數據的所有模態屬性進行直接拼接后進行非負矩陣分解[6]；②INMF[13]：為單模態增量非負矩陣分解方法，實驗中對數據集中多有模態數據進行單模態增量學習，并采用最好模態結果；③MultiINMF：為多模態非負矩陣分解MultiNMF的增量算法[10]，其增量實現與INMF相同；④MultiGNMF為基于圖規則化的多模態數據融合算法，其實現拓展了圖正則化NMF[15]到多模態數據。

3.3 實驗設置

實驗當中，比較算法ConcatNMF、INMF、MultiINMF和MultiGNMF的參數選擇與其原始文獻中相同。文中提出的IAGNMF圖正則化參數λ=15，權重分散程度參數γ=1.3；OAGNMF圖正則化參數λ=15，權重分散程度參數γ=1.3，緩沖區大小設置為40%數據集大小。每次實驗非重復地取1/10數據集的實例作為新到來的實例運行算法學習其低維共享特征，運行10次之后完成對整個數據集的特征學習。對于增量算法，每次學習新實例的低維共享特征后，記錄學習時間，與已經完成特征學習的實例的低維共享特征一起進行聚類分析驗證學習效果；對于非增量算法，新實例和已完成特征學習的實例一起進行特征學習，記錄學習時間，將學習到的所有實例的低維共享特征進行聚類分析驗證學習效果。對于每次模型運行，都能得到其時間開銷，聚類精度和純度。每個實驗重復運行15次，并取其均值輸出比較結果。

實驗環境為Windows10操作系統，Matlab R2018a軟件平臺，硬件環境為Intel?CoreTMi5-7300HQ CPU @ 2.50GHz處理器，8G內存。

3.4 結果分析

LegalText和Webkb 2個文本數據集上的各算法聚類有效性比較結果如圖2和圖3所示。

圖2 LegalText數據集上的聚類結果比較Fig.2 Comparison of clustering results on LegalText dataset

從圖2和圖3可以看出，相比于ConcatNMF、INMF、MultiINMF和MultiGNMF，文中提出的2種增量多模態文本聚類方法具有一定的優勢。例如，在LegalText數據集上IAGNMF在ACC和PUR 2種聚類指標上一直優于所有比較算法，這是因為IAGNMF實現了增量的圖規則化機制保證了融合空間特征與原始數據具有一致的幾何相似結構，此外IAGNMF實現了模態權重的自適應調整，保證了各模態的有效信息。同樣OAGNMF和MultiGNMF也是用了圖規則化項，也得到了較好的結果。OAGNMF采用數據緩存機制，假設一段時間內數據具有相似性，而在實際的數據集LegalText中這個假設很難保證，但在標準數據集Webkb中便能得到較好的效果(如圖4)。MultiGNMF實現沒有考慮各模態的權重，所以相比于文中提出的算法其性能略有下降。

圖3 Webkb數據集上的聚類結果比較Fig.3 Comparison of clustering results on Webkb dataset

圖4 2個數據集上的時間開銷比較Fig.4 Comparison of time consumption on two datasets

圖4給出了幾種比較算法的時間性能。從圖中可以看出，基于圖規則化的MultiGNMF比ConcatNMF、INMF和MultiINMF需要消耗更多的時間。IAGNMF和OAGNMF同樣使用圖規則化提升算法的性能，但其增量實現能夠有效減少算法的時間開銷。

綜上，相比于比較算法文中提出的2種算法在聚類性能和時間消耗上均具有一定的優勢，適合海量多模態文本數據的增量融合學習與聚類分析。當數據集中數據樣本隨采集時間有一定的前后依賴時，采用數據緩存機制的OAGNMF算法能夠得到較好的性能；而當數據間沒有時間依賴時，采用增量圖相似結構度量的IAGNMF算法具有更加的聚類性能。

4 結束語

文中提出2種增量多模態文本聚類算法，基于NMF構建多模態文本數據特征學習基本模型，利用局部相似圖規則化保證學習特征空間的結合結構與原始數據空間的一致性，提升多模態融合特征學習的準確性。設計了2種增量多模態數據特征學習機制，并對各模態權重進行自適應調整，實現海量多模態文本數據的快速、有效融合學習。通過2個實際文本數據集上的實驗結果表明，文中提出的2種算法具有一定的優越性。