999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DMA與特征劃分的多源文本主題模型

2021-07-26 11:54:50許偉佳秦永彬黃瑞章陳艷平
計算機工程 2021年7期
關鍵詞:文本模型

許偉佳,秦永彬,黃瑞章,陳艷平

(1.貴州大學計算機科學與技術學院,貴陽550025;2.公共大數據國家重點實驗室,貴陽550025)

0 概述

隨著計算機網絡技術的快速發展,各種各樣的Internet/Intranet 應用在全球范圍內日益普及,產生了大量的文本信息。研究人員將來自多個應用平臺的不同來源的文本集合到一起構成多源文本數據集。在一般情況下,多源文本數據集中的主題信息要比單源文本數據集中的主題信息更加全面準確。因此,研究一種能挖掘多源文本數據集中主題信息的文本挖掘模型是非常必要的[1]。

主題模型是目前較流行的文本挖掘模型,因此需研究一種針對多源文本數據集的主題模型來挖掘多源文本數據集中的文本信息,但傳統主題模型挖掘多源文本數據集信息時存在兩方面的問題。一方面,在多源文本數據集中,每一篇文檔都由大量的詞來表示,包括特征詞和大量的無關噪聲詞,并且由于書寫風格的不同,因此來自不同數據源的噪聲詞也不同,不相關的噪聲詞會干擾模型構建,導致模型性能不佳。另一方面,每個數據源中相同主題的詞分布相似但不相同也會影響主題模型的性能,例如新聞網站和社交媒體論述同一主題,部分能夠明確指向主題含義的詞語會同時出現在這兩個數據源中,但由于描述角度的不同會導致一些特定詞語只出現在其中一個數據源中。因此,直接采用傳統主題模型挖掘多源文本的詞特征等信息會因為不同來源的主題的書寫風格差異以及描述角度的不同嚴重影響模型性能,并且在多源文本數據集中對主題數量的估計也非常困難。對于多數傳統主題模型而言,主題數量被認為是需用戶事先確定的參數,但在進行主題模型挖掘前提供正確的主題數量是不切實際的。此外,對于不同的數據源,主題數量通常是不同的,從而大幅增加了主題數量正確估計的難度。因此,如果多源文本主題模型能夠自動地估計每個數據源的主題數量,則對于模型的推廣和應用是非常有利的。本文提出一種新的多源文本主題模型MCDMAfp。MCDMAfp 以狄利克雷多項式分配(Dirichlet Multinomial Allocation,DMA)模型為基礎。當主題數量無窮大時,DMA 模型近似為狄利克雷過程混合(Dirichlet Process Mixture,DPM)模型[2]。DMA 模型作為DPM 模型的近似模型,能夠自動推斷出數據集的主題數量,而無需提前設置主題數量。

1 相關工作

網絡信息隨著互聯網的高速發展呈現爆炸式增長,如何快速準確地從這些海量數據中獲取有用的信息成為研究人員關注的焦點。主題模型是目前較流行的文本挖掘模型,其中較常見的隱含狄利克雷分配(Latent Dirichlet Allocation,LDA)模型由BLEI等[3]于2003年提出。后續的主題模型多數建立在LDA 模型的基礎上,例如針對短文本集的PYPM 模型[4]以及TRTD 模型[5],其中,PYPM 模型可在無需人為提前設置主題數量的情況下進行主題聚類,TRTD 模型利用詞的貼近性和重要性,解決了短文本集信息稀疏的問題。但是,目前文本信息的來源多樣,而上述模型均在單源數據集上進行,不能直接應用于多源數據集。

近年來,針對多源文本的主題模型被陸續提出,例如DLDA 模型[6]、DDMAfs 模型[7]和DDMR 模型[8],這3 種模型的主要思想是利用輔助數據源的文本信息提升目標數據源的主題發現效果,但其目標仍是解決單個數據源的建模問題。除此之外,一部分多源文本主題模型雖然旨在解決多數據源的建模問題,但僅能應用于特定領域[9],例如:結合ATM[10]與LDA 模型的HTM 模型[11],HTM 模型假設Twitter文本為ATM 模型生成,新聞文本由LDA 模型生成,兩者受同一主題-詞分布影響,提升了整體聚類效果;COTM 模型[12]是針對新聞及其評論數據源的主題模型,能從這兩個數據源中學習相應的主題,并提升整體聚類效果;HHTM 模型[13]主要針對新聞報道和用戶評論,提高了摘要生成質量。

由于上述主題模型僅能應用于特定領域,不具備普適性,因此針對多源文本的主題模型的研究也逐漸增多。文獻[14]提出的mf-CTM 模型適用于多源文本數據集,基于CTM[15]模型擴展得到,繼承了CTM 的優點,能夠對主題之間的相關性進行建模,并且能對多領域及多數據源進行主題建模,但mf-CTM 模型假設所有數據源的文本集共享相同的主題分布參數,而現實生活中不同數據源通常有不同的主題分布,這就導致了mf-CTM 模型不能很好地應用于多源數據集主題模型的構建。文獻[16]提出的Probabilistic Source LDA 模型能夠為每個數據源計算潛在主題,維護源之間的主題-主題對應關系,保留每個數據源獨特的特征,但是該模型的構建需要已知數據源的先驗知識,這提升了模型構建的難度,并且該模型是標準的LDA[17]擴展模型,不能自動推斷每個數據源的主題數量。文獻[18]提出的C-LDA 和C-HDP 模型擴展了ccLDA 以適應集合主題級的不對稱性,使得兩個模型能發現具有不同主題數量的任意集合之間的主題關聯性。C-LDA 模型與LDA 模型類似,需要人為提前設定主題數量。C-HDP 模型繼承了HDP 模型[19]的優點,無需人為設定主題數量,方便了模型的應用。但是,C-HDP 與C-LDA 模型多數針對同一數據源的多個數據集,若應用于多源數據集,則不能較好地學習每個數據源的源級詞特征。

2 MCDMAfp 模型

2.1 相關定義

單詞w是文本的最小單元,是{1,2,…,W}詞匯表中的一項。詞匯表由所有數據源共享,每個數據源都可以使用詞匯表中的部分單詞。一篇文檔由W維向量xd={xd1,xd2,…,xdW}表示,其中xdj是第d個文檔中第j個單詞出現的次數。數據源χ是由D個文檔組成的集合,表示為χ={x1,x2,…,xD}。多源文本數據集M是由S個數據源組成的集合,表示為M={χ1,χ2,…,χS}。

由于詞匯表中只有一部分詞對數據集中的不同文檔有區分作用,因此本文引入一個潛在的二元向量γ={γ1,γ2,…,γW}來識別有區分作用的特征詞,其中Ω表示特征詞集。對于每個j∈{1,2,…,W},γ表示為:

本文為γ分配一個先驗參數,并假設γ是由伯努利分布B(1,ω)生成的,參數ω可以看作是詞匯表中每個單詞的先驗概率。潛在變量γ采用文獻[19]中的隨機變量搜索思想進行選擇。

2.2 模型基本思想

MCDMAfp 模型的基本思想是:1)多源文本數據集中同一主題的詞分布共享同一先驗;2)多源文本數據集中每個數據源具有主題分布、主題-詞分布以及噪音詞分布參數。MCDMAfp 模型的圖形化表示如圖1所示。

圖1 MCDMAfp 模型的圖形化表示Fig.1 Graphical representation of MCDMAfp model

本文模型假設多源文本數據集M的生成過程如下:

2)對于每個主題i∈N

3 Gibbs 采樣算法

傳統主題模型多數為了方便計算,將主題-詞分布的狄利克雷先驗參數設置為統一值,但實際上先驗參數代表了詞的分布情況,例如,表示在主題i中獲得單詞j的概率比獲得單詞x的概率大,即單詞j在主題i中更具代表性。筆者發現不同數據源具有不同但相似的主題-詞分布,因此認為不同數據源的主題-詞分布由同一先驗產生,通過研究多源文本數據中表現較好的數據源的文本信息得到更具代表性的先驗參數λ[21],從而提升模型的整體性能表現。

3.1 先驗參數

本文通過優化生成整個數據集的后驗概率來獲得參數λ,已知多源數據集中數據源χs的概率近似為:

為了方便計算,本文使用對數似然函數進行運算,計算如下:

然后得到參數λ的梯度函數:

其中,Ψ(x)是Γ(x)的對數導數函數,由式(12)可得到更新后的:

3.2 基于Blocked-Gibbs 的參數學習

1)通過重復以下步驟R次更新潛在特征詞指示符γ:通過隨機選取γold中的W個索引中的一個并改變其值,生成新的候選γnew并添加或刪除特征詞。新候選值被接受的概率q為:

其中,f(γ|χs,zs)∝f(χs|γs,zs)p(γs)。

2)在給定其他潛在變量的條件下,對于i=1,2,…,N,如果i不在中,則從以λi為參數的Dirichlet 分布中得出,否則將T1作為Dirichlet 分布的參數,采樣更新:

3)將T2作為Dirichlet 分布的參數,采樣更新ηs0:

4)將T3作為Dirichlet 分布的參數,采樣更新P:

其中,I(zd=i)為示性函數,當zd=i時,I(zd=i)=1,否則I(zd=i)=0。

5)在給定其他潛在變量時,對于d=1,2,…,Ds,通過從參數為{sd,1,sd,2,…,sd,N}的離散分布中采樣更新,其中。

在采樣過程的不同數據源中,為保證主題的一一對應,即數據源si中的簇類k和數據源sj中的簇類k相同,可在開始時將所有數據源的文本看成單個數據源進行一次采樣,再對每個數據源進行單獨采樣。在采樣結果收斂后,根據各個數據源在算法運行過程中的最大生成概率判斷表現最優秀的數據集,按照式(15)對參數λ進行更新操作。性能表現差的數據源因為得到了較準確的先驗知識,提升了整體效果,作為更新依據的數據源也因為強化了自身的先驗知識,整體效果也有所提升。在獲得新的參數λ后重復采樣過程,便可得到更好的主題發現結果。

4 實驗結果與分析

4.1 度量標準

本文使用標準化互信息(Normalized Mutual Information,NMI)來評估聚類質量。NMI 表示主題模型得到的聚類結果與標準結果之間的相似性,其取值區間為(0,1),越接近1,表示主題發現的效果越好,計算公式如下[22]:

其中:D表示文檔數;dh表示主題h中的文檔數;cl表示集群l中的文檔數;dh,l表示主題h和集群l中的文檔數。

4.2 數據集

本文使用NASet 和BTSet 兩個真實的多源文本數據集來驗證MCDMAfp 模型的準確性:

1)NASet 數據集。該數據集包含9 986 篇文本和food 與sport 兩個主題,其中,5 000 篇文本來自HuffPost 網站的新聞文章(記為NewSet),剩余文本來自Amazon 網站的評論文本(記為ASet)。

2)BTSet 數據集。該數據集包含10 000 篇文本和4 個主題,其中:5 000 篇文本來自BBC 網站收集的新聞文章(記為bbcSet),共有travel、bussiness、sport、politic等4 個主題;5 000 篇文本來自Twitter 收集的文章(記為TSet),共有bussiness、sport、politic 等3 個主題。

對于這兩個數據集,本文進行以下預處理:1)將字母轉換為小寫字母;2)刪除非拉丁字符和停止字符;3)刪除長度小于2 或大于15 的單詞。

4.3 實驗結果

本文在NASet 和BTSet 數據集上進行實驗,并評估MCDMAfp 模型的性能。為便于對比研究,將K-means 模型[23]作為基線模型,對比模型包括基于單源數據集的PYPM 模型以及基于多源數據集的C-LDA 和C-HDP 模型。各模型在NASet 和BTSet 數據集上的聚類效果如表1所示。PYPM 模型與K-means 模型表示將每個多源數據集中每個數據源的文本集單獨作為該模型的輸入。PYPMall模型和K-meansall模型表示將多源數據集中所有數據源的文本集融合成一個數據集,并當作單源數據集作為該模型的輸入。K-means 模型(k=30)表示在K-means模型中設定的主題數量為30,K-means 模型(k為真實值)表示在K-means 模型中設定的主題數量為各數據集中真實的主題數量。PYPMall模型在NASet和BTSet 多源數據集上的NMI 值為0.770 和0.237。K-meansall模型(k=30)在NASet 和BTSet 多源數據集上的NMI 值為0.276 和0.207。K-meansall模型(k為真實值)在NASet 和BTSet 多源數據集上的NMI 值為0.209 和0.110。從表1 可以看出,MCDMAfp 模型相比其他模型聚類效果更好。

表1 5種模型在NASet和BTSet多源數據集上的NMI值Table 1 NMI values of five models on NASet and BTSet multi-source datasets

各模型估計的主題數量如表2所示,其中PYPMall模型在NASet 和BTSet 多源數據集上的主題數量為9 986 和10 000。從表2 可以看出:PYPM 模型估計的主題數量比較多,這是因為PYPM 模型無需提前輸入主題數量,而是直接將文檔數目當作主題數量,所以PYPM 模型估計的主題數目比較大;MCDMAfp 模型相比其他模型發現的主題數量更接近于真實情況,而且每個數據源都擁有被估計的主題數量,這證明了MCDMAfp 模型能保留多源數據集中每個數據源的主題特征。

表2 4 種模型在NASet 和BTSet 多源數據集上估計的主題數量Table 2 Number of topics estimated by four models on NASet and BTSet multi-source datasets

本文進一步研究了NASet 多源數據集中每個數據源的部分特征詞和噪音詞,如表3所示。可以看出,每個數據源的噪音詞集不同,并且與特征詞集無關。這證明了MCDMAfp 模型能夠將每個數據源的特征詞集與噪音詞集分開,避免了噪音詞集對模型的干擾。在表3 中的特征詞展示的是每個主題下概率最大的前20 個特征詞。針對food 主題,兩個數據集都出現了food、chocolate 等詞,主要原因為這些詞可以明確指示主題的含義,即使數據源不同,這些詞也會在不同數據源的詞分布中占據重要地位。但因為不同的數據源側重點不同,taste 和price 等判別詞只會較多出現在Aset 數據集中,而幾乎不出現在NewSet 數據集中,主要原因為亞馬遜的評論通常側重從食物的價格和味道來評判食物,而新聞主要是從食物本身的風味特征來描述食物,所以不同數據源下相同主題的判別詞雖然相似但不同。類似地,對于sport 主題,新聞文章與評論文章都有game、player 等詞,但新聞文章通常集中在奧運會等重要的體育賽事上,而評論文章對sport 主題的評論通常與普通賽事有關,這證明了不同數據源具有不同但相似的主題-詞分布,而判別詞的不同也證明了MCDMAfp 模型能夠學習并保留每個數據源獨特的源級詞特征。

表3 NASet 多源數據集上每個數據源的部分特征詞和噪音詞Table 3 Some feature words and noise words of each data source in NASet multi-source dataset

4.4 超參數對MCDMAfp 模型性能的影響

4.4.1 超參數ω

本文研究了ω值對MCDMAfp 模型性能的影響,將迭代次數、α、N、λ和β分別設為160、1.0、30、0.9 和4.0,通過改變ω值,觀察MCDMAfp 模型的性能變化,其中ω的取值為0.5、0.6、0.8、0.9 和1.0。圖2給出了當ω取不同值時,由NMI 評估的MCDMAfp模型的文檔聚類性能變化。可以看出,當ω值位于0.5~0.9 時,NMI 值較穩定,當ω取值為1.0 時,多源數據集的NMI 值有明顯降低。圖3 給出了當ω取不同值時,MCDMAfp 模型發現的噪音詞數量的變化曲線。

圖2 ω 值對MCDMAfp 模型聚類效果的影響Fig.2 The influence of the values of ω on clustering effect of MCDMAfp model

圖3 不同ω 值下MCDMAfp 模型發現的噪音詞數量Fig.3 The number of noise words found by MCDMAfp model under different values of ω

由圖3 可知,當ω值為1.0 時,MCDMAfp 模型發現的噪音詞數量為0,這表示沒有區分噪音詞集與特征詞集,因此文檔聚類效果較差。隨著ω值的增大,MCDMAfp 模型發現的噪音詞越來越少,這是因為噪音詞的指示符γ服從B(1,ω)的伯努利分布。除此之外,可以看出在ASet 數據集中發現的噪音數總比在NewSet 數據集中發現的多,這是因為新聞文檔用詞較專業,而評論文檔用詞較隨意。

4.4.2 超參數α

本文研究了α值對MCDMAfp 模型性能的影響,將迭代次數、N、β、λ和ω分別設為160、30、4.0、0.9 和0.9,通過改變α值,觀察MCDMAfp 模型的性能變化,其中α的取值為0.2、0.4、0.6、0.8 和1.0。圖4給出了當α取不同值時,由NMI 評估的MCDMAfp模型的文檔聚類性能變化。可以看出,MCDMAfp模型在不同α值下聚類效果能夠保持相對的穩定,這說明α值對MCDMAfp 模型的影響較小。

圖4 α 值對MCDMAfp 模型聚類效果的影響Fig.4 The influence of the values of α on clustering effect of MCDMAfp model

4.4.3 超參數β

本文研究了β值對MCDMAfp 模型性能的影響,將迭代次數、N、λ、ω和α分別設為160、30、0.9、0.9和1.0,通過改變β值,觀察MCDMAfp 模型的性能變化,其中β的取值為2、3、4、5 和6。圖5 給出了當β取不同值時,以NMI為評估標準的MCDMAfp 模型的文檔聚類性能變化。可以看出,隨著β值的改變,MCDMAfp 模型的聚類效果波動幅度不大,這說明β值對MCDMAfp 模型的影響較小。

圖5 β 值對MCDMAfp 模型聚類效果的影響Fig.5 The influence of the values of β on clustering effect of MCDMAfp model

4.4.4 超參數λ

本文研究了λ值對MCDMAfp模型性能的影響,將迭代次數、N、β、ω和α分別設為160、30、4.0、0.9 和1.0,通過改變λ值,觀察MCDMAfp 模型的性能變化,其中λ的取值分別為0.7、0.8、0.9、1.0 和1.2。圖6 給出了當λ取不同值時,由NMI 評估的MCDMAfp 模型的文檔聚類性能變化。可以看出,當λ初始值在一定范圍內變化時,對MCDMAfp 模型的聚類效果沒有較大影響。這是因為MCDMAfp 模型會對λ值進行更新,最大程度地減少λ初始值對模型的干擾,從而證明MCDMAfp 模型具有較強的魯棒性。

圖6 λ 值對MCDMAfp 模型聚類效果的影響Fig.6 The influence of the values of λ on clustering effect of MCDMAfp model

4.4.5 主題數量N

本文為證明MCDMAfp 模型能夠較好地估計每個數據源的主題數量,研究N值對MCDMAfp 模型性能的影響,將迭代次數、β、ω、α和λ分別設為160、4.0、0.9、1.0 和0.9,通過改變N值,觀察MCDMAfp 模型的性能變化,其中N的取值分別為10、15、20、25 和30。圖7 給出了當N取不同值時,由NMI 評估的MCDMAfp 模型的文檔聚類性能的變化。可以看出,MCDMAfp 模型在不同N值下保持了一定的穩定性,這證明了提前設定的N值對MCDMAfp 模型的影響較小,但隨著N值的增加,MCDMAfp 模型的運行時間有所增加。

圖7 N 值對MCDMAfp 模型聚類效果的影響Fig.7 The influence of the values of N on clustering effect of MCDMAfp model

5 結束語

本文提出一種基于DMA與特征劃分的多源文本主題模型MCDMAfp。MCDMAfp 模型采用Gibbs采樣算法自動估計每個數據源的主題數量,并為每個數據源提供單獨的主題分布、噪音詞分布以及主題-詞分布參數學習每個數據源的主題特點,同時利用特征劃分方法識別每個數據源內的特征詞和噪聲詞,防止混合后的結果影響主題發現效果。在兩個真實數據集上的實驗結果表明,MCDMAfp 模型能夠保留多源數據集中每個數據源的獨特性,并具有較好的主題發現效果。下一步考慮將文字嵌入與多源文本主題模型相結合,進行基于語義的多源文本主題發現研究。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产黄色片在线看| 五月婷婷综合色| 玖玖精品在线| 亚洲国产AV无码综合原创| 国产你懂得| 狠狠干综合| 国产精品午夜福利麻豆| 国产福利在线免费观看| 免费在线成人网| 国产成人精品2021欧美日韩| 亚洲一区二区成人| 午夜天堂视频| 国产91视频观看| 国产精品蜜臀| 91色在线观看| 日韩AV无码一区| 国产日韩欧美精品区性色| 欧美成人一级| 久久夜色撩人精品国产| 欧美午夜视频在线| 无码AV高清毛片中国一级毛片 | 欧美日韩中文字幕在线| 极品国产在线| 亚洲aⅴ天堂| 综合社区亚洲熟妇p| 日本91在线| 国产高清无码第一十页在线观看| 日韩成人午夜| 丁香婷婷综合激情| 国产第一页免费浮力影院| 国产免费久久精品99re丫丫一| 亚洲娇小与黑人巨大交| 91在线中文| 特黄日韩免费一区二区三区| 欧美特黄一级大黄录像| 亚洲人人视频| 亚亚洲乱码一二三四区| 国产精品永久久久久| 一区二区三区成人| 婷婷综合亚洲| 无码丝袜人妻| 亚洲国产亚综合在线区| 九九精品在线观看| 久久青草精品一区二区三区| 亚洲中文无码h在线观看 | 毛片久久久| 欧美精品啪啪| 孕妇高潮太爽了在线观看免费| 精品福利视频导航| 波多野结衣视频一区二区 | 青青草一区| 国产精品视频导航| 久久五月天国产自| 国产一区成人| 伊人福利视频| 精品国产aⅴ一区二区三区| 91精品啪在线观看国产91九色| 国产人人射| 全部免费特黄特色大片视频| 欧美三级视频网站| 无遮挡一级毛片呦女视频| 毛片免费在线| 凹凸国产分类在线观看| 露脸真实国语乱在线观看| 怡春院欧美一区二区三区免费| 国产av色站网站| 久久久久人妻一区精品色奶水| 亚洲第一视频网站| 欧美高清日韩| 久久天天躁狠狠躁夜夜2020一| 91探花国产综合在线精品| 一级毛片免费的| 天天色综网| 亚洲视屏在线观看| 亚洲熟女中文字幕男人总站| 欧美日韩亚洲国产主播第一区| 原味小视频在线www国产| 国产丝袜精品| 午夜福利亚洲精品| 亚洲香蕉在线| 国产一区二区精品福利| 色综合成人|