999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA模型和Doc2vec的學術摘要聚類方法

2020-03-19 10:46:30張衛衛胡亞琦翟廣宇劉志鵬
計算機工程與應用 2020年6期
關鍵詞:語義單詞文本

張衛衛,胡亞琦,翟廣宇,劉志鵬

1.蘭州交通大學 電子與信息工程學院,蘭州730070

2.蘭州理工大學 經濟管理學院,蘭州730050

1 引言

隨著網絡的快速發展,信息資源的數量和種類日益劇增,尤其是學術數據庫里的論文、期刊、會議、專利等電子文本數量的急劇增加,如何在短時間內從海量文本中提取出特定主題下有用的信息成為文本數據挖掘的一項重要任務[1]。學術摘要聚類是一種有效的文本主題挖掘方法[2],它利用相似度概念將文本按照主題劃分為若干個有意義的簇,且同一類別內的所有文檔能夠共享同一主題,但是學術摘要文本存在數據稀疏問題且不同語境下詞語內涵差別較大。因此,若針對多文本摘要聚類,傳統聚類方法不能取得滿意的效果。

在新模型聚類過程中,首先使用爬蟲從頁面收集數據語料,然后進行一系列的數據預處理,之后的提取模塊使用機器學習和深度學習相結合的模型來進行數據挖掘。在對于文本內容的分析過程中,常用以下三種方法:

(1)基于空間向量模型的文本表示:空間向量模型將每個文本用空間向量中的一個向量來表示,每一維向量對應語料庫中每個不同的詞,向量的長度由文檔中詞的位置決定,向量維度根據全部文檔集合分詞后的數量決定的,詞在文檔中出現的位置為“1”,其余為“0”。學術文章的摘要長度不一,這種表示方法由于含有大量的“0”造成了維數災難,且相同詞語在不同文章中具有不同含義,one-hot方法忽略了文檔中詞語的上下文詞義關系。

(2)基于主題模型的文本表示:主題模型是一種典型的詞袋模型,它忽略了文檔中詞語間的位置關系。詞袋模型處理方法和one-hot 處理方法類似,它將所有文檔組成的集合中的詞按照one-hot詞向量處理后進行向量累加然后作為整條文本的向量表示,雖然該模型可實現對文檔中詞頻的統計,但仍無法解決空間向量模型中上下文關系缺失這一問題。例如:通過Term Frequency-Inverse Document Frequency(TF-IDF)模型可以得到文檔中詞語頻率的高低,進而得出主題詞。用于對大量文檔提取隱含主題的LDA 模型是一種典型的詞袋模型[3],它認為文檔中的詞與詞之間是獨立存在的,同時LDA模型也是一種雙重稀疏模型,它將文檔劃分成盡量少的幾個不同的主題,每個主題又用盡量少的詞語來表示,因此,得到的文檔向量較為稀疏。雖然以上方法可實現對于主題的提取,但由于數據稀疏以及未考慮詞語間的語序關系,無法準確實現對于學術摘要文本的聚類。

(3)基于神經網絡模型的表示:Bengio 等人在2003年提出神經網絡語言模型[4](Neutral Network Language Model,NNLM)模型,該模型是一種三層前饋神經網絡結構,它通過輸入層、隱藏層和輸出層將文本表示為一種低維、緊密的詞向量,訓練完成后的詞向量被映射到一個向量空間,文本中語義相似的詞語在向量空間中有相似的向量表示。2008 年Ronan 等人提出C&W 模型,該模型在詞性標注、短語識別等方面是一種更為快速獲取詞向量的方式,但在語言學任務上模型訓練效果并不理想。2013 年Mikolov 等人提出Word2vec 模型[5],包括CBOW(Continuous Bag Of Words)和skip-gram 模型,skip-gram 模型根據目標詞預測上下文的概率,CBOW根據上下文詞預測目標詞的概率。盡管基于分布假說理論的Word2vec 詞向量模型可以很好地提取詞語的語義信息,但該模型丟失了文本語序信息,基于此,Le 等人提出包含文本語序信息的doc2vec技術[6]。

在以上三種表示方法中,主題模型被廣泛應用到文本聚類中,Latent Dirichlet Allocation(LDA)模型[7]把單個主題表示為有一系列概率分布的詞語,每個文檔又由不同主題所構成,該模型的優點在于降低了文本數據的維度。在應用的同時不少學者將LDA 模型結合其他方法對文本表示進行改進,提出LDA 模型的原作者將參數分布由Dirichlet 改為Logistic,得到相關主題模型(Correlated Topic Model,CTM)[8]解決了傳統模型的詞袋問題;Li 和Chua 等人將LDA 對主題建模的全局表示與Word2vec 對上下文詞語關系的局部性相結合提出Topic2vec 模型[9-10],該模型在主題建模的性能上優于傳統的LDA 模型;Moody 等人于2016 年提出了Lda2vec詞向量模型[11],該模型以Word2vec為基礎,結合LDA主題模型,加入了主題語義信息;曹娟等提出了一種基于密度的自適應最優LDA 模型選擇方法[12],用主題間相似度來優化模型;王鵬等提出基于LDA模型Jensen-Shan‐non距離作為文本的相似性度量[13],采用層次聚類法進行聚類;以上方法大多以LDA 模型為基礎結合Word2vec 來改進語義相關性,Word2vec 缺少對段落向量的表示;而且對于特定短文本如“計算機技術”這一主題下的摘要進行聚類分析的文獻極少涉及。由于學術摘要文本存在數據稀疏問題,而且在不同語境下詞語的內涵差別較大,傳統LDA 模型方法忽略了詞語之間的相似性關系,無法解決數據稀疏及隱含在詞語背后的語義問題,對學術摘要文本中存在的同義詞和多義詞更加無法有效判定。

本文在LDA模型的基礎上,結合Doc2vec向量在探索詞義相關關系上的優越性,提出一種新的基于主題模型和句向量的文本表示方法—主題句向量模型(Doc_LDA)。新模型不僅加入了文本語義信息,同時保持了LDA 模型的優勢。句向量(Doc2vec)的優點在于訓練出每一篇文本的向量通過上下文與段落向量相結合,更能全面地理解在不同語境下的文本語義特征,通過與LDA 模型對于全局性的主題表示相結合,以期更好地提高主題模型在語義探索上的性能。

2 相關工作

2.1 LDA模型

LDA 模型是Blei 等人于2003 年提出的一種無監督的概率主題模型,該模型大致分為三層:文檔、主題和單詞,其中,每個文檔表示為潛在主題的隨機組合,每個主題表示為固定單詞集上的分布。隱含的主題層將文檔中每個單詞和其對應的潛在主題建立關聯。單詞集合是LDA 模型利用隱含主題將文檔劃分成的n 簇含有具有相關性的集合,該集合服從多項式分布。通過使用Gibbs Sampling 抽樣,可以推斷出θm和φk的值來發現文檔中的潛在主題,并預測具有主題比例分布的任何新文檔,其中,概率分布θm由參數α采樣得到,概率分布φk由參數β采樣得到。

LDA 模型如圖1 所示,計算過程可以分為兩個步驟:第一步為α →θm→Zm,n,這個過程表示第m 篇文檔的生成過程,每個詞語均是由概率分布θm得出的,n 個單詞組成了文檔m;第二步為β →φk→Wm,n,這個過程表示第m 篇文檔中生成第n個的生成過程,第m 篇文檔中生成第n個單詞,先從K 個主題中為Zm,n選出一個主題[14],再用該主題來生成第n個單詞wm。

圖1 LDA模型

在LDA 中,每個單詞被認為是從詞袋中抽取的離散數據,每個文檔是由單詞集合w={w1,w2,…,wn}構成,語料庫由一系列文檔D={d1,d2,…,dn}組成。LDA的聯合概率分布表示為:

w 表示觀察變量,θ 和z表示隱含變量,α和β 由EM 算法得到。

2.2 Doc2vec模型

詞向量模型運用神經網絡的思想來訓練語句模型同時將每個詞生成對應的詞向量,該模型假設每個詞的出現僅與前面特定數量的詞有關,側重于詞語之間的順序組合。Doc2vec 是Mikolov 在2014 年基于Word2vec模型的思想基礎提出的,Word2vec 的基本思想是:根據上下文的單詞來預測當前詞的概率。在這個框架中,每個單詞都被映射成一個向量,映射后的單詞向量被用作W 的輸入矩陣,列由短語中的單詞索引指定。這些詞向量用于預測句子中的下個單詞。假設給出上下文單詞用于訓練,詞向量模型的目標是根據已知單詞對數概率平均值的最大值預測未知單詞的概率[15]:

其中,ywi是非標準化的對數函數,輸出層的每個詞由以下公式計算:

a,b是Softmax 參數,f 是由從詞向量矩陣V 中提取的詞向量求平均得到的。

Doc2vec 增加了一個與詞向量長度相等的段落向量paragraph id,該向量具有固定長度,它不僅加入了文本語義信息,同時具有更好的泛化能力。Doc2vec 有兩種模型:Distributed Bag Of Words(DBOW)和Distributed Memory(DM),分別對應于Word2vec 中的skip-gram 和CBOW。文獻[2,16]均采用Word2vec中的第一種模型,本文采用Doc2vec向量化算法中的第二種模型PV-DM,如圖2 所示。這兩種模型的不同點在于PV-DM 模型根據給定上下文中的模型來預測目標詞,DBOW 根據目標詞來預測上下文概率。

圖2 PV-DM向量模型

假設一份文檔中有N 個文本,每個文本被映射成一個指定維度的獨立向量作為矩陣D 的一列,矩陣W 的一列是上下文詞語映射成的向量,后將D中的段落向量和W 的詞向量進行求和或拼接來預測目標詞語的概率。其中,段落向量可被看作是文本中的另一個詞,用于存儲段落信息,上下文是通過固定長度的滑動窗口在文本中不斷采用得到的[17]。句向量Paragraph vector 和詞向量word vector 維數一致,但代表著兩個不同的向量空間,softmax 層的輸入是通過paragraph vector 和word vector 累加或拼接后的。模型中使用隨機梯度下降和反向傳播訓練,在同一文本中段落向量在該文本是唯一的,即可被所有該文本的上下文窗口共享。訓練完成后,段落文本可直接用于機器學習算法中表示該文本的特征。

2.3 Doc-LDA

LDA 從全局方式來描述主題和詞語之間的關系,它將文本表示為一個隱性語義空間上的向量,向量的每一維度是一個主題,該主題又是一組詞的分布。由于LDA 模型是一種典型的詞袋模型,它忽略了上下文語義的關系,認為詞語跟詞語之間是相互獨立的。而Doc2vec 模型以局部特征來預測詞語,保留了文檔上下文語義關系且具有良好的泛化能力,該模型利用了文檔級別的信息。因此,將LDA 主題模型的全局隱性信息和Doc2vec 的局部隱性信息相融合來訓練向量[18],使得在模型訓練時既能利用整個語料庫的信息,也能用段落及上下文之間的隱性語義空間,使用詞向量的新表示增強了自然語言處理任務中的辨別能力和預測能力。

圖3 Doc-LDA模型總體框架

新模型如圖3 所示是一個由文檔、主題、詞語構成的高維語義空間,語料集通常是一系列獨立的文檔組成的,將每個文本通過Doc2vec 訓練得到文檔向量,因為每個文檔的長度不同,將文檔向量除以單詞數來保證相同比例。主題向量和文檔向量的獲取方式相似,每個主題中的高概率詞語的子集用于表示主題,然后將它們的概率重新調整為以權重進行表示的詞語。最后,用余弦距離計算每篇文檔與各個主題的距離。文檔D={d1,d2,…,dn} 是 由 N 個 詞 語 的 集 合w={w1,w2,…,wn}構成的,用LDA 模型訓練文檔D 后得到了T 個隱含主題{t1,t2,…,tT}和主題ti中每個詞語的概率,詞語jth在主題ti中出現的概率表示為θij。ti中h個高頻率詞語構成了主題,詞的權重用式(5)表示。Doc2vec 將文檔D 中的每個詞映射成了一個向量,產生一組詞向量{v(w1),v(w2),…,v(w。N)x}為窗(6)主題向量v(ti)是對ti中的每個詞向量及其權重求和后所得的。

再用式(7)計算文檔向量,y是文檔中所有詞語的數量。

語義向量空間中文檔和主題之間的距離用余弦相似度來測量,對于單個文檔,計算從它到所有潛在主題的距離,并選擇具有最小余弦距離的主題作為此文檔的主題,距離為:

由以上Doc-LDA模型求解過程可得算法如下:

步驟1對收集到的摘要文本進行數據預處理:分詞,去停用詞,得到語料庫DOC。

步驟2利用LDA 主題模型得出語料庫DOC 中每個短文本di的主題分布,主題分布ti把單個主題表示為一系列有概率分布的詞語,詞語的概率θij。其中,i,j ∈[1,T]。

步驟3選取單個主題下的前top 個詞語,每個主題均有n個主題詞語,從而得到T 個主題{t1,t2,…,tT}。

步驟5將步驟4 中得到的主題詞映射到Doc2vec空間上,第i 個詞wi所對應的向量為v(win),由式(6)計算得到主題向量v(ti)。

步驟6利用Doc2vec 將文本di中的每個詞映射成一個向量且每個文本d 被映射成了一個獨立的向量,產生一組句向量{v(d),v(w1),v(w2),…,v(w。N)}

步驟7對于步驟6 中的句向量由式(7)計算得到文檔向量v(di)。

步驟8由v(ti)和v(di)得到向量空間中文檔和主題間的距離,距離計算如式(8)。

步驟9將得到的矩陣代入模型中預測聚類主題。

3 實驗分析

3.1 實驗方案

本文通過Python 的requests 庫爬取中國知網中“計算機技術”主題下的摘要數據,共7 923 條,采用jieba 分詞,去除停用詞后保存為文本文件,一行數據代表一份文檔。經過預處理后得到的文檔如圖4 所示。之后對預處理后的語料庫通過Doc2vec 訓練詞向量,向量模型參數如表1所示。

圖4 分詞后的部分數據

表1 Doc2vec參數設置

表2 經過Doc_LDA訓練后的主題分布和距離分布

將語料庫通過LDA 模型進行主題建模,設定LDA模型超參數,α=50/K,β=0.01。經過LDA、Doc-LDA 模型分別得到主題分布、距離分布。最后,將文本提出的Doc-LDA模型與LDA、Word2vec以及LDA+Word2vec進行聚類效果的比較。本文選用K-Means 聚類算法驗證模型的有效性。

3.2 參數分析

表2 左側是語料集經過LDA 訓練后得到的主題分布,設定topic=50,可以得到它有5 個相關主題,分別是7、12、14、31、43,其他主題概率為0 的認為是不相關主題。表2 右側是通過新模型訓練得到的主題間距離分布,加黑數據是與左側列出主題的相關主題。第一項值是主題標號,第二項是主題間的距離,由表2 得,所有主題分布的平均距離為2.077,最小距離分布為1.01,而LDA 模型得到的5 個相關主題在表2 右側中的距離分布均小于平均值。可以看出,LDA 在新模型訓練過程中依然保留了原本的特征信息;同時可以得到,在經過Doc-LDA 模型后得到的距離分布中,例如主題43 和主題36分別是最短和最長距離。由于左側LDA得到的相關主題中,主題12 的概率最高,因此,將左側的主題12,右側的主題43、36分別列出得到表3。主題12的主題詞“嵌入式”、“數控系統”、“芯片”和主題43 中的主題詞“單片機”、“FPGA”、“可編程”等具有較高的相關性,通過LDA 模型訓練出的主題分布中缺少了主題43,而主題36 中“計算機技術”、“預測”、“ATA”等雖都是計算機類下的主題詞語,與主題12間的相關性較差,對應于表2右側中有最遠的距離分布為3.08。

表3 LDA和Doc_LDA得到的部分主題

3.3 評價指標

本文采用F-measure(F1)對處理后的短文本聚類效果進行性能評價[19],F1 既衡量準確率(Precision,P)又衡量召回率(Recall,R)。其中,準確率用于檢驗聚類結果的有效性,召回率檢查聚類結果的完整性,故本實驗將準確率、召回率、F1作為評價指標,計算公式如下:

式中,sacc(ci)為成功劃分到類ci這一主題下的詞語數目,mispa(ci)為錯誤聚類到主題ci下的詞語數目,miss(ci)為本應聚類到類ci中但是被錯誤劃分到其他類下的詞語數目。

本文設計了一組實驗來考察Doc_LDA 模型中不同因素對聚類結果的影響。將LDA 的主題數T 設定為10,Doc2vec 的向量維度分別設為100、120、140 以及160,由圖5 可知,向量維度Size 大小為120 時該模型的聚類效果優于其他情況。隨著向量維度的增加,準確率、召回率以及F 值逐漸降低,因為更大的向量維度通常用于大規模的語料集中。

圖5 不同向量維度下的Doc-LDA

圖6 用于考察不同LDA 主題數對文本聚類的實驗效果影響,設定Doc2vec 向量維度為120,主題數為5、10、15 以及20。從圖中可以看出:主題數為5 和10 的時候聚類效果比其余情況的好,這是因為學術摘要文本域較狹窄,過多的主題分類會導致細粒度過小。

圖6 不同LDA主題數下的Doc_LDA

為進一步驗證LDA+Doc2vec 模型對文本聚類的綜合效果,對LDA、Word2vec、LDA+Word2vec以及新模型進行聚類比較,如表4所示。

表4 不同聚類方法的實驗結果比較

(1)基于LDA+Word2vec 和LDA+Doc2vec 的聚類效果明顯優于Word2vec,這是由于Word2vec 在映射層直接將句子中詞的詞向量求平均或相加作為句子的向量化表示,丟失了一部分上下文的語義信息。

(2)LDA+Doc2vec的聚類效果優于LDA+Word2vec,因為Doc2vec 向量化時加入了對于段落的向量化表示,在聚類時不僅考慮了語序,還考慮到了不同語境下的詞語含義。

(3)無論是LDA 結合Word2vec 還是Doc2vec,基于這兩者改進后的LDA 模型的聚類效果均明顯優于其中一個。這是由于Doc-LDA 模型中融入了詞向量的信息,使得在模型訓練時既能利用整個語料庫的信息,也能用Para‐graph Vector 的局部語義空間信息完善LDA 的隱性語義信息。

4 結論

本文提出了一種基于LDA 和Doc2vec 的學術摘要文本聚類模型,使得在模型訓練時既能利用LDA 整個語料庫的全局信息,又結合句向量在上下文語義相關性上的優良性,從而比較準確地獲取到摘要文本中的語義信息。該模型根據段落特征從學術中摘要提煉出短文語義信息,并生成文檔和主題之間的關系,以及文檔向量和詞語向量之間的關聯,同時保持了LDA 模型的優勢。經過驗證,基于Doc-LDA 模型的聚類效果優于LDA、Word2vec、LDA+Word2vec主題模型。

猜你喜歡
語義單詞文本
語言與語義
單詞連一連
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
看圖填單詞
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
最難的單詞
主站蜘蛛池模板: 91福利国产成人精品导航| 精品亚洲欧美中文字幕在线看| 亚洲欧美日韩久久精品| 91无码网站| 麻豆精品在线播放| 亚洲视频a| 日本欧美视频在线观看| 色偷偷综合网| 91黄色在线观看| 99久久精品国产精品亚洲 | 日本道综合一本久久久88| 亚洲国产理论片在线播放| 亚洲AV无码精品无码久久蜜桃| 青青操视频在线| 91精品人妻一区二区| 婷婷色在线视频| 亚洲激情99| 超清人妻系列无码专区| 91精品免费久久久| 中文无码精品A∨在线观看不卡| 亚洲精品片911| 久久精品无码一区二区国产区| 欧美一区二区三区香蕉视| 欧美精品高清| 亚洲天堂网在线视频| 国产成人精品2021欧美日韩| 色吊丝av中文字幕| 国产特级毛片| 日韩无码白| 国产成人凹凸视频在线| 国产亚洲精品自在线| 全免费a级毛片免费看不卡| 国产区人妖精品人妖精品视频| 老司机精品一区在线视频| www.精品视频| 亚洲无码久久久久| 国产三级成人| 久久综合色天堂av| 中国特黄美女一级视频| 欧洲极品无码一区二区三区| 久久精品国产国语对白| 色婷婷成人网| 欧美日韩专区| 黄色成年视频| 中文字幕 91| 久久国产亚洲偷自| 国产精品手机在线观看你懂的| 热99精品视频| 免费人成网站在线高清| 国产精品青青| 国产精品久久久久久久久kt| 性欧美在线| www.youjizz.com久久| 免费视频在线2021入口| 中文字幕永久在线观看| 五月婷婷丁香综合| 丁香婷婷久久| 再看日本中文字幕在线观看| 啪啪免费视频一区二区| 国产一二视频| 久热这里只有精品6| 日本www色视频| 欧洲高清无码在线| 精品一區二區久久久久久久網站| 久久久久夜色精品波多野结衣| 亚洲欧美人成电影在线观看| 欧美精品黑人粗大| 欧美黄色网站在线看| 欧美日韩在线亚洲国产人| 国产免费福利网站| 国产成人精品日本亚洲| 熟女视频91| www.91在线播放| 日本精品一在线观看视频| 在线播放真实国产乱子伦| 亚洲欧美日韩动漫| 欧美一级99在线观看国产| 日韩免费无码人妻系列| 青青国产在线| 99视频精品在线观看| 色综合国产| 国产激情第一页|