999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA模型的文本相似度研究

2016-02-24 10:41:12王海暉
計算機技術與發展 2016年4期
關鍵詞:語義文本實驗

陳 攀,楊 浩,呂 品,2,王海暉,2

(1.武漢工程大學 計算機科學與工程學院,湖北 武漢 430073;2.武漢工程大學 智能機器人湖北省重點實驗室,湖北 武漢 430073)

基于LDA模型的文本相似度研究

陳 攀1,楊 浩1,呂 品1,2,王海暉1,2

(1.武漢工程大學 計算機科學與工程學院,湖北 武漢 430073;2.武漢工程大學 智能機器人湖北省重點實驗室,湖北 武漢 430073)

LDA主題模型是近年來提出的一種具有文本表示能力的非監督學習模型。考慮到傳統主題模型在處理大規模文本時存在的局限性,文中提出一種基于LDA模型的文本相似度計算方法。利用LDA為語料庫建模,通過Gibbs抽樣間接估算模型參數,將文本表示為固定隱含主題集上的概率分布,以此計算文本之間的相似度。最后將K-means算法作為文本相似度的評估指標。實驗結果表明,與LSI模型相比,該方法能有效地提高文本相似度計算的準確性和文本聚類效果。

文本挖掘;LDA模型;Gibbs抽樣;文本相似度

0 引 言

近年來,互聯網作為一個開放的信息平臺得到快速發展,網絡上文本信息量也以指數級的方式飛速增長。在大數據時代,信息中包含很多數據,這些數據大部分以文本的形式存在。面對如此多的文本信息,如何高效地進行文本挖掘是目前研究的重點問題,這使得文本挖掘成為大數據時代信息處理領域的熱點。

常用的文本挖掘方法是潛在語義索引LSI(Latent Semantic Indexing)模型[1]。利用LSI模型對文本進行挖掘時,由于考慮了詞間的語義關系,具有很好的降維效果,但對重要稀有類別的分類特征,LSI模型可能過濾了它們,從而造成分類性能不佳。LDA(Latent Dirichlet Allocation)模型[2]改進了LSI模型在文本挖掘中的不足,有效解決了文本挖掘中的特征稀疏和分類性能受損問題。文中基于LDA模型進行文本相似度計算,采用傳統的聚類算法對實驗結果進行評估,并獲得了較好的效果。

1 相關工作

在文本挖掘領域,國內外研究人員都進行了大量的工作。Salton等提出向量空間模型(Vector Space Model,VSM)[3]是常用算法。Hastie等提出KNN(K-Nearest Neighbor)[4]方法來計算文本相似度。Blei等[2]提出LDA主題模型。該模型以文本特征為對象,將文本語料表示為各個主題空間,通過找到文本中不同隱含主題與詞間的關系,得到文本主題概率分布。

目前,國內研究人員主要對LDA算法進行改進。劉振鹿等[5]基于LDA模型研究潛在語義分析,將語義劃分為三個不同頻段的語義區。通過語義互作用機制和文本類別對聚類結果進行修正,得到了較好效果。李文波等[6]在傳統主題模型中融入文本類別信息,提出了一種附加類別的LDA模型方法來提高LDA模型的分類性能。石晶等[7]基于LDA模型進行文本建模,結合特征詞相關擴充和背景特征詞聚類,把特征詞應用到待分析的文本中,找到特征詞下的文本語義,提高文本分析的性能。

2 LDA模型

LDA模型是由Beli提出的針對離散數據集[8]建模的主題生成模型,它是一個三層貝葉斯網絡結構,分為文檔層、主題層和詞層。其有向概率圖[9]如圖1所示。

圖1 LDA有向概率圖

圖1中,參數α反映出文本集中不同隱含主題間的相對強弱關系,參數β則代表主題自身的概率分布。Z表示隱含主題,W表示詞表的每個詞,即觀察值。θ代表文本-主題概率分布,φk代表主題-詞概率分布。對于給定的文本集D,包含M個文檔,T個主題,而每個文檔d中又包含N個詞。

2.1 相關符號含義

LDA模型中的對應符號[10]解釋如下:

(3)文檔集由文檔組成,每個文檔集中包含若干文檔,用D={d1,d2,…,dm}表示,其中dm表示第幾篇文檔。

假設主題數為K,則文檔d中的第i個詞wi的概率為:

(1)

式中:zi是隱含主題變量,表示第i個詞wi屬于zi主題;P(wi|zi=j)表示詞wi對主題j的貢獻概率;P(zi=j)表示文檔d對主題j的貢獻概率。

詞w在文本d中“出現”的概率可表示為:

(2)

通過EM算法[11]可求出最大似然函數:

(3)

其中,α、β為最大似然估計量,通過估算α和β的參數值從而確定LDA模型。則文本d“發生”的條件概率分布可用式(4)表示[12]:

(4)

2.2 參數估計

在MCMC[13]中Gibbs抽樣[14]是間接計算LDA模型參數的常用有效方法。具體步驟如下:

(1)將主題zi的值隨機設定為1到T內某個整數,i是語料庫所有文本中特征詞的個數,它與詞表規模和所在位置有關。

(2)迭代足夠多次,直到Markov鏈[15-16]接近目標分布,此時的主題zi可按如下公式估算φ和θ的值:

(5)

(6)

(7)

2.3 相似度計算

文本相似度計算的核心是通過計算文本間的主題概率分布來實現。當用LDA模型找到了文本的隱含主題后,文本的相似度可通過計算對應的隱含主題概率分布的相似度來表示。通常用KL距離[18]公式作為相似度度量的標準,公式如下:

(8)

(9)

當λ=0.5時,KL距離公式可轉化為JS距離公式[20]:

(10)

3 實驗設計和結果分析

文本相似度計算的步驟如圖2所示。

圖2 文本相似度計算

(1)對文本進行預處理,包括去除分詞、停用詞、符號等操作。

(2)將文本向量化,構成文本—詞矩陣。

(3)利用向量化矩陣進行LDA建模,得到文本的主題概率分布。

(4)通過JS距離公式計算文本間的相似度,得到相似度矩陣。采用K-means算法對文本進行聚類,用聚類結果對文本相似度計算的準確性進行評估。

主題建模過程中,假定主題數K為2,α和β為經驗值[21],分別為50/K、0.1。為確保實驗結果的準確性,Gibbs抽樣迭代次數需達到1 000次以上。改變主題數K值,根據聚類結果來評價最優主題數。

3.1 語料選擇

實驗預料數據來自復旦大學的一個英文語料庫,共6個類別,2 246篇文本。其中訓練語料50篇,測試語料2 196篇,分別為Science類、Art類、Business類、Movie類、Sport類和Travel類。

3.2 評估方法

(11)

式中:nj表示判斷屬于類別j的文本數目;ni表示實際屬于類別i的文本數目;nij表示判斷屬于j同時實際也屬于i的文本數目。

F度量值可定義[11]為:

(12)

則文本集聚類的F度量值定義為:

(13)

3.3 實驗結果分析

當主題數K值為2時,α、β分別為50/K、0.1,測試文本為50。此時迭代結果如圖3所示。

圖3 實驗結果

改變主題數K的值,依次取值為2、5、10、30、50、70、90。通過不同主題數進行多次聚類實驗,確定最優主題數K。

從圖4中可以看出,當主題數K為50時,F度量

圖4 不同主題數的聚類效果

值最高,可以確定最優主題數為50。同時,LDA模型的聚類效果F度量值相比LSI模型更具有優勢。

此外,主題數取值不同,實驗的迭代時間會隨主題數的增加而線性增長,如圖5所示。

圖5 不同主題數下實驗運行的時間

實驗過程中,發現改變主題數K的值,相應的α值也會改變。K值和α成反比關系,顯然K值越小,α值就越大,表明每個文檔含更少的主題。β一般為經驗值,它表示每個主題分布在若干個詞上。另外,訓練語料的數目S會影響迭代次數Ite,二者成正比關系,但訓練語料數目不會影響迭代時間Ite-time。

實驗結果如表1所示。

表1 主題數、訓練語料數對實驗的影響

4 LDA應用于文本挖掘的研究展望

目前,基于LDA模型的主題句抽取方法應用廣泛并取得了較好效果。下一步將重點研究如何選擇大量未標注的可靠主題句來擴充訓練LDA模型,以及如何使用關鍵詞準確地抽取主題句以及候選主題句。通過兩者相互促進,提高整體的抽取性能。

基于LDA模型的文本聚類比傳統聚類效果更加優越,但這種方法只針對普通文檔集。對于數字圖書的特殊語料,則需要聯合數字圖書的信息目錄和正文信息進行主題建模的方式進行聚類研究。

基于LDA模型的文本分割在預處理領域極為重要。實驗研究過程中,除了需要直接測試,更需要間接測試,即將文本置于應用系統中考查,工作重點是進行更有效的測試。

5 結束語

文中介紹了LDA主題模型,該模型有效解決了LSI模型在文本挖掘中的特征稀疏和分類性能受損問題。實驗結果表明,LDA模型應用于文本相似度計算,相對于LSI模型更具有優越性,效率也更高。同時文中簡要列舉了LDA模型在文本挖掘中的不同應用,并總結了LDA模型在文本挖掘中面臨的一些挑戰和待解決的問題。LDA模型應用于文本相似度計算,考慮到LDA模型具有易擴展性,下一步工作將在LDA模型的基礎上,繼續研究、改進文本建模方法及基于其上的文本挖掘。

[1] Deerwester S,Dumais S T A.Indexing by latent semantic analysis[J].Journal of the Society for Information Science,1990,41(6):391-407.

[2] Blei D,Ng A,Jordan M.Latent Dirichlet allocation[J].Journal of Machine Leaning Research,2003,3:993-1022.

[3] Salton G,Wong A,Yang C S.A vector space model for automatic indexing[J].Communications of the ACM,1975,18(11):613-620.

[4] Hastie T,Tibshirani R.Discriminant adaptive nearest neighbor classification[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1996,18(6):607-616.

[5] 劉振鹿,王大玲,馮 時,等.一種基于LDA的潛在語義區劃分及Web文檔聚類算法[J].中文信息學報,2011,25(1):60-65.

[6] 李文波,孫 樂,張大鯤.基于Labeled-LDA模型的文本分類新算法[J].計算機學報,2008,31(4):620-627.

[7] 石 晶,胡 明,石 鑫,等.基于LDA模型的文本分割[J].計算機學報,2008,31(10):1865-1873.

[8] 徐 戈,王厚峰.自然語言處理中主題模型的發展[J].計算機學報,2011,34(8):1423-1436.

[9] 王李冬,魏寶剛,袁 杰.基于概率主題模型的文檔聚類[J].電子學報,2012,40(11):2346-2350.

[10] 姚全珠,宋志理,彭 程.基于LDA模型的文本分類研究[J].計算機工程與應用,2011,47(13):150-153.

[11] Andrzejewski D,Buttler D.Latent topic feedback for information retrieval[C]//Proceedings of 17th ACM SIGKDD international conference on knowledge discovery and data mining.New York:ACM Press,2011:600-608.

[12] Friedman N,Geiger D,Goldszmidt M.Bayesian network classifiers[J].Machine Learning,1997,29(2-3):131-163.

[13] Doucet,Godsill S,Andrieu C.On sequential Monte Carlo sampling methods for Bayesian filtering[J].Statistics and Computing,2000,10(3):197-208.

[14] 馬海云.基于Gibbs抽樣的測試用例生成技術研究[J].自動化與儀器儀表,2011(3):11-12.

[15] Griffiths T L,Steyvers M.Finding scientific topics[J].PNAS,2004,101(1):5288-5235.

[16] Chang Chih-Chung,Lin Chih-Jen.LIBSVM:a library for support vector machines[EB/OL].2011.http://www.csie.ntu.edu.tw/~cjlin/libsvm.

[17] 楊 瀟,馬 軍,楊同峰,等.主題模型LDA的多文檔自動文摘[J].智能系統學報,2010,5(2):169-176.

[18] Duda R O,Hart P E,Stork D G.Pattern classification[M].李宏東,姚天翔,譯.2nd ed.北京:機械工業出版社,2003:508-576.

[19] 張明慧,王紅玲,周國棟.基于LDA主題特征的自動文摘方法[J].計算機應用與軟件,2011,28(10):20-22.

[20] Lin J.Divergence measures based on Shannon entropy[J].IEEE Transactions on Information Theory,1991,37(1):145-151.

[21] Ruthven I,Lalmas M.A survey on the use of relevance feedback for information access systems[J].Knowledge Engineering Review,2003,18(2):95-145.

[22] 王 燕.一種改進的k-means聚類算法[J].計算機應用與軟件,2004,21(10):122-123.

[23] 王振振,何 明,杜永萍.基于LDA主題模型的文本相似度計算[J].計算機科學,2013,40(12):229-232.

[24] 周昭濤.文本聚類分析效果評價及文本表示研究[D].北京:中國科學院研究生院,2005.

[25] 姜 園,張朝陽,仇佩亮,等.用于數據挖掘的聚類算法[J].電子與信息學報,2005,27(4):655-662.

Study on Text Similarity Based on LDA Model

CHEN Pan1,YANG Hao1,Lü Pin1,2,WANG Hai-hui1,2

(1.School of Computer Science and Engineering,Wuhan Institute of Technology,Wuhan 430073,China; 2.Hubei Province Key Laboratory of Intelligent Robot,Wuhan Institute of Technology,Wuhan 430073,China)

LDA topic model is an unsupervised model which exhibits superiority on latent topic modeling of text data in the research of recent years.Considering the disadvantage of the traditional topic model when dealing with the large-scale text corpuses,a method which improves text similarity computations by using LDA model is proposed.It models corpus with LDA,parameters are estimated with Gibbs sampling.Each document is represented for the probability distribution of fixed implied theme set and computed the similarity between the texts.Finally,theK-meansalgorithmisselectedastheevaluationindexoftextsimilarity.ExperimentalresultsshowthismethodcanimprovetheaccuracyoftextsimilarityandclusteringqualityoftexteffectivelycomparedwithLSImodel.

text mining;LDA model;Gibbs sampling;text similarity

2015-07-16

2015-10-21

時間:2016-03-22

湖北省高等學校優秀中青年團隊計劃項目(T201206);湖北省智能機器人重點實驗室開放基金(HBIR201409)

陳 攀(1993-),男,研究方向為文本挖掘與自然語言處理;呂 品,博士,副教授,研究方向為數據挖掘、情感分析;王海暉,博士,教授,碩士生導師,研究方向為智能系統與機器視覺。

http://www.cnki.net/kcms/detail/61.1450.TP.20160322.1521.080.html

TP

A

1673-629X(2016)04-0082-04

10.3969/j.issn.1673-629X.2016.04.18

猜你喜歡
語義文本實驗
記一次有趣的實驗
語言與語義
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 91精品免费久久久| 国内精品免费| 青草娱乐极品免费视频| 国产十八禁在线观看免费| 成人亚洲国产| 天堂在线视频精品| 精品国产中文一级毛片在线看 | 谁有在线观看日韩亚洲最新视频| 亚洲中字无码AV电影在线观看| 欧美日韩在线国产| 18禁高潮出水呻吟娇喘蜜芽| 精品国产黑色丝袜高跟鞋| 亚洲天堂色色人体| 18禁黄无遮挡网站| julia中文字幕久久亚洲| 91欧美在线| 久久不卡精品| 91精品aⅴ无码中文字字幕蜜桃| 国产精品原创不卡在线| 精品国产一二三区| 五月婷婷综合色| 亚洲AV电影不卡在线观看| 欧美国产精品不卡在线观看| 亚洲va欧美ⅴa国产va影院| 91视频国产高清| 亚洲 欧美 日韩综合一区| 精品伊人久久大香线蕉网站| 国产免费久久精品99re不卡| 亚洲青涩在线| 欧美97欧美综合色伦图| 欧美成在线视频| 最新国产午夜精品视频成人| 亚洲av无码专区久久蜜芽| 18禁色诱爆乳网站| 国产精品亚洲综合久久小说| 免费无码AV片在线观看国产| 亚洲第一色视频| 在线看片中文字幕| 秋霞国产在线| 国产福利免费在线观看| 国产精品天干天干在线观看| 一本综合久久| 精品免费在线视频| 免费va国产在线观看| 久久公开视频| 蝌蚪国产精品视频第一页| 国产打屁股免费区网站| 在线国产你懂的| 亚洲欧洲美色一区二区三区| 国产一级二级三级毛片| 国产精品视频白浆免费视频| 国产高清国内精品福利| 香蕉久人久人青草青草| 国产91av在线| 久久久久人妻一区精品| 亚洲午夜福利精品无码不卡| 午夜视频免费一区二区在线看| 一本大道香蕉高清久久| 最新国产成人剧情在线播放 | 免费人成网站在线高清| 伊在人亚洲香蕉精品播放 | 亚洲天堂自拍| 亚洲欧美不卡中文字幕| 国产成人综合亚洲网址| 亚洲国产综合自在线另类| 99爱视频精品免视看| 久久亚洲黄色视频| 91福利免费视频| 福利在线免费视频| 国产欧美成人不卡视频| 制服丝袜一区| 欧洲高清无码在线| 色婷婷电影网| 丁香婷婷激情网| 四虎永久免费地址| 国产成人8x视频一区二区| 国产精品人莉莉成在线播放| 欧美一区日韩一区中文字幕页| 亚洲精品欧美日韩在线| 国产又黄又硬又粗| 国产JIZzJIzz视频全部免费| 午夜a视频|