999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA主題模型的短文體自媒體結構化分類方法研究

2019-09-10 07:22:44李賢陽邱桂華陽建中李長彬
荊楚理工學院學報 2019年6期

李賢陽 邱桂華 陽建中 李長彬

摘要:針對傳統文本處理中非作用詞的存在影響主題的可解釋性,以及短文本篇幅短小、特征不明顯等問題,提出了一種基于LDA模型的主題分類的改進算法。該算法通過信息的增益來過濾文本,同時與最優主題的選擇方法相結合,利用算法建立起的分類規則對文本進行分類。實驗結果表明,該方法通過改變作用詞占比、特征詞典的大小,可以有效的提升文本分類的準確性。

關鍵詞:LDA模型;短文本分類;主題模型

中圖分類號:TP391.1 文獻標志碼:A 文章編號:1008-4657(2019)06-0005-04

0 引言

隨著移動互聯網的飛速發展,人們的日常生活被QQ、微博、微信等網絡信息所包圍。這些信息都有同一個特點:他們都以短文本為信息表現形式,具有詞匯少、特征維度高、稀疏等特點[1-2]。因此,對于信息快速分類的需求日益高漲,短文本分類技術在信息檢索、搜索引擎、話題跟蹤等領域越來越受到研究人員的關注[3]。

在主題挖掘的對象變為微博這樣的短文本數據時,傳統的主題模型就變得不那么合適了,其原因主要有以下兩點:1、如果用針對長文本的分類方法計算短文本的詞頻-逆文本頻率(TF-IDF),其上下文關聯性強,易丟失短文本語義信息。2、短文本的特點是篇幅短而特征維度高,特征向量稀疏,使用傳統的LDA模型可能無法取得良好的效果。針對以上短文本的分類研究目前還較為稀少,短文本的分類問題尚未得到解決。

1 潛在狄利克雷分布

潛在狄利克雷分布模型通過引入文本主題分布思想,有效實現了對文本的降維表示,并在文本信息處理領域得到了廣泛的應用[4-6]。LDA的結構,是由三層貝葉斯網絡組成的,分別為詞層、主題層、文檔層。可以這樣認為:許多個主題構成了一篇篇文章,而這些主題又是由許多個特征詞匯組成的[7],其拓撲結構如圖1所示。

根據LDA模型生成的過程可得到,在這些模型參數里,單詞概率分布φ和主題概率分布θ需要重點關注。

與生成過程相比,LDA參數估計意味著在固定文本數據集的情況下,預測未知的參數模型。面對這種情況,當下常用的參數估計方法是Gibbs抽樣[8],首先對主題進行采樣,然后根據每個特征詞的頻率進行采樣最后,計算了相關參數的估計結果。Gibbs抽樣下LDA模型參數φ和θ的計算公式,具體如下:

其中,θl,m指在文檔l中第m個主題的分布概率;φm,n指詞項n在主題m中的分布概率;nml表示在文檔l中出現主題m的頻數;nnm表示在主題m下詞項n出現的頻數;αm對應于主題m下的狄利克雷先驗;βn對應于詞項n下的狄利克雷先驗。

將LDA模型與參數估計思想相結合,使得LDA模型獲得了在無監督條件下將文檔中主題與特征詞提取出來的能力。因此,當預測重大事件的趨勢時,它可以替代專家知識,利用海量的新聞數據作為驅動力,來構建語義特征的指標。

2 基于LDA主題模型的改進算法

本節所討論的內容針對微博微信中存在的短文本信息。綜合詞類特征和語義特征的短文本分類算法的處理流程如下:首先,采用信息增益濾波方法從短文本中選出最具代表性的詞,稱為特征詞,使用LAD主題模型,可以根據這些眾多的特征詞構建對應的主題分布,選取其中一個最合適的文本主題,接下來把項目特征加入到特征字典中,得到一個新的短文本特征。在經過上述步驟之后,建立起新的分類規則對文本進行分類,算法框架如圖3所示。

2.1 基于信息增益過濾的文本分類方法

利用LDA模型,來對文本進行建模,可以分析出文本的各個主題。例如通過搜索引擎進行建模,可以獲取關鍵字“大數據”下的許多內容,有“模型、網絡、算法、樣本、一種、他們”等??梢允诛@然的明白,“算法”這樣的詞匯比“一種”包含更多的信息量,而“他們”屬于“非作用詞”,對于分類毫無實際作用。

本文用信息增益來表示文本詞匯有作用的程度,使用信息的增益來對文本信息進行過濾,能夠有效提升文本分類的效率。利用信息的增益來衡量文本中的詞匯對于文本的分類有無作用,并根據該作用的程度進行排序,保存那些對于分類作用大的詞匯,過濾那些對分類無作用的詞匯。由于主題是否對文本分類有作用是通過詞匯來表現的,如果在對于分類有作用的主題中出現非作用詞,將會降低文本分類的有效性和主題的可解釋性;如果在對于分類無作用的主題中出現非作用詞,就更加應該去除。綜上所述,基于信息增益和LDA模型的短文本分類可以提高短文本分類的性能。

利用LDA模型對文本進行建模,可以得到文本在主題上的分布。設主題數為k,則:

2.2 最優主題的選擇方法

在本文研究的文本分類方法當中,主題是否對文本分類有作用是通過詞匯來表現的。然而,在許多短文本中,詞匯內容多樣而分散,對主題尋找形成了不小的挑戰。對此,文章借助百度詞庫,以大量相似主題的長文本為參照,通過LDA模型進行訓練,以期能夠提升短文本在該算法中運用的分類性能。本節主要是對算法中如何選擇最優主題進行了研究,最優的主題意味著該主題擁有最強的文本區分能力。因此,對主題進行加權,權重值的大小表示每個主題區分不同類別的能力。話題權重值越大,話題區分不同類別的能力越強。

具體算法步驟如下:

1、利用LDA主題模型對背景知識進行建模,獲得其相應的隱含的主題分布d=t1,t2,…,tk;

2、設主題權重向量W=ωt1,ωt2,…,ωtk,初始化ωti=0;

3、對每一個長文本找出n個同類文本和n個不同類文本;

4、計算k個不同的主題分布權重值ωti;

5、選取權重值ωti最大的主題作為最優主題。

最后,基于信息增益的分類算法和最優主題算法,可以得到一個基于短文本的特征函數Fd=ωd,α·k,其中,α為文本中作用詞占文本詞匯的比例,ωd為特征詞典的權重向量。

3 實驗分析

為了充分驗證本文所研究的基于LDA模型改進的文本分類方法,實驗從百度詞庫中對數據進行爬蟲獲取,包含了政治、經濟、社會、教育、體育、IT、醫療等七個大類。在七個大類中隨機選取7 000個文本,在分類時平均分成7個組,進行交叉測試,設LDA主題數量為70,訓練樣本數與測試樣本數按7∶3劃分,訓練迭代次數為2 000,測試迭代次數為4 000。

4 總結

鑒于傳統文本處理中,非作用詞的存在影響主題的可解釋性,以及短文本篇幅短小、特征不明顯等問題,提出了一種基于LDA主題模型的文本分類改進算法。首先采用信息增益過濾的文本分類方法,對非作用詞進行有效過濾,同時與最優主題的選擇方法相結合,建立起新的分類器對文本進行分類。通過實驗改變作用詞占比、特征詞典的大小,可以有效的提升文本分類的準確性,驗證了該種算法的有效性。

參考文獻:

[1] 錢勝勝,張天柱,徐常勝.多媒體社會事件分析的研究與展望[J].南京信息工程大學學報(自然科學版),2017,9(6):599-612.

[2] 曾子明,楊倩雯.基于LDA和AdaBoost多特征組合的微博情感分析[J].數據分析與知識發現,2018,2(8):51-59.

[3] 張志飛,苗奪謙,高燦.基于LDA主題模型的短文本分類方法[J].計算機應用,2013,33(6):1 587-1 590.

[4] Zhou T,LYU R T,King I.Learning to Suggest Questions in Social Media[J].Knowledge & Information Systems,2015,43(2):389-416.

[5] Blei D,Ng A,Jordan M.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003(3):993-1 022.

[6] 邱先標,陳笑蓉.一種基于SA-LDA模型的文本相似度計算方法[J].計算機科學,2018,45(S1):106-109,139.

[7] 韓忠明,張夢玫,李夢琪,等.面向復雜主題建模的流式層次狄里克雷過程[J].計算機學報,2019,42(7):1 539-1 552.

[8] 張小平,周雪忠,黃厚寬,等.一種改進的LDA主題模型[J].北京交通大學學報,2010,34(2):111-114.

[責任編輯:許立群]

主站蜘蛛池模板: 国产人成在线观看| 亚洲天堂网视频| 日韩欧美国产综合| 四虎成人精品在永久免费| 91精品福利自产拍在线观看| 欧美视频在线第一页| 免费一级α片在线观看| 中文字幕在线永久在线视频2020| www.精品国产| 久久国产黑丝袜视频| 女人毛片a级大学毛片免费 | 狠狠干欧美| 国产精品欧美日本韩免费一区二区三区不卡| 人妻丰满熟妇αv无码| 亚洲视频免| 97超级碰碰碰碰精品| 亚洲AV无码久久精品色欲| AⅤ色综合久久天堂AV色综合| 亚洲性色永久网址| 免费一极毛片| 欧美激情一区二区三区成人| 网久久综合| 日韩美毛片| 波多野结衣一二三| 91免费观看视频| 精品国产一二三区| 67194在线午夜亚洲| 制服丝袜在线视频香蕉| 1024你懂的国产精品| 在线国产三级| 黄片一区二区三区| 国产大片喷水在线在线视频| 91精品免费久久久| 成人在线综合| 亚洲日韩每日更新| 亚洲综合极品香蕉久久网| 成人福利一区二区视频在线| 亚洲精品国产综合99| 欧美午夜在线视频| 国产精品开放后亚洲| 国产高清精品在线91| 日韩精品成人在线| 狠狠色丁香婷婷综合| 国产高清在线观看91精品| 久久a毛片| 日韩无码黄色网站| 一本一道波多野结衣一区二区| 国产人成在线视频| 99无码熟妇丰满人妻啪啪| 国产成人亚洲精品蜜芽影院| 亚洲午夜久久久精品电影院| 波多野结衣久久高清免费| 国产精品成人一区二区| 毛片免费高清免费| 男女猛烈无遮挡午夜视频| 五月天天天色| 暴力调教一区二区三区| 毛片在线播放网址| 久久精品嫩草研究院| 亚洲福利视频一区二区| 亚洲视频三级| 亚洲成人高清无码| 无码区日韩专区免费系列| 国产精品无码制服丝袜| 毛片一区二区在线看| 婷婷色一二三区波多野衣 | 91福利片| 99国产在线视频| 中文精品久久久久国产网址| 婷婷色婷婷| 亚洲成a人片| 欧美日韩精品一区二区视频| 亚洲日韩AV无码一区二区三区人| 亚洲品质国产精品无码| 国产精品爆乳99久久| 国产91无毒不卡在线观看| 精品一区二区无码av| 欧美亚洲欧美| 国产免费黄| 无码中文字幕精品推荐| 亚洲va视频| 国产va在线观看|