999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA模型的文本分類與觀點挖掘

2017-03-27 10:54:49李晨曦
電子技術與軟件工程 2017年4期
關鍵詞:機器學習

李晨曦

摘 要 得益于信息技術的飛速發展,信息的傳遞效率不斷提高,網絡信息數量也呈現爆炸性增長趨勢,這些信息大多文本的方式存在并且各種類別混雜在一起。使用人工方式對于分類并提取其中有用的觀點信息效率低下并且浪費大量的人力資源,因此通過自動分析和提取的方式發展觀點挖掘的新方法有著一定的研究意義,LDA主題模型作為無監督機器學習模型的典型應用有著快速、高效的特點而被眾多學者廣泛研究。

【關鍵詞】LDA模型 機器學習 觀點信息

1 引言

第38次《中國互聯網絡發展狀況統計報告》顯示,截至2016年6月,中國網民規模達7.10億,互聯網普及率達到51.7%。互聯網已經成為現代人生活中的必需品,借助互聯網的快速發展,信息的傳遞方式與效率日新月異。觀點挖掘是指通過相關技術分析文本中表達的觀點與情感極性,幫助用戶快速地獲取有用信息。當前國內外學者針對觀點挖掘進行的相關研究工作聚集在以下兩個方面:

(1)文本分類;

(2)觀點抽取。

文本分類的主要任務是判定文本描述事物特征所屬類別,觀點抽取則是提取文本特征下對應的具體觀點信息,其中根據情感的褒貶性又可以分為以下三類,正向表示情感傾向為褒義,負向表示情感傾向為貶義,而中性則表示沒有明顯的褒貶傾向。

當前觀點挖掘領域主要有三種研究方法:基于規則、基于語言學和基于機器學習。基于規則與基于語言學的方法存在著依賴語法規則與領域適用度不高等缺陷,基于機器學習的方法由于具有很強的領域適應性和跨語言性,LDA主題模型作為機器學習模型在觀點挖掘領域有著重要應用。

標準LDA模型由于采用詞袋結構,割裂了詞語的位置以及上下文的語義關系,另外LDA主題模型在進行觀點挖掘研究時通常選擇相同類別的文檔形成一個語料庫來保證觀點挖掘效果,多類別文檔混合時則必須選取其他方式進行文本分類。鑒于以上兩點,本文對標準LDA模型進行改進提出了Document classification LDA模型(DC-LDA,文本自分類LDA模型),將文本分類模塊引入后進行觀點挖掘研究。

2 模型描述

DC-LDA模型圖如圖1所示。

模型中參數列表如表1所示。

如圖1所示,LDA模型是一個三層結構,完成了文檔-主題-單詞的三層映射,通過狄利克雷分布與多項式分布為每個單詞選取一個特定的主題,同樣的本文在文檔層的基礎上添加類別這一概念,將標準LDA模型擴展為四層結構,類別-文檔-主題-單詞,以此來完成文本分類的過程,在對語料庫進行觀點挖掘,同時為了克服詞袋模型的缺陷,本文以句子為單位來采樣主題標簽,認為同一句子下的單詞隸屬于相同主題。

Document classification LDA模型的生成過程描述如下:

(1)對一個語料庫:①由先驗參數λ得到語料庫下領域分布Ω~Dir(λ);②由先驗參數β獲得每個領域下的單詞分布Φf,t~Dir(β)(其中f表示領域,取值1......F,t表示主題,取值1......T);

(2)對語料庫中每一篇文檔d:①為文檔選擇對應領域標簽,gd~Multinomial(Ω);②得出對應領域下文檔的主題分布θfd~Dir(αf);

(3)對每一篇文檔d中的第m個句子:選擇對應領域下的主題zd,m,其中zd,m~ Multinomial(θfd);

(4)對句子m中每個詞n(wd,m,n):選擇具體的單詞,wd,m,n~Multinomial(Φf,t)。

3 實驗

本實驗使用來自sougou實驗室提供的中文語料庫,使用的版本為SougouC .Mini,其包括汽車、財經、IT、健康、體育等10個類別的相關內容,每個類別下包含1990篇文檔。

在進行實驗之前先將語料庫進行去停用詞處理,本文采用中國科學院計算技術研究所提供的漢語詞法分析系統ICTCLAS,其有著速度快、準確率高的特點因此在中文信息處理領域得到了廣泛應用。

本實驗以語料庫中的IT、體育、健康、教育、旅游、軍事這6個區分明顯的類別進行類別采樣分析,每個類別中選取800篇文檔作為訓練語料,再抽取200篇作為測試語料,本文對領域判別精度定義如下:

在DC-LDA模型中為每一篇文檔采樣領域標簽時本文考慮到了高詞頻的單詞對文檔所在領域的貢獻,在采樣公式中取詞頻最高的前n個單詞隨著n取值的變化領域區分的精確度也會變化,對每個n的取值進行十次重復試驗,結果如圖2所示。

語料庫觀點抽樣結果如表3所示。

參考文獻

[1]http://www.cnnic.net.cn/

[2]Pang B,Lee L.Opinion mining and sentiment analysis[J].Foundations and trends in information retrieval,2008,2(1-2):1-135.

[3]Inui T.and Okumura M.A survey of sentiment analysis[J].Journal of natural language processing,2006,13(03):201-241.

[4]Li J.Summary of product reviews opinion mining[J].Modern Computer,2013(05):11-16.

[5]孫艷,周學廣,付偉.基于主題情感混合模型的無監督文本情感分析[J].北京大學學報:自然科學版,2013,49(01):102-108.

[6]http://www.sogou.com/labs/

作者單位

1.湖北省孝感高中 湖北省孝感市 432100

2.湖北省襄陽四中 湖北省襄陽市 441000

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 久久这里只有精品免费| a毛片免费在线观看| 国产成本人片免费a∨短片| 国产成人AV综合久久| 国产精品久久久精品三级| 激情无码视频在线看| 亚洲伦理一区二区| 国产乱子伦手机在线| 久久毛片免费基地| 色天天综合久久久久综合片| 国产97视频在线观看| 亚洲一区二区视频在线观看| 欧美成人第一页| 国产jizz| 国产三级毛片| 国产精品短篇二区| 亚洲无线一二三四区男男| www.日韩三级| 日韩精品专区免费无码aⅴ| 手机在线看片不卡中文字幕| 成人韩免费网站| 国产在线视频二区| 99久久免费精品特色大片| 性视频一区| 欧美性猛交xxxx乱大交极品| 成人噜噜噜视频在线观看| 欧美三级视频在线播放| 激情国产精品一区| 色妺妺在线视频喷水| 欧美一区中文字幕| 女人天堂av免费| 亚洲a级在线观看| 国产无遮挡裸体免费视频| 热九九精品| 欧美天堂在线| 波多野结衣视频网站| 69综合网| 久热中文字幕在线| 国产在线自揄拍揄视频网站| 亚洲h视频在线| 在线看片免费人成视久网下载| 97人妻精品专区久久久久| 中文字幕亚洲精品2页| 亚洲一级毛片在线观| 国产在线视频欧美亚综合| 亚洲欧美国产视频| 中文字幕第4页| 国产中文一区a级毛片视频| 日韩国产黄色网站| 色悠久久久| 国产区免费| 青草精品视频| 亚洲激情99| 潮喷在线无码白浆| 亚洲精品卡2卡3卡4卡5卡区| 国产成人无码综合亚洲日韩不卡| 日韩人妻少妇一区二区| 亚洲成a人片| 亚洲天堂视频在线观看免费| 国产成人综合网在线观看| 亚洲女同欧美在线| 国产精品自在拍首页视频8| 青青青国产视频| 亚洲第一在线播放| 久久精品这里只有国产中文精品| 精品国产黑色丝袜高跟鞋| 中文字幕天无码久久精品视频免费 | 国产白丝av| 2021无码专区人妻系列日韩| 欧美精品一区在线看| 国产精品一线天| 日本人真淫视频一区二区三区| 亚洲第一黄片大全| 高清码无在线看| 97国产精品视频人人做人人爱| 成人在线第一页| 亚洲不卡av中文在线| 亚洲中文在线看视频一区| 日韩欧美亚洲国产成人综合| 试看120秒男女啪啪免费| 欧美97欧美综合色伦图| 欧洲亚洲欧美国产日本高清|