999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進(jìn)LDA模型的離群評(píng)論選擇

2018-02-01 05:04:24董振濤
軟件導(dǎo)刊 2018年1期

董振濤

摘要:評(píng)論文本中的詞符合冪律分布,使LDA模型詞的分布偏向高頻詞,導(dǎo)致主題相似度大,表達(dá)能力下降。提出冪函數(shù)加權(quán)LDA(Latent Dirichlet Allocation)模型以提高低頻詞的表達(dá)能力。使用iForest算法,選擇出與眾不同且具有價(jià)值的評(píng)論集合。實(shí)驗(yàn)結(jié)果表明,選擇的評(píng)論子集特征覆蓋率較高,且有較高的平均信息量。

關(guān)鍵詞:LDA;iForest;特征覆蓋率;平均信息量

DOIDOI:10.11907/rjdk.172218

中圖分類號(hào):TP301

文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2018)001003803

Abstract:The words in review text conform to the power law distribution, which makes the distribution of LDA model tends to highfrequency words. Topics similarity is large and expression ability drops. Therefore, a power law function weighted LDA (Latent Dirichlet Allocation) model is proposed to improve the expressive power of lowfrequency words. Finally, iForest algorithm is used to select a different and valuable set of comments. Experimental results show that the feature coverage of selected comment subsets is higher and it has higher average information.

Key Words:LDA; iForest; feature; coverage; average information

0引言

網(wǎng)絡(luò)購物已成為人們生活不可或缺的一部分。用戶在購買商品前,往往喜歡瀏覽商品評(píng)論,從而了解商品的具體信息。但隨著評(píng)論數(shù)量的急劇增長,用戶瀏覽并分析這些信息變得不現(xiàn)實(shí)[1],大量的評(píng)論造成信息過載[2]。因此,從大量的評(píng)論中選出一組具有代表性的評(píng)論子集展示給用戶變得愈加重要,評(píng)論選擇也成為學(xué)者的研究熱點(diǎn)。Tsaparas等[3]把評(píng)論選擇轉(zhuǎn)化為一個(gè)最大特征覆蓋率問題,使用改進(jìn)的貪心算法[4]選擇評(píng)論子集,但容易選擇出內(nèi)容過長的評(píng)論。Ganesan等[5]提出基于ngram模型獲取評(píng)論總結(jié),從大量的評(píng)論中總結(jié)出具有代表性和可讀性的短語,此種方式結(jié)果過于簡潔,反映的信息較片面。有學(xué)者提出根據(jù)商品的特征評(píng)分和獲得支持的得分對(duì)評(píng)論進(jìn)行質(zhì)量排名,取TopN個(gè)評(píng)論作為評(píng)論子集,確保其質(zhì)量優(yōu)良[6],但也不能完全排除選中長評(píng)論的可能。上述方法易受高頻詞的影響,忽視低頻且重要的詞,因此本文提出冪函數(shù)加權(quán)LDA模型的評(píng)論選擇方法,提高低頻詞的表達(dá)能力,從而找出一組較特殊的且信息量較高的評(píng)論推送給用戶。

1問題定義

本文提出的冪函數(shù)加權(quán)LDA模型,將評(píng)論文本轉(zhuǎn)化為空間向量,使用高效的IForest算法找出特殊的、有意義的、與眾不同的評(píng)論子集。

定義R為評(píng)論集,R={r1,r2,…,rn},n為評(píng)論個(gè)數(shù),這些評(píng)論涵蓋了用戶關(guān)注的全部商品特征A={a1,a2,…,am},m為給定的特征詞個(gè)數(shù)。評(píng)論選擇的任務(wù)就是從R個(gè)評(píng)論中選擇K個(gè)評(píng)論作為子集,S={r1,r2,…,rk},SR且kn。

圖2中,AAI表示全部評(píng)論特征詞的平均信息量。SAAI表示評(píng)論子集中特征詞的平均信息量。引入冪函數(shù)特征詞加權(quán)后,評(píng)論子集特征詞的平均信息量高于SAAI,說明評(píng)論子集包含更多的低頻特征詞。在相同的

主題數(shù)下,隨著σ增大,平均信息量不一定增加。未引入加權(quán)函數(shù)和擴(kuò)充系數(shù)時(shí),評(píng)論子集的平均信息量與主題個(gè)數(shù)無關(guān)。引入加權(quán)函數(shù)和擴(kuò)充系數(shù)后,每個(gè)擴(kuò)充系數(shù)都對(duì)應(yīng)一個(gè)較優(yōu)的主題數(shù),使評(píng)論子集平均信息量最大。

4結(jié)語

傳統(tǒng)LDA模型難以兼顧有意義且重要的低頻特征詞,因此提出一種冪函數(shù)加權(quán)LDA模型用于評(píng)論選擇。引入特征加權(quán)函數(shù)和擴(kuò)充系數(shù),調(diào)整詞頻權(quán)重,兼顧了低頻特征詞,不僅提高了評(píng)論子集的平均信息量,而且提高了特征覆蓋率。

參考文獻(xiàn):

[1]LAPPAS T, CROVELLA M, TERZI E. Selecting a characteristic set of reviews[C].ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM,2012:832840.

[2]NGUYEN T S, LAUW H W, TSAPARAS P. Review selection using microreviews[J]. Knowledge & Data Engineering IEEE Transactions on,2015,27(4):10981111.

[3]TSAPARAS P, NTOULAS A, TERZI E. Selecting a comprehensive set of reviews[C]. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Diego, Ca, Usa, August. DBLP,2011:168176.

[4]LU Y, ZHAI C X, SUNDARESAN N. Rated aspect summarization of short comments[C]. Rated Aspect Summarization of Short Comments Yue,2009:131140.

[5]GANESAN K, ZHAI C X, VIEGAS E. Micropinion generation:an unsupervised approach to generating ultraconcise summaries of opinions[EB/OL]. http://academic.research.microsoft.com/ 2012:869878.

[6]余文喆,沙朝鋒,何曉豐,等.考慮觀點(diǎn)多樣性的評(píng)論選擇問題[J].計(jì)算機(jī)研究與發(fā)展,2015,52(5):10501060.

[7]張志飛,苗奪謙,高燦.基于LDA主題模型的短文本分類方法[J].計(jì)算機(jī)應(yīng)用,2013,33(6):15871590.

[8]張小平,周雪忠,黃厚寬,等.一種改進(jìn)的LDA主題模型[J].北京交通大學(xué)學(xué)報(bào),2010,34(2):111114.

[9]LIU F T, KAI M T, ZHOU Z H. Isolationbased anomaly detection[J]. Acm Transactions on Knowledge Discovery from Data,2012,6(1):139.

[10]LIU F T, KAI M T, ZHOU Z H. Isolation forest[C]. Eighth IEEE International Conference on Data Mining. IEEE,2008:413422.

(責(zé)任編輯:杜能鋼)

主站蜘蛛池模板: 97se亚洲综合不卡| 亚洲第一香蕉视频| 99视频只有精品| 亚洲综合香蕉| 国产一区二区三区夜色| 亚洲成人高清在线观看| 天天综合网色中文字幕| 欧美午夜性视频| 国产无码网站在线观看| 久久九九热视频| 亚洲综合九九| 亚洲无限乱码| 日韩高清在线观看不卡一区二区| 欧美三级视频在线播放| 国产精品xxx| 激情乱人伦| 成人毛片免费在线观看| 亚洲AV人人澡人人双人| 婷婷色婷婷| 超碰精品无码一区二区| 91热爆在线| jizz国产在线| 国产毛片网站| 熟妇无码人妻| 视频一区亚洲| av尤物免费在线观看| 91在线激情在线观看| 91黄色在线观看| 国产成人综合日韩精品无码首页| 亚洲国产一区在线观看| 日本精品中文字幕在线不卡| 欧美亚洲欧美区| 亚洲AV电影不卡在线观看| v天堂中文在线| 国产精品理论片| 丁香婷婷久久| 伊人婷婷色香五月综合缴缴情| 久久亚洲国产视频| 国产成人精品一区二区三区| 男女男免费视频网站国产| 国产97视频在线| 天天色天天综合网| 精品欧美日韩国产日漫一区不卡| 亚洲不卡网| 72种姿势欧美久久久久大黄蕉| 欧美不卡视频在线| 92精品国产自产在线观看 | 亚洲二三区| 国产自在自线午夜精品视频| 国产精品综合色区在线观看| 在线精品自拍| 人妻精品久久久无码区色视| 99中文字幕亚洲一区二区| 九九九精品视频| 日韩欧美网址| 成人字幕网视频在线观看| 国产爽爽视频| 国产99在线| 亚洲欧美自拍视频| 亚洲一区二区在线无码| 成人国产精品视频频| 国产精品3p视频| 亚洲成a∧人片在线观看无码| 国产午夜福利片在线观看| 日韩麻豆小视频| 国产精品成人久久| 亚洲国产精品不卡在线| 一区二区自拍| 国产精品久久久久久久久| 福利在线一区| 手机精品视频在线观看免费| 四虎永久在线| 成人伊人色一区二区三区| 久久国产精品国产自线拍| 国产精品女主播| Jizz国产色系免费| 免费中文字幕在在线不卡| 精品国产欧美精品v| 久久天天躁狠狠躁夜夜2020一| 91丝袜乱伦| 97在线免费视频| A级毛片高清免费视频就|