999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多特征模型融合的社交評論分析

2019-05-24 14:20:22郭瑞祥左彬靖杜成喜肖明王杰
無線互聯科技 2019年1期
關鍵詞:機器學習特征提取

郭瑞祥 左彬靖 杜成喜 肖明 王杰

摘 要:隨著社交網絡的日益龐大,各類評論信息產生的渠道和數量也飛速增長,通過人工閱讀所有評論來了解口碑情況變得日益困難,所以構建一個精準的口碑評論分值預測模型對商家和用戶來說都顯得日益重要。文章旨在對真實口碑評論數據進行分析挖掘和多維度特征提取,并構建一個基于多特征的加權融合模型對口碑評論的評分值進行預測。通過實驗證明,在當前數據基礎上,該模型可以有效地對口碑評論進行預測,相比傳統方法,效果更好。

關鍵詞:口碑評論;特征提取;機器學習

隨著移動互聯網時代的到來,個人在社交媒體貢獻著大量的內容,發表評論已經成為個人表達個人情緒、消費評價、對事物的看法的一種主要方式,對商家發聲反饋的渠道越來越多,但是發聲的便利性跟渠道的多樣性也帶來了一些問題,商家完整全面聆聽客戶反饋的難度也增大了。“口碑評論”是反映一個商家或景點受歡迎程度的很直接的參考意見,此類評價分散在各個媒體渠道中,想要了解商家的大眾口碑、服務質量,需要逐條地去閱讀各類評價,因數據量巨大很難準確評估商家在大眾心里的印象和口碑。

為了解決上述問題,本文提出一種基于多特征的加權融合模型,針對DataFountain平臺提供的互聯網上用戶對景區評價以及口碑分值的數據集,進行統計特征,N-gram,TF-IDF,Word2Vec多維的特征提取,分別訓練Lightgbm,TextCNN,RidgeRegression模型,進行模型融合。本文選用1/1+RMSE作為評價標準,在該評價標準下,通過實驗比較各算法模型的效果,結果表明,本文提出的方案取得了很好的預測效果。

1 數據描述

本文的數據基于旅游評論數據,大多源于驢媽媽、攜程等第三方平臺爬取,能很好地反映旅游社交評論的情況。主要字段為用戶ID、用戶評價,標簽字段為用戶的評論分值,如表1所示[1]。

2 模型設計及其原理

2.1 模型整體結構

基于數據情況對文本進行特征提取和模型的設計,在數據預處理及分詞去停詞后,主要提取了N-gram,TF-IDF,Word2Vec,情感值等統計特征。基模型的構成為Word2Vec+TF-IDF+N-Gram+Stats-feature+LightGBM,TF-IDF+N-Gram+Ridge,Word2Vec+TextCNN。

模型結構如圖1所示。

2.2 特征分析及算法原理

2.2.1 特征分析

(1)N-Gram。

N-Gram是自然語言處理中一個非常重要的語言模型,在文本特征處理的時候,通常一個關鍵詞作為一個特征。但是這在一些場景下是遠遠不夠的,我們需要進一步提取更多的特征,如考慮兩兩組合提取Bi-Gram特征,根據N-Gram語言模型,計算各個Bi-Gram組合的概率,作為新的特征。本文主要提取了Bi-Gram和Tri-Gram特征。

(2)TF-IDF。

用詞頻來衡量文章中的一個詞的重要性不夠全面,有時候重要的詞出現的不夠多。為了解決這個問題,詞頻—反轉文件頻率(Term Frequency–Inverse Document Frequency,TF-IDF)被提出來了。TF-IDF定義為詞頻(TF)乘以逆文檔頻率(IDF),能有效地反映出一個詞在文檔中的重要性,并且具有簡單快速易理解的特點。

(3)Word2Vec。

Word2Vec[2]是一種詞的向量化表示,把文字嵌入到一個數學空間里,是詞嵌入的一種,是語言模型的一種副產物。用來訓練Word2Vec的語言模型主要有兩種:Skip-gram和CBOW,用一個詞語作為輸入來預測它的上下文稱為Skip-Gram,由詞的上下文來預測詞的本身稱為CBOW。模型結構均為單隱層的神經網絡,如圖2—3所示[3]。

(4)統計特征。

統計特征主要從一些實際的業務場景來考慮,本文主要借助一些外部的情感詞表來對文本中的情感程度進行統計,因為口碑評論分值本身也是一種情感值的反映,所以該類特征解釋性強,效果顯著。其次,還有一些標點統計、特殊詞統計特征,同樣具有明顯的效果。

本文情感值計算參考的詞表主要有:HowNet情感詞典、臺灣大學NTU情感詞典、程度副詞表以及否定詞表。

2.2.2 算法原理

(1)RidgeRegression。

(2)LightGBM。

LightGBM[4]是一個快速的、分布式的、高性能的基于決策樹算法的梯度提升框架,可以用于排序、分類、回歸以及很多其他的機器學習任務中。相比于之前的梯度提升框架(如XGBoost),LightGBM擁有很多優化方法來加快訓練且節省效率。如直方圖算法,將連續的特征值分桶分箱加快訓練過程,減少內存占用;leaf-wise的分裂策略,減少不必要分裂的情況下實現更高準確率;并行學習優化等。

(3)TextCNN。

模型結構如圖4所示[5]。

TextCNN是一種高效的文本分類模型,在CNN中使用不同的filter_size來模擬N-Gram模型,有效地利用文本的局部有序特征,達到極好的分類效果。TextCNN主要模型結構包括embedding層,卷積層,maxpooling,softmax,可以結合embedding層隨機初始化和預訓練詞向量初始化結合來初步改進模型的效果,卷積層中不同的filter_size和region_size來進行詳盡的N-gram特征提取。

3 實驗過程及結果

3.1 實驗過程

實驗過程如圖5所示。

在一個機器學習任務中,數據的預處理部分直接關系到模型的效果,是至關重要的一部分。本文的預處理工作主要有:數字、表情符號、網址等特殊文本的轉化,拼寫檢查更正,停用詞去除,同義詞替換等。預處理完成后,對文本數據進行向量表示,在本文實驗過程中,先對預處理后的文本進行分詞,再訓練一個Word2Vec詞向量來對文本進行向量化。

在文本表示完成后,對整個任務的特征體系進行構建,構建2.2.1節所描述分析的特征。

再進行單模型的訓練比較實驗結果,最終進行加權模型融合選取最佳模型。

4 結語

本文提出一種基于多特征模型融合的口碑評論分值預測模型,通過對特征詳盡的探索分析和模型構建,與一些傳統方法模型相比,取得了更好的效果。對相關行業具有實際的指導意義。

[參考文獻]

[1]DataFountain.景區口碑評價分值預測[EB/OL].(2018-06-23)[2018-11-05].https://www.datafountain.cn/competitions/283/details/data-evaluation.

[2]LE Q,MIKOLOV T.Distributed representations of sentences and documents[C].Sydney:International Conference on International Conference on Machine Learning,2014.

[3]XIN R.Word2Vec parameter learning explained[M].Evansto:Eprint Arxiv,2014.

[4]KE G L,MENG Q,FINLEY T,et al.LightGBM: a highly efficient gradient boosting decision tree[C].Siem Reap:the Neural Information Processing Systems Conference,2017.

[5]KIM Y.Convolutional neural networks for sentence classification[M].Evansto:Eprint Arxiv,2014.

猜你喜歡
機器學習特征提取
特征提取和最小二乘支持向量機的水下目標識別
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
Bagging RCSP腦電特征提取算法
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
基于支持向量機的金融數據分析研究
機器學習理論在高中自主學習中的應用
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 青青热久免费精品视频6| 亚洲,国产,日韩,综合一区| 精品无码国产一区二区三区AV| 亚洲成肉网| 国产成人AV男人的天堂| 欧美日韩另类国产| 免费看一级毛片波多结衣| 爱做久久久久久| 成人av手机在线观看| 亚洲欧美一区二区三区图片| 九九热视频在线免费观看| 久久久久国色AV免费观看性色| 亚洲欧美自拍视频| 成人免费一级片| 国产精品丝袜在线| 国产丝袜第一页| 婷婷六月综合网| 国禁国产you女视频网站| 久久99热66这里只有精品一| 2020久久国产综合精品swag| 91精品福利自产拍在线观看| 午夜日b视频| 日日摸夜夜爽无码| 视频一区视频二区日韩专区 | 色综合激情网| 色九九视频| 婷婷六月综合| 亚洲欧洲天堂色AV| 日韩无码白| 国产丝袜无码一区二区视频| 亚洲精品桃花岛av在线| 国产美女91呻吟求| 久久亚洲天堂| 国产一区成人| 欧美五月婷婷| 国产成人综合亚洲欧美在| 亚洲不卡影院| 国产激爽爽爽大片在线观看| 伊人久久大线影院首页| 好紧好深好大乳无码中文字幕| 精品無碼一區在線觀看 | 精品人妻无码中字系列| 欧美日韩精品在线播放| 日韩欧美中文字幕在线韩免费| 亚洲欧美精品在线| 亚洲视屏在线观看| 第一页亚洲| 秘书高跟黑色丝袜国产91在线| 88av在线| 亚国产欧美在线人成| 伊人AV天堂| 亚洲三级成人| 在线精品亚洲国产| 激情综合网址| 在线观看欧美国产| 人妻21p大胆| 自拍偷拍欧美日韩| 国产喷水视频| 国产精品网拍在线| 欧美日韩一区二区三区四区在线观看| 精品视频在线观看你懂的一区| 午夜精品区| 丁香六月综合网| www.狠狠| 国产一级视频久久| 8090成人午夜精品| 国产成人亚洲综合a∨婷婷| 国产丝袜91| 精品国产免费观看一区| 亚洲第一成网站| 亚洲综合色婷婷| 日本在线亚洲| 国内熟女少妇一线天| 日本黄色不卡视频| 亚欧美国产综合| 红杏AV在线无码| 成人小视频网| 97se亚洲综合在线天天| 97国产一区二区精品久久呦| 欧美无遮挡国产欧美另类| 麻豆AV网站免费进入| 国产日韩欧美中文|