999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

應用SD-LS-SVM 算法的評論情感分析模型

2021-04-23 05:50:26孫翌博濮澤堃徐玉華
軟件導刊 2021年4期
關鍵詞:分類文本情感

孫翌博,濮澤堃,徐玉華,胡 冰

(1.常州工學院計算機信息工程學院,江蘇常州 213032;2.南京郵電大學江蘇省郵政大數據技術與應用工程研究中心;3.南京郵電大學國家郵政局郵政行業技術研發中心(物聯網技術),江蘇南京 210003)

0 引言

由于智能終端設備和移動互聯網技術的快速發展,傳統線下消費部分份額已開始逐步轉移到線上電商消費中。對于商品的評論也從消費者的口碑式口口相傳轉變為互聯網電商平臺上的評論熱潮。而這些產生于消費者購買后的評價信息,對電商或店家研究商品的銷售情況與制定相關銷售策略十分有價值。電商或賣家可以對消費者購買后產生的評價信息進行分析,然后根據分析結果實現更好的決策[1]。

情感分析是對文本進行分析處理后對其所表達的情感進行分類[2-3],由Pang 等[4]于2002 年提出。情感分析主要用于處理非結構化及未標記的數據,而這些數據往往比較模糊主觀,因此需要涉及多個領域,其中包括自然語言處理[5]、機器學習[6]、數據分析[7]等。目前,對文本進行情感分析的常見方法主要有情感詞典方法和機器學習方法[8]。情感詞典是一種傳統的情感分析方法[9-10],由Whissell[11]于1988 年提出。情感詞典首先對已知的廣泛使用的情感詞進行歸納和整理,匹配文本和情感詞典中相同的詞語,進而預測出待檢測文本的情感屬性?;跈C器學習的情感分析方法首先提取文本特征[12-13],然后按照預先設定的算法對文本進行相應處理,最后輸出情感分類結果。這種方式相較于基于情感詞典的情感分析方法,不僅可以減少相關人員的負擔和主觀的非理性判斷,還能夠建立足夠大的情感詞庫并且對詞庫不斷迭代更新。

Lin 等[14]開發了一種跨語言聯合情感模型,該模型同時檢查兩種語言意見表達;Liu 等[15]使用支持向量機(Support Vector Machines,SVM)作為情感分析的基礎分類器,對在線評論情感進行分析。最小二乘支持向量機(Least Squares SVM,LS-SVM)相對于SVM,有著更低的訓練復雜度[16]。在面對復雜文本特征分類的情形下,LS-SVM 的訓練速度更適合。MuthuKumaran 等[17]利用LS-SVM 算法實現用戶評論分析與排名,從而實現合理的商品推薦。但是,LS-SVM 相對于SVM,存在稀疏性與魯棒性問題。此外,面對評論中追評等多次評論情況也需要進行合理處理才能進一步提高評論情感的分析準確度。

因此,為了高效預測用戶評論中的情感分類,本文提出一種基于SD-LS-SVM(Simple Optimization of Dynamic Confidence Interval for Least Squares Support Vector Machines)的評論情感分析模型。通過該模型對評論文本進行預處理并提取文本情感特征向量,同時利用改進的SDLS-SVM 算法對評論進行情感分類。

1 評論情感分析模型設計

為了有效預測用戶評論的情感類別,需要建立評論情感分析模型,該模型結合情感詞典與機器學習技術對評論進行分析從而提取其文本特征。首先,對評論數據和訓練文本進行預處理,并利用多個開源數據庫構建詞網,通過上下文分析對分詞進行評分,并對追評進行有效處理,從而生成文本情感特征向量;然后,通過置信區間的動態優化修剪向量以提高LS-SVM 的稀疏度與算法效率,從而形成SD-LS-SVM 算法;最后,利用修剪后的最優數據集與SD-LS-SVM 算法對評論文本進行情感預測。

如圖1 所示,評論情感分析模型包括文本預處理模塊、構建詞網模塊、基于上下文分析的分詞評分計算模塊、追評處理模塊、評論文本情感特征向量提取模塊與SD-LSSVM 評論情感分類模塊。各模塊主要功能如下:

(1)文本預處理。文本預處理模塊首先對文本語言進行檢測,如為非中文文本將進行翻譯操作,本系統主要對中文文本評論進行情感分析。利用開源工具對評論文本進行分詞,過濾常用停用詞,并保留文本符號,因為常用停用詞主要表示語氣的停頓,而不能揭示相關情感,而符號卻帶有情感含義。

(2)詞網構建。搜集多個開源情感詞典,例如清華大學中文褒貶義詞典、情感詞匯本體、臺灣大學NTUSD 簡體中文情感詞典、知網Hownet 情感詞典等構建詞網。通過與詞網對比,可以進行文本語料分析、標注詞性、生成詞袋。

Fig.1 Comment sentiment analysis model圖1 評論情感分析模型

(3)基于上下文分析的分詞評分計算。該模塊利用上下文分析技術將待檢測的分詞與詞網中語料進行對比分析。首先通過Word2vector 技術將待檢測分詞與詞網語料轉化文本向量,然后采用聚類算法找到與待檢測分詞最相似的詞網語料,并用投票機制識別分詞的情感極性,其表達式如式(1)所示。其中,num(Positive)是該分詞在詞網中屬于積極類的個數,num(Negative)是該分詞在詞網中屬于消極類的個數。根據投票結果獲得語料各分詞得分S(x)。如果得分為+1,則該詞為積極詞性;為-1 則是消極詞性;為0 則是中性詞。

此外,還需要建立副詞的評分機制,根據副詞評分計算顯示分詞詞性的強度λ,因此分詞的最終得分為S(x) ×λ。

(4)追評處理?,F有電商平臺中的商品評論已經不再局限于初次評論,消費者往往會在收貨一段期間再次追加評論以表達使用感受,而使用感受會隨著時間的推移發生變化,初評與追評的情感也可能存在差異,但是由于用戶經過一段時間的商品體驗,追評相比初評更加客觀。為了更加全面地分析用戶的評論情感,該系統也需要對追評進行處理。若同一用戶的初評與追評通過上述步驟計算得出的詞性相同,則合并為一條評論;若詞性不同,則將追評替代初評。

(5)評論文本情感特征向量提取。該模塊將每個評論表示為一個文本特征向量Ω={θ1,θ2,…,θn},其中n是每條評論的有效高頻分詞總數,θ則為每個高頻分詞的最終評分。通過上述步驟可以對每條評論進行有效處理,并獲取每條評論的文本情感特征向量。

(6)評論情感分類。該模塊對LS-SVM 算法進行改進,利用改進算法對文本特征向量進行分類以實現評論情感預測。對于LS-SVM 缺乏稀疏性問題,可以通過基于置信區間的訓練樣本修剪策略CI-LS-SVM[18]加以應對。然而,固化的置信區間迭代掃描方法使得算法缺乏靈活性,且復雜度較高,因此采用基于動態置信區間的SD-LS-SVM 算法提高計算效率,并對訓練數據進行修剪獲得最優訓練數據集。將評論文本的情感特征向量導入SD-LS-SVM 算法中,并利用最優訓練集,對評論情感進行分類,計算出用戶評論的情感類別。

通過以上步驟,基于SD-LS-SVM 評論情感分析模型實現了評論文本預處理、特征向量提取與情感分類。通過分析出的情感類別,商家或平臺則可以判斷用戶對于該商品的喜惡趨勢,從而有針對性地制定相應的營銷策略,并進行精準的商品推薦。

2 SD-LS-SVM 情感分類算法

LS-SVM 是對SVM 的一種變形算法,主要將QP(Quadratic Programming)問題轉化為線性方程組問題。相比于SVM,LS-SVM 的計算復雜度更低,算法效率更高。然而在LS-SVM 中,由于等式約束,幾乎所有訓練樣本都是支持向量,并且對平方誤差具有異常值的敏感性,使得LS-SVM 相比SVM 缺少稀疏性和魯棒性。為了提高LS-SVM 算法的檢測效率與精度,需對LS-SVM 加以改進。

2.1 基于置信區間簡單動態優化的LS-SVM 算法改進

本文提出一種改進的SD-LS-SVM 算法,即利用簡單動態置信區間優化策略處理文本情感數據樣本以提高分類精度。置信區間是總體參數區間估計值的一種,它顯示估計值的可靠性。在不同的置信度水平下,一些訓練樣本將超出置信區間的限制。本文通過動態機制調整置信水平,并在置信區間之外逐漸刪除樣本,以提高LS-SVM 的稀疏性。

通過引入拉格朗日函數解決約束優化問題,其中αi為拉格朗日乘項。

然后求偏導優化:

消除變量ωi和δi,可以得到以下線性方程式:

其中,y=[y1,y2,…,yN],α=[α1,α2,…,αN],I是單位矩陣,Ω是M×MHessian 矩陣,即Ωij=K(xi,xj),K是RBF 核函數如式(6),σ為核函數寬度。

可以通過式(8)進行1-α置信度的預測值區間預估,即L(x) ≤y(x) ≤U(x)。其中,Λ是所選擇的一個合適的平滑函數。

且局部近似值服從高斯分布,如式(9):

E(y(x))為均值,ρ‖w(x) ‖為方差。由于預測會存在偏差令bi(x)=E(y(x)) -y(x)。由此可將置信區間修正為如式(10):

引入動態調整迭代因子μ與縮略因子?,使得置信度在合理范圍內變化。需要修剪的支持向量數量s與平均刪減的支持向量機數量m的比值達到一定閾值時,迭代因子μ通過取下限整數進行動態下調。置信度的動態調整機制如式(11)。

最終修剪過的LS-SVM 如式(12),從而確定支持向量中的最優子集{(xi,yi)i∈S}。

然后可以進一步計算平均方差如式(13)。

然后通過以上機制實現LS-SVM 置信區間的簡單動態修正,從而提高LS-SVM 的稀疏性。

2.2 SD-LS-SVM 文本情感分類

首先使用1 000 條開源數據集作為訓練數據集,并使用爬蟲軟件從淘寶、京東與蘇寧易購知名電商平臺中爬取評論數據集對訓練數據集作進一步擴充,訓練數據集中包含積極語料子集與消極語料子集。將訓練數據集通過上述模型提取語料的情感特征向量,然后通過SD-LS-SVM高效地修剪冗余樣本,得到最優訓練數據集。利用最優數據集,通過SD-LS-SVM 算法對實際評論情感進行分類。由于在修剪過程中需要進行迭代訓練,因此需要考慮終止條件。本文將累積誤差作為終止條件,當累積誤差降至閾值K時就終止訓練,累積誤差計算如式(14)。

SD-LS-SVM 文本情感分類流程如圖2 所示。輸入訓練數據集,原始支持向量機集合為所有訓練樣本;令原始置信度為0.05,累積誤差閾值K為0.9?;赟D-LS-SVM的情感分類具體步驟如下:

Fig.2 Sentiment classification process based on SD-LS-SVM圖2 基于SD-LS-SVM 的情感分類流程

①LS-SVM 分類與誤差懲罰參數γ、核函數寬度δ有關,因此利用蟻群算法求解這兩個參數的最優解[19];②用訓練數據集求解式(5)以實現對原始模型的訓練;③通過式(7)計算預測值和式(13)均方誤差;④利用式(10)計算置信度為α時的置信區間;⑤移除在置信區間外的訓練樣本,并將剩余訓練樣本作為支持向量;⑥利用式(11)計算新的置信度α與置信區間,然后回到步驟②進行重訓練,直至累積誤差降至閾值K,此時經過修剪后的數據集為最優數據集;⑦利用最優數據集對SD-LS-SVM 模型進行訓練;⑧將待檢測的評論文本情感特征向量數據輸入SD-LSSVM 模型進行分類,實現評論情感預測;⑨通過精確度P與召回率R與式(15)評估分類效果,對模型進行性能評價。

3 評論情感分析系統仿真實驗

為了驗證應用SD-LS-SVM 算法的評論情感分析模型的有效性與可靠性,本文設計相應的仿真系統,基于該模型實現相應的情感預測功能,并對模型狀態與訓練結果進行統計分析。

Fig.3 Simulation system architecture圖3 仿真系統架構

如圖3 所示,評論情感分析仿真系統主要分為數據采集層、數據處理層、數據分析層與數據顯示層。數據采集層可從商品網頁上采集用戶評論、追評以及相關點贊數據,也為用戶提供數據導入接口,通過外部導入文本數據進行分析預測,所采集的文本數據均采用CSV 格式存儲在后臺數據庫;數據處理層主要對訓練數據和待檢測數據進行預處理,其中包括詞網構建、文本分詞、分詞的詞性計算以及文本的特征向量提取;數據分析層對SD-LS-SVM 模型進行訓練,將待檢測數據進行分類,并對分類結果進行標注;數據顯示層實現參數信息顯示,便于數據管理者設置相應的模型參數,并將數據分析層的預測結果、運行的模型狀態以圖表形式進行直觀展示。

基于SD-LS-SVM 的評論情感分析仿真系統主要使用Web 技術棧進行實現,分為前后端。在前端搭建Angular 框架,并設計實現相應的顯示界面;后端搭建Django 框架,結合Mysql 數據庫,并基于ScikitLearn 框架完成情感分類模型。對于電商平臺中待檢測的評論,在對其作預處理后,提取文本特征向量,通過SD-LS-SVM 模型進行分類。系統管理員可以通過前端控件選擇相應的基礎情感詞典,設置訓練和測試數據比例,并導入所需的SD-LS-SVM 參數模型。

如圖4 所示,該系統通過SD-LS-SVM 模型對所需分析的語料進行情感預測,并展示其結果。預測結果包括預測類別,即情感是屬于積極情感還是消極情感,給出正極性評估值和負極性評估值。

系統模型每月都會進行一次訓練,系統會自動選擇準確度最高的模型作為當前模型。如圖5 所示,該系統會對每次的訓練時常和分析結果進行統計與展示。通過多次訓練,模型的情感分類準確率達70%~85%。仿真系統統計分析結果驗證了基于SD-LS-SVM 的情感分析模型可以對評論文本的情感進行有效分類。

Fig.4 Results of sentiment classification圖4 情感分類結果

Fig.5 Statistics and analysis of model status圖5 模型狀態統計與分析

4 結語

本文提出一種應用SD-LS-SVM 算法的評論情感分析模型,通過該模型實現評論文本預處理,構建詞網,并利用上下文分析方法生成評論中分詞的得分,同時對追評進行處理從而提取文本情感特征向量。此外,本文對LS-SVM進行了改進,首先利用簡單置信區間動態優化獲取最優訓練數據集,并利用最優數據集與改進的SD-LS-SVM 算法對評論文本進行分類。本文對評論情感分析系統進行了仿真實驗,通過實驗證明了基于SD-LS-SVM 的評論情感分析模型的有效性。目前,本文只是將該模型進行了實驗仿真,在未來工作中,需要研究SD-LS-SVM 評論情感分析模型在真正電商平臺中的應用,其中需要將SD-LS-SVM評論情感分析模型部署至實際電商平臺中,并根據評論情感分類結果,生成相應的滿意度報告。商家利用報告結果一方面可以改善商品質量,另一方面可以挖掘忠實客戶以實施精準營銷。

猜你喜歡
分類文本情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 拍国产真实乱人偷精品| 亚洲国产综合自在线另类| 久久久受www免费人成| 67194在线午夜亚洲| 国产欧美自拍视频| 亚洲男人在线天堂| 国产成人精品男人的天堂下载| 热伊人99re久久精品最新地| 永久免费无码日韩视频| 无码精品一区二区久久久| 成人综合在线观看| 美女视频黄频a免费高清不卡| 一区二区日韩国产精久久| 国产精品亚洲片在线va| 国产欧美日韩另类| 国内精自线i品一区202| 毛片免费试看| 国产一区二区丝袜高跟鞋| 91亚瑟视频| 色综合热无码热国产| 久久精品女人天堂aaa| 欧美另类视频一区二区三区| 区国产精品搜索视频| 97在线免费| 国产国语一级毛片| 在线毛片免费| 欧美视频免费一区二区三区| 色综合久久88色综合天天提莫| 91精品福利自产拍在线观看| 亚洲人成成无码网WWW| 亚洲日本一本dvd高清| 91系列在线观看| 99精品伊人久久久大香线蕉| 日韩a在线观看免费观看| 久久大香伊蕉在人线观看热2| 国产精品福利社| 毛片久久久| 一级毛片免费高清视频| 国产凹凸视频在线观看 | 超碰免费91| 亚洲性日韩精品一区二区| 丁香六月激情婷婷| 国产女人综合久久精品视| 精品人妻AV区| 欧美啪啪网| 九色最新网址| 久久综合亚洲鲁鲁九月天| 成人精品区| 毛片网站免费在线观看| 亚洲最黄视频| 狠狠综合久久| 欧美亚洲另类在线观看| 99久久国产综合精品2020| 国产精品视频观看裸模| 亚洲高清国产拍精品26u| 亚洲色偷偷偷鲁综合| 精品国产91爱| 国产精彩视频在线观看| 精品无码国产一区二区三区AV| 一级毛片免费的| 无码免费视频| 欧美日韩免费观看| 日本免费新一区视频| 国产精品午夜福利麻豆| 情侣午夜国产在线一区无码| 午夜福利亚洲精品| 亚洲男人在线| 久久青青草原亚洲av无码| 日韩av无码精品专区| 最近最新中文字幕在线第一页| 免费观看亚洲人成网站| 亚洲综合日韩精品| 91www在线观看| 国产精品永久免费嫩草研究院| 成人字幕网视频在线观看| 国产成人凹凸视频在线| 99在线观看精品视频| 亚洲AV无码一区二区三区牲色| 午夜精品久久久久久久2023| 九色免费视频| 久久婷婷五月综合97色| 五月激情综合网|