999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成算法的在線購物平臺消費者評價情感分析與研究

2024-06-01 10:36:24袁鈺喜陳義安劉曉慧
現代信息科技 2024年4期

袁鈺喜 陳義安 劉曉慧

收稿日期:2023-07-24

DOI:10.19850/j.cnki.2096-4706.2024.04.021

摘? 要:文章對在線購物平臺的消費者評價數據進行了情感分析和分類。通過使用Python實現自動化瀏覽器驅動和反爬蟲技術,成功采集了某東購物平臺的消費者評價信息。文章提出了一種改進的集成算法,將LSTM、BiGRU、BiLSTM作為分類器,分別采用Voting和Bagging方法進行集成。結果表明,與傳統的貝葉斯和邏輯回歸相比,LSTM+Bagging集成算法在準確率方面分別提高了5.9%和6%,而與LSTM+Voting集成算法相比,準確率提高了0.5個百分點。另外,LSTM+Bagging模型在穩定性和魯棒性方面表現優于LSTM+Voting算法。

關鍵詞:LSTM模型;Voting;Bagging;電商購物

中圖分類號:TP391.1? 文獻標識碼:A? 文章編號:2096-4706(2024)04-0101-05

Sentiment Analysis and Research on Consumer Evaluation of Online Shopping Platform Based on Integrated Algorithm

YUAN Yuxi1, CHEN Yian1,2, LIU Xiaohui1

(1.School of Mathematics and Statistics, Chongqing Technology and Business University, Chongqing? 400067, China; 2.Chongqing Key Laboratory of Economic and Social Applied Statistics, Chongqing? 400067, China)

Abstract: This paper performs sentiment analysis and classification on consumer evaluation data from online shopping platforms. By using Python to realize automatic browser driving and anti-crawler technology, it successfully collects consumer evaluation information of a certain shopping platform. This paper proposes an improved integration algorithm, which uses LSTM, BiGRU and BiLSTM as classifiers, and uses Voting and Bagging methods for integration respectively. The results show that compared with the traditional Bayesian and logistic regression, the LSTM+Bagging integration algorithm improves the accuracy by 5.9% and 6%, respectively, and compared with the LSTM+Voting integration algorithm, the accuracy increases by 0.5 percentage points. In addition, the LSTM+Bagging model outperforms the LSTM+Voting algorithm in terms of stability and robustness.

Keywords: LSTM model; Voting; Bagging; E-Commerce shopping

0? 引? 言

電商購物平臺上的評價是消費者對商品、服務、商家等多個方面的詳細描述,覆蓋面廣泛,內容豐富。這些評價可以為商家提供第一手的用戶反饋,幫助商家深入了解消費者的需求與意見,及時發現評價中存在的問題,主動采取措施加以改進,提供更加貼近消費者需求的商品與服務,可以增強商家的競爭力。同時,這些評價也為其他消費者提供寶貴的信息,幫助他們更加精確地選擇商品。所以,挖掘電商購平臺的評價是一項具有重要意義的研究工作,可以為電商行業的發展和消費者的消費體驗提供有力支持。

相較于傳統的文本分類模型,深度學習在文本特征處理和模型構建上已有成熟的技術。例如,諸林云等采用BiLSTM方法實現了用戶對酒店服務情緒傾向的分析,在輸入層加入注意層突出重要信息,并使用BERT模型獲得文本特征,實驗證明此方法在中文情感分類上具有更高精度[1]。王佳慧提出利用CNN和BiLSTM提取文本局部與全局特征并融合,生成語義特征豐富的模型,可有效提高中文分類精度[2]。YU Shujuan等在短文本分類上提出雙RNN并行架構,使用LSTM和GRU獲取上下文,生成注意力矩陣,此方法具有收斂速度快、精度高的特點[3]。SUNG Yunsick用FastText在Microsoft惡意軟件數據集上提取文本特征,相比one-hot編碼方法,性能提高1.87%[4]。陳可嘉提出融合詞級文本特征提取方法,構建情感詞典獲取特征詞,多維特征向量表示文本特征,并轉為詞級與句級特征向量,此特征詞向量與LSTM融合,最后的分類效果優于其他深度學習方法[5]。LI Weijiang提出SAMF-BiLSTM情感分類模型,使用自注意力和多通道特征增強情感信息,還利用目標詞與情感詞關系,使得分類正確性高于其他方法[6]。TAM Sakirin用Word2Vec提取Twitter文本特征,研究CNN和BiLSTM集成模型ConvBiLSTM,而在推文數據上表現效果極佳[7]。本文在借鑒前人的基礎上使用Word2Vec方法提取文本特征,用LSTM的三種變體:LSTM、BiGRU、BiLSTM分別結合Voting和bagging集成算法進行比較,實驗表明集成算法相比單一的深度學習算法在穩定性和正確性顯著提高。

1? 模型構建

1.1? 三種LSTM變體

本節將分別介紹集成學習算法Voting+LSTM和Bagging+LSTM的三種記憶模型分類器,即LSTM、BiGRU和BiLSTM,這些模型專門用于文本數據的處理。通過結合三種算法的優勢,可以像隨機森林一樣構建一種性能更好、準確率更高的模型,即Voting+LSTM和Bagging+LSTM,其中集成算法的LSTM都是指三種記憶模型分類器,在隨機森林中稱為弱分類器。下面將詳細剖析這些模型的內部結構單元,揭示黑匣子的運轉過程,并指出每一種弱分類器的優缺點。

1.1.1? LSTM模型結構

RNN循環神經網絡是由若干個重復的神經網絡模塊構成的,在標準的RNN神經網絡中每個神經網絡模塊是相互獨立且有相同的結構被重復鏈接在一起。LSTM網絡同循環神經網絡一樣具有相同的結構,但是相對傳統的RNN架構而言,每個神經網絡模塊里面的內容大大增加了,增添了遺忘門、輸入門、輸出門能在進行誤差反饋修正時不產生梯度消失或發散[8]。

1.1.2? BiGRU模型結構

在2014年提出門控循環單元(GRU)是針對LSTM的劣勢而提出的,GRU不僅保證信息向量在傳播的時候不會丟失,還相較于LSTM神經網絡而言少了一個門函數,因此在參數方面得到了減少,有利于在計算過程中省略了不必要的計算資源[9]。

1.1.3? BiLSTM模型結構

BiLSTM是雙向長短期記憶網絡,同樣也是一種序列處理模型。其結構是由兩個LSTM組成:一個從前向后輸入,另外一個從后向前輸入[10]。

1.2? Bagging+LSTM和VotingLSTM的集成

Voting+LSTM和Bagging+LSTM都是集成學習的算法,它們的目的均是通過組合弱分類器來提高分類的正確率。兩者的主要不同在于Voting+LSTM除了可以構建同質的分類器外,還可以選擇異質的分類器。然后兩種集成算法都是用多數投票的原則來匯總各個分類器的結果。最常見的Bagging+LSTM應用場景是組合決策樹構成新的算法,也就是隨機森林。這里分別介紹本文的創新點兩種集成算法的理論知識。

1.2.1? Voting+LSTM投票法

本文后續的實驗基于不同變體的LSTM模型預測類別的0-1間的值,也就是軟投票方法。

(1)

其中, 表示第i個分類器將樣本劃分為Cj類,而取值為1或者0,這種方法進行投票稱硬投票。如果 ,是對于后驗概率P(Cj | x)的估計,被稱為軟投票,本文后續的實驗就是基于不同變體的LSTM模型預測類別的0~1間的值,也就是軟投票方法。

1.2.2? Bagging+LSTM集成

Bagging(Bootstrap Aggregating)+ LSTM是一種并行式的集成學習方法,旨在通過對給定的包含m個樣本的數據集進行自助采樣(Bootstrap Sampling),形成多個采樣集,并在每個采樣集上訓練基學習器,最終通過集成這些基學習器的預測結果來提高模型的性能。Bagging+LSTM算法的核心思想類似于自助采樣法,即從原始數據集中隨機抽取樣本,放入采樣集中,并允許同一樣本在采樣集中出現多次(放回)。這樣,每個樣本都有被抽取到的概率,且概率相同,均為總樣本數的分之一。這種采樣方式能夠引入隨機性和多樣性,使得不同的基學習器在不同的采樣集上訓練,從而增加了集成模型的泛化能力和魯棒性。為了更清晰地說明本文的Bagging+LSTM算法的實現過程,以下給出偽代碼過程:

輸入:訓練集

基礎學習算法 ;

訓練輪數T.

過程:

1: for t = 1,2,…,T do

2:

3: end for

輸出: .

Voting+LSTM和Bagging+LSTM都是訓練多個模型并且對其結果進行聚合的集成算法,用來提高模型的性能,也可以降低模型的方差,以避免過擬合。兩者的區別在于生成的模型的方式和聚合結果上的方式。Voting+LSTM軟投票采用不同的算法或者是加權平均分,Bagging+LSTM使用自助采樣,但兩者在不同的領域各有優勢。

1.3? 評價指標

在機器學習中分類的評價指標是對模型性能優劣的一個定量指標。這里選取四種指標綜合衡量模型的優劣,其指標分別為:精準率、召回率、準確率、F1值。

2? 數據分析

2.1? 爬取數據

本文使用Selenium和BeautifulSoup庫從某東在線購物平臺頁面中爬取顧客購買蚊帳后的在線評論。其腳本收集了用戶的姓名和評論日期、評論內容、情感等級等字段。在調用XPath表達式解析HTML網頁內容時,將情感等級1~3星情感傾向設定為Negative,而4~5星的設置為Positive,這樣做有利于樣本情感的集中不至于分散。

2.2? 數據清洗

在標注和情感檢測爬取的數據時,發現評論中含有大量無意義的數字、與主題不相關或拼寫錯誤的詞匯,以及錯誤的情感態度。如一條評論中寫道“組裝方便,美觀大方,老婆很喜歡”,但情感標簽卻被標注為“Negative”。對所有評論進行錯誤信息統計分析后,發現購買蚊帳商品用戶評價錯誤樣本共162條,包含全數字評論12條,無關或拼寫錯誤文本39條,以及情感錯誤評論111條。為了優化數據可視化和分類算法性能,刪除了錯誤樣本,剩余樣本數量為10 483條,數據有效性高達98.47%,數據采集和內容質量較可靠。經過低質量樣本篩選和數據清洗,為集成學習的后續過程奠定了基礎。

2.3? 數據可視化

2.3.1? 分詞結果

表1是基于jieba分詞的部分詞頻統計結果,用以呈現用戶在線評論數據的主要關注點。根據數據,可以看出“蚊帳”是評論的主題詞,用戶評價主要集中在購買蚊帳后的使用體驗上。此外,“質量”是出現頻率較高的詞匯,這表明用戶對蚊帳的質量問題非常關注,可能會在購買前仔細考慮這一因素。另外,注意到,“不錯”和“很好”等積極的詞匯被頻繁提到,這表明大多數用戶對蚊帳的評價比較正面。然而,一些用戶可能會遇到一些問題或不滿意,如“沒有”和“不”以及“安裝”等詞匯所顯示的,主要集中在蚊帳的安裝方面。

表1? 詞頻統計

分詞結果 詞頻 分詞結果 詞頻

蚊帳 2 570 京東 1 044

質量 2 315 蚊子 1 013

不錯 1 841 很好 916

安裝 1 288 沒有 900

2.3.2? 情感分析

經過前面的數據清洗工作,成功篩選出了一批精品樣本數據,共計10 483條。其中,情感標簽為Negative的樣本有5 258條,而Positive的有5 225條,占比分別為50.16%和49.84%。可以看出,兩類樣本數量相當,不存在失衡的情況。

2.3.3? 詞向量矩陣

通過對用戶評論數據進行分詞并使用Word2Vec 進行訓練,可以得到一個詞向量矩陣。每個詞都可以在50到300之間的維度上表示,這些詞向量具有一些有趣的語言關系。例如,可以使用“北京”-“中國”+“美國”=“華盛頓”的關系來表達“美國”和“中國”之間的國家關系,并且“華盛頓”與“北京”則是各自國家的首都。這些詞向量可以幫助我們更好地理解主題之間的聯系性。在本實驗中,使用了Gensim庫中的Word2Vec算法來訓練詞嵌入模型。該模型使用了詞向量的維度是100,最大距離為5,最小頻率閾值為1,并使用4線程進行訓練,迭代次數為1 000次。下面的表2就是訓練得到的“蚊帳”“質量”“不錯”“安裝”相似的語義以及相似度。

表2? 語義表

蚊帳 相似度 質量 相似度 不錯 相似度 安裝 相似度

質量 0.774 蚊帳 0.773 很好 0.846 蚊帳 0.654

安裝 0.654 安裝 0.615 喜歡 0.66 質量 0.615

沒有 0.591 不錯 0.511 好看 0.613 組裝 0.615

支架 0.540 很好 0.509 方便 0.601 不錯 0.528

不好 0.534 支架 0.489 挺好 0.594 很好 0.478

表2展示了關鍵字“蚊帳”與其他詞之間的語義相似度,從中可以得知“蚊帳”與“質量”和“安裝”最為相近。這說明用戶在選購蚊帳時比較關注其質量和是否易于安裝。“質量”一詞與“不錯”和“很好”高度相似,表明用戶對蚊帳的質量給予肯定的評價。“不錯”與“喜歡”“好看”和“挺好”也有較高相似度,顯示“不錯”表達的主要是正面情感。而“安裝”與“組裝”“不錯”和“很好”也有一定語義相似性,與“蚊帳”“質量”和“不錯”等詞的語義也有較高重合度。使用詞向量技術可以更好地理解文本數據,發現詞與詞之間的內在聯系。這也為后續使用深度學習進行詞向量嵌入打下了基礎。

3? 模型實證分析和結果

3.1? 實驗環境和模型參數

表3列出了不同模型的實驗環境和對應的參數,以便比較它們的實驗效果。使用的操作系統是Windows 10家庭中文版,實驗環境是PyCharm 2021.3.3版本,解釋器是Python 3.9。主要庫的版本如下:Gensim為3.8.1,TensorFlow為2.2.0,tokenizers為0.13.3。貝葉斯和邏輯回歸都使用了默認參數。針對兩種集成算法(Voting+LSTM和Bagging+LSTM),使用了LSTM、BiGRU和BiLSTM三種弱分類器進行訓練,其中Voting+LSTM算法每個弱分類器訓練7輪,Bagging+LSTM算法每個弱分類器訓練5輪,每次訓練的批次都是16。LSTM的三種變體的參數設置如表3所示。

表3? 實驗環境

嵌層維數 神經單元 激活

函數 損失 訓練輪數 訓練批次 懲罰項 優化器

100 16 sigmoid binary_crossentropy 25 16 l2 adam

3.2? 模型結果和分析

在這里,進行了三種變體的LSTM模型的損失值和正確率的比較,并探討了它們作為弱分類器在兩種集成算法中的應用。在所有的模型中,剔除了第一次產生的損失值和正確率,因為一方面這些值差異較大,另一方面模型也不太穩定。

通過圖1可以觀察到,經過10次迭代后,LSTM、BiLSTM和BiLSTM模型的損失值趨近于收斂狀態,但在正確率方面沒有明顯的改善。值得注意的是,在收斂過程中,相較于其他兩種變體,LSTM表現較弱,無論是在損失值還是在正確率上都存在一定的欠缺。而BiLSTM模型則展現出最佳的性能,表明在訓練過程中可能具有更好的收斂性能和預測準確性。

在圖2和圖3中兩種集成算法Voting+LSTM和Bagging+LSTM,損失值和正確率都低于LSTM模型。例如在Voting+LSTM中,最佳損失值為0.2,但在LSTM模型的第十二次迭代時就已經低于0.2。此外,Voting+LSTM模型的正確率在0.93~0.95之間,而LSTM模型在第十四次迭代時也在0.95左右,但在迭代二十幾次時都是0.96左右,說明深度學習可能存在過擬合的可能性,即在訓練集表現優秀,但在測試集上預測不太行。另外,需要說明的是,本文的Bagging+LSTM模型與LSTM模型在可視化展示時微不同,橫坐標代表的是分類器,三種LSTM模型每種模型只訓練了五次。

3.3? 模型評估

經過對訓練好的模型,包括貝葉斯、邏輯回歸、LSTM、集成算法等,在測試集上進行評價,并選取了多個評價指標,如精確率、召回率、F1值和正確率進行綜合分析。從表4可以看出,傳統的機器學習方法存在不穩定性的問題,特別是貝葉斯和邏輯回歸在類別為Positive的精確率以及Negative的召回率上存在較大的差異,差距高達十個百分點。此外,它們的正確率也沒有達到較高水平。

相比之下,三種LSTM模型,包括LSTM、BiGRU和BiLSTM,在穩定性和正確率方面都取得了較傳統機器學習方法顯著的提升。此外,本文提出的兩種將LSTM、BiGRU和BiLSTM作為弱分類器的集成算法Voting+LSTM和Bagging+LSTM,在F1值方面都取得了一個百分點的提升。尤其是Bagging+LSTM方法的集成模型在正確率方面表現最佳,同時穩定性也得到了顯著改善。

表4? 分類模型的對比

模型 類別 精確度 召回率 F1 正確率

貝葉斯 Negative 0.81 0.91 0.86 0.853

Positive 0.9 0.8 0.85

邏輯回歸 Negative 0.8 0.92 0.86 0.852

Positive 0.91 0.78 0.84

LSTM Negative 0.88 0.93 0.91 0.905

Positive 0.93 0.88 0.9

BiGRU Negative 0.86 0.93 0.89 0.889

Positive 0.92 0.86 0.89

BiLSTM Negative 0.89 0.89 0.89 0.894

Positive 0.9 0.9 0.9

Voting+LSTM Negative 0.89 0.93 0.91 0.907

Positive 0.93 0.88 0.91

Bagging+LSTM Negative 0.91 0.91 0.91 0.912

Positive 0.92 0.91 0.91

4? 結? 論

本文在考察傳統的機器學習時發現文本特征方面存在高維度,稀疏矩陣,且模型的泛發性、魯棒性的能力存在不足。筆者在最近幾年的熱點研究方向復現詞向量矩陣的方法結合不同變體的LSTM,發現模型的穩定性方面得到了一定的提升。同時利用詞向量矩陣挖掘出主題詞相關的同義語義的詞,可以幫助我們做主題建模。當然本文的最大的創新點在于利用隨機森林的思想,通過多顆決策樹作為弱分類器集成強模型的思路,利用到了Voting和Bagging的集成,進一步的在變體LSTM基礎上提升了正確率和穩健性,但集成算法的模型訓練時間周期較長,也是實驗上的缺點。在以后得實驗中,將采取更大的訓練集和測試集,另外語料庫的質量上也要嚴格把關,同時模型的參數也要限制,防止模型的過擬合的情況。

參考文獻:

[1] 諸林云,曲金帥,范菁,等.基于BERT-BiLSTM-Attention的文本情感分析 [J].云南民族大學學報:自然科學版,2023,32(4):520-527+540.

[2] 王佳慧.基于CNN與Bi-LSTM混合模型的中文文本分類方法 [J].軟件導刊,2023,22(1):158-164.

[3] YU S J,LIU D L,ZHU W F,et al. Attention-based LSTM,GRU and CNN for short text classification [J].Journal of Intelligent & Fuzzy Systems,2020,39(1):333-340.

[4] SUNG Y,JANG S,JEONG Y S,et al. Malware classification algorithm using advanced Word2vec-based Bi-LSTM for ground control stations [J].Computer Communications,2020,153:342-348.

[5] 陳可嘉,柯永誠.融合多特征的在線評論情感分類 [J/OL].小型微型計算機系統,2023:1-9[2023-02-24].http://kns.cnki.net/kcms/detail/21.1106.TP.20230223.1407.014.html.

[6] LI W J,QI F,TANG M,et al. Bidirectional LSTM with self-attention mechanism and multi-channel features for sentiment classification [J].Neurocomputing,2020,387:63-77.

[7] TAM S,SAID R B,TANRI?VER ? ?. A convbilstm deep learning model-based approach for twitter sentiment classification [J].IEEE Access,2021,9:41283-41293.

[8] 施元昊,張健銘,徐正蓺,等.多運動模式下的累積誤差修正行人航位推算算法 [J].計算機工程,2020,46(12):305-312.

[9] 馬磊,黃偉,李克成,等. 基于Attention-LSTM的光伏超短期功率預測模型 [J].電測與儀表,2021,58(2):146-152.

[10] 袁程,熊青松,孔慶釗.鋼筋混凝土剪力墻抗震滯回性能的多元時序深度神經網絡預測 [J/OL].工程力學,2022:1-12(2022-10-27).http://kns.cnki.net/kcms/detail/11.2595.O3.20221026.1310.017.html.

作者簡介:袁鈺喜(1997—),男,漢族,重慶開州人,碩士研究生在讀,研究方向:自然語言處理、數據挖掘;通訊作者:陳義安(1968—),男,漢族,四川達州人,教授,碩士,研究方向:經濟統計、非線性分析理論及其在社會經濟中的應用。

主站蜘蛛池模板: 在线播放精品一区二区啪视频| 成年人免费国产视频| 国产视频一二三区| 亚洲码一区二区三区| 国产呦视频免费视频在线观看| 无码电影在线观看| 四虎影视8848永久精品| 99久久精品久久久久久婷婷| 97国产精品视频自在拍| 亚洲国产欧洲精品路线久久| 国产尹人香蕉综合在线电影| 亚洲男人的天堂久久精品| 一区二区三区成人| 99精品伊人久久久大香线蕉| 免费啪啪网址| 日韩欧美综合在线制服| 精品视频一区在线观看| 大学生久久香蕉国产线观看 | 无码精品国产VA在线观看DVD| 老色鬼欧美精品| 在线视频一区二区三区不卡| 国产欧美日韩va另类在线播放| 国产18页| 蝌蚪国产精品视频第一页| 九九九国产| 亚洲精品免费网站| 丝袜国产一区| 精品国产一区91在线| 亚洲中文字幕日产无码2021| 亚洲精选无码久久久| 国内精品视频区在线2021| 久久夜色精品| 亚洲欧美不卡中文字幕| 亚洲欧美日韩成人在线| 欧美精品亚洲精品日韩专区| 欧美国产精品不卡在线观看| 九九热这里只有国产精品| 成人国产免费| 亚洲AV一二三区无码AV蜜桃| 亚洲开心婷婷中文字幕| 国产高清不卡| 国产成人精品男人的天堂下载| 亚洲三级色| 尤物国产在线| 97国产在线视频| 亚洲人成色在线观看| 啪啪国产视频| 熟妇人妻无乱码中文字幕真矢织江 | 亚洲欧美h| 亚洲精品黄| 一区二区三区毛片无码| 亚洲精品免费网站| 伊人色天堂| 91欧美在线| 538国产视频| 欧美日韩动态图| 亚洲无码视频喷水| 日本人妻一区二区三区不卡影院| 欧美亚洲综合免费精品高清在线观看 | 亚洲国产成人久久77| 国产精品久久精品| 欧美综合中文字幕久久| 国产素人在线| 国产精品无码AV中文| 久久www视频| 亚洲精品视频网| 日日噜噜夜夜狠狠视频| 国产精品第页| 99re视频在线| 欧美日本在线观看| 国产成人亚洲欧美激情| 亚洲黄色成人| 日韩午夜片| 欧美一区国产| 日韩性网站| 国产v精品成人免费视频71pao | 亚洲人成影院在线观看| 成人毛片在线播放| 亚洲精品无码AⅤ片青青在线观看| 最近最新中文字幕在线第一页| 成年人国产视频| 久久国产毛片|