999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進DEC的評論文本聚類算法

2023-09-27 01:06:30陳可嘉夏瑞東林鴻熙
吉林大學學報(理學版) 2023年5期
關鍵詞:文本模型

陳可嘉, 夏瑞東, 林鴻熙

(1. 福州大學 經濟與管理學院, 福州 350108; 2. 莆田學院 商學院, 福建 莆田 351100)

隨著互聯網上電商評論數量的激增, 已引起商家和企業的廣泛關注. 獲取在線電商評論有助于商家和企業更好地了解消費者真正的需求. 而這些存在于電商平臺的評論文本通常是無標注的數據, 由人工從無標注的大量文本數據中獲取信息非常困難且耗時[1]. 隨著應用場景的多樣化發展, 越來越多的文本數據需要更適用于特定場景的聚類劃分[2]. 電商產品的評論也屬于文本數據, 因此對于產品評論, 可進行無監督聚類分析以了解用戶對產品具體信息的關注分布情況.

目前在關于文本聚類的研究中, 基于K-means的聚類是一種經典的無監督聚類算法, 通常可用于文本聚類任務中[3], 其對大部分數據都有較強的適用性, 并且計算簡單高效. 張蕾等[4]利用改進的詞頻-逆文檔頻率算法并結合K-means++算法對科研機構發表論文數據進行了聚類應用分析; 朱楓怡等[5]利用K-means算法對故事等類型的文本進行了聚類應用分析. 但K-means算法也存在明顯的局限性, 如需要預先給定最優聚類數目K值以及無法有效處理高維數據等. 對于如何解決局限性, Bejos等[6]提出了一種改進的快速分區聚類算法緩解無法有效處理高維數據問題, 以提高文本聚類效果; 張朝等[7]提出了一種K-means聚類最優匹配算法解決傳統K-means算法對聚類初始點的選取和距離度量的計算異常敏感問題.

隨著文本聚類技術的發展, 深度聚類的應用可提升聚類算法的性能. Hosseini等[1]提出了一種基于疊架構的Autoencoder, 可減少數據的維度以提供強大的聚類特征. 同時, 深度嵌入聚類已成為無監督聚類的主要方法[8], Xie等[9]提出的深度嵌入聚類(deep embedding clustering, DEC)算法, 將訓練數據從高維空間到低維特征空間映射, 并在其中迭代優化聚類目標; Ren等[10]使用了一種新的半監督深度嵌入聚類方法, 其在特征學習過程中加入了成對約束, 使得在學習到的特征空間中屬于同一簇的數據樣本彼此靠近, 而屬于不同簇的數據樣本彼此遠離; Boubekki等[8]提出了在深度嵌入聚類算法上進行自動編碼器與聚類的聯合學習和嵌入, 保證前者可從后者獲得的有價值信息中受益; 黃宇翔等[11]提出了基于集成學習的改進深度嵌入聚類算法以及其對超參數λ的敏感性.

在文本聚類研究中, 使用預訓練詞向量模型獲取詞向量是必不可少的部分, 對于預訓練詞向量模型, BERT(bidirectional encoder representation from transformer)模型相比于Word2vec和Glove等模型可以得到考慮詞上下文信息且適用性廣泛的詞向量, 同時還能在具體任務中動態優化詞向量[12]. 在針對主題分布與詞嵌入信息相融合的問題上, Liang等[13]提出了結合BERT和LDA(latent dirichlet allocation)主題模型以確定主題最佳分類數; 文獻[14]提出了利用LDA模型、 詞嵌入模型Word2vec和Glove綜合獲得文本向量表示. 針對BERT預訓練模型在聚類任務中的應用, Hosseini等[1]提出了先使用改進的預訓練BERT模型進行文本的向量表示, 然后進行聚類分析; Mehta等[15]提出了基于BERT模型派生詞嵌入的聚類方法對大型文本數據集進行聚類研究; Subakti等[16]使用了多種聚類算法, 包括K-means聚類、 深度嵌入聚類和改進的深度嵌入聚類等融合BERT得出的文本數據表示進行聚類研究.

但在評論的無監督聚類工作中, DEC算法的K-means聚類層可能仍存在聚類數目K需要預先給定的情況, 以及聚類中心的初始化有很強的隨機性會影響整個DEC算法效果; 同時在預訓練詞向量工作中, 較少考慮到評論中詞上下文信息與評論中主題特征的融合.

針對上述問題, 本文提出一種基于改進DEC的評論文本聚類算法, 該算法結合了BERT和LDA模型作為預訓練詞向量嵌入, 有效融合了句子嵌入向量和評論主題分布向量; 在K-means聚類層中, 通過主題連貫性的變化選擇合適的主題數作為聚類數目K, 同時將LDA模型得出的主題特征向量作為自定義聚類中心, 然后進行聯合訓練以增強聚類的準確性.

1 聚類算法設計

本文基于改進DEC的評論文本聚類算法流程如圖1所示, 其中包括: 數據集獲取與預處理; 基于BERT-LDA的數據集向量化表示; 改進DEC算法; 評論文本聚類可視化分析.

圖1 基于改進DEC的評論文本聚類算法Fig.1 Review text clustering algorithm based on improved DEC

1.1 數據集獲取與預處理

本文使用Python從天貓商城(www.tmall.com)和京東商城(www.jd.com)中進行評論數據集爬取, 以此進行后續的產品評論聚類分析. 對于獲取的產品評論文本數據需要做如下預處理.

1) 重復數據剔除: 將重復的無效數據進行剔除.

2) 去停用詞: 停用詞通常在評論中大量重復出現, 卻沒有實際意義, 例如: “嗯、 了、 即、 不但、 終于”等, 將停用詞進行剔除以獲得更有效的評論句.

1.2 基于BERT-LDA的數據集向量化表示

本文利用獲取的無標注評論數據集進行基于BERT-LDA的數據集向量化表示, 主要流程如下: 1) 構建BERT句子嵌入向量; 2) 構建LDA主題分布向量; 3) 融合生成BERT-LDA數據集向量化表示.

1.2.1 構建BERT句子嵌入向量

本文通過谷歌開源工具包BERT 模型訓練產品評論數據集上的句子嵌入向量表示. BERT 模型具有很強的文本特征表示能力[16-17], 如圖2所示.

圖2 BERT模型Fig.2 BERT model

輸入包括3部分, 分別為位置編碼嵌入、 片段嵌入和字符嵌入. BERT的核心模塊是Transformer塊[18], 每個Transformer 共有12個注意力頭, 其隱含層大小為768.

本文使用開源的BERT-as-service工具加載預訓練模型, 將預處理后數據集中的句子進行編碼后, 取輸出層字向量的平均值作為句子的句向量. 將BERT句子嵌入向量Di定義為

Di=MEAN(T1,T2,…,Tn),

(1)

其中T1,T2,…,Tn表示輸出層的字向量.

1.2.2 構建LDA主題分布向量

LDA主題模型用于推測文檔的主題分布, 它可以將文檔集中每篇文檔的主題以概率分布的形式給出. LDA主題模型認為一個文檔由若干主題組成, 主題由數據集下相應的特征詞構成, 則可以描述對應為m個文檔中, 具有n個特征詞,z表示為n個特征詞所對應的主題. LDA主題模型如圖3所示.

圖3 LDA主題模型Fig.3 LDA topic model

LDA主題模型中各參數的含義如下:α表示評論-主題分布中的Dirichlet分布超參數;β表示主題-詞分布中的Dirichlet分布超參數;D表示評論總數;N表示評論中總的詞語數量;K表示主題數;θ表示評論-主題分布;φ表示主題-詞分布;z表示評論中詞語對應的主題;w表示評論中的詞語.

LDA主題模型的聯合分布定義為

(2)

利用Gibbs Sampling算法進行參數估計, 迭代抽樣直到收斂, 用公式表示為

(3)

1.2.3 融合BERT-LDA的數據集向量化

根據構建的BERT句子嵌入向量和LDA主題分布向量, 采用向量拼接融合的方式, 將得到新表達的向量輸入[14]. 這種新的輸入向量, 既包含了評論的句子整體語義特征, 又包含了評論所具有的主題特征. 定義融合BERT句子嵌入向量和LDA主題分布向量的文本向量化表示Di,μ為

Di,μ={Di°μ},

(4)

其中°為向量拼接符號.

1.3 改進DEC算法

根據得到的基于BERT-LDA的數據集向量化表示進行評論數據集的聚類任務. 考慮到拼接后的向量存在高維稀疏的問題, 同時原始DEC算法的K-means聚類層存在需要預先給定初始聚類數目K值以及初始聚類中心具有隨機性等問題. 本文使用改進的DEC算法, 主要包括: 1) 自動編碼器降維, 以學習無標簽數據集高維向量降維后的特征表示; 2) 改進聚類層, 在編碼器后堆積K-means聚類層, 以分配編碼器輸出到一個聚類組, 基于主題連貫性選擇初始聚類數目K, 同時使用LDA主題特征向量ω作為初始聚類中心; 3) 訓練聚類算法, 以同時改善聚類層和編碼器.

1.3.1 自動編碼器降維

自動編碼器是一種無監督式的特征降維方法, 其由兩部分組成, 分別為編碼器(Encoder)和解碼器(Decoder), 編碼器和解碼器均包括輸入層、 輸出層和隱藏層3層神經網絡結構.

自動編碼器通過編碼器提取高維特征并降維處理輸出文本特征, 解碼器通過對稱的網絡結構, 對編碼器的輸入進行重構. 針對需要不斷進行迭代訓練調整自編碼器網絡結構參數的過程, 訓練過程將均方誤差(mean square error, MSE)[19]作為相應的損失函數, 以此獲取精確的低維度特征信息. 自編碼器中編碼器和解碼器過程可用公式表示為

Zi=f1(WeDi,μ+be),

(5)

(6)

其中Zi為編碼器提取的高維特征并降維處理輸出后的文本特征,X′為解碼器通過對稱的網絡結構對編碼器的輸入進行重構的結果,We和Wh是權重矩陣,be和bh是偏置向量,f1和f2是映射函數.

1.3.2 改進的聚類層

原始DEC算法中, 聚類層存在需要人工給定聚類數目K值和初始聚類中心具有隨機性從而影響聚類效果的問題.

首先, 聚類數目K等價于一個確定主題建模中主題數量的參數, 因此從LDA主題模型到K-means有一個自然的聯系. 基于此, 本文使用主題連貫性的變化確定最合適的主題數, 以此作為K-means聚類層的聚類數目K. 主題連貫性主要用于衡量一個主題內的詞是否是連貫的. 隨著主題數量的變化, 主題連貫性得分也逐漸變化, 因此利用主題連貫性的變化進行主題數選擇時, 最合適的主題數目是當主題連貫性最大時所對應的主題數.

采用的主題連貫性計算方法為: 先基于滑動窗口, 對主題詞進行One-Set分割(一個Set內的任意兩個詞組成詞對進行對比), 再使用歸一化點態互信息(normalized pointwise mutual information, NPMI)[20]和余弦相似度[21]間接獲得連貫度. 其取值范圍為[0,1], 用于衡量同一主題內的特征詞語義是否連貫, 其數值越高模型效果越好[22]. 歸一化點態互信息的計算公式為

(7)

其中:γ為設置的權重;P(wi,wj)表示包含wi,wj的文本與全部文本的比值;o′表示平滑因子, 是為了在計算中保持數值穩定性并避免零概率問題.

其次, 考慮初始聚類中心存在隨機性的問題, 使用LDA模型得出的主題特征向量ω作為初始聚類中心可有效反映其文本主題的劃分信息, 同時可避免K-means聚類層隨機選擇聚類中心而影響聚類效果. 其步驟如下:

1) 使用主題特征向量ω作為初始聚類中心ω=(ω1,ω2,…,ωK), 其中K為聚類數目;

2) 計算每個樣本數據Zi與K個聚類中心的距離, 將其劃分到距離最近中心點所在的簇中;

3) 重新計算每個簇中所有數據對象的平均值, 將其作為新的簇中心ω′, 用公式表示為

(8)

其中ci為每個簇中的數據對象;

4) 重復步驟2)和步驟3), 直到簇心不發生改變或達到最大迭代次數.

使用基于主題連貫性選擇的聚類數目K, 并使用主題特征向量ω作為初始聚類中心的聚類層流程如圖4所示.

圖4 聚類層的聚類流程Fig.4 Clustering process of clustering layer

1.3.3 訓練聚類算法

經過自動編碼器進行參數初始化得到降維后的潛在特征空間的文本特征Zi后, 預訓練編碼器后堆疊聚類層, 從而形成聚類算法.為同時提升聚類和特征表示的效果, 利用聚類結果優化編碼器和聚類算法的參數, 進行聚類算法的訓練.因此本文將計算輔助目標分布, 并根據算法聚類結果最小化KL(Kullback-Leibler)散度[9], 其流程為: 1) 每個樣本點屬于簇的概率得到樣本點的概率分布Q; 2) 使用輔助目標分布從當前高置信度分配中學習優化聚類質心.重復該過程直到滿足收斂條件.訓練聚類算法的步驟如下.

1) 計算每個樣本點i屬于簇j的概率qij, 用公式表示為

(9)

得到樣本點的概率分布Q, 其中:zi表示樣本點的特征向量;μj表示簇心向量;v是t分布的自由度, 由于無法在無監督環境中對驗證集上的v進行交叉驗證, 并且學習它是多余的[23], 因此本文將其取值為1.

2) 目標分布應該具有以下屬性: 加強預測, 提升聚類精度; 更關注于高置信度的數據樣本; 避免大聚類組干擾隱藏特征空間.因此本文使用文獻[9]提出的輔助目標分布P=(pij), 計算公式為

(10)

3) 聯合訓練編碼器和聚類層.本文采用KL散度作為損失函數訓練模型度量兩個分布Q和P之間的差異, 計算公式為

(11)

其中qij是樣本點i屬于簇j的估計概率值,pij是樣本點i屬于簇j的近似概率值.

1.4 評論文本聚類可視化分析

1.4.1 評論文本二維聚類可視化

UMAP(uniform manifold approximation and projection)是一種數據降維可視化工具, 具有優越的運行性能和可擴展性, 同時在可視化質量方面保留了更多的全局結構[24]. 因此, 本文使用UMAP工具對聚類后的數據集主題進行可視化展示.

1.4.2 聚類結果可視化

UMAP獲取可視化聚類結果后, 使用詞云圖可以對文本數據中出現頻率較高的關鍵詞予以視覺上的突出, 形成“關鍵詞的渲染”, 從而過濾掉大量的文本信息. 因此, 本文同時選取每個主題下高頻的主題詞進行詞云圖可視化分析, 以達到更直觀的聚類結果展示.

1.5 本文算法設計

本文基于改進DEC的評論文本聚類算法的整體步驟如下.

算法1基于改進DEC的評論文本聚類算法.

輸入: 經過預處理后的數據集En;

輸出: 聚類可視化結果;

步驟1) 將En輸入BERT模型, 根據式(1)得到BERT句子嵌入向量Di;

步驟2) 將En輸入LDA模型, 根據式(2)和式(3)得到主題分布向量μ和主題特征向量ω;

步驟3) 根據式(4)獲得融合BERT-LDA的數據集向量Di,μ;

步驟4) 配置自動編碼器的優化器參數及迭代參數;

步驟5) 根據式(5)進行自動編碼器訓練, 得出降維后的向量特征表示;

步驟6) 配置聚類算法的優化器參數并定義損失函數;

步驟7) 根據式(7)進行主題連貫性選擇初始聚類數目K;

步驟8) 用主題特征向量ω作為初始聚類中心, 根據式(8)進行K-means初始聚類;

步驟9) 根據式(9)計算每個樣本點i屬于簇j的概率分布Q;

步驟10) 根據式(10)計算輔助目標分布P;

步驟11) 定義算法訓練的初始損失值、 迭代參數及終止條件;

步驟12) 采用KL散度根據式(11)進行輔助目標分布P的更新, 度量兩個分布Q和P之間的差異;

步驟13) 檢驗終止條件;

步驟14) 使用UMAP和詞云圖輸出聚類可視化結果.

2 實驗及分析

2.1 實驗數據集

聚類分析是指應用數學方法按照數據間的相似性進行劃分的過程[25]. 針對目前電商產品中的在線評論文本多是無標注的數據, 而要從相應的評論數據集中獲取有用信息, 就需要進行相應的評論聚類以獲取用戶對產品進行評論的情況. 使用本文基于改進DEC的評論文本聚類算法對電商產品手機的評論數據集進行聚類, 并進行聚類結果可視化分析. 本文選取天貓商城(www.tmall.com)和京東商城(www.jd.com)中的華為手機評論數據作為實驗研究數據, 利用Python軟件爬取購買華為手機用戶對相關手機發表的在線產品評論. 爬取的手機型號是目前該品牌熱銷的旗艦款手機, 如mate40,mate40pro,p40,p40pro等. 其中包含19 869條初始數據.

通過對獲取的產品評論數據集進行重復剔除, 如出現的多條“此用戶沒有填寫評論!”等, 同時去除出現較多但與評論聚類無關的停用詞, 得到12 289條進行實驗的評論數據. 數據集示例列于表1.

表1 數據集示例Table 1 Examples of datasets

2.2 實驗環境及參數設置

2.2.1 實驗環境

實驗的運行環境: 基于Windows10操作系統, 處理器為i5-10500H, 16 GB內存; 算法使用Python3.7編程語言實現, 編碼工作通過Pycharm開發工具完成, 主要使用的庫有Gensim3.8.1,keras2.3.1等.

2.2.2 實驗參數設置

在進行自動編碼器訓練以及改進DEC算法訓練時, 將epochs分別設為50,100,150,200,250個進行對照, 以評估其參數對算法結果以及訓練時間的影響, 結果列于表2.

表2 設置不同epochs的運行情況Table 2 Operation status of setting different epochs

由表2可見, 當設置epochs為200和250時, 輸出結果接近, 而運行250個epochs的時間遠大于設置200個epochs. 因此自動編碼器訓練時, 設置批量處理大小batch_size=128, 學習率為0.001, 訓練迭代epochs為200, 優化算法為Adam算法[26]. 同時, 在進行改進DEC算法訓練時, 設置每200個epochs訓練迭代更新目標分布, 優化算法為Adam算法, 損失函數為KL散度.

2.3 評價指標

根據是否需要外部信息, 聚類評價指標可分為外部聚類評價指標[27]和內部聚類評價指標[28], 外部評價指標旨在將聚類結果與預先確定的聚類結果進行比較. 而在無監督的聚類任務中, 通常并無預先確定的聚類結果, 因此內部評價指標更適用于無監督聚類評價. 聚類的輪廓系數和CH(Calinski-Harabaz)指標是推薦的聚類評價方法[29].

1) 輪廓系數是測量聚類簇內一致性的指標, 用于評價算法聚類效果的好壞, 其取值范圍為[-1,1], 數值越高算法效果越好, 計算公式為

(12)

其中:a(i)表示樣本點與同一簇中所有其他點的平均距離, 即樣本點與同一簇中其他點的相似度;b(i)表示樣本點與下一個最近簇中所有點的平均距離, 即樣本點與下一個最近簇中其他點的相似度.

2) CH指標通過計算簇內各點與簇中心的距離平方和度量簇內的緊密度, 同時也通過計算簇間中心點與數據集中心點距離平方和度量數據集的分離度. CH越大表示簇自身越緊密, 簇與簇之間越分散, 即更優的聚類結果. 計算公式為

(13)

其中: tr(X)表示求矩陣X的跡;N為樣本數;k為簇的數量;Bk和Wk分別計算組間協方差和組內協方差, 其計算式為

(14)

(15)

其中xq為簇q中所有數據的集合,cq為簇q的中心點,c為樣本集合中心點,nq為簇q包含點的個數.

2.4 對比算法實驗

將如下7種算法與本文算法在相應的數據集上進行對比實驗, 分別進行5次實驗, 其輪廓系數指標和CH指標結果列于表3.

表3 不同算法的5次實驗指標對比結果Table 3 Comparison results of 5 experimental indicators of different algorithms

1. TF-IDF+K-means: 是一種基線算法, TF-IDF獲取詞向量, 直接利用K-means聚類算法進行聚類.

2. Word2Vec+K-means: 是一種基線算法, Word2Vec獲取詞向量, 直接利用K-means聚類算法進行聚類.

3. BERT+K-means[15]: 該算法使用BERT模型得到相應的文本特征表示, 再利用K-means聚類算法進行聚類.

4. BERT+DEC[16]: 該算法使用BERT模型得到相應的文本特征表示, 再利用DEC聚類算法進行聚類.

5. BERTopic+AE+K-means[1]: 該算法基于BERT得到文本向量表示, 同時根據文檔概率分布獲得潛在主題, 再結合自動編碼器與K-means進行數據的聚類.

6. BERT-LDA+原始DEC: 在本文基于BERT-LDA得到文本向量表示后, 結合未改進DEC聚類算法進行聚類實驗.

7. BERT-LDA+改進DEC: 本文提出的聚類算法, 基于BERT-LDA得到文本向量表示, 再結合改進DEC算法對數據進行聚類.

由表3可見: 在算法1~算法3中, BERT+K-means的效果最好, 說明在評論的聚類中, 直接利用基于詞頻進行表示的聚類效果較差, 而通過大量語料進行預訓練的BERT模型進行向量表示可有效提高后續聚類的能力; 由算法3分別與算法4和算法5之間的對比可見, 結合深度嵌入聚類進行訓練比直接進行K-means聚類可以得到更優的效果; 同時可見, 在BERT模型的基礎上加上Topic主題的融合訓練進行聚類的效果更優; 算法6與算法7相比, BERT-LDA+改進DEC算法相對于BERT-LDA+原始DEC算法, 其輪廓系統與CH指標波動變化最大約為6%和10%, 而BERT-LDA+原始DEC算法中第2次實驗和第4次實驗的輪廓系統與CH指標分別有約14%和19%的變化, 因此BERT-LDA+原始DEC算法的聚類結果差別波動較大, 且可能存在聚類結果較差的問題, 而本文基于BERT-LDA+改進DEC算法, 輪廓系數在5次實驗中結果均大于0.2, 且均優于未改進的原算法, 因此, 本文算法在指標更優的基礎上也很好地改善了聚類結果差別波動較大的問題.

本文算法在指標結果上均優于其他對比算法, 說明本文提出的結合BERT-LDA進行向量表示以及結合改進DEC算法的有效性. 在無監督聚類中, 該算法的聚類簇內一致性更好, 同時該算法有更明顯的簇內自身更緊密以及簇與簇之間更分散的效果.

2.5 實驗結果與分析

首先采取向量融合的方式, 將得到的BERT句子嵌入向量與LDA主題分布向量進行拼接融合, 得到基于BERT-LDA的融合向量輸入. 其中LDA模型得到的主題分布向量部分示例列于表4.

表4 主題分布向量部分示例Table 4 Some examples of topic distribution vector

其次進行改進DEC算法的構建, 利用自動編碼器對上述的文本向量做向量降維, 再將編碼器后堆疊聚類層, 其中使用LDA模型得出的主題特征向量ω作為初始聚類中心, 并且通過主題連貫性的變化選擇最合適的主題數目K, 以此作為K-means算法的聚類數目K, 其主題連貫性隨主題數的變化曲線如圖5所示. 由圖5可見, 當主題數為8時, 模型的主題連貫性最大, 因此可設置聚類的初始聚類數為8. 再輸入主題特征向量ω作為初始聚類中心, 進行聚類算法的優化訓練.

圖5 主題數-主題連貫性變化曲線Fig.5 Change curves of topic coherence with number of topics

最后得到相應的聚類結果, 并利用UMAP工具進行聚類可視化效果展示. 產品評論文本聚類后的二維聚類可視化結果如圖6所示.

圖6 二維聚類可視化Fig.6 Two-dimensional clustering visualization

由圖6可見, 8個聚類的聚類效果可較明顯地從可視化圖中看出其劃分情況. 其中cluster1,cluster3,cluster4,cluster5,cluster6和cluster7聚類簇之間被較明顯的進行了劃分; 而cluster0與cluster2之間存在一部分重合. 具體評論數據的聚類結果及其重合的情況可對聚類簇內的內容分析可得. 因此, 在8個聚類數目的基礎上, 選擇每個簇中評論高頻詞進行詞云圖可視化分析, 從而達到更直觀的聚類結果展示. 得出的8個聚類結果的詞云圖展示如圖7所示. 篩選出每個聚類簇中的關鍵詞列于表5, 由此可得進行聚類后的各簇中所包含的評論具體信息.

圖7 聚類結果的詞云圖展示Fig.7 Word cloud graph display of clustering results

由表5可見, 對手機評論進行聚類后, 得到的8個聚類簇的關鍵詞結果可以有效體現用戶對產品評論的聚類結果. cluster0中主要的關鍵詞為拍照、 電池、 效果、 速度等, 而cluster2中的主要關鍵詞也有拍照、 效果、 續航、 電池等. 其拍照和電池同時出現在一個簇內, 體現了用戶在評論手機時, 通常將對拍照和電池的體驗同時發表評論, 也在一定程度上體現了用戶對拍照和電池方面的較高關注度. 這種情況也體現在二維聚類可視化圖6中cluster0和cluster2之間存在一部分重合的情況. 在cluster1中出現較多的關鍵詞為外觀、 手感、 顏值等, 體現了該簇中包含的評論主要涉及用戶在購買手機時對外觀的關注情況; cluster3中出現較多的關鍵詞為老爸、 家人等, 體現了該簇包含的評論主要涉及手機的使用者或購買對象的情況; cluster4中出現較多的關鍵詞為京東、 物流等, 體現了該簇中包含的評論主要涉及購買手機的物流運輸情況; cluster5中出現較多的關鍵詞為屏幕、 使用等, 體現了該簇中包含的評論主要涉及用戶在購買手機時對屏幕的關注情況; cluster6中出現較多的關鍵詞為華為、 國貨等, 體現了該簇中包含的評論主要涉及用戶在購買手機時對品牌的考慮情況; cluster7中出現較多的關鍵詞為系統、 鴻蒙等, 體現了該簇中包含的評論主要涉及用戶在購買手機時對系統的關注情況.

綜上所述, 本文提出了一種基于改進DEC的評論文本聚類算法對評論數據進行無監督聚類, 可以應用于在無標注的產品評論數據集中更好地獲得用戶對于手機進行評論的具體內容分布情況. 通過利用BERT獲取句子向量表示以及LDA獲得主題分布向量表示進而得到融合的數據向量表示; 進一步將其輸入改進DEC算法中, 根據LDA模型可以得到主題連貫性的效果評價確定聚類的初始數目, 并使用主題特征向量作為自定義聚類中心; 同時在模型中計算樣本點的概率分布Q, 再結合輔助目標分布P, 利用KL散度作為損失函數聯合訓練自動編碼器的編碼層和聚類層. 通過與對比算法在產品評論數據集上進行無監督聚類的比較, 結果表明, 本文算法在輪廓系數和CH指標上均高于對比算法, 同時其聚類結果穩定性也更好.

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 男人的天堂久久精品激情| 一区二区三区四区精品视频| 久久久久无码国产精品不卡| 色亚洲成人| 欧美亚洲欧美区| 波多野结衣一二三| 黄色网站在线观看无码| 老汉色老汉首页a亚洲| 日日拍夜夜嗷嗷叫国产| 成人韩免费网站| 国产亚卅精品无码| 国产精品无码一区二区桃花视频| 亚洲日韩高清无码| 伊人大杳蕉中文无码| 91视频首页| 色国产视频| 丁香五月亚洲综合在线| 久久久久夜色精品波多野结衣| 91精品视频播放| 亚洲国产精品久久久久秋霞影院| 久久大香伊蕉在人线观看热2| 精品国产中文一级毛片在线看| 亚洲美女高潮久久久久久久| 国内毛片视频| 国产综合另类小说色区色噜噜| 国产免费精彩视频| 中国国产高清免费AV片| 超清无码熟妇人妻AV在线绿巨人| 午夜三级在线| 国产成人精品午夜视频'| 孕妇高潮太爽了在线观看免费| 国产99视频精品免费视频7| 国产91九色在线播放| 国产原创自拍不卡第一页| 一本大道无码日韩精品影视| 婷婷综合在线观看丁香| 亚洲第一视频免费在线| 制服丝袜亚洲| 看你懂的巨臀中文字幕一区二区| 狠狠亚洲五月天| 久久久久亚洲AV成人人电影软件 | 欧美亚洲香蕉| 国产精品久久国产精麻豆99网站| 久久午夜夜伦鲁鲁片无码免费 | 久久黄色视频影| 亚洲精品在线观看91| 国产成人综合久久精品下载| 欧美在线黄| 高清视频一区| 国产精品亚洲五月天高清| 91久久青青草原精品国产| 中文字幕在线观看日本| 欧美一级在线播放| 青青草国产一区二区三区| 亚洲人成网站色7777| 九色91在线视频| 亚洲综合精品第一页| 亚洲av无码牛牛影视在线二区| 性视频久久| 专干老肥熟女视频网站| 国产系列在线| 在线观看亚洲天堂| 亚洲欧美日韩中文字幕在线一区| 夜夜爽免费视频| 99精品福利视频| 91av国产在线| 国产微拍精品| 亚洲嫩模喷白浆| 2020国产在线视精品在| 亚洲啪啪网| 女人18毛片久久| 一级片免费网站| 久久久久青草大香线综合精品| jizz在线免费播放| 国产高清免费午夜在线视频| 免费在线视频a| 不卡的在线视频免费观看| 最新国产麻豆aⅴ精品无| 色久综合在线| 114级毛片免费观看| 最新国产麻豆aⅴ精品无| 又粗又大又爽又紧免费视频|