999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖卷積網絡的服裝評價信息分類問題的研究

2021-07-11 18:43:52姚婷婷劉國華
智能計算機與應用 2021年1期

姚婷婷 劉國華

摘?要:隨著互聯網的快速發展以及電子設備的逐漸普及,越來越多的人選擇在網上購物,買家在購買商品之后,可以通過平臺提供的評價系統表達自己對服裝產品的感受,因此會產生大量的服裝評價信息。由于這些評價信息的標簽是通過人工選擇的,會受到外在因素的影響,所以具有不確定性。這些不確定性產生的誤差會影響到平臺以及其他用戶對服裝產品的評判。針對這一問題,本文研究了一種基于圖卷積的分類方法,將單詞、文檔、主題視為節點,三者之間的關系作為邊構建大型異構圖網絡。將該異構圖作為圖卷積網絡模型的輸入,并引入了注意力機制,根據不同鄰居節點與某一特定節點的關系具有不同的重要程度,構建了關注矩陣。最后對一個公開的服裝評價文本進行實驗評估以及分析,實驗結果表明本方法取得的分類結果優于傳統神經網絡。

關鍵詞: 文本分類;文檔主題生成模型;服裝評價;圖卷積網絡;注意力機制

文章編號: 2095-2163(2021)01-0036-06 中圖分類號:TP181 文獻標志碼:A

【Abstract】With the rapid development of the Internet and the gradual popularization of electronic devices, more and more people choose to shop online. After buying goods, buyers can provide their own feelings about clothing products through the comment system provided by the platform, which will generate a lot of apparel comment information. Since the labels of these comment information are manually selected and will be affected by external factors, they are uncertain. The errors caused by these uncertainties will affect the judgment of the platform and other users on clothing products. To solve this problem, this paper studies a classification method based on graph convolution, which regards words, documents, and topics as nodes, and the relationship among the three as edges to build a large heterogeneous graph network. The heterogeneous graph is used as the input of the graph convolution network model, and the attention mechanism is introduced. According to the different importance of the relationship among different neighbor nodes and a specific node, the attention matrix is constructed. Finally, an experimental evaluation and analysis of a public clothing evaluation text are carried out. The experimental results show that the classification results obtained by this method are better than traditional neural networks.

【Key words】text classification; Latent Dirichlet allocation; apparel comment; Graph Convolution Network; attention mechanism

0 引?言

隨著電子商務的飛速發展以及電子設備的普及,越來越多的人選擇在網上購物并且發表自己對商品的評價,服裝行業亦是如此。這些服裝評價信息反映了已購用戶對服裝的滿意程度。服裝評價信息中所包含的對服裝特征的自然語言表述,一方面會對潛在用戶的購買行為產生影響,另一方面可以為商戶和電商平臺對服裝的市場價值的評估提供重要的評判依據,同時也為商家能不斷改進服裝提供了方向[1]。所以,服裝評價信息對所有用戶、電商平臺、商戶、數據研究者都具有重要意義。如果能夠采用合適的算法對服裝評價信息進行研究,無疑對生產生活都能提供幫助。

本文基于圖卷積網絡,對售賣服裝的網站的評論信息進行分析。分析的意義在于,在某服裝頁面下的評價信息非常多的情況下,用戶和商家想要查看已購用戶對該服裝的看法無疑會耗費大量時間和精力。雖然現在有些服裝售賣網站提供了好評/差評的選項給買家進行人工選擇。但是由于人工選擇會有很多外在因素影響,所以具有不確定性。例如,一部分用戶雖然對服裝不滿意,但是由于商家耐心的服務態度以及良好的物流體驗選擇了好評,同理,也會有一部分用戶將基于商家不好的服務態度,物流速度慢等原因給出了差評,但是該用戶群體對服裝本身還是滿意的,這就可能對商家和其他用戶對商品的判定產生誤差[2]。所以,本文采用的半監督圖卷積文本分類能實現在少量標注文檔的情況下實現較強的分類性能,并能可解釋地學習單詞和文檔節點嵌入。

1 相關技術

1.1 傳統文本分類

傳統文本分類主要是由特征工程加分類模型兩部分組成的。特征工程的主要目的是將數據轉換成計算機可以理解的形式,且保留了足夠用于分類的信息,能夠正確表達文本的內容。詞袋模型或向量空間模型是最常用的傳統特征工程方法,方法中容易忽略文本的上下文關系,每個詞之間彼此獨立,并且無法表征語義信息[3]。而傳統分類器主要作用是對特征工程處理過的信息進行分類,常見分類模型有樸素貝葉斯分類算法、KNN、SVM、最大熵和神經網絡等,分別有計算量大、內存消耗大、欠擬合、分類精度低等缺點。

1.2 深度神經網絡

傳統的文本分類高維度高稀疏的特性,導致了其計算量大,內存占用多等缺點;特征表達能力差的特性,導致分類精度低;而且需要人工進行特征工程,耗費人力。因此圖神經網絡這一課題近年來受到越來越多的關注,在大量的文本數據面前將首先要研究文本表示,然后再利用CNN或RNN等神經網絡模型進行文本分類,省去了人工進行特征工程的麻煩。

首先關于文本表示,學者們研究了很多有效的詞嵌入方法,將文本用詞向量的形式表示出來,?在2013年Mikolov等人[4]發表了2篇關于word2vec的文章,同時還發布了word2vec工具包,跳字模型(skip-gram)和連續詞袋模型(CBOW),將詞嵌入模型變得更加成熟,并得到大規模應用。還有一些研究者將詞嵌入聚合成文檔嵌入并作為分類器的輸入,至此,文本數據的表示解決了高維度高稀疏的問題。

其次,利用CNN、RNN等深度神經網絡及其變體實現文本分類的問題。2014年,Kim提出的TextCNN主要對CNN的輸入層做變形來進行文本分類[5]。利用訓練好的詞向量完成分類任務,簡單的網格結構使得TextCNN具有計算量少,訓練速度快等優勢,在很多公共數據集上取得了不錯的效果。但是TextCNN依然有局限性,其視野局限在窗口大小范圍內,使其面對較長的文本序列時分類能力下降,只適合短文本分類。為了對長文本分類,且更好地表達上下文信息,Liu等人[5]在2016年和Luo等人[6]在2014年使用LSTM來學習文本表示。CNN和RNN在文本分類中都能取得顯著的效果,但是可解釋性不好,所以又引入了注意力機制來捕獲每個詞對結果的貢獻程度。雖然這些方法有效地實現了利用神經網絡進行文本分類,但是都忽略了全局詞共現的問題,詞共現中攜帶了不連續以及長距離的語義信息。

1.3 圖神經網絡

由于生活中很多數據并不具備規則的空間結構,對于這些不規則的數據,普通卷積顯得難以使用固定的卷積核來適應不規則的圖結構,所以研究者們又提出了一種新的圖卷積模型。基于圖的深度學習最早由Gori等人[7]在2005年提出,使得學習過程可直接架構于圖數據之上。之后2009年Scarselli等人[8]又提出了一種監督學習的方法GNN,基于信息傳播機制,每一個節點通過相互交換信息來更新自己的節點狀態,直到達到某一個穩定值。但是這種算法計算量非常大。2016年,Defferrard等人[9]開始探討積分在文本分類上有好的結果的原因,從頻譜上論證了方法的可行性。2016年,Kipf等人[10]的方法把頻譜圖卷積的定義進行簡化,將文本文檔建模為文檔詞圖,極大提高計算效率。該模型在一系列基準數據集上取得了很好的分類結果。2019年,Yao等人[11]首次提出構建以單詞和文檔為節點的異構圖網絡,并沒有使用注意力機制來捕獲節點與節點之間的重要程度,使得在評價類文本中準確率略低于CNN,LSTM等神經網絡模型。本文的方法基于頻譜圖卷積神經網絡,對Yao等人的模型進行了進一步改進,將單詞和文檔作為節點構建圖數據,再用GCN進行卷積。并引入了注意力機制,關注節點之間的重要程度。

2 服裝分類模型

2.1 問題描述

已知一個用戶評價信息的集合O={O1,O2,O3,…,On},Oi=id,class,review,(Oi∈O),表示每個用戶的評價信息,以及一個預先定義的類別C={c1,c2},求一個映射模型F(·),使Oi∈OF(·)C。

本文需要對具有少量標簽數的服裝文本信息進行分類,提出了一種基于圖神經網絡的半監督文本分類的方法,從語料庫中構建了一個大型異構圖,圖中節點為單詞、文檔和主題,圖中的邊由單詞文檔和主題之間的關系連接,這樣可以捕捉到全局的詞共現信息。再使用Kipf和Welling在 2017年提出的圖卷積網絡對圖中節點進行訓練,還引入了Kiran在2017年提出的注意力機制,對節點之間的邊添加注意力權重。使之更加適應情感分類。

2.2 異構圖的構建

本次研究中,構建了一個集合了單詞節點C={c1,…,cm},文檔節點D={d1,…,dn},以及主題節點T={T1,…,Ti}的異構圖網絡G(V,E),并使用基于Wikipedia語料庫的word2vec學習單詞以及文檔的嵌入,而潛在主題的嵌入選用單詞上的概率分布來表示。如圖1所示,將{C,D,T}所有節點的集合來表示圖G。其中,G節點數量為m,n,i三者之和。每個節點都被表征為特征向量。文檔節點之間的邊可通過2個節點之間的相似度評分點互信息PMI確定,如果PMI大于0,則在文檔和單詞之間建立一條邊,且邊的權重為PMI(i,j),單詞和單詞之間的邊采用詞頻-逆文檔頻率來判斷,每個話題和文檔之間,可將每個文檔分配給概率最大的前k個主題[12]。因此,如果將文檔分配給主題,則會建立文檔和主題之間的邊緣。

由于不同類型的節點之間特征值是不同的,所以文中對不同類型的節點分別進行卷積。研究時對不同類型的節點設為={φd,φt}[13]。其中,φd表示文檔和單詞組成的節點類型,φt表示主題節點的類型,可將同一節點類型的節點卷積后相加,對應數學運算公式可寫為:

2.3 圖卷積分類

構建一個圖G(V,E),V和E分別是節點和邊的集合,設|V|=n為節點個數,Xi∈Rm,其中,i∈(1,n),m是節點i的維度。引入節點i的鄰接矩陣A以及度矩陣D,為了使每個節點卷積過程中不僅集合了鄰域信息,還保留自身的信息,所以給鄰接矩陣添加自環,將A矩陣的對角元素置1,A的數學表達可寫為:

同時設置雙層GCN,其中第一層矩陣的特征值被更新為:

其中A=D-12AD-12為歸一化鄰接矩陣;W0為權重矩陣;α(·)為激活函數。

可以獲取第二層領域信息,即:

其中,l表示層數。

2.4 半監督分類

對于半監督分類,使用交叉熵來評估帶有標簽的文檔,具體公式見如下:

其中,yL是所有帶標簽節點的索引,使用梯度下降法可以更新W0,W1參數矩陣;Ylf表示標注類別;Zdf為預測的類別;F是輸出層的特征維數,等于類別的數量。由于本文研究是二分類問題,所以F等于2。

2.5 注意力機制

在構建圖的過程中,由于節點之間相關則有邊,無關則沒有邊,但是對于某一節點,不同鄰居節點對其影響是不同的,有些節點可能攜帶了更多有用的信息。為了區分不同鄰居節點對于該節點的重要程度,本文引入了注意力機制,單詞和單詞之間的權重采用的是PMI(i, j)的值表示,單詞與文檔之間的權重采用的是詞頻-逆文檔頻率,文檔節點i與主題節點j之間的相關性將采用公式具體如下:

其中,符號“‖”表示將節點vi、vj變換后的特征進行拼接,函數α(·)作用是把拼接后的特征映射到一個實數上。假設一個特征為F的輸入節點滿足hi∈RF,一個特征為F′的輸出節點滿足h′j∈RF′,則要對所有節點訓練一個W∈RF×F′的權重矩陣,W即輸入與輸出的關系[14]。

由于節點vi只與其鄰居節點有關聯,所以研究中的注意力系數表達的是目標節點vi與其鄰居節點j∈Ni之間的關系。為了便于計算和比較,文中采用了softmax函數對vi與所有鄰居節點的注意力系數進行正則化,最終能得到本次研究中的注意力機制為:

研究過程中,原先的鄰接矩陣只是簡單地將有關聯的邊置1,加上注意力機制后文中的鄰接矩陣變成了傳播矩陣,定義為:

最后,加入了注意力機制的輸出層為:

3 實驗與評估

3.1 參數設置

文中采用的數據集來自于kaggle網站的公開數據集Womens Clothing E-Commerce Reviews,該數據集有11個字段,詳見表1。研究中選取了第五列的評價文本,以及第七列的文本標簽用于實驗。經統計在該數據集中,共有23486條評論數據。其中有19314個好評,以及4172個差評,為了能夠使好評和差評數量均衡,隨機選取了4172個好評,以及全部的差評進行了實驗,共計8344條文本數據。至此,單詞結點數有4557個,設置詞嵌入維度為200,主題數為15。訓練集輸入70%、即5840條數據,測試集為30%、即2504條數據,窗口大小20,對文本進行200個epoch的訓練,如果損失函數超過10個epoch沒有減少,就停止訓練。學習率設置為0.02,dropout為0.5。

3.2 準確度

模型分類的結果最終會被歸為以下4類:

(1)TP:將正類預測為正類數。

(2)TN:將負類預測為負類數。

(3)FP:將負類預測為正類數。

(4)FN:將正類預測為負類數。

研究時對模型的準確率做出評價,通過以下公式計算得到最終的準確率為0.76438,其中需用到的公式可寫為:

3.3 實驗結果

本文還使用了最常見的神經網絡的分類模型CNN以及RNN對文本數據進行了分類,與本文的模型進行了對比,對比結果見表2。可以看到本次研究結果是優于傳統的文本分類的,這表明了本文提出的方法對半監督文本分類具有不錯的分類效果。究其原因有以下三點:

(1)GCN考慮了文檔與文檔之間、單詞與單詞之間、以及文檔與主題之間的詞共現關系。

(2)CNN是將中心像素點與相鄰像素點求均值來實現空間特征的提取,而GCN是利用圖的拉普拉斯矩陣的特征值和特征向量來研究圖的性質,通過聚合所有二階領域的信息加權平均,通過圖的邊來傳遞節點的信息,使節點既保留了自身特征又聚合了鄰居節點特征,將標簽信息在圖上傳播。

(3)本文引入的注意力機制使中心節點在聚合過程中關注到節點之間的關系的重要程度的影響,使得本文構建的模型更加適應情感分類。

實驗通過改變第一層嵌入維度的大小,來觀察對模型的影響,結果如圖2所示。該結果表明,隨著嵌入維度的增加,本文模型分類準確度先增加后減少,這是由于一開始隨著嵌入維度的增加,嵌入能更好地將標簽信息傳播到整個圖中,而當到達峰值200維的時候,詞向量的增加反而會影響分類的性能和速度。

實驗通過改變不同比例的訓練數據來觀察該指標對模型的影響,如圖3所示。由圖3可以得出結論,準確度隨著訓練標簽的增加而增加,但是同時還發現GCN在較少的訓練數據的情況下,也能具有良好的性能。這是因為GCN是半監督分類,以及圖結構可以很好地將標簽信息傳播到整個圖中。

實驗通過改變滑動窗口大小對模型進行評估,如圖4所示。圖4表明隨著窗口的增大準確度先增大,這是因為此時窗口的增大包含了更多的全局信息,但是到達峰值15窗口后,再增加只能為添加更多的無關節點增加新的邊,所以準確度不再增長。

圖5顯示了主題數對模型準確性的影響,可以觀察到,準確度現隨著主題數的增加而增加,因為主題數很好地豐富了異構圖表示的語義信息,當主題數到達15的時候,準確度隨著主題數的增加而減少,證明過多的主題反而會影響圖卷積分類模型的性能。

4 結束語

本文改進了圖卷積文本分類的方法,為語料庫構建基于單詞、文檔、主題的異構圖網絡,將文檔分類轉化成節點分類。并進行了實驗,取得了不錯的效果。該模型的研究在很大程度上豐富了異構圖表達的語義信息,能很好地利用有限的標記文檔,能有效實現語義信息在圖上傳播。因此,對服裝評價信息進行正確分類一方面對電商平臺制造更多高品質服裝提供方向,另一方面對用戶具有重要參考意義。所以圖卷積文本分類具有較高的研究價值。

參考文獻

[1]高永兵, 王亮, 胡文江. 淘寶商品評價屬性分類研究[J]. 微型機與應用, 2014, 33(11):8-11,15.

[2]李宏媛, 陶然. 服裝電商評論情感分析研究[J]. 智能計算機與應用, 2017, 7(1):27-30,34.

[3]KIPF T N, WELLING M . Semi-supervised classification with graph Convolutional Networks[J]. arXiv preprint arXiv:1609.02907,2016.

[4]MIKOLOV T, SUTSKEVER I, CHEN Kai, et al. Distributed representations of words and phrases and their compositionality[C]∥Proceedings of the 26th International Conference on Neural Information Processing Systems(NIPS'13). NY, United States:NIPS,2013,2: 3111-3119.

[5]LIU Pengfei, QIU Xipeng, HUANG Xuanjing. Recurrent Neural Network for text classification with multi-task learning[C]∥Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence(IJCAI'16). New York:IJCAI,2016:2873-2879.

[6]LUO Yuan, SOHANI A R, HOCHBERG E P, et al. Automatic lymphoma classification with sentence subgraph mining from pathology reports[J]. Journal of the American Medical Informatics Association Jamia, 2014,21(5):824-832.

[7]GORI M, MONFARDINI G, SCARSELLI F. A new model for learning in graph domains[C]∥Proceedings of 2005 IEEE International Joint Conference on Nerual Network. Montreal,Que. Canada: IEEE, 2005:729-734.

[8]SCARSELLI F, GORI M, TSOI A C, et al. The graph neural network model[J]. IEEE Transactions on Neural Networks, 2009, 20(1):61-80.

[9]DEFFERRARD M, BRESSON X, VANDERGHEYNST P. Convolutional neural networks on graphs with fast localized spectral filtering[C]∥Proceedings of the 30th International Conference on Neural Information Proceeding Systems(NIPS'16). Barcelona,Spain:NIPS, 2016: 3844-3852.

[10]KIPF T N, WELLING M. Semi-supervised classification with graph Convolutional Networks[J]. arXiv preprint arXiv:1609.02907,2016.

[11]YAO Liang, MAO Chengsheng, LUO Yuan. Graph convolutional networks for text classification[C]∥AAAI Conference on Artificial Intelligence. Honolulu, Hawaii, USA:AAAI, 2019, 33: 7370-7377.

[12]ZENG Jichuan, LI Jing, SONG Yan, et al. Topic memory networks for short text classification[J]. arXiv preprint arXiv:1809.03664, 2018.

[13]BLEI D M, NG A Y, JORDAN M I, et al. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2012, 3:993-1022.

[14]THEKUMPARAMPIL K K, WANG Chong, OH S, et al. Attention-based graph neural network for semi-supervised learning[J]. arXiv preprint arXiv:1803.03735, 2018.

主站蜘蛛池模板: 欧美日韩国产在线播放| 国产永久免费视频m3u8| 日本午夜精品一本在线观看| 992tv国产人成在线观看| www.av男人.com| 免费午夜无码18禁无码影院| 亚洲成AV人手机在线观看网站| 999精品在线视频| 午夜视频www| 久久人妻xunleige无码| 黄色网站不卡无码| 色妞www精品视频一级下载| 欧美自慰一级看片免费| 午夜福利视频一区| 亚洲一区二区成人| 特级aaaaaaaaa毛片免费视频| 四虎免费视频网站| av一区二区三区高清久久| 孕妇高潮太爽了在线观看免费| 人妻丝袜无码视频| 亚洲欧美日韩动漫| 亚洲AV成人一区国产精品| 韩国v欧美v亚洲v日本v| 欧美不卡视频一区发布| 亚洲成综合人影院在院播放| 这里只有精品免费视频| 亚洲欧洲美色一区二区三区| 国产精品性| 四虎成人精品在永久免费| 久久精品国产免费观看频道| 国产99在线观看| 性做久久久久久久免费看| 凹凸国产分类在线观看| 国内精品视频| 亚洲无线视频| 黄色网站在线观看无码| 久久天天躁狠狠躁夜夜躁| 国产欧美日韩另类精彩视频| 欧洲精品视频在线观看| 毛片网站观看| 欧美在线网| 国产精品污污在线观看网站| 欧美国产综合视频| 国产毛片久久国产| 国产一区二区精品福利| 麻豆精品视频在线原创| 精品国产成人av免费| 欧美黄网在线| 日本黄色不卡视频| 日韩高清在线观看不卡一区二区| 蜜芽一区二区国产精品| 91口爆吞精国产对白第三集| 亚洲IV视频免费在线光看| 国模视频一区二区| V一区无码内射国产| 国产91视频观看| 亚洲日韩AV无码精品| 好久久免费视频高清| 妇女自拍偷自拍亚洲精品| 另类专区亚洲| 久久久久人妻一区精品| 欧美中文字幕在线视频| 中文字幕伦视频| 国产精品.com| 青青草国产精品久久久久| 在线无码九区| 香蕉精品在线| 国产不卡国语在线| 91午夜福利在线观看精品| 一本色道久久88亚洲综合| 国产日韩av在线播放| 久久窝窝国产精品午夜看片| 日本在线国产| 日本午夜精品一本在线观看| 日韩午夜片| 韩国福利一区| 黄网站欧美内射| 内射人妻无套中出无码| 免费全部高H视频无码无遮掩| 久夜色精品国产噜噜| 伊人久久综在合线亚洲91| 中文毛片无遮挡播放免费|