999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合上下文信息圖卷積的中文短文本分類方法

2022-01-07 12:52:20胡俊清楊志豪施敬磊
電視技術 2021年11期
關鍵詞:分類特征文本

胡俊清,楊志豪,施敬磊

(昆明理工大學 信息工程與自動化學院,云南 昆明 650000)

0 引言

短文本通常較短,一般不超過150 個字符。短文本分類廣泛應用于電子商務[1]、社交媒體[2]、商品評論等方向,是自然語言處理中最重要的任務之一。隨著電子設備的普及和電商平臺的崛起,海量用戶在網上購物,商品評論文本急劇增加,如何對這些文本進行科學有效的分類管理成為研究熱點之一。評論文本的正確分類,可以影響用戶的購買行為,同時也對商家和電商平臺的營銷決策起重要作用。

基于深度學習神經網絡方法近年來受到廣泛關注,其方法也在不斷進步和演化,但是在圖結構數據上受到了很大的限制。比如,卷積神經網絡(Convolutional Neural Networks,CNN)不能直接處理圖結構數據,因為CNN 不能維持平移不變性,而且CNN 的卷積核大小固定,限制了依賴的范圍。因此,基于圖卷積網絡(Graph Convolution Network,GCN)[3]的文本分類方法越發受到研究人員們的重視[4]。雖然GCN 正逐漸成為基于圖的文本分類中一種比較好的選擇,但總體來說仍然存在一些弊端。

由于GCN 只聚合直接相鄰節點的信息,在短文本中忽略了非常有用的詞節點表示和詞序中的語義信息,要想獲得距離較長的上下文關系,只有利用增加圖卷積層數來解決。但經研究發現,GCN層數過多會導致極高空間復雜度的出現,而且網絡層數的增加也會使得節點信息過度平滑,不利于文本分類[5]。為了克服文本中上下文相關信息缺失的問題,本文在原有GCN 的基礎上引入了雙向長短時記憶網絡(Bi-directional Long Short-Term Memory,BiLSTM)[6],提出一種改進的GCN(BERT_BGCN)文本分類方法,討論融合上下文信息后的圖卷積網絡模型對文本分類的影響。

1 相關工作

與傳統的依靠人工提取特征的分類方法不同,目前基于深度學習的分類方法利用神經網絡自動獲取特征進行文本分類。例如,TAI 等[7]在序列化LSTM 中結合依存關系、短語構成等特性,使情感分析的語義表達更加明確。ZHANG 等[8]通過將情感詞信息引入BiLSTM 對文本進行分類。YANG 等[9]在文本分類任務中引入了層次化的attention 機制,從句子和文檔兩個角度使用注意力機制,以提高文本分類的準確性。

圖卷積神經網絡近年來在自然語言處理領域有大量的應用。BASTINGS 等[10]將圖卷積神經網絡作用于依存句法樹上,應用在英語和德語、英語和捷克語的機器翻譯任務。LI 等[11]提出了一種基于任務自適應構造新拉普拉斯矩陣并生成不同任務驅動卷積核的方法,該方法在處理多任務數據集方面優于GCN。YAO 等[12]將GCN 引入文本分類,并將整個語料庫建模為一個異構網絡,在不使用預訓練模型和外部知識的情況下取得了非常好的結果。盡管GCN 在文本分類中表現良好,但它仍然不能解決短文本分類任務中上下文語義信息缺乏和語義稀疏的問題。針對這個問題,提出融合上下文信息后圖卷積網絡的短文本分類模型。

2 模型設計

本文通過對基于神經網絡的文本分類研究,提出一種改進GCN(BERT_BGCN)短文本分類方法。模型結構分為文本預處理、得到初始特征矩陣、提取文本特征、構建鄰接矩陣、拼接特征、訓練網絡以及分類器預測等部分。首先,利用BERT 得到分字后文檔的初始特征表示,將其輸入到BiLSTM 中獲得更深層的文本特征,從而有效地利用了上下文信息。同時也將其輸入到第一層GCN,將兩種特征信息聚合形成BGCN 需要的特征矩陣。其次,為了提高分類效率,本文將文檔中每一個字設為圖節點,為每個輸入文本單獨構建一個全局點互信息(Pointwise Mutual Information,PMI)共享的圖。再次,將特征矩陣和鄰接矩陣輸入神經網絡進行訓練。由于本文沒有將文檔作為節點,因此最后進行圖讀出操作(ReadOut),通過全連接層進行節點聚合分類。模型框架如圖1 所示。

圖1 BERT_BGCN 總體框架

2.1 基于全局PMI 構圖

本文為每個輸入文本構建全局參數共享的圖,而不是為整個語料庫構建單個圖。這種方法消除了單個文本和支持在線測試的整個語料庫之間的依賴性負擔,但仍然保留了全局信息。為了確定節點間的關系,合理計算全局字共現信息,最常用的方法是使用一種關聯度量即計算節點之間的點互信息量(PMI)。節點x和y的PMI 值計算如式(1)所示:

計算文本中x和y的概率分布,一般采用的是滑動窗口的計算公式,即使用一個固定長度的滑動窗口在文本上滑動,統計滑動窗口中字出現的次數,記錄滑動窗口總數目,通過節點在滑動窗口中單獨出現的次數以及共現的次數計算他們的概率分布,如式(2)、式(3)所示。

式中:#W為滑動窗口的總數目,#W(x)為x出現在滑動窗口的次數,#W(x,y)為共同出現在滑動窗口的次數。

2.2 圖卷積網絡

圖卷積網絡(GCN)是一種能處理圖數據進行深度學習的模型,它通過運算將鄰居節點的特征聚合到自身節點,多次聚合后捕獲到節點與高階鄰域信息的依賴關系。對于一個圖G=(V,E),V表示為圖中節點的集合,E為邊的集合。圖卷積網絡層與層的傳播形式如式(4)所示。通過式(5)計算。

式中:A表示鄰接矩陣,D表示度矩陣,l表示GCN 疊加層數。當l為0 時,Hl=X0,X0∈Rn×d是初始特征矩陣即第一層網絡的輸入,n為圖中節點數,d代表每個節點特征的嵌入維度,A∈Rn×n為鄰接矩陣表示節點之間的關系,Wl∈Rd×m為第l層的權重參數矩陣。(·)為非線性激活函數,例如ReLU。

2.3 融合語義信息的特征矩陣

以往,GCN 通過建立一個全局字典進行onehot 編碼,只能提取淺層的初始特征,而初始特征質量往往影響到整個模型的性能。BiLSTM 分前向、后向兩個LSTM,能有效保留前后文信息,分析出所有節點的相關聯系,通過BiLSTM 模型可以更好地捕獲雙向的語義關系。因此本文利用BiLSTM 提取文本的更深層次的文本特征,還可以保留文本的位置信息并捕獲文本的序列化特征。本文利用BERT生成的初始特征矩陣同時輸入至BiLSTM 和GCN網絡,得到兩個隱向量矩陣hBiLSTM和hGCN,將兩個隱向量矩陣的特征信息聚合在一起,得到融合上下文信息的新特征矩陣hBGCN。操作如圖2 所示。

圖2 特征信息聚合過程

運算結果通過式(6)、式(7)、式(8)得到。

2.4 模型訓練

本節使用隨機梯度下降法對模型進行訓練,模型的損失函數采用交叉熵代價函數。模型的輸出層使用softmax 函數將向量壓縮為每個類別的概率進行輸出:

3 實 驗

3.1 數據集及評價指標

本文使用3 個二分類數據集,分別是譚松波酒店評論數據集、外賣評論數據集、京東網購評論數據集。其中,譚松波酒店評論數據集來源于網絡公開數據集,包括投宿者對酒店服務的正、反兩面評論,外賣評論數據集的內容主要包含點餐用戶對于食物味道的好壞、店家服務質量等方面的評價,京東網購數據集包括買家對商品及賣家服務的正、反兩面評論。

本文使用Accuracy評價模型的性能。令TP、FP、FN、TN分別代表正陽性、假陰性、假陽性、正陰性的分類數量。評價指標計算公式如下:

3.2 環境配置及參數設置

本文使用Python 3.7 的運行環境,實驗基于Keras 2.2.4 和Tensorflow 1.14.0 深度學習框架構建,實驗操作環境為Intel(R)Core(TM)i7-8700k,內存為8 GB。

本文模型使用的特征提取網絡模型為KIPF 等人提出的GCN,每層特征維度為256 維,batch_size為128,學習率為0.01,激活函數使用ReLU 函數。在得到字向量過程中使用的BERT 版本為基礎版本,有12 層神經,輸出維度為786,多頭注意力為12 頭,總共110 MB 參數。

3.3 基線模型

為了評估BERT_BGCN 的模型性能,本文用以下幾個基線模型與本文模型進行比較。

(1)LSTM。該模型是一個經典序列模型,直接使用輸入處理過的文本數據,僅使用一個LSTM 對文本數據進行建模,將輸出層輸出的特征向量送入softmax 函數進行分類。

(2)BiLSTM。該模型使用兩個不同方向的LSTM 對文本數據建模,解決了傳統LSTM 模型只保留文本過去信息而忽視了下文信息的弊端。

(3)Self-attention。該模型是谷歌開發的Transfomer 模型的基礎架構,使用注意力機制的思想,解決了文本信息長距離傳輸的問題。本文使用編碼器和譯碼器均為6 層的模塊進行堆疊,得到最終的輸出。

(4)BiGRU-Capsnet。該模型是一種將BiGRU雙向門控循環單元和Capsnet 膠囊神經網絡結合的模型,有效地結合兩個模型的優點。

(5)GCN。該模型除了沒使用BiLSTM 層提取上下文相關性之外,其余部分模塊和參數與本文模型一樣。

3.4 實驗結果及分析

為了驗證BERT_BGCN 的性能,本文將文本分類中的幾個經典模型作為基線模型進行對比實驗,對比結果如表1 所示。

表1 模型性能對比

在3 個中文評論數據集上的實驗結果證實了BERT_BGCN 的性能優于其他基線模型,這表明本文方法在評論短文本數據上的有效性。本文模型相較于普通GCN 有一定提升。普通GCN 在3 個數據集上的精確度除了LSTM 比其他幾個基模型都低,分別為92.32%、82.51%、91.12%,這是因為GCN 在情感分類中不能充分利用上下文依賴關系。在3 個數據集上,與原始GCN 相比,引入BiLSTM的BERT_BGCN 模型分別將精確度提高了1.32%、5.94%、3.04%,雖然兩個模型的初始特征表示相同,但是本文模型利用BiLSTM 進行特征提取具有很大的優勢,說明模型引入BiLSTM 確實豐富了GCN 上下文語義相關性,提取出了更深層次的特征,提高了分類性能。在譚松波酒店評論數據集上,BERT_BGCN 的準確率只比其他基線模型中最好的Selfattention 模型高0.07%,這可能是因為此數據集文本長度相對較長,無關節點增多,為無關節點添加邊會影響分類性能。在較短的平均文本長度下,本文模型性能提升更加明顯,如外賣評論數據集和京東網購評論數據集。而文本長度較長的情況下,與其他模型相比,本文模型提升較少。

4 結語

本文結合雙向LSTM 和圖神經網絡構建了一個融合上下文圖卷積的分類模型。利用BERT 得到需要分類文本的初始特征,將其輸入至BiLSTM和GCN 模型中,然后將兩者輸出結合作為融合上下文信息的新特征矩陣,利用雙向長短時記憶網絡捕捉上下文語義信息得到更深層次的特征表示,彌補GCN 網絡的弊端。在3 個中文評論短文本數據集上進行實驗,準確率同基線模型相比都有不同程度的提升。下一步將探究如何融合更多特征和外部知識進行分類,同時將本文模型應用到多分類任務上。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 亚洲第一视频网站| 再看日本中文字幕在线观看| 国产97视频在线| 99热国产这里只有精品9九| 日韩免费视频播播| 香蕉综合在线视频91| 国产精品网址你懂的| 国产精品福利社| 日韩av在线直播| 91精品国产情侣高潮露脸| 99激情网| 亚洲美女操| 亚洲午夜福利精品无码| 久青草国产高清在线视频| 40岁成熟女人牲交片免费| 色偷偷av男人的天堂不卡| 国产视频你懂得| 国产精品无码作爱| 久久香蕉国产线| 18禁高潮出水呻吟娇喘蜜芽| 欧美色亚洲| 日本不卡在线视频| 一区二区自拍| 国产精品成人啪精品视频| 欧美一区二区人人喊爽| 日本午夜精品一本在线观看| 国产美女一级毛片| 极品尤物av美乳在线观看| 日韩在线观看网站| 26uuu国产精品视频| 国产在线高清一级毛片| 91九色最新地址| 欧美日韩中文国产va另类| 巨熟乳波霸若妻中文观看免费| 亚洲精品无码AⅤ片青青在线观看| 有专无码视频| 欧美在线免费| 亚洲第一色网站| 久久精品无码国产一区二区三区| 在线免费观看AV| 欧美精品伊人久久| 日本精品一在线观看视频| 国产成人精品午夜视频'| 久久夜夜视频| 亚洲一区精品视频在线| 久久精品女人天堂aaa| 在线视频亚洲色图| 天天色天天综合| 中文字幕亚洲另类天堂| 国产精品一区二区在线播放| 看看一级毛片| 国产成人精品一区二区| 午夜毛片免费观看视频 | 国产女人18毛片水真多1| 欧美人人干| 国产精品一老牛影视频| 69免费在线视频| 制服丝袜在线视频香蕉| 欧美午夜在线观看| 夜夜高潮夜夜爽国产伦精品| 亚洲一区黄色| 久久久久国产精品嫩草影院| 免费毛片全部不收费的| 日韩午夜片| 国产精品香蕉在线| 国产精品久久久久鬼色| 国产午夜不卡| 亚洲熟女中文字幕男人总站| 色综合成人| 国产第一页屁屁影院| 综合色婷婷| 99国产精品免费观看视频| 国产1区2区在线观看| 欧美色伊人| 国产亚洲精品91| 日韩毛片在线播放| 97国产在线观看| 天堂av高清一区二区三区| 亚洲伦理一区二区| 五月激情综合网| 日韩麻豆小视频| 亚洲嫩模喷白浆|