999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖卷積神經網絡和RoBERTa的物流訂單分類

2023-10-21 02:36:42王建兵劉方方
計算機技術與發展 2023年10期
關鍵詞:特征提取語義分類

王建兵,楊 超,劉方方,黃 暕,項 勇

(安徽港口物流有限公司,安徽 銅陵 244000)

0 引 言

近年來,物流業運營模式逐漸從外包型向綜合型轉變,信息系統在物流企業的運營管理中扮演了關鍵角色。作為物流信息系統的中樞神經,訂單子系統在提升企業運營效率、改善客戶服務質量等方面發揮了積極作用[1]。個性化物流服務對訂單操作流程提出了更高要求,物流企業亟需提高差異化訂單的處理效率。通常而言,大型物流企業每天要受理成千上萬個訂單。對于每一個物流訂單,客服人員需要根據不同的起運地、目的地、貨物清單、服務要求等信息對訂單進行拆解與分類,工作量巨大且容易出錯[2]。依靠人工處理海量差異化訂單,難以達到現代物流服務的效率標準。因此,研究智能化物流訂單分類對于降低物流服務周期、提升客戶滿意度具有重要意義。物流供應鏈服務一般包括公路運輸、水路運輸、多式聯運等業務類型,而多式聯運業務又包括公水、鐵水、公鐵等類型[3]。客戶通過物流平臺提供的微信小程序以文本形式提交一站式委托訂單,平臺客服首先對訂單文本進行分解,然后結合歷史訂單路線、最優路線完成物流訂單分類,最后根據訂單類型分撥到對應的業務系統以完成服務受理。為高效完成訂單分類,平臺客服不但需要對客戶委托有深入的理解,還需要熟悉各種物流業務類型。然而,平臺客服往往缺乏系統的業務培訓,使得物流訂單分類往往存在錯誤,造成了不必要的二次分撥。

支持向量機、決策樹、樸素貝葉斯等機器學習方法能夠完成工單分類,但特征的分析和選擇使得特征工程較為復雜,可能會出現入模特征和指定任務不相關的情況[4]。RoBERTa預訓練語言模型在文本特征的特征提取方面具有較好的優勢,可以有效地提取文本的上下文信息,從而實現中文文本語義的向量化表示[5]。然而RoBERTa模型對于長文本處理能力較弱,而基于圖結構的神經網絡模型,如圖卷積神經網絡(Graph Convolutional Network,GCN),可以根據文本圖有效提取文本的全局和局部圖特征[6]。為了克服人工分類效率低下且容易出錯的問題,該文提出了一種基于GCN和RoBERTa模型的物流訂單分類方法。該方法使用抽象語義表示(Abstract Meaning Representation,AMR)解析訂單文本的每個句子,獲取輸入文本多個AMR圖以形成局部AMR圖;根據輸入文本的關鍵詞以及AMR圖的根節點構建全局AMR圖,并使用GCN網絡和堆疊GCN(stacked-GCN)網絡來提取全局和局部AMR圖的特征;通過RoBERTa模型提取訂單文本語義特征,最終通過融合特征來完成物流訂單分類。

1 相關研究

1.1 工單分類

文獻[7]提出了一種基于ResNet-BiLSTM的電力客服工單分類模型,該模型利用殘差網絡學習句內的細節特征,再通過BiLSTM學習句間的上下文關聯信息,最終得到工單的類別預測結果。文獻[8]提出了一種基于事件提取的政務熱線工單分類方法,該方法通過由CNN-BiGRU-Self-Attention定義的特征提取層獲取工單文本的局部特征和全局特征完成工單分類。文獻[9]提出一種基于矩陣分解和注意力的多任務學習方法,實現了運營商客服快速準確地對多層級的投訴工單文本進行分類。文獻[10]使用word2vec模型對銀行工單文本進行詞嵌入化表示,使用深度學習下的TextCNN模型進行文本分類和工單判定。文獻[11]利用TF-IDF方法對經過word2vec模型處理后的詞嵌入向量進行加權,在TextCNN模型中進行訓練后利用分類器自動完成銀行工單類型判斷。

1.2 圖卷積神經網絡

文獻[12]針對在線知識社區中回答者用戶之間的協作行為,通過構建基于圖卷積神經網絡的鏈接預測模型,對在線知識社區中回答者用戶的協作行為進行預測。文獻[13]根據交互歷史構建讀者-圖書二部圖,搭建圖卷積神經網絡,通過連續的卷積層捕獲二部圖的高階連通性來得到讀者的鄰域偏好信息以實現圖書推薦方法。文獻[14]提出了一種基于圖卷積網絡的專利摘要自動生成方法,旨在通過專利的權利要求書及其結構信息來生成專利摘要。文獻[15]提出了一種具有替代訓練算法的自調優GCN方法,實現通過超參數優化來自動化訓練GCN模型,從而可以通過自動選擇參數的方式來緩解傳統的GCN模型存在過擬合和過平滑的問題。文獻[16]通過預訓練語言模型生成全文句子之間的注意力矩陣,并將其作為文本全連通圖的加權鄰接矩陣,將GCN應用于文本圖對每個節點進行分類,從而在文本中找出突出句子,最終生成文本摘要。

1.3 RoBERTa模型

文獻[17]針對中文任務對RoBERTa模型進行了改進,使用了針對中文的Whole Word Masking(WWM)訓練策略,在不改變其他訓練策略的基礎上,提升了RoBERTa模型在中文任務上的實驗效果。文獻[18]將多目標類別情感分析轉換為多個子任務,使用RoBERTa模型從文本和目標短語中提取特征信息,并利用交叉注意力機制找出與給定目標類別最相關的特征。文獻[19]提出一種民間文學文本預訓練模型MythBERT,并與BERT、BERT-WWM和RoBERTa等主流中文預訓練模型在情感分析、語義相似度、命名實體識別和問答四個自然語言處理任務上進行比較。文獻[20]使用RoBERTa訓練出荷蘭語言模型RobBERT,實驗結果表明在一系列荷蘭語自然語言處理任務上RobBERT語言模型的性能要超越其他語言模型的性能,尤其在小數據集上表現地更為突出。文獻[21]在情感識別方面比較了BERT、RoBERTa、XLNet等主流預訓練語言模型,研究發現采用預訓練語言模型學習到的詞向量相比以往模型能夠獲得更多的上下文語義信息。

2 模型結構

該文提出的物流訂單分類模型主要由基于全局AMR圖的GCN特征提取層、基于局部AMR圖的堆疊GCN特征提取層、基于RoBERTa語言模型的語義編碼層和訂單分類層構成,如圖1所示。對于給定的物流訂單文本,首先采用全局AMR算法構建全局AMR圖,并使用GCN網絡對全局AMR圖的節點進行特征提取,獲取文本的全局AMR圖表示向量;其次,采用局部AMR算法構建多個AMR圖,然后使用堆疊GCN網絡提取多個AMR圖的特征,并進行融合得到文本局部AMR圖表示向量;再次,使用RoBERTa預訓練語言模型提取訂單文本的上下文語義特征,得到訂單文本語義表示向量;最后,融合三種類型的文本表示向量,并使用全連接網絡(Full Connection,FC)結合sigmoid函數完成訂單分類。

圖1 模型結構

2.1 基于全局AMR圖的GCN特征提取層

從物流訂單文本中提取特征信息的一個關鍵環節是捕捉句內和句間的特征。對于句子之間的相關特征,該文采用全局AMR算法處理物流訂單文本生成該文本的全局AMR圖,然后使用GCN網絡來編碼全局AMR圖,以此得到訂單文本句子之間的相關特征和訂單文本的主題特征。

2.1.1 全局AMR圖構建

AMR是一種全新的領域無關的句子語義表示方法,它將一個句子的語義抽象為一個單根有向無環圖[22]。圖2給出了一個句子“訂單發貨地點是銅陵市港口物流公司”的AMR圖表示的示例,一個自然的句子可以通過AMR解析器被解析成一個AMR圖G=(V,E)。V表示句子中的實詞抽象的概念節點,而邊代表一個特定的實詞之間的關系(抽象為帶有語義關系標簽的有向邊,且忽略虛詞和形態變化體現較虛的語義)。因此,AMR側重于語義關系而不是語法的, 這種表示方式更有利于理解物流訂單,且這種結構更接近訂單的“觸發詞和角色參數(trigger-arguments)”結構。

圖2 AMR圖示例

由于物流訂單文本存在長短不一問題,且訂單文本中的一些句子與訂單主題并不相關。因此,該文提取訂單文本的關鍵字以及AMR的根節點作為全局AMR圖的串聯節點,構建全局關系圖,這樣可以提取訂單的主題信息和訂單文本句子之間的關聯關系。句間文本圖的構建過程如下:

Step1 對訂單文本進行分句處理得到n個句子,使用哈工大NLP工具包中關鍵詞提取算法提取訂單文本每個句子的關鍵詞,得到n個句子的關鍵詞集合{Ki};

Step2 對訂單文本的n個句子進行分詞處理,使用AMR算法將訂單文本的每個句子抽象成n個AMR圖;

Step3 對n個句子的AMR根節點進行對比,同樣語義的根節點進行融合;

Step4 對n個句子的關鍵詞集合{Ki}進行分析處理,不同句子之間存在相同語義的關鍵詞進行融合;

Step5 根據n個句子的融合結果構建AMR全局圖。

2.1.2 GCN特征提取

在GCN特征提取前,需要對構建的物流訂單文本關系圖進行節點編碼。對于給定的物流訂單文本T,節點編碼首先需要對其進行分詞,獲取訂單文本的分詞序列Tq,然后使用詞嵌入的方式對序列Tq進行編碼,獲取編碼序列Eq:

em=λ1ξm+λ2pm

(1)

(2)

(3)

(4)

(5)

其中,W(0)是輸入層到隱藏層的權重矩陣,W(1)是隱藏層到輸出層的權重矩陣。

2.2 基于局部AMR圖的堆疊GCN特征提取層

如圖3所示,對于句子內部的相關特征,該文采用局部AMR算法處理物流訂單文本生成局部AMR圖,然后使用多層堆疊GCN網絡來編碼局部AMR圖,并對編碼結果進行融合,以得到訂單文本句子內部的相關特征的融合結果。

圖3 基于局部AMR圖的堆疊GCN特征提取

2.2.1 局部AMR圖構建

由于訂單文本中的各句子對訂單分類結果的重要程度不一樣,且存在某些句子與訂單類型的關聯性不強(如收貨聯系人信息),因此,該文使用AMR算法對訂單文本的每個句子進行處理,得到多個句子的AMR圖。具體步驟如下:

Step1 對訂單文本進行分句處理,得到n個句子;

Step2對n個句子分別使用AMR算法進行處理得到n個AMR圖;

Step3將n個AMR圖構成的集合形成訂單文本的局部AMR圖。

2.2.2 堆疊GCN融合網絡

(6)

(7)

(8)

2.3 基于RoBERTa模型的語義編碼層

RoBERTa模型是基于BERT的改進模型,相較于BERT,它擁有更大的模型參數、更大的batch size、更大規模的訓練數據,同時刪除了下一個句子預測(NSP)任務。這使得RoBERTa語言模型能夠比BERT更好地應用到下游任務,取得更好的模型效果。

圖4 RoBERTa特征提取

2.4 訂單類別預測

(9)

其中,ω1,ω2,ω3是融合參數,滿足ω1+ω2+ω3=1。將Vconcat輸入分類器中完成訂單的多標簽分類:

p=sigmoid(WVconcat+b)

(10)

其中,W和b是可學習參數,p是各類別的分類預測概率。使用多標簽分類的交叉熵作為訓練損失函數:

(11)

3 實驗結果與分析

3.1 實驗環境

該文使用基于CUDA 11.0的深度學習框架pytorch 1.7.1構建網絡模型,實驗平臺為內存64G,顯存24G的Ubuntu 18.04 LTS系統。

3.2 模型訓練過程

該文提出的物流訂單分類模型訓練流程如圖5所示。

圖5 模型訓練過程

首先,通過對歷史物流訂單文本進行分詞、分句處理、去除停用詞以及提取關鍵詞后,結合歷史物流訂單的處理結果構建物流訂單數據集。然后,將數據集按一定比例劃分為訓練集、驗證集和測試集,其中訓練集用于模型訓練,驗證集通過不斷迭代更新模型性能,測試集用來評估模型性能。最后,使用訓練好的模型進行物流訂單類型預測。

3.3 數據集

從2017年1月1日-2021年12月31日期間安徽港口物流有限公司歷史物流訂單中挑選了30 000條訂單構建了實驗數據集,如表1所示。數據集包含訂單文本數據和對應的訂單類型,其中訂單文本是客戶物流委托內容,訂單類型是由客服根據訂單文本標注所得。同時,對30 000條訂單文本進行了統計分析,這些物流訂單文本長度均值為276個字。

表1 數據集描述

3.4 超參數設置

在整體網絡訓練過程中,文中模型的超參數如表2所示。

表2 超參數設置

3.5 基線對比實驗

該文采用精確率(Precision)、召回率(Recall)、F1值、準確率(Accuracy)以及漢明損失(HammingLoss)作為物流訂單分類性能的評價指標。為了驗證文中物流訂單分類方法的性能,與多種基線方法進行了對比。

· TextCNN[24]:使用預訓練詞向量來編碼輸入文本,然后采用卷積神經網絡提取訂單文本的嵌入向量來獲取輸入文本的特征,最終采用全連接網絡結合sigmoid函數完成訂單分類。

· HAN[25]:使用基于詞級別的BiGRU+Attention和句子級別的BiGRU+Attention模型來提取訂單文本多層次語義特征,然后采用sigmoid函數完成訂單分類。

· TextGCN[26]:首先基于詞共現和文檔詞關系構建語料庫的文本圖,然后使用one-hot編碼對構建的文本圖進行編碼,最終采用GCN網絡提取編碼后的文本圖完成訂單分類。

· XLNet[27]:使用哈工大訊飛聯合實驗室訓練的中文XLNet預訓練語言模型(chinese-xlnet-base)提取訂單文本特征,進行fine-tuning后應用訂單分類任務。

· RoBERTa[17]:使用哈工大訊飛聯合實驗室訓練的中文RoBERTa預訓練語言模型(chinese-roberta-wwm-ext)提取輸入文本特征,進行fine-tuning后應用到訂單分類任務。

· BERT-GCN[28]:基于詞節點與文檔節點構建異質圖,采用BERT預訓練模型初始化文檔節點,聯合訓練BERT模塊和GCN模塊完成訂單分類。

基線對比實驗結果如表3所示。從表中可以看出,該文提出的物流訂單分類方法在各項指標上均優于其他基線模型。值得注意的是,TextCNN使用傳統的CNN網絡提取文本特征并進行分類,效果不佳,這是因為CNN網絡僅僅能提取文本的局部特征,從而無法獲取文本上下文信息。HAN由于是用雙向GRU并結合Attention機制提取上下文語義信息,但是缺乏對文本局部特征的提取同時對于長句的特征提取能力也較差,因此僅取得了比TextCNN好的效果。對于XLNet和RoBERTa模型,可以有效提取訂單文本的特征信息,因此取得了較好的效果。TextGCN使用GCN對文本圖進行編碼,可以有效地獲取文本的句法結構信息,更好地解決文本長度問題,然而它對文本上下文信息的提取能力較差。而BERT-GCN由于加入了BERT模塊,從而達到了更優的效果。由于RoBERTa模型在預訓練階段充分利用大規模無標注數據,可以更好地掌握通用語言能力,在絕大多數任務上都能表現出超越傳統模型對文本上下文語義的提取效果,并且對于長短不一的文本可以使用GCN網絡來提取文本的主題特征,因此該文提出的基于多種層次的圖結構的訂單分類方法擁有更好的性能。

表3 基線對比結果

3.6 消融實驗

為了說明物流訂單分類模型各模塊的有效性,進行了消融實驗:

①移除基于全局AMR圖的GCN特征提取層,僅使用剩余兩個模塊的特征表示向量,其他部分保持不變。

②移除基于局部AMR圖的堆疊GCN特征提取層,僅使用剩余兩個模塊的特征表示向量,其他部分保持不變。

③移除基于RoBERTa模型的語義編碼層,僅使用剩余兩個模塊的特征表示向量,其他部分保持不變。

物流訂單分類模型各模塊的消融實驗結果如表4所示。可以看出,該文提出的分類模型各項評價指標均優于①、②和③(文中模型>②>①>③)。③效果最差,說明了RoBERTa模型在訂單文本特征提取方面有較大貢獻,因而可以取得較好的效果。由②>①可知,基于全局AMR圖的GCN特征提取層比基于局部AMR圖的堆疊GCN特征提取層對訂單文本特征提取的效果更好。由此可見,文中模型的各個模塊均可以有效提高物流訂單分類的性能。

表4 消融實驗結果

4 結束語

該文提出了一種基于圖卷積神經網絡和RoBERTa語言模型的物流訂單分類方法。該方法通過提取訂單文本的全局圖、局部圖以及文本語義的融合特征來實現物流訂單分類。首先,基于全局AMR算法結合文本關鍵詞構建全局AMR圖,并使用GCN對提取全局AMR圖的結構特征,獲取訂單文本的全局AMR圖表示向量。其次,基于局部AMR算法處理訂單文本分句,以生成局部AMR圖集合,使用stacked-GCN處理局部AMR圖集合,獲取的局部AMR圖表示向量集,并將向量集進行融合得到訂單文本的局部AMR圖表示向量。再次,使用RoBERTa模型提取訂單文本的上下文語義特征,得到訂單文本的語義表示向量。最后,融合三種類型的訂單文本表示向量,并使用全連接網絡結合sigmoid函數完成訂單分類。由于采用了RoBERTa模型作為物流訂單文本的上下文語義特征提取模型,對于長文本會進行截斷,從而丟失語義信息,可能會導致錯誤的訂單分類。未來,將進一步研究如何降低RoBERTa模型對物流訂單文本截斷所帶來的性能影響。

猜你喜歡
特征提取語義分類
分類算一算
語言與語義
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
一種基于LBP 特征提取和稀疏表示的肝病識別算法
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 欧美黄网站免费观看| 亚国产欧美在线人成| 理论片一区| 国产精品v欧美| 91精品专区| 精品少妇人妻无码久久| 高潮毛片免费观看| 国产精品人莉莉成在线播放| 国产成人精品在线1区| 欧美精品另类| 手机精品福利在线观看| 亚洲天堂日韩av电影| 91精品国产情侣高潮露脸| 亚洲无码日韩一区| 欧美狠狠干| 久久亚洲国产最新网站| 国产农村1级毛片| 国产自在线播放| 精品国产aⅴ一区二区三区| 一级毛片a女人刺激视频免费| 久久a级片| 在线欧美国产| 色偷偷一区| 偷拍久久网| 热99精品视频| 99久久精品免费看国产免费软件| 国产精品大尺度尺度视频| 亚洲国产精品美女| 茄子视频毛片免费观看| 精品久久777| 欧美在线网| 亚洲av成人无码网站在线观看| 日本一本正道综合久久dvd | 777国产精品永久免费观看| 22sihu国产精品视频影视资讯| аⅴ资源中文在线天堂| 91小视频版在线观看www| 国产成人调教在线视频| 鲁鲁鲁爽爽爽在线视频观看| 九色91在线视频| 日韩国产 在线| 国产精品亚洲片在线va| 久操线在视频在线观看| 亚洲色精品国产一区二区三区| 久久久久国色AV免费观看性色| 美女无遮挡免费网站| 亚洲AV成人一区二区三区AV| 亚洲无码在线午夜电影| 亚洲无码高清一区二区| 亚洲欧美日韩另类| 欧美成人看片一区二区三区 | jizz在线免费播放| av一区二区三区在线观看| 久久久噜噜噜久久中文字幕色伊伊| 亚洲热线99精品视频| 欧美成人h精品网站| 欧美福利在线播放| 亚洲无码视频喷水| 精品国产免费第一区二区三区日韩| 这里只有精品在线| 欧美乱妇高清无乱码免费| 91九色国产porny| 国产尤物在线播放| 久久精品国产电影| 国产精品视频观看裸模| 亚洲一区无码在线| 国产在线观看91精品| 色悠久久综合| 伊人婷婷色香五月综合缴缴情| 美女被操黄色视频网站| 国产在线高清一级毛片| 天天激情综合| jizz在线观看| 国产成人1024精品下载| 精品无码国产自产野外拍在线| 99精品免费在线| 亚洲人妖在线| 欧洲亚洲欧美国产日本高清| 欧美三级视频在线播放| 国产成人一区| 999国产精品永久免费视频精品久久 | 国产性爱网站|