宋勇,嚴志偉,秦玉坤,趙東明,葉曉舟,柴園園,歐陽曄
研究與開發
基于矩陣分解和注意力多任務學習的客服投訴工單分類
宋勇1,嚴志偉2,秦玉坤2,趙東明3,葉曉舟1,柴園園1,歐陽曄1
(1. 亞信科技(中國)有限公司,北京 100193;2. 亞信科技(南京)有限公司,江蘇 南京 210013;3. 中國移動通信集團天津有限公司,天津 300020)
投訴工單自動分類是通信運營商客服數字化、智能化發展的要求??头对V工單的類別有多層,每一層有多個標簽,層級之間有所關聯,屬于典型的層次多標簽文本分類問題,現有解決方法大多數基于分類器同時處理所有的分類標簽,或者對每一層級分別使用多個分類器進行處理,忽略了層次結構之間的依賴。提出了一種基于矩陣分解和注意力的多任務學習的方法(MF-AMLA),處理層次多標簽文本分類任務。在通信運營商客服場景真實投訴工單分類數據下,與該場景常用的機器學習算法和深度學習算法的Top1 F1值相比分別最大提高了21.1%和5.7%。已在某移動運營商客服系統上線,模型輸出的正確率97%以上,對客服坐席單位時間的處理效率提升22.1%。
層次多標簽分類;注意力機制;多任務學習;客服工單分類
近年來,通信運營商的客戶數量穩步上升,業務范圍增大,面臨的投訴問題日趨繁多和復雜[1]??焖贉蚀_地處理投訴工單是提升客戶滿意度和運營商效益的重要方面。針對每個投訴工單,首先需要判斷其所屬的業務類別。傳統的依賴客服坐席標記投訴工單所屬類別需要耗費大量的人力成本和時間成本,而且不能保證很高的準確率。因此,對投訴工單文本進行自動化分類是運營商朝著數字化、智能化方向發展的要求[2]。
通信運營商客服場景的投訴工單文本相較于一般的文本,通常對應很多層級的業務類別,并且各類別之間存在一定的關聯關系[3],每個層級的業務類別串聯形成最終的總類別,屬于典型的層次多標簽文本分類(hierarchical multi-label text classification,HMTC)問題。傳統的文本分類方法很少考慮類別層級的關聯關系,文本特征表示相對較弱,分類效果仍有提升空間。因此,為了實現對運營商投訴工單文本的自動分類以及保證高的準確率,需要采取更有針對性的有效分類方法。本文創新性地提出一種基于矩陣分解(matrix factorization,MF)和注意力的多任務學習(attention-based multi-task learning approach,AMLA)的方法,被稱為MF-AMLA,處理HMTC任務,幫助運營商客服快速準確地對多層級的投訴工單文本進行分類。
文本分類是自然語言處理(NLP)中的一個經典任務,旨在為給定的文本序列分配預定義的類別[4-5]。早期的文本分類算法主要基于淺層學習,如樸素貝葉斯(naive bayes)、支持向量機(support vector machine,SVM)、最鄰近分類(-nearest neighbor,NN)和隨機森林等,這些方法存在高維度、高稀疏問題,分類效果差。近年來,深度學習的快速發展使得神經網絡在文本分類領域大放異彩。例如,文本卷積神經網絡(text convolutional neural network,TextCNN)[6]能夠捕捉局部相關性,在短文本分類上取得較好效果。循環神經網絡(recurrent neural network,RNN)[7-8]考慮了上下文信息的語義關聯。長短期記憶(long short-term memory,LSTM)網絡[9]可以學習長距離依賴信息,解決了傳統RNN梯度消失的問題。門控循環單元(gated recurrent unit,GRU)[10]作為LSTM的一種變體,結構更加簡單。Transformer的自注意力機制在處理長期依賴的問題時相較于LSTM有更好的表現[11]?;诖?,GPT(generative pre-training)預訓練詞向量模型[12]、BERT(bidirectional encoder representations from transformers)預訓練語言模型[13],依次刷新各NLP任務效果。
多標簽文本分類是文本分類的重要分支,相比于單標簽分類任務,多標簽通常有復雜的依賴性,每個文本不只屬于一個類別,而是被賦予多個標簽。Tsoumakas等[14]將多標簽分類的方法分為兩類,一類是問題轉換的方法,另一類是算法適應的方法。前者將多標簽分類問題轉化為一個或多個單標簽分類問題,代表算法有Binary Relevance[15]、Random-labelsets[16]、Calibrated Label Ranking[17]、Label Power-set[18]。這類方法面對類別多、數據量大的數據集時存在計算復雜度高的缺陷。后者通過拓展單標簽學習算法,直接處理多標簽的數據,代表算法有Rank-SVM[19]、ML-NN[20]。
而在許多實際問題中,文本建模的預測輸出是結構化的類別,即類別之間存在依賴關系,例如表現為樹狀分層結構或有向無環圖[21]。這種多標簽分類屬于HMTC[22]。HMTC分類任務,主要方法可以分為兩類:一類為局部方法,根據類別標簽的層次結構,對預測輸出空間的每個分類建立模型,將HMTC分類轉化為對多個單一標簽的分類,最后組合各個模型獲得最終的標簽[23]。例如,Cesa-Bianchi等[24]提出了Hierarchical SVM,僅在父類標簽被激活時進行SVM學習;另一類為全局方法,預測輸出空間建立單一模型預測所有類別,相比于局部方法,可挖掘、使用各標簽之間的依賴關系,學習到隱含特征獲得更好的分類效果[25]。例如,Vens等[23]提出Clus HMC,使用單個決策樹處理整個層次類別結構。Borges等[26]提出了一種基于競爭人工神經網絡的全局方法預測層次結構中的所有類別。然而,上述這些研究只關注到了層次結構的局部區域或整體結構,而忽略了層次結構不同層級之間的依賴關系。
多任務學習(multi-task learning,MTL)是對多個任務共享模型,同時學習,提升模型性能的算法[27]。MTL有許多優點,例如可以提高數據計算效率,通過共享表示可以減少過度擬合,利用輔助信息可以快速學習等[28]。MTL同時考慮多個相關任務的學習過程,能夠利用任務之間的關聯提高單一任務學習的泛化能力。例如,Liu等[29]利用16個不同的文本分類任務進行MTL,相較于單任務顯著提升了分類效果。MTL現有方法主要有兩類:硬參數共享[28,30]和軟參數共享[31-32]。前者在不同任務的隱藏層共享模型權重,使每個權重都經過訓練,共同最小化多個損失函數。后者針對不同的任務有特定的任務模型,在參數空間討論需要交互哪些信息,設定不同的權重,通過將不同模型參數之間的距離加入聯合目標函數進行優化。
綜合以上相關研究,基于HMTC的特點,本文創新性地提出了MF-AMLA。矩陣分解(matrix factorization,MF)是一種協同過濾推薦算法[33],通過將用戶評分矩陣分解以學習用戶和物品之間的交互關系。這里,本文引入MF模塊,增強文本和分層多標簽的語義表示,以捕捉文本與層次標簽的淺層隱藏關系。然后對不同分層的多標簽進行基于注意力的MTL,既考慮局部層級特征以及全局信息,又考慮不同層級之間的關聯關系,挖掘、使用各層級標簽之間的依賴關系,學習更深層的隱含特征。MF和MTL聯合損失函數,在各子任務間互相修正錯誤,提升模型對層次多標簽文本的分類效果。
MF-AMLA模型結構如圖1所示,主要涉及3部分內容:文本表征層、嵌入層、AMLA 層。

圖1 MF-AMLA模型結構
對于HMTC任務,涉及Text和層次多標簽(hierarchical multi-label,HML),Text表示為:

HML表示為:

在基于注意力機制的多任務學習的第一階段,為了使文本和分層多標簽類別的向量表示統一,本文首先在嵌入(embedding)層編碼文本和分層多標簽類別結構,然后使用MF層增強文本語義表示的編碼。
本文把文本和分層多標簽類別組合成矩陣:




使用梯度下降算法降低損失:

AMLA層包含兩個模塊:Transformer和MTL。
(1)Transformer
每個編碼器包含兩個模塊,分別為自注意力(self-attention)模塊和前饋網絡模塊。在自注意力模塊,輸入的嵌入被線性變換成3個矩陣:查詢、鍵、值??s放點積注意力為:

多頭注意力機制將、、拆分成個頭,并行執行注意力操作,再將多頭的輸出值串聯,投影后形成輸出。經多頭注意力機制后再接前饋網絡層,得到句子的特征向量。

(2)MTL




其中:


本文使用的數據集來自運營商客服接聽電話投訴后人工標注好的文本。投訴工單文本實例見表1。數據篩選前的原始標簽的長尾分布見表2??紤]實際生產實踐中著重關注占比高的處理方式,本文按照2/8原則,篩選前80%的頭部標簽數據進行后續的下游分類任務,對于剩余20%的長尾標簽數據則不采用。篩選后,共有283 904條投訴工單文本,原始的標簽數量為186個。進行預處理后,得到7個層級子標簽(見表1的樣本實例),一級到七級的標簽數量分布為4、5、45、49、6、83、64(文本標簽分布見表3),例如一級標簽對應的類別有:家庭業務、移動業務、集團業務、增值業務4個類別。之后對數據集劃分,按照原始標簽8:2的比例將其劃分為訓練集和驗證集。

表1 投訴工單文本實例

表2 數據篩選前的文本原始標簽的長尾分布

表3 文本標簽分布

為了評估對運營商行業層次多標簽文本的分類效果,本文基于第3.1節獲取的數據集對比了本模型MF-AMLA與5種其他廣泛應用的評價不錯的模型:Hierarchical SVM、Clus HMC、GRU、TextCNN、Bert。前兩種是基于機器學習的層次標簽分類模型,后3種是基于深度學習的多標簽分類方法。
為了多方面評估模型效果,本文引入Top準確率評估方法,即置信度最高的個結果中包含正確標簽的占比。本文采用Top1、Top5、Top10 3個指標。經過對比實驗,各模型的精確率、召回率的對比見表4,各模型F1值對比如圖2所示。整體來看,本文的MF-AMLA效果最優。其中,Hierarchical SVM與Clus HMC出現較早,未采用深度學習的方法,效果較差,與之相比,MF-AMLA在Top1、Top5、Top10的F1值分別最大提高了21.1%、26.7%、22.1%;GRU、TextCNN和BERT模型作為文本分類常見深度學習方法,與之相比,MF-AMLA在Top1、Top5、Top10的F1值分別最大提高了5.7%、4.8%、4.8%。

表4 各模型的精確率P、召回率R的對比
以上實驗結果表明,本文模型通過MF模塊將文本和分層多標簽類別的向量表示統一,提升了模型的表征能力,再引入AMLA遞歸注意力多任務學習對層級標簽分類后,提升了模型學習層級標簽之間關聯關系的能力。本文提出的MF-AMLA可以有效提升運營商行業中投訴工單文本的分類效果。

圖2 各模型F1值對比
運營商的投訴工單文本屬于層次多標簽的文本,目前一般的分類方法難以獲得好的分類效果。本文提出一種基于矩陣分解和注意力多任務學習的層次多標簽分類方法(MF-AMLA),針對運營商領域的投訴工單文本含有層次多標簽的特點,加入了MF模塊增強文本和分層多標簽的語義表示,其次,按層級關聯關系進行了遞歸注意力多任務學習,解決HMTC問題,提高了投訴工單分類的準確率。該模型已在某移動運營商客服系統上線,對客服坐席接入的實時投訴數據,MF-AMLA輸出Top 5分類結果,輔助客服坐席快速定位用戶投訴或咨詢的問題,及時協助用戶解決問題。客服坐席反饋模型輸出的正確率在97%以上,對客服坐席單位時間的處理效率提升22.1%(平均一通投訴或通話時長由58 s降低為49 s)。
未來本文將考慮更多文本分類任務的實踐,如電商售后服務咨詢內容的自動分類,根據用戶反饋的內容,給出用戶的真實意圖并歸類,快速解決用戶的訴求;用于智能對話機器人中,通過對問答內容的精準分類,快速定位用戶意圖,給出正確的交流策略;以及新聞自動歸類,對新聞網站的內容,進行自動歸類和分析,支持輿情分析,為公共安全和社會治理做出貢獻等,驗證其他類似的任務是否會有進一步的效果提升。
[1] TUNG F C. Customer satisfaction, perceived value and customer loyalty: the mobile services industry in China[J]. African Journal of Business Management, 2013, 7(18): 1730-1737.
[2] LIN L, ZHU B, WANG Q, et al. A novel 5G core network capability exposure method for telecom operator[C]//Proceedings of 2020 IEEE Intl Conf on Parallel & Distributed Processing with Applications, Big Data & Cloud Computing, Sustainable Computing & Communications, Social Computing & Networking. Piscataway: IEEE Press, 2020: 1450-1454.
[3] WEHRMANN J, CERRI R, BARROS R. Hierarchical multi-label classification networks[C]//Proceedings of International Conference on Machine Learning. [S.l.:s.n.], 2018: 5075-5084.
[4] KOWSARI, MEIMANDI J, HEIDARYSAFA, et al. Text classification algorithms: a survey[J]. Information, 2019, 10(4): 150.
[5] MINAEE S, KALCHBRENNER N, CAMBRIA E, et al. Deep learning: based text classification[J]. ACM Computing Surveys, 2021, 54(3): 1-40.
[6] ZHANG Y, WALLACE B. A sensitivity analysis of (and practitioners' guide to) convolutional neural networks for sentence classification[J]. arXiv preprint arXiv:1510.03820, 2015.
[7] MIKOLOV T, KOMBRINK S, BURGET L, et al. Extensions of recurrent neural network language model[C]//Proceedings of 2011 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE Press, 2011: 5528-5531.
[8] SOCHER R, LIN C C-Y, NG A Y, et al. Parsing natural scenes and natural language with recursive neural networks[C]//Proceedings of the 28th International Conference on Machine Learning.[S.l.:s.n.], 2011.
[9] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[10] DEY R, SALEM F M. Gate-variants of Gated Recurrent Unit (GRU) neural networks[C]//Proceedings of 2017 IEEE 60th International Midwest Symposium on Circuits and Systems. Piscataway: IEEE Press, 2017: 1597-1600.
[11] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Advances in neural information processing systems. [S.l.:s.n.], 2017: 5998-6008.
[12] RADFORD A, NARASIMHAN K, SALIMANS T, et al. Improving language understanding with unsupervised learning[EB]. 2018.
[13] DEVLIN J, CHANG M-W, LEE K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
[14] TSOUMAKAS G, KATAKIS I, VLAHAVAS I. Mining multi-label data[M]//Data Mining and Knowledge Discovery Handbook. Boston, MA: Springer US, 2009: 667-685.
[15] BOUTELL M R, LUO J B, SHEN X P, et al. Learning multi-label scene classification[J]. Pattern Recognition, 2004, 37(9): 1757-1771.
[16] TSOUMAKAS G, VLAHAVAS I. Random k-labelsets: an ensemble method for multilabel classification[C]//Machine Learning: ECML.[S.l.:s.n.], 2007.
[17] FüRNKRANZ J, HüLLERMEIER E, LOZA MENCíA E, et al. Multilabel classification via calibrated label ranking[J]. Machine Learning, 2008, 73(2): 133-153.
[18] MADJAROV G, KOCEV D, GJORGJEVIKJ D, et al. An extensive experimental comparison of methods for multi-label learning[J]. Pattern Recognition, 2012, 45(9): 3084-3104.
[19] ELISSEEFF A, WESTON J. A kernel method for multi-labelled classification[J]. Advances in neural information processing systems, s.l.: The MIT Press, 2001(14): 681-687.
[20] ZHANG M L, ZHOU Z H. ML-KNN: a lazy learning approach to multi-label learning[J]. Pattern Recognition, 2007, 40(7): 2038-2048.
[21] BI W, KWOK J T. Multilabel classification on tree-and dag-structured hierarchies[C]//Proceedings of the 28th International Conference on Machine Learning, [S.l,:s.n.], 2011.
[22] GONG J B, TENG Z Y, TENG Q, et al. Hierarchical graph transformer-based deep learning model for large-scale multi-label text classification[J]. IEEE Access, 2020(8): 30885-30896.
[23] VENS C, STRUYF J, SCHIETGAT L, et al. Decision trees for hierarchical multi-label classification[J]. Machine Learning, 2008, 73(2): 185-214.
[24] CESA-BIANCHI N, GENTILE C, ZANIBONI L. Incremental algorithms for hierarchical classification[J]. The Journal of Machine Learning Research, 2006(7): 31-54.
[25] LEVATI? J, KOCEV D, D?EROSKI S. The importance of the label hierarchy in hierarchical multi-label classification[J]. Journal of Intelligent Information Systems, 2015, 45(2): 247-271.
[26] BORGES H B, NIEVOLA J C. Multi-Label Hierarchical Classification using a Competitive Neural Network for protein function prediction[C]//Proceedings of 2012 International Joint Conference on Neural Networks (IJCNN). Piscataway: IEEE Press, 2012: 1-8.
[27] CARUANA R. Multitask learning[J]. Machine learning, 1997, 28(1): 41-75.
[28] COLLOBERT R, WESTON J. A unified architecture for natural language processing: deep neural networks with multitask learning[C]//Proceedings of the 25th international conference on Machine learning-ICML '08. New York: ACM Press, 2008: 160-167.
[29] LIU X D, HE P C, CHEN W Z, et al. Multi-task deep neural networks for natural language understanding[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2019.
[30] EATON E, DESJARDINS M, LANE T. Modeling transfer relationships between learning tasks for improved inductive transfer[C]//Machine Learning and Knowledge Discovery in Databases. [S.l.:s.n.], 2008.
[31] DUONG L, COHN T, BIRD S, et al. Low resource dependency parsing: cross-lingual parameter sharing in a neural network parser[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 2: Short Papers). Stroudsburg, PA, USA: Association for Computational Linguistics, 2015.
[32] YANG Y, HOSPEDALES T M. Trace norm regularised deep multi-task learning[J]. arXiv preprint arXiv:1606.04038, 2016.
[33] BENNETT J, LANNING S. The netflix prize[C]//Proceedings of KDD Cup and Workshop. New York: ACM Press, 2007: 35.
Customer service complaint work order classification based on matrix factorization and attention multi-task learning
SONG Yong1, YAN Zhiwei2, QIN Yukun2, ZHAO Dongming3, YE Xiaozhou1, CHAI Yuanyuan1, OUYANG Ye1
1. AsiaInfo Technologies (China) Co., Ltd., Beijing 100193, China 2. AsiaInfo Technologies (Nanjing) Co., Ltd., Nanjing 210013, China 3. China Mobile Communications Group Tianjin Co., Ltd., Tianjin 300020, China
The automatic classification of complaint work orders is the requirement of the digital and intelligent development of customer service of communication operators. The categories of customer service complaint work orders have multiple levels, each level has multiple labels, and the levels are related, which belongs to a typical hierarchical multi-label text classification (HMTC) problem. Most of the existing solutions are based on classifiers to process all classification labels at the same time, or use multiple classifiers for each level, ignoring the dependence between hierarchies. A matrix factorization and attention-based multi-task learning approach (MF-AMLA) to deal with hierarchical multi-label text classification tasks was proposed. Under the classification data of real complaint work orders in the customer service scenario of communication operators, the maximum Top1 F1 value of MF-AMLA is increased by 21.1% and 5.7% respectively compared with the commonly used machine learning algorithm and deep learning algorithm in this scenario. It has been launched in the customer service system of one mobile operator, the accuracy of model output is more than 97%, and the processing efficiency of customer service agent unit time has been improved by 22.1%.
hierarchical multi-label classification, attention mechanism, multi-task learning, customer service work order classification
TP183
A
10.11959/j.issn.1000?0801.2022031
2021?09?17;
2021?12?27
秦玉坤,qinyk@asiainfo.com
宋勇(1989? ),男,亞信科技(中國)有限公司通信人工智能實驗室通信業務與應用算法研究部負責人,主要研究方向為NLP、知識圖譜、AIOps、推薦等。

嚴志偉(1994? ),男,博士,亞信科技(南京)有限公司通信人工智能實驗室算法工程師,主要研究方向為NLP、AIOps。
秦玉坤(1987? ),男,亞信科技(南京)有限公司通信人工智能實驗室算法工程師,主要研究方向為NLP、AIOps、知識圖譜。

趙東明(1984? ),男,博士,中國移動通信集團天津有限公司技術專家,天津移動AI實驗室/天津移動博士后科研工作站負責人,主要研究方向為知識圖譜、智能語音情感、認知概念網絡。
葉曉舟(1980? ),男,博士,亞信科技(中國)有限公司通信人工智能實驗室資深總監、首席科學家,主要研究方向為通信網絡與人工智能。
柴園園(1980? ),女,博士,亞信科技(中國)有限公司通信人工智能實驗室首席算法科學家,主要研究方向為深度學習、人工智能、數據科學及管理。
歐陽曄(1981? ),男,博士,亞信科技(中國)有限公司首席技術官、高級副總裁,主要研究方向為移動通信、人工智能、數據科學、科技研發創新與管理。