徐俊利 趙江江 趙 寧 薛 超
(中移在線服務有限公司 河南 鄭州 450000)
營銷活動問題投訴工單是指客服人員面向客戶描述與投訴營銷活動有關的記錄。營銷活動問題標簽是專門針對營銷活動問題投訴工單進行更細粒度地劃分形成的標簽。營銷活動問題標簽分類是指判斷營銷活動問題投訴工單所屬的問題標簽。挖掘營銷活動問題投訴工單中潛在的價值信息,開展移動客服領域營銷活動問題標簽的分類研究,對于捕捉客戶投訴意圖、開展營銷活動專題分析具有重要意義。語料庫是研究營銷活動問題投訴工單分類的基礎,然而目前尚沒有移動客服領域營銷活動問題標簽分類語料庫,這嚴重阻礙了營銷活動問題標簽分類研究的發展。因此,構建營銷活動問題標簽分類語料庫是十分必要的。
近年來,語料庫構建受到廣泛關注[1-5]。目前在對話[6]、微博[7-9]、語言[10,11]、醫學[12]等領域已出現公開構建的語料庫。Lowe等[6]基于Ubuntu社區的對話內容,構建了包含一百萬個對話的Ubuntu對話語料庫,該語料既有Dialog State Tracking Challenge數據集的多次序對話特性,也有類似微博服務(如Twitter)上的人類自然對話特點,已成為對話系統的公開評測數據集。Quan和Ren[13]基于微博內容,構建了包含期望、喜悅、愛、驚訝、焦慮、悲傷,憤怒和憎恨8種情感類別的語料庫。Chen和Nie[14]基于爬取技術,爬取雙語平行的網頁內容,構建了包含117.2 MB中文文本、136.5 MB英文文本的跨語言中英平行語料庫。馮冠軍等[15]提出維吾爾語情感語料庫的構建規范,利用條件隨機場(CRFs)自動識別維吾爾語情感詞匯,構建了維吾爾語情感詞語語料庫。楊錦鋒等[16]收集醫學領域的中文電子病歷數據,結合中文病歷特點,制定了命名實體和實體關系標注體系,并構建了包含992份病歷文本的中文電子病歷命名實體和實體關系語料庫。由于這些語料庫獨有的領域特性,導致很難移植應用于移動客服領域。而且目前尚沒有公開的移動客服領域營銷活動問題標簽分類語料庫,也沒有基于深度學習的移動客服領域營銷活動問題標簽分類研究。因此本文構建了營銷活動問題標簽分類語料庫,表1是營銷活動問題標簽分類的投訴工單示例。

表1 營銷活動問題標簽投訴工單示例
營銷活動問題標簽分類是一個典型的多標簽分類問題,目前分類方法有基于規則、基于傳統機器學習、基于深度學習三種,然而目前尚未有營銷活動問題標簽分類的相關研究。基于規則的方法是通過分析各個標簽的特性,編制規則或制定模板,進行分類。基于規則的方法簡單有效、準確率較高,但是規則靈活性、擴展性較差。基于機器學習的方法是通過特征提取的方法,使用核函數的方法進行分類,效果較好。基于機器學習的方法雖能夠取得較好的效果,但是僅能捕捉淺層的語義特征,并不能捕捉到深層的語義信息。基于深度學習的方法通過構建數據的深層抽象特征表示來捕捉輸入序列的深層語義信息。基于神經網絡的方法有卷積神經網絡CNN(Convolutional Neural Network)[17]、長短時記憶遞歸神經網絡LSTM(Long Short Term Memory)[18]兩種。基于神經網絡的方法可以避免繁瑣的特征工程設計,能夠將語言學信息表示為低維、連續的實值向量,在語義信息表達上,比傳統機器學習方法更具優勢。基于深度學習的方法已取得較好成果,然而在移動客服領域尚沒有相關分類應用的研究。因此,本文基于深度學習方法挖掘移動客服領域營銷活動問題投訴工單內部深層的語義信息,開展營銷活動問題標簽的分類研究。
本文首先基于K-means算法,對31省800萬條營銷活動問題投訴工單數據進行聚類分析,結合業務知識,將營銷活動問題標簽劃歸為否認參加營銷活動、營銷活動規則不滿、無法參加營銷活動、營銷活動贈送或返還問題、優惠到期未自動取消、營銷宣傳與實際不符、終端營銷物流配送不及時、終端營銷缺貨、終端營銷售后問題、其他營銷問題、反悔定制、營銷活動未到期要求取消等12種標簽。然后制定標注規則,并構建了營銷活動問題標簽分類語料庫。最后在本文構建的語料數據集上,基于深度學習方法進行營銷活動問題標簽的分類研究。
本文的創新之處在于:(1)本語料庫是移動客服領域目前為止首個公開且規模較大的數據集,能夠為移動客服領域營銷活動問題標簽的分類研究提供較好的資源支持,并有效推動營銷活動問題標簽分類研究的發展。(2)本文制定的詳細的標注規范和分類體系,能夠為其他客服領域數據集的標注提供借鑒,具有適用性。(3)本文采用深度學習單一模型及融合的方法能夠有效挖掘營銷活動問題投訴工單內部的深層語義信息,提升分類效果。
由于數據量大,采用人工方法確定問題標簽個數代價較大。因此,我們采用K-means聚類算法進行聚類分析,結合專業知識,確定營銷活動問題標簽的數目為12, 具體過程如下:
1) 預處理。首先,將投訴工單中客戶的手機號、地址等信息用“******”替換進行脫敏處理;然后,使用分詞工具包LTP對工單進行分詞。
2) 特征抽取。統計和分析語料,抽取n-gram特征(unigram,bigram,trigram),使用Tfidf作為句子特征表示。
3) 基于K-means聚類進行聚類,利用K-means算法(5≤K≤16),分別基于unigram、bigram、trigram進行聚類。分析聚類結果發現:(1) 基于unigram特征聚類效果不理想,這可能是由于unigram特征沒有利用上下文信息導致的;(2) 無論K取何值,基于trigram特征的聚類效果均不理想,分析原因發現,trigram容易產生數據稀疏導致概率失真。因此,本文最終基于bigram特征,K分別取5到16之間的整數進行12組聚類實驗。
4) 確定分類標簽數目。采用手肘法的誤差平方和確定投訴工單分類標簽數為12。手肘法的核心是誤差平方和SSE(Sum of the Squared Errors),其計算如下:
(1)
式中:Ci是第i個簇,p是Ci中的樣本點,mi是Ci的質心(Ci是所有樣本的均值),SSE是所有樣本的聚類誤差,代表了聚類效果的好壞。
手肘法的基本思想是隨著聚類數K的增大,樣本劃分會更加精細,每個簇的聚合程度會逐漸提高,那么SSE自然會逐漸變小。并且當K小于真實聚類數時,由于K的增大會大幅增加每個簇的聚合程度,故SSE的下降幅度會很大。而當K到達真實聚類數時,再增加K所得到的聚合程度回報會迅速變小,所以SSE的下降幅度會驟減,然后隨著K值的繼續增大而趨于平緩。也就是說SSE和K的關系圖是一個手肘的形狀,而這個肘部對應的K值就是數據的真實聚類數。圖1是基于手肘法確定的最佳聚類數示意圖。

圖1 基于手肘法確定的最佳聚類數示意圖
5) 確定分類標簽名稱,分析基于2-gram特征,K取12時,每類隨機抽取500條投訴工單交給業務專家進行分析,并確定分類標簽名稱。
營銷活動問題標簽分類語料標注規范的制定難度較大,不僅數據量大,涉及專業知識,而且涉及到對專業業務的定義和分類。因此,本文基于K-means算法和專業知識確定營銷活動問題標簽分類體系,并進行標注。標注過程如圖2所示。首先,根據K-means算法和專業知識確定的營銷活動問題標簽分類體系,規則制定者制定標注規則;然后,對每條投訴工單,由兩名標注人員進行獨立標注。最后,由規則制定者審核標注結果,并與標注人員、非參與標注的業務專家進行討論和修訂,統一兩份標注語料中不一致的標注結果,形成最終的營銷活動問題標簽分類語料庫。

圖2 語料標注過程
1.3.1 營銷活動問題
營銷活動問題指的是客戶對網站、10086人工、短信等渠道為客戶推薦優惠活動的內容、相關規則等產生爭議,引起客戶不滿。客戶投訴工單的對象為營銷活動,例如客戶對營銷活動參與或退訂、對營銷活動規則不滿、宣傳與實際不符、營銷活動贈品(含話費/流量)未按時收到、質量問題(含話費金額有誤)等情況的投訴。
1.3.2 標簽的定義
(1) 否認參加營銷活動 客戶在不知情情況下公司統一開通、變更、取消業務或優惠、免費體驗活動,必須是客戶明確拒絕辦理仍然被開通才屬于“否認參加營銷活動”。
(2) 營銷活動規則不滿 該問題標簽包括活動規則限定捆綁業務(用戶參與營銷活動,不知情/不想捆綁新業務,或對捆綁業務無法取消不滿)、基礎套餐無法轉出或者變更(活動到期前基礎套餐/流量套餐不能轉出或變更)、話費分攤不合理(對已參加的營銷活動返還月份/金額不滿意)、最低消費不合理(客戶對營銷活動月底補收最低消費不滿意、話費清零不滿)、其他營銷活動規則不滿(如限制辦理停機、銷號、過戶,分合戶等;客戶表示有其他用戶參加相同活動不同待遇;沒有解釋清楚或者該提醒業務點未提醒的)幾種情況。
(3) 無法參加營銷活動 該問題標簽包括客戶自己是非目標客戶(客戶來電表達對自己不能參與某營銷活動,不是目標客戶表示不滿)、營銷活動參與渠道少(客戶對營銷活動限定辦理渠道不滿意)、因互斥業務無法辦理(客戶現有業務與開通營銷活動的捆綁業務互斥導致無法參與營銷活動)、其他無法參加營銷活動問題(客戶同意參加活動但是未及時給客戶辦理;客戶表示辦理了未顯示成功;寬帶活動已繳費或已變更業務但是因安裝問題導致客戶無法參加;活動頁面無法打開或刷新不出來等)幾種情況。
(4) 營銷活動贈送或返還問題 該問題標簽包括未按時收到活動返還(客戶僅表示未在活動指定時間內收到贈送,無提及最低消費問題,因人為問題導致活動期承諾的贈送未按時返還)、返還/贈送金額有誤(參與活動返還金額不準確)、贈送禮品質量問題(用戶參與活動贈送的禮品、電子券、優惠碼等出現的各類質量及使用方面問題)、其他返還類問題(其他營銷活動贈送或返還問題)幾種情況。
(5) 優惠到期未自動取消 該標簽的判定依據是:活動到期后業務未自動取消的套餐或業務。
(6) 營銷宣傳與實際不符 該標簽的判定標準是:客戶明確表示活動宣傳與實際體驗不符(有對比),包括公司的一些宣傳冊頁及短信中有關活動內容的文字信息、客戶明確表示有人告知或承諾的內容與實際發生的活動情況不一致、要取消活動(包括活動到期變更已下線業務、客戶參加活動或接到電話推薦業務,實際辦理和宣傳不一致)等情況。
(7) 終端營銷物流配送不及時 終端營銷物流配送不及時包括手機收到但是發票未及時配送、物流配送將客戶訂購產品丟失兩種情況。
(8) 終端營銷缺貨 終端營銷缺貨包括:承諾贈送機頂盒后一直未送;宣傳有免費贈送但是免費機型無貨,但是有收費機型的情況。
(9) 終端營銷售后問題 該問題標簽包括:終端維修、換機等售后問題、客戶對終端品質產生質疑(例如手機質量差)。
(10) 其他營銷問題 該問題標簽包括客戶反映因參加活動寬帶未及時安裝但是產生扣費、客戶辦理終端類活動要修改地址或信息填寫錯誤要求修改等情況。
(11) 反悔定制 該問題標簽主要包括用戶接到電話推薦活動表示同意辦理,之后反悔、客戶表示沒聽清或誤操作或非本人辦理活動要求取消的情況。
(12) 營銷活動未到期要求取消 該問題標簽包括活動未到期用戶要求取消活動、客戶明確表示只要求取消活動,無其他需求、客戶表示有活動要求取消(客服人員前期有承諾客戶會幫助取消,但是還未執行,客戶的要求仍然是取消業務)的情況。
出現以下“重單”、“模板工單”、“無效工單”三種情況,在構建語料庫時直接舍棄。
(1) 重單 如果工單內容中沒有具體的投訴內容,只有之前投訴工單的一個編號,直接標注為“重單”。
(2) 模板工單 如果是用工單模板建單的情況,此類工單內容沒有客戶描述的自由文本信息,看不出客戶投訴的任何信息,標注為“模板工單”。
(3) 無效工單 客戶描述不清,看不出客戶投訴點的工單,標注為“無效工單”。
標注語料的前提是能夠看懂客戶投訴的營銷活動問題,以客戶的投訴意圖為主。為確保標注出來的問題標簽分類語料庫準確、有效,標注人員在標注過程中需嚴格遵循以下標注原則:
(1) 以客戶需求為準 標注時,需要從客戶的角度出發,填寫客戶的需求,無論需求是否合理、是否可以實現,只要客戶表達出來了,均需按照客戶投訴營銷活動問題的意圖進行標注。
(2) 摒棄業務經驗 標注的目的是讓系統從大量的數據中學習判別客戶投訴營銷活動問題標簽的規則,由于系統并不具備移動業務知識和推理能力,所以在標注過程中不能將業務經驗加入考慮,基于推理得到標注結果。
(3) 避免臆斷推測 標注客戶投訴意圖時,必須從文字內容出發,不能加入標注人員自己的主觀猜測,不能在文字內容表達出來的意圖之外推測出客戶的投訴意圖。
(4) 純憑文字內容 為確保訓練數據的有效性,保障系統學習準確率,標注人員進行標注時僅通過文字判定標簽,不可做文字內容以外的聯想和經驗判斷。
雖制定了詳細的標注規則,但由于營銷活動投訴工單的靈活性,導致很難判別,如下是標注特殊情況:
(1) 如果客戶表示未經許可、不知情辦理了***活動,統一歸為:否認參加營銷活動。
(2) 對活動有最低承諾消費不滿、沒有機卡綁定或手機壞了等導致的雙倍扣費,屬于營銷活動規則不滿;如果客戶明確了業務規則,之后表示辦理時沒有提示,對宣傳與實際不符不滿,此類歸為:營銷宣傳與實際不符;對不能參加某一檔位的營銷活動,歸為:營銷活動規則不滿;參與活動但話費沒有返還屬于營銷活動贈送或返還問題。客戶表示參與活動但不成功,屬于:無法參加營銷活動;客戶參與活動,如明確表示當時參與時介紹的與現在成功參與后的內容不一致,則為:營銷宣傳與實際不符;營銷活動到期后未取消產生扣費的情況,歸為:優惠到期未自動取消。
(3) 參與終端活動后,終端出現質量類問題,歸為:終端營銷售后問題;參與需要好友協助類活動,但數據不更新,歸為:無法參加營銷活動。
傳統基于機器學習的分類方法需要人工設計特征,并且特征表示均采用獨熱(one-hot)的高維稀疏表示形式,難以捕捉投訴工單內部的深層語義信息。相對于傳統的機器學習,基于深度學習的方法不需要繁瑣的特征工程設計,通過多層的神經網絡自動構建數據的深層抽象特征表示,學習深層次的語義信息。基于深度學習的方法能夠將語言學信息表示為低維、連續的實值向量,可以減小特征選擇不全面對實驗結果造成的影響。目前比較具有代表性的神經網絡模型有CNN和LSTM。
CNN本質上是學習大量輸入信號到輸出目標的映射關系,通過多隱層堆疊、每一層對上一層的輸出進行處理的機制對輸入信號進行逐層加工,從而把能夠將初始的“低層”特征表示自動轉化成“高層”的特征表示,該方式既可以避免顯式的特征抽取,也能夠減少訓練代價。由于其采用局部感受野和權值共享的方式,能夠有效降低反饋神經網絡的復雜性,所以在語音識別、圖像分析等領域得到廣泛應用。
LSTM通過獨特的“門”機制控制信息的記憶和更新,能夠自動學習整個輸入序列的深層語義信息,并且可以解決傳統循環神經網絡RNN(Recurrent Neural Network)[19]的梯度消失問題。LSTM的“門”機制包含一個sigmoid激活函數和一個pointwise乘法來控制信息的加入與丟棄。sigmoid函數的輸出值在0到1之間,輸出值表示容許信息的通過量是多少,值為0表示“任何信息都不允許通過”,值為1代表“允許所有的信息通過”。LSTM模型通過輸入門、輸出門、忘記門控制信息的記憶和更新,從而在學習過程挖掘營銷活動投訴工單內部的深層語義信息。
為挖掘營銷活動問題投訴工單內部的深層語義信息,本文采用深度學習的方法進行營銷活動問題標簽的分類研究。圖3是基于深度學習的營銷活動問題標簽分類框架圖,包括預處理、構建句子向量表示、基于深度學習訓練模型、輸出分類結果四個階段。在預處理階段,對營銷活動問題數據,進行分詞、去停用詞、訓練詞向量等處理。在構建句子向量表示階段,通過映射操作,將訓練數據、測試數據中的工單詞序列轉換成低維、連續的實值表示形式,得到工單的句子向量表示。在基于深度學習訓練模型階段,分別基于CNN、LSTM、Bidirectional Long Short Term Memory(BiLSTM)模型及三種模型融合的方法,訓練營銷活動問題標簽分類模型。在輸出分類結果階段,預測并輸出待測試營銷活動投訴工單的問題標簽分類結果。

圖3 基于深度學習的營銷活動問題標簽分類框架圖
本語料數據來源于移動客服領域,31省800萬條客戶投訴營銷活動問題的真實工單記錄,共計標注數據24 957條投訴工單。其中訓練集有19 960條,測試集4 997條,每條標注數據包括工單內容和問題標簽,其中工單內容、問題標簽之間用制表符隔開。表2是營銷活動問題標簽分類語料庫的統計信息。

表2 營銷活動問題標簽分類語料庫的統計信息
(1) 營銷活動問題投訴工單數占比最高的三種問題標簽分別是營銷活動規則不滿、否認參加營銷活動和營銷活動贈送或返還問題。而終端營銷物流配送不及時的投訴工單僅有89條。說明不同營銷活動問題標簽的投訴熱度不同,客戶關注的焦點不同。從投訴工單的數量和占比,可以發現客戶投訴的Top3核心問題,對于快速定位客戶投訴的問題標簽類別,提升服務質量具有重要意義。
(2) 12種問題標簽投訴工單的平均長度均在338字到493字之間,不同問題標簽的工單長度分布較均勻。這可能是由于營銷活動問題的工單模板比較相似導致的。
由于本文對每條營銷活動問題投訴工單都標記了唯一的標記,所以召回率為100%。采用準確率作為一致率(即兩組標注結果完全一樣的投訴工單數目/總的投訴工單數目×100%)來分析標注一致性。營銷活動問題標簽分類語料庫的一致性分析結果如表3所示。Result1_2為標注結果1和標注結果2之間的一致率,Result1_final為標注結果1和最終語料標注結果之間的一致率,Result2_final為標注結果2和最終語料標注結果之間的一致率。

表3 投訴工單分類語料庫的一致率統計 %
從表3可以看出:
(1) 12種問題標簽的標注一致率結果均在93%以上。Artstein和Poesio[20]指出,當標注一致性達到80%時,即可認為語料的一致性是可信賴的。從最終一致性結果可以看出,我們構建的語料庫在一致性上是可靠的。
(2) 第一列的一致率普遍比第二列、第三列的一致率低。這是因為:標注結果會受人主觀因素的影響,而最終問題類語料是由標注結果1和標注結果2不同之處統一之后得到的。所以第二列、第三列的一致率普遍高于第一列的一致率。
(3) 營銷活動未到期要求取消、其他營銷問題的一致率相對較低;否認參加營銷活動、營銷活動贈送或返還問題、終端營銷售后問題的一致率相對較高。這可能是因為:各個問題標簽的特點、區分度不同造成的,例如否認參加營銷活動必須有明確的客戶否定的說法;營銷宣傳與實際不符必須有對比等。此外,還可以看出相對于其他問題標簽,營銷活動未到期要求取消、其他營銷問題的標注更加復雜,因為涉及到更多復雜和多變的投訴情況。
本文首先基于移動客服領域營銷活動問題800萬條投訴工單語料,使用Word2Vec工具包[21]進行預訓練,得到100維的詞向量。然后,分析表2營銷活動問題標簽分類語料庫的統計信息結果,發現數據存在不平衡現象,這樣會對分類器的結果造成影響。因此我們借鑒非均衡問題調節分類器的方法(即對分類器的訓練數據進行改造),通過欠抽樣和過抽樣的方法來處理不平衡的問題,最終構建并得到新的平衡數據集。過抽樣就是對終端營銷缺貨、終端營銷物流配送不及時、其他營銷問題等標簽數量少的數據進行復制操作,欠抽樣就是對營銷活動規則不滿、否認參加營銷活動等標簽數量多的樣例的方式進行隨機刪除操作,這樣就可以保證數據集分布大致保持在平衡的狀態。最后,分別基于CNN、LSTM、BiLSTM模型及三種模型融合的方法,在本文構建的語料數據集上進行營銷活動問題標簽分類的實驗。在CNN實驗中,濾波器的數目為292,學習率為0.01,設置一個批度的樣本數(batch-size)為128,卷積窗口大小為3,采用最大池化方式,實驗迭代500次。在LSTM和BiLSTM實驗中,設置一個批度的樣本數(batch-size)為800,迭代次數為500,其他均采用默認參數。在三種模型融合實驗中,為綜合利用三個模型的優勢,采用規則進行融合,構建基于融合的營銷活動問題標簽分類模型(CNN+LSTM+BiLSTM),得到分類結果。本文以每條工單為單位進行評測,采用準確率(P)、召回率(R)和F1值的評測指標衡量分類效果。本文采用的融合規則如下:
(1) 如果兩個分類器輸出的問題標簽一致,一個分類器輸出的問題標簽和另外兩個分類器的標簽不同,按照多數投票原則確定最終的問題標簽。
(2) 如果三個分類器輸出的問題標簽各不相同,則依據概率最大的原則確定最終的問題標簽結果。
本文基于上述規則,得到的基于深度學習模型的營銷活動問題標簽分類實驗結果如表4所示。

表4 基于深度學習的營銷活動問題標簽分類實驗結果%
(1) 基于CNN模型的營銷活動問題標簽分類結果比基于LSTM模型的結果好,F1值達到65.95%。可能是因為:工單句子的模板性較強,會包括較多的無用(噪音)信息,這樣,LSTM模型會將噪音信息傳遞到下一時刻,從而影響分類效果,而CNN模型能夠捕捉到局部最有效的信息,所以分類效果相對較好。
(2) BiLSTM模型的F1值比LSTM模型高3.83%,說明歷史信息和未來信息對于營銷活動問題標簽的分類都是有用的。這可能是因為:BiLSTM模型能夠捕捉到工單序列的歷史信息和未來信息,而LSTM模型僅能夠捕捉到工單序列的歷史信息。
(3) CNN、LSTM、BiLSTM模型的分類結果F1值在59.67%和65.95%之間,說明基于深度學習方法的分類結果還有很大的提升空間。這主要是因為:本文數據來源于真實的客戶投訴工單內容,工單的靈活性和口語化特征加大了問題標簽分類的難度和復雜性。
(4) CNN+LSTM+BiLSTM模型分類性能最好,F1值達到67.70%,比CNN、LSTM、BiLSTM模型的F1值分別高1.75%、8.03%、4.20%。說明本文提出的融合分類方法是有效的,能夠綜合利用各種模型的優勢,挖掘更深層的語義信息,從而顯著提高營銷活動問題標簽的分類效果。
本文主要總結了在移動客服領域營銷活動問題標簽分類語料庫構建和分類研究方面的工作。首先,基于K-means算法和專業業務知識確定分類標簽體系,依據專業知識制定詳細的標注規則并進行標注。最終構建了目前規模較大、業務覆蓋面最廣、分類最完備的移動客服領域營銷活動問題標簽分類語料庫,共計標注投訴工單24 957條。然后,統計和分析營銷活動問題標簽分類語料庫標注結果的一致性,并在構建的語料庫上,采用單一深度學習模型及三種模型融合的方法進行營銷活動問題標簽分類實驗。實驗結果F1值最高達到67.70%,表明本文提出的基于深度學習的營銷活動問題標簽分類方法是有效的。最后,對未來工作進行展望。詳盡的標注規則和嚴格的標注過程,使得語料標注取得了較高的一致率,分類結果較好,可見本文構建的語料規模足以用于后續研究。如前所述,語料庫的構建目的是為了研究營銷活動問題標簽的分類,從而幫助服務決策人員進行營銷活動問題專題分析。未來工作的重點是根據使用者的反饋意見,繼續完善標注規范,改進標注質量,擴大語料規模,改進營銷活動問題標簽的分類方法,提高分類效果,從而實現移動客服領域營銷活動問題信息的抽取和整合。