鐘建 高海洋


摘? 要:為提升客戶服務的效率,快速分析和解決客戶問題,并將客戶述求和投訴充分轉換為中國移動發展的動力和資源;提出了一種針對移動客服聊天記錄的數據分詞框架,針對客服聊天文本的特點,制定了結合文本糾錯、停用詞擴充、關鍵詞提取、詞性分析這幾個方面的數據預處理步驟。依靠這樣的框架,提升了文本數據分詞的質量,使用字典映射的方式,糾正出文本數據中存在的共性的錯誤。
關鍵詞:數據預處理;停用詞;關鍵詞;糾錯字典
中圖分類號:TP391.1? ? ? ?文獻標識碼:A 文章編號:2096-4706(2020)01-0007-03
Abstract:In order to improve the efficiency of customer service,quickly analyze and solve customer problems,and fully convert customer complaints into the power and resources of China Mobiles development. We propose a data segmentation framework for mobile customer service chat record. According to the characteristics of customer service chat text,we develop the data preprocessing steps of text error correction,stop words expansion,keyword extraction,part of speech analysis. Relying on this framework,we improve the quality of text data segmentation. We use dictionary mapping to correct the common errors in the text data.
Keywords:data preprocessing;stop words;keywords;error correction dictionary
0? 引? 言
近幾年來,隨著大數據概念以及人工智能的迅速發展,現在的各行各業都在向智能化的方法探索、發展,傳統的服務行業也不例外,如何有效地使用機器學習的方法來減輕人工的工作量、提升工作效率是服務行業較為關心的問題。情感極性分析是自然語言處理中常見的任務之一,在不同的中文語料上,已有很多人進行了不同的研究[1]。通過分詞工具以及人工篩選,筆者提取出了針對該文本的停用詞以及關鍵詞;通過對詞性的分析,進一步對分詞結果進行了篩選,得到了最終文本數據的分詞結果。實驗結果表明,使用上述分詞框架后,對中國移動客服文本數據情感分析的二分類任務,在精確值上有2%的提升。
1? 傳統數據預處理
在機器學習和深度學習領域,都有很多方法來進行情感極性的分析[1]。盡管它們在對數據的數量和質量的要求上有所區別,但是在數據預處理方面,不論是傳統的機器學習方法,還是深度學習模型,分詞一般都是大家的首選步驟,雖然也有部分模型的研究粒度是基于字的[2],但是目前的主流方法還是基于詞的。而受限于我們的數據集數量,實驗中我們使用的是傳統的機器學習方法來進行情感分類任務。
傳統的數據預處理步驟包括分詞,去除停用詞兩個操作。在中文語料分詞方面,Jieba分詞工具憑借其使用方便、分詞高效的特點,備受大家的青睞,是最常用的分詞工具。在將長文分數據為多個詞之后,我們通常還會去除分詞結果中的停用詞。通常停用詞會單獨作為一個停用詞詞表,常用的中文詞表有“哈工大停用詞表”“百度停用詞表”等。通過去除分詞結果中的停用詞,我們可以去除結果中的噪聲詞,這樣做的好處是不僅可以降低分詞結果的長度,也可以去除停用詞對下游任務的影響。
針對我們的數據,在使用上述的分詞步驟后,我們發現,由于我們領域的特定性,直接使用Jieba分詞得到的結果并沒有滿足我們的需要,會出現我們關注的一些關鍵詞被分為了多個詞或某些詞沒有被切分成功的情況,這就直接影響了后面的特征構造以及文本表示。所以,在中國移動客服對話文本數據中,直接使用Jieba進行分詞顯然是不合理的。因為客服聊天內容的有限性和重復性,我們關心的詞的數量也是有限的,所以,針對這個不足,我們提出了領域的關鍵詞表,這樣的好處是,所有我們關心的詞都可以被正確的切分,因此,文本中的關鍵特征得以保存。同時,我們也維護了一份領域的停用詞詞表。除了去除通用領域的停用詞之外,針對我們的數據,我們除去了針對客服文本數據的一些停用詞。這些詞大多屬于客服代表的規范用語,如“客服代表”“網絡專席”“您好”一類的詞匯,這樣的詞匯廣泛的出現在客服聊天文本中,但是對我們的任務分析沒有作用,不需要作為我們的特征,因此需要去掉,然而在常用的停用詞表中,無法將這些詞有效地去除,因此我們更新了停用詞表,得到我們針對中國移動客服聊天記錄的停用詞表。
由于我們數據的特殊性,在進行以上分詞過程前,我們還需要進行一項任務,那就是文本糾錯。由于我們的文本數據是由客服聊天錄音通過翻譯軟件翻譯而來,而錄音本身并不是十分標準的普通話,導致聊天語音中有著大量的方言。受限于當前機器翻譯軟件的翻譯質量,我們得到的翻譯文本中,存在相當一部分的翻譯錯誤文本。此類句子表現出無語法結構,無語序結構等等問題,多數句子直接無法判斷其意思,屬于無效的句子。當前的中文糾錯研究,主要都是針對某些公開數據集上的某種問題,如語法、錯別字等等[3]。對我們這樣綜合多種錯誤的文本來說,文本糾錯是一個很難的問題。為了減輕這樣的影響,針對我們的文本數據,我們采用的字典映射的方式來處理一部分文本錯誤。在簡單處理后,使用我們的分詞方法,再進行分詞。
下面筆者將從糾錯字典的構造、停用詞表與關鍵詞表的構造、實驗方法以及實驗結果及分析這幾個方面介紹我們的工作。分詞框架如圖1所示。
2? 糾錯字典的構造
從上述的介紹中,我們已經得知,我們的文本數據中存在著一部分由于語音翻譯帶來的錯誤,使得文本數據無法理解。一方面,混合錯誤的文本數據糾錯問題現在還缺乏一定的研究,我們嘗試過使用百度AILab的糾錯API,但是毫無效果;另一方面,我們沒有缺乏有效的訓練數據,即我們無法識別錯誤文本的真正意思是什么。以上原因使得我們無法使用機器學習的方法來糾正文本數據中的錯誤。由于我們的原始音頻數據都是來自于同一個地區的客服聊天記錄,即便是口音問題導致的翻譯出錯,它們的錯也具有一定的相似性,因此,我們采用字典映射的方式來處理那些普遍存在于翻譯文本中的具有一定共性的錯誤。通過人工識別的方式,我們總結出可以糾正的多音字或錯別字錯誤,將其與普通話的字進行一一對應,形成了糾錯字表。使用糾錯字表,我們將文本中的這些字一一修改成普通話中對應的字,達到簡單的糾錯效果。
3? 停用詞表與關鍵詞表構造
在進行簡單的文本糾錯后,我們需要構造停用詞表以及關鍵詞表,這兩個詞表的構造對我們的分詞以及文本篩選的準確性有著很大的影響。因為這兩個詞表的功能具有一定的相反性,因此我們是同時構造這兩個詞表的,下面是我們構造這兩個詞表的過程。首先我們使用Jieba分詞工具,將糾錯后的文本進行直接的分詞,使用通用領域的停用詞表去除停用詞,得到分詞后的文本。這時候,每一條原始數據都由一系列的詞表示。接著,我們抽樣出部分原始文本與其分詞數據,人工觀察識別分詞結果,對比原始的文本,提取出錯分的詞,構造成我們的關鍵詞表。然后對分詞文本進行數值上的統計,由于我們的數據具有領域特性,所以對于高頻詞,我們需要額外的關注。對于出現次數高于100次或出現次數在前100~200的詞,直接人工判斷是否需要重點關注這些詞,如果需要,則將它們加入到關鍵詞表中,如果不需要,則把它們加入到停用詞表中。最后,在完成一次關鍵詞表與停用詞表的更新后,我們重新使用Jieba進行分詞,加入關鍵詞表,保證詞表中的詞都能被正確分類,加入停用詞詞表,保證詞表中的詞都被去除。迭代進行2~3次關鍵詞表與停用詞表的更新。由于我們數據的特點,一方面領域特點保證了我們關鍵詞和停用詞的有限性;另一方面,我們使用分詞工具去輔助人工發現關鍵詞與停用詞,這兩點保證了人工篩選詞匯的可行性和高效性。
4? 實驗設計
本次實驗采用了三個傳統的機器學習模型:支持向量機、XGBoost、logistics回歸[4]。在傳統的機器學習模型中,對于分類任務,以上三種方法是最常使用的模型,之前很多的研究已經證明了在分類任務上以上三種模型的優秀表現。實驗文本特征的構造使用自然語言處理中較為常見的one-hot表示以及TF-IDF表示,分別構造文本數據的特征,使文本數據向量化。在文本向量化之后,我們將數據分別使用不同的模型進行分類,得到實驗結果。對比實驗,我們使用控制變量的方法,使用本文的分詞方法對數據進行預處理,對比不使用該方法的普通的分詞方法,使用同樣的實驗方法、實驗參數,對比實驗的結果。實驗結果的衡量指標為F1值。
5? 實驗結果及分析
各方法實驗的結果如表1所示,Before列代表未使用上述分詞方法的實驗結果,After列代表使用上述分詞方法的實驗結果。
從實驗中我們可以看出,在不同的方法以及不同的特征構造上,使用本文提出的分詞方法后,部分模型的表現都有了效果上的提升。主要原因一方面是我們減少了文本中的錯誤,減少了很多干擾詞,另一方面是因為我們使用了領域的停用詞表和關鍵詞表,更多重要的詞被保留,在構造文本特征的時候,與直接分詞相比保留了更多的特征,因此在分類的結果上,使用本文的方法后,分類的效果有了提升。
6? 結? 論
本文提出的這種針對中國移動客服文本的分詞方法經實驗驗證是有效的。針對中國移動客服文本的預處理問題,在經過我們的文本糾錯,結合本領域的關鍵詞表和停用詞表的輔助分詞后,文本的特征得到了很好的保留,從而在下游的情感分析任務上,與單純的分詞相比,在不同模型上都有了效果上的提升,充分說明了本文提出的分詞方法的有效性。
參考文獻:
[1] WANG Y,ZHENG X,HOU D,et al. Short text sentiment classification of high dimensional hybrid feature based on SVM [J].Computer Technology and Development,2018,28(2):88-93.
[2] DEVLIN J,CHANG M,LEE K,et al. BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding [J/OL].[2019-11-20].https://arxiv.org/abs/1810.04805?context=cs.
[3] YANG Y,XIE P,TAO J,et alAlibaba at IJCNLP-2017 Task 1:Embedding Grammatical Features into LSTMs for Chinese Grammatical Error Diagnosis Task [C]//Proceedings of the IJCNLP 2017,Shared Tasks,2017:41-46.
[4] WRIGHT R E. Logistic regression [J].Reading & Unders-tanding Multivariate Statistics,1995,68(3):497-507.
作者簡介:鐘建(1969-),男,漢族,四川成都人,高級工
程師,碩士研究生,研究方向:移動網絡的建設維護和優化。