999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Filter模型和隨機森林的電信客戶投訴分類方法

2020-07-14 02:49:30岳丹陽
計算機應用與軟件 2020年7期
關鍵詞:分類特征文本

岳丹陽 方 帥

(合肥工業大學計算機與信息學院 安徽 合肥 230009)

0 引 言

通信服務種類的增多使用戶對運營商的服務質量要求越來越高,隨之而來的就是呈爆炸式增長的用戶投訴量。傳統的客戶投訴分類方法主要是依靠客戶關系管理系統和領域專家的經驗判斷,根據客戶投訴文本中的關鍵詞進行自動標識,再分配給相應技術支撐部門的領域專家進行處理[1]。其中最重要的環節便是對投訴進行分類[2]。例如,客戶關于上網速度慢的投訴中有相當一部分不是因為運營商的通信設備或網絡問題,而是由于客戶自身的手機終端配置或感知問題而導致的。若對投訴原因定位不準,則無法及時分配到相應的支撐部門,提供適當的解決方案,就會降低客戶滿意度,還可能造成投訴升級。客戶投訴數據中包含了大量的非結構文本信息和用戶的通信行為信息,因此,對這些高維混合特征數據進行自動分析和精準分類就成為有效處理電信客戶投訴的關鍵。

近年來,集成學習方法逐漸被應用到高維混合數據的分類中[3-4]。集成學習將多個學習器進行結合,往往能夠獲得比單一學習器更為顯著的泛化性能。常見的集成學習方法根據個體學習器的生成方式可以分為兩種[5]。一種是個體學習器之間存在強依賴關系必須串行生成的序列化方法,如Boosting[6];另一種是個體學習器不存在依賴關系,可以同時生成的并行化方法,如Bagging[7-8]和隨機森林[9]。隨機森林簡單易實現,在現實任務中具有強大的分類性能,被廣泛應用于數據分類問題中,如垃圾網頁檢測[10]、惡意軟件檢測等[11]。然而,面對維度高、噪聲大的數據,傳統隨機森林算法也面臨著計算復雜度高和分類效果較差的問題。姚立等[12]基于主題模型提取文本特征并對該算法進行了改進,將原始文本映射到主題空間中,從而降低文本噪聲對分類結果的影響,然后再采用隨機森林算法進行分類。盧曉勇等[10]則提出一種基于隨機森林和欠采樣集成的二元分類器算法,以解決垃圾網頁檢測過程中的不平衡分類和“維數災難”問題。由于電信客戶投訴信息中包含大量的文本信息和通信行為信息,這些信息中存在大量冗余無關的特征,因此本文通過Filter模型進行特征選擇,提出了一種基于Filter模型和隨機森林的客戶投訴分類方法。該方法首先將客戶投訴文本和客戶通信行為信息進行預處理,采用詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency, TF-IDF)進行特征提取,然后采用Filter模型進行特征選擇,并構建基于隨機森林的客戶投訴分類方法,最后以某通信運營商的投訴數據進行實驗,驗證本文方法的有效性。

1 客戶投訴的特征提取

用于描述客戶投訴的特征包含客戶行為特征和投訴文本特征。客戶行為特征主要指運營商業務支持系統中記錄的關于客戶手機通信網絡制式、通信狀態和所占用基站等信息,客戶投訴文本的內容通常包含客戶對通信服務質量的感知與描述以及關于地點、時間及其信號強度和呼叫質量的信息,這些信息都可作為判斷客戶投訴原因的依據。因此,本文首先提取客戶投訴的文本特征,然后選取其中最重要的若干個特征與客戶行為特征相結合構成客戶投訴的特征向量。

常見的文本特征提取方法就是TF-IDF。該方法是一種基于詞頻與逆文檔頻率的統計方法,其基本思想為:若一個詞或一個短語在某個文檔分類中出現的次數很多,而包含該詞的文檔分類卻很少,則認為此詞對分類的貢獻程度較大,有較好的分類能力。tf(w,d)為詞頻,表示詞w在文檔d中出現的頻率,idfw為逆文檔頻率,表示了詞w的類別區分能力,包含詞w的文檔越少則該值越大。TF-IDF的計算公式如下:

(1)

(2)

式中:f(w,d)表示詞w在文檔d中出現的頻數;dfw表示特征詞w出現的文檔數量;N表示所有文檔的數量。則得到特征詞w的權重公式為:

tfidfw=tf(w,d)×idfw

(3)

2 基于Filter模型的特征選擇

特征選擇是根據特征的相關性和冗余性,從原始特征集中進行搜索尋優,直到選擇出滿足特定評價指標的特征子集的過程。特征選擇的方法主要有三種:濾波法(Filter)、封裝法(Wrapper)和嵌入法(Embedded)[13]。基于Filter模型的特征選擇方法是直接利用數據的統計特性將特征的重要性進行排序,從而去除得分較低的特征。常用的度量重要性的方法有距離度量、相關性度量、一致性度量和信息度量。基于Wrapper模型的特征選擇方法是將分類器學習模型和特征子集相結合,根據最終的分類結果錯誤率來評價特征子集的好壞。該方法會枚舉出所有可能的特征組合,準確率高但是計算速度慢,泛化能力較弱,不適合大數據集。基于Embedded模型的特征選擇方法是將特征選擇作為學習算法的一部分,同時解決特征選擇和分類問題,如基于決策樹的特征選擇法等。它同時具有了Filter和Wrapper的優點,但是損失函數的選擇和縮放參數的設定較難給出。

本文選擇Filter模型中的信息度量方式進行特征選擇。采用特征的信息增益比(information gain ratio,IGR)進行特征選擇,以校正信息增益計算過程中取值較多的特征對選擇結果的影響。假設一個特征變量X與一個類別變量Y相關, IGR值較高的特征則被認為與該分類變量Y相關度更高。IGR是信息增益(information gain,IG)與特征X的內在熵值(intrinsic value, IV)的比率,即:

(4)

(5)

式中:p(y|x)是y給定x的條件概率。信息增益IG(Y,X)定義的是一種度量,以反映添加特征X時變量Y減少的熵。加入特征X后,通過計算Y的IG值來度量特征X的貢獻。特征X的內在值表示為:

(6)

根據上述方法,在選擇一個特征X來預測變量Y時,信息增益比可以通過考慮多值特征的數目和大小來減少對多值特征的偏差。因此采用的特征信息增益比越大,表明該特征對分類結果的影響越大,重要性程度也越高。

3 基于隨機森林的客戶投訴分類方法

由Breiman在2001年提出的隨機森林算法是Bagging算法的一個變體,是一種基于決策樹的組合分類器算法。隨機森林算法在決策樹的訓練過程中引入了隨機屬性選擇:傳統決策樹在選擇劃分屬性時是在當前結點屬性集合中選一個最優集合,隨機森林則是先使用Bagging方法生成不同訓練集,對基決策樹的每個結點,在該節點的屬性集合中得到一個包含數個屬性的子集,再從子集中選擇最優屬性用于劃分。即每棵決策樹的訓練樣本由隨機采樣獲得,且生成決策樹時各節點分裂時所選擇的屬性也是隨機的,兩個隨機性的結合,降低了決策樹相似的可能性,這使得該算法面對噪聲時的魯棒性更好,對非平衡數據處理得到的結果也更加穩健,進而提升了隨機森林的分類精度。基于隨機森林的客戶投訴分類方法共包含以下三個步驟,如圖1所示。

圖1 基于隨機森林的客戶投訴分類方法

(1) 訓練集的采樣生成。首先將樣本分為訓練集、驗證集和測試集。對于訓練集采用重采樣的方法,在每一輪的學習中根據樣本分布對訓練集重新進行采樣,從含有D個樣本的原訓練集中有放回地隨機抽取n個新的樣本集合,建立n棵決策樹,每次采樣中未被抽到的樣本則會形成n個袋外數據(out of bag, OOB)。

(2) 決策樹基分類器的訓練。決策樹算法的主要理論基礎為信息熵,算法將分裂屬性的取值劃分成為兩個子集,從兩個子集出發,采用遞歸的方法在每個子集中再產生兩個分支。隨機森林中采用分類回歸樹(classification and regression tree,CART)算法建立沒有剪枝的決策樹作為基分類器。

分類回歸樹以Gini指數作為分裂標準來選取劃分屬性。Gini指數是一種不等性度量,可用于度量任何不均勻分布,數值介于0(表示完全相等)到1(表示完全不等)之間。此處用于描述一個節點的不純度,用以衡量從數據集中隨機抽取兩個樣本,其類別標記不一致的概率。假設數據集T{X,Y}中包含J個類別的樣本,Gini指數的定義如下:

(7)

式中:P(j|t)為類別j(j=1,2,…,J)在節點t處的概率。如果將樣本集合分成m個部分,則進行這個劃分的Gini指數為:

(8)

式中:m為子節點的數目;ni為子節點i處的樣本數;n為母節點的樣本數。

在候選屬性集合中選擇使得劃分后Gini指數最小的屬性作為最優劃分屬性,并根據其屬性創建分支,每棵樹都不進行任何剪枝操作。

(3) 隨機森林的生成。隨機森林是由大量的基分類器(決策樹)組合而成的強分類器。重復步驟(2),遍歷已建好的決策樹,由k棵決策樹組成隨機森林。對于隨機森林算法的分類結果,一般用投票機制進行決策,表示如下:

(9)

式中:I(·)是示性函數,取值是0或1。Y為可能的類別。隨機森林在輸出待測樣本的分類結果時就是根據k棵決策樹投票最多的類別作為樣本的最終類別。

4 實驗結果與分析

4.1 數據收集與預處理

我們收集了某電信公司的技術支持部門在2015年8月至10月期間的客戶投訴工單文本共3 000條,消除一些無效投訴后共獲得數據1 433條。樣本數據包括了關于客戶投訴文本、客戶通信行為信息、投訴處理結果和客戶反饋的詳細信息。客戶投訴文本是公司客服部門在接到客戶投訴信息后在客戶管理系統中記錄下來的工單信息。某客戶的投訴文本如表1所示。

表1 客戶投訴工單實例

客戶通信行為信息來自運營商業務支持系統,本文選擇六個客戶行為特征,包括:(1) 干擾,用來判斷投訴是否來自信號干擾地區;(2) 熱點區域,指投訴是否來自人群聚集區,如學校工廠等附近;(3) 熱點時段,指投訴是否發生在人群聚集期間,如學校放學和工廠下班等時刻;(4) 基站狀況,判斷客戶手機所占用信號基站的運行狀況是否良好;(5) 弱信號區域,指投訴客戶所在地區是否來自規劃擬建設區域;(6) 手機制式匹配,指投訴客戶手機終端類型的網絡制式與所占網絡制式是否匹配。該六個客戶行為特征變量取值均為0或1,1表示是,0表示否。

4.2 特征提取和選擇

分類方法中主要使用文本的權重和語義,故對于一段文本,首先要進行分詞。本文使用的分詞工具是Python庫中的jieba包。由于文本來自于移動通信行業的客戶投訴工單,所以我們將移動通信業的特有名詞如“大王卡”、“嗶哩嗶哩元卡”等定義為用戶詞典加入分詞庫中。

為提高文本分類的準確性,減少無意義詞語造成的噪音干擾,還需要去除停用詞。停用詞本身沒有實際意義,僅用于連接完整句子。本文選取1 803個停用詞,作為停用詞表放在記事本文件里,分詞完畢后進一步去除停用詞。

使用TF-IDF方法對投訴工單的文本信息進行提取,共提取了118個文本特征。通過信息增益比計算,篩選出前十個對分類貢獻最大的特征,與另外六個客戶行為特征組合構建客戶投訴的特征向量。根據信息增益比值,選擇出前十個重要的特征,如表2所示。

表2 選擇出的十個重要特征

4.3 衡量指標的確定

使用混淆矩陣來衡量本文方法的有效性。混淆矩陣是一個由兩行兩列構成的表,表示真陽性(True positive,TP)、假陽性(False positive,FP)、假陰性(False negative,FN)和真陰性(True negative,TN)的數目。如果實際屬于通信質量問題的投訴被診斷為1類,則為真陽性,如被診斷為2類則為假陰性。同樣地,實際屬于客戶終端問題的投訴被診斷為2類為真陰性,被診斷為1類則為假陽性。采用準確度(Accuracy)、召回率(Recall)、精度(Precision)、F-值(F-measure)和AUC(Area under the Curve of ROC)值等五個性能指標。各值計算公式如下:

準確率是衡量分類器分類正確的概率。召回率又稱敏感性或真陽性率,為衡量分類器在正確預測客戶終端類投訴的概率;精度又稱正向預測值,為通信質量問題的投訴個數除以標記為1類的總數;F-值同時考慮精度和召回率來衡量分類器的績效。AUC值是指ROC曲線下方的面積,是一個用來評價二分類模型優劣的常用指標,AUC值越高通常表明模型的效果越好。

4.4 結果分析

對所提出的分類模型進行了十折交叉驗證,以檢驗其可靠性。該模型分別進行十次訓練和測試,計算上述五項性能指標十折交叉檢驗的平均值。考慮到分類器的分類性能可能會隨特征數的變化而變化,為提高分類模型的分類性能,分析具有不同文本特征數的分類模型的性能,結果如表3所示。

表3 含不同特征的分類器性能比較

下面比較純客戶行為特征(F1)、純文本特征(F2)和分別加入10個、20個、50個文本特征時的情況。結果表明選擇10個文本特征與行為特征結合時分類性能整體較高,與選擇20個文本特征時的結果相近,但是比純文本特征和純客戶行為特征的分類準確度明顯提高,也表明了將客戶投訴文本和行為特征綜合考慮進行投訴診斷的必要性。常見的分類器還有貝葉斯網絡、樸素貝葉斯、支持向量機、Bagging、Adaboost和隨機子空間等方法。為了比較它們與本文提出的基于隨機森林的分類器的性能,使用相同的數據集對六個分類器進行了訓練,采用分類算法中的默認參數,進行十折交叉驗證后得到不同分類器的性能指標,如表4所示。

表4 不同分類器下的分類性能指標比較

結果表明,本文方法在進行客戶投訴診斷時,與其他分類器相比精度更高,更有競爭力。由于本文方法考慮到在結合客戶文本特征和行為特征時使用信息增益比進行特征選擇,篩選出了十個貢獻較大的文本特征,故本文還對比了在三種不同特征組合下,六種分類器性能指標上的績效,以驗證文本特征的選擇對分類器性能的影響。① 未進行特征選擇的全部混合特征(F1+F2);② 純文本特征(F2);③ 包含10個文本特征的混合特征(F1+F2)_10。圖2-圖5展示了選取不同特征時性能指標值的比較。結果表明,本文方法構建的分類器(F1+F2)_10性能遠好于使用全部混合特征的分類器(F1+F2)和只使用文本特征的分類器(F2)。

圖2 不同分類器的準確率

圖3 不同分類器的召回率

圖4 不同分類器的精度

圖5 不同分類器AUC值

從比較分析可以看出,本文提出的基于隨機森林的客戶投訴分類器具有以下優點。首先,在文本特征的基礎上融合了客戶行為特征,而不是僅僅依據客戶投訴的文本內容。其次,對提取出的文本特征利用信息增益比進行選擇,篩選出其中對分類貢獻最大的10個重要特征,使選擇的特征更具解釋性。最后,使用集成分類器,在單分類器的基礎上增加屬性與樣本子集的隨機性抽取,提高了分類器的分類準確率。

5 結 語

本文提出了一種基于Filter模型和隨機森林的客戶投訴分類方法,將來源于業務支持系統的客戶行為特征和來自于客戶投訴的文本特征數據相結合構建特征向量。客戶行為特征的選擇反映了領域專家的知識,文本特征則是經信息增益比進行特征選擇后得到對分類貢獻最大的特征,且具有較好解釋性。使用了集成學習方法中的隨機森林分類器,有效防止數據過擬合,提高了分類精度和泛化性能。本文使用一家知名的電信運營商數據進行實例研究。實驗結果表明,該方法具有較高的分類精度,與經典貝葉斯網和樸素貝葉斯概率模型等概率模型相比具有較高分類精度,與Bagging、Adaboost等集成分類器相比,本文構建的分類器性能同樣具有競爭力。本文提出的方法有助于電信技術人員高效地處理客戶投訴,從而進一步提高客戶滿意度。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产精品成人不卡在线观看| 女同久久精品国产99国| a毛片在线| 欧美一区二区丝袜高跟鞋| 伊人色天堂| 久久精品午夜视频| 国产在线视频自拍| 77777亚洲午夜久久多人| 亚洲第一视频网| 2021国产乱人伦在线播放| 国产精品一线天| A级毛片无码久久精品免费| 97久久精品人人| 国产乱人免费视频| 婷婷综合亚洲| 成人综合在线观看| 国产91小视频在线观看| 精品国产电影久久九九| 亚洲色欲色欲www网| 亚洲国产成熟视频在线多多| 国产成+人+综合+亚洲欧美| 久久99蜜桃精品久久久久小说| 亚洲人成日本在线观看| 超清无码熟妇人妻AV在线绿巨人| 一级黄色片网| 亚洲综合片| 日韩天堂在线观看| 在线免费不卡视频| 四虎永久在线精品影院| 自慰网址在线观看| 精品国产成人三级在线观看| 综合社区亚洲熟妇p| 国产精品无码一二三视频| 亚洲福利片无码最新在线播放 | 国产三级国产精品国产普男人 | 波多野结衣爽到高潮漏水大喷| 特级精品毛片免费观看| 玖玖精品在线| 中文天堂在线视频| 国产日韩欧美在线视频免费观看| 欧美精品成人一区二区在线观看| 国产欧美高清| 99热这里只有精品5| 国产最爽的乱婬视频国语对白| 日韩天堂网| 亚洲欧洲国产成人综合不卡| 在线观看国产黄色| 国产女人在线视频| 视频国产精品丝袜第一页| 露脸国产精品自产在线播| 视频国产精品丝袜第一页| 成人精品免费视频| 国产精品乱偷免费视频| 精品成人免费自拍视频| 精品国产网站| 亚洲美女一级毛片| 中文国产成人久久精品小说| 看看一级毛片| 色偷偷一区二区三区| 亚洲国产天堂久久九九九| 亚洲AⅤ综合在线欧美一区| 9丨情侣偷在线精品国产| 呦系列视频一区二区三区| 成人自拍视频在线观看| 91精品最新国内在线播放| 免费A∨中文乱码专区| 久久一本精品久久久ー99| 国产成人亚洲欧美激情| 亚洲国产成人在线| 精品久久久久无码| 亚洲av成人无码网站在线观看| 在线观看无码av免费不卡网站| 国产无码精品在线播放 | 欧美国产菊爆免费观看 | 日韩欧美国产另类| 三区在线视频| 制服无码网站| 多人乱p欧美在线观看| 国产乱人伦精品一区二区| 六月婷婷激情综合| 国产资源免费观看| 色综合网址|