張?zhí)煊睿R志群,黃孝喜, 王榮波
(杭州電子科技大學(xué) 計(jì)算機(jī)學(xué)院,浙江 杭州 310018)
基于改進(jìn)CFSFDP算法的電信投訴文本聚類方法
張?zhí)煊睿R志群,黃孝喜, 王榮波
(杭州電子科技大學(xué) 計(jì)算機(jī)學(xué)院,浙江 杭州 310018)
為了提高電信服務(wù)質(zhì)量,增強(qiáng)企業(yè)競(jìng)爭(zhēng)力,對(duì)電信投訴文本進(jìn)行聚類,方便電信運(yùn)營(yíng)商分析投訴原因,文中提出了基于改進(jìn)CFSFDP算法對(duì)電信投訴文本進(jìn)行聚類的方法。通過差分進(jìn)化算法尋找CFSFDP算法中最優(yōu)密度閾值和距離閾值,降低密度及距離閾值的隨機(jī)性選取對(duì)聚類準(zhǔn)確率造成的影響。該算法使用Gaussian Kernel計(jì)算數(shù)據(jù)點(diǎn)密度,降低參數(shù)對(duì)密度計(jì)算的影響。在電信投訴文本數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,改進(jìn)CFSFDP算法聚類結(jié)果達(dá)到了與K-Means算法、CFSFDP算法、Agglomerative Clustering算法更好或者相當(dāng)?shù)男ЧC明了算法的有效性。
CFSFDP算法;文本聚類;電信投訴;密度;距離;差分進(jìn)化
AbstractTo improve the accuracy of the service quality, and enhance enterprise competitiveness,clustering of telecom complaints text is helpful for telecom operators to analyze the reasons of complaints, This paper proposed a clustering method for telecom complaints text based on the improved CFSFDP algorithm. To reduce the effects on the method by random select of optimal density and distance threshold for CFSFDP, the method searches density threshold and distance threshold using differential evolution algorithm. The algorithm calculates the density of data points using the Gaussian Kernel, to reduce the effects of parameters on density calculation. Experiments on datasets of telecom complaints text show that clustering result of improved CFSFDP algorithm is better than k-means algorithm,CFSFDP algorithm and agglomerative clustering, the algorithm is effective.
KeywordsCFSFDP algorithm;text clustering; telecom complaints; density; distance; differential evolution
在電信運(yùn)營(yíng)商同質(zhì)化的業(yè)務(wù)和服務(wù)下,客戶對(duì)服務(wù)質(zhì)量有更高的要求。客戶投訴是客戶對(duì)電信業(yè)服務(wù)不認(rèn)可而提出的疑義。它不僅數(shù)量龐大,而且種類繁多。采用文本聚類[1]技術(shù),深入分析客戶投訴內(nèi)容,及時(shí)發(fā)現(xiàn)客戶投訴熱點(diǎn),對(duì)電信運(yùn)營(yíng)商提高服務(wù)質(zhì)量具有重要意義。
目前,通用的聚類算法主要有基于劃分的方法、基于層次的方法、基于密度的方法、基于網(wǎng)格的方法以及基于模型的方法[2-3]。而對(duì)文本數(shù)據(jù)集進(jìn)行聚類的常用方法有基于劃分的聚類方法和基于層次的聚類方法。但是在數(shù)據(jù)集形狀較復(fù)雜的情況下,傳統(tǒng)聚類算法的準(zhǔn)確率一般較低。……