國(guó)網(wǎng)山東省電力公司電力科學(xué)研究院 謝季川 宗振國(guó) 劉宏國(guó) 張春秋 田 曉
基于詞向量模型的95598工單文本挖掘
國(guó)網(wǎng)山東省電力公司電力科學(xué)研究院 謝季川 宗振國(guó) 劉宏國(guó) 張春秋 田 曉
本文結(jié)合電力工單特點(diǎn),提出運(yùn)用神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型進(jìn)行文本挖掘,使用word2vec方法對(duì)電力工單文本進(jìn)行訓(xùn)練,生成電力工單詞向量。在電力工單詞向量的基礎(chǔ)上,作為其他模型的輸入,實(shí)現(xiàn)對(duì)電力工單進(jìn)一步的文本挖掘分析,幫助客服人員了解客戶訴求,提供更優(yōu)質(zhì)便捷的服務(wù)。
95598工單;神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型;詞向量;文本分類
95598客服中心作為電網(wǎng)公司與客戶交流的窗口,每天都要處理大量來自客戶的訴求,形成大量的工單文本數(shù)據(jù)。目前,針對(duì)電力工單數(shù)據(jù)的文本挖掘已經(jīng)取得進(jìn)展,但在方法上仍有可以改進(jìn)之處。本文通過分析電力工單文本挖掘的現(xiàn)狀,結(jié)合前沿技術(shù),提出運(yùn)用神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型對(duì)工單文本進(jìn)行訓(xùn)練,形成詞向量。在詞向量的基礎(chǔ)上,作為其他模型的輸入,實(shí)現(xiàn)進(jìn)一步的文本挖掘分析,如電力領(lǐng)域詞典、工單分類等功能,幫助客服人員了解客戶訴求,提供更優(yōu)質(zhì)便捷的服務(wù)。
當(dāng)前電力工單文本挖掘(Text Mining)主要有語(yǔ)料分析、文本分類(Text classification)兩方面,如客戶訴求分析、客戶滿意度預(yù)測(cè)[3],電力標(biāo)簽特征詞典、工單自動(dòng)分類[4]。文本挖掘最基礎(chǔ)的環(huán)節(jié)就是文本表示,電力工單的文本表示多采用LDA主題模型進(jìn)行特征提取。主題模型可以實(shí)現(xiàn)有效的降維,發(fā)現(xiàn)文檔的潛在主題,但是主題模型需要大量的樣本進(jìn)行學(xué)習(xí),訓(xùn)練難度大并且非常耗時(shí),影響了分類的效率[2],而且無法捕捉詞與詞之間的共現(xiàn)關(guān)系。……