基于詞向量模型的95598工單文本挖掘

2017-12-19 07:57:18國(guó)網(wǎng)山東省電力公司電力科學(xué)研究院謝季川宗振國(guó)劉宏國(guó)張春秋

電子世界 2017年23期

國(guó)網(wǎng)山東省電力公司電力科學(xué)研究院謝季川宗振國(guó) 劉宏國(guó) 張春秋田曉

基于詞向量模型的95598工單文本挖掘

國(guó)網(wǎng)山東省電力公司電力科學(xué)研究院謝季川宗振國(guó) 劉宏國(guó) 張春秋田曉

本文結(jié)合電力工單特點(diǎn)，提出運(yùn)用神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型進(jìn)行文本挖掘，使用word2vec方法對(duì)電力工單文本進(jìn)行訓(xùn)練，生成電力工單詞向量。在電力工單詞向量的基礎(chǔ)上，作為其他模型的輸入，實(shí)現(xiàn)對(duì)電力工單進(jìn)一步的文本挖掘分析，幫助客服人員了解客戶訴求，提供更優(yōu)質(zhì)便捷的服務(wù)。

95598工單；神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型；詞向量；文本分類

1.引言

95598客服中心作為電網(wǎng)公司與客戶交流的窗口，每天都要處理大量來自客戶的訴求，形成大量的工單文本數(shù)據(jù)。目前，針對(duì)電力工單數(shù)據(jù)的文本挖掘已經(jīng)取得進(jìn)展，但在方法上仍有可以改進(jìn)之處。本文通過分析電力工單文本挖掘的現(xiàn)狀，結(jié)合前沿技術(shù)，提出運(yùn)用神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型對(duì)工單文本進(jìn)行訓(xùn)練，形成詞向量。在詞向量的基礎(chǔ)上，作為其他模型的輸入，實(shí)現(xiàn)進(jìn)一步的文本挖掘分析，如電力領(lǐng)域詞典、工單分類等功能，幫助客服人員了解客戶訴求，提供更優(yōu)質(zhì)便捷的服務(wù)。

2.電力工單文本挖掘現(xiàn)狀

當(dāng)前電力工單文本挖掘（Text Mining）主要有語(yǔ)料分析、文本分類(Text classification)兩方面，如客戶訴求分析、客戶滿意度預(yù)測(cè)[3]，電力標(biāo)簽特征詞典、工單自動(dòng)分類[4]。文本挖掘最基礎(chǔ)的環(huán)節(jié)就是文本表示，電力工單的文本表示多采用LDA主題模型進(jìn)行特征提取。主題模型可以實(shí)現(xiàn)有效的降維，發(fā)現(xiàn)文檔的潛在主題，但是主題模型需要大量的樣本進(jìn)行學(xué)習(xí)，訓(xùn)練難度大并且非常耗時(shí)，影響了分類的效率[2]，而且無法捕捉詞與詞之間的共現(xiàn)關(guān)系。……

登錄APP查看全文