褚金鵬 劉昕武 唐超偉 曹德洪


摘要:歷史故障記錄數據對產品的質量分析和提升有重大意義。現存大量由售后人員手動錄入的故障及維護記錄,帶有強烈的個人風格,標準化缺失。一方面提升售后數據的分析難度,另一方面也會因錯誤信息的存在而降低數據價值。為解決上述問題,此處給出一種基于文本結構和關鍵詞的售后文本分類方法。首先,采用經典分詞方法對文本進行分詞,然后基于臨近詞的條件關系,提出一種基于字詞信息熵增益的臨近詞關聯方法,針對專業售后文本提出更優的關鍵詞提取方法;在該分詞方法的基礎上,利用TF-IDF算法篩選關鍵詞,利用關鍵詞和詞性的統計分布特征,建立文本的評價特征;最后以少量標記文本為訓練樣本,采用決策樹進行模型訓練,實現全量文本的分類算法。實驗結果表明,基于熵信息的詞關聯方法有效提升分詞準確性,提取的文本特征和訓練的模型在文本的分類篩選上表現良好。
關鍵詞:售后故障數據;熵增益;TF-IDF;決策樹;文本分類
引言
文本數據的分析需求不僅存在于工業界,也是學術界一直都關注的熱點之一。這方面的研究工作很多。按照應用領域劃分,有互聯網的漢語術語提取研究[1],按照方法劃分則有基于中文詞語的結構定義研究[2],也有純粹按照統計方法的分詞研究[3].一系列研究成果表明,文本的分析和評價方法都是從字到詞再到段落再到文章的順序開展。
方……