基于分詞結構特征的故障文本分類方法

2021-11-01 08:43:21褚金鵬劉昕武唐超偉曹德洪

電子樂園·下旬刊 2021年2期

褚金鵬劉昕武唐超偉曹德洪

摘要：歷史故障記錄數據對產品的質量分析和提升有重大意義。現存大量由售后人員手動錄入的故障及維護記錄，帶有強烈的個人風格，標準化缺失。一方面提升售后數據的分析難度，另一方面也會因錯誤信息的存在而降低數據價值。為解決上述問題，此處給出一種基于文本結構和關鍵詞的售后文本分類方法。首先，采用經典分詞方法對文本進行分詞，然后基于臨近詞的條件關系，提出一種基于字詞信息熵增益的臨近詞關聯方法，針對專業售后文本提出更優的關鍵詞提取方法;在該分詞方法的基礎上，利用TF-IDF算法篩選關鍵詞，利用關鍵詞和詞性的統計分布特征，建立文本的評價特征;最后以少量標記文本為訓練樣本，采用決策樹進行模型訓練，實現全量文本的分類算法。實驗結果表明，基于熵信息的詞關聯方法有效提升分詞準確性，提取的文本特征和訓練的模型在文本的分類篩選上表現良好。

關鍵詞：售后故障數據;熵增益;TF-IDF;決策樹;文本分類

引言

文本數據的分析需求不僅存在于工業界，也是學術界一直都關注的熱點之一。這方面的研究工作很多。按照應用領域劃分，有互聯網的漢語術語提取研究[1]，按照方法劃分則有基于中文詞語的結構定義研究[2]，也有純粹按照統計方法的分詞研究[3].一系列研究成果表明，文本的分析和評價方法都是從字到詞再到段落再到文章的順序開展。

方……

登錄APP查看全文

電子樂園·下旬刊 2021年2期

電子樂園·下旬刊的其它文章: 有效推廣綠色農業種植技術的策略研究; 推廣綠色農業種植技術的策略探討; 淺析環境工程管理中存在的問題與對策; 膜生物反應技術在環境工程污水處理中的運用研究; 論事業單位檔案管理創新; 林業栽培技術及病蟲害防治管理方法