褚金鵬 劉昕武 唐超偉 曹德洪


摘要:歷史故障記錄數據對產品的質量分析和提升有重大意義。現存大量由售后人員手動錄入的故障及維護記錄,帶有強烈的個人風格,標準化缺失。一方面提升售后數據的分析難度,另一方面也會因錯誤信息的存在而降低數據價值。為解決上述問題,此處給出一種基于文本結構和關鍵詞的售后文本分類方法。首先,采用經典分詞方法對文本進行分詞,然后基于臨近詞的條件關系,提出一種基于字詞信息熵增益的臨近詞關聯方法,針對專業售后文本提出更優的關鍵詞提取方法;在該分詞方法的基礎上,利用TF-IDF算法篩選關鍵詞,利用關鍵詞和詞性的統計分布特征,建立文本的評價特征;最后以少量標記文本為訓練樣本,采用決策樹進行模型訓練,實現全量文本的分類算法。實驗結果表明,基于熵信息的詞關聯方法有效提升分詞準確性,提取的文本特征和訓練的模型在文本的分類篩選上表現良好。
關鍵詞:售后故障數據;熵增益;TF-IDF;決策樹;文本分類
引言
文本數據的分析需求不僅存在于工業界,也是學術界一直都關注的熱點之一。這方面的研究工作很多。按照應用領域劃分,有互聯網的漢語術語提取研究[1],按照方法劃分則有基于中文詞語的結構定義研究[2],也有純粹按照統計方法的分詞研究[3].一系列研究成果表明,文本的分析和評價方法都是從字到詞再到段落再到文章的順序開展。
方法主要分三步進行,首先基于隨機分布熵對現有的分詞結果進行迭代關聯優化,然后利用TF-IDF進行關鍵詞提取,最后在提出的關鍵詞和文本自身的結構之上建立故障記錄的準確性、文檔簡潔性、完備性三個維度的特征,通過少量文本數據的人工標注,建立決策樹分類模型,實現文本的有效分類。數據實驗表明,本方法能夠提升關鍵字的提取效果,且篩選的優質文本描述與業務人員分類結果一致。
1 故障記錄的分類評價模型
對售后文本的分類評價可以有效從大量故障記錄中篩選出優質的故障記錄,降低分析樣本條數;基于以上字詞關聯迭代算法后的分詞進一步降低字詞的維度,通過TF-IDF方法對新的詞組對進行關鍵詞提取后,則具備按照關鍵詞的分布特征進行分類模型的構建,完成文本的評價。
1.1 分類模型特征工程
1.1.1 準確性特征
根據TF-IDF方法選出N個關鍵詞,分別為則對應這N個關鍵詞,其在文本集中的詞頻分別記為。
從統計的角度出發,準確性高的詞語具有更大的出現概率,因此將詞頻作為單個詞的準確性評估,考慮到詞頻的量級問題,對單個詞的準確性進行歸一化轉換,即對關鍵詞,其準確性為:
由于本部分是探討單挑記錄的描述準確性,因此將各個字詞的準確性特征加權作為記錄的準確性。
假設記錄包含個關鍵詞,分別為其中依照設定,的準確性為:
1.1.2簡潔性特征
以下構造的簡潔性特征也是基于關鍵詞構建??紤]到關鍵詞在記錄的綱領性作用,本文采用單句的含關鍵字量進行單句的簡潔程度描述。
對記錄的單個句子,假設按照前述分詞方法分解成維詞序列:,其中的關鍵字子序列:則的簡潔性特征。記錄的整體簡潔性表征值參照前述準確性特征的方式構造如下:
其中表示記錄中的句子總數。
1.2 基于決策樹的文本分類
按1.1描述的步驟,對全量數據進行分詞和特征提取,將故障記錄被轉化為的三元數組,從全量故障記錄中抽取一定比例的故障記錄進行人工分類打標簽,利用決策樹模型,基于前述記錄長度、用詞準確性、簡潔性三維特征,訓練出對應的文本分類模型,通過分類模型對大量文本進行自動分類,實現低質量售后故障記錄的過濾。
2 數據實驗及結果分析
本次數據實驗的樣本來源為2009-2015年部分機車模塊故障數據,初始故障條數為2308條,經過對重復記錄和刪除部分過于簡短(描述字數少于10字)的故障描述后,剩余1918條數據樣本。
2.1 基于熵的臨近詞組關聯
以下是詞組關聯的兩點結果,一是本文研究的數據集合中臨近條件熵的分布,確定文本的關聯初始閾值,二是詞組關聯前后的分詞效果比較。
圖1.將1918條數據樣本進行分詞,計算每對臨近詞的條件熵,得到。
按照臨近詞組的關聯選取方法,對出現次數超過5次以上的數據以上的關聯詞組。
2.2 分類模型及測試結果
將構造的數據按照80%:20%的比例,分別作為訓練集和測試集,并采用決策樹進行分類模型訓練,決策樹采用的分類度量是基尼純度,決策樹的最大分層數5??芍P驮跍y試文本集上的分類準確率為90%,且對標簽為“好”的文本具有非常高的準確率,說明本文提出的文本分類方法對文本的篩選具有極佳適應性。
3 結語
本文基于計算機分詞算法,首先創新性地提出基于臨近二元詞組的條件分布熵的臨近詞組迭代關聯算法,顯著提升機車故障售后維護記錄文本的分詞表現,準確有效地從故障文本中提取到專業關鍵詞;然后從關鍵詞出發,利用關鍵詞在記錄中的分布規律,提出兩種表征描述的準確性和簡潔性的特征構造方式,并引入文本長度作為完備性的特征,采用決策樹分類算法,僅需通過少量文本的人工標記,就能夠實現優質售后文本的準確篩選。該方法操作簡單,且需要人工干預少,就能夠方便地從海量售后文本中快速篩選出優質的故障記錄,進一步準確開展后續的文本分析工作,節省大量的文本數據預處理工作。
參考文獻
[1]張榕, 宋柔. 基于互聯網的漢語術語定義提取研究[C]// 全國計算語言學聯合學術會議. 2005.
[2]張艷, 宗成慶, 徐波. 漢語術語定義的結構分析和提取[J]. 中文信息學報, 2003.