999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于分詞結構特征的故障文本分類方法

2021-11-01 08:43:21褚金鵬劉昕武唐超偉曹德洪
電子樂園·下旬刊 2021年2期

褚金鵬 劉昕武 唐超偉 曹德洪

摘要:歷史故障記錄數據對產品的質量分析和提升有重大意義。現存大量由售后人員手動錄入的故障及維護記錄,帶有強烈的個人風格,標準化缺失。一方面提升售后數據的分析難度,另一方面也會因錯誤信息的存在而降低數據價值。為解決上述問題,此處給出一種基于文本結構和關鍵詞的售后文本分類方法。首先,采用經典分詞方法對文本進行分詞,然后基于臨近詞的條件關系,提出一種基于字詞信息熵增益的臨近詞關聯方法,針對專業售后文本提出更優的關鍵詞提取方法;在該分詞方法的基礎上,利用TF-IDF算法篩選關鍵詞,利用關鍵詞和詞性的統計分布特征,建立文本的評價特征;最后以少量標記文本為訓練樣本,采用決策樹進行模型訓練,實現全量文本的分類算法。實驗結果表明,基于熵信息的詞關聯方法有效提升分詞準確性,提取的文本特征和訓練的模型在文本的分類篩選上表現良好。

關鍵詞:售后故障數據;熵增益;TF-IDF;決策樹;文本分類

引言

文本數據的分析需求不僅存在于工業界,也是學術界一直都關注的熱點之一。這方面的研究工作很多。按照應用領域劃分,有互聯網的漢語術語提取研究[1],按照方法劃分則有基于中文詞語的結構定義研究[2],也有純粹按照統計方法的分詞研究[3].一系列研究成果表明,文本的分析和評價方法都是從字到詞再到段落再到文章的順序開展。

方法主要分三步進行,首先基于隨機分布熵對現有的分詞結果進行迭代關聯優化,然后利用TF-IDF進行關鍵詞提取,最后在提出的關鍵詞和文本自身的結構之上建立故障記錄的準確性、文檔簡潔性、完備性三個維度的特征,通過少量文本數據的人工標注,建立決策樹分類模型,實現文本的有效分類。數據實驗表明,本方法能夠提升關鍵字的提取效果,且篩選的優質文本描述與業務人員分類結果一致。

1 故障記錄的分類評價模型

對售后文本的分類評價可以有效從大量故障記錄中篩選出優質的故障記錄,降低分析樣本條數;基于以上字詞關聯迭代算法后的分詞進一步降低字詞的維度,通過TF-IDF方法對新的詞組對進行關鍵詞提取后,則具備按照關鍵詞的分布特征進行分類模型的構建,完成文本的評價。

1.1 分類模型特征工程

1.1.1 準確性特征

根據TF-IDF方法選出N個關鍵詞,分別為則對應這N個關鍵詞,其在文本集中的詞頻分別記為。

從統計的角度出發,準確性高的詞語具有更大的出現概率,因此將詞頻作為單個詞的準確性評估,考慮到詞頻的量級問題,對單個詞的準確性進行歸一化轉換,即對關鍵詞,其準確性為:

由于本部分是探討單挑記錄的描述準確性,因此將各個字詞的準確性特征加權作為記錄的準確性。

假設記錄包含個關鍵詞,分別為其中依照設定,的準確性為:

1.1.2簡潔性特征

以下構造的簡潔性特征也是基于關鍵詞構建??紤]到關鍵詞在記錄的綱領性作用,本文采用單句的含關鍵字量進行單句的簡潔程度描述。

對記錄的單個句子,假設按照前述分詞方法分解成維詞序列:,其中的關鍵字子序列:則的簡潔性特征。記錄的整體簡潔性表征值參照前述準確性特征的方式構造如下:

其中表示記錄中的句子總數。

1.2 基于決策樹的文本分類

按1.1描述的步驟,對全量數據進行分詞和特征提取,將故障記錄被轉化為的三元數組,從全量故障記錄中抽取一定比例的故障記錄進行人工分類打標簽,利用決策樹模型,基于前述記錄長度、用詞準確性、簡潔性三維特征,訓練出對應的文本分類模型,通過分類模型對大量文本進行自動分類,實現低質量售后故障記錄的過濾。

2 數據實驗及結果分析

本次數據實驗的樣本來源為2009-2015年部分機車模塊故障數據,初始故障條數為2308條,經過對重復記錄和刪除部分過于簡短(描述字數少于10字)的故障描述后,剩余1918條數據樣本。

2.1 基于熵的臨近詞組關聯

以下是詞組關聯的兩點結果,一是本文研究的數據集合中臨近條件熵的分布,確定文本的關聯初始閾值,二是詞組關聯前后的分詞效果比較。

圖1.將1918條數據樣本進行分詞,計算每對臨近詞的條件熵,得到。

按照臨近詞組的關聯選取方法,對出現次數超過5次以上的數據以上的關聯詞組。

2.2 分類模型及測試結果

將構造的數據按照80%:20%的比例,分別作為訓練集和測試集,并采用決策樹進行分類模型訓練,決策樹采用的分類度量是基尼純度,決策樹的最大分層數5??芍P驮跍y試文本集上的分類準確率為90%,且對標簽為“好”的文本具有非常高的準確率,說明本文提出的文本分類方法對文本的篩選具有極佳適應性。

3 結語

本文基于計算機分詞算法,首先創新性地提出基于臨近二元詞組的條件分布熵的臨近詞組迭代關聯算法,顯著提升機車故障售后維護記錄文本的分詞表現,準確有效地從故障文本中提取到專業關鍵詞;然后從關鍵詞出發,利用關鍵詞在記錄中的分布規律,提出兩種表征描述的準確性和簡潔性的特征構造方式,并引入文本長度作為完備性的特征,采用決策樹分類算法,僅需通過少量文本的人工標記,就能夠實現優質售后文本的準確篩選。該方法操作簡單,且需要人工干預少,就能夠方便地從海量售后文本中快速篩選出優質的故障記錄,進一步準確開展后續的文本分析工作,節省大量的文本數據預處理工作。

參考文獻

[1]張榕, 宋柔. 基于互聯網的漢語術語定義提取研究[C]// 全國計算語言學聯合學術會議. 2005.

[2]張艷, 宗成慶, 徐波. 漢語術語定義的結構分析和提取[J]. 中文信息學報, 2003.

主站蜘蛛池模板: 无码一区中文字幕| 色哟哟色院91精品网站| 秋霞一区二区三区| 欧美精品三级在线| 欧洲一区二区三区无码| 思思99热精品在线| 美女无遮挡免费视频网站| 精品国产香蕉在线播出| 欧美精品v日韩精品v国产精品| 欧美国产精品不卡在线观看| 亚洲欧美综合另类图片小说区| 无码中字出轨中文人妻中文中| 日本a级免费| 不卡无码网| 国产成人高清精品免费软件| 免费激情网址| 久久亚洲精少妇毛片午夜无码| 国产日本欧美亚洲精品视| 国产主播一区二区三区| 2022国产91精品久久久久久| 97国产在线视频| 久久久国产精品无码专区| 国产免费福利网站| 欧洲高清无码在线| 国产成人精品男人的天堂| 中国国产高清免费AV片| 成人91在线| 久久成人国产精品免费软件 | 国产精品无码一二三视频| 欧美A级V片在线观看| 丁香五月婷婷激情基地| 亚洲av片在线免费观看| 五月天在线网站| 亚洲无码电影| 亚洲色图欧美在线| 四虎国产成人免费观看| 天天综合色网| 亚洲日本www| 人妻无码AⅤ中文字| 国产成人综合网| 亚洲狼网站狼狼鲁亚洲下载| 国产AV无码专区亚洲A∨毛片| 亚洲va在线∨a天堂va欧美va| 久久免费视频6| 福利一区在线| 激情综合婷婷丁香五月尤物| 久久91精品牛牛| 欧美在线三级| 国产在线观看人成激情视频| 欧美成人综合在线| 国内精品九九久久久精品| 99视频在线看| 国产自在线播放| 亚洲中文字幕在线观看| 99久久精彩视频| 国产成人免费高清AⅤ| 久久精品人人做人人| 香蕉精品在线| 亚洲欧洲日产国产无码AV| 精品国产一二三区| 欲色天天综合网| 青青草综合网| a毛片基地免费大全| 青青极品在线| 伊人欧美在线| 亚洲国产精品无码久久一线| 一本大道视频精品人妻| 亚洲欧美激情小说另类| 亚洲无码精彩视频在线观看| 国产屁屁影院| 伊人久久大香线蕉综合影视| 久久婷婷国产综合尤物精品| 久久久久免费看成人影片| 亚洲嫩模喷白浆| 免费高清a毛片| 国产一区二区丝袜高跟鞋| 国产亚洲视频免费播放| 成人免费午夜视频| 园内精品自拍视频在线播放| 久久精品国产精品青草app| 第一区免费在线观看| 亚洲国产理论片在线播放|