999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種面向自動化標檢的文本分類方法

2020-11-26 07:41:56郭澤焦倩倩
現代防御技術 2020年5期
關鍵詞:分類特征文本

郭澤,焦倩倩

(北京電子工程總體研究所,北京 100854)

0 引言

文檔是用戶與產品之間最直接的橋梁,它有助于軟件人員設計程序,有助于管理人員監督和管理產品,有助于維護人員進行有效的修改和改進,更是用戶對產品功能、使用方式等各方面進行了解的最主要方式,其質量十分重要。在軍用領域,研試文件、設計文件、軟件文件等等一系列文檔貫穿整個產品周期,其質量的好壞對產品的研制、試驗等過程有著極其重要甚至決定性作用[1]。同時,文檔作為向用戶展示成果的最直接窗口,其質量更是反映了一個企業的文化。一份完美的文檔能夠讓人看出企業工作的嚴謹態度,而一份錯漏百出的文檔甚至會令用戶失去對企業的信心。

文檔的質量已經引起各軍工企業的重視,對文檔質量開展的各類評審、審查等工作使文檔的質量大幅提高。然而目前對文檔的格式、內容的審查均完全依靠人工進行審查,審查效率不高,且受審查人水平、勞累程度等主觀因素影響較大。文檔的質量即使經過審查,也往往出現質量參差不齊的情況。開展自動化標檢技術研究,降低人力資源消耗,提高文檔產品質量十分重要。對文檔的自動化標檢實際是一種大規模文本的處理技術,其過程可分解為文本識別、文本標檢和文本處理,其中最為核心的技術在于對文本的識別,即文本分類技術[2]。

1 基于機器學習的文本分類方法

文本分類是處理和組織大規模文本數據的關鍵技術,目前正廣泛的應用于搜索引擎、快速資料分檢、自動文摘、信息資料推送等領域[3]。自20世紀90年代以來,隨著信息存儲技術和計算機網絡的飛速發展,機器學習逐漸取代了傳統的知識工程,成為文本分類的主流技術?;跈C器學習的文本分類方法一般采用向量空間模型[4],該模型包含3個關鍵技術:特征選擇、特征權重估算和文本分類器。特征選擇是從原始特征集合中選擇一部分特征組成分類集合,最終得到原始特征集合的一個真子集,從而達到降低原始特征空間維度的目的。特征的權重反映了該特征對于標識文本內容的貢獻度和文本之間的區分度。分類器則用于依據特征的權重,采用一定的模型對文本實施分類。常用的分類器包括樸素貝葉斯[5]、最近鄰分類算法(K-nearest neighbor,KNN)[6]和支持向量機(support vector machine,SVM)[7],這幾類分類器在特定的領域均有較好的應用。

與傳統的文本分類問題不同,自動化標檢領域的文本分類的基本單位為段落,特征向量除了文本外,段落的格式同樣是決定其分類的重要特征[8]。其各類格式特征和文本特征均是相互獨立的,這使得其非常適合采用樸素貝葉斯算法作為分類器[9]。由于需要進行分類的樣本往往具有極強的樣本傾斜性,某一類的數量(如正文)十分多,因此KNN算法不適用。此外,文本的編寫中容易出現較多低級問題,使得某些特征具有一票否決的特性,支持向量機的核函數構造較為困難。綜合考慮,采用樸素貝葉斯算法作為自動化標檢的段落分類器。

2 分類模型與特征選取

設計一種改進的樸素貝葉斯分類算法用于段落分類。定義事件Ai為段落為第i類,事件Bj表示段落有特征j,則段落可用特征向量X={B1,B2,…,Bj}表示。已知段落全部特征B1到Bj時,根據貝葉斯公式,段落具有B1到Bj特征的條件下為類型i的概率為

由于各個特征相互獨立,根據全概率公式,得到

不失一般性,對于任意一個段落,在不添加任何前置條件的情況下,P(X)對于所有類為常數,公式進一步變為

可以看出,任意段落為某一類型的概率與以下2類概率直接相關。

(1) 段落為類型i的先驗概率[10]P(Ai);

(2) 段落為類型i時具有特征Bj的概率P(Bj|Ai)。對于任意一個段落,在書寫過程中均可能出現特征與預期不符的情況。將P(Bj|Ai)拆分為類型i的特征符合要求和不符合要求2種情況。

定義P0表示先驗概率,Pj表示特征j符合類型i的值。假設某段落的特征2不符合類型i,其余特征均符合,則段落為類型i的概率為

根據上述公式,段落的分類概率與P0到Pj直接相關,選取合理的特征將大幅提升識別的準確性。將特征分為格式特征和文本特征2類,其中格式特征表示段落的格式,文本特征表示段落文字中隱含的特征屬性。段落為類型i的概率為

格式特征為通用特征,即每個段落都具備的特征,是進行分類的基礎特征。文本特征為特有特征,當某些段落具備特殊的文本特征時,該段落屬于某一類型的概率提升,屬于其他類型的概率降低。任意段落具備類型k的文本特征時,屬于不同類型的概率進一步分解為

根據上述推導,我們選取了19個特征的概率值作為訓練參數,選取參數如表1所示。

3 基于遺傳算法的參數訓練模型

各個特征對于最終文本分類結果的貢獻度由其權重直接決定,單純的依賴經驗難以獲取較好的分類結果,直接影響最終的標檢質量。本文采用一種基于遺傳算法的參數訓練模型對19個特征的權重(概率)進行訓練,采用一種有監督[11]的機器學習的算法,使得機器的分類結果盡可能的接近人工分類結果,各個特征的權重由樣本數據決定,隨著樣本量的增大,其分類的準確性將有效提升。

3.1 基因設計

由于19個特征相互獨立,且均為概率值,本文采用一種一維線性基因,每個特征的權重作為其中的一個編碼,可以較為便捷的進行交叉和變異操作。

表1 訓練參數選擇情況Table 1 The choice of training parameters

3.2 算子設計

選擇算子采用錦標賽算子[12],交叉算子[13]采用單點交叉和兩點交叉算子,變異算子采用單點變異和位置變異算子[14]。

3.3 適應度設計

考慮到文檔的段落類型的傾斜度,適應度函數以文檔為單位計算分類參數的準確度,機器分類的結果與人工分類的結果越接近,則適應度越高。設p表示單份文檔中的段落個數,q表示機器分類與人工分類相同的段落個數,則適應度計算函數為

依據以上設計,本文采用傳統遺傳算法,在適應度計算階段將交叉、變異后的基因解析為特征權重并帶入到文本分類算法中,對樣本進行分類計算,將分類結果與人工結果進行自動比對,計算適應度并執行選擇操作,判斷是否滿足準確度要求或迭代次數要求,不滿足則繼續進行下一代遺傳,滿足則輸出特征權重至文本分類模型中作為最終參數?;谶z傳算法的分類模型如圖1所示。

圖1 基于遺傳算法的分類模型Fig.1 Classification model based on genetic algorithm

4 基于識別結果的自動化標檢模型

自動化標檢的目的是找出用戶編寫的文檔中格式錯誤或文本錯誤的文本,其關注的重點是用戶編寫錯誤的情況。因此在文本分類時需要考慮到錯誤較為嚴重的例子,例如用戶將圖題、表題的格式完全寫錯的時候,由于段落緊跟圖或表,仍應當識別為圖題或表題,否則將直接影響后續標檢結果。為了解決該類問題,在上面的訓練和分類模型的基礎上補充一種基于圖表位置的圖題表題識別算法優化文本分類結果。本文采用的標檢流程如下。

(1) 檢查文件載入:將參數配置文件載入模型中;

(2) 特征提取與篩選:提取段落的主要格式特征,剔除空段落、無效段落等干擾數據;

(3) 段落分類:為了進一步提高識別準確率,本方法加入了基于經驗的先驗識別算法;

圖題表題識別算法(算法1)。首先利用文字處理程序提供的api函數獲取其中所有的圖和表位置,初步識別出為表題和圖題的段落;

通用識別算法(算法2)。然后采用基于改進貝葉斯算法的分類算法計算所有段落的分類結果,記錄概率最高的3個類型;

最后將2種識別算法結果進行融合。由于圖題和表題通常緊跟圖或表,因此通過api函數獲取的圖題表題結果可信度較高。因此,算法1識別為圖題或表題時,直接采用算法1結果。算法1識別為非圖題或非表題時,從算法2的結果中選取與不違背算法1結果的概率最高的結果。

(4) 錯誤檢查:基于識別結果對各段落進行錯誤比對,記錄所有的錯誤位置,并生成錯誤提示字串;

(5) 錯誤輸出:自動統計錯誤情況,將所有錯誤在對應的位置直接以批注的形式輸出錯誤提示字串[15]。

標檢完成后將自動打開文檔便于標檢人員查看錯誤情況,同時還將在文檔中標注出錯誤統計情況,用于直觀判斷文檔的編寫質量。

5 實驗

定義文檔的識別準確率如下:

識別準確率=識別正確的段落數/總段落數×100%.

為了驗證本文算法的效果,分別采用傳統KNN算法、樸素貝葉斯算法和本文的改進樸素貝葉斯算法進行實驗。選取質量技術處提供的實際文檔作為樣本,共計5 150個段落,樣本主要選取了最常見的需要標檢的4類文檔,包括

(1) 設計文件:正確樣本率100%;

(2) 研試文件:正確樣本率80%;

(3) 軟件文檔:正確樣本率:60%;

(4) 三大規范:正確樣本率:40%。

除了模板,針對這4類文檔,各隨機選取了一份真實文件進行檢查。

1) 模板文件識別準確率分析

各算法的模板文件的識別比較情況如圖2~5所示。

可以看出,傳統的KNN和樸素貝葉斯算法在處理正確率較低的樣本效果較差,而本文提出的算法在各個不同正確率的樣本集中均取得了95%以上的識別準確率。

2) 隨機選取文件識別準確率分析

對4類文檔隨機選取的樣本進行識別準確率分析,結果如表2所示。

可以看出,隨機選取的文檔識別準確率均能達到95%左右的水平。

為了驗證錯誤提示的正確性,設計《測試文檔.doc》,植入不同的錯誤格式。植入的錯誤包括:段前行距錯誤、字號錯誤、首行縮進錯誤、段后行距錯誤、字體錯誤、對齊方式錯誤、右側縮進錯誤、左側縮進錯誤。將部分縮進進行組合放在同一自然段,且最后2個自然段為正確格式,用于檢查是否誤報。

圖2 設計文件識別準確率Fig.2 Identification accuracy result of design documents

圖3 研試文件識別準確率Fig.3 Identification accuracy result of research & experiment documents

圖4 軟件文檔識別準確率Fig.4 Identification accuracy result of software documents

圖5 三大規范識別準確率Fig.5 Identification accuracy result of standards

表2 隨機文件識別準確率Table 2 Identification accuracy result of random documents

植入的錯誤在各段落末尾標注出設計測試文檔,植入錯誤的分布情況如圖6所示。使用工具進行格式檢查后,自動生成錯誤批注,檢查結果如圖7所示。

圖6 測試文檔設計情況Fig.6 Design of test document

圖7 格式檢查結果Fig.7 Result of format check

所有植入的錯誤均被工具自動識別且標注出,標注的段落位置正確。正確的段落未出現誤報,預埋錯誤的識別率達到100%,工具的基本格式檢查功能滿足設計要求。

6 結束語

本文首先對基于機器學習的文本分類算法進行了介紹,在此基礎上選取了面向自動化標檢的特征向量,進而提出改進的樸素貝葉斯分類算法和基于遺傳算法的分類模型。然后,在實際的數據集中分別采用KNN算法、傳統樸素貝葉斯算法和本文的算法進行了分類。實驗結果表明,本文提出的分類模型能夠有效處理段落數多、錯誤多的情況,正確的將段落進行分類。能夠有效地提高自動化標檢的正確率,從而提高標檢質量。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 992tv国产人成在线观看| 国产亚洲美日韩AV中文字幕无码成人 | 欧美无遮挡国产欧美另类| 欧美一道本| 国产精品第三页在线看| 欧美人与性动交a欧美精品| 中文字幕无码中文字幕有码在线| 午夜视频日本| 亚洲日韩国产精品综合在线观看| 手机永久AV在线播放| 婷婷在线网站| 99视频精品全国免费品| 97se亚洲| 最新亚洲av女人的天堂| 成年看免费观看视频拍拍| 91探花国产综合在线精品| 亚洲视频三级| 国产精品亚洲欧美日韩久久| 国产一级α片| 欧美在线黄| 日韩毛片在线视频| 日韩在线2020专区| 欧美一区国产| 在线永久免费观看的毛片| 国产女人在线视频| 伊人久久青草青青综合| 在线亚洲天堂| 18禁黄无遮挡网站| 成人a免费α片在线视频网站| 天天躁日日躁狠狠躁中文字幕| 直接黄91麻豆网站| 亚洲午夜国产精品无卡| 欧美精品啪啪一区二区三区| 欧美日韩在线第一页| 久久精品丝袜| 凹凸国产分类在线观看| 欧美在线国产| 国产成人综合日韩精品无码首页| 国产精品久久久久久久久kt| 人与鲁专区| 91在线丝袜| 国产一级毛片在线| 玖玖精品在线| 成人午夜福利视频| 日韩在线第三页| 中文字幕无码制服中字| 国产成人1024精品| 久久精品丝袜高跟鞋| 宅男噜噜噜66国产在线观看| 特级aaaaaaaaa毛片免费视频| 国产日韩欧美在线播放| a欧美在线| 国产aaaaa一级毛片| 久久一色本道亚洲| 国产乱人乱偷精品视频a人人澡| 欧美色图久久| 亚洲精品男人天堂| 亚洲国产成人精品无码区性色| 福利视频99| 免费精品一区二区h| 波多野结衣无码视频在线观看| 国产欧美视频在线观看| 国产精品久久久久久久久| 园内精品自拍视频在线播放| 亚洲高清国产拍精品26u| 亚洲资源在线视频| 亚洲经典在线中文字幕| 亚洲人在线| 欧美国产日产一区二区| 亚洲视频一区在线| 在线观看免费黄色网址| 国产精品太粉嫩高中在线观看| 色悠久久久| 3D动漫精品啪啪一区二区下载| 99视频在线精品免费观看6| 久久久成年黄色视频| 久久精品66| 成人国产三级在线播放| www成人国产在线观看网站| 日韩二区三区| 日韩在线播放欧美字幕| 白浆视频在线观看|