999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Attention-CNN的武器裝備語料分類方法?

2022-03-14 15:18:36王明乾
艦船電子工程 2022年2期
關鍵詞:分類特征文本

王明乾 鄧 鵬 倪 林

(國防科技大學信息通信學院 西安 710100)

1 引言

武器裝備是現代化軍事力量的重要組成部分,隨著科學技術的不斷發展,各類新型武器裝備層出不窮[1],武器裝備也越來越復雜,功能逐步擴展,其裝備類型、型號、性能、參數、作戰效能也多種多樣。武器裝備信息來源更加廣泛、形式更加多樣、處理更加復雜,其獲取、處理、存儲對于武器裝備的研究論證、開發以及作戰運用具有重要作用。過去依靠人工獲取、處理武器裝備情報信息的方法遠遠不能滿足當其處理大量信息的需求,如何高效管理、挖掘海量的信息資源,使用自動化手段提高武器裝備信息處理能力對于為高新武器裝備研發、作戰運用提供信息保障具有重要意義。

當前我軍處理武器裝備語料信息主要通過情報人員人工進行,無法滿足對當前從互聯網海量信息資源中發現、獲取、處理、分析信息的需求。因此,利用當前先進的計算機技術,研究高效自動化的武器裝備語料發現、獲取、分析、處理技術成為當前武器裝備語料研究領域的重要方向。國內相關研究工作起步的時間相對比較晚,研究成果也比較零散。最近幾年,才逐步出現面向武器裝備語料的挖掘技術的相關研究。2015年,傅暢等[2]設計并實現了一個包括采集,處理,存儲與檢索的web軍事情報挖掘模型,提出了一種面向軍事情報應用的文本聚類方法。2018年,陳亮[1]利用SVM等算法研究了武器裝備語料的分類,建成一個完全面向軍事領域并具備相當規模,適合各類電子文本信息應用處理的軍事資源語料庫;丁君怡等[3]提出基于開源數據的武器裝備知識圖譜構建方法。2019年,周彬彬等[4]設計了一種基于軍語詞典的自動擴展的軍事語料實體特征提取框架,構建一個較大規模的高質量軍事語料庫;齊玉東等[5]基于biRNN的不均衡數據集擴展方法對海軍軍械不均衡文本數據集處理進行了均衡、擴展處理,有效提高了文本分類的性能。2020年,陳奡等[6]基于開源獲取的軍事百科知識采用K最近鄰(KNN)、支持向量機(SVM)、神經網絡(RNN)及其他機器學習算法開展軍事裝備知識分類研究,以支撐軍事裝備知識圖譜的構建和應用;齊玉東等[7]改進了傳統的一維卷積神經網絡,設計了海軍軍事文本分類模型。

研究發現,當前武器裝備情報研究面臨的主要問題如下:1)信息化程度不高,主要工作仍然依靠人工完成,導致處理效率較低,遠遠不能滿足當前海量開源信息處理的需求;2)沒有專用的挖掘工具、可視化分析工具,分析工作效果不理想,對情報挖掘能力不足;3)情報知識關聯利用不夠。情報分類作為武器裝備情報搜集完成后的關鍵一步,其將不同類別的裝備情報按類別進行劃分,方便研究人員進一步分析研究,從而提高情報分析針對性。因此,如何將武器裝備情報快速準確劃分到對應類別,對于提升武器裝備情報獲取、分析效率具有重要意義。本文在抓取互聯網開源武器裝備語料的基礎上,研究了武器裝備語料的文本分類工作,為提高我軍武器裝備情報收集處理能力提供幫助。

2 語料庫構建

2.1 構建流程

武器裝備語料的內容具有很強的專業性,文本中包含大量武器裝備領域專業詞匯且篇幅較長,內容繁雜,這給文本分類帶來巨大的挑戰。針對上述問題,本文首先利用網絡爬蟲技術、文本預處理技術,從門戶網站抓取大量武器裝備相關信息,并對武器裝備文本信息進了清洗,提取了其對應標簽作為樣本類別,構建了武器裝備領域的語料庫,本文的樣本是從環球軍事網抓取,一共抓取網頁5843份,其獲取流程如圖1所示。

圖1 武器裝備語料獲取流程

本文采用了Scrapy[8]爬蟲框架完成了環球軍事門戶網站的URL獲取、調度管理、網頁獲取、網頁解析等功能,并對網頁信息進行了去除非法字符、去除鏈接、去除圖片等清洗工作。

2.2 武器裝備類別

武器裝備語料自動化分類方法是為了輔助研究人員更好地對武器裝備情報進行分析,因此本文采用了較為符合研究人員公共認知的武器裝備類別,作為研究對象。其是按照武器裝備的使用領域對武器裝備進行了類別劃分,具體分類情況如表1所示。

表1 武器裝備分類表

2.3 樣本分布

首先對抓取到的武器裝備語料分布進行簡單分析,其中每類文本的數量如圖2所示。

圖2 武器裝備語料獲取流程

采集到的武器裝備語料包含9個類別:飛行器、艦船艦艇、槍械與單兵、坦克裝甲車輛、火炮、爆炸物、導彈武器、太空裝備。每種類別的裝備語料的數量差異較大,其中飛行器類的樣本數量最多有1330篇,太空裝備類樣本數量最少366篇,數量差別比較大,樣本有較高的不均衡性,對于分類的效果具有一定影響。

2.4 關鍵詞分析

使用文本清理、分詞處理武器裝備語料之后,使用TFIDF[9]算法計算每個類別詞語對于各個類別的重要性,選取其中軍事特征明顯的詞匯按照關鍵詞的重要性排序后,取排序前十的關鍵詞,如表2所示。

表2 每個類別top10軍事相關關鍵詞

由表可見,武器裝備語料具有專用名詞多、時代特征明顯、特有的軍事表達方式等方面的特點,這對于更好地提取文本特征,實現準確分類會有所幫助。

3 分類模型

本文在數據預處理的基礎上,采用深度學習的方法對武器裝備語料分類進行了研究,采用的基本神經網絡結構包括CNN、GRU、Attention,并對其進行組合、調參,并提出了效果較好的Attention-CNN模型,有效解決了文本特征空間高維度、高稀疏性等問題,取得了較好的分類效果。相關網絡結構及改進模型描述如下。

3.1 詞嵌入層

使用深度學習模型對文本數據進行學習,首先要將文本數據轉換為模型可以處理的表達方式。詞嵌入層(Embeding)[10]可以將詞語轉換為具有語義信息的固定長度向量。其輸入為文本序列,輸出為向量表示的文本序列s=(w1,w2,… wi,… ωn),其中n為文本序列中單詞的個數,wi為第i個單詞對應的單詞向量。向量的值是在模型訓練的過程中訓練得到的,包含了文本的詞級語義信息。

3.2 輸出層

輸出層處于模型的最后一層,之前的特征處理層將文本的語義信息抽取完成后,將所有的語義特征通過全連接層組合并轉換為輸出向量,通過激活函數(softmax)后計算出文本屬于各個類別的概率。最后選擇模型輸出的概率最大的類別作為模型預測的結果。

3.3 雙向門循環單元網絡

門循環單元 GRU(Gate Recurrent Unit)[11]是循環神經網絡(Recurrent Neural Network,RNN)[12]的變體。RNN基于序列結構,利用循環操作整合序列信息,可以對任意長度的序列進行編碼。由于RNN只能保留短期記憶,為處理較長序列的依賴問題,產生了一些改進,長短時記憶網絡(LSTM)、門循環單元(GRU)等,其利用門機制對序列信息進行管理,從而記憶重要的長期依賴信息。由于RNN是單向傳遞的,考慮到文本信息不僅依賴前面的文本,也依賴后面的文本,因此提出了雙向的循環神經網絡。本文使用了雙向門循環單元網絡(BiGRU)進行了實驗,其結構如圖3所示。

圖3 BiGRU網絡結構

前向的 GRUL依次輸入“我”、“愛”、“中國”的詞嵌入向量得前向句子級特征向量hL。后向的GRUR依次輸入“中國”、“愛”、“我”得到后向句子級特征向量hR。最后將前向和后向的句子向量拼接得到作為句子特征向量,并輸入全連接層進行分類。

3.4 卷積神經網絡

卷積神經網絡(Convolutional Neural Networks,CNN)最初用來提取圖像特征[13],其由卷積層與池化層組成。Kim等[14]借鑒CNN的思想,將其應用于文本段落的多分類問題,其將段落中單詞的詞向量拼接成矩陣,選取大小不同的卷積核對其進行信息提取,這樣即提取了單詞的語義,也考慮了不同長度的上下文信息。池化層包括最大池化、平均池化等方式,用來提取文本序列的全局特征,可以保留重點文本語義,同時減少模型計算量。本文采用了定長子序列最大池化的方法,即將文本特征序列分成等長的子序列并對其進行最大池化,并將結果按原序列順序拼接起來,從而得到比全局最大池化更豐富的文本信息,其結構如圖4所示。

圖4 卷積神經網絡結構

本文選用了卷積核大小為3、4兩個卷積神經網絡來提取句子特征,對長度為4的子序列進行最大池化,進行拼接后作為句子特征矩陣,展開為特征向量后輸入全連接層進行文本分類。

3.5 注意力機制

CNN只能處理局部上下文特征,而GRU對于關鍵信息的提取能力不足。注意力機制(Atten?tion)[15]可以為文本中每個單詞賦予權重,衡量單詞的重要程度,即把注意力放到文本的關鍵信息提取上,弱化不重要的信息,其結構如圖5所示。

圖5 Attention結構

將輸入序列編碼Source中元素作為看作Key、Value對,將Target中的元素看作查詢Query。At?tention機制的計算主要分三個步驟:

1)計算Query和Key的相關性,得到Key對于Value值的權重;

2)對1)中計算的權重進行歸一化;

3)使用歸一化權重對Value進行加權求和,得到Attention值。

計算過程中相關性可以選擇不同的計算方法來計算,本文使用了點積的計算方法,注意力也稱為點積注意力。當注意力層輸入Source與Target相同時,計算的注意力使句子對自身的注意力,被稱為自注意力,本文中Attention模型采用自注意力模型對嵌入層輸出的矩陣提取句子級特征矩陣,展開為句子特征向量后,輸入全連接層進行分類。

3.6 Attention-CNN模型

本文將CNN與Attention串聯構成了Atten?tion-CNN(Attention、CNN組合)模型用于武器裝備語料分類,模型結構如圖6所示。

圖6 Attention-CNN網絡結構

Attention-CNN模型結合了Attention與CNN的兩方面優勢,首選使用CNN層對局部的文本上下文特征進行提取,然后使用Attention來提取文本的長序列依賴,兩種基本模型結構可以進行很好的互補,從而提高分類效果。

4 實驗

為驗證基于改進的一維卷積神經網絡的文本分類模型的性能,本文基于爬蟲抓取的武器裝備語料庫設計文本分類實驗,并使用CNN,LSTM,Atten?tion,Attention-CNN(Attention、CNN組合),Att-LSTM(Attention、LSTM組合),BiGRU-CNN(BiGRU、CNN組合)等方法進行對比。使用Python語言采用基于tensorflow框架的keras實現具體模型。

4.1 實驗流程

首先對武器裝備語料進行預處理,通過文本清洗、分詞等手段統一文本格式、構建文本序列。然后選取詞頻高于5的單詞作為特征詞典,實現特征降維。然后進行文本表示,使文本變為計算機能夠處理的邏輯單位。訓練階段,將訓練集文本與相應的標簽輸入到模型中,通過計算模型損失以及反向傳播算法更新模型參數,完成模型訓練。測試階段使用模型對測試集文本的類別進行預測,預測結果與文本實際類別進行對比,使用不同評價指標對其進行分析和評價。

4.2 文本預處理

數據集預處理階段使用使用正則表達式去除特殊字符,使用jieba分詞工具進行分詞,截取詞頻最高的10000個單詞構成詞典。然后采用填補、截短的方式將文本轉換為長度為300的定長序列。

4.3 評價指標

本文選用了分類算法比較經典的評價指標準確度(Precision)、召回率(Recall)和F1-score值,對于單個類別其計算公式如下:

其中,TP為實際為正例,被預測為正例的樣本數量。FP為實際為負例,被預測為正例的樣本數量。FN為實際為正例,被預測為反例的樣本數量。本文使用所有類別標簽結果的加權平均后的評價指標值作為衡量模型綜合性能的指標。

4.4 模型對比

實驗將Attention-CNN模型與其他5種模型進行了對比,其中包括BiGRU、CNN、Attention三種單類別網絡結構模型,及BiGRU-CNN、Att-BiGRU兩種復合網絡結構模型。各模型分類效果對比如表3所示。

表3 各模型分類效果對比

由表可知,在武器裝備語料數據集上,深度學習模型均取得了不錯的分類效果。其中,Atten?tion-CNN模型的分類效果最佳。對于單模型At?tention效果最好,CNN次之,BiGRU效果最差,這是由于本文選取文本長度300,Attention對文本長期依賴提取較好,CNN較好地提取了文本的短期依賴,而BiGRU模型在提取長文本的特征時前期輸入文本的信息會隨著序列長度增加有所丟失,因此效果比另外兩個模型略差。對于復合模型,BiG?RU-CNN與Att-BiGRU模型效果均優于BiGRU模型,但是分別弱于CNN與Attention模型,分析其原因是由于文本特征經過BiGRU層提取時由于序列較長損失了前期輸入的序列信息。Attention-CNN復合模型效果優于所有模型,說明在本文武器裝備語料數據集上,Attention和CNN層具有良好的互補左右,首先由CNN根據短期上下文依賴提取語義信息,然后由Attention根據長期依賴及文本的重要性提取語義信息,從而提取出對于分類更全面、關鍵的語義信息。

5 結語

本論文深入調查了網絡爬蟲技術、文本分類技術及其在武器裝備語料獲取處理方面的運用。通過實驗分析,利用爬蟲技術從互聯網上抓取了開源武器裝備語料構建了語料庫;對語料進行了預處理分析了武器裝備語料的特點及其對分類的影響;構建了基于Attention-CNN的面向武器裝備語料分類模型,并與多個基準模型進行了對比,驗證了模型的效果。本文的研究對于提升我軍高效管理、挖掘海量的信息資源,使用自動化手段提高武器裝備相關信息處理能力,對高新武器裝備研發、作戰運用提供信息保障具有重要意義。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 午夜限制老子影院888| 亚洲欧美一区二区三区图片| 99视频免费观看| 国产成人精品亚洲77美色| 欧美色综合网站| 亚洲手机在线| 亚洲国产成人无码AV在线影院L| 久久精品一品道久久精品| 亚洲视频免费在线看| 国产在线观看成人91| 91年精品国产福利线观看久久| 九九线精品视频在线观看| 久久www视频| 成年看免费观看视频拍拍| 国产精品国产主播在线观看| 国产日韩欧美成人| 免费A级毛片无码免费视频| 国产亚洲视频中文字幕视频 | 中文字幕资源站| 激情影院内射美女| 亚洲国产亚综合在线区| 色欲不卡无码一区二区| 91网红精品在线观看| 中文字幕亚洲乱码熟女1区2区| 久久天天躁夜夜躁狠狠| 波多野结衣一区二区三区AV| 久久久亚洲国产美女国产盗摄| 在线观看av永久| 精品国产成人a在线观看| 成人在线亚洲| 亚洲Av激情网五月天| 一级毛片在线免费视频| 国产精品私拍99pans大尺度 | 成人精品视频一区二区在线| 国产麻豆精品手机在线观看| 国产精品视频999| 日韩久草视频| 97久久人人超碰国产精品| 国产精品一区二区在线播放| 国产亚洲美日韩AV中文字幕无码成人| 九一九色国产| 在线日韩一区二区| 亚洲高清无码精品| 中字无码av在线电影| 国产区免费| 国产情精品嫩草影院88av| 欧美视频在线不卡| 欧美影院久久| 国产美女丝袜高潮| 女人18一级毛片免费观看| 精品久久久久无码| 色综合五月| 欧美另类第一页| 国产成人高清精品免费软件 | 99免费在线观看视频| 中文精品久久久久国产网址| 国产女人在线观看| 亚洲成网777777国产精品| 欧美午夜精品| 亚洲AⅤ波多系列中文字幕| 综合亚洲色图| 国产婬乱a一级毛片多女| 999国内精品久久免费视频| 久久精品人人做人人综合试看| 亚洲高清无码久久久| 国产丝袜第一页| 在线va视频| 熟妇无码人妻| 成人年鲁鲁在线观看视频| 久久青草视频| 国产免费人成视频网| 久久人体视频| 久久精品亚洲专区| 国产免费人成视频网| 亚洲精品动漫| 国产成人精品三级| 国产精品免费p区| 精品国产免费观看一区| 91无码人妻精品一区| 成年片色大黄全免费网站久久| 欧美日韩免费在线视频| 国产主播福利在线观看|