999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本相似度計算在軍事裝備故障診斷方面的應用

2020-07-29 05:04:10蔣怡霍曉強王清
中國設備工程 2020年15期
關鍵詞:故障診斷文本故障

蔣怡,霍曉強,王清

(1.陸軍工程大學研究生學院;2.陸軍工程大學訓練基地工程裝備修理教研室;3.陸軍工程大學野戰工程學院,江蘇 南京 210000)

隨著現代工業生產及科學技術水平的不斷提高,按照武器裝備發展“通用化,系列化,組合化”的建設要求,武器裝備的大型化、高速化、精密化、電子化、自動化發展特點已愈加明顯,然而,由于武器裝備結構復雜,基層維修力量技術水平參差不齊,加上外部戰場環境瞬息萬變,一旦裝備發生故障而無法進行有效排除,將會對訓練乃至作戰任務產生難以想象的影響。

當前,我軍武器裝備故障診斷主要運用的是傳統的診斷方法,例如,用配套的故障診斷設備進行診斷。這種診斷設備雖然專業性強,可以涵蓋對應裝備的所有常見機械、電氣、液壓故障,但是,在將來“通用化”的建設要求下,專用故障診斷設備將必定會被通用性更強的故障診斷設備慢慢替代,而且當前故障診斷技術都是依賴傳統的裝備結構原理,針對常見典型故障容易診斷,但是,一旦在戰場上出現戰場復合性損傷,傳統的故障診斷技術效果就不一定適用。

為了適應未來信息化作戰及保障特點,結合我軍武器裝備維修保障研究現狀,在當前的故障檢測與診斷方面,需要建立一種夠將人工智能、大數據等先進學科技術結合起來的裝備維修保障模式:即通過建立武器裝備故障數據庫,通過故障現象在故障數據庫中進行匹配,查找在故障數據庫中存儲的之前出現過的相同或者類似故障,通過之前解決故障的經驗做法,為故障的判斷排除提供思路和依據。這種方法不僅省去了用傳統方法進行故障判排所花的時間,而且為我軍的信息化數據建設提供了有力的資源支撐。

1 研究現狀及特點

1.1 裝備故障診斷的研究現狀及特點

故障診斷技術自20世紀60年代從美國起源以來,已經發展了60年之久。在此過程中,故障診斷已經從一門單純的技術轉變成了以故障檢測、故障定位以及故障識別等為主要技術活動的一項綜合性維修保障活動。

根據診斷時獲取診斷信息原理手段不同,故障診斷方法可以分為三種。

(1)基于知識的故障診斷方法,該方法需要根據經驗確定合理的診斷知識,從而檢測、隔離與定位故障。

(2)基于信號處理的方法,用信息處理方法分析現場測試信號,提取諸如幅值、頻率、諧波、震動等診斷特征信息,從而檢測出故障。

(3)基于解析模型的方法,建立診斷對象的故障診斷數學模型,根據系統輸出的實際值與期望值之間的差別來檢測診斷故障。

從當前的科技發展趨勢和研究現狀看來,隨著傳感器、自動測試、信號處理、計算機和人工智能等現代科學技術的發展,裝備故障診斷技術帶著以下三個特點進入一個全新的發展周期:一是以裝備測試性設計為基礎的狀態檢測和機內測試技術研究將更加深入,嵌入式計算機技術的應用,使機內測試技術向智能化、集成化、網絡化方向發展;二是基于人工智能的故障診斷法方法研究將日趨成熟,專家系統、神經網絡、模糊診斷和模型推理等方法,將得到廣泛的應用;三是綜合診斷技術、遠程診斷技術、大型復雜裝備的故障預測和容錯控制技術的研究將得到不斷加強。

1.2 裝備故障文本信息特點

此次裝備故障文本信息主要來源于課題組之前參與的多次演訓活動中的裝備故障數據統計信息,在對故障信息進行匯總后,已經通過特殊編碼的方式,隱去了裝備的具體型號,用“字母+編號”的形式代替,并且對一些軍事裝備特有的字詞進行了編碼,具體故障現象通過簡短制式的文字進行敘述,因此,每條故障現象都是一條簡短的文本信息,現象之后為故障原因以及處理方法。

圖1 裝備故障文本數據截圖

通過以上截圖可以發現,裝備故障現象文本都是短文本,短文本在自然語言處理領域是一個比較特殊的分支,因為短文本的信息長度較短,所包含的有效信息也就相對較少,這就導致了樣本的特征稀疏,形成特征向量后維度就會很高,不易從中抽取到準確而關鍵的樣本特征。

此外,通過觀察以上截圖,會發現一些如“兩晶流”“偏心掃描”這類在專業領域才會出現的詞匯,如果不將這些詞匯作為專有名詞加入詞表中,在進行短文本的分詞處理過程中,就會將“兩晶流”分詞為“兩”“晶”“流”,“偏心掃描”分詞為“偏心”“掃描”,這樣就會丟失短文本原有的特征。針對以上現象,就需要在對故障文本信息進行處理的過程中進行特定操作,以達到正確獲取故障短文本語義信息的目的。

2 文本信息處理及相似度計算

2.1 故障文本信息預處理

故障文本信息預處理就是將故障文本通過一系列的操作,將其轉化為計算機能夠讀懂的信息,隨著當前自然語言處理領域研究的深入,對于文本信息的預處理方法愈發變得多樣化,但整體流程基本一致。即文本獲取、分詞、文本清洗、向量化等步驟。

此次實驗的故障文本分詞用的是jieba分詞,鑒于之前提到專業領域的專有詞匯過多可能會影響分詞的準確性,所以在分詞之前,將軍事裝備領域特有詞匯進行了匯總,形成了一份專業領域特有的自定義詞典,在分詞之前將自定義詞典載入jieba詞庫內,這樣能有效提升分詞的準確性。

圖2 jieba自定義詞典部分截圖

獲取分詞后,需要去掉分詞中的停用詞。停用詞指一些不包含主要具體語義信息的功能詞、副詞等,將這些停用詞去掉后不僅不會對文本信息產生大的影響,而且可以在文本匹配或者信息檢索中能有效節省存儲空間并提高搜索和匹配效率。該論文所采用的停用詞表為“百度停用詞表”。

詞向量化就是將字詞映射到向量空間里(word embedding),用向量來表示字詞,這樣便于計算機對字詞的理解和計算,為相似度計算提供條件。當前生成詞向量的方法主要分兩大類,一類是基于統計學的方法,如共現矩陣、SVD(奇異值分解)等;另一類是是基于不同結構的神經網絡的語言模型方法,比較經典有word2vec、glove、ELMo、BERT 等。

有了分詞對應的詞向量,下一步需要做的就是將詞向量轉化為句向量,這樣才能通過整句進行故障現象的相似度匹配。對于當前NLP領域的句向量生成方式,主要包括了兩類,一類是利用整個數據集(非監督學習)或者訓練集(監督學習)的文檔數據進行訓練,建立以生成句向量作為最終輸出的模型,這種方法需要依賴大量的數據資源,其中比較成熟的方法有:Doc2Vec、CNN文本分類器等方法;第二類方法則是利用現成的詞向量用不同的數學或基于文本統計信息的算法來計算句向量,具體方法有:累加法、平均法、TF-IDF加權平均法和ISF嵌入法。

由于裝備故障數據規模較小,通過數據集訓練生成模型的效果不理想,所以在此運用騰訊AI Lab開源的包含了800多萬中文詞匯的200維詞向量數據,該數據采用了基于Skip-Gram(SG)的DSG算法,額外考慮了詞的相對位置,提高了詞向量語義表示的準確性。鑒于詞向量都是預訓練好的,所以在此我們使用第二類方法進行計算。根據故障數據特點,大多數裝備故障文本字數都在十字以內,文本信息較短,句法結構簡單,并且各個故障現象之間沒有任何關系,都是獨立的數據信息,所以基于在整個文檔中的詞頻和語料庫統計數據的TF-IDF和ISF算法并不具有優勢,因此,在此選擇被廣泛運用的平均法來生成句向量。

平均法計算句向量就是將詞向量加起來,然后,除以詞向量的個數。計算公式為:

本文實驗環境為 Windows10操作系統,使用Pycharm Community Edition2019.2.5作為開發工具,數據庫采用 MySql5.7版本,使用Python3.7開發語言實現相似度計算。下圖為通過平均法計算句向量的部分結果截圖。

圖3 句向量計算結果部分截圖

2.2 文本信息相似度計算

在獲得代表裝備故障現象的句向量后,通過與裝備故障庫內的故障現象數據進行相似度計算,可以找到和當前裝備故障類似的所有故障案例,通過案例的有效信息為故障的判排提供思路和依據。

當前對于文本相似度計算的方法主要包括基于字符串(String-based)的方法、基于語料庫(Corpusbased)的方法、基于世界知識(Knowledge-based)的方法和其他方法,具體請見圖4,這些方法涵蓋了NLP領域對文本相似度計算的幾乎所有方法,且各自的優缺點和適用場合不同,但這些方法都是針對從文本語料庫為起始,通過字符串、模型或者統計信息等不同方式來計算文本之間的相似度。

基于字符串的相似度計算方法中,當前運用較廣泛的有編輯距離、最長公共子序列(LCS)、余弦相似度、歐氏距離、杰卡德系數(Jaccard)等。因為歐氏距離和編輯距離的結果不是以百分比的形式體現的,所以在此無法進行結果的直觀比較,所以主要是針對余弦相似度、杰卡德系數、詞頻算法和詞頻-逆文檔頻率進行相似度計算,故障文本分別為“發動機不能啟動”和“發動機啟動不了”,兩個文本的相似度結果如下。

表1 相似度計算結果

通過上表實驗結果可知,在基于預訓練的騰訊詞向量基礎上,余弦相似度算法在計算句子相似度的準確率上是最高的,即求解兩個向量夾角的余弦值,也就是向量點乘以除以二者的模長。公式如下:

圖5 余弦相似度計算結果

圖4 文本相似度計算方法

3 結語

本文在針對軍事裝備故障現象的相似度計算方面,考慮到故障文本信息簡短、特征稀疏、語義豐富的特點,采取了基于騰訊預訓練的詞向量來計算故障文本之間的相似度,為故障現象匹配提供了方法和思路。由于杰卡德系數(Jaccard)、詞頻算法(TF)、詞頻-逆文檔頻率(TF-IDF)算法只需通過字符串信息生成詞頻矩陣,免去了預訓練詞向量這一過程,進而體現了騰訊運用DSG算法預訓練的詞向量在基于語序表征語義信息方面的優勢,而且詞頻算法(TF)和詞頻-逆文檔頻率(TF-IDF)算法涵蓋的詞頻統計信息對于每條都相互獨立的裝備故障數據而言,并不能很好地反映關鍵詞信息。通過最后的實驗結果可以證明,余弦相似度在計算兩個向量的距離上的效果是最好的。

當前專家系統在故障數據庫的運用方面還停留在比較初級的階段,下一步工作主要是對裝備故障數據庫的建設,通過充實故障數據庫,在大量數據信息支撐下,可以利用訓練模型和構建知識圖譜來優化裝備故障診斷方法的全面性和準確性,為裝備故障診斷和裝備數據資源建設提供有力支撐。

猜你喜歡
故障診斷文本故障
故障一點通
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
奔馳R320車ABS、ESP故障燈異常點亮
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
因果圖定性分析法及其在故障診斷中的應用
故障一點通
江淮車故障3例
基于LCD和排列熵的滾動軸承故障診斷
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 男女精品视频| 成人一区专区在线观看| 国产小视频在线高清播放| 国产成人精品一区二区三在线观看| 国产精品视频3p| 中文成人在线| 亚洲欧美在线综合一区二区三区| 亚洲黄网在线| 中文成人在线视频| 国产精品99久久久| 91久久国产综合精品| 久久久久亚洲AV成人人电影软件| 国模极品一区二区三区| 精品一区二区三区水蜜桃| 日韩精品免费一线在线观看| 欧美一区二区人人喊爽| 热re99久久精品国99热| 国产成人综合亚洲网址| 国产人成乱码视频免费观看| 中文字幕一区二区人妻电影| 国产h视频免费观看| 91系列在线观看| 欧美日韩资源| 97亚洲色综久久精品| 亚洲乱伦视频| 亚洲国产成人综合精品2020| 91精品视频播放| 日韩精品亚洲人旧成在线| 欧美97色| 亚洲 成人国产| 亚洲高清在线播放| 在线免费无码视频| 精品少妇三级亚洲| 中文字幕日韩丝袜一区| 亚洲人成影院午夜网站| 国产成人91精品| 国产欧美在线观看视频| 日韩天堂视频| 免费一级成人毛片| 国产成人高清精品免费| 992tv国产人成在线观看| 另类欧美日韩| 欧美成人免费午夜全| 国产在线观看91精品亚瑟| 手机在线看片不卡中文字幕| 91区国产福利在线观看午夜| 欧美日韩导航| 久久精品只有这里有| 91高清在线视频| 精品少妇人妻无码久久| 波多野结衣在线一区二区| 成人va亚洲va欧美天堂| 曰韩人妻一区二区三区| 97久久免费视频| 久草国产在线观看| 亚洲妓女综合网995久久| 国产精品毛片一区视频播| 一级一级特黄女人精品毛片| 欧美亚洲国产日韩电影在线| 91精品视频网站| 国产美女无遮挡免费视频| 亚洲欧洲日本在线| 久久国产成人精品国产成人亚洲| 亚洲中文字幕无码爆乳| 青草视频网站在线观看| 日韩成人高清无码| 国产99在线观看| 麻豆精选在线| 天堂成人在线视频| 尤物午夜福利视频| 欧美一级高清视频在线播放| 国产麻豆另类AV| 日韩国产综合精选| 亚洲日本一本dvd高清| 再看日本中文字幕在线观看| 亚洲欧美一区二区三区蜜芽| 欧美高清日韩| 国产区免费| 欧美69视频在线| 又粗又硬又大又爽免费视频播放| 在线观看免费黄色网址| 伊人久综合|