999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多模態(tài)的輸送帶撕裂大模型算法設(shè)計

2023-10-07 13:08:14王學立趙辰燃何顯能
煤礦安全 2023年9期
關(guān)鍵詞:模態(tài)檢測模型

王學立 ,趙辰燃 ,李 青 ,何顯能 ,甘 梅

(1.西安博深安全科技股份有限公司,陜西 西安 710304;2.西安交通大學 軟件學院,陜西 西安 710000;3.中煤科工集團重慶研究院有限公司,重慶 401325)

礦業(yè)行業(yè)是全球經(jīng)濟發(fā)展的基礎(chǔ)產(chǎn)業(yè)之一,但同時也面臨著諸多挑戰(zhàn),如人力成本上升、礦區(qū)工人的安全問題和礦區(qū)設(shè)備安全問題。人工智能技術(shù)的快速發(fā)展和應(yīng)用,為礦業(yè)行業(yè)提供了一種新的解決方案,旨在通過科技手段提高礦山生產(chǎn)效率、降低成本、提高安全性和環(huán)保性。近年來,在一系列政策和行業(yè)應(yīng)用的持續(xù)推進下,智能礦山已經(jīng)進入攻堅克難、落地見效的關(guān)鍵階段。AI 大模型的研發(fā)和應(yīng)用無疑是核心驅(qū)動力之一。

AI 大模型[1]的應(yīng)用在近年來得到了廣泛的關(guān)注和應(yīng)用,例如Google 的BERT 模型、Facebook 的GPT 模型、OpenAI 的GPT-3 模型等[2]。AI 大模型是指由大量參數(shù)和計算資源組成的機器學習模型,能夠處理更加復(fù)雜的任務(wù)和應(yīng)用到更復(fù)雜的場景之中。這些模型通常采用深度學習算法,例如神經(jīng)網(wǎng)絡(luò),能夠通過對大量數(shù)據(jù)的學習,發(fā)現(xiàn)數(shù)據(jù)之間的復(fù)雜關(guān)系,從而實現(xiàn)各種任務(wù),例如圖像識別、自然語言處理、機器翻譯等。

AI 礦山大模型是一種基于人工智能技術(shù)的礦山智能化解決方案,它利用大數(shù)據(jù)、深度學習、機器學習等技術(shù),針對礦山各種復(fù)雜場景,對礦山生產(chǎn)、安全、環(huán)保等方面進行綜合分析和預(yù)測,幫助礦山企業(yè)做出更加精準的決策。特別是在圖像識別方面,隨著深度學習目標檢測的發(fā)展以及礦井巷道監(jiān)控相機的全覆蓋,使用深度學習圖像處理技術(shù)對礦井下安全問題進行監(jiān)控預(yù)測[3-4],最大程度預(yù)防安全事故的發(fā)生。

為此,利用礦山AI 大模型,基于Transformer模型將視頻和音頻的多模態(tài)數(shù)據(jù)拼接、融合,提出了采用DETR-Audio 模型對煤礦輸送帶撕裂進行檢測,通過現(xiàn)有的數(shù)據(jù)進行訓(xùn)練,實現(xiàn)對輸送帶裂紋的精確的識別并及時發(fā)出預(yù)警。

1 研究方法

在煤礦開采中,輸送帶是一個至關(guān)重要但最易耗損的材料,受井下各種復(fù)雜環(huán)境的影響,輸送帶在運輸過程中經(jīng)常出現(xiàn)裂紋或者直接撕裂,極容易對生產(chǎn)甚至安全造成影響,造成財產(chǎn)損失。為了避免大面積撕裂情況的直接發(fā)生,及時檢測預(yù)警十分重要,目前檢測輸送帶的撕裂主要分為2 大類:接觸式檢測和非接觸式檢測。隨著設(shè)備智能化的不斷普及,非接觸式檢測也逐漸占據(jù)主導(dǎo)地位,其中,視覺和聲音是最常使用的2 個角度。

基于深度學習的視覺檢測方法已經(jīng)能夠?qū)崿F(xiàn)高精度和高效率的輸送帶撕裂檢測。在目標檢測方面,使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)結(jié)構(gòu)的模型已經(jīng)能夠?qū)崿F(xiàn)對輸送帶撕裂區(qū)域的定位和分類。其中,一些基于Anchor 的目標檢測算法如Faster R-CNN、YOLO 和SSD 等,已經(jīng)被廣泛應(yīng)用于輸送帶撕裂檢測中。文獻[5]提出了一種改進區(qū)域卷積神經(jīng)網(wǎng)絡(luò)Light-Head R-CNN 的輸送帶撕裂檢測方法,旨在解決輸送帶撕裂檢測中破損目標檢測精度不足和檢測性能低下的問題;文獻[6]通過Yolov4-tiny 目標檢測網(wǎng)絡(luò)對輸送帶損傷類型進行分類,實驗結(jié)果表明,Yolov4-tiny 目標檢測網(wǎng)絡(luò)在輸送帶損傷數(shù)據(jù)集上對表面劃傷、撕裂、表面破損和擊穿4 種損傷類型檢測的平均精度分別為99.36%、94.85%、89.30%、86.76%。但由于環(huán)境的特殊性和復(fù)雜性,視頻成像夾雜大量噪聲,直接利用傳統(tǒng)的目標檢測算法還會存在一些缺陷,由于Yolo采用了全卷積網(wǎng)絡(luò)的結(jié)構(gòu),在多個尺度上進行檢測時,不同的目標大小可能被映射到不同的層級上,這就導(dǎo)致了對小目標的檢測不夠準確,并且光線較差的環(huán)境下,對小裂紋的檢測會更不敏感,出現(xiàn)漏檢。文獻[7]針對小尺寸漏檢、誤檢問題,設(shè)計了DDS unit 替換主干網(wǎng)絡(luò)中的Res unit,利用不同層次特征跨層連接的方式獲得完整豐富的多尺度特征完成小尺寸破損的檢測。

聲波信號對輸送帶撕裂進行檢測是一種非常有效的方法[8-9]。輸送帶的撕裂通常會產(chǎn)生特定的聲波信號,可以通過聲音傳感器進行檢測和識別。這種方法的優(yōu)點是不需要直接接觸輸送帶,可以在不干擾生產(chǎn)流程的情況下進行監(jiān)測。在實踐中,通過使用麥克風或其他聲音傳感器收集聲波信號,并對其進行分析和處理,可以檢測傳送帶是否存在撕裂。聲波信號的分析可以使用各種信號處理技術(shù),如時域分析、頻域分析、小波變換等。文獻[10]提出了一種基于聲音的帶式輸送機輸送帶縱向撕裂檢測方法,將采集的聲音信號進行預(yù)處理,提取梅爾頻率倒譜系數(shù)和短時能量參數(shù),再經(jīng)過高斯混合模型(GMM)進行均值估計,形成特征數(shù)據(jù)作為支持向量機(SVM)的輸入進行分類和識別,實現(xiàn)帶式輸送機的輸送帶縱向撕裂檢測。但是由于傳送帶所處環(huán)境復(fù)雜,噪聲干擾大,會對波形圖產(chǎn)生較大影響,導(dǎo)致撕裂的特征波形受到破壞,不能夠很好地規(guī)避這種情況,可能會導(dǎo)致誤檢。

隨著大模型熱潮的興起和Transformer 模型在自然語言處理領(lǐng)域的出色表現(xiàn),近年來也被應(yīng)用到圖像處理之中,Transformer 模型可以同時處理多個類型的數(shù)據(jù),包括圖像、文本、聲音等多模態(tài)數(shù)據(jù)[11-12],文獻[13]調(diào)查了多模態(tài)機器學習本身的最新進展,并以一種共同的分類方式呈現(xiàn)它們,指出多模態(tài)機器學習旨在建立能夠處理和關(guān)聯(lián)來自多個模態(tài)的信息的模型。基于Transformer 模型將聲音和視覺多模態(tài)數(shù)據(jù)結(jié)合對輸送帶撕裂檢測,可以通過融合聲音和視覺信息來提高檢測精度和魯棒性。聲音信息可以捕捉到傳送帶的振動和噪聲等特征,而視覺信息可以提供更豐富的目標形狀、紋理等特征。將這2 種信息結(jié)合起來,可以更全面地描述目標,提高模型的檢測能力。在處理多元數(shù)據(jù)時,傳統(tǒng)的方法是將不同類型的數(shù)據(jù)分別輸入到不同的深度學習模型中,然后將它們的輸出進行融合和拼接,但這種方法會導(dǎo)致信息的丟失和誤差的累積。

基于上述原因,基于Transformer 模型在處理多模態(tài)數(shù)據(jù)時,可以同時編碼和解碼多個類型的數(shù)據(jù),并且在編碼和解碼過程中,不同類型的數(shù)據(jù)可以相互交互影響,從而實現(xiàn)更好的信息傳遞和融合,提高模型的表征能力的特點,提出綜合視頻和音頻2 方面來對輸送帶撕裂進行檢測的方案,視頻和音頻分別進行編碼,最后使用1 個Transformer 解碼器來將這些語義表示結(jié)合起來,進行多模態(tài)學習。

2 基于Transformer 的多模態(tài)網(wǎng)絡(luò)結(jié)構(gòu)

基于Transformer 模型能處理多模態(tài)數(shù)據(jù)的特性,提出了DETR-Audio 模型。將視頻利用DETR 模型編碼,同時將音頻進行處理后傳入編碼器進行編碼,最后解碼器負責將視覺和音頻信息的編碼結(jié)果進行融合,產(chǎn)生最終的多模態(tài)表示。DETR-Audio 模型主要包含3 個模塊:視頻編碼模塊、音頻編碼模塊和音視頻融合解碼模塊。

2.1 視頻編碼

在計算機視覺領(lǐng)域,Transformer 模型被廣泛應(yīng)用于圖像分類、目標檢測和圖像生成等任務(wù)[14-15]。DETR(Detection Transformer)[16]是一種使用 Transformer 實現(xiàn)目標檢測的模型。DETR 框架對視頻進行編碼如圖1。

圖1 DETR 框架對視頻進行編碼Fig.1 DETR framework encodes the video

利用DERT 對視頻進行編碼,首先用Res-Net 作為backbone 提取圖片的特征,然后結(jié)合輸入的Position encoding 層提供位置信息,將圖片特征輸入到Transformer 的編碼器中,每個Transformer 編碼器層包含多個自注意力層和前饋神經(jīng)網(wǎng)絡(luò)層。自注意力層用于計算輸入序列中每個元素與其他元素的相關(guān)性,從而得到每個元素在序列中的重要性,前饋神經(jīng)網(wǎng)絡(luò)層用于非線性變換和特征提取。多個Transformer 編碼器層可以進一步提取輸入序列中的特征,將特征向量收集起來,等待后續(xù)的使用。

2.2 音頻編碼

Transformer 模型針對音頻處理也可以采取和視頻同樣的方式對音頻進行編碼,將收集到的音頻數(shù)據(jù)利用短時傅里葉變換(STFT)對信號進行時頻譜分析和去噪聲[17-18],將時域信號分解成不同頻率的振幅和相位。將得到的聲頻譜圖輸入到Transformer 編碼器中進行特征提取。在Transformer 編碼器中,輸入的聲頻譜圖會被轉(zhuǎn)換為一系列特征向量,每個特征向量表示輸入序列的1個時間步長。為了捕獲長距離的依賴關(guān)系,Transformer 編碼器會采用自注意力機制對輸入序列進行建模,并利用多頭自注意力機制增強模型的表達能力。最終,經(jīng)過Transformer 編碼器處理后的特征向量序列將被送入模型的后續(xù)階段,進行音視頻融合和預(yù)測任務(wù)。

2.3 音視頻融合解碼

解碼器負責將視覺和音頻信息的編碼結(jié)果進行融合[19-20],產(chǎn)生最終的多模態(tài)表示。解碼器也是一個Transformer 模型[21],由多層自注意力機制、前饋神經(jīng)網(wǎng)絡(luò)和殘差連接組成。對音視頻融合并解碼如圖2,圖中:K、T、Q分別為多頭注意力塊的鍵、值和查詢張量。

圖2 對音視頻融合并解碼Fig.2 Fusion and decoding of audio and video

在每個解碼器層中,視頻(V)和音頻(A)編碼分別被獨立的多頭注意力模塊分別關(guān)注。對于這2 種模態(tài)特征向量Vc和Ac,分別進行通道級的拼接,并輸入到前饋層中。對于自注意力層,始終是Q=K=T,而對于編碼器-解碼器注意力層,K=T是編碼產(chǎn)生的(T或A),而Q是前1 層的輸出(或?qū)τ诘? 層,是網(wǎng)絡(luò)在前1 個解碼步驟中的預(yù)測)。

3 實驗設(shè)計和結(jié)果分析

3.1 數(shù)據(jù)集構(gòu)建

本文的圖像訓(xùn)練策略是采用DETR 檢測模型,為此準備了相應(yīng)的數(shù)據(jù)集。

針對DETR 模型的訓(xùn)練數(shù)據(jù)集,為了保證數(shù)據(jù)的質(zhì)量,提升模型的魯棒性,采集了礦井下多個場景的傳送帶數(shù)據(jù),最后經(jīng)過篩選選出3 000 張圖像作為數(shù)據(jù)集進行標注用于訓(xùn)練和測試,數(shù)據(jù)集僅僅包含礦工一類標注目標,其中2 700 張用于訓(xùn)練,300 張用于測試。對于數(shù)據(jù)集的標注,借助LabelImg 工具采用人工標注。

針對音頻的數(shù)據(jù)集,對收集到的數(shù)據(jù)先進行采樣、濾波、降噪等處理,選取了圖像視頻對應(yīng)的音頻用Label Studio 進行標注。

3.2 訓(xùn)練參數(shù)配置

采用DETR 模型訓(xùn)練視頻,使用的圖片尺寸為800×1 333,backbone 采用resnet50,position embedding 選用sine,transformer 編碼器(encoder)和解碼器(decoder)的層數(shù)都是6,注意力頭數(shù)(attention heads)為8,隱藏層維度(hidden dimension)為512,epochs 為300。

在利用Transformer 訓(xùn)練音頻時,使用的采樣率(sample rate)為16 kHz,每個音頻片段的長度(segment length)為4 s,每個音頻片段的重疊(segment overlap)為2 s,幀長(frame length)為25 ms,時域窗口(time-domain window)為Hamming window,編碼器(encoder)和解碼器(decoder)的層數(shù)都是6,注意力頭數(shù)(attention heads)為8,隱藏層維度(hidden dimension)為512,學習率(learning rate)為10-4,大小(batch size)為16。

3.3 結(jié)果分析

通過實驗,采集200 段礦井監(jiān)控設(shè)備拍攝到的傳送帶視頻片段測檢測效果,先利用原生的DETR 模型進行檢測測試,然后使用DETR-Audio 模型進行測試。DETR-Audio 模型測試結(jié)果見表1,音、視頻綜合檢測如圖3,對小塊撕裂的識別如圖4。

表1 DETR-Audio 模型測試結(jié)果Table 1 DETR audio model test results

圖3 音、視頻綜合檢測Fig.3 Sound and video comprehensive detection

圖4 對小塊撕裂的識別Fig.4 Identification of small pieces of tear

由表1 可知:比起單一通過視覺或音頻對輸送帶進行檢測,DETR-Audio 模型同時利用視頻和音頻信息來檢測目標,在輸送帶撕裂的場景中,該模型能夠更好地檢測傳送帶的破損位置。

實驗結(jié)果表明:在這個任務(wù)上,DETR-Audio 模型具有良好性能,比單獨使用視頻或音頻信息的模型具有更高的檢測準確度和魯棒性。同時,模型通過學習音頻和視頻之間的關(guān)系,能夠更準確地定位目標的位置(圖3);對于輸送帶上一些小的裂紋檢測會更加敏感(圖4),這對于輸送帶撕裂等需要精確定位的任務(wù)非常重要。此外,實驗還證明了在訓(xùn)練過程中,同時使用視頻和音頻信息對于提高模型性能至關(guān)重要。

4 結(jié) 語

基于Transformer 的多模態(tài)處理數(shù)據(jù),提出了一種新的結(jié)構(gòu)設(shè)計DETR-Audio 模型,用于輸送帶撕裂的檢測。DETR-Audio 模型可以同時編碼和解碼音頻和視頻類型的數(shù)據(jù),并且在編碼和解碼過程中,2 種類型的數(shù)據(jù)可以相互交互影響,從而實現(xiàn)更好的信息傳遞和融合,提高模型的表征能力。具體來說就是將視頻和音頻2 方面綜合起來對輸送帶撕裂進行檢測。視頻和音頻分別進行編碼,最后使用1 個Transformer 解碼器將這些特征結(jié)合起來,進行多模態(tài)學習。實驗結(jié)果表明:DETR-Audio 模型相比僅利用DETR 模型識別度效果更好,可以提高傳送帶撕裂檢測的精度和魯棒性。

猜你喜歡
模態(tài)檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應(yīng)用
國內(nèi)多模態(tài)教學研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
主站蜘蛛池模板: 久久久久九九精品影院| 67194成是人免费无码| 尤物亚洲最大AV无码网站| 婷婷亚洲视频| 视频一本大道香蕉久在线播放| 国产精品久久久久婷婷五月| 亚洲免费黄色网| 亚洲婷婷六月| 免费无码网站| 免费 国产 无码久久久| 亚洲天堂首页| 国产亚卅精品无码| 老司机午夜精品网站在线观看| 日韩欧美成人高清在线观看| 欧美性久久久久| 国产成人亚洲欧美激情| 亚洲中文精品久久久久久不卡| 伊人狠狠丁香婷婷综合色| 亚洲中文字幕23页在线| 久久semm亚洲国产| 毛片网站在线看| 久久国产精品嫖妓| 欧美另类图片视频无弹跳第一页| 国产成人精品视频一区视频二区| 国产高清自拍视频| 国产综合网站| 中文无码精品a∨在线观看| 九色国产在线| 亚洲嫩模喷白浆| 99视频在线看| 国产一区二区免费播放| 欧美午夜视频| 亚洲天堂视频网| 97国内精品久久久久不卡| 久久综合亚洲色一区二区三区| 久久精品视频一| 一区二区三区四区精品视频| 国产丰满成熟女性性满足视频| 8090成人午夜精品| 国产亚洲欧美在线专区| 六月婷婷精品视频在线观看| 波多野结衣的av一区二区三区| 亚洲福利视频一区二区| 日韩无码视频专区| 免费一级全黄少妇性色生活片| 精品少妇人妻无码久久| 99爱在线| 亚洲综合九九| av一区二区无码在线| 一级毛片免费高清视频| 国产精品亚洲片在线va| 男女性色大片免费网站| 丁香婷婷激情网| 国产91精品最新在线播放| 国产区网址| 青青操视频免费观看| 国产91久久久久久| 国产成人精品一区二区免费看京| 一级一级一片免费| 国产女人综合久久精品视| av在线无码浏览| 免费一级毛片在线播放傲雪网| 2019国产在线| 亚洲精品免费网站| 亚洲伊人久久精品影院| 国产爽妇精品| 亚洲一区二区视频在线观看| 精品国产网| 伊人久久综在合线亚洲2019| 区国产精品搜索视频| 99色亚洲国产精品11p| 亚洲综合色婷婷| 国产又粗又猛又爽视频| 国产成人区在线观看视频| a级毛片免费播放| 精品国产一二三区| 国产综合欧美| 亚洲浓毛av| 91久久夜色精品国产网站| 亚洲日韩精品无码专区| 午夜国产不卡在线观看视频| 亚洲色成人www在线观看|