








摘要:
為解決瓜蔞檢測技術(shù)存在的檢測精度低且檢測時間長的問題,提出一種基于改進(jìn)YOLOv5算法的瓜蔞分級方法YOLOv5-GCB。在主干網(wǎng)絡(luò)引入Ghost卷積模塊替換傳統(tǒng)卷積,在保證準(zhǔn)確率的同時減少模型的參數(shù)量;在特征提取網(wǎng)絡(luò)和推理層之間添加CA注意力模塊,增強(qiáng)模型對空間和通道信息的關(guān)注,提高檢測精度;在頸部網(wǎng)絡(luò)中引入雙向加權(quán)特征金字塔網(wǎng)絡(luò)(Bi-directional Feature Pyramid Network,BiFPN)替換原始結(jié)構(gòu),融合不同尺度特征提升多尺度目標(biāo)的表達(dá)能力。結(jié)果表明:與原有的YOLOv5模型相比,改進(jìn)的YOLOv5-GCB算法對瓜蔞等級的檢測準(zhǔn)確率提高4%,達(dá)到95.3%,檢測速度達(dá)到31.5 fps。該研究提出的算法在保證瓜蔞分級檢測準(zhǔn)確率的同時擁有更高的識別速度,為實際場景中的瓜蔞分級提供理論研究和技術(shù)支持。
關(guān)鍵詞:瓜蔞分級;目標(biāo)檢測;多尺度特征融合;CA注意力機(jī)制
中圖分類號:S609.2; TP183; TP399
文獻(xiàn)標(biāo)識碼:A
文章編號:2095-5553 (2024) 04-0100-08
收稿日期:2023年10月19日" 修回日期:2023年12月20日
基金項目:江蘇省高等學(xué)?;A(chǔ)科學(xué)(自然科學(xué))研究重大項目(23KJA520005)
第一作者:霍正瑞,男,1998年生,江蘇東海人,碩士研究生;研究方向為計算機(jī)視覺。E-mail: 495691435@qq.com
通訊作者:孫鐵波,男,1983年生,遼寧綏中人,博士,副教授;研究方向為機(jī)器視覺及軟件仿真。E-mail: sieo2005@163.com
A method for grading Trichosanthes based on improved YOLOv5 algorithm
Huo Zhengrui1, Sun Tiebo2
(1. College of Marine Food and Biological Engineering, Jiangsu Ocean University, Lianyungang, 222000, China;
2. School of Intelligent Manufacturing, Jiangsu Food and Pharmaceutical and Science College, Huaian, 223001, China)
Abstract:
In order to solve the problems of low detection accuracy and long detection time of trichosanthes detection technology, a method of grading trichosanthes, YOLOv5-GCB, based on improved YOLOv5 algorithm, is proposed. Firstly, the Ghost convolution module is introduced in the backbone network to replace the traditional convolution, which reduces the number of parameters of the model while guaranteeing the accuracy. Then, the CA attention is added between the feature extraction network and the inference layer module is added between the feature extraction network and the inference layer to enhance the model’s attention to spatial and channel information and improve the detection accuracy." Finally, a Bi-directional Feature Pyramid Network (BiFPN) is introduced into the neck network to replace the original structure, and the fusion of different scale features improves the expression ability of multi-scale targets. The results show that compared with the original YOLOv5 model, the improved YOLOv5-GCB algorithm increases the detection accuracy of trichosanthes grades by 4% to 95.3%, and the detection speed reaches 31.5 fps. The algorithm proposed in this study guarantees the accuracy of trichosanthes grades detection with higher recognition speed, which provides theoretical research and technical support for trichosanthes grades grading in real scenarios.
Keywords:
target detection; trichosanthes classification; multi-scale feature fusion; CA attention mechanism
0 引言
瓜蔞是一種多年生草質(zhì)藤本植物,屬于葫蘆科瓜蔞屬,具有藥食兼用的價值[1]。目前的瓜蔞質(zhì)量分級主要依靠人工進(jìn)行,然而,這種人工分級方式耗時長、勞動力成本高,對人的視力、判斷力、工作效率和經(jīng)驗要求較高。同時,由于人工分級的主觀性,可能導(dǎo)致分級結(jié)果不準(zhǔn)確[2],給瓜蔞生產(chǎn)加工帶來不利影響。因此,采用自動化技術(shù)實現(xiàn)瓜蔞分級已成為行業(yè)迫切需要解決的問題。
隨著卷積神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展,在各種視覺任務(wù)中,特別是水果的成熟度識別和分類方面,深度學(xué)習(xí)技術(shù)取得了顯著的成果。目前的目標(biāo)檢測模型主要分為一階段目標(biāo)檢測和雙階段目標(biāo)檢測模型。雙階段目標(biāo)檢測需要先生成大概包含的位置區(qū)域,之后對類別區(qū)域進(jìn)行分類和位置回歸,雖然精度較高,但速度相對較慢。雙階段模型中較為經(jīng)典的是R-CNN(區(qū)域卷積神經(jīng)網(wǎng)絡(luò))[3]系列,包括Fast R-CNN[4],F(xiàn)aster R-CNN[5]等。而一階段模型中,最具代表性的是YOLO系列[6-9]。由于不需要候選框,直接利用神經(jīng)網(wǎng)絡(luò)得到分類以及回歸結(jié)果。雖然犧牲部分精度,但檢測速度顯著提高,更加適合實時檢測的場景。
基于上述思想,許多學(xué)者開始利用深度學(xué)方法來對水果的成熟度進(jìn)行識別和分類。聶衍文等[10]提出一種基于YOLOv5的輕量化芒果果面缺陷檢測算法,采用C3_Ghost來代替原YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)中的C3模塊,在滿足芒果表面缺陷檢測要求的前提下,相較于原算法可使參數(shù)量減少45.9%,降低了模型對部署設(shè)備的性能需求。Habaragamuwa等[11]利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行室內(nèi)成熟和未成熟草莓的判斷。Nasir等[12]提出一種基于VGG16卷積神經(jīng)網(wǎng)絡(luò)的椰棗自動分級方法,整體分類準(zhǔn)確率達(dá)96.98%。張立杰等[13]提出一種基于改進(jìn)型SSD卷積神經(jīng)網(wǎng)絡(luò)的蘋果定位與分級算法,使用深度可分離卷積模塊替換原SSD網(wǎng)絡(luò)主干特征提取網(wǎng)絡(luò)中部分標(biāo)準(zhǔn)卷積,實現(xiàn)了網(wǎng)絡(luò)的輕量化,但檢測精度稍微降低。熊俊濤等[14]提出一種基于YOLOv5-Lite的自然環(huán)境木瓜成熟度檢測方法,采用Mobilenetv3作為主干特征提取網(wǎng)絡(luò)替換原來的CSPDarknet53,通過將3個具有相同的初步有效特征層進(jìn)行對應(yīng)替換,從而減少參數(shù)量,但存在檢測速度降低的局限性?;萸删甑龋?5]提出基于多尺度特征度量元學(xué)習(xí)的玉米葉片病害識別模型,通過VGG16和Swin Transformer網(wǎng)絡(luò)提取全局和局部特征,利用多尺度特征融合網(wǎng)絡(luò)實現(xiàn)全局和局部特征的深度融合,強(qiáng)化特征分類能力,最終總體檢測精度在Plant Village數(shù)據(jù)集和自建數(shù)據(jù)集上分別提升3.05%和3.28%,但識別速度方面沒有改進(jìn)。
綜上所述,基于深度學(xué)習(xí)的目標(biāo)檢測在農(nóng)業(yè)中的分類任務(wù)已經(jīng)取得了較為理想的效果。然而,目前基于深度學(xué)習(xí)模型的瓜蔞識別與檢測研究較少,并且其他檢測模型還存在檢測精度低、模型參數(shù)量大等問題。因此,本文通過改進(jìn)YOLOv5算法對檢測精度和模型輕量化進(jìn)行研究,有效解決了瓜蔞在實際分級中精確度和輕量化難以平衡的問題。通過獲取種植基地的瓜蔞圖像,采用改進(jìn)的YOLOv5-GCB深度學(xué)習(xí)算法對瓜蔞進(jìn)行等級檢測,進(jìn)而為農(nóng)業(yè)生產(chǎn)中瓜蔞的選擇性采收提供精確的視覺檢測技術(shù)支持。
1 數(shù)據(jù)集
本文使用的瓜蔞圖像數(shù)據(jù)來自種植基地購買的全瓜蔞,參考團(tuán)體標(biāo)準(zhǔn)T/CACM 1021.152—2018[16]將瓜蔞分為一等品、二等品、三等品以及四等品,數(shù)據(jù)集部分可視化樣本如圖1所示。
使用一臺IphoneXs Max手機(jī)的后置攝像頭在固定光源下,距離瓜蔞目標(biāo)13 cm處拍攝。為充分模擬自然條件下瓜蔞的位姿,拍攝角度環(huán)視整個瓜蔞,充分采集到正面、底面、側(cè)面的瓜蔞圖像,共獲得1 300張圖片。隨機(jī)選取原圖像數(shù)據(jù)分別進(jìn)行水平、垂直翻轉(zhuǎn)等操作,從而將數(shù)據(jù)集增加到2 643張。通過人工篩選去除圖像質(zhì)量較差的樣本之后,最終的圖片數(shù)量為2 200張。數(shù)據(jù)集統(tǒng)一采用LabelImg工具的矩形框標(biāo)注法進(jìn)行標(biāo)注,并按照8∶1∶1的比例劃分為訓(xùn)練集、驗證集和測試集。
2 相關(guān)技術(shù)和理論
根據(jù)不同的網(wǎng)絡(luò)深度和特征圖的寬度,YOLOv5可以分為四種模型:YOLOv5s,YOLOv5m,YOLOv5l和YOLOv5x。在MSCOCO測試數(shù)據(jù)集上研究并獲得這些模型的性能,如表1所示。
從性能對比可以得出結(jié)論,在這些版本中,YOLOv5s的處理速度最快,YOLOv5x的檢測精度最高。具體來說,這四個模型具有相同的網(wǎng)絡(luò)結(jié)構(gòu),由輸入、骨干網(wǎng)絡(luò)、頸部和檢測頭4個部分組成。YOLOv5s的結(jié)構(gòu)如圖2所示。
Input包括Mosaic數(shù)據(jù)增強(qiáng)、圖像尺寸處理和自適應(yīng)Anchor計算。Mosaic數(shù)據(jù)增強(qiáng)是一種創(chuàng)新的數(shù)據(jù)增強(qiáng)技術(shù),通過隨機(jī)組合和分布4個圖像來增加數(shù)據(jù)集中目標(biāo)的多樣性,該方法能夠增強(qiáng)網(wǎng)絡(luò)的魯棒性并減少計算資源的消耗。圖像尺寸處理可以自適應(yīng)地為不同長度和寬度的原始圖像添加最小黑色邊框,并將它們統(tǒng)一縮放到標(biāo)準(zhǔn)大小,可以在模型推理過程中減少冗余信息,提升推理速度。自適應(yīng)錨框計算將輸出預(yù)測框與基于初始錨框的實框進(jìn)行對比,計算差距然后反向更新,不斷迭代參數(shù)以獲得最優(yōu)的錨框值。
Backbone主要由Focus、Conv、C3、空間金字塔池化(Spatial Pyramid Pooling,SPP)等模塊組成。Focus模塊將輸入數(shù)據(jù)分成4個部分,每個部分相當(dāng)于兩個下采樣。這4段數(shù)據(jù)在通道維度上拼接,然后通過卷積操作得到特征圖。Focus模塊可以在丟失較少信息的情況下,同時完成下采樣,并且還通過reshape減少FLOPs,加快網(wǎng)絡(luò)推理速度。Conv是復(fù)合卷積模塊,主要作用為依次對輸入執(zhí)行二維卷積、正則化和激活操作。
C3模塊是由若干個瓶頸殘差結(jié)構(gòu)模塊構(gòu)成的。在殘差結(jié)構(gòu)模塊中,輸入數(shù)據(jù)首先通過兩個卷積層進(jìn)行處理,然后將處理后的結(jié)果與原始輸入進(jìn)行concat操作,在不增加輸出深度的情況下完成特征傳遞。此外,空間金字塔池化模塊(SPP模塊)通過執(zhí)行不同內(nèi)核大小的最大池化操作,以實現(xiàn)特征的融合[17]。在頸部網(wǎng)絡(luò)中,使用特征金字塔網(wǎng)絡(luò)(FPN)和路徑聚合網(wǎng)絡(luò)(PAN)的結(jié)構(gòu)。FPN結(jié)構(gòu)自上而下將高層特征圖傳遞到底層的特征圖,而PAN結(jié)構(gòu)則在FPN后面添加一個自下而上的金字塔。這兩種結(jié)構(gòu)共同增強(qiáng)了頸部網(wǎng)絡(luò)的特征融合能力。Head部分根據(jù)特征融合網(wǎng)絡(luò)的輸出進(jìn)行多尺度預(yù)測。然后,通過非極大值抑制(NMS)算法過濾掉與其他預(yù)測框高度重疊的預(yù)測框,最終生成預(yù)測結(jié)果。
3 YOLOv5-GCB網(wǎng)絡(luò)架構(gòu)
3.1 Ghost模塊輕量化
在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中,通常增加卷積層數(shù)量可以提取更多的特征,同時也帶來一些挑戰(zhàn)。更多的卷積層會導(dǎo)致參數(shù)量和計算量的增加,這會導(dǎo)致龐大且復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),因此在計算能力和存儲空間有限的設(shè)備上部署會非常困難。本文利用Ghost卷積代替?zhèn)鹘y(tǒng)卷積,顯著降低模型的參數(shù)量并縮短模型的推理時間,從而提升模型的效率。Ghost卷積是GhostNet[18]中提出的一個創(chuàng)新模塊,主要優(yōu)點是能夠在保持特征圖數(shù)量的同時,減少參數(shù)和計算量。圖3為普通卷積和Ghost卷積之間的比較。
原始的Ghost模塊由兩部分組成,分別為精簡卷積和輕量級線性變換操作。精簡卷積將普通卷積操作的卷積核數(shù)量壓縮為原來的一半,從而可以減少一半的計算量。輕量級線性變換是對第一步操作所提取出的特征圖逐個進(jìn)行卷積核為3或5的卷積。最后將以上兩步操作所得到的特征圖進(jìn)行拼接來生成最終的特征圖,得到與普通卷積相當(dāng)?shù)奶卣鲌D,能夠在降低影響網(wǎng)絡(luò)提取特征性能的同時減少參數(shù)量。
假設(shè)輸入特征圖的大小為h×w×c,輸出特征圖的大小為h′×w′×n,卷積核的大小為k×k,h和w是輸入特征圖的高度和寬度,h′和w′分別是輸出要素映射的高度和寬度。在這個普通卷積過程中,所需的FLOP數(shù)量計算如式(1)所示。
3.2 CA注意力模塊
CA注意力機(jī)制模塊包括坐標(biāo)信息嵌入以及坐標(biāo)注意力生成兩部分,其結(jié)構(gòu)如圖4所示。
在瓜蔞質(zhì)量分級過程中,由于破損、病害等缺陷在圖像中所占像素比例較小,瓜蔞圖像經(jīng)過卷積操作后,容易出現(xiàn)目標(biāo)漏檢的情況。為了提升網(wǎng)絡(luò)在復(fù)雜場景下對目標(biāo)的檢測能力,同時加強(qiáng)網(wǎng)絡(luò)對有效信息的關(guān)注,本文在YOLOv5網(wǎng)絡(luò)中引入一種新型的注意力機(jī)制(Coordinate Attention, CA)。與普通的注意力機(jī)制不同,CA模塊是簡單高效的注意力機(jī)制,不僅計算不同通道之間的相關(guān)性,還考慮了特征圖的空間位置信息,這使得網(wǎng)絡(luò)能夠?qū)W⒂陉P(guān)鍵信息,同時忽略無關(guān)信息。
不同于常規(guī)的注意力機(jī)制,CA注意力機(jī)制將全局池化分解成兩個一維特征編碼操作,從而讓網(wǎng)絡(luò)能精準(zhǔn)獲取位置信息。
坐標(biāo)信息嵌入階段,對輸入尺寸為C×H×W的特征圖,分別沿著X和Y方向?qū)γ總€通道進(jìn)行池化操作,池化核尺寸分別為(H,1)和(1,W),得到第c個通道高度為H的輸出特征圖zhc(h),如式(3)所示。同樣,可以得到寬度為W的第c通道的輸出特征圖zwc(w),如式(4)所示。在沿著兩個空間方向進(jìn)行特征聚合后,可以得到一對具有方向感知的特征圖。這兩種轉(zhuǎn)換使得注意力模塊能夠捕獲一個空間方向上的長期依賴關(guān)系,同時保留另一個空間方向上的精確位置信息,這有助于網(wǎng)絡(luò)精確定位感興趣的目標(biāo)。
3.3 多尺度特征融合網(wǎng)絡(luò)
受限于待檢測目標(biāo)大小與位姿不同,如何更有效地處理興趣目標(biāo)的類別與位置仍是目標(biāo)檢測的難題。原始YOLOv5算法中采用的特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)[18](FPN),如圖5(a)所示,這種結(jié)構(gòu)通過自上而下的方式融合了不同層次的特征,從而實現(xiàn)了對圖像的淺層位置信息和深層語義信息的同時處理。然而,這種結(jié)構(gòu)會受到單向信息流的影響。為解決這一問題,研究者們提出了路徑聚合網(wǎng)絡(luò)(PAN)[20]結(jié)構(gòu),如圖5(b)所示。
這種結(jié)構(gòu)在FPN的基礎(chǔ)上增加了一個反向的信息流通道,將底層的圖像信息傳遞到預(yù)測特征層,從而使得預(yù)測層能同時處理高層的語義信息和底層的位置信息。但是,PAN結(jié)構(gòu)在特征融合過程中可能會出現(xiàn)信息不足的情況,導(dǎo)致信息的丟失,這嚴(yán)重影響了輸出特征的質(zhì)量。
為了解決上述問題,本文采用一種更加高效的BiFPN[21]特征融合結(jié)構(gòu),如圖5(c)所示。BiFPN結(jié)構(gòu)是以PAN為基礎(chǔ),刪除了無特征融合的節(jié)點,并在同一特征層的輸入節(jié)點和輸出節(jié)點之間添加了跳躍連接,從而在節(jié)省資源消耗的同時融合了更豐富的特征信息。BiFPN結(jié)構(gòu)采用權(quán)值與其總和的比例進(jìn)行快速歸一化融合,從而提高對不同場景下目標(biāo)的感知能力。在預(yù)測端,能夠有效地融合不同層級間的特征圖信息,解決特征融合不充分的問題。改進(jìn)后的YOLOv5-GCB網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
4 試驗結(jié)果與分析
4.1 試驗環(huán)境
本文采用的訓(xùn)練平臺硬件:Intel(R)Core(R)i7 127700F CPU @2.10 GHz 16G,GPU是GeForceRTX 3060 Ti;深度學(xué)習(xí)框架選用Pytorch;編程語言為Python;CUDA及GPU加速庫Cudnn的版本為11.0和7.6.5。
對于YOLOv5-GCB模型,訓(xùn)練過程中設(shè)置Batchsize為16,初始學(xué)習(xí)率設(shè)置為0.001,動量參數(shù)設(shè)置為0.937,采用SGD優(yōu)化器進(jìn)行優(yōu)化,使用Focal_loss進(jìn)行平衡正負(fù)樣本,正負(fù)樣本平衡參數(shù)設(shè)置為0.25。
由圖7可知,改進(jìn)前網(wǎng)絡(luò)在75輪迅速收斂并趨于穩(wěn)定,改進(jìn)后網(wǎng)絡(luò)在50輪就迅速收斂并達(dá)到穩(wěn)定,并且兩種網(wǎng)絡(luò)都達(dá)到了很高的平均精度,改進(jìn)后的網(wǎng)絡(luò)較原始網(wǎng)絡(luò)有了較大提高。
4.4 消融試驗
為了進(jìn)一步驗證各個改進(jìn)模塊的作用和有效性[22],本文設(shè)置了消融試驗,其結(jié)果如表2所示。由表2可知,不同的模塊加入對于模型來說均有積極影響。與原始YOLOv5相比,添加Ghost模塊模型的FLOPs以及模型重量分別減少了25%和23%,而mAP與Recall分別降低0.5%和2.7%。在Ghost模塊的基礎(chǔ)上加入CA注意力模塊可以使mAP與Recall分別提高了2.7%和4.1%。多尺度特征融合的改進(jìn)可以使整體平均精度提高1.9%,模型參數(shù)量少量增加。由此可知,改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)可以有效提高瓜蔞分級檢測的準(zhǔn)確性,并且顯著降低了模型的參數(shù)量。
4.5 對比試驗
為了更加客觀地評價改進(jìn)的YOLOv5模型在瓜蔞分級檢測中的效果,本文將改進(jìn)后的YOLOv5模型與其他主流算法進(jìn)行了對比,包括YOLOv7、YOLOv6、原YOLOv5、YOLOv3、YOLOv4、Faster R-CNN、SSD[23]。試驗過程遵循控制變量原則,試驗軟硬件環(huán)境保持一致。評價指標(biāo)采用精確率(Precision)、召回率(Recall)、F1-Score值以及mAP值作為參考指標(biāo)。試驗結(jié)果如表3所示。
對比表3中數(shù)據(jù)可知,YOLOv5-GCB網(wǎng)絡(luò)相較于原始的YOLOv5準(zhǔn)確率和召回率方面提升了4.6%和3.9%,分別達(dá)到了95.8%和94.2%,并且在常用的檢測模型中該網(wǎng)絡(luò)的精度也是最高的,平均檢測精度達(dá)到了95.3%,滿足瓜蔞檢測對精度的要求。與其他模型比較,改進(jìn)模型的平均精度相較于Faster R-CNN、SSD、YOLOv3、YOLOv4、YOLOv5、YOLOv6、YOLOv7分別高出10.1%、20.1%、9.2%、7.9%、4%、2.8%和0.7%,檢測速度除了略慢于SSD均領(lǐng)先其他模型;證明了改進(jìn)模型在滿足檢測實時性要求的同時具有很高的檢測準(zhǔn)確率。
為驗證本文算法的有效性,將本文改進(jìn)目標(biāo)檢測算法與目前主流目標(biāo)檢測算法檢測結(jié)果進(jìn)行了可視化展示,如圖8所示。本文算法檢測框和目標(biāo)貼合得更為緊密,置信度更高,同時分級檢測精度更高。
為了更有效地驗證CA注意力模塊對網(wǎng)絡(luò)性能的提升,本文使用Grad-CAM對網(wǎng)絡(luò)關(guān)注信息進(jìn)行可視化效果對比。將兩種網(wǎng)絡(luò)輸入Grad-CAM測試后,YOLOv5與加入CA注意力機(jī)制前后的熱力圖對比如圖9所示。
由圖9可知,引入CA注意力機(jī)制后,可以使網(wǎng)絡(luò)更有效地提取瓜蔞缺陷的全局特征信息,使網(wǎng)絡(luò)對目標(biāo)位置的捕捉更為精確。此外,該機(jī)制還能夠減少網(wǎng)絡(luò)對無關(guān)信息的關(guān)注,提高網(wǎng)絡(luò)的檢測精度。
5 結(jié)論
1) 本文模型的主干網(wǎng)絡(luò)通過Ghost模塊代替?zhèn)鹘y(tǒng)卷積網(wǎng)絡(luò)的方式獲取冗余特征圖,顯著降低參數(shù)量。
在特征提取主干網(wǎng)絡(luò)和推理層之間嵌入CA注意力機(jī)制模塊,同時獲取跨通道間特征信息和位置信息,增強(qiáng)網(wǎng)絡(luò)精確定位目標(biāo)的能力。
將Neck層中原有的PAN結(jié)構(gòu)修改為BiFPN結(jié)構(gòu),優(yōu)化信息流融合渠道,提升模型的檢測效果。
2) 通過對比試驗可知,改進(jìn)后的模型相較于原始算法,檢測速度達(dá)31.5 fps,在保證檢測速度的同時平均準(zhǔn)確率達(dá)到95.3%,能夠滿足瓜蔞分級檢測的要求。
未來將本文所提算法部署到嵌入式設(shè)備中,并且通過嵌入式設(shè)備與硬件系統(tǒng)的通信達(dá)到瓜蔞自動分級場景的實現(xiàn)。同時,將繼續(xù)擴(kuò)大不同等級瓜蔞的數(shù)據(jù)集中的種類和數(shù)量,提高瓜蔞自動分級算法的可信度。
參 考 文 獻(xiàn)
[1] 柴欣, 朱霖, 戚愛棣, 等. 栝樓屬植物化學(xué)成分研究進(jìn)展[J]. 遼寧中醫(yī)藥大學(xué)學(xué)報, 2013, 15(1): 66-70.
Chai Xin, Zhu Lin, Qi Aidi, et al. Research progress in the chemical constituents of trichosanthes L [J]. Journal of Liaoning University of Traditional Chinese Medicine, 2013, 15(1): 66-70.
[2] 郭書巧, 束紅梅, 何曉蘭, 等. 江蘇省栝樓產(chǎn)業(yè)發(fā)展現(xiàn)狀及對策[J]. 中國瓜菜, 2019, 32(12): 84-87.
[3] Bochkovskiy A, Wang C Y, Liao H Y M. Yolov4: Optimal speed and accuracy of object detection [J]. arXiv, 2020: 10934.
[4] Girshick R. Fast r-cnn [C]. Proceedings of the IEEE/International Conference on Computer Vision, 2015: 1440-1448.
[5] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks [J]. IEEE/Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[6] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 779-788.
[7] Redmon J, Farhadi A. YOLO9000: Better, faster, stronger [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 7263-7271.
[8] Redmon J, Farhadi A. YOLOv3: An incremental improvement [J]. ArXiv Preprint ArXiv: 1804.02767, 2018.
[9] Bochkovskiy A, Wang C, Liao H M. YOLOv4: Optimal speed and accuracy of object detection [J]. ArXiv Preprint ArXiv: 2004.10934, 2020.
[10] 聶衍文, 楊佳晨, 文慧心, 等. 基于機(jī)器視覺的輕量化芒果果面缺陷檢測[J]. 食品與機(jī)械, 2023, 39(3): 91-95, 240.
Nie Yanwen, Yang Jiachen, Wen Huixin, et al. Light weight detection of mango surface defects based on machine vision [J]. Food amp; Machinery, 2023, 39(3): 91-95, 240.
[11] Habaragamuwa H, Ogawa Y, Suzuki T, et al. Detecting greenhouse strawberries (mature and immature), using deep convolutional neural network [J]. Engineering in Agriculture, Environment and Food, 2018, 11(3): 127-138.
[12] Nasiri A, Taheri-Garavand A, Zhang Y. Image-based deep learning automated sorting of date fruit [J]. Postharvest Biology and Technology, 2019, 153: 133-141.
[13] 張立杰, 周舒驊, 李娜, 等. 基于改進(jìn)SSD卷積神經(jīng)網(wǎng)絡(luò)的蘋果定位與分級方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報, 2023, 54(6): 223-232.
Zhang Lijie, Zhou Shuhua, Li Na, et al. Apple location and classification based on improved SSD convolutional neural network [J]. Transactions of the Chinese Society for Agricultural Machinery, 2023, 54(6): 223-232.
[14] 熊俊濤, 韓詠林, 王瀟, 等. 基于YOLOv5-Lite的自然環(huán)境木瓜成熟度檢測方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報, 2023, 54(6): 243-252.
Xiong Juntao, Han Yonglin, Wang Xiao, et al. Method of maturity detection for papaya fruits in natural environment based on YOLOv5-Lite [J]. Transactions of the Chinese Society for Agricultural Machinery, 2023, 54(6): 243-252.
[15] 惠巧娟, 孫婕. 基于多尺度特征度量元學(xué)習(xí)的玉米葉片病害識別模型研究[J]. 江蘇農(nóng)業(yè)科學(xué), 2023, 51(9): 199-206.
Hui Qiaojuan, Sun Jie. Study on maize leaf disease recognition model based on multi-scale feature metric meta-learning [J]. Jiangsu Agricultural Sciences, 2023, 51(9): 199-206.
[16] T/CACM 1021.152—2018, 中藥材商品規(guī)格等級—瓜蔞[S].
[17] He K, Zhang X, Ren S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition [J]. IEEE/Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.
[18] Han K, Wang Y, Tian Q, et al. GhostNet: More features from cheap operations [C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 1580-1589.
[19] Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 2117-2125.
[20] Liu S, Qi L, Qin H, et al. Path aggregation network for instance segmentation [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 8759-8768.
[21] Tan M, Pang R, Le Q V. EfficientDet: Scalable and efficient object detection [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 10781-10790.
[22] Zou Y, Zhao L, Kang Y, et al. Topic-oriented spoken dialogue summarization for customer service with saliency-aware topic modeling [C]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(16): 14665-14673.
[23] Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector [J]. International Journal of Engineering Intelligent Systems for Electrical Engineering and Communications, 2016, 14(3): 21-37.