王瑩 李越 武婷婷 孫石 王敏娟













摘要:為快速準確計數大豆籽粒,提高大豆考種速度和育種水平,本研究提出了一種基于密度估計和 VGG-Two (VGG-T)的大豆籽粒計數方法。首先針對大豆籽粒計數領域可用圖像數據集缺乏的問題,提出了基于數字圖像處理技術的預標注和人工修正標注相結合的快速目標點標注方法,加快建立帶標注的公開可用大豆籽粒圖像數據集。其次構建了適用于籽粒圖像數據集的VGG-T 網絡計數模型,該模型基于VGG16,結合密度估計方法,實現從單一視角大豆籽粒圖像中準確計數籽粒。最后采用自制的大豆籽粒數據集對 VGG-T 模型進行測試,分別對有無數據增強的計數準確性、不同網絡的計數性能以及不同測試集的計數準確性進行了對比試驗。試驗結果表明,快速目標點標注方法標注37,563個大豆籽粒只需花費197 min ,比普通人工標注節約了1592 min ,減少約96%的人工工作量,大幅降低時間成本和人工成本;采用VGG-T 模型計數,其評估指標在原圖和補丁(patch)情況下的平均絕對誤差分別為0.6和0.2,均方誤差為0.6和0.3,準確性高于傳統圖像形態學操作以及ResNet18、ResNet18-T 和VGG16網絡。在包含不同密度大豆籽粒的測試集中,誤差波動較小,仍具有優良的計數性能,同時與人工計數和數粒儀相比,計數11,350個大豆籽粒分別節省大約2.493h和0.203h ,實現大豆籽粒的快速計數任務。
關鍵詞:卷積神經網絡;籽粒計數;籽粒圖像;點標注;密度圖; VGG-Two;育種
中圖分類號: TP391.4;TP183文獻標志碼: A文章編號:202101-SA002
引用格式:王瑩, 李越, 武婷婷, 孫石, 王敏娟. 基于密度估計和VGG-Two的大豆籽粒快速計數方法[J].智慧農業(中英文), 2021, 3(4):111-122.
WANG Ying, LI Yue, WU Tingting, SUN Shi, WANG Minjuan. Fast counting method of soybean seeds based on density estimation and VGG-Two[J]. Smart Agriculture, 2021, 3(4):111-122.(in Chinese with English abstract)
1? 引言
據最新統計數據顯示,2019年中國大豆需求量 1.1億噸,而國內大豆產量僅1810萬噸,約有9500萬噸的產量缺口需通過國際市場彌補[1]。解決大豆產量不足問題的主要方法是提升大豆育種水平。目前阻礙育種研究加速的原因之一是無法大規模高通量獲取大豆表型性狀[2,3]。百粒重是大豆重要的產量性狀,而測量百粒重的前提就是計算籽粒數量。快速精確的大豆籽粒計數能加快考種速度,促進大豆育種研究,進而提升大豆育種水平,對提升大豆產量具有非常重要的意義。
在早期階段,常用的籽粒計數方法是人工籽粒計數,但此操作耗時耗力。同時,肉眼的判斷具有很大的偶然性和主觀性,長時間計數后不可避免會產生誤差,導致計數不準確[4]。相比人工計數,光電種子數粒儀可輕松避免由于偶然性和主觀性產生的誤差,結構簡單、操作方便,對種子無破壞作用;還能起到“一機多用”的功能。隨著研究的深入,光電種子數粒計數誤差越來越小,但其普遍存在的不足之處在于價格昂貴,計數速度慢,不利于大規模農業生產自動化的發展[5]。隨著計算機技術的發展和圖像信息的普遍化,機器視覺逐漸被科研人員應用到大豆籽粒計數領域,如利用腐蝕膨脹法、分水嶺算法[4,6]、特征點匹配[7]等基于數字圖像處理技術的方法實現籽粒識別和計數。榮斐[6]針對多種子相互粘連的情況,對圖像處理方法進行研究,運用腐蝕膨脹法、面積分配法和分水嶺算法,實現對黑豆的分割和快速計數。周洪壘[4]使用距離變換與分水嶺相結合的算法實現粘連區域的分割,提出劃線分割算法,并加入多線程以實現算法處理速度的提升。Liu等[8]確定了圖像特征點與谷粒數之間的關系,探索了圖像特征點的測量方法,并將其與現有的計數方法進行了相似性和差異性的比較,誤差率均低于2%。Tan 等[9]提出了雜交水稻粘連籽粒的精確分割和計數算法,該算法根據分水嶺分割算法、改進的角點算法和BP 神經網絡(Back Propagation Neural Network)分類算法分離和計算粘連谷粒數,與人工計數結果相比,所提方法平均準確率為94.63%。基于傳統數字圖像處理的籽粒計數方法與人工計數和光電種子數粒儀相比,其計數速度確實有所提升,計數精度也有一定提高,但該類方法需要專業知識和手動提取圖像特征,具有復雜的調參過程,同時每個方法都針對具體應用,其泛化能力及魯棒性較差[10]。
隨著卷積神經網絡(Convolutional Neural Networks ,CNN)模型[11]在諸多領域取得非常成功的應用[12-14],深度學習技術[15]也得到農業領域研究人員的認可。與傳統數字圖像處理技術相比,CNN 模型的優勢是自動學習和提取有用特征,實現自動化和智能化計數。雖然 CNN 在大豆籽粒計數領域研究和應用相對較少,但在其他目標計數[16]方面有相關研究,如 Pound 等[17]建立了一個名為 ACID (Annotated Crop ImageDataset)的新數據集,提出了一種可以準確定位小麥尖峰和小穗同時準確分類和計數的多任務深度學習方法。Deng等[18]建立并測試了基于具有特征金字塔網絡(Feature Pyramid Networks,FPN)的Faster R-CNN高精度谷物檢測模型,用于自動檢測和計數每穗粒數,與人工計數谷粒的結果相比,該模型的平均準確率達到99.4%且檢測性能不受品種和水分條件的影響。Wu等[19]開發了線性回歸模型和深度學習模型來計算每穗粒數,其計數準確率分別大于96%和 99%。Wu等[20]采用深度學習方法解決傳統圖像處理算法的局限性,通過構建基于區域的Faster R-CNN模型并運用遷移學習方法,優化了小麥籽粒檢測和計數模型,其平均精度為0.91。翟強等[21]利用具有不同尺寸感受野的 CNN 和特征注意模塊自適應提取多尺度人群特征,結合密度估計方法實現人群計數。
基于 CNN 的目標計數的實現為大豆籽粒計數提供了新思路。基于圖像的目標計數方法可歸納為兩大類[22]:一是基于檢測的方法;二是基于回歸的方法,其中包括直接回歸和密度圖回歸。由于大豆籽粒圖像密度不一、籽粒小,基于小目標檢測的方法需要訓練檢測器來捕獲信息,通過檢測器檢測目標并計算其數量,但是訓練檢測器比較復雜,計算量較大[23]。與此同時在深度 CNN 架構中經過多次下采樣后,深層的特征圖將會丟失空間信息。而且基于直接回歸進行計數的缺點是沒有精確的定位,但基于密度回歸的方法跳過了艱巨的識別和分類任務,直接生成密度圖,學習圖像的局部特征和其相應的密度圖之間的映射,再根據密度圖積分得到目標計數[24]。因此本研究將密度估計和 CNN 相結合,根據籽粒特征構建 VGG-Two (VGG-T)模型,進而實現從單一視覺大豆籽粒圖像中快速準確識別大豆籽粒數。
2? 數據集構建
大規模標注數據的可用性是深度學習在計算機視覺領域取得成功的原因之一。比較成功的神經網絡需要大量參數,參數的正確工作需要大量數據進行訓練,然而目前缺少公開可用帶標注的大豆籽粒數據集。因此本研究首先采集并建立了適用于CNN的大豆籽粒圖像數據集。
2.1 數據采集
選擇種植于中國農業科學院作物科學研究所北京順義基地的大豆樣本。基地大棚示意圖如圖1所示,其中種植區種植各品種大豆。隨機選取5個種植區域內的小部分區域(如圖1 深藍色區域)的大豆植株,品種為“中黃39”,接著進行收割、摘莢、人工清除污垢等操作,后續在2號大棚的圖像采集區(如圖1黃色區域)進行數字成像。
將脫粒大豆種子隨機平鋪在一塊黑色吸光背景布上,保證種子不重疊,盡量避免相互接觸。在白天、具有漫反射自然照明條件下的植物工廠中,使用相機(SONY ILCE-5000型號,光圈 f/4,焦距16 mm ,曝光時間1/60 s ,閃光燈模式為強制無閃光)采集原始大豆種子圖像。采集時,將相機放置于平鋪種子的正上方,距離種子30~50 cm 。圖2為大豆籽粒圖像的采集裝置和經過調節圖像對比度、亮度和尺寸大小等預處理步驟后的原始圖像。
2.2 數據標注
2.2.1?? 大豆籽粒預標注
圖3是大豆籽粒預標注流程圖。為方便后續環節的處理,運用圖像預處理來調節采集的籽粒圖像的對比度、亮度、尺寸。針對籽粒圖像特點,利用轉灰度、求閾值等一系列圖像分析算法進行目標區域提取。為避免錯誤標注和減少后期人工修正標注的工作量,補充設計了刪除大面積粘連籽粒預標注的處理。最后,定位部分籽粒并獲取這些籽粒質心坐標。
將預處理后的 RGB籽粒圖像 I 轉成灰度圖GI ,使用灰度閾值函數計算出全局閾值t ∈[ 0,1],其中灰度閾值函數使用最大類間方差法(OTSU)。二值化操作是將大于閾值 t的各像素賦值為1 (白色),為目標區域,其余像素賦值為0(黑色),為背景區域。
為去除籽粒內部的黑色噪聲,對二值圖像進行刪除小面積處理。如圖4(a)紅框標注所示。種子內部有黑色區域,會影響后續對籽粒的識別和標記,需將籽粒內部全部像素置為1 。這里設定面積閾值 T1,將小于 T1的區域像素全部置為1 ,如圖4(b)所示。
刪除小面積操作之后的二值圖像中有部分籽粒粘連,如圖5(a)紅色框顯示,若直接對其進行質心預標注,會出現錯標和漏標兩個問題,如圖 6(a)。為盡量減少后期人工修正標注的工作量,利用刪除粘連籽粒預標注結果的方法來避免錯標問題。圖6 (b)是刪除預標注之后的示意圖,只出現漏標情況。這里首先進行形態學腐蝕操作,分離粘連籽粒,如圖5(b)紅框所示,但存在小部分粘連程度較大的籽粒仍無法分離,如圖5(b)綠框所示。為減少后續人工修正錯誤標注的工作量,進行刪除大面積的粘連籽粒預標注處理,其中設置了兩個面積閾值 T2,分別是190和 300。通過對比質心標注效果,圖7 (a)為 T2=300時的標注示意圖,出現了錯標和漏標兩個問題;圖 7(b)為 T2=190時的標注示意圖,只出現了漏標情況,因此將面積閾值參數 T2設置為190。
2.2.2? 大豆籽粒標注系統
為實現快速、準確、低成本的點標注,利用MATLAB R2017b 構建“脫粒種子標注系統V1.0”(簡稱“標注系統”),其中包括文件管理單元和標注單元兩部分。標注系統功能結構如圖8所示。文件管理單元用于載入、清空圖像,圖像中種子所在位置坐標信息的顯示和存儲等,包括圖像載入、參數顯示、數據存儲以及圖像清空功能。標注單元分成兩種標注方式:一種是普通的人工標注,即直接在載入的圖像上逐一標注種子;另一種是基于傳統數字圖像處理技術的“預標注+人工修正”的標注方式,首先在 MAT‐LAB 中調用imerode()函數通過形態學腐蝕操作處理二值化圖像,對原始圖像進行初步的籽粒識別和定位,詳情見1.2.1 ,然后在此基礎上進行人工補充標注,該方法對37,563個大豆籽粒進行標注時只需要使用197 min ,與人工標注相比節約了 1592 min ,減少了約96%的人工工作量,大大降低標注時間成本和人力成本。
該標注系統的用戶界面如圖9所示。點擊圖9(a)中“預標記”按鈕,紅色星號預標記圖形將直接顯示在大豆籽粒上,從圖中可以看出,預標記并沒有把所有的籽粒全部標記成功,有部分籽粒被漏標,此時需要人工補充標注。點擊圖9 (b)中“人工修正”按鈕,此時左邊區域籽粒圖像中紅色星號標記被清空,右邊區域不變,人工參照右邊區域的圖像預標記情況,通過操作鼠標在左邊區域的圖像上對沒有標記到的籽粒進行補充標注,如圖9 (b),人工修正利用綠色星號進行標注。標注完成后,點擊菜單欄里的“保存”按鈕,標注的籽粒坐標被保存為*. mat 文件。
2.3 數據增強
為在原始圖像數量有限的情況下盡可能多的增加輸入圖像的數量,考慮在每一張原始圖像的不同位置裁剪出9個補丁(patch),patch的大小設定為原始圖像大小的四分之一。設置用于訓練和驗證網絡的圖像數量為239張,則 patch 數量為2151個,遠遠大于原始圖像的數量。在第4節試驗部分,分別用有無數據增強的數據集對模型進行訓練,并進行估測性能的對比,驗證了使用數據增強的重要性和必要性。
2.4 數據集建立
按照6:1:3的比例,設置訓練集、驗證集和測試集圖像數。大豆籽粒圖像的訓練集包含206張,共22,582個標記種子;驗證集包含33張,共3631個標記種子;測試集包含103張,共11,350個標記種子。經過數據增強,用于訓練和驗證網絡的輸入數量擴充為2151個patch 。表1 為該數據集的詳細信息。
3? 研究方法
3.1 基于密度圖的籽粒計數
與基于檢測的方法相比較,基于密度圖的方法不用進行分類、預選框的回歸訓練以及目標分割操作,只需要訓練網絡,將特征圖映射成密度圖即可,然后直接根據密度圖積分計算輸入圖像的籽粒數。
3.2 真值密度圖
為實現網絡模型從輸入種子圖像中估測其種子密度圖,前期需要對 VGG-T 網絡進行訓練。訓練網絡需要提供高質量的訓練數據集,基于密度圖估計的人群計數通常使用高斯核將標注點生成真值密度圖,以真值密度圖為監督信號,通過網絡生成的密度圖計數求和來實現計數,以及計算損失。因此本節所用的數據集除2.4小節描述的種子圖像外,還包括每張種子圖像對應的真值密度圖。
將高斯核與種子中心標注點進行卷積操作,可以生成種子圖像對應的真值密度圖。
Dgt? = G σ(x - xi)??????????????? (1)
其中,xi 表示種子的中心位置; x 表示輸入圖像中各像素的位置; N表示該圖像包含的種子個數,個; G σ是高斯核,σ為擴散參數,值由圖像中種子的大小來確定。由于種子相對稀疏并且同一品種的種子大小相差很小,因此在高斯核中使用相同的擴展參數來生成真值密度圖。種子圖像的真值密度圖如圖10所示。
3.3 VGG-T 網絡架構
由于密度回歸法多用于人群計數[25],且許多工作均采用 VGG16為主干[26-28],以在許多測試數據集上獲得良好的性能。根據在不同數據集上的良好表現,本研究同樣以VGG16作為基礎網絡。近期的目標計數方法大多使用主干卷積神經網絡的最后一層生成估測密度圖。然而由于最后一層卷積層只有單一尺度,同時由于多層池化操作,使得最后一層的分辨率大大降低,不利于生成高精度的密度圖,因此這種網絡不能實現準確的估測目標數量。為了更好地檢測小物體,本研究結合了卷積神經網絡淺層和深層的特征,以獲得必要的空間和語義信息。
本研究設計的 VGG-T 網絡擁有以下特性:在 Conv4_3之后分支了2個特征數據流,第一個數據流直接生成第一個密度圖,第二個數據流經過Conv5_3之后,生成第二個密度圖,將兩個密度圖進行融合得到最終的估測密度圖。圖11給出了VGG-T的架構圖。
該網絡的主干網絡為 VGG16。主要特征提取步驟為:(1)用64個3×3、步幅為1 的濾波器構建的兩個卷積層(Conv1_1 , Conv1_2)對輸入圖像進行卷積,輸出特征圖的大小保持不變,通道數量為64;然后用2×2、步幅為2 的濾波器構建最大池化層(Pool1),池化層將輸入特征圖進行壓縮,輸出大小是輸入大小的1/2,通道數為64;(2)用128個3×3、步幅為1 的濾波器構建兩個卷積層(Conv2_1 , Conv2_2),輸出特征圖的大小保持不變,通道數量為128;然后用2×2、步幅為2 的濾波器構建最大池化層(Pool2),池化層將輸入特征圖進行壓縮,輸出大小是輸入大小的1/2,即是原始輸入圖像的1/4,通道數為128;(3)用256個3×3、步幅為? 1的濾波器構建的三個卷積層(Conv3_1, Conv3_2,Conv3_3)對輸入圖像進行卷積,輸出特征圖的大小保持不變,通道數量為256;然后用2×2、步幅為2 的濾波器構建最大池化層(Pool3),池化層將輸入特征圖進行壓縮,輸出大小是輸入大小的1/2,即是原始輸入圖像的? 1/8,通道數為256;(4)用512個3×3、步幅為?????? 1的濾波器構建的三個卷積層(Conv4_1, Conv4_2,Conv4_3)對輸入圖像進行卷積,通道數量為512。之后分支了2個特征數據流。
VGG-T 與傳統 VGG16網絡模型的對比如表2所示。相比 VGG16,本研究用1×1的卷積核代替全連接層,因為1×1的卷積核一方面大大降低要求解網絡參數的個數,同時滿足全連接層的作用,另一方面還能夠適應不同的輸入數據的大小。其中標1 的通道直接經濾波器為1×1的 Conv 回歸得到一個密度圖(De1);標2 的通道則需要再經過 Pool4, Conv5_1 , Conv5_2, Conv5_3,Conv 回歸得到另一個密度圖(De2),由于比通道1 多一次池化操作,其得到的密度圖尺寸會再減小一半,為能夠完成最后一步密度圖的融合,該通道還要經過一次反卷積操作。
使用 De1? = {dje1} 和 De2? = {dje2} 分別表示從Conv4_3和 Conv5_3回歸得到的兩個密度圖,由濾波器為1×1且只有一個輸出的卷積層回歸得到。其中,j表示密度圖中第j個像素,djei表示第 j個像素的密度。因為經過最大池化操作,De1 和 De2 有不同的尺寸大小:每經過一個最大池化,輸出尺寸都會變成原來的1/2,De1經過三次最大池化,其尺寸是輸入圖像的1/8,De2經過四次最大池化,其尺寸是輸入圖像的1/16。相應的,為能夠完成網絡模型的訓練,將真值密度圖下采樣到原尺寸的1/8和 1/16。使用平均兩個估測密度圖的方式進行融合:首先,定義 UP (?)為反卷積上采樣過程,使用 UP (De2)來表示De2 通過反卷積層進行上采樣得到與De1 相同尺寸的密度圖;然后使用(De1? + UP (De2))/2表示融合這兩個相同尺寸的估測密度圖,以得到最終的估測密度圖De:
De? =??????????????????????????????????????? (2)
其中,De表示融合后的估測密度圖代號,其分辨率是輸入圖像的1/8,同時需要下采樣相應的真值密度圖。
VGG-T 輸入的是圖像,輸出的是種子密度圖,對密度圖積分可得出該圖包含的種子總數,用于計算種子數的公式如下:
Cet (N)=?? ∑ d t (N)?????????????????? (3)
其中,Cet(N)是測試圖像N中包含的種子數量估測值,粒; d t (N)表示通過網絡最優模型獲得的圖像N的每個像素的估測密度值,粒。
3.4 損失函數計算
均方誤差損失函數LMSE 是典型的損失函數之一,它能逐像素地計算出訓練網絡中生成的估測密度圖與訓練數據中給出的真值密度圖之間的歐幾里德距離,函數如公式(4)所示。但是均方差損失不能考慮到密度圖之間的局部相關性,因此使用結構點差異(Structural? Dissimilarity, DSSIM)損失函數LDSSIM 來測量估測密度圖和真值密度圖之間的局部模式一致性,見公式(5)。LDSSIM 源自結構相似性(Structural SSIM),其函數見公式(6)。
其中,Θ是在網絡中一組可學習的參數; N為訓練圖像的數量,個; Xi表示輸入圖像; M是密度圖中的像素數,個;λ 是平衡LMSE 和LDSSIM 的加權值。E 和 G分別表示估測值和真值。SSIMi中的均值μEi、μGi和標準差σEi、σGi、σEiGi由大小為5× 5的高斯濾波器在每個位置j 上計算得到,C 1? =(k1 L)2,C2? =(k2 L)2為兩個常數,避免除零,L =2B? -1 為像素值范圍,B 表示比特深度,且k1? =0.01,k2? =0.03為默認值。方程中忽略了平均值和標準差對像素j的依賴性。L(θ)為真值密度圖與估測密度圖之間的損失。
由于訓練樣本的數量有限,以及梯度消失對深度神經網絡的影響,網絡能夠同時學習所有參數并不容易。受到預訓練的啟發,分別對通道1和通道2單獨訓練,學習到各層參數作為整體訓練時2個分支通道的初始值。
3.5 評估指標
使用平均絕對誤差(Mean Absolute Devia‐tion,MAE)和均方誤差(Mean-Square Error,MSE)來評估本方法。MAE 是一種常見的用于回歸模型的損失函數,反映估測值和真實值之間的距離,定義如下:
MAE =? | ei? - ai |????????????? (8)
其中,N為測試樣本的數量,個;ei為被評估的模型估測的第i張圖像中的種子數,個; ai?? 為來自被標記的第i張圖像中的實際種子數,個; MAE表示測試集中種子數估測的準確性,MAE 越小,說明種子數估測的越準確。
MSE是最常用的回歸損失函數,表示種子數估測的穩定性,MSE越大,說明估測的結果存在異常值。MSE定義如下:
MSE =? (ei? - ai)2??????????????????????????????????????? (9)
4? 試驗與結果分析
試驗在操作系統為Ubuntu 18.464-bits 的 PC 機上進行,其處理器為 Intel? Xeon (R) CPU E5-2630 v4@ 2.20GHz×20,內存為32 GB 。使用PyTorch深度學習框架基于 NVIDIA 1080Ti GPU 來實現網絡訓練和測試。
4.1 有無數據增強計數對比
分別使用239張大豆籽粒圖像(無數據增強)和 2151個patch (有數據增強)作為訓練數據來訓練 VGG-T 網絡,在訓練網絡的過程中,使用驗證集來評估和優化模型,然后用分別得到的最優模型來估測測試集中圖像的籽粒數。表3 為相關結果數據。
從結果數據可以看出,使用數據增強的方法生成的 patch 作為訓練數據,其測試后得出的 MAE和MSE數值都較小,由此證明數據增強這一步驟對于提高網絡的估測性能非常重要而且必要。這里使用的隨即裁剪增加了訓練樣本的多樣性,相當于建立每個因子特征與相應類別的權重關系,減弱背景(或噪聲)因子的權重,且使模型面對缺失值不敏感,最終產生更好的學習效果,增加了模型的穩定性,進而提高網絡的估測性能。
4.2 不同計數方法對比
使用239張原始大豆籽粒圖像和 2151個patch 作為訓練集來分別訓練基礎 VGG16網絡、VGG-T網絡、ResNet18網絡和ResNet18-T 網絡。其中 ResNet18-T 采用與 VGG-T 相同的思想增加一個分支以融合多尺度特征。同時使用傳統形態學操作,該過程首先利用最大類間方差法對已進行亮度、大小、對比度調節的圖像二值化,之后通過形態學梯度(膨脹-腐蝕)獲得大豆籽粒邊緣,接著利用原始圖像減去邊緣來減少籽粒之間的粘連,最終使用 OpenCV 中的findCoutours函數找到圖像中所有大豆籽粒的輪廓并進行計數,但由圖5能夠看出經形態學腐蝕后粘連籽粒仍然未能分離。表4為5種方法的計數性能比較,根據MAE和MSE的值可以看出,當進行傳統形態學操作時,其對應的誤差均較大;對于原始圖像,VGG-T 在估測準確性和穩定性上顯著優于基礎 VGG16、ResNet18和 ResNet18-T;對于增強后的patch 數據,VGG-T 的性能與ResNet18-T相當,同時優于VGG16和ResNet18。綜上所述,試驗結果顯示了所提出的兩個分支進行數據特征的融合能夠進一步實現模型性能的提升,且VGG-T 網絡在所有數據中的綜合表現最好。
4.3 不同測試集計數對比
將測試集的所有圖像按照每張含有籽粒數的大小進行升序排列,然后將排好的103張測試圖像分成7 組,組1~組 7分別包含15、15、15、15、14、14、15張籽粒圖。用 VGG-T 的最優訓練模型分別測試這7 組測試集,表5 為 MAE、 MSE、真值種子數以及估測種子數。真值種子數表示各組平均每張圖像含有的種子數的真實值,估測種子數表示各組平均每張圖像含有的種子數的估測值。由表中數據可以看出,組1 的MAE和組4的MSE分別達到最小,為0.46和0.52。同時隨著圖像中大豆籽粒數量的不斷增加,組1~組7 的MAE 和MSE大致呈升高趨勢,但增加幅度均較小,其中真值和估值最多相差2粒,說明訓練得到的最優模型在包含70~200個籽粒圖像上均具有優良的計數性能。
4.4 時間成本
目前人工計數是大豆育種者使用最為普遍的計數方法,同時光電種子數粒儀可輕松避免偶然性和主觀性導致的誤差,因此將本研究方法與光電種子數粒儀、人工計數方法進行計數時間比較,結果如表6 所示。在采集原始圖像的同時,調研了三位大豆育種工作者三天內計數種子的情況,經統計得出人工計數效率為100粒/80 s ,即1.25粒/s;光電種子數粒儀的計數速度大約為1000粒/3min ,即5.56粒/s 。利用本研究方法的計數效率為116.69粒/s。
本研究建立的數據集中測試集共103張大豆籽粒圖,包含11,350粒種子,假設計數效率均不變,不間斷人工手動計數需要大約2.52h ,光電種子數粒儀則需要0.23h左右,而利用本方法耗時大約0.027h 。本方法針對人工計數和數粒儀分別節省了大約2.493h 和0.203h ,所用時間成本分別是人工手動計數、數粒儀時間成本的1/94和1/9。
5? 結論
本研究提出了一種大豆籽粒快速高精度計數方法,構建VGG-T模型并結合籽粒密度圖進行回歸,所得結論如下:
(1)設計了大豆籽粒標注系統,提出了基于數字圖像處理技術的預標注和人工修正標注相結合的快速目標點標注方法。新方法標注37,563個大豆籽粒只需要花費197 min ,比普通人工標注節約了1592 min ,減少了約96%的人工工作量。
(2)建立了包含342張已標注大豆籽粒圖像,共37,563個中心被標注的公開可用大豆籽粒圖像數據集。
(3)構建了結合密度估計方法的基于VGG-T的大豆籽粒數估測模型,其評估指標在原圖和patch情況下的MAE分別為0.6和0.2,MSE為0.6和0.3,相比傳統圖像形態學操作、ResNet18、ResNet18-T 和 VGG16網絡,本方法提高了大豆籽粒計數的準確性。同時相比人工計數和數粒儀,以0.027 h 完成測試集中11,350個大豆籽粒的快速計數,分別節省了大約2.493h和0.203h。
參考文獻:
[1]韓昕儒, 梅旭榮, 李思經, 等. 中國農業產業發展戰略前瞻[J].智庫理論與實踐, 2019, 4(6):2-7.
HAN X, MEI X, LI S, et al. The development strategy of China's agricultural industry[J]. Think Tank Theory & Practice, 2019, 4(6):2-7.
[2] ALI A, KHAN S A, EHSANULLAH, et al. Estimationof genetic parameters in soybean for yield and morphological? characters[J]. Pakistan Journal? of Agriculture, Agricultural? Engineering,? Veterinary? Sciences, 2016, 32(2):162-168.
[3]何進. 不同年代大豆品種籽粒產量差異及其水磷虧缺適應機制[D].蘭州:蘭州大學, 2016.
HE J. Grain yield difference of soybean varieties in different ages and its adaptation mechanism to water and phosphorus deficiency[D]. Lanzhou: Lanzhou University, 2016.
[4]周洪壘. 基于圖像處理的水稻考種系統的設計與實現[D].成都:電子科技大學, 2019.
ZHOU H. Design and implementation of rice seed test system based on image processing[D]. Chengdu: University of Electronic Science and Technology, 2019.
[5]宋礽蘇, 華嬌, 藍景針, 等. 轉盤斜刮式光電自動數粒儀設計[J].農業機械學報, 2011, 42(11):89-92.
SONG R, HUA J, LAN J, et al. Design of photoelectric automatic particle counting instrument with rotary table[J]. Transactions of the CSAM, 2011, 42(11):89-92.
[6]榮斐. 基于圖像處理的作物種子自動計數軟件開發[J].工業設計, 2011(7):126-127.
RONG F. Development of crop seed automatic counting software based on image processing[J]. Industrial Design, 2011(7):126-127.
[7]崔亮. 基于機器視覺的農作物種子計數檢測系統[D].太原:中北大學, 2016.
CUI L. Crop seed counting detection system based on machine vision[D]. Taiyuan: North? China University,2016.
[8] LIU T, CHEN W, WANG Y, et al. Rice and wheat graincounting method and software development based on Android system[J]. Computers and Electronics in Agriculture, 2017(141):302-309.
[9] TAN S, MA X, MAI Z, et al. Segmentation and count‐ing algorithm for touching hybrid rice grains[J]. Computers? and? Electronics? in? Agriculture,? 2019(162):493-504.
[10] 潘銳, 熊勤學, 張文英. 數字圖像技術及其在作物表型研究中的應用研究進展[J].長江大學學報(自科版), 2016, 13(21):38-41.
PAN R, XIONG Q, ZHANG W. Digital image technol‐ogy and its application in crop phenotype research[J].Journal of Changjiang University, 2016, 13(21):38-41.
[11] 章琳, 袁非牛, 張文睿, 等. 全卷積神經網絡研究綜述[J].計算機工程與應用, 2020, 56(1):25-37.
ZHANG L, YUAN F, ZHANG W, et al. A survey of to‐tal? convolution? neural networks [J]. Computer? Engi‐neering and Application, 2020, 56(1):25-37.
[12] ALSMIRAT M A, AL-ALEM F, AL-AYYOUB M, etal. Impact of digital fingerprint image quality on thefingerprint recognition? accuracy[J]. Multimedia Toolsand Applications, 2019, 78(3):3649-3688.
[13] MEDEN B, MALLI R C, FABIJAN S, et al. Face dei‐dentification with generative deep neural networks[J].IET Signal? Processing, 2017, 11(9):1046-1054.
[14] YU H, HE F, PAN Y. A novel segmentation model formedical images with intensity inhomogeneity based onadaptive perturbation[J]. Multimedia Tools and Appli‐cations, 2019, 78(9):11779-11798.
[15] LECUN Y, BENGIO Y, HINTON G. Deep learning[J].Nature, 2015, 521(7553):436-444.
[16] AICH S, STAVNESS I. Global sum pooling: A general‐ization trick for object counting with small datasets oflarge images[J/OL]. arXiv:1805.11123.2018.
[17] POUND M P, ATKINSON J A, WELLS D M, et al.Deep? learning? for? multi-task? plant? phenotyping[C]//The IEEE International Conference on Computer Vi‐sion Workshops. Piscataway, New York, USA: IEEE,2017:2055-2063.
[18] DENG R, TAO M, HUANG X, et al. Automated count‐ing grains on the rice panicle based on deep learningmethod[J]. Sensors, 2021, 21(1):281.
[19] WU W, LIU T, ZHOU P, et al. Image analysis-basedrecognition and quantification of grain number per pan‐icle in rice[J]. Plant Methods, 2019, 15: ID 122.
[20] WU W, YANG T, LI RUI, et al. Detection and enumer‐ation of wheat grains based on a deep learning methodunder various scenarios and scales[J]. Journal of Inte‐grative Agriculture, 2020, 19(8):1998-2008.
[21] 翟強, 王陸洋, 殷保群, 等. 基于尺度自適應卷積神經網絡的人群計數算法[J].計算機工程, 2020, 46(2):250-254.
ZHAI Q, WANG L, YIN B, et al. Crowd counting algo‐rithm based on scale adaptive convolution neural net‐work[J]. Computer Engineering, 2020, 46(2):250-254.
[22] AICH? S,? STAVNESS? I. Improving? object? countingwith? heatmap? regulation[J/OL].? ArXiv:? abs/1803.05494.2018.
[23] LIU Y, SUN P, WERGELES N, et al. A survey and per‐formance? evaluation? of? deep? learning? methods? forsmall object detection[J]. Expert Systems with Applica‐tions, 2021, 172: ID 114602.
[24] BABU SAM D, SURYA S, VENKATESH BABU R.Switching? convolutional? neural? network? for? crowd counting[C]// The IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, New York, USA: IEEE, 2017:5744-5752.
[25] MA Z,? WEI? X,? HONG? X,? et? al. Bayesian? loss? forcrowd? count? estimation? with? point? supervision[C]// The IEEE/CVF International Conference on Computer Vision. Piscataway,? New? York,? USA: IEEE, 2019:6142-6151.
[26] VARIOR R R, SHUAI B, TIGHE J, et al. Multi-scaleattention? network? for? crowd? counting[J/OL]. arXiv:1901.06026.2019.
[27] ZHU L, ZHAO Z, LU C, et al. Dual path multi-scale fu‐sion networks with attention for crowd counting[J/OL].arXiv:1902.01115.2019.
[28] SIMONYAN K, ZISSERMAN A. Very deep convolu‐tional networks for large-scale image recognition[J/OL].arXiv:1409.1556.2014.
Fast Counting Method of Soybean Seeds Based onDensity Estimation and VGG-Two
WANG Ying1, LI Yue1, WU Tingting2, SUN Shi2, WANG Minjuan1*
(1. Key Laboratory of Modern Precision Agriculture System Integration Research, China Agricultural University,Beijing 100083, China;2. Institute of Crop Sciences, Chinese Academy of Agricultural Sciences/Beijing Key Laboratory of Soybean Biology, Ministry of Agriculture and Rural Affairs, Beijing 100081, China)
Abstract: In order to count soybean seeds quickly and accurately, improve the speed of seed test and the level of soybean breeding, a method of soybean seed counting based on VGG-Two (VGG-T) was developed in this research. Firstly, in view of the lack of available image dataset in the field of soybean seed counting, a fast target point labeling method of combining pre-annotation based on digital image processing technology with manual correction annotation was proposed to speed up the establishment of publicly available soybean seed image dataset with annotation. Only 197 min were taken to mark 37,563 seeds when using this method, which saved 1592 min than ordinary manual marking and could reduce 96% of manual workload. At the same time, the dataset in this research is the largest annotated data set for soybean seed counting so far. Secondly, a method that combined the density estimation-based and the convolution neural network (CNN) was developed to accurately estimate the seed count from an individual threshed seed image with a single perspective. Thereinto, a CNN architecture consisting of two columns of the same network structure was used to learn the mapping from the original pixel to the density map. Due to the very limited number of training samples and the effect of vanishing gradients on deep neural networks, it is not easy for the network to learn all parameters at the same time. Inspired by the success of pre-training, this research pre-trained the CNN in each column by directly mapping the output of the fourth convolutional layer to the density map. Then these pre-trained CNNs were used to initialize CNNs in these two columns and fine-tune all parameters. Finally, the model was tested, and the effectiveness of the algorithm through three comparative experiments (with and without data enhancement, VGG16 and VGG-T, multiple sets of test set) was verified, which respectively provided 0.6 and 0.2 mean absolute error (MAE) in the original image and patch cases, while mean squared error (MSE) were 0.6 and 0.3. Compared with traditional image morphology operations, ResNet18, ResNet18-T and VGG16, the method proposed improving the accuracy of soybean seed counting. In the testset containing soybean seeds of different densities, the error fluctuation was small, and it still had excellent counting performance. At the same time, compared with manual counting and photoelectric seed counter, it saved about 2.493 h and 0.203 h respectively for counting 11,350 soybean seeds, realizing rapid soybean seeds counting.