董睿 李傳江 張崇明



摘??要:?基于便攜式家用精子檢測儀的研發需求,研究了輕量化卷積神經網絡在精子活力檢測方面的應用.利用Farneback光流算法提取出不同幀間距的精子視頻的密集光流幀圖像,并通過多通道圖像疊加的方式將其與原始視頻幀圖像進行疊加.把疊加后的圖像作為輕量化卷積神經網絡ShuffleNet的輸入圖像,用于檢測視頻中精子的活力水平.實驗結果表明:使用ShuffleNet能在基本不降低檢測精度的前提下顯著降低網絡整體的計算量和模型所占用的內存,更適用于嵌入式和移動設備.此外,采用多通道疊加密集光流幀和原始幀圖像作為輸入圖像,相較于單一的原始幀圖像,有效提升了網絡模型的性能.
關鍵詞:?精子活力;?輕量化;?卷積神經網絡;?Farneback光流算法
中圖分類號:?TP 183 ???文獻標志碼:?A ???文章編號:?1000-5137(2024)02-0278-05
Sperm motility detection based on lightweight network and dense optical flow method
DONG Rui,?LI Chuanjiang,?ZHANG Chongming*
(College of Information,?Mechanical and Electrical Engineering,Shanghai Normal University,Shanghai 201418,China)
Abstract:?Based on the research and development needs of portable home sperm detection,?the application of lightweight convolutional neural network in sperm motility detection was studied in this paper. The Farneback optical flow algorithm was used to extract the dense optical flow frame images of sperm videos with different frame intervals,?which were stacked with the original video frame images by multi-channel image superposition. These stacked images were used as the input of the lightweight convolutional neural network ShuffleNet to detect the motility level of sperm in the video. Experimental results showed that by use of ShuffleNet the overall computation cost of the network and the memory space could be reduced significantly without reducing the detection accuracy,?which was more suitable for embedded and mobile devices. Furthermore,?compared to utilizing only original frame pictures as input,?the performance of the network model was effectively improved with the adoption of using multi-channel superposition of dense optical flow frame images and original frame images as input.
Key words:?sperm motility;?lightweight;?convolutional neural networks;?Farneback optical flow algorithm
傳統的人工檢測精子活力存在一些弊端,包括主觀性影響、負擔和疲勞、受限的數據量和復雜度、時間和效率,以及可重復性和標準化問題等[1],而計算機輔助精子分析技術(CASA)也存在一些弊端和限制,標準化仍然未能實現,精確性和可靠性受到技術的限制,需要專業訓練和設備的輔助[2]. 此外,CASA設備成本高、體積大,不能滿足患者居家自測的需求.
相較于經典的機器學習方法,基于深度學習方法利用特定的卷積神經網絡模型對精子視頻和圖像進行分類和識別,具有更快的識別速度和更高的精度[3]. THAMBAWITA等[4]提出了一種基于視頻幀的密集光流的方法,用于精子形態分類和精子活力檢測. 該方法將ResNet34網絡作為主體,以疊加原始幀和不同幀間距的密集光流幀圖像及疊加9個連續的灰度幀圖像分別作為輸入圖像進行了實驗,結果表明,前者是更為有效的輸入圖像.
本文作者使用ShuffleNetV2輕量化卷積神經網絡模型[5],提取出不同幀間距的精子視頻密集光流幀圖像,并采用多通道疊加的方法作為網絡模型的輸入. 相比傳統深度神經網絡,ShuffleNetV2的推理速度更快、占用的內存更小和計算量更少. 此外,還對原始視頻幀圖像和不同幀間距的密集光流幀圖像的疊加方式進行了更深入的研究.
1 ?網絡模型和原理
1.1 ShuffleNetV2網絡
ShuffleNetV2的基本模塊如圖1所示. 先將輸入特征圖在通道維度下平均分成2個分支. 保持通過左側分支的特征圖不變,右側分支包含3個連續的卷積,并且其輸入和輸出通道相同,其中2個1×1卷積不再是分組卷積,最后將2個分支的輸出拼接(concat)在一起,進行通道混洗(channel shuffle)操作,以保證2個分支之間的信息交流. ShuffleNetV2的下采樣模塊如圖2所示. 該模塊移除了通道拆分的操作,每個分支都是直接復制一份輸入,最后拼接在一起,這使得特征圖的空間大小減半,輸出通道的數量翻倍.
ShuffleNetV2采用了輕量化的設計,能在資源有限的設備上快速高效地運行.ShuffleNetV2利用了通道拆分和分組卷積等技術,在保持模型體量較小的前提下,提升了精度和性能. 因此,ShuffleNetV2更適用于嵌入式和移動設備.
1.2 Farneback光流算法
光流法的基本假設是相鄰幀之間的像素亮度保持不變,即對于同一個物體上的像素點,在不同幀之間的亮度值應相等. 基于這個假設,光流法通過計算像素點之間的灰度或顏色差異,估計出每個像素點的運動矢量.
Farneback光流算法的主要實現思路是通過每個像素點的鄰域信息(由鄰域像素點的像素值大小和位置來確定權重)來對該像素點的坐標位置進行多項式展開,得到一個以原坐標(x0,y0)為自變量,新坐標(x,y)為因變量的多項式,并代入坐標數據來求取該像素點在x和y方向上的移動量(dx,dy),得到每個像素點在前后兩幀圖像中的位移矢量,包含振幅和相位.
1.3 多通道密集光流幀圖像和原始幀圖像的疊加方式
采用的多通道密集光流幀圖像疊加方法,將輸入擴展為9個通道. 使用3通道的原始視頻幀圖像,加上3通道幀間距為x的密集光流幀圖像,再加上3通道幀間距為y的密集光流幀圖像作為輸入圖像.x和y在1~10之間取值. 整個精子活力檢測的實現流程如圖3所示. 為了研究提取密集光流幀的幀間距對模型性能的影響,實驗分別設計了4種不同類型的數據集輸入:A,A+B1+B10,A+B1+B1,A+B10+B10,其中A為原始視頻幀圖像;B1為幀間距為1的密集光流幀圖像;B10為幀間距為10的密集光流幀圖像.
加載預訓練權重,對參數進行初始化,將預處理好的數據集圖像作為輸入送到ShuffleNetV2網絡模型中進行特征提取,最后改變全連接層,輸出3個分類結果,對精子活力的類型進行檢測和判定.
2 ?實驗結果與分析
2.1 數據集預處理
本實驗使用VISEM數據集[6]. VISEM是一個多模態視頻數據集,用于研究人類精液質量,以輔助計算機視覺和人工智能領域的研究,其中包含來自85個不同參與者的匿名數據和精液樣本視頻,原始幀率是50 幀·s-1.
利用Farneback光流算法準備了相鄰1幀和相鄰10幀提取的密集光流幀圖像作為訓練和測試數據集,每個視頻提取了250張密集光流幀圖像,一共21 250張. 數據集進行了標準化處理,大小統一為224×224 pixels.
使用了VISEM數據集中的68個精子視頻作為訓練集,訓練過程采用三折交叉驗證的方法,其余17個精子視頻作為測試樣本,測試模型的性能和通用性.
2.2 實驗配置和參數
為了模擬在嵌入式和移動設備上的檢測環境,選擇了配置較低的GPU:NVIDIA GeForce GTX 1650,其顯存容量為4 GB. 實驗的開發環境基于Pytorch1.13.1深度學習框架和torchvision0.14.1計算機視覺庫,以及NVIDIA的CUDA11.7版本作為訓練過程中的加速器. 模型訓練的超參數統一設置為初始學習率為0.001,使用Adam優化器進行梯度優化,批次大小為32,訓練迭代輪次為20輪.
2.3 評估指標
在訓練過程中,均方誤差(MSE)被用作反向傳播誤差的損失函數,而平均絕對誤差(MAE)被用來計算基于精子活力實際值(人工測量數據)的預測值的實際損失,
![]()
![]()
, (1)
, (2)
其中,n是樣本數量;
是實際值;
是預測值.
2.4 數據集類型選擇
表1為不同數據集類型作為輸入的MAE對比. 將預處理后的VISEM訓練集平均分為三折進行交叉驗證,如表1中Fold_1,Fold_2,Fold_3所示.相對于原始方法,多通道疊加密集光流幀圖像的方法MAE較小,表明混合使用密集光流幀圖像和原始視頻幀圖像作為輸入圖像能夠提升模型的性能. 此外,A+B1+B1的MAE為9.495,A+B10+B10的MAE為10.679,由此可知,采用3通道原始幀圖像疊加2個3通道的幀間距為1的密集光流幀圖像,能夠更加精確地獲取精子視頻運動信息,這有利于模型檢測精度的提升.
2.5 對比實驗
如表2所示,在多個不同方面比較了?ShuffleNetV2和ResNet34網絡的檢測性能. 其中在A+B1+B1數據集類型下,ShuffleNetV2的平均MAE略高于ResNet34. 此外,使用torchstat工具對比了ShuffleNetV2和ResNet34的性能. 結果顯示,ShuffleNetV2在Flops、參數量和模型文件大小方面都明顯小于ResNet34.
2.6 檢測結果分析
用訓練好的ShuffleNetV2模型對測試樣本進行精子活力檢測. 表3為其中3個精子視頻樣本在采用A+B1+B1類型輸入時的檢測結果與人工檢測數據的對比. 結果表明,所提出的檢測方法和人工檢測的結果一致.
3 ?結語
基于深度神經網絡,本文作者提出精子活力檢測方法,采用了輕量化網絡ShuffleNetV2,有效減少了網絡的計算量和模型的占用內存,可在嵌入式和移動設備上實現精子檢測. 使用Farneback光流算法,提取了不同幀間距的密集光流幀圖像,并通過多通道密集光流幀和原始幀圖像疊加的方法,最終實現了對精子視頻的三分類. 實驗結果表明:選取適當的密集光流幀圖像的幀間距和幀數,可以顯著降低精子檢測的平均絕對誤差. 本研究尚有一些不足之處,比如相比于更加復雜的網絡,使用ShuffleNetV2網絡檢測精子的MAE略有下降. 未來的研究方向將聚焦于探索更輕量化且性能更好的神經網絡模型,以及探索更有效的適用于較高密度小目標跟蹤的光流預測算法.
參考文獻:
[1] GOH V H,?ASARI M A B,?ISMAIL L H B. 3D convolutional neural networks for sperm motilityprediction [C]//IEEEInternational Conference on Intelligent Cybernetics Technology & Applications. Bandung:?IEEE,?2022:174-179.
[2] DEARING C,?JAYASENA C,?LINDSAY K. Can the sperm class analyser (SCA)?CASA-mot system for human sperm motility analysis reduce imprecision and operator subjectivity and improve semen analysis??[J]. Hum Fertil (Camb),2021,24(3):208-218.
[3] OTTL S,?AMIRIPARIAN S,?GERCZUK M,?et al. MotilitAI:?a machine learning framework for automatic prediction of human sperm motility [J]. iScience,?2022,25(8):1-18.
[4] THAMBAWITA V,?HALVORSEN P,?HAMMER H,?et al. Stacked dense optical flows and dropout layers to predict sperm motility and morphology [J/OL]. arXiv:1911.03086v1,?2019 [2023-12-01]. https:?// arxiv.org/abs/1911.03086.
[5] MA N N,?ZHANG X,?ZHENG H T,?et al. Shufflenetv2:?practical guidelines for efficient CNN architecture design [J/OL]. arXiv:?1807.11164v1,?2018 [2023-12-01]. https:?// arxiv.org/abs/1807.11164.
[6] HAUGEN T B,?HICKS S A,?ANDERSEN J M,et al.VISEM:?a multimodal video dataset of human spermatozoa [C]//Proceedings of the 10th ACM Multimedia Systems Conference. New York :ACM,?2019:261-266.
(責任編輯:包震宇,郁慧)
DOI:?10.3969/J.ISSN.1000-5137.2024.02.021
收稿日期:?2023-12-25
作者簡介:?董睿(1999—),?男?,碩士研究生,?主要從事基于深度學習的精子檢測方面的研究. E-mail:?2802249984@qq.com
* 通信作者:?張崇明(1973—),?男,?副教授,?主要從事智能硬件和人工智能應用技術方面的研究. E-mail:?czhang@shnu.edu.cn
引用格式:?董睿,?李傳江,?張崇明. 基于輕量化網絡和密集光流法的精子活力檢測?[J]. 上海師范大學學報?(自然科學版中英文),?2024,53(2):278?282.
Citation format:?DONG R,?LI C J,?ZHANG C M. Sperm motility detection based on lightweight network and dense optical flow method [J]. Journal of Shanghai Normal University (Natural Sciences),?2024,53(2):278?282.