中圖分類號TP391.41文獻標志碼A
0 引言
膝關節骨性關節炎(Osteoarthritis,OA)是一種常見的慢性關節疾病,其發病率隨著年齡增長而逐漸上升,給患者帶來極大的痛苦和生活不便.膝關節OA的流行病學特征顯示,該病在中老年人群中尤為常見,且女性的發病率高于男性.膝關節OA引起的疼痛對老年人的生活質量有嚴重的影響[1],并且現有的治療手段難以抑制導致膝關節OA進展的退行性結構變化.然而,早期發現和及時治療可以減緩OA的進展從而提高患者的生活質量.膝關節OA標志包括關節間隙狹窄(JSN)、軟骨下硬化、骨贅的形成等[2].KL分級[3]是最常用的膝關節OA嚴重程度分級系統,根據膝關節X射線的表現,從輕到重分為0級(正常)、I級、Ⅱ級、Ⅱ級、V級(最嚴重),本文的分類標準也是基于此.目前臨床上常用的膝關節OA診斷方法主要包括MRI(磁共振成像)、X射線和關節鏡檢查等.這些方法雖然能夠提供一定的治療診斷,但是各自有局限性.例如:MRI僅在大型醫療中心提供,昂貴的檢查使得MRI不適合常規膝關節OA的診斷;X射線檢查對于早期關節炎的診斷敏感性較低;關節鏡檢查作為一種有創檢查,其應用受到了一定的限制.因此,發展一種應用簡便、準確程度高的膝關節OA檢測分類方法顯得尤為重要.
目前,目標檢測方法主要分為兩大類:以YOLO[4]系列為代表的單階段檢測算法和以R-CNN[5]系列為代表的雙階段檢測算法.雙階段檢測算法通常先生成候選區域,然后在這些候選區域內進行目標分類和位置定位,因此能夠實現較高的檢測精度,然而這種方法的訓練和檢測速度較慢,難以滿足實時響應的應用場景.而單階段算法如YOLO 和 SSD[6] 系列,省略了區域建議的網絡步驟,直接在輸入圖像上生成預測框以檢測目標,不僅簡化了檢測流程,還顯著提升了檢測速度,減少算力開銷,從而成為目標檢測的主流選擇,尤其是YOLOv8算法7,能夠滿足實際應用中準確性和高效性的雙重需要.
當前基于深度學習的目標檢測算法在檢測膝關節OA領域取得一定的進展.Wang等8通過整合目標檢測模型YOLO和視覺轉換器到診斷過程,提供了一個端到端的膝關節OA自動診斷方法,在減少人工干預的同時,提升了檢測精度,但這種集成的方式增加了模型的復雜度,需要更高的計算資源.Sikkandar等9提出一種基于無監督局部質心和深度連體卷積神經網絡算法進行膝關節OA分類,該算法在處理大量噪聲和偽影的圖像時,會出現檢測精度不佳的現象.Abdullah等[10]采用FasterRCNN架構,并將ResNet-50與遷移學習相結合來提取特征,成功進行膝關節OA分類,但在處理一些不明顯特征的數據上,效果不佳.Shamir等[11]采用模板匹配來自動檢測和提取膝關節OA,但在一些大型數據集的應用上存在速度較慢、準確性較低等問題.
本文提出以YOLOv8為基礎構建一種新的算法結構,在增強對特征不顯著的輸入數據處理能力的同時節約計算資源,從而提升整體檢測性能,提高分類精準度,主要有以下4個方面的貢獻:
1)針對膝關節輸入圖像進行預處理,添加分布映射模塊(Visual-Pyramid Enhanced Network,V-PENet),使復雜分布的數據映射為簡單分布的數據,幫助網絡可以更好地進行訓練.該模塊通過高斯模糊分離低頻和高頻信息,增強邊緣細節;利用拉普拉斯金字塔原理多層次融合來重構原圖,增強模型對膝關節圖像特征的表現能力.
2)針對進行膝關節0A分類時,由于準確判斷受損等級需整體評估并需要長距離的依賴關系,設計了增強語義感知模塊(PixelTransBlock,PTB),采用水平和垂直方向上形成交叉形窗口的自注意力機制,以提升對上下文的感知能力,有效提高檢測分類的表現能力.
3)引人坐標注意力機制模塊(CoordinateAtten-tion,CA),有效降低大、小尺度樣本的梯度增益,使模型更加關注對中等尺度有利的特征,增強模型的定位能力和其檢測分類的準確性
4)關節病變常常是不規則形態且存在邊界模糊等問題,檢測難度較大,故引人WIoUv3(WiseInter-sectionoverUnionversion3)損失函數,通過動態調整權重和非單調聚焦機制,增強模型準確定位的能力,進而提升檢測分類的可靠性.
1 YOLOv8網絡
YOLOv8是2023年推出的一款目標識別網絡,相比先前的 Υ0LOv5[12] 和YOLOv7[13],YOLOv8 在檢測精度和速度上都有顯著提升.它的網絡結構主要由Backbone(主干網絡)、Neck(頸部網絡)和Head(頭部網絡)組成,如圖1所示.
Backbone部分采用升級版的CSPDarknet53網絡,將YOLOv5中的CSP模塊完全替換為C2f模塊.C2f模塊通過梯度分流連接來增強特征提取的豐富性,同時保持網絡的輕量化.CBS模塊由卷積、批量歸一化和SiLU激活函數構成,通過對輸入數據進行卷積運算,隨后進行批量歸一化處理,再通過SiLU激活函數來激活信息流,獲得最終輸出.空間金字塔池化快速算法(SpatialPyramidPooling-Fast,SPPF)則將輸入的特征圖進行池化,以生成固定大小的特征圖,從而適應不同尺寸的輸出要求.
圖1YOLOv8整體結構Fig.1Structure of YOLOv8

Neck部分采用結合特征金字塔網絡(FeaturePyramid Network, FPN[14] )的路徑聚合網絡(PathAg-gregationNetwork,PAN)結構(PAN-FPN).相較于YOLOv5和YOLOv7的Neck結構,YOLOv8省去了在路徑聚合網絡中上采樣后進行的卷積操作,從而在維持性能的前提下實現了模型的輕量化.PAN-FPN通過構建自上而下和自下而上的雙向網絡結構,實現特征融合,使淺層位置信息和深層語義信息互為補充,從而提升了特征表達的多樣性和完整性.
Head部分采用解耦的頭部結構,從之前的AnchorBased改進為AnchorFree,通過直接預測而非依賴錨框的方式,提高檢測靈活性和精度,使得模型更適合各種應用場景.
2 改進的YOLOv8模型
2.1 模型的整體結構
本文提出的基于YOLOv8改進模型總體框架如圖2所示,圖中白色框部分為模型改進部分.
YOLOv8算法相比許多常見的目標檢測網絡,在模型大小和檢測速度方面表現更優.為了進一步提升模型在膝關節OA檢測分類任務的準確性,以YOLOv8算法為基礎進行改進.首先,在Backbone網絡的最前端引入分布映射模塊V-PENet,利用拉普拉斯金字塔原理通過多尺度分析和高頻細節的保留,對輸入圖像進行層次化分解,在每個層次上進行分布的統一化處理,有效地簡化數據分布的復雜性,幫助YOLO網絡更好地進行訓練.其次,在SPPF模塊前面加入增強語義感知模塊PTB,考慮到關節的空間架構,在該模塊中引入十字形狀自注意力,在節約算力的同時獲取更大的感受視野,有效提高模型在膝關節OA檢測分類任務中的效率和精度.同時,針對模型在膝關節OA檢測分類任務中,中尺度檢測對象的比例較高這一情況,在Head部分添加CA坐標注意力機制模塊,有效地添加全局信息,增強對中尺度目標中重要信息的關注,提升網絡特征提取的效果.最后,在邊界框回歸損失中,將原有的完整交并比(CompleteIoU,CIoU)損失函數替換為WIoUv3損失函數,該損失函數引入了動態非單調機制,通過動態權重調整以及合理的梯度增益分配策略,進一步提高模型的整體性能.
2.2 分布映射模塊
膝關節OA檢測分類任務中,輸入圖像通常來自 X 光片或MRI等醫學成像設備,這些設備生成的成像結果各有差異,導致輸入圖像的數據分布多樣.這種多樣性增加了目標檢測網絡的訓練難度.針對這一問題,本文提出在目標檢測網絡前引入一個圖像分布映射子網絡,旨在將多樣性的膝關節圖像映射到一個統一的分布域中,從而降低訓練難度.與傳統的圖像增強網絡不同,子網絡不需要借助額外的監督信息來輔助訓練,也不需要增加圖像增強相關的歐氏距離損失函數進行監督,在反向傳播過程中,子網絡可以與目標網絡進行聯合訓練,其參數調整依賴于目標檢測的損失.基于此,本文設計了特征映射網絡模塊V-PENet,該模塊運用拉普拉斯金字塔原理[15]對輸入數據進行預處理,將復雜的數據分布統一映射到簡單的數據分布,幫助YOLO網絡更好的訓練.V-PENet結構如圖3所示.
圖2改進后YOLOv8結構Fig.2Structure of improved YOLOv8

V-PENet通過對原始圖像進行多次高斯模糊和下采樣,生成多個分辨率逐漸降低的圖像層.定義圖像 I∈Rh×w×3 作為輸入,通過式(1)獲得不同分辨率的子圖像,經過邊緣增強模塊和低頻增強濾波器(EEMandLEF,EL)處理后重組.其中,Down為下采樣,Gaussian為高斯濾波器操作,且高斯金字塔的下采樣是不可逆的.下采樣后恢復原始高分辨率圖像需要高斯模糊過程中丟失的信息,而這些丟失的信息構成拉普拉斯金字塔,定義如式(2)所示,其中, Li 為拉普拉斯金字塔的第 i 層, Gi 為高斯金字塔的第 i 層,Up為雙邊上采樣操作.執行式(2)的逆操作可重建高分辨率的圖片,通過逐層重建即可將完成的圖像輸入給YOLOv8.
圖3V-PENet結構


Li=Gi-Up(Gi+1).
在增強拉普拉斯金字塔中各分辨率的分量 (Li) )時,加人邊緣增強模塊(EdgeEnhancementModule,EEM)和低頻增強濾波器(Low-FrequencyEnhance-mentFilter,LEF),如圖4所示.
在EEM模塊中使用了Sobel算子[16].Sobel算子是一種可分離算子,主要有兩種形式,分別對應水平和垂直方向的邊緣檢測.本文在水平和垂直方向同時應用Sobel算子,其核心思路為在垂直與水平方向進行卷積,結合高斯濾波和微分運算,通過近似梯度計算來檢測圖像中的邊緣,并利用卷積濾波器進一步提取邊緣信息,以達到強化邊緣信息的能力.在不同尺度的分量中,低頻分量攜帶大量的圖像語義信息,為了豐富重建圖像中的語義信息,加入一種低頻增強濾波器(LEF).圖4中,先用濾波器獲取低頻信息,然后通過平均池化來過濾特征,借鑒Incep-tion[17] 多尺度結構,采用 1×1.2×2.3×3.6×6 的自適應池化,并在不同尺度分支的最后使用上采樣,以將特征重建至原始尺寸.通過通道分離,將 f 分為四部分,名為 {f1,f2,f3,f4} ,每部分由不同尺度的池化層處理,如式(3)所示,其中 Ii 是 f 進行通道分離后的某一部分, Up 是雙邊上采樣操作, ??βs 是 s×s 大小尺寸的自適應平均池化層.最后再對所有的 fi 進行拼接,重建為f∈Rhxw×3.
Fig.3V-PENet structure
圖4EL結構Fig.4EL structure

Filter(fi)=Up[βs(fi)].
EEM和LEF的結合確保了特征提取的全面性和準確性,再通過拉普拉斯金字塔的重建有效增強模型面對輸入膝關節圖像質量較低的處理能力,從而提高檢測分類的準確性.
2.3 語義感知模塊
在膝關節OA檢測分類任務中,理解和處理上下文語義關系至關重要,因為膝關節OA的表現形式多種多樣,可能包括關節間距變窄、軟骨損傷等多種特征,這些特征不是局部存在的,而是具有一定的上下文依賴和相互關聯性的.為此,本文在SPPF模塊前面添加了語意感知模塊(PTB),如圖5所示.
PTB主要包含LEM(LocalEncodingModule)和CSTB(CSWin TransformerBlock)[18]兩個部分.LEM作為局部編碼模塊專注于提取膝關節輸入圖像局部區域的高質量特征,將膝關節圖像中的微小且關鍵的局部特征進行編碼,確保這些信息在下游網絡不會被忽略.該部分首先通過 1×1 卷積降低通道維度,接著進行批歸一化來穩定訓練過程,再通過 3×3 深度卷積提取局部特征,最后將提取后的特征與原始輸入通過跳躍連接相加,以保留原始信息并增強特征表達,如式(4)所示.
YLEM=X+DWConv3×3(BN(Conv1×1(X))).
CSTB是一種致力于局部與全局特征交互的新型Transformer模塊,引入了交叉型窗口機制(CrossShapedWindowSelf-Attention,CSWin),如圖6所示.該機制的策略不同于現有的自注意力機制SwinTransformer[19]Axial Transformers[20],后兩者在按順序執行不同的注意操作,而在CSWin中,水平和垂直的自注意力是并行的,并且這種并行策略沒有引入額外的計算成本,在高效捕捉上下文的同時,還降低了計算復雜度.
Cross-ShapedWindowSelf-Attention

CSWin通過平行地在水平和豎直條文中執行自注意力機制形成十字形窗口來實現.根據多頭自注意力機制,輸入特征 X∈R(H×W×C) 將先線形投影到 K 個頭部,每個頭部再在水平或垂直條紋內執行局部自注意.對于水平條紋的自注意, X 被均勻地劃分為不重疊的水平條紋 [X1,X2,…,XM] .假設第 k 個頭部的投影查詢、鍵和值的維數都是 dk ,那么第 k 個頭部的水平條紋自關注的輸出定義為
X=[X1,X2,…,XM],
Yki=Attention(XiWkQ,XiWkK,XiWkV),

式中:Xi∈R(x)xC 是條帶寬度,可以用來平衡學習能力和計算復雜度; M=H/ws;i=1,…,m
分別表示第 k 個頭部的查詢、鍵和值的投影矩陣.同理也可推導出垂直條紋自注意力機制.最后將水平和豎直的輸出拼接在一起.CSWin可正式定義為

式中: Xl 表示第 ξl 個Transformer的輸出或者每一階段的前一卷積層.PTB模塊的加入不僅可以增強模型的細節識別能力,還可以增強這些細節之間關系的全文理解,優化上下文的融合,從而提升膝關節OA檢測任務的整體性能.
2.4注意力機制模塊
注意力機制廣泛應用于目標檢測算法領域,它旨在提升對關鍵特征信息的關注,降低無關信息的干擾.通過對輸入信息不同部分分配權重,增強網絡對重要特征的提取能力,從而提高檢測準確性.膝關節OA檢測任務中輸入的圖像特征大多集中在中尺度范圍,并且存在輸入圖像模糊、對比率不足等問題,導致原模型難以提取到膝關節病變區域有效特征.為提升模型對特征信息的提取能力,以及增強中尺度檢測頭在推理過程中的應用,本文在Head部分引人坐標注意力機制(CoordinateAttention,CA)[21].
圖6CSWin工作原理 Fig.6CSWin working principle
圖5PTB結構
Fig.5PTB structure

常見的注意力機制實現方式主要有壓縮與激勵(Squeeze-and-Excitation,SE)[22]注意力機制、卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)[23]等,前者僅側重內部通道的調整,忽略目標檢測任務中關鍵的位置信息和空間信息,后者引入卷積核來收集局部位置信息,但在捕捉特征圖的遠距離依賴方面表現不佳.本文引入的CA坐標注意力機制不僅可以捕獲特征圖的相關性、依賴性,還可以沿空間方向保留位置信息,表現出足夠的靈活性和輕量性,可以更有效地提取到中等尺度的特征信息.CA注意力機制結構如圖7所示.
與通過二維全局池化將特征張量轉換為單個特征向量的通道注意不同,CA注意力機制通過對輸入特征圖進行寬度和高度兩個方向的全局池化,生成兩個方向感知的注意圖.每個注意圖捕獲一個空間方向上的遠程依賴關系,并通過乘法操作應用于原始特征圖,來增強模型對中等尺度特征的關注度.給定輸人 X ,采用池化核的兩個空間范圍 (H,1) 或(1,W )分別沿橫坐標和縱坐標對每個通道進行編碼.在高度 h 處的第 c 通道輸出可以用式(10)表示,同理,寬度 w 的第 c 通道的輸出可以用式(11)表示.


將式(10)和(11)生成的聚合特征映射連接起來,發送到共享的 1×1 卷積變化函數 F1 ,得到 f= δ(F1([Zh,Zw])),δ 為非線性激活函數, f∈ R(C/r)(H+W) 為寬和高兩個方向編碼空間信息的中間特征圖.沿著空間維度把 f 分成兩個張量, fh∈ (204號 R(C/r)H , f′∈R(C/r)W ,再利用卷積變化為與輸人 X 具有相同通道號的張量,得
, gw= σ(F(fv) ),最后將輸出 gh 和 gw 分別展開,并作用注意力權重,最終的輸出可表示為

CA注意力機制的加入使得模型更加關注那些對中尺度檢測頭有利的特征,并通過自適應的權重調整,突出對中尺度檢測頭最重要的特征通道,這種機制增強了中尺度檢測頭在推理過程中的主要作用,可以提高模型在膝關節OA檢測分類任務中的表現能力.
2.5 優化損失函數
YOLOv8在計算邊界框回歸損失時,使用分布式聚焦損失(Distribution Focal Loss,DFL)[24]以及完全交并比損失(Complete IntersectionoverUnion,CI-oU)[25]方法.


式中:交并比(IU)用于度量預測邊框與真實邊框的重疊程度,即二者交集區域占二者并集區域的比例;ρ2(b,bgt) 表示預測框質心與真實框質心之間的歐氏距離; h 和 w 分別表示預測框的高度和寬度; hgt 和 wgt 分別對應真實框的高度和寬度; ch 和 cw 分別表示預測框與真實框形成的最小包圍矩形的高度和寬度.
CIoU作為IoU的改進形式,解決了預測框與真實框無交集時無法反映二者距離的問題.但CIoU未能有效平衡難易檢測樣本,導致對小目標檢測效果不佳,也未單獨考慮邊界框寬高與置信度的差異,這可能會影響回歸目標的準確性.另外,CIoU的計算涉及逆三角函數,會增加計算開銷和模型能耗.
為此,本文采用WIoU(WiseIoU)損失替代CIoU.Tong等[26]提出了三種版本的WIoU,其中,WIoUv1基于注意力機制用于預測框損失,WIoUv2和WIoUv3則添加了聚焦系數.考慮到縱橫比、質心距離及重疊區域等因素,并為降低逆三角函數帶來的算數計算開銷,WIoU v3 擁有出色的動態非單調聚焦機制,更適合膝關節OA檢測分類任務,因此,本文選擇WloU v3 作為改進模型的損失函數,
圖7CA注意力機制結構
Fig.7Coordinate attention module structure

LWIoUv1=RWIoU×LIoU,LIoU=1-IoU,


式中: LIoU∈[0,1) 表示IoU損失,當錨框與目標框較吻合時降低其對中心點距離的關注; RWIoU∈[1,e) 為WIoU的懲罰項,用作放大普通質量錨框損失;LIoU? 表示單調焦點系數; LIoU- 為歸一化因子,表示動量的滑動平均值; β 表示離群度,離群度小代表錨框質量高,會分配較小的梯度增益給離群度較大的錨框,有效防止低質樣本產生的較大的有害梯度,使邊界框回歸聚焦到普通質量的錨框上; α 和8為超參數,分別為1.9和3.WIoUv3通過引入動態非單調機對錨框質量進行評估,提升了模型對對象定位的能力.膝關節OA檢測分類任務中,膝關節的形態變化可能復雜且不規則,WIoUv3損失函數能夠根據目標區域具體情況,給邊界框內不同區域分配不同的權重,以提高模型的檢測性能.
3實驗結果與分析
3.1 實驗設置
本文采用Linux操作系統,處理器(CPU)為In-telXeonPlatinum8280,開發環境為Python3.8.19,PyTorch1.10在NVIDIAGeForeRTX309024GBGPU進行實驗,所有模型都在相同的實驗環境下執行.圖像輸入尺寸為 640×640 ,訓練總共進行100個Epoch,初始學習率設為0.01,動量設置為0.937,權重衰減設置為0.0005,訓練過程使用Mosaic數據增強策略.
3.2 數據集介紹
本文使用KneeXrayDate數據集,來自骨關節炎倡議(OAI)[27],數據集中包含4130張X射線圖像,每張圖片的像素是 320×256 訓練集和測試集比例為8:2,測試集包含828張X射線圖像和1656個膝關節,其中,KL0級膝關節639個,KL1級膝關節296個,KL2級膝關節447個,KL3級膝關節223個,KL4級膝關節51個.從圖像尺寸上看,膝關節數據屬于中等尺度的目標,表明當前數據集以中尺度對象為主.
3.3 評價指標
為了評價本文提出的改進模型的性能,本文采用的評估指標包括準確率(Precision, P )、召回率χ′Recall,Rχ) 、平均精度值(mean Average Precision,mAP)、模型計算量(GigaFloating-pointOperationsPerSecond,GFLOPs)模型參數規模(Params)等.其中, P,R,mAP 計算公式如下:



式中:TP表示模型正確地將正樣本識別為正樣本的實例數;FP表示模型錯誤地將負樣本預測為正樣本的數量;FN表示被錯誤判定為正樣本的負樣本數量.
3.4 實驗結果與分析
3.4.1與基準模型對比
為了驗證改進模型的檢測效果,將改進后的 YOLOv8與原始YOLOv8模型在相同參數和實驗環 境下分別訓練100個Epoch,然后在驗證集上進行測 試.表1是改進后的模型與原始模型的關鍵性能指 標的對比.可以看出,改進后YOLOv8的 P,mAP@
均優于原始YOLOv8n.
表1改進模型與原始模型指標對比 Table1Performance comparison between improvedmodelandoriginalmodel

3.4.2 消融實驗
為了評估各個模塊對模型性能的提升,基于YOLOv8進行系列消融實驗,分別測試特征增強模塊(A)增強語義感知模塊(B)、注意力機制模塊(C)和損失函數WIoU v3 (D)的效果.實驗結果如表2所示.由表2可知:添加特征增強模塊后,模型的準確率提高6.4個百分點, mAP@0.5 提高5.8個百分點;單獨引入增強語義感知模塊后,模型的上下文理解能力有所增強,準確率提高5.7個百分點, mAP(ω 0.5提高4.5個百分點;在添加注意力機制模塊的情況下,模型在對關鍵特征選擇上的表現得到優化,準確率提高6.7個百分點, mAP@0.5 提高4.3個百分點,且計算量和參數量的增加較小;將CIoU損失函數替換為WIoUv3損失函數后,在模型參數量大小不變、計算量減小的情況下準確率提升3.2個百分點, mAP@0.5 提高2.9個百分點;將所有改進模塊集成后,模型準確率顯著提升9.9個百分點, mAP(a) 0.5提高7.9個百分點,達 81.2% .實驗結果驗證了各個模塊的有效性,并表明它們在模型中具有較好的兼容性.
表2消融實驗效果 Table2Results of ablation experiments

3.4.3 對比實驗
為了驗證改進的YOLOv8模型的有效性,本文選取其他模型進行對比實驗.對比模型包括DDOD[28]、Faster-RCNN、Retinanet[29]、SSD、YOLOv8n以及本文提出的改進YOLOv8模型.如表3所示,本文改進模型在關鍵指標上優于對比模型.Faster-RC-NN作為兩階段目標檢測算法,模型參數量大,其低分辨率特征圖對微小目標檢測精度較低,而SSD算法同樣存在此問題;Retinanet受單階段算法結構限制檢測效果遜于兩階段算法;DDOD檢測效果有所提升,但仍然存在精度不夠、模型計算量高等問題;YOLOv9c 雖然在檢測精度方面得到了提升,但計算量仍然過高;YOLOv10在計算量大小以及模型參數方面表現不錯,但檢測精度方面略有不足.綜上所述,本模型在膝關節OA檢測分類中展現更加優越的性能,相比其他模型具有綜合優勢.
表3不同目標檢測算法對比 Table3Performance comparison between differentobjectdetectionalgorithms

3.4.4泛化能力實驗
為了驗證本文改進后的模型具有普適性和泛化性,選擇在公開數據MOST-MulticenterOsteoarthritisStudy[30]上進行泛化實驗.數據集中包含2920張X射線圖像,共有5840張膝關節圖像,其中,KL0級膝關節2498個,KL1級膝關節1018個,KL2級膝關節923個,KL3級膝關節971個,KL4級膝關節430個.訓練集和測試集比例為 8:2 ,標簽分類與KneeXrayDate數據集相同,實驗環境和配置與前文相同.實驗結果如表4所示.
表4泛化能力實驗結果Table 4Experiments on generalization capability (20 %

從表4可以看出,相較主流模型,改進后模型的檢測精度有不同程度的提升.實驗結果充分驗證了改進后模型在膝關節OA檢測分類上具有較好的普適性和泛化能力.
3.4.5 實驗結果可視化分析
為了更直觀地證明本文提出模型的檢測效果,本文對比了 Υ0LOv8n 與改進模型的檢測效果.如圖8所示, Υ0LOv8n 模型在檢測病變的不同嚴重程度時表現出較為顯著的分類偏差和置信度波動,尤其是在KL分級較高的病變識別中存在誤判,例如,將KL2的病變誤判為KL0,并在KL1與KL2病變的區分上,置信度顯著偏低,表現出識別能力的不足.而改進后模型顯著提升了檢測性能,其檢測結果與標準分類高度一致,分類精準度顯著增強,且在KL級別的細微差異識別中表現更穩定.改進的模型不僅精確識別KL2、KL3及KL4的病變,且整體置信度更穩定.
4結語
針對膝關節OA檢測分類過程中的復雜性,以及對細微病變特征的辨別能力有限、分類不準確等問題,本文提出一種基于YOLOv8的改進算法模型.該模型增加了特征提取模塊,通過高斯模糊和拉普拉斯金字塔重塑圖像質量,以增強輸人圖像暗淡、質量較低等問題.加入語義感知模塊,通過交叉窗口機制,增強模型對上下文的理解能力,進一步提高模型的檢測性能.同時,引入CA坐標注意力機制,提取多尺度特征并聚焦有用的信息且在不顯著增加計算負擔的前提下提升性能.采用損失函數WIoUv3替換YOLOv8中的CIoU損失函數.通過對比驗證,表明改進后的模型在膝關節OA檢測分類任務中有著優秀的表現.后續,將考慮使用更為豐富的圖像數據對改進模型進行訓練,以提高其在不常見病變類型上的檢測分類精度.
圖8模型檢測結果對比
Fig.8Comparison of model detection results

參考文獻References
[1]Neogi T.The epidemiology and impact of pain inosteoarthritis[J].Osteoarthritis and Cartilage,2013,21(9): 1145-1153
[2]張二瑞,黃遂柱.膝關節骨性關節炎診斷及治療的研 究[J].醫學信息,2021,34(12):58-60 ZHANG Errui,HUANG Suizhu. Diagnosis and treatment of knee osteoarthritis[J].Journal of Medical Information, 2021,34(12) :58-60
[3] KellgrenJH,LawrenceJS.Radiological assessmentof osteoarthrosis[J].Annals of the Rheumatic Diseases, 1957,16(4) :494-502
[4]Redmon J,Divvala S,Girshick R,et al. You only look once:unified,real-time object detection[C]//2O16 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA. IEEE,2016:779-788
[5]Girshick R,Donahue J,DarrellT,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]/2014 IEEE Conference on Computer VisionandPatternRecognition.June23-28,2014,Columbus,OH,USA.IEEE,2014:580-587
[6]Liu W,Anguelov D,Erhan D,et al. SSD: single shot multibox detector[M]//Lecture Notes in Computer Science.Cham:Springer International Publishing,2016: 21-37
[7]張建東.融合深度監督與改進YOLOv8的海上目標檢 測[J].南京信息工程大學學報,2024,16(4):482-489 ZHANG Jiandong. Fusion of deep supervision and improved YOLOv8 for marine target detection[J]. Journal of Nanjing University of Information Scienceamp; Technology,2024,16(4) :482-489
[8] Wang Y F,Wang X N,Gao TN,et al. An automatic knee osteoarthritis diagnosis method based on deep learning: data from the osteoarthritis initiative[J].Journal of Healthcare Engineering,2021:5586529
[9] SikkandarMY,BegumSS,AlkathiryA,etal.Automatic detection and classification of human knee osteoarthritis using convolutional neural networks[J]. Computers,Materialsamp; Continua,2022,70(3) :4279-4291
[10]Abdullah S S,Rajasekaran MP.Automatic detection and classfication of knee osteoarthritis using deep learning approach[J].La Radiologia Medica,2022,127(4): 398-406
[11]ShamirL,Ling S M,ScottW,et al.Early detection of radiographic knee osteoarthritis using computer-aided analysis[J].Osteoarthritisand Cartilage,2009,17(10): 1307-1312
[12]Zhu X K,Lyu S C,Wang X,et al. TPH-YOLOv5: improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios[C]//2021 Workshops(ICCVW).October11-17,2021,Montreal, BC,Canada.IEEE,2021:2778-2788
[13] Liu Y,Ao Y C.Deformable attention mechanism-based YOLOv7 structure for lung nodule detection[J]. The Journal of Supercomputing,2024,80(17) :25450-25469
[14] Lin TY,Dollar P,Girshick R,etal.Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). July21-26,2017,Honolulu,HI,USA.IEEE,2017: 936-944
[15] Yin X,Yu Z,Fei Z,et al. PE-YOLO: pyramid enhancement network for dark object detection[C]//International Conference on Artificial Neural Networks.September 26- 29,2023,Heraklion,Greece.Cham:SpringerNature Switzerland,2023:163-174
[16] 王云艷,周志剛,羅冷坤.基于 Sobel算子濾波的圖像 增強算法[J].計算機應用與軟件,2019,36(12): 184-188 WANG Yunyan, ZHOU Zhigang, LUO Lengkun. Image enhancement algorithm based on Sobel operator filtering [J].Computer Applications and Software,2019,36 (12) :184-188
[17] Szegedy C,Liu W,Jia YQ,etal.Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). June7-12, 2015,Boston,MA,USA. IEEE,2015:1-9
[18] DongXY,BaoJM,ChenDD,etal.CSWin Transformer:a general vision Transformer backbone with crossshaped windows[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). June 18-24,2022,New Orleans,LA,USA.IEEE,2022: 12114-12124
[19] Liu Z,Lin Y T,Cao Y,et al.Swin Transformer:hierarchical vision Transformer using shifted windows[J].arXiv e-Print,2021,arXiv:2103.14030
[20]Ho J,Kalchbrenner N,Weissenborn D,et al.Axial attention inmultidimensional transformers[J].arXiv e-Print, 2019,arXiv:1912.12180
[21] Hou Q B,Zhou D Q,Feng J S. Coordinate attention for efficient mobile network design[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 20-25,2021,Nashville,TN,USA. IEEE, 2021:13708-13717
[22] Hu J,Shen L,Sun G. Squeeze-and-excitation networks [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:7132-7141
[23] Woo S,Park J,LeeJY,et al.CBAM:convolutional block attention module[M]//Lecture Notes in Computer Science.Cham:Springer International Publishing,2O18:3-19
[24] LiX,WangW,WuL,etal.Generalized focal loss:learning qualified and distributed bounding boxes for dense objectdetection[J].Advances inNeural Information Processing Systems,2020,33:21002-21012
[25]Zheng Z H,Wang P,Liu W,et al. Distance-IoU loss:faster and better learning for bounding box regression[J]. Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(7):12993-13000
[26]Tong ZJ,Chen Y H,Xu Z W,et al.Wise-IoU:bounding box regression loss with dynamic focusing mechanism [J].arXiv e-Print,2023,arXiv:2301.10051
[27] ChenPJ,GaoLL,ShiXS,et al.Fully automatic knee osteoarthritis severity gradingusing deep neural networks withanovel ordinal loss[J].Computerized Medical ImagingandGraphics,2019,75:84-92
[28] ChenZH,YangC,LiQF,etal.Disentangleyour dense objectdetector[C]//Proceedingsofthe29thACMInternational Conference on Multimedia.October 21-25, 2021,Chengdu,China.ACM,2021:4939-4948
[29] LinTY,GoyalP,GirshickR,etal.Focal lossfordense objectdetection[C]//2O17 IEEEInternational Conference on Computer Vision (ICCV).October 22-29, 2017,Venice,Italy.IEEE,2017:2999-3007
[30] AntonyJ,McGuinnessK,MoranK,etal.Automaticdetection of knee joints and quantification of knee osteoarthritisseverityusing convolutional neural networks [M]/1 Lecture Notes in Computer Science.Cham:Springer InternationalPublishing,2017:376-390
Improved YOLOv8 algorithm for detection and classification of knee osteoarthritis
LI Hongda1YANG Nan1YAO Dongyan2WANG Chaoming? 1School of Automationand Electrical Engineering,Shenyang Ligong University,Shenyang 11O159,China 2School of Economics and Management,Shenyang Ligong University,Shenyang 11O159,China 3Shenyang Dongkela Technology Co.,Ltd.,Shenyang 11OoO2,China
AbstractKnee osteoarthritis isoften misdiagnosed due tounclear categorizationduring examination,whichaffects therapeuticoutcomes.Existingdetection methods strugle with detection accuracyand precise diferentiationof lesion categories.Here,we propose an improved classification algorithm based on YOLOv8 specifically for knee osteoarthritis,aiming toimprove theaccuracyof detectionand clasification.Firstly,adistributionmapping module(Visual-Pyramid Enhanced Network,V-PENet)is designed,which facilitates better training of YOLO network by preprocessing the input images and uniformly mapping complex data distributions into simpler ones.Meanwhile,a semantic perception module (PixelTransBlock,PTB)is added to enhance the model’s context-awarenessand its understandingof global information.Furthermore,the Coordinate Atention(CA)mechanism is introduced to enrich featureinformationand further enhancethe model’sabilityto capturemedium-scale target information.Finaly,the Wise Intersection over Union(WIoU v3)lossfunction replaces the original Complete IoU to optimize the positioning accuracy. Compared with the benchmark model Υ0LOv8n ,the proposed algorithm achieves an improvement of 9.9 percentage points in accuracy,with mAP@0.5 reaching 81.2% . Compared with other detection methods,the improved model proposed in this paper has a significant advantage in accuracyand can better meet the needs of kneeosteoarthritis detection and classification.
Key Wordsobject detection ;knee osteoarthritis;distribution mapping;YOLOv8 ;coordinate attention