鐘彩 彭春富 杜微 楊興耀
(常德職業技術學院 湖南省常德市 415000)
所謂圖像分割,是根據相似性準確原理,把圖像分面若干個性質獨特區域,每一個區域有相似甚至是相同性質,把感興趣的目標區域從復雜背景區域中有效提取[1]。任何分割算法都不能保證準確無誤地分割性能,通過細胞圓心法則把尿液紅細胞定位、分割,可明確一個圓。但分割時會連同摻入一引起雜質,這些均不計于紅細胞內,為了有效識別紅細胞以及非紅細胞,將細胞特征提取、分析[2]。
基于此背景,文章主要分析尿液內的紅細胞,對紅細胞定位、分割,同時攝取特征圖像,由于不同的模式特點,判決決策方法也是不一樣的。文章運用NNC-最近鄰距離分類器,對樣本進行識別、分類處理。該方法傳統運用至分類器中,其將模式判別和其最近樣本同類,性能和各模式在子空間分布特點相關,可有效增強各模式子空間的分布特點,提升分類器性能,本系統在傳統鄰分類算法的基礎上進行了適當改進,通過分類判別函數和分類規則,進行匹配判別,實現全自動統計分類計數。
在數據挖掘領域中,分類是一項極重要的技術,根據已構建的分類模型數據庫,預測需要分類的數據類別。最近鄰分類算法,也叫K 最近鄰分類(kNNc,k-Nearest Neighbor Classification)算法,具有二次方的時間復雜度,這是以實例學習為基礎的分類算法。其分類是以需要分類樣本特點空間的K 個最近鄰樣本多數類別開展,其優勢在于容易實現、分類準確度高,可廣泛運用各種領域,如模式識別、特征選擇、異常點檢測等等[3]。
在傳統的算法過程中,需要需要檢測的樣本和數據集中每一個樣本,計算其距離,所以所花的時間非常長。同時,在分類識別過程中,傳統算法默認了訓練集中各個樣本每一個特點對于分類結果權重影響是相同的,但在很多運用場合訓練集中各特點,對分類結果影響也是不一樣的。本系統在原有的算法基礎上進行了適當修改,而在實際識別中,運用附加權值法對臨近點的結果影響放大,對原已知樣本點去權衡,對于分類作用不大的樣本行剔除處理[4]。
文章選用NNC-最近鄰距離分類器,對樣本進行識別分類。憑單兩特征距陣:

這兩者距離定義如下:

圖1:實驗所需原始圖像
機器學習是通過計算機手段,利用經驗改善系統自身性能,系統運用監督機器學習,輸入紅細胞的樣本集(已知),根據樣本集中紅細胞特點計算機判斷目標樣本,行推演、判斷,得出目標樣本結果機器學習法。在整個過程中其內容是在計算機中,由已知數據產生模型算法,也就是說,可以根據已知的紅細胞特征樣本,來判斷目標集中紅細胞和非紅細胞。根據紅細胞在尿液的特點,與KNNC 分類法相結合,在算法編程前已設定本算法識別法,將紅細胞、非細胞,在算法分別規定成:紅細胞-1、非紅細胞-0,根據分類的規則,依次對尿液中的非紅細胞以及紅細胞進行識別。

表1:學習、測試結果實驗圖

圖2:測試訓練過程圖

圖3:識別結果圖
本次實驗庫中,共有1680 個樣本,200 個圖,其中1060 個樣本,即120 幅為訓練集。620 個樣本,即80 個圖為測試集。樣本提取過程如圖1。
于測試集提取280 個樣本為測試樣本,分別進行學習、測試,形成實驗圖44 個。以下只簡單羅列幾個為參考分析,圖2 中所示的Rs 值意思是識別率,以%表示。
測試樣本固定為280 時,采用訓練集中樣本測試,形成學習、測試結果,數據如表1所示。
測試過程中,對應的Rs(識別率)變化曲線圖形如圖3。
圖1 是采集到的原始尿液中紅細胞圖像,圖2 是在學習和測試過程中得到的實驗圖,實驗下得到的圖像較多,本文只取一個樣例,表1 是學習樣本和測試樣本訓練過程實驗數據,圖3 是在最近鄰分類算法下得到的識別結果圖。由圖3 可明顯看出,學習樣本少的情況結果理想,增加學習樣本時,其復雜性也不斷增加,因此學習過程較難,學習結果識別率也會不斷減少。學習樣本70 前其識別率有上升的情況,也有下降的形勢,變化未有規律可尋,但學習樣本從70 開始測試識別率呈現的是上升變化的形勢。測試時保持平衡變化。但總體分析,學習樣本增加其識別率基本也是上升變化的,學習樣本150 后識別率可在85%以上,最高識別率可達93%,當學習樣本更多的情況下,識別率將會更高。本項目基于卷積神經網絡模型基礎上,小樣本情況其分布高斯性分高通常不成立。為提升算法特征的提取力,對樣本數據有一些要求。從實驗圖形可看出,學習樣本在開始增加時偶見少許偏差,主要是由于在小訓練樣本條件下受到若干影響[5]。而訓練樣本充足時,因為其分布已接近高斯性假設,此時基于卷積神經網絡模型特征提取能力還是能讓人滿意的,所以在訓練樣本多情況下,該模型也是較為有效的攝取法[6]。
綜上,文章研究了尿液中的紅細胞自動分類,依照分類規則算法判斷細胞是紅細胞還是非紅細胞。在實驗研究中發現了NNC 算法仍有一定局限性,識別率失真大,對于判斷是不是為目標細胞而言,較為困難,且此算法合適樣本容易大的區域自動分類,而樣本容量小的區域運用該算法容易有分歧。且形成分中目標復雜而且類型多,即同類細胞在形態、紋理上特征不同。尿沉渣中也有很多成分未能識別,特別是一些不規則形態的細胞,或是和已識別成分非常相近的成本等,容易誤識別。這些均是未來需要解決的。在今后研究需要不斷完善此算法,不斷挖掘細細胞新特點進行深入分析,達到最有效的識別效果。