唐普霞 石麗怡
摘 要: 針對(duì)傳統(tǒng)圖像方法的分類(lèi)精度難題,提出基于數(shù)據(jù)挖掘的圖像分類(lèi)算法。首先構(gòu)建多媒體數(shù)據(jù)庫(kù)中的圖像檢索信道模型,并進(jìn)行向量量化編碼,然后采用Harris角點(diǎn)檢測(cè)算法提取圖像特征點(diǎn),并采用模糊C均值聚類(lèi)算法實(shí)現(xiàn)圖像分類(lèi)。實(shí)驗(yàn)結(jié)果表明,該算法可以對(duì)圖像內(nèi)容信息進(jìn)行準(zhǔn)確的表達(dá),提高了圖像分類(lèi)的精度,具有較強(qiáng)的魯棒性。
關(guān)鍵詞: 數(shù)據(jù)挖掘; 圖像分類(lèi); 特征提取; 模糊C均值聚類(lèi)
中圖分類(lèi)號(hào): TN911.73?34; TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)03?0054?04
Image classification algorithm based on data mining
TANG Puxia, SHI Liyi
(Department of Public Safety Technology, Hainan Vocational College of Political Science and Law, Haikou 571100, China)
Abstract: Aiming at the classification accuracy of the traditional image method, an image classification algorithm based on data mining is put forward. The image retrieval channel model of the multimedia database was constructed. The image was performed with vector quantization coding. The Harris corner detection algorithm is used to extract the feature points of the image. The fuzzy C?means clustering algorithm is adopted to classify the image. The experimental results show that the algorithm can express the image content information accurately, improve the accuracy of the image classification, and has strong robustness.
Keywords: data mining; image classification; feature extraction; fuzzy C?means clustering
0 引 言
隨著數(shù)字圖像處理技術(shù)的發(fā)展,各行各業(yè)均構(gòu)建了圖像數(shù)據(jù)庫(kù),尤其對(duì)于大型多媒體圖像數(shù)據(jù)庫(kù),對(duì)圖像進(jìn)行分類(lèi)和檢索可以幫助用戶(hù)找到需要的圖像,因此研究圖像分類(lèi)算法在多媒體信息訪問(wèn)和數(shù)據(jù)挖掘中具有重要意義。
圖像分類(lèi)的關(guān)鍵是關(guān)鍵特征點(diǎn)的準(zhǔn)確挖掘和特征提取,傳統(tǒng)方法主要有模糊C均值聚類(lèi)、邊緣輪廓融合濾波檢測(cè)法、Harris角點(diǎn)檢測(cè)法、高階累積量特征檢測(cè)算法等[1?3],它們通過(guò)特征點(diǎn)提取和信息分析實(shí)現(xiàn)圖像分類(lèi),并取得了一定的研究成果。文獻(xiàn)[4]提出基于邊緣輪廓特征點(diǎn)自相關(guān)匹配檢測(cè)的圖像分類(lèi)算法,并應(yīng)用在大型多媒體網(wǎng)絡(luò)數(shù)據(jù)庫(kù)圖像分類(lèi)中,取得了較好的分類(lèi)效果,但計(jì)算開(kāi)銷(xiāo)較大,實(shí)時(shí)性差;文獻(xiàn)[5]提出SIFT(Scale?Invariant Feature Transform)角點(diǎn)檢測(cè)的視頻輸出圖像分類(lèi)算法,通過(guò)對(duì)角點(diǎn)掃描確定圖像分類(lèi)主方向和生成特征點(diǎn),以此為基礎(chǔ)進(jìn)行圖像的分類(lèi)識(shí)別,提高圖像分類(lèi)的實(shí)時(shí)性,但由于結(jié)合語(yǔ)義特征提取,受到擾動(dòng)影響大,圖像分類(lèi)準(zhǔn)確度低[6?8]。
針對(duì)上述問(wèn)題,本文提出數(shù)據(jù)挖掘的圖像分類(lèi)算法,構(gòu)建多媒體數(shù)據(jù)庫(kù)中的圖像檢索信道模型,對(duì)采集的圖像進(jìn)行向量量化編碼,采用Harris角點(diǎn)檢測(cè)算法進(jìn)行圖像的特征點(diǎn)提取挖掘,以提取的特征點(diǎn)為數(shù)據(jù)輸入,采用模糊C均值聚類(lèi)算法實(shí)現(xiàn)數(shù)據(jù)挖掘和圖像分類(lèi),最后通過(guò)仿真實(shí)驗(yàn)進(jìn)行圖像分類(lèi)算法的性能測(cè)試和驗(yàn)證,從分類(lèi)的準(zhǔn)確性和輸出峰值信噪比方面進(jìn)行性能分析,得到有效性結(jié)論。
1 圖像采集及預(yù)處理
1.1 圖像采集
為了實(shí)現(xiàn)對(duì)圖像的分類(lèi)和檢索,需要進(jìn)行圖像采集和信道模型構(gòu)建,首先把圖像存儲(chǔ)檢索信道分成[3×3]拓?fù)浣Y(jié)構(gòu),設(shè)置4個(gè)圖像檢索信道模型,分別為水平方向、垂直方向、左對(duì)角線方向以及右對(duì)角線方向,具體如圖1所示。
在圖1中,[p1,][p2]和[p3]分別代表圖像在仿射不變區(qū)域的邊緣像素特征點(diǎn),把四個(gè)多媒體數(shù)據(jù)庫(kù)圖像采集通道的信息特征進(jìn)行數(shù)據(jù)結(jié)構(gòu)分解,提取圖像在四個(gè)檢索信道的向量量化參量為[x1,][x2,][x3,][x4,]表示為:
[x1=p1-mx2=p2-mx3=p3-mx4=m] (1)
式中[m]為圖像檢索的嵌入維數(shù)。
設(shè)[A]為論域[U]上的模糊集,構(gòu)建圖像像素特征分布的模糊規(guī)則集合,則圖像像素特征模糊隸屬度函數(shù)為[A=x,SA(x)x∈U,]在有限圖[G=(V,E)]中,圖像的灰度值[SA]是論域[U]到實(shí)數(shù)閉區(qū)間[0,1]的映射,即[U→[0,1]],并稱(chēng)[SA]為尺度中心,[SA(x)]為大型多媒體數(shù)據(jù)庫(kù)圖像像素點(diǎn)[A]中元素[x]的隸屬度,構(gòu)建多媒體數(shù)據(jù)庫(kù)存儲(chǔ)圖像的采集和圖像檢索信道模型。
1.2 圖像向量量化編碼預(yù)處理
在圖像采集和圖像檢索的基礎(chǔ)上,通過(guò)圖像向量量化編碼處理,實(shí)現(xiàn)對(duì)多媒體數(shù)據(jù)庫(kù)的圖像存儲(chǔ)特征優(yōu)化聚類(lèi),圖像向量量化矩陣描述為:
[H=Lxx(x,σ)Lxy(x,σ)Lxy(x,σ)Lyy(x,σ)] (2)
式中:[Lxx(x,σ)]為圖像像素旋轉(zhuǎn)不變矩;[Lxy]和[Lyy]分別為二值化的尺度空間向量量化系數(shù)。
對(duì)圖像中的像素特征點(diǎn)進(jìn)行歸一化特征分解,得到信息點(diǎn)的碼書(shū)[x(P(An))={x(sj)}, j=1,2,…,N,]對(duì)圖像邊緣輪廓進(jìn)行向量量化特征聚類(lèi)空間劃分,得到圖像檢索信道中的圖像[S]在網(wǎng)格點(diǎn)[(x,y)]處的壓縮編碼輸出特征參量滿足[minc∈r,g,bminy∈Ω(x)Ic(y)A→1,]此時(shí)連通區(qū)域滿足[t(x)→0,]構(gòu)建仿射不變的尺度空間,由于圖像的像素幅值[A>0,]所以對(duì)每個(gè)尺度[σ(n)]的角點(diǎn)進(jìn)行圖像向量量化編碼,輸出編碼結(jié)果為:
[R(k1,k2)=F(k1,k2)G(k1,k2)F(k1,k2)G(k1,k2)=ejθ(k1,k2)] (3)
式中[ejθF(k1,k2)]和[ejθG(k1,k2)]為相位分量。
在多媒體數(shù)據(jù)庫(kù)中,兩幅大小為[N1×N2]的位圖圖片[f(n1,n2)]和[g(n1,n2),]圖像向量量化編碼的每個(gè)像素點(diǎn)的均方誤差[x(sj)]通過(guò)二維函數(shù)擬合得到向量空間圖像信息的指向性聚類(lèi)中心,表示為:
[x(sj)=1sjxi∈sjxi] (4)
式中[sj]表示[sj]中圖像的相似度。
建立層級(jí)匹配量化編碼模型,得到向量信息融合中心輸出的特征信息為:
[F(k1,k2)=n1n2f(n1,n2)wk1n1N1wk2n2N2=AF(k1,k2)ejθF(k1,k2)] (5)
[G(k1,k2)=n1n2g(n1,n2)wk1n1N1wk2n2N2=AG(k1,k2)ejθG(k1,k2)] (6)
式中:[AF(k1,k2)]和[AG(k1,k2)]是圖像的互相位相關(guān)函數(shù)。
在多媒體數(shù)據(jù)庫(kù)中,圖像檢索的區(qū)域分布函數(shù)為:
[Ecv(c1,c2)=μ?Length(C)+ν?Area(inside(C))+λ1inside(C)I-c12dxdy+λ2outside(C)I-c22dxdy] (7)
式中:[c1]和[c2]為亞像素偏移特征系數(shù);[Length(C)]為待匹配窗口的歸一化長(zhǎng)度;[Area(inside(C))]為輪廓參考點(diǎn)和匹配點(diǎn)的梯度模;[μ,ν,λ1]和[λ2]為向量量化編碼的修正權(quán)重系數(shù)。
2 數(shù)據(jù)挖掘的圖像分類(lèi)算法
2.1 圖像量化融合特征點(diǎn)數(shù)據(jù)挖掘
傳統(tǒng)的圖像分類(lèi)方法采用圖像邊緣輪廓分割方法,結(jié)合語(yǔ)義特征提取實(shí)現(xiàn)圖像聚類(lèi)檢索,在受到較大的擾動(dòng)作用下圖像分類(lèi)的準(zhǔn)確度不高。為了克服傳統(tǒng)方法的弊端,提出數(shù)據(jù)挖掘的圖像分類(lèi)算法,采用Harris角點(diǎn)檢測(cè)算法進(jìn)行圖像的特征點(diǎn)提取挖掘[9],圖像Harris角點(diǎn)檢測(cè)模型如圖2所示。
對(duì)圖2中對(duì)角點(diǎn)周?chē)南袼攸c(diǎn)子集進(jìn)行歸一化分割,得到圖像邊緣輪廓直線段的尺度值為:
[s(k)=??s(k-1)+w(k)] (8)
其中:
[?=1000001100001000001100001,w(k)=N(0,σθ(k))0N(0,σx(k))0N(0,σy(k))] (9)
采用中值濾波器進(jìn)行角點(diǎn)檢測(cè),初始化角點(diǎn)匹配濾波器,定義[K=0,]求解得圖像的第[t]幀中點(diǎn)的變化分量,采用數(shù)據(jù)挖掘方法進(jìn)行圖像的角點(diǎn)篩選,得到特征點(diǎn)匹配函數(shù)為:
[skk-1=??sk-1k-1] (10)
對(duì)圖像進(jìn)行量化融合,求得相應(yīng)時(shí)刻子塊內(nèi)的圖像角點(diǎn)[x,y]的像素空間特征軌跡,因[s(k)=θ(k),Δx(k),][Δy(k),]對(duì)圖像灰度化輸出數(shù)據(jù)信息進(jìn)行特征匹配,得到圖像量化融合的迭代過(guò)程描述為:
[t(x)=1-minc∈r,g,bminy∈Ω(x)Ic(y)A] (11)
[U(x)=1-t(x)=minc∈r,g,bminy∈Ω(x)Ic(y)A] (12)
式中:[Ic(y)]為圖像角點(diǎn)的關(guān)聯(lián)特征值;[A]為幅度;[Ω(x)]為直方圖灰度圖像的鄰域空間。
通過(guò)圖像量化融合特征點(diǎn)數(shù)據(jù)挖掘,以提取的特征點(diǎn)為數(shù)據(jù)輸入進(jìn)行圖像分類(lèi)處理。
2.2 圖像分類(lèi)算法
采用模糊C均值聚類(lèi)算法進(jìn)行圖像特征分類(lèi)檢索,假設(shè)圖像量化融合特征點(diǎn)的數(shù)據(jù)時(shí)間序列為[x(t),][t=0,1,2,…,n-1],模糊C均值聚類(lèi)的初始窗口定義為:
[u=[u1,u2,…,uN]∈RmN] (13)
求得圖像分類(lèi)特征點(diǎn)的參考點(diǎn)搜索匹配點(diǎn)時(shí)的最大梯度差像素為:
[AVGX=1m×nx=1ny=1mGX(x,y)] (14)
式中:[m,n]分別是窗口最大級(jí)數(shù)和時(shí)間窗口的寬度。
提取圖像分類(lèi)特征點(diǎn)的波束指向性信息,根據(jù)待匹配圖像的亞像素偏移信息進(jìn)行自適應(yīng)加權(quán),得到輸出的加權(quán)向量為:
[x(t)=(x0(t),x1(t),…,xk-1(t))T] (15)
采用一個(gè)[1×N]的窗口進(jìn)行圖像分類(lèi)的聚類(lèi)中心搜索,確定圖像Harris角點(diǎn)的大小[N,]計(jì)算其Harris角點(diǎn)的加權(quán)向量[ωj]的空間距離,表示為:
[dj=i=0k-1(xi(t)-ωij(t))2, j=0,1,2,…,N-1] (16)
以提取的特征點(diǎn)為數(shù)據(jù)輸入,采用LGB向量量化編碼進(jìn)行圖像的聚類(lèi)中心劃分[10],[lmax]級(jí)匹配窗口表示為:
[U={μiki=1,2,…,c,k=1,2,…,n}] (17)
計(jì)算兩個(gè)匹配窗口間的先驗(yàn)知識(shí)篩選模型,圖像檢索的初始狀態(tài)為[xi(0)=xi(0)],通過(guò)模糊C均值聚類(lèi)得到圖像優(yōu)化分類(lèi)的目標(biāo)函數(shù)為:
[Jm(U,V)=k=1ni=1cμmik(dik)2] (18)
根據(jù)數(shù)據(jù)挖掘模型提取特征點(diǎn),求像素樣本[Vi]的測(cè)度距離[(dik)2=xk-Vi2,]當(dāng)聚類(lèi)中心滿足:
[i=1cμik=1, k=1,2,…,n] (19)
此時(shí),在多媒體信息數(shù)據(jù)庫(kù)中,圖像優(yōu)化分類(lèi)的檢索目標(biāo)函數(shù)的極值為:
[μik=1j=1cdikdjk2m-1] (20)
[Vi=k=1m(μik)mxkk=1n(μik)m] (21)
通過(guò)上述算法設(shè)計(jì),以提取的特征點(diǎn)為數(shù)據(jù)輸入,采用模糊C均值聚類(lèi)算法實(shí)現(xiàn)數(shù)據(jù)挖掘和圖像分類(lèi)。
3 實(shí)驗(yàn)與結(jié)果分析
為了測(cè)試本文算法的圖像分類(lèi)性能,實(shí)驗(yàn)環(huán)境為:Intel[?] 2.3 GHz CPU,2 GB內(nèi)存,32位Windows 7系統(tǒng)的PC機(jī),利用Matlab 2014實(shí)驗(yàn)平臺(tái)進(jìn)行測(cè)試實(shí)驗(yàn)。待分類(lèi)的圖像如圖3所示,圖像的第[t]幀中點(diǎn)的變化分量[D=12,]嵌入維數(shù)[m=2,]角點(diǎn)篩選的失真閾值[ε]=0.24,尺度[σ(n)(1,2,…,n)=0.235,]待分類(lèi)圖像的初始分辨率為520×38,滑動(dòng)窗口歸一化時(shí)間寬度為1.4 s。
對(duì)圖3中的圖像進(jìn)行Harris角點(diǎn)檢測(cè),檢測(cè)結(jié)果如圖4所示。對(duì)圖像中的信息特征點(diǎn)進(jìn)行提取挖掘,以提取的特征點(diǎn)為數(shù)據(jù)輸入,采用模糊C均值聚類(lèi)算法實(shí)現(xiàn)數(shù)據(jù)挖掘和圖像分類(lèi),得到圖像中的信息特征分類(lèi)提取輸出結(jié)果如圖5所示。
從圖5可知,本文算法可以準(zhǔn)確實(shí)現(xiàn)圖像中信息特征的分類(lèi)識(shí)別,為了定量對(duì)比性能,采用本文方法和傳統(tǒng)方法進(jìn)行對(duì)比實(shí)驗(yàn),以分類(lèi)精度為測(cè)試指標(biāo),結(jié)果如圖6所示,執(zhí)行時(shí)間和輸出峰值信噪比的對(duì)比結(jié)果見(jiàn)表1,從圖6和表1可知,本文方法的圖像分類(lèi)精度和圖像峰值信噪比均要高于傳統(tǒng)方法,圖像分類(lèi)效果好,執(zhí)行時(shí)間短,說(shuō)明圖像分類(lèi)的實(shí)時(shí)性較好,結(jié)果驗(yàn)證了本文算法的優(yōu)越性。
4 結(jié) 語(yǔ)
本文研究了多媒體信息數(shù)據(jù)庫(kù)中的圖像優(yōu)化分類(lèi)問(wèn)題,提出數(shù)據(jù)挖掘的圖像分類(lèi)算法,結(jié)果表明,采用該算法進(jìn)行大型多媒體信息數(shù)據(jù)庫(kù)的圖像分類(lèi),對(duì)圖像中特征點(diǎn)的檢測(cè)準(zhǔn)確度較高,輸出峰值信噪比提升,提高了圖像分類(lèi)的準(zhǔn)確性和魯棒性。
參考文獻(xiàn)
[1] 陶淑蘋(píng),張續(xù)嚴(yán),金光,等.基于方向WPS改進(jìn)TDI CCD遙感圖像清晰度評(píng)價(jià)函數(shù)[J].紅外與激光工程,2013,42(8):2080?2084.
[2] 顧淑紅,花均南,呂濤.激光主動(dòng)探測(cè)成像中拼接算法設(shè)計(jì)與仿真研究[J].激光雜志,2016,37(2):30?33.
[3] 代具亭,湯心溢,王世勇,等.掃描型紅外焦平面探測(cè)器圖像實(shí)時(shí)傳輸系統(tǒng)[J].激光與紅外,2016,46(4):476?480.
[4] 王小玉,張亞洲,陳德運(yùn).基于多塊局部二值模式特征和人眼定位的人臉檢測(cè)[J].儀器儀表學(xué)報(bào),2014,35(12):2739?2745.
[5] 朱賀,李臣明,張麗麗,等.聯(lián)合灰度閾值分割及輪廓形態(tài)識(shí)別的河道提取[J].電子測(cè)量與儀器學(xué)報(bào),2014,28(11):1288?1296.
[6] 李武周,余鋒,王冰,等.基于形態(tài)學(xué)濾波的紅外圖像背景補(bǔ)償[J].紅外技術(shù),2016,38(4):333?336.
[7] 施曉東,劉格.一種光學(xué)遙感圖像海陸分割方法[J].國(guó)外電子測(cè)量技術(shù),2014,33(11):29?32.
[8] 羅澤峰,單廣超.基于網(wǎng)絡(luò)和虛擬多媒體技術(shù)的海戰(zhàn)平臺(tái)視景仿真實(shí)現(xiàn)[J].物聯(lián)網(wǎng)技術(shù),2015,5(3):91?92.
[9] 陸興華,張曉軍.人員圖像跟蹤過(guò)程中多人交叉區(qū)域防丟失方法[J].計(jì)算機(jī)仿真,2014,31(9):243?246.
[10] 張曉戎,王程成,胡光波,等.混沌差分優(yōu)化數(shù)據(jù)聚類(lèi)及在故障診斷中的應(yīng)用[J].壓縮機(jī)技術(shù),2013(6):16?21.