李志偉
摘要:對論文進行科學性學習研究與探討是提高科研能力的必經(jīng)之路。本文針對譜聚類算法科學研究進行分析、探討性學習,旨在通過研讀國內外高水平論文,獲得啟發(fā)和創(chuàng)作新思路,學習他人之長來提高自身科研能力。在此基礎上產(chǎn)生自己的想法、更好地創(chuàng)作,為后期將理論研究轉化為社會生產(chǎn)力奠定基礎。最后期望本文能夠對科研在一線的學者、研究人員提供幫助。
關鍵詞:譜聚類算法 相似度矩陣 學術研究
中圖分類號:TP301.6 文獻標識碼:A 文章編號:1007-9416(2016)07-0124-01
1 研究內容描述
文獻[1]針對醫(yī)學圖像數(shù)據(jù)難以用數(shù)學模型來表述和聚類的問題,提出了一種基于近似密度函數(shù)的醫(yī)學圖像聚類分析方法,該方法采用核密度估計模型來構造近似密度函數(shù),利用爬山策略來提取聚類模式。文獻[2]說明了各種密度函數(shù)的優(yōu)越性及使用高斯密度核的工程常用性,分析了計算高斯密度模型各參數(shù)的評價函數(shù),以及如何確定用到的參數(shù)。比如:模型個數(shù)如何確定,哪些樣本應該作為該數(shù)據(jù)點的影響樣本參與計算密度,哪些樣本被同一吸引子吸引,特征值參數(shù)epsilon(控制聚類特征點的存儲量)如何確定等理論。文獻[3]選用常用的懲罰似然形式AIC和BIC準則確定高斯融合模型的分量個數(shù),然后采用EM算法反復迭代得到最終收斂后的各個參數(shù)數(shù)值。文獻[4]提出了一種核密度估計方法用于估計模型的分量個數(shù)K,然后對原始圖像S的直方圖分成取樣得到對應的數(shù)據(jù)樣本SX,計算SX的估計密度,由EM算法得到的參數(shù)和爬山算法共同估計模型個數(shù)K,然后對K個模型分類。
文獻[5]為了減少有限融合模型中參數(shù)方法對先驗知識的過度依賴問題和莫尼切比雪夫正交多項式僅僅能夠處理灰度圖像的問題,提出了一種多變量切比雪夫正交多項式的融合模型彩色圖像分割方法。首先,由傅里葉分析和張量積理論得到多變量切比雪夫正交多項式,而后提出一種多變量正交多項式的非參數(shù)融合模型,期望積分平方誤差用于估計每個模型的平滑參數(shù)。第二,解決密度融合模型的估計模型分量個數(shù)問題,使用隨機非參最大期望算法估計作用該正交多項式,并得出每個模型的權重。
文獻[6]提出了一種改進的基于密度分布函數(shù)的聚類方法,該方法使用K最近鄰(KNN)的思想度量密度以尋找當前密度最大點, 即中心點。并使用區(qū)域比例將類從中心點開始擴展,每次擴展的同時引入半徑比例因子以發(fā)現(xiàn)核心點,再從該核心點的KNN擴展類,直至密度下降到中心點密度的給定比率時結束。
2 思路啟發(fā)
文獻[1-5]均是在基于高斯密度模型下采用爬山策略計算局部最大值,然后采用最大期望EM算法完成數(shù)據(jù)聚類,整個過程不涉及樣本相似矩陣的構造。也可將聚類過程理解為概率模型下的最大似然樣本類的劃分。不涉及譜聚類。文獻[6]在得出每個樣本的高斯密度后,找到密度最大的那個核心點,然后以該點為中心點向其KNN擴展,將密度相差在一定閾值下的樣本看成一類,不滿足條件的樣本做標記。當密度下降到中心點密度的給定的比率a時類延伸結束。該過程被循環(huán)直至聚類完成。整個過程也不涉及樣本相似矩陣構造,也不涉及譜聚類。啟發(fā)如下:
(1)采用對樣本增加新屬性的方式重新構造映射下的數(shù)據(jù)集合。比如:可以將各個樣本的密度對應的密度向量看成樣本的一個新屬性,并帶入聚類計算。當樣本處于高維空間時,可以先采用降維技術先對對樣本聚類結果影響最小或包含信息量最小的樣本屬性先排除,然后在添加樣本新屬性的方法對數(shù)據(jù)進行再處理。
(2)聯(lián)系基于參數(shù)的密度估計模型(高斯核估計密度)和基于爬山算法得到密度局部最大值所在區(qū)域對應樣本,如何構造樣本相似矩陣。比如:首先如何確定樣本x的密度,取哪些樣本作為對該樣本的影響,Near(x)如何取值得探討。其次,一旦Near(x)確定,爬山后得到的局部密度最大值對應的區(qū)域個數(shù)K是多少,值得分析。即閾值epsilon如何取。取的大,則模型分量個數(shù)較少,極端情況下造成樣本為一類。取的小,模型分量個數(shù)較多,極端下每個樣本自成一類。
3 問題分析及探討
假設分量模型個數(shù)K確定了,那么基于密度的極大似然估計的迭代算法的聚類結果優(yōu)劣僅僅與密度及相關參數(shù)有關,密度的高低決定了樣本劃分的類別。尚若通過EM迭代能夠得到滿意的聚類結果,如何采用構造樣本的相似矩陣,采用譜聚類算法聚類。倘若分量模型個數(shù)K確定了,則每個樣本都有自己的模型歸屬。這K個模型的相似性如何確定。僅僅通過密度值的近鄰來決定理論上本身就存在低密度區(qū)中的某一小區(qū)域是高密度區(qū)而被劃到高密度區(qū)對應的類別。反過來也成立。所以,一次根據(jù)樣本密度值近鄰來構造樣本相似矩陣存在很大風險。通過迭代呢?如何迭代?迭代時空復雜度如何控制,倘若存在一種迭代能夠得到滿意的相似矩陣,帶入譜聚類能夠得到滿意的聚類結果。那尚若期望聚類的個數(shù)恰好等于模型個數(shù)K,那迭代后得到的樣本模型其實就是一個劃分好的類,樣本相似矩陣的構造就是純屬多余,后面的譜聚類更是用不著。
4 結語
本文分別對文獻研究的內容方向進行介紹描述,并分析所用方法及結果。在深入學習、科學研究之后,獲得啟發(fā)開闊思路,形成自己的想法和觀點。最后對當前存在的問題加以分析探討。通過本文學術論文研究能夠對科研一線的工作人員提供幫助。
參考文獻
[1]宋余慶,謝從華,朱玉全,李存華,陳健美,王立軍.基于近似密度函數(shù)的醫(yī)學圖像聚類分析研究[J].計算機研究與發(fā)展,2006,43(11): 1947-1952.
[2]陳建美.基于密度聚類和多特征融合的醫(yī)學圖像識別研究[D].蘇州:蘇州大學,2008.
[3]Yu-qing Song, Cong-hua Xie, Jian-mei Chen. Medical Image Segmentation using Characteristic Function of Gaussian Mixture Models [J]. In: 2010 3rd International Conference on Biomedical Engineering and Informatics (BMEI), Yantai, China, 2010.
[4]Cong-Hua Xie, Yu-Qing Song, Jian-Mei Chen. Fast medical image mixture density clustering segmentation using strati cation sampling and kernel density estimation [J]. Signal, Image and Video Processing, 2011, 5(2): 257-267.
[5]Zhe Liu, Yu-Qing Song, Jian-Mei Chen, Cong-Hua Xie, Feng Zhu. Color image segmentation using nonparametric mixture models with multivariate orthogonal polynomials [J]. Neural Comput and Application, 2012, 21:801-811.
[6]譚建豪,章兢,李偉雄.密度分布函數(shù)在聚類算法中的應用[J].控制理論與應用,2011,28(12):1791-1796.