999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種函數型模糊聚類算法及其應用

2019-09-10 07:22:44楊夢玲
荊楚理工學院學報 2019年5期

楊夢玲

摘要:針對已有模糊聚類算法(FCM)提出一種函數型模糊聚類算法,旨在解決海量數據的模糊聚類問題。為此,在利用B-樣條基底進行曲線擬合、曲線距離度量界定的基礎上,構造模糊聚類算法的目標函數,提出函數型模糊曲線聚類算法。模擬及實例表明:本文曲線聚類算法具有更好的聚類效果。

關鍵詞:曲線擬合;模糊聚類;B-樣條;距離度量

中圖分類號:TP311.1?文獻標志碼:A?文章編號:1008-4657(2019)05-0018-08

0?引言

信息技術的發展,數據來源越來越廣泛。數據采集密集化程度也越來越高。隨之出現一種具有明顯曲線特征的數據類型,如腦電信號數據、基因序列數據、股票分時成交價數據、環境污染物濃度數據等,就具有這樣的特征。相關文獻稱之為函數型數據(Functional Data)[1]。

實際數據采集中,獲取的數據通常為離散數據,無法直接獲取函數型數據。針對離散數據可以通過傳統多元統計方法分析。但是傳統的多元統計方法無法分析數據的函數型特征,同時也需要處理高維問題。因此,基于傳統統計分析方法往往無法取得較好的分析結果。針對函數型數據的曲線特征,人們提出很多分析方法,包括函數型主成分[2]、函數型聚類分析[3]等。這類方法在函數型數據分析中發揮著重要的作用。

從方法角度來看,目前函數型數據分析方法大致分為兩類:一類是原始數據法[4],原始數據法是一種高維數據分析方法,該類方法直接針對離散樣本點進行聚類。盡管能取得一定結果,但是沒有考慮到數據的函數型特征。因此無法深入挖掘數據的潛在特征且計算成本大。第二類是投影方法[5-6],通過有限維基底函數逼近曲線,將無限維問題轉化為有限維問題進行分析。根據基底函數系數的處理方式不同,又可將投影方法分為濾波法和自適應法。濾波法將基底函數對應系數設定為固定參數,分曲線擬合和聚類分析兩步展開[6-7]。自適應法是將基底函數對應的系數作為隨機變量處理,將曲線擬合和聚類分析納入一個目標函數,采用類似最大期望(Expectation-Maximization)算法,同時進行優化[8-9]。此外,還有基于距離的聚類方法,如K-means聚類算法和分層聚類算法。這類算法考慮利用特殊距離或構造“曲線距離”等進行聚類,如果距離可以用離散的樣本點形成的曲線構造,則該類算法與原始聚類算法等價,如果聚類可以用有限基底進行逼近,則該類算法與自適應算法等價。

從聚類結果來看,函數型數據分析方法大致可以分為“硬”聚類和“軟”聚類兩種?!坝病本垲悓⒕垲惤Y果分為是(1)和否(0);“軟”聚類考慮到了聚類的隸屬度問題,將聚類結果分為[0,1],和硬聚類相比較,能夠獲得更豐富的聚類信息,但是聚類時間冗長[10]。

自1973年Dunn[11]提出了模糊C均值(Fuzzy C-Means,FCM)聚類算法,在聚類、圖象分割、形狀分析、醫療診斷、特征選擇等領域具有廣泛的應用。將函數型數據應用到FCM聚類算法具有重要的實際意義。近些年關于函數型FCM算法的研究很多,如核函數與FCM結合的聚類算法[12]、自適應FCM聚類算法[13]、以及基于投影的FCM聚類算法[14]等,驗證出函數型FCM算法具有較好的聚類效果。還有學者指出[15],通過子空間聚類,可以在降低數據維度的同時最大化原始空間的聚類信息。

結合函數型數據和降維思想,本文提出一種改進函數型FCM聚類方法,在FCM聚類算法的基礎上利用B-樣條基底逼近原始離散數據,對FCM聚類算法進行改進,并在此基礎上加入投影算子,以達到降低維度的目的。與函數型K-means聚類算法在模擬和實證上進行對比分析,本文改進方法具有較好的聚類效果。

1?改進函數型FCM聚類算法

該部分從以下三個方面進行闡述:第一,利用B-樣條基底近似原始數據,在一定假設條件下對擬合曲線進行截斷,從而將觀測到的原始離散數據生成為函數型數據。第二,基于上述基于距離的聚類算法,定義曲線之間的“距離”,并通過楚列斯基分解(Cholesky Decomposition)得到適用于本文非正交基函數的曲線距離,將曲線距離轉化為傳統歐氏距離。第三,將構造的距離作為曲線親疏的度量,構建函數型FCM聚類算法目標函數,實現函數型FCM聚類。

1.1?構建B-樣條基底

經過上述轉化,將曲線聚類問題轉化為利用計算特征向量的問題,利用降維及模糊聚類方法完成聚類。

利用計算機對函數型FCM算法進行編程,直到目標函數(11)達到最小。算法流程如下:

Input:xkk=1,2,…,N,u,m max iterate

Initialize:randomly choose initialvii=1,2,…,c

Forj≠i

Repeat

Use (12) fix U to solve V

Use(13)fix V to solve U

Until convergence.

2?模擬分析與實證

為驗證聚類效果,在這一部分對本文算法進行模擬和實證分析。并與函數型K-means聚類算法進行比較。其中模擬部分為帶有標簽的數據,評價指標選擇錯判率和蘭德指數(Rand Index),實例部分為無標簽數據集,評價指標選擇戴維森堡丁指數(Davies-Bouldin Index)。比較結果表明本文算法在聚類精確度方面優于后者聚類算法。

2.1?隨機模擬試驗

利用R軟件rnorm()函數生成均值和方差分別為(1,1)、(2,2)、(3,3)、(4,4)的4類高斯分布數據,每一類產生600組服從對應均值和方差的隨機數,共計600*4個數據。為避免生成隨機數數值大小相近,數據生成過程中統一為每一類數據乘以倍數3并分別為每一類加上常數5、7、9、11。同時考慮到數據的簡潔性,在編程過程中對數據取整。數據生成后利用構造的B-樣條基底,將離散數據點轉化為曲線,構造的曲線距離及提出的算法進行聚類分析??紤]到模擬數據來自4類不同參數下生成的數據,為便于比較,在利用本文算法進行聚類時聚為4類且設定數據的區間長度為12。分別利用本文算法和K-means聚類算法進行聚類分析,如圖1所示。

圖1中橫坐標表示設定的聚類區間長度為[0,12],縱坐標表示模擬數據數值,每一類具有不同的顏色和形狀。圖1(a)、(b)表示兩種聚類算法的類中心曲線,圖1(c)、(d)表示聚類曲線。圖1聚類結果表明:不同類別數據存在一定差異,這種差異來自整體水平即均值以及類別數據波動性即方差。圖1(a)、(b)不同的類中心曲線以及(c)、(d)聚類曲線不同顏色曲線的分布情況來看,本文算法具有較好的類別區分型能。不同顏色的曲線差異較為明顯。進一步,為便于比較聚類效果,在生成數據過程中對每一類數據加入類別標簽。與原始類別進行比較,計算兩種方法的錯判率(錯誤分類個數/總個數*100%)和蘭德指數[20]。

蘭德指數計算公式如下

其中TP表示應該被聚為一類的數據被正確聚為一類,TN表示不應該被聚在一類的數據未被聚為一類,FP表示不應該聚在一類的兩類數據被聚為一類,FN表示應該被聚為一類的數據未被聚為一類。

根據上述描述,得到下表1、2。

表1中,通過兩種聚類方法得到的類別標簽與模擬數據原始類別標簽進行對比,發現本文方法正確分類的個數多于K-means聚類方法。因此相應錯判率低于K-means聚類方法。

表2中,將模擬數據量從600不斷增加到2 400,檢驗兩種聚類算法聚類效果的蘭德指數逐漸提高。通過兩種算法的對比,本文算法的蘭德指數相較于函數型K-means有所提升。

2.2?應用舉例

空氣質量與人們的生活息息相關,近幾年關于空氣質量方面的研究也很多,包括省市縣空氣質量污染聚類問題[21],也包括珠三角、京津冀地區空氣污染與相關因素的分析[22-23]等。本文數據采用蘭州市NO2濃度(μg·m-3)小時數據,因蘭州地理位置較為特殊,地處黃土高原、青藏高原和蒙古高原三大高原的交匯地帶,兩邊地勢高,中間地勢低,且氣候干燥,植被覆蓋少等原因使得蘭州市空氣質量問題十分嚴重[24]。因此,準確分析蘭州市空氣質量問題具有十分重要的實際意義。

實證數據來自蘭州市鐵路設計院站點采集的NO2小時濃度數據,采集時間為2013年6月1日~10月14日。除刪去66個缺失值外共得到128*24個NO2小時濃度數據。基于B-樣條基底擬合原始離散數據點,構造函數型曲線。利用R軟件進行編程,實現曲線的聚類分析。由于實例數據為無標簽數據。為檢驗兩種聚類算法的聚類效果,本文引入無類別標簽的戴維森堡丁指數[25](Davies-Bouldin Index)作為評價指標,該指數計算公式如下

其中C-i和C-j表示任意i類和j類的類內平均距離。wi和wj表示i類和j類的類中心。DB越小意味著類內距離越小且類間距離越大??紤]類別個數為3、4、5、6類的情形下,戴維森保丁指數的變化情況。如下表3所示:

表3中,隨著類別個數的增加,戴維森保丁指數在逐漸下降,說明類別個數的增加會使得類內間距越小且類間間距越大。表明不同類的聚類曲線差異性越大,類別區分度越發明顯。綜合比較兩種聚類算法,本文算法在實例應用中聚類效果相比于K-means聚類算法較好。

進一步,分別畫出本文算法與函數型K-means算法的類中心曲線以及聚類效果曲線。兩種算法均采用相同的B-樣條基底和節點設計。得到兩類聚類結果??紤]論文篇幅,僅對4類聚類效果進行展示,如圖2所示。

與圖1類似,圖2中橫坐標表示時間,縱坐標表示實例數據數值。每一類具有不同的顏色和形狀,從圖2(a)、(b)類中心聚類結果表明,本文算法中不同類別的類中心曲線未出現類中心曲線交叉的情形。說明本文算法具有較好的類別區分性能。圖2(c)、(d)中顯示一天中在6:00-10:00和17:00-21:00兩個區間段內NO2濃度逐漸上升并達到頂峰,這與實際中早高峰和晚高峰的情況相吻合,且夜間21:00-次日5:00仍存在較高濃度,這種明顯的趨勢為政府污染治理提供一定依據,如錯峰出行等。

3?結論

聚類分析是函數型數據探索分析的重要部分,函數型曲線聚類方法在現今數據密集化程度不斷提高的時代值得探討?;贔CM聚類算法,提出一種函數型FCM聚類算法。在構建B-樣條基底、定義曲線距離之后,對本文算法進行理論推導,并利用R語言對算法進行實現。為驗證本文模型的聚類效果,在模擬和實例部分與函數型K-means聚類算法進行比較,模擬和實例結果表明,本文的曲線聚類算法有助于提高聚類效果。與此同時,實例的應用對蘭州市空氣質量監測的預測以及污染物來源分析也有一定輔助作用。

參考文獻:

[1]Ramsay J O.When the Data are Functions[J].Psychometrika.1982,47(4):379-396.

[2]Ramsay J O,Silverman B W.Functional Data Analysis[M].2ed.New York:Springer,2005:1-18.

[3]Ferraty F,Vieu P.Nonparametric Functional Data Analysis:Theory and Practice[M].New York:Springer,2006:11-18.

[4]Bouveyron C,Brunet-Saumard C.Model-based Clustering of High-dimensional Data:A Review[J].Computational Statistics & Data Analysis.2014,71(1):52-78.

[5]Abraham C,Cornillon P A,Matzner-Lber E,et al.Unsupervised Curve Clustering Using B-splines[J].Scandinavian Journal of Statistics.2003,30(3):581-595.

[6]黃恒君.基于B-樣條基底展開的曲線聚類方法[J].統計與信息論壇.2013,28(9):3-8.

[7]Kayano M,Dozono K,Konishi S.Functional Cluster Analysis Via Orthonormalized Gaussian Basis Expansions and Its Application[J].Journal of Classification.2010,27(2):211-230.

[8]Jacques J,Preda C.Funclust:A Curves Clustering Method Using Functional Random Variables Density Approximation[J].Neurocomputing.2013,112(10):164-171.

[9]Jacques J,Preda C.Model-based Clustering for Multivariate Functional Data[J].Computational Statistics & Data Analysis.2014,71(3):92-106.

[10]謝維信,劉健莊.硬聚類和模糊聚類的結合——雙層FCM快速算法[J].模糊系統與數學.1992(2):77-85.

[11]Dunn J C.A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact Well-separated Clusters[J].Journal of Cybernetics.1973,3(3):32-57.

[12]Sridevi P.Identification of Suitable Membership and Kernel Function for FCM Based FSVM Classifier Model[J].Cluster Computing,2018(6):1-10.

[13]林甲祥,吳麗萍,巫建偉,等.基于樣本與特征雙加權的自適應FCM聚類算法[J].黑龍江大學自然科學學報.2018,35(2):244-252.

[14]Kiani M,Andreu-Perez J,Papageorgiou E I.Improved Estimation of Effective Brain Connectivity in Functional Neuroimaging through Higher Order Fuzzy Cognitive Maps[C]//2017 IEEE International Conference on Fuzzy Systems (FUZZ-IEEE).IEEE,2017:1-6.

[15]Bezdek J C,Ehrlich R,Full W.FCM:The Fuzzy C-means Clustering Algorithm[J].Computers & Geosciences.1984,10(2):191-203.

[16]Yamamoto M.Clustering of Functional Data in a Low-dimensional Subspace[J].Advances in Data Analysis & Classification.2012,6(3):219-247.

[17]Rice J A,Silverman B W.Estimating the Mean and Covariance Structure Nonparametrically When the Data are Curves[J].Journal of the Royal Statistical Society.1991,53(1):233-243.

[18]De Leeuw J,Young F W,Takane Y.Additive Structure in Qualitative Data:An Alternating Least Squares Method with Optimal Scaling Features[J].Psychometrika,1976,41(4):471-503.

[19]Birman M S,Solomjak M Z.Spectral Theory of Self-adjoint Operators in Hilbert Space[M].New York,NY,USA:D.Reidel Publishing Co.,Inc.,1986:18-59.

[20]Jain A K,Dubes R C.Algorithms for Clustering Data[J].Technometrics.1988,32(2):227-229.

[21]酈少將.基于函數型聚類的浙江省空氣污染時空特征分析[J].河南教育學院學報(自然科學版).2018,27(1):19-24.

[22]周學思,廖志恒,王萌,等.2013—2016年珠海地區臭氧濃度特征及其與氣象因素的關系[J].環境科學學報.2019,39(1):143-153.

[23]梁銀雙,劉黎明,盧媛.基于函數型數據聚類的京津冀空氣污染特征分析[J].調研世界.2017(5):43.

[24]祁斌,王式功,劉宇,等.蘭州市空氣污染氣象條件綜合分析[J].陜西氣象.2001(6):27-30.

[25]Davies D L,Bouldin D W.A Cluster Separation Measure[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1979(2):224-227.

[責任編輯:鄭筆耕]

主站蜘蛛池模板: 久久综合成人| 凹凸国产熟女精品视频| 久久免费精品琪琪| 国产精品永久在线| 在线观看热码亚洲av每日更新| 亚洲色图欧美视频| 丁香婷婷激情网| 亚洲IV视频免费在线光看| 国产高清色视频免费看的网址| 欧美日本视频在线观看| 亚洲动漫h| 国产精品美女网站| 亚洲AV无码久久天堂| AV不卡国产在线观看| 久久久波多野结衣av一区二区| 亚洲色图另类| 2024av在线无码中文最新| 国产打屁股免费区网站| 久久综合结合久久狠狠狠97色| 中国黄色一级视频| 一级毛片免费不卡在线 | 亚洲精品久综合蜜| 亚洲一级毛片| 国产本道久久一区二区三区| 亚洲娇小与黑人巨大交| 激情五月婷婷综合网| 国产精品偷伦视频免费观看国产| 欧美日韩导航| 欧美国产日韩在线观看| 思思热精品在线8| 久久午夜影院| 老司机久久99久久精品播放| 日本久久网站| 久久这里只有精品23| 欧美国产视频| 国产主播一区二区三区| 亚洲欧洲日产国码无码av喷潮| 亚洲第一网站男人都懂| 亚洲无码高清免费视频亚洲| 真实国产乱子伦视频 | 国产精品一区在线观看你懂的| 免费xxxxx在线观看网站| 国产精品第| 国产福利免费视频| 久久精品亚洲热综合一区二区| 国模在线视频一区二区三区| 成人免费一级片| 99性视频| 国产精品无码一二三视频| 国产国语一级毛片| 97无码免费人妻超级碰碰碰| 区国产精品搜索视频| 国产亚洲现在一区二区中文| 91网在线| 激情在线网| 亚洲色图欧美在线| 国产爽歪歪免费视频在线观看| 久久一日本道色综合久久| 91久久夜色精品国产网站| 亚洲国产AV无码综合原创| 亚洲成人福利网站| 亚洲人成网线在线播放va| 欧美视频在线播放观看免费福利资源 | 国产91精品调教在线播放| 色AV色 综合网站| 免费观看亚洲人成网站| 国产网站免费看| 欧美一区日韩一区中文字幕页| 精品人妻一区无码视频| 日韩激情成人| 国产精品丝袜在线| 四虎永久免费网站| 九色免费视频| 精品国产Ⅴ无码大片在线观看81| 亚洲第一精品福利| 久久久久青草大香线综合精品| 全部无卡免费的毛片在线看| 天天色天天综合| 干中文字幕| 欧美日韩中文字幕在线| 国产成人福利在线| 欧美a在线|