【摘要】模糊聚類分析是以相似性為基礎,主要用于研究樣本的分類問題。在模糊聚類的基礎上,提出了通過構造最優(劣)樣本,分別計算各類樣本與最優(劣)樣本的相似系數,根據與最優(劣)樣本最相似者為最優(劣)原則,確定聚類結果優劣次序,從而使之具有綜合評價功能,并通過車內空氣質量的綜合評價驗證了應方法的實用性。
【關鍵詞】模糊聚類、構造、最優(劣)、綜合評價
Abstract: Fuzzy clustering analysis based on similarity, and mainly was used for sample classification. In this paper, by fuzzy clustering to construct optimal (poor) samples, and then calculate the similarity between various samples and optimal (poor) samples. Finally,according to this similarity to evaluate the order of clustering results.
Key words: fuzzy clustering, construct, optimal (poor), comprehensive evaluation
1模糊聚類分析的基本原理[1-5]
模糊聚類是采用模糊數學方法,依據客觀事物間的特征、親疏程度和相似性, 通過建立模糊相似關系,并在此基礎上根據一定的隸屬度來確定分類關系,也就是用模糊數學的方法把樣本之間的模糊關系(相似性)加以定量的確定,從而客觀且準確地進行分類。其一般過程為:對于給定論域(需聚類的樣本集),采用平移極差變換對原始數據進行標準化,然后利用距離系數或相似系數建立模糊相似矩陣(模糊相似關系)R,因為如此建立的模糊相似關系一般不具有傳遞性,通常用傳遞閉包法將其改造成模糊等價關系,稱為R的傳遞閉包t(R),然后在適當的水平λ上截取t(R),得到普通等價關系Rλ,從而實現分類。不同的水平λ決定了不同的普通等價關系,從而也決定了不同的分類結果。
由于現實的分類過程往往伴隨著模糊性,所以用模糊聚類的方法來進行聚類分析會顯得更自然、更符合客觀實際。
2基于模糊聚類的綜合評價方法
由上述,模糊聚類分析主要用于研究樣本的聚類,根據樣本之間的相似性,把最相似的樣本聚成一類。然而現實情況下,僅僅知道樣本的分類是不夠的,還需要知道不同類之間的優劣等次,并給出評價。
模糊聚類過程中,為了確定各個樣本之間的關系,通常采用距離d或相似系數來表示樣本之間的接近程度[6],距離d越小兩樣本越接近;或者,相似系數越接近1兩個樣本越相似。基于此,在聚類的基礎上,我們構造一個最優(劣)樣本,該樣本的各項指標為論域中所有樣本相應指標的最優(劣)值(通常就是最大值),然后考查聚類結果中各類與最優(劣)樣本的相似性,根據與最優(劣)樣本最相似者為最優(劣)原則,從而確定聚類結果的優劣等次的評價。
3基于模糊聚類的綜合評價方法的一般步驟
步驟1 確定論域,并構造最優(劣)樣本
步驟2 原始數據標準化
步驟3 建立模糊相似關系
步驟4 計算傳遞閉包并聚類
步驟5 比較聚類結果與最優(劣)樣本的相似性,完成評價
4車內空氣質量的綜合評價
4.1 確定論域并構造最優(劣)樣本
隨著家用汽車消費的快速增長,汽車室內空氣質量(污染)問題也越來越引起人們關注,車內空氣污染物主要是由甲醛、苯、TVOC(總揮發性有機化合物)等對人體有害物質構成,各污染物的濃度可由相關專業機構檢測,在目前國內尚無車內空氣污染物濃度限值標準的情況下,對各種不同車型、車輛的車內空氣污染水平作一科學合理的分類、評價將是有意義的。
選擇10輛家用小汽車,要求使用時間在3個月以內,且行駛里程在12000公里以內,沒有經過內飾改裝或除甲醛等處理,車輛使用者無在車內吸煙等習慣,平時沒有裝載其他會增加或減少車輛異味的物品。在外部空氣質量和天氣狀況良好,室外溫度20-30℃的情況下檢測其車內空氣中甲醛、苯、TVOC的濃度,選取樣本的原始檢測數據如下表:
從而得到十輛汽車車內空氣污染分類為C1={1,5,7},C2={2},C3={3,6,10},C4={4,9},C5={8}。
4.5 綜合評價
上述聚類結果說明當相似水平為λ=0.983,表1中汽車{1,5,7}車內空氣質量相似,其特點是車內空氣中甲醛、苯、TVOC的濃度都較高;{3,6,10}相似,車內苯的濃度較低但甲醛和TVOC的濃度都較高;{4,9}相似,車內甲醛、苯、TVOC的濃度都較低;而{2}甲醛、苯、TVOC的濃度都高,{8}甲醛、苯濃度較低而TVOC的濃度稍高于第三類。
計算上述各類中心(使用標準化的數據)如下:
C1={0.667,0.719,0.771},C2={1,0.94,0.063},C3={0.667,0.925,0.313},C4={0,0.043,0.668},C5={0,0.569,0}。
再計算類 C1,C2,C3,C4,C5 與最劣樣本{1,1,1}的相似系數(仍用夾角余弦法),分別為:0.9982,0.8415,0.930,0.6122,0.5774。從而可知車內空氣質量的優劣等次為C5,C4,C2,C3,C1。即類C1車內空氣質量綜合評價最差,污染最嚴重;而類C5車內空氣質量綜合評價最好,即污染最輕。
5結束語
模糊聚類分析是基于樣本之間的相似性,將最相似的樣本聚成一類。但不能直接實現傳統意義的名次排序。通過構造最優(劣)樣本,根據與最優(劣)樣本最相似者為最優(劣)原則,可以確定各類的優劣名次。本文的應用實例說明該方法無需依賴其他先驗信息,只需根據評價對象指標數據就可得出對象的分類和評價結果,具有一般意義。
參考文獻
[1]高新波 模糊聚類分析及其應用[M].西安電子科技大學出版社,2004.
[2]羅蘭星 基于基于傳遞閉包法的西南5城市環境質量評價分析[J].上海理工大學學報,31(3)2009:303-306
[3]馮梅 基于模糊聚類分析的教師課堂教學質量評價[J].學的實踐與認識,2008,38(2):12-15.
[4]張秀梅,王 濤 模糊聚類分析方法在學生成績評價中的應用[J] 渤海大學學報(自然科學版) 28(2) 2007.6:169-172
[5]張東生,季超等.基于模糊聚類的考試分析方法[J].電腦知識與技術5(33), 2009.11:9579-9580,9590
[6]邵峰晶 于忠清等 數據挖掘原理與算法(第二版) [M] 科學出版社2008:181-182
作者簡介:趙建文(1970--)男,浙江仙居人,浙江師范大學幼兒師范學院講師,主要從事應用數學,數據挖掘教學與研究。