趙建文
(浙江海洋學院蕭山科技學院,浙江杭州 311200)
隨著家用汽車消費的快速增長,汽車室內(nèi)空氣質(zhì)量問題也越來越引起人們關(guān)注,車內(nèi)空氣污染物主要是由甲醛、苯、TVOC等對人體有害物質(zhì)構(gòu)成,各污染物的濃度可由相關(guān)專業(yè)機構(gòu)檢測,目前在國內(nèi)尚無車內(nèi)空氣污染物濃度限值標準的情況下,對各種不同車型、車輛的車內(nèi)空氣污染水平做科學合理的分類與評價是很有意義的。
本文擬用模糊聚類分析方法[1],綜合甲醛、苯、TVOC指標濃度,對不同車輛車內(nèi)空氣質(zhì)量做出分類、評價。
聚類是根據(jù)一定的規(guī)則,按照事物某些屬性,合理劃分未分類事物的集合,得到確定事物分類的過程。模糊聚類是采用模糊數(shù)學方法,依據(jù)客觀事物間的特征、親疏程度和相似性,通過建立模糊相似關(guān)系,并在此基礎(chǔ)上根據(jù)一定的隸屬度來確定分類關(guān)系,也就是用模糊數(shù)學的方法把樣本之間的模糊關(guān)系(相似性)加以定量的確定,從而客觀且準確地進行分類。由于現(xiàn)實的分類過程往往伴隨著模糊性,所以用模糊數(shù)學的方法來進行聚類分析會顯得更自然、更符合客觀實際。
設(shè)論域 U={x1,x2,…xn}為被聚類的對象集,其中x(ii=1,2,…n)稱為一個樣本;每個樣本有m個特征指標,即:xi=(xi1,xi2,…xim),全部原始數(shù)據(jù)構(gòu)成數(shù)據(jù)矩陣X=(xi)jn×m
為使不同量綱的數(shù)據(jù)可以相比較,通常需要將原始數(shù)據(jù)xij壓縮至[0,1]區(qū)間,這一過程稱為數(shù)據(jù)標準化。可以通過以下平移極差變換實現(xiàn)數(shù)據(jù)標準化:

為了確定各個樣本之間的關(guān)系,通常采用兩種度量來表示樣本之間的接近程度[6]:(1)相似系數(shù)r:用來表示樣本之間相似程度,r越接近1,則兩個樣本之間的相似程度就越高。常用的相似系數(shù)有夾角余弦、相關(guān)系數(shù)等;(2)距離d:將n個樣本看作是m維空間的n個點,定義點與點之間的距離d,d越小兩樣本越接近。常用的距離如歐氏距離,明氏距離等。不失一般性,本文用夾角余弦來計算樣本之間的相似系數(shù),公式如下:

rij表示2個樣本xi與xj之間的相似程度,由此建立模糊相似矩陣(也稱之為模糊相似關(guān)系)R=(rij)n×m。
模糊相似關(guān)系R一般具有自反性和對稱性,若還滿足傳遞性滿足(即R?R?R),則稱R為模糊等價關(guān)系。這里R?R稱相似矩陣R進行自乘操作,即:R?R=R'(rij')n×m,其中

式中∧表示并運算(取最小值),∨表示或運算(取最大值)。運算過程為:R矩陣的第i行取小值,然后再取其中的最大值。
通過上述方法得到的模糊相似矩陣R一般只具有自反性和對稱性,不滿足傳遞性。其傳遞性可通過傳遞閉包變換實現(xiàn)。
傳遞閉包法,又稱為Washall算法,其思想是把一個相似矩陣R進行自乘操作(R?R),并且檢驗R是否滿足傳遞性,如果R滿足傳遞性,不再繼續(xù)往下進行自乘操作。傳遞閉包法聚類首先需要通過標定的模糊相似矩陣R,然后求出包含矩陣R的最小模糊傳遞矩陣,即R的傳遞閉包TR,最后依據(jù)TR進行聚類。
定理 設(shè)R是n階模糊相似關(guān)系,則存在一個最小自然數(shù)k(k≤n),使得R的傳遞閉包TR=Rk,且對一切大于k的自然數(shù)L,恒有RL=Rk。該定理說明,在不超過n次運算內(nèi),即可求得R的傳遞閉包TR,從而得到一個模糊等價矩陣。為提高運算速度,可用平方法依次計算R2,R4,R8,…一定可找到k,使得Rk?Rk=Rk,于是,TR=Rk。
取適當閾值 λ(λ∈[0,1]),對模糊等價矩陣 TR 作截集處理,求出聚類矩陣 R″=(rij″)n×m其中:

將rij″為1的相應(yīng)樣本聚合為同一類,聚類完成。容易證明,λ值選取越大,聚合出的類別數(shù)越多,選取得越小,則聚合出的類別數(shù)越少。但聚類結(jié)果并不矛盾:較粗類別是較細類別的上位類,利用λ取值不同,可獲得不同程度的聚類,形成多層次分類結(jié)構(gòu)。特別當λ=0時聚類最粗,λ=1時聚類最細。
選擇10輛家用小汽車,要求使用時間在3個月以內(nèi),且行駛里程在12 000 km以內(nèi),沒有經(jīng)過內(nèi)飾改裝或除甲醛等處理,車輛使用者無在車內(nèi)吸煙等習慣,平時沒有裝載其他會增加或減少車輛異味的物品。在外部空氣質(zhì)量和天氣狀況良好,室外溫度20~30℃的情況下檢測其車內(nèi)空氣中甲醛、苯、TVOC的濃度,選取樣本的原始檢測數(shù)據(jù)如下表:
對表1數(shù)據(jù)(甲醛、苯、TVOC的濃度)用平移極差變換(公式1),得到標準化的數(shù)據(jù)如下:

采用夾角余弦法(公式2)可以得到以下糊相似矩陣:


表1 不同車型甲醛、苯、TVOC的濃度Tab.1 The concentration of formaldehyde,benzene and TVOC in different car models
計算傳遞閉包TR如下:

取λ=0.977截取TR(公式4),得到等價關(guān)系Rλ如下:

從而得到 10 輛汽車車內(nèi)空氣污染聚類為 C1={1,5,7},C2={2,3,6,10},C3={4,9},C4={8}。
聚類分析的原理是越先聚為一類的樣本越相似。本例中rij取的是模型相似系數(shù),聚成4類時,即相似水平為時λ=0.977,表1中汽車{1,5,7}車內(nèi)空氣質(zhì)量最相似,其特點是車內(nèi)空氣中甲醛、苯、TVOC的濃度都較高,第二類{2,3,6,10}車內(nèi)苯的濃度較低但甲醛和TVOC的濃度都較高,第三類{4,9}車內(nèi)甲醛、苯、TVOC的濃度都較低,而第四類{8}車內(nèi)甲醛、苯濃度較低而TVOC的濃度稍高于第三類。
模糊聚類分析是基于樣本之間的相似性,將最相似的樣本聚成一類。它無需依賴其他先驗信息,只需根據(jù)對象指標數(shù)據(jù)直接導(dǎo)出聚類結(jié)果,更具科學性和客觀性。同時,如果的計算方法不同,相同的樣本也會得出不同的分類結(jié)果。所以,在分類過程中,要根據(jù)問題的實際情況選擇相似系數(shù)的計算方法。本文中車內(nèi)空氣質(zhì)量的模糊聚類,很好的實現(xiàn)了評價分析的功能,但不能直接實現(xiàn)傳統(tǒng)意義的名次排序。
[1]高新波.模糊聚類分析及其應(yīng)用[M].西安:西安電子科技大學出版社,2004.
[2]羅蘭星.基于傳遞閉包法的西南5城市環(huán)境質(zhì)量評價分析[J].上海理工大學學報,2009,31(3):303-306.
[3]馮 梅.基于模糊聚類分析的教師課堂教學質(zhì)量評價[J].數(shù)學的實踐與認識,2008,38(2):12-15.
[4]張秀梅,王 濤.模糊聚類分析方法在學生成績評價中的應(yīng)用[J].渤海大學學報:自然科學版,2007,28(2):169-172.
[5]張東生,季 超,鄭文奎.基于模糊聚類的考試分析方法[J].電腦知識與技術(shù),2009,5(33):9 579-9 580;9 590.
[6]邵峰晶,于忠清,王金龍,等.數(shù)據(jù)挖掘原理與算法[M].第2版.北京:科學出版社,2008:181-182.