【摘要】 由于CMB模型在大氣源解析中的廣泛應用,如何在計算中避免所選樣本間的相似性顯得越來越重要。作為一種常用數(shù)據(jù)挖掘方法,聚類分析很好的解決了這一問題。Q型因子聚類法是一種常用的聚類分析方法,利用Q型因子聚類法對長春大氣顆粒物源解析樣本分析的結果表明,Q型因子聚類法在源解析工作中具有實際意義,但也存在一定的問題。最后,對Q型因子聚類法在源解析中的應用進行了展望。
【關鍵詞】 CMB模型 數(shù)據(jù)挖掘 Q型聚類
化學質量模型(CMB)是大氣源解析中被廣泛應用的一種常用方法之一。由于CMB模型要求參與計算的各種源之間具有非共線性。因此在CMB模型計算之前,需先解決源的共線性問題。
聚類分析是統(tǒng)計學中常用的一種數(shù)據(jù)挖掘方法。所謂聚類分析,就是將一群物理或抽象的對象,根據(jù)他們之間的相似程度,分為若干組,使得同一個組內(nèi)的數(shù)據(jù)對象具有較高的相似度,而不同組之間的數(shù)據(jù)是不相似的。在化學質量模型的計算中,可依據(jù)聚類分析結果避免共線性源代入模型計算?,F(xiàn)有文獻中存在大量的聚類方法,Macqueen首先提出了k-means方法,在數(shù)據(jù)挖掘領域得到了廣泛應用[1];kaufman和Rousseeuw提出凝聚方法AGNES(Agglomerative NESting)和分裂方法DIANA(Dlvisive ANAlysis)[2],聚類過程更加簡單,但聚類結果質量低下;Wang(1997,1999)等提出的STING(Statistical INformation Grid)[3]和STRING+[4]是基于網(wǎng)格和密度的方法,該法效率高,而且網(wǎng)格結構有利于并行處理和增量更新,但其降低了聚類的質量和精確性。常用的聚類方法主要有以下幾種,R型聚類分析[5,6],Q型聚類分析[7,8],對應聚類分析[9,10],模糊聚類分析[11],多元聚類分析[12]。本文主要探討Q型因子聚類法在源解析中的應用。
1. 方法與原理
Q型因子分析本質上是一種以樣本間相似系數(shù)大小為分類依據(jù)的樣本聚類方法。要對一個n個樣品和p個變量構成的n*p階初始數(shù)據(jù)矩陣進行Q型因子分析。首先要將初始數(shù)據(jù)矩陣進行標準化處理。