周可婧 楊日劍


摘要:針對傳統主成分分析法在水質評價中的缺陷,從數據標準化和熵權的引入兩個方面對傳統的主成分分析法進行了改進,并將其應用到了長沙市某村鎮養殖水體水質評價中。結果表明:非線性主成分分析法具有可行性和實用性,其主成分總貢獻率和第一主成分貢獻率明顯提高,對長沙市村鎮水質評價的結果也更為合理,更符合實際水質情況。
關鍵詞:主成分分析法;貢獻率;標準化;熵值法
中圖分類號:X824
文獻標識碼:A文章編號:16749944(2017)16005103
1引言
近年來,由于河流污染的日益加劇,河流生態環境退化問題日趨嚴重,河流污染的控制及治理受到廣泛關注,對河流水質的準確評價是河流污染防治的必要前提[1]。主成分分析方法(PCA)則是一種將多維因子納入同一系統進行定量化研究,且理論比較完善的多元統計分析方法,在解決很多實際問題的同時已取得較好效果[2]。在傳統主成分分析法的基礎上,引入了熵權進行改進,并將改進的方法應用到長沙市某村鎮水域的水質評價中,以期獲得更加客觀準確的結果。
2傳統的主成分分析法
主成分分析法是數學變換方法的一種, 采用降維方法,在失去很少信息的前提下,將各種原始變量轉化為幾個指標(稱之為主成分)之間的線性組合,剩下的信息稱之為原始變量[3]。這樣在數據指標較多的水質評價研究中,就可以把復雜的多維問題轉化成低維問題且最大程度地保留原始數據信息。主成分分析法的主要步驟為。
(1)數據標準化。設有n個樣本,每個樣本有m項指標,對樣本進行標準化為:
zij=xij-x·js·j (1)
式(1)中zij為標準化后的指標值,x·j是第j項指標數據平均值,s·j是第j項指標數據標準差。
(2) 計算相關矩陣。對標準化的數據進行相關分析,計算相關矩陣ρij。
(3)計算特征值、特征向量與主成分貢獻率。從相關矩陣出發,計算出相關矩陣的特征值λ1,λ2…λm和其對應的特征向量β1,β2…βm,然后將特征值按從大到小排序,即λ1>λ2>…>λm,而主成分貢獻率計算公式為:λi/∑mi=1λi,選取累加貢獻率超過85%的前p個成分作為主成分。
(4)計算主成分載荷。主成分載荷的計算公式為:
lij=p(zi,xj)=λiβij(2)
得到主成分載荷后,再根據公式(3)進一步計算,可以得到各主成分的得分:
y·1=l11zi1+l21zi2+…+lm1zim
y·2=l12zi1+l22zi2+…+lm2zim
…
y·p=l1pzi1+l2pzi2+…+lmpzim(3)
式(3)中,y1為第一主成分,y2為第二主成分,….,yp為第p主成分。
(5) 主成分的綜合評價。根據采樣點的主成分得分yi,以方差貢獻率di為權重,計算綜合得分F=∑pi=1di·yi/∑pi=1di,綜合得分就是對采樣點污染程度的定量描述,得分越大,水質越差。
3主成分分析法的改進
(1)數據標準化方法的選擇。針對傳統主成分分析法處理非線性數據的約束性及反映數據信息的片面性,以指數中心化和對數中心化為例引入非線性標準方式進行改進,并以協方差代替相關矩陣,使其能夠反映數據的非線性特征,對數、指數中心化的格式為:
sij=lnxij-∑mi=1lnxij/m(4)
sij=exij-∑mj=1exij/m
(2) 基于熵權的主成分綜合評價。傳統主成分分析法是以方差貢獻率為權值,主要反映了指標間的相關性,忽略了數據的離散程度,而熵值法能較好地解決這一問題,是一種客觀賦權法。因此,將熵值法引入主成分分析中,計算出熵權作為各個主成分的權值,最后進行綜合評價。在信息論中,熵是反映系統無序化程度的量,熵值越大,無序化程度越小,熵值越小,系統無序化程度越大。熵值法就是利用這一原理,根據指標之間差異程度,計算出指標權重值。若通過上述計算得出主成分個數為p,則能得到指標數為p,樣本數n的主成分矩陣(yij)n×p,在此基礎上利用熵值法計算熵權。熵值法計算步驟,計算樣本的第j個評價指標下y′ij的比重rij:
rij=y′ij/∑ni=1y′ij (5)
定義熵值,計算指標jj的信息熵:
Ej=-1lnp∑ni=1rijlnrij(6)
定義熵權,計算指標jj的權重:
Aj=(1-Ej)/∑pj=1(1-Ej)(7)
計算主成分的綜合得分:
vi=∑pj=1Ajrij (8)
由于主成分得分中數值有正有負,在進行熵權計算時,需要進行非負化處理,將主成分得分yij化為y′ij,非負化方式采用數據平移方法,平移后各主成分權重不變。
4實例應用
結合MATLAB軟件,將上述改進的主成分分析法應用于長沙市某村鎮水域環境評價中并與傳統的主成分分析法進行比較,驗證其合理性。評價數據選用該村鎮養殖水體最不利斷面連續12 d的9項水質指標,通過對最不利斷面的評價,以期更好地控制養殖水體水質,為漁業生產提供指導,具體數據見表1。
對表1數據作散點圖,觀察數據分布規律,選擇合適的數據標準化方式,布局滿足對數分布或指數分布。
對表2分析可知,采用指數中心化的方式主成分承載的信息超過其它方法,故本文采用指數中心化方式對表1數據進行處理更為合理,其中溶解氧指標為數據越大水質越好,故對其進行正向化處理后再進行標準化處理。對標準化數據進行相關矩陣計算,并以相關矩陣為基礎計算出其特征值和主分貢獻率,并與其他數據標準化方法進行比較,具體結果如表2所示。endprint
從表2可以看出,如果從累計貢獻率超過85%即滿足要求的角度考慮,三種方法都只需要前兩個主成分,但改進的主成分分析法第一主成分貢獻率為75.94%,超過其他兩種方法第一主成分貢獻率,即第一主成分承載的信息增加了,且進一步比較前兩項總貢獻率,改進的方法貢獻率為92.68%,遠大于其他方法前兩項主成分貢獻率,即主成分承載的總信息增加了。
為確定影響研究區域水質情況的主要污染物,須計算出主成分載荷。主成分載荷反映了原始水質指標與主成分之間的相互關聯程度,具體見表3。
從主成分載荷大小來看,與第一主成分密切相關的是懸浮物、電導率、氨氮、硝酸鹽、亞硝酸鹽、化學需氧量
和溶解氧,它們在第一主成分所承載的信息較高,說明第一主成分反映了養殖水體大部分水質信息,而第二主成分密切相關的是總磷和總氮,其主成分荷載值最大,即承載的信息最多。
根據主成分綜合評價函數,計算研究區域同一斷面12 d的水質污染綜合得分排名,對水質污染程度進行定量化描述,排名越小,表明污染程度越嚴重,可對該斷面污染程度進行趨勢分析,計算結果如表4。
表4中得分越大,排名數字越小,說明水質越差。對兩種方法的比較可以看出,改進的主成分分析法與傳統的主成分分析法計算的出的水質排名整體較為接近,個別天數有所改變。如水質最好的兩天分別發生在第5天和第9天,這是由于不同方法各個指標所占權重不同,在水質情況較為接近時,權重越大的指標值對水質影響越大,結合監測數據可知,第5天與第9天水質指標數據較為接近,但第5天氨氮和溶解氧都明顯好于第9天,因改進的主成分分析法中氨氮和溶解氧權重較大,對水質影響起關鍵作用,故第5天水質情況應好于第9天,計算結果較為合理。
2017年8月綠色科技第16期
5結論
(1)該評價中主要將熵權引入主成分分析法中,采用熵值法計算權值,解決了主成分水質評價過程中忽略數據離散作用的問題,使得評價結果客觀合理。
(2)通過對該區域進行主成分分析,結果發現:第一主成分密切相關的水質指標包括懸浮物、電導率、氨氮、硝酸鹽、亞硝酸鹽、化學需氧量和溶解氧,它們在第一主成分中承載信息最,說明第一主成分基本反映養殖水體整體水質情況,第二主成分密切相關的水質指標為總磷和總氮,其反映的信息最多。
(3)通過對該村鎮水質評價可以發現,采取指數中心化的方式對非線性原始數據進行處理,以協方差反映指標信息,可獲得較好的結果。
參考文獻:
[1]
張丹,丁愛中,林學鈺,等.河流水質監測與評價的生物學方法[J].北京師范大學學報,2009,45(2):200~204.
[2] 庫路巴依,白云鵬,王玲.主成分分析法在水庫水質綜合評價中的應用[EB/OL].[2017-04-11].中國科技論文在線.http://www.paper.edu.cn.
[3]陳仁杰,錢海雷,袁東.改良綜合指數法及其在上海市水源水質評價中的應用[J].環境科學學報,2010,30(2):431~437.
[4]明星,姚建,程歡,等.基于主成分分析與聚類分析的水污染排放分布研究[J].綠色科技,2016(10):36~38.
[5]鞏嘉譽.基于主成分析方法的山東省水資源承載力研究[J].綠色科技,2013(1):82~85.endprint