王 雪,謝 淼*,周玲菲,王林軍
(1.成都理工大學,四川 成都;2.成都理工大學數學地質四川省重點實驗室,四川 成都)
自然界中許多數據都屬于成分數據,由于成分數據各行的和為一個定值(通常為常數1),導致數據組分之間具有閉合效應[1],存在一定的偽相關關系。同時成分數據的取值都介于(0,1),其所屬空間屬于“單形”空間,因此常用的統計分析方法在單形空間上存在很大的局限性。為了解決成分數據統計分析的局限性,J.艾奇遜[2]在《成分數據統計分析》中提出,常見的對數比方法能夠打開成分數據之間存在的封閉性。周蒂[1]通過對前人在處理成分數據時相關方法的分析,提出了對數比轉換作為成分數據統計分析的依據及存在的問題,并有針對性地尋找對數比轉換后保留在數據中的重要信息的方法。大多數統計分析方法基于完整的數據集使用,無法直接應用于包括缺失值的數據集。目前李春軒[3], 張曉琴[4]等人對基于對數比變換后的成分數據空間插值進行了一系列的研究,形成了一套比較完整的成分數據缺失值填補處理體系。基于對數比變換的成分數據統計分析在國內外都得到了廣泛的分析與應用[7-10],并且都取得了不錯的成就,如張堯庭[6]在《成分數據統計分析引論》中,闡述了成分數據與多種分布(如邏輯正態分布、狄式分布族等)有關,并在此基礎上介紹了成分數據統計分析的理論與方法等。
本文針對成分數據在進行主成分分析時,對于處理數據方法的選擇進行研究。分別比較三種常用的對數比轉換后的數據進行主成分分析后的效果,得到最優的數據處理方法,為成分數據的主成分分析建立一個初級的完整分析體系,文章結論可以廣泛的應用在成分數據分析中,如對于大氣成分數據的檢測系統[11]等。
本文對“2022 年高教社杯全國大學生數學建模競賽C 題”古代玻璃文物的66 條化學成分比例數據進行收集、整理。對該數據進行描述統計分析,不同化學元素含量值的最小值、最大值、均值、標準偏差、方差的結果如表1 所示(N 為有效個案數)。

表1 描述統計
依據原始數據的描述統計分析結果可以看出玻璃的化學成分含量的差異性,玻璃文物中二氧化硅和氧化鉛的標準偏差分別為24.419 42 和19.425 37,這說明不同類型的玻璃文物中二氧化硅和氧化鉛的含量值的離散性較大。
由于玻璃的化學成分含量數據屬于典型的成分數據,因此下文將原始數據進行一定的對數比轉換,打開玻璃成分數據的定和限制,再使用主成分分析方法進行分析。
對任意D 元向量X=(X1,X2,...,XD)滿足以下表達式:
式中,X 為D 元成分數據,記為X∈SD。D 為成分個數,Xi為第i 個成分,Xi對應的取值稱為分量,表示i成分所占的比例。
成分數據因閉合效應而產生偽相關,從而不服從正態分布,給統計分析帶來了很大的困難,對數比轉換方法通過將原始數據從“單純形”轉換為“歐幾里德”空間,解決成分數據引起的“定和效應問題”。常見的對數比轉換方法有加性對數比轉換、中心化對數比轉換和等距對數比轉換[4]。
其中,加性對數比轉換是通過構建標準正交基將成分數據進行對數比轉換,使得成分數據從D 維的單純形數據轉換為D-1 維歐式空間,公式如下:
式中,μi=log(X i/XD),i=1,2,…,d 即選用最后一位成分作為分母進行對數比轉換。
中心化對數比轉換方法是數據內每個成分分量相對于全部成分分量幾何平均值的比值,轉換后的數據是等形等距的。但由于clr 相對數據中心進行轉換,變換后不改變數據的維數,但變換后的數據各分量之和為“0”,具有共線性的特點,公式如下:
式中,vi= log(Xi/g(X)),g(X)為成分分量Xi的幾何平均值。
等距對數比轉換方法是一種正交變換,在單純形中的Aitchison 幾何與標準歐幾里德之間形成一對一關系,具有良好的幾何特性,公式如下:
式中,ei(i=1,2...,D-1)為單形空間的一組標準正交基,選用不同的標準正交基可獲得不同的變換結果。等距對數比變換滿足了全成分或子成分協方差矩陣的對稱性和滿秩要求,解決了clr 變換產生的數據共線性缺點。
主成分分析也稱主分量分析,是利用降維的思想,在損失很少信息的前提下將n 維特征映射到k 維上,這k 維是全新的正交特征也被稱為主成分。主成分是P 個隨機變量X,X,...,X的一些特殊的線性組合,其主要依賴于X,X,...,X的協方差矩陣A(或者是相關矩陣P),設隨機向量有協方差矩陣A,其特征值為 λ1≥ λ2≥...≥ λp≥0[12]
考慮線性組合
即可得到
第一主成分即為方差最大的線性組合,同理依次可以得到所有主成分的線性組合表達式。
研究數據主要包括兩類玻璃(鉛鋇玻璃、高鉀玻璃)的化學成分含量,兩種玻璃在氧化鉀、氧化鉛、氧化鋇三種化學成分的含量上存在較大的差異。利用R計算出該批玻璃中氧化鉀、氧化鉛、氧化鋇的偏度和峰度如表2 所示。
由上述結果顯示,原始數據的偏度和峰度都比較高,與正態分布相差甚遠,因此不能直接進行統計分析。將原始數據在進行了對數比變換后,數據的偏度和峰度明顯降低,其中等距對數比變換數據與正態分布的峰度和偏度相似度較高,效果更好。
在用統計分析方法研究多變量的問題時,變量個數太多會增加問題的復雜性。在很多情形下,變量之間相關性會導致不同變量反映問題時信息重疊。主成分分析是一種廣泛使用的數據降維算法,通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量。此外新變量之間不僅是相互獨立的,在反映問題的信息方面也要盡可能保持原有的信息。
本文首先對原始數據、加性對數比變換、中心對數比變換和等距對數變換后的數據進行KMO 和Bartlett 的檢驗,判斷是否可以進行主成分分析。
對于KMO 值:0.8 上非常合適做主成分分析,0.7~0.8 之間一般適合,0.6~0.7 之間不太適合,0.5~0.6 之間表示差,0.5 下表示極不適合,對于Bartlett 的檢驗,若P 小于0.05,拒絕原假設,則說明可以做主成分分析,若不拒絕原假設,則說明這些變量可能獨立提供一些信息,不適合做主成分分析。因此根據表3 的數據顯示,四組數據的Bartlett 檢驗P 值均遠小于0.05,可以拒絕原假設,則說明可以做主成分分析。而四組數據只有加性對數比轉換的KMO 值0.8以上,其余幾組數據的KMO 值都比較小不太適合做主成分分析,見圖1-4。

圖1 原始數據

圖2 中心對數比變換后的數據

圖3 加性對數比變換后的數據

圖4 等距對數比變換后的數據

表3 KMO 和Bartlett 的檢驗
由碎石圖可知,若進行主成分分析,加性對數比變換后的數據只需要選擇4 個主成分就可以涵蓋全部變量的大部分信息,而原始數據、中心對數比變換、等距對數比變換后的數據均至少選擇7 個主成分才能達到加性對數比變換數據得到的效果。
綜上所述,基于KMO 值、Bartlett 檢驗以及碎石圖,經過加法對數比轉換的成分數據更適合做主成分分析,所得效果顯著。
對主成分分析的加法對數比轉換后的數據進行進一步的因子權重分析,查看各因子的貢獻率。其中,主成分1 的權重為68.604%、主成分2 的權重為15.124%、主成分3 的權重為8.664%、主成分4 的權重為7.608%,見表4。

表4 因子權重分析
由成分矩陣表可以分別得出主成分1、主成分2、主成分3和主成分4 的模型表達式F。根據F 表達式來計算綜合得分,并將綜合得分按照降序進行排序,由此來得到樣本的綜合得分和排名情況。成分矩陣表如表5 所示,前五個樣本的綜合得分情況如表6 所示。

表5 成分矩陣表

表6 綜合得分
本文通過對成分數據進行3 種不同的對數比變換,加法對數比變換后的數據與主成分分析結合得到了顯著的效果,并有如下結論:
(1)由于定和效應的限制,成分數據不能滿足正態分布的基本要求,因此數據未能通過KMO 檢驗和Bartlett 球形度檢驗,不能進行主成分分析。
(2)成分數據經過對數比轉換后,等距對數比轉換相較于加性、中心化的結果,其分布情況與正態分布相似度最高,正態檢驗效果顯著。
(3)由于加性對數比轉換過程中,數據從D 維度降至D-1 維度,即轉換后每個維度的數據都可以表示為原始數據最后一列數據的線性組合,在降維分析中具有極大的優勢。因此對加性對數比轉換后的數據引入主成分分析,能夠更有效地獲取原始數據中所含的相關信息。