一種基于單形空間缺失數據的補全方法

2022-12-08 17:03:08李瑋琦

現代計算機 2022年19期

劉冰，李瑋琦

（達州職業技術學院人工智能學院，達州 635001）

0 引言

成分數據是一種具有比例結構的多維數據，其數學形式定義為

則稱向量X為D維成分數據［1］，向量空間SD為單形空間，其中X中的每一個元素xi表示其在整體中所占的比重。相較于普通數據而言，成分數據除了用于分析整體中各部分數據間的相對關系外，還有利于揭示普通數據所隱藏的相對信息，在諸如社會學、經濟學、氣象學、地質學、醫學等領域都有十分廣泛的應用［2-4］。

由公式（1）可以看出，單形空間中的數據受到兩個條件的限制，一個是有界約束，另一個是定和約束，而現有一般的統計分析方法對被分析數據是沒有約束要求的。顯然，這就導致現有一般的統計分析方法在單形空間中無效，一個最主要的原因在于單形空間中數據的協方差矩陣通常是奇異矩陣，其含義與普通的數據不同［5］；另一個原因在于單形空間中的數據總體一般不滿足多元正態分布的假設，這就會導致建立模型十分困難。為了能運用現有一般的統計分析方法去分析單形空間中的數據，通常的做法是先進行預處理，即經過一定的變換使之成為無約束數據。文獻［1］首次提出通過對成分數據的對數比變換建立成分數據的邏輯正態分布模型，有效地解決了現有一般的統計分析方法對單形空間中數據有界定和約束的限制，但建立的模型對數據的解釋性較差；文獻［6］提出了一種新變換，即對稱對數比變換，該方法能很好地解釋數據，但在某些情況下容易造成變換后的數據間存在較高的冗余性，從而損失部分數據信息；文獻［7-8］在此基礎上又進行了改進，即對稱等距對數比變換（isometric logratio transformations，ILR），但該方法對數據的完整性要求較高，若存在數據缺失，當補全為0時會造成變換后的數據為無窮的情況，顯然失去了實際的意義。對于成分數據的缺失值補全，目前一般采用單形空間均值（SM）補全法、極大似然補全法、期望最大填補法、k近鄰補全法（KNN），等等。這些方法對于回答信息而言其實現較為容易，但穩健性差，結果偏差較大，補全后的數據冗余度高，缺少解釋性。

消除變換后的數據冗余性的最有效方法是實現單形空間到歐氏空間的正交變換，為此，本文首先給出單形空間的代數運算體系，在給出文獻［4，9-11］的相關變換過程的基礎上，著重研究對于成分數據存在缺失值時通過對數比變換后存在的多重共線性數據的填補方法，并結合主成分分析法提出了一種較為有效的參考解決路徑。

1 單形空間的代數體系

為了實現單形空間到歐氏空間的正交變換，本文給出單形空間對于向量的加法、數乘、內積以及距離的如下定義。

（1）向量的加法：對于任意X,Y∈SD，向量X,Y的加法運算⊕定義為

式中，A[.]為封閉運算，即

（2）向量的數乘：對于任意X∈SD，任意實數a∈R，a與向量X的數乘運算?定義為

（3）向量的內積：對于任意X,Y∈SD，向量X,Y的內積定義為

（4）向量的距離：對于任意X,Y∈SD，向量X,Y的Aitchison距離［10］定義為

2 成分數據的缺失

在實際工作中，待分析處理數據集中某些數據或屬性值缺失的原因是多方面的，或者是調查者基于主觀的判斷認為不重要而丟棄某些數據；或者是由于客觀的問卷設計存在瑕疵、錄入失誤、受訪者拒絕回答而沒能采集到某些數據；或者是在原始數據的存儲過程中，由于設備的故障造成存儲數據的不全或失敗而丟失某些數據等，使得沒能滿足設計預期獲得詳細而全面的資料數據，顯然，如果缺失數據占比較大，對于后續的數據分析處理會造成難以估計的影響。

從式（1）易知，若一個成分向量中只有一個元素值缺失，即可根據定和限制求出該缺失值，因此一般來說，成分數據的缺失值是指某個樣本或屬性值中至少有兩個或兩個以上的缺失值。其數學形式化定義如下：

若某個向量Xk（k= 1,2,…,n）中至少有兩個元素值存在缺失，則稱Z為缺失數據矩陣。

3 缺失數據的補全

由于主客觀等因素的影響，經常會碰到待分析處理的數據集中某個數據或某些屬性值出現為零或缺失的情況。對于前者，通常的做法是將其處理為缺失值；而對于后者，一般先要考慮缺失數據的占比情況，若某行（列）缺失數據比超過90%，一般進行剔除處理，或重新進行該行（列）數據的采集。對于缺失數據比小于90%的情況，則對缺失數據進行某種策略的填補。—種經典的填補方法是基于k近鄰（KNN）方法［12］，即用通過某缺失值的k個最近鄰樣本信息來估算該缺失值；另一種是把缺失值當作一類隨機變量或者隱變量，建立概率隱變量模型，然后通過EM、VI（Variational Inference）或者MCI（Monte Carlo Inference）來估計缺失值的分布，具體做法是：

對于式（1），進行如下的處理：

其中，xOi為非缺失值數據，xMj為缺失值數據，則缺失值xMj的分布估計為

然后計算該分布的期望值，并將其置為缺失值的估計值。

對于簡單的模型，其解析解可用EM 算法求解；若模型復雜，則可借助MCI 去進行逼近求解，但無法解決結構帶來的不實用的問題。

此外，對于多元線性回歸模型，若變量之間線性無關，還可采用回歸估計法對缺失值進行填補。但變量之間完全線性無關僅僅具有理論上可能，在實際情況下，變量之間往往存在多重共線性，若直接采用回歸估計法，其估計結果會與實際情況相去甚遠。

對于多重補全法，文獻［9-11，13］給出的方法較有代表性，下面作簡要介紹：

3.1 非對稱對數比變換

對于式（1），定義如下變換：

其逆變換式為xD=，進而有：

從式（9）中可以看到，該變換是一個從單形空間SD到歐氏空間RD-1上的線性變換，而非正交變換，變換后的yi與變換前的xi不具有一一對應的關系，即存在非對稱關系，這就會導致建立的模型不能合理準確地解釋數據。

3.2 對稱對數比變換

針對非對稱對數比變換存在的缺陷，張堯庭［6］在《成分數據統計分析引論》中提出了一種新變換，使得變換后的yi與變換前的xi具有了一一對應的關系，即存在對稱關系，這就使得建立的模型具有了一定的可解釋性。其具體變換式如下：

對于式（1），定義如下變換：

其逆變換式為xD=，進而有：

從式（10）看到，該變換是正交變換，但當0＜xi＜1 時，?[α1,α2,…,αD]T∈SD,αiyi≠0，即變換得到的數據存在一定的相關性，導致了變量間協方差矩陣不滿秩，從而使得基于協方差結構的統計方法無效，在實際應用中，應當避免使用該變換對成分數據進行預處理。

3.3 對稱等距對數比變換

文獻［4，11，13］又在對稱對數比變換基礎上進行了改進，即對稱等距對數比變換（isometric log-ratio transformations，ILR），具體如下：

對于式（1），定義如下變換：

容易得出：式（11）的逆變換式為

進而有：

從式（11）可以看出，該變換實現了從單形空間SD到歐氏空間RD-1的正交變換，確保了在變換后的空間中運用傳統的統計分析方法進行合理的模型建立。但在xi= 0時，對應的yi的結果將為無窮，失去了實際的意義，對后續的進一步分析處理造成了障礙。

4 成分數據的補全

一般情況下，對于缺失數據不宜貿然進行刪除處理，通常需要采用某種方法進行補全操作。常用的方法有：均值補全法、極大似然估計法、多重補全法等，其中多重補全法是通過估計出待補全的值加上不同的噪聲來得到補全值。對于成分數據缺失值的補全，Hron 等［12］提出的k 近鄰法較有代表性，該方法是通過用Aitchison 距離來尋找到含缺失值樣本的k 個近鄰，并用該k 個近鄰的中位數來進行初始補全，然后用最小二乘法來進行迭代補全。本文在前面定義的單形空間的加法運算⊕以及數乘運算?的基礎上結合文獻［12］的方法，提出一種基于單形空間缺失成分數據的補全方法，同時運用主成分分析法，處理將成分數據變換為一般數據后可能存在的多重共線性的情況。

4.1 多重共線性

在進行多元回歸分析時，若某些解釋變量之間存在嚴格或近似的線性關系，其樣本點或屬性值的一個微小改變都會極大地擾動回歸系數的估計值，使得回歸系數極不穩定［14］。因為某些解釋變量之間存在的強相關關系將極大地降低ZTZ的可逆性，大多數情況變得不可逆，即使通過某種計算使其變得可逆，其逆矩陣的特征值也往往會較大，導致標準誤差值也較大，進而降低了參數估計值的精度，無法得出穩定的回歸模型，回歸系數及符號也與實際情況相去甚遠。

檢測多重共線性的方法主要有：

（1）通過計算自變量間的相關系數與顯著性來進行判斷，即若某些變量間的相關系數顯著，則認為它們之間可能存在多重共線性問題。

（2）使用回歸分析中的方差膨脹系數（Variance inflation factor，VIF）值來進行判斷，VIF的計算公式為VIF=1/ (1 -)。其中，Ri為負相關系數。自變量之間共線性程度與VIF 值存在較強的正相關關系。根據Hair（1995）標準，當VIF≤10 時，模型的多重共線性較弱；當10 ＜VIF≤100 時，模型的多重共線性較為嚴重；當VIF＞100時，模型的多重共線性很嚴重。

（3）容忍值（Tolerance）法，也是較為常用的方法。其計算公式為Tol＝1/VIF。顯然，其與方差膨脹系數法的判定標準相反，自變量之間共線性程度與Tol值存在較強的負相關關系。在實際中，通常為Tol指定一個閾值，確保小于閾值的變量間的相關系數矩陣可逆，使回歸系數的估計值具有較強的穩定性。該方法的缺陷在于Tol閾值的確定存在隨意性，沒有一個統一的標準。

（4）主成分回歸法，對于矩陣（6），設ZTZ的特征值為λ1≥λ1≥… ≥λn＞0，稱h=λ1/λn為ZTZ的條件數，一般地，若h＜100，則認為模型的多重共線性程度較小；若100 ＜λ1＜1000則認為模型的多重共線性程度較強；若h＞1000，則認為模型的多重共線性程度嚴重。

需要說明的是，在現實工作中，獲得的數據集一般都存在多重共線性，只是程度不同而已，對于共線性程度較小或一般的問題可以不必采取措施。另外，如果學得模型的擬合度好，也可不需處理多重共線性問題。

4.2 單形空間上的均值補全

根據公式（5）易知，若兩個樣本各自成分數據子集相似，則它們之間的Aitchison 距離可以用其對應子集的Aitchison 距離大約表示。即dA(xi,xj)≈dA(XMi,XMj)≈dA(XOi,XOj)，其中：XMi,XMj和XOi,XOj分別是樣本xi,xj各自所對應的缺失值和確定值成分數據子集。

下面根據第2節的相關定義及文獻［12］的方法給出xi的某一缺失成分xmi∈XMi，m∈M的補全步驟：

（1）根據Aitchison 距離找到含缺失值xi相應子成分XMi的k（k＜n）個最近鄰，并記為其對應的k個全樣本依次為。

（2）根據定義1 和定義2，計算出k個全樣本的均值：

（3）求出xmi的補全值：

其中：Ij=(0,…,1,…,0)T∈Rn的第j個元素為1,j= 1,2,…,n。

4.3 基于主成分的補全

在大多數情況下，在單形空間上由子成分的Aitchison 距離對缺失值進行均值補全后的成分數據存在多重共線性，基于4.1 節所述，下面采用主成分回歸分析法對上節初始補全后的成分數據再次進行修正補全，主要步驟如下：

（1）將含有缺失成分的樣本xi和其k個最近鄰樣本xi[1],xi[2],…,xi[k]組成一個單形空間矩陣，并將缺失值xmi初始補全后的變換到第1 行第1列，記為：A(k+1)×D。

（2）根據公式（11），將單形空間矩陣轉換為歐式空間矩陣，如下所示：

其中，α= irl(x?mi)，A為一k×(D- 1)階矩陣，令：

（3）對矩陣A做主成分分析，其協方差矩陣記為Λ=，其中，zu,zv為A的行向量，為A的行向量均值。

（4）計算Λ的前p個主成分，依次為λ1≥λ1≥…≥λp≥0，則響應變量Y與間的關系為

其中：m= 1,2,…,k,ε為誤差項。

（5）通過上式得到βj的估計值，計算到缺失值xmi的補全值為

（6）運用公式（12）將數據xmi還原為成分數據，并通過第（1）步將其調回到原始位置。

5 評價與比較

5.1 評價指標

為了有效地評價上述方法對數據集中缺失值的補全效果，本文采用正規化方均根差（the normalized root mean squares error，NRMSE）作為判別準則，即：

其中，vg為補全值，vr為真實值，μ(.)為均值，σ(.)為方差。NRMSE值的大小反映了真實值與補全值之間差距，若NRMSE值較大，則說明補全值與真實值存在較大差距；若NRMSE接近于0，則說明補全值非常接近真實值。

5.2 比較分析

為了驗證前述方法的有效性，選用文獻［1］中Hongite 數據，該數據集包含25個樣本，每個樣本包含5 個特征：ablite，blandite，cornite，daubite，endite，根據4.1 節所述計算得到條件數h=2747.238＞＞1000，即認為該數據集存在嚴重的多重共線性。下面假定該數據集的ablite 和cornite 特征數據缺失，分別運用k近鄰補全法（KNN），單形空間均值（SM）和主成分補全法（PCA）對缺失值進行補全，得到比較結果見表1。

表1 KNN，SM和PCA補全操作比較結果表

從表1可以看出，當條件數h＞＞1000時，用PCA 方法進行補全的結果最好，KNN 的補全結果最差。

根據文獻［10］的結論模擬100 個5 維的成分數據x～N5φ(μ,∑)，其中μ=(0,0,0,0)T，∑是一個主對角線上全為1，其余全為p的4 階方陣。在假定p的取值分別為0.3、0.7、0.995，缺失率（MR）分別為10%、20%和30%情況下，分別運用KNN、SM 和PCA 方法進行缺失值補全，并用NRMSE進行評價比較，結果如圖1所示。

圖1 MR與P分別取值時三種方法的補全比較結果

其中，在圖1 中的圖a1～a3 是在MR不同p一定時三種方法的補全比較結果，圖b1～b3 是在p不同MR一定時三種方法的補全比較結果。

圖1 MR與p分別取值時三種方法的補全比較結果（續）

從圖b1 與圖b2 中可以看出，PCA 比KNN，SM 的結果都要好。這三種補全法在MR一定時，p與NRMSE呈負相關關系，也就是說若數據間的多重共線性程度越大，無論哪種方法的補全效果都越好。而在p一定時，三種方法的MR與NRMSE呈正相關關系。作為初始的補全法，KNN 法明顯比SM 差，隨著MR的増大，結果會更差。但在MR變大時，PCA 法明顯比SM 效果好，隨著MR的増大，結果會更明顯。

6 結語

基于單行空間完備的代數體系提出的等距對數比變換是一個正交變換，該變換既克服了非對稱對數比變換改變內積及距離等幾何概念的缺陷，同時，又避免了對數比變換導致的多重共線性給多元分析方法帶來的不利影響。對于含有缺失值的多元數據來說，無論是基于模型還是基于距離，多變量補全法比單變量補全法結果更為準確：在單形空間上先進行均值補全，然后運用等距對數比對補全后的數據進行變換，最后再對變換后的數據運用主成分法進行第二次補全，實例分析表明，再次運用主成分法進行二次補全要比其他方法的效果更好。