從一階到高階的PCA在Hilbert空間的正交展開

2022-09-26 04:18:16延安大學數學與計算機科學學院石美麗

數字技術與應用 2022年9期

關鍵詞：分析

延安大學數學與計算機科學學院石美麗

在信息化炙熱的時代，對大量及大規模數據進行壓縮往往是研究事物的第一步，而主成分分析作為信息壓縮的重要手段之一，在模式識別、推薦系統、圖像及視頻處理等方面發揮著重要作用。本文在以方差代表信息量的基礎上，分別構造了向量、矩陣、張量情形下的主成分，并分析了其特征向量在對應Hilbert空間的正交展開過程。且進一步討論了三種情形下樣本PCA的過程，探究重構過程中矩陣SVD和張量Tucker分解與矩陣PCA和張量PCA的關系。

當今社會是信息爆炸的時代，我們所感興趣的東西背后常蘊含著大量及大規模的數據，而數據壓縮往往是進行分析的第一步，因此信息壓縮一直是研究熱點。主成分分析法作為一種發展成熟、運用廣泛的數據壓縮辦法，分析其內在本質是非常必要的，尤其是在大規模數據(高階張量)方面的運用。

主成分分析法（PCA）作為一種建立在統計最優原則基礎上的分析方法，具有較長的發展歷史。它最早是由Pearson[1]在1901年提出的，1933年Hotelling[2]在此基礎上加以發展。Hotelling運用拉格朗日乘數法對主成分進行標準的代數推導，他是以相關系數矩陣為基礎，而不是協方差矩陣，且沒有用矩陣符號表示。Pearson更注重的是計算結果，且此方法要比計算機的廣泛運用還早50多年，盡管對于4個及4個以上的變量計算冗長，但依舊可行。雖然計算機發展迅速，但對大量數據的計算還是耗時耗力的。因此奇異值分解(SVD)[3]大大減小了計算量。當然，隨著信息時代的不斷發展,需要處理的數據規模也不斷擴大。Kirby[4]直接將人臉圖像拉伸為向量數據，然后運用傳統的PCA辦法進行特征提取，這不僅破壞了矩陣結構故有的特征信息，還容易發生“小樣本問題”。2DPCA[5-6]通過對矩陣進行按行或按列投影，從而實現直接從矩陣提取特征。當然可以同時進行按行和按列投影，即雙向PCA[7]的方法，彌補了2DPCA的相對不足之處。隨著科技不斷進步，張量主成分分析的研究越來深入[8,9]，且不同條件下其應用相當廣泛，如推薦系統[10]、聚類分析[11]等。

本文一共包括三個部分。第一部分對一些重要運算符號及概念進行說明；第二部分解釋向量空間、矩陣空間、張量空間構成Hilbert空間，并描述各種數據在其Hilbert空間中的主成分，以及從總體到樣本的介紹與求解過程；第三部分是對本文的總結。

1 基本概念及符號說明

1.1 基本運算符號說明

1.2 矩陣的奇異值分解與張量的Tucker分解

2 PCA過程在Hilbert空間的嚴格描述

2.1 向量PCA過程在Hilbert空間的嚴格描述

2.1.1 總體版向量PCA

在統計學中方差表示變異性，方差的解釋程度衡量了對信息的提取大小。PCA過程是一個線性變換的過程，這個變換將原始變量轉換到一個新的坐標體系中，使得數據投影的第一大方差在第一主成分上，第二大方差在第二主成分上，以此類推，也就是新的坐標基底按信息量大小來排序，因此我們按變異率最大的方向來找正交基，即

2.1.2 樣本版向量PCA

2.2 矩陣PCA

2.2.1 總體版矩陣PCA

2.2.2 樣本版矩陣PCA

2.3 張量PCA

2.3.1 總體版張量PCA

自從Tucker在1963年提出張量Tucker分解后，有關于張量的研究越來深入，而其中在數據壓縮方面淵源已久。由于張量Tucker分解是SVD的推廣，所以將2DPCA與GPCA可以運用到高階張量中，即多線性主成分分析(MPCA)。

3 總結

本文講述從本質上理解PCA過程，討論特征向量在Hilbert空間的正交展開。將最大化主成分這一本質依次推廣到2DPCA、GPCA與MPCA中，分別探討了在總體以及樣本情形下特征提取與信息壓縮問題，以及討論了重構過程中矩陣SVD和張量Tucker分解與矩陣主成分分析和張量主成分分析的關系。此文對PCA統計意義以及幾何意義展開討論，接下來要深入此方面的研究，尤其張量方面，這有助于對實際意義的理解。

引用

[1] PEARSON K.On Lines and Planes of Closest Fit to System of Points in Space[J].Philosophical Magazine,1901,2(11):559-572.

[2] HOTELLING H.Analysis of a Complex of Statistical Variables into Principal Components[J].Educational Psychology,1933,24(6): 417-441+498-520.

[3] HAO F Z,MA L B,ZHANG J M,et al.Distribution Systems Data Compression Based on SVD Method[C]//International Conference on Green Energy and Sustainable Development,2019.

[4] KIRBY M,SIROVICH L.Application of the Karhunen-Loeve Procedure for the Characterization of Human Faces[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,12(1):103-108.

[5] 張彬,帥小應,錢進,等.改進的2DPCA方法在掌紋識別中應用[J].電腦知識與技術,2021,17(29):99-101.

[6] WANG M L,JIANG X W,GAO J B,et al.Minimum Unbiased Risk Estimate Based 2DPCA for Color Image Denoising[J].Neurocomputing, 2021,440(14):127-144.

[7] 何春,郭科.基于雙向2DPCA算法的高分五號衛星圖像降維研究[J].樂山師范學院學報,2020,35(12):1-7.

[8] 夏志明,徐宗本.基于PCA的信息壓縮:從一階到高階[J].中國科學(信息科學),2018,48(12):1622-1633.

[9] 夏志明,趙文芝,徐宗本.張量主成分分析與高維信息壓縮方法[J].工程數學學報,2017,34(6):571-590.

[10] 廖亮,葉海昌,王新強.張量主成份分析算法在腦醫學圖像上的應用[J].影像研究與醫學應用,2018,2(19):63-66.

[11] 許榮海,王昌棟,基于異構信息網絡元路徑作張量分解的深度學習推薦系統[J].信息安全學報,2021,6(5):77-87.