延安大學數學與計算機科學學院 石美麗
在信息化炙熱的時代, 對大量及大規模數據進行壓縮往往是研究事物的第一步, 而主成分分析作為信息壓縮的重要手段之一,在模式識別、推薦系統、圖像及視頻處理等方面發揮著重要作用。本文在以方差代表信息量的基礎上,分別構造了向量、矩陣、張量情形下的主成分,并分析了其特征向量在對應Hilbert空間的正交展開過程。且進一步討論了三種情形下樣本PCA的過程,探究重構過程中矩陣SVD和張量Tucker分解與矩陣PCA和張量PCA的關系。
當今社會是信息爆炸的時代, 我們所感興趣的東西背后常蘊含著大量及大規模的數據, 而數據壓縮往往是進行分析的第一步,因此信息壓縮一直是研究熱點。主成分分析法作為一種發展成熟、運用廣泛的數據壓縮辦法,分析其內在本質是非常必要的,尤其是在大規模數據(高階張量)方面的運用。
主成分分析法(PCA)作為一種建立在統計最優原則基礎上的分析方法,具有較長的發展歷史。它最早是由Pearson[1]在1901年提出的,1933年Hotelling[2]在此基礎上加以發展。Hotelling運用拉格朗日乘數法對主成分進行標準的代數推導,他是以相關系數矩陣為基礎,而不是協方差矩陣,且沒有用矩陣符號表示。Pearson更注重的是計算結果,且此方法要比計算機的廣泛運用還早50多年,盡管對于4個及4個以上的變量計算冗長,但依舊可行。雖然計算機發展迅速,但對大量數據的計算還是耗時耗力的。因此奇異值分解(SVD)[3]大大減小了計算量。當然,隨著信息時代的不斷發展,需要處理的數據規模也不斷擴大。Kirby[4]直接將人臉圖像拉伸為向量數據,然后運用傳統的PCA辦法進行特征提取,這不僅破壞了矩陣結構故有的特征信息,還容易發生“小樣本問題”。2DPCA[5-6]通過對矩陣進行按行或按列投影,從而實現直接從矩陣提取特征。當然可以同時進行按行和按列投影,即雙向PCA[7]的方法,彌補了2DPCA的相對不足之處。隨著科技不斷進步,張量主成分分析的研究越來深入[8,9],且不同條件下其應用相當廣泛,如推薦系統[10]、聚類分析[11]等。
本文一共包括三個部分。第一部分對一些重要運算符號及概念進行說明;第二部分解釋向量空間、矩陣空間、張量空間構成Hilbert空間,并描述各種數據在其Hilbert空間中的主成分,以及從總體到樣本的介紹與求解過程;第三部分是對本文的總結。




2.1.1 總體版向量PCA
在統計學中方差表示變異性, 方差的解釋程度衡量了對信息的提取大小。PCA過程是一個線性變換的過程,這個變換將原始變量轉換到一個新的坐標體系中,使得數據投影的第一大方差在第一主成分上,第二大方差在第二主成分上,以此類推,也就是新的坐標基底按信息量大小來排序,因此我們按變異率最大的方向來找正交基,即


2.1.2 樣本版向量PCA

2.2.1 總體版矩陣PCA


2.2.2 樣本版矩陣PCA

2.3.1 總體版張量PCA
自從Tucker在1963年提出張量Tucker分解后,有關于張量的研究越來深入,而其中在數據壓縮方面淵源已久。由于張量Tucker分解是SVD的推廣,所以將2DPCA與GPCA可以運用到高階張量中,即多線性主成分分析(MPCA)。

本文講述從本質上理解PCA過程,討論特征向量在Hilbert空間的正交展開。將最大化主成分這一本質依次推廣到2DPCA、GPCA與MPCA中,分別探討了在總體以及樣本情形下特征提取與信息壓縮問題, 以及討論了重構過程中矩陣SVD和張量Tucker分解與矩陣主成分分析和張量主成分分析的關系。此文對PCA統計意義以及幾何意義展開討論,接下來要深入此方面的研究,尤其張量方面,這有助于對實際意義的理解。
引用
[1] PEARSON K.On Lines and Planes of Closest Fit to System of Points in Space[J].Philosophical Magazine,1901,2(11):559-572.
[2] HOTELLING H.Analysis of a Complex of Statistical Variables into Principal Components[J].Educational Psychology,1933,24(6): 417-441+498-520.
[3] HAO F Z,MA L B,ZHANG J M,et al.Distribution Systems Data Compression Based on SVD Method[C]//International Conference on Green Energy and Sustainable Development,2019.
[4] KIRBY M,SIROVICH L.Application of the Karhunen-Loeve Procedure for the Characterization of Human Faces[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,12(1):103-108.
[5] 張彬,帥小應,錢進,等.改進的2DPCA方法在掌紋識別中應用[J].電腦知識與技術,2021,17(29):99-101.
[6] WANG M L,JIANG X W,GAO J B,et al.Minimum Unbiased Risk Estimate Based 2DPCA for Color Image Denoising[J].Neurocomputing, 2021,440(14):127-144.
[7] 何春,郭科.基于雙向2DPCA算法的高分五號衛星圖像降維研究[J].樂山師范學院學報,2020,35(12):1-7.
[8] 夏志明,徐宗本.基于PCA的信息壓縮:從一階到高階[J].中國科學(信息科學),2018,48(12):1622-1633.
[9] 夏志明,趙文芝,徐宗本.張量主成分分析與高維信息壓縮方法[J].工程數學學報,2017,34(6):571-590.
[10] 廖亮,葉海昌,王新強.張量主成份分析算法在腦醫學圖像上的應用[J].影像研究與醫學應用,2018,2(19):63-66.
[11] 許榮海,王昌棟,基于異構信息網絡元路徑作張量分解的深度學習推薦系統[J].信息安全學報,2021,6(5):77-87.