蘇本革
(山東省東平縣斑鳩店鎮(zhèn)中學(xué) 山東泰安 271500)
當(dāng)今信息時代中,隨著計算機技術(shù)的不斷發(fā)展,新概念不斷地提出,數(shù)據(jù)呈現(xiàn)出了快速增長,而這些大量數(shù)據(jù)信息中許多是冗余無用的,根據(jù)特征來提取所需的知識和信息,用合理的手段來提取數(shù)據(jù)的特征成為目前所需解決的主要問題。同樣的事物具有多種的表現(xiàn)形式,如同一個人的指紋和紅熱圖像。同一句話的不同語言表達(dá),對于相同對象不同的表示被稱為多特征數(shù)據(jù)[1],即同一個物體的多種特征信息。近年來,多特征數(shù)據(jù)的研究獲得越來越多的關(guān)注[2],因為相比于單特征數(shù)據(jù),多特征數(shù)據(jù)上的研究具有更好的效果[3]。
“維數(shù)災(zāi)難”[4]是多特征數(shù)據(jù)經(jīng)常出現(xiàn)的問題,影響分類識別性能。特征提取和融合成為解決此類問題的關(guān)鍵所在。在同一種模式中,可以通過提取多種特征,來充分體現(xiàn)模式中不同的特點。特征融合的主要目的其一是優(yōu)化和組合不同的特征實現(xiàn)維數(shù)約減,其二是更好地進行模式分類。特征融合主要有以下的優(yōu)點:首先,不會忽略多特征的有效判別信息;其次,有助于消除特征數(shù)據(jù)的冗余信息。
串聯(lián)和整合多種類的特征是特征融合的重要方法之一。其中,特征之間的相互比較采用了特征正則化方法。這種方法在一些范圍中有助于識別性能的優(yōu)化,提高識別率,但是當(dāng)模式識別時的特征維數(shù)極大地增加時,則會有小樣本問題[5]出現(xiàn),使得計算速度相比之前極大地降低。串行特征融合,即基于一個融合矢量的特征融合方法。并行特征融合[6]則是基于復(fù)合矢量的特征融合。盡管串行特征融合和并行特征融合都可以有效增強識別能力,卻在一定程度上忽略了兩個特征集之間的相關(guān)關(guān)系。這兩種方法對于缺乏內(nèi)在關(guān)系兩個特征數(shù)據(jù)集,有效性尚待提高。經(jīng)過進一步研究,提出了典型相關(guān)分析(Canonical Correlation Analysis,CCA)[7,8],對不同樣本的不同特征之間的相關(guān)關(guān)系進行進一步研究。
典型相關(guān)分析是由Hotelling于1936年提出,是一種將兩個多維變量之間的線性關(guān)系關(guān)聯(lián)起來的方法,CCA利用同一個語義對象的兩個視圖來提取語義的表示[9]??梢钥醋魇菫閮山M變量尋找基向量[10]的問題,使得變量在這些基向量上的投影之間的相互關(guān)系達(dá)到最大。隨著數(shù)據(jù)收集和數(shù)據(jù)存儲技術(shù)的快速發(fā)展,它的理論已經(jīng)比較完善,計算機的發(fā)展解決了典型相關(guān)分析在應(yīng)用中計算方面的困難,成為普遍應(yīng)用的進行兩組變量之間相關(guān)性分析技術(shù)。

CCA的準(zhǔn)則函數(shù)為:


即:求最大特征值對應(yīng)的特征向量的方程為:

在這一部分中,為了評估所提出的CCA方法,我們在Coil20數(shù)據(jù)集上進行了一些實驗。來驗證基于柯西不等式求解的CCA方法對特征融合和識別的能力。
Coil20數(shù)據(jù)集屬于多個對象數(shù)據(jù)集。其包括20個不同的對象。當(dāng)物體在轉(zhuǎn)盤上旋轉(zhuǎn)時,每個物體的圖像相距5度,因此每個物體具有72個圖像。
在Coil20數(shù)據(jù)集上,每類n(n=15,20,25,30,35)個訓(xùn)練樣本,表1展示了CCA方法在Coil20數(shù)據(jù)集的平均聚類性能。從表中可以看出,CCA擁有較佳的聚類性能。

表1 在Coil20數(shù)據(jù)集上的實驗結(jié)果
CCA作為經(jīng)典的兩變量依賴分析,是一種用于線性相關(guān)特征學(xué)習(xí)的統(tǒng)計技術(shù),它高度依賴于描述對象的坐標(biāo)系統(tǒng)。這意味著,盡管數(shù)據(jù)在不同維度空間上具有很強的線性相關(guān)性,但它們之間的關(guān)系很難被察覺。CCA可以被看作是為兩組數(shù)據(jù)尋找公共子空間的工具,本文定義了總體典型相關(guān)變量及典型相關(guān)系數(shù),并詳細(xì)介紹了利用柯西不等式的求解思路。通過實驗與分析我們總結(jié)得出,CCA在圖像方面的良好聚類性能,并且在模式識別方面已經(jīng)有了成功的應(yīng)用和案例,本文在CCA優(yōu)化求解方面的研究具有重要的理論和實際意義。