有限秩多任務核的若干性質
劉建強
(寧夏大學 數學計算機學院,銀川750021)
摘要:多任務核的性質研究較少。應用多任務核的刻畫定理,給出多任務核的若干性質,主要包括多任務核空間結構、沿對角線平移性質、多任務核的Kronecker乘積相關的幾個性質,為多任務核學習實驗中選擇多任務核提供必要的方法和依據。
關鍵詞:多任務核;Kronecker乘積;半正定
收稿日期:2014-03-12
基金項目:寧夏省自然
作者簡介:劉建強(1981-),男,山東青州人,講師,博士,主要從事多任務核研究。
中圖分類號:O177.92文獻標志碼:A
0引言

機器學習實驗發現,有多個任務同時學習時,考慮這些任務之間的內在關聯得到的結果經常比忽略他們要好得多[3,4],這稱為多任務學習。將核方法應用到多任務學習中,產生了多任務核的概念,它最早由C.A.Micchelli等人提出[5]。
設Y是一個實希爾伯特空間,稱為輸出空間。對任何y,z∈Y,其內積記為〈y,z〉,H為從X到Y的映射組成的線性空間。用L(Y)表示所有從Y到Y的有界線性算子,對于任何A=L(Y),用A*表示其共軛算子。用L+(Y)表示所有非負有界算子,即任何A∈L+(Y),〈y,A(y)〉≥0。稱算子K:X×X→L(Y)為一個多任務核,如果
(1) 對任何x,t∈X,K(x,t) ∈L(Y),K(x,t)=K(t,x)*

易見傳統的再生核也是多任務核,對應于輸出空間Y維數為1的情況,因此在這里稱傳統再生核為標量值核。

1主要內容
對于固定的輸入空間X和輸出空間Y,所有從從X×X到L(Y)上的多任務核由于有正性的約束,無法形成線性空間,事實上,它構成了一個凸錐。
性質1.1構成一個凸錐。
證明:只需證明對K1,K2∈Ω(x,y),α,β≥0,則αK1+βK2∈Ω(X,Y)。首先對任何x,t∈X,K1(x,t),K2(x,t)∈L(Y),

再有,對x1,…,xm∈X,y1,…,ym∈Y,

證畢。
性質1.2設K∈Ω(X,Rd),K1為K的d1階主子矩陣,d1≤d 。那么K1∈Ω(X,Rd1)。特別地,多任務核的對角線元素都是標量值核。

特別地,取d1=1,得到的主子陣K1為K的對角線元素,它是標量,根據上面的證明仍得到K1是多任務核,并且是一維的,因此是標量值核,證畢。
性質1.3設K∈Ω(X,Y),X?R,x,t∈X,則
(1)若s>0,(xt)sK(x,t)∈Ω(X,Y);
(2)設s<0,若X不包含原點,(xt)sK(x,t)∈Ω(X,Y);
(3)設s<0且X包含原點。若K作為x,t的二元函數在原點的某鄰域G1內解析,且(xt)sK(x,t)在原點的空心鄰域G2內解析,則(xt)sK(x,t)∈Ω(X,Y)。
證明:對任何y1,y2,…,ym∈Y,x1,x2,…,xm∈X,

性質1~性質3中X,Y的范圍均能使上式成立,證畢。
上述性質可以理解為:對于某一個一直的多任務核,將其特征(算子)矩陣沿著對角線上下拉動,得到特征算子對應的函數仍為多任務核。
下面將通過矩陣的Hadamard乘積和Kronecker乘積討論多任務核。
設A=(aij)m1×n1,B=(blr)m2×n2稱矩陣C=(cuv)m1m2×m1n2=(aijB)m2×n2為矩陣A,B的Kronecker乘積,記為C=A?B。若A=(aij)m1×n1,B=(bij)m1×n1,稱矩陣C=(cij)m1×n1=(aijbij)m1×n1為矩陣A,B的Hadamard乘積,記為C=A⊙B 。舒爾(Shur)定理(文獻[7])是說,兩個半正定矩陣的Kronecker乘積是半正定的。因此,我們得到如下的結論:


根據此性質以及文獻[8],可得如下結論:

證明:設


反過來,假設Kronecker乘積是多任務核,一般情況下不能得到參與Kronecker乘積的矩陣值函數是多任務核,但我們有下面的兩個結論。

f∈Ω(C1,Cd2)?f?K∈Ω(C1,Cd1d2)?K?f∈Ω(C1,Cd1d2) 。
證明:根據性質1.5,
f∈Ω(C1,Cd2)?f?K∈Ω(C1,Cd1d2)
且
f∈Ω(C1,Cd2)?K?f∈Ω(C1,Cd1d2)。
現在證明
K?f∈Ω(C1,Cd1d2)?f∈Ω(C1,Cd2),
f?K∈Ω(C1,Cd1d2)?f∈Ω(C1,Cd2)的證明類似。




且m1+m2=m,c0=c′c″。
由于多任務核用于同時處理多個任務,而且這些任務之間相互內在關聯,相互耦合,不存在理論上的方法,能直接將這些任務分組。但是,可以通過特征算子的特征值(eigenvalue)分解,得到對耦合之后的任務進行分組,從而達到并行處理的目的。

證明:根據多任務核的刻畫定理,
K(x,t)=(φ1(x)θd2×nd2,φ2(x)θd2×nd2,…,φn(x)θd2×nd2)T
⊙C⊙(φ1(t)θd2×nd2,φ2(t)θd2×nd2,…,φn(t)θd2×nd2)。
Ki(x,t)=(φ1(x)θd2×nd2,φ2(x)θd2×nd2,…,φn(x)θd2×nd2)T
⊙C⊙(φ1(t)θd2×nd2,φ2(t)θd2×nd2,…,φn(t)θd2×nd2)


參考文獻:
[1]Boser, B., Guyon, I., Vapnik, V. A training algorithm for optimal margin classifiers[J].Pittsburgh, 1992(5):144-152.
[2]Aronszajn N. Theory of reproducing kernels[J]. Trans. Am. Math. Soc,1950( 68):334‐404.
[3]Caruana R. Multi‐task learning[J]. Mach. Learn, 1997(28): 41-75.
[4]Evgeniou T, Pontil M. Regularized multi‐task learning[A]. International Conference on Knowledge Discovery and Data Mining[C]:2004.
[5]Micchelli C A, Pontil M. On learning vector‐valued functions[J]. Neural Computation, 2005,17(1): 177-204.
[6]Liu Jianqiang, Micchelli C A, Wang Rui, Xu Y. Finite rank kernels in multitask learning[J]. Advances in Computational Mathematics, 2014, 38(2), 427‐436.
[7]Horn R A, Johnson C R. Matrix Analysis[M]. Oxford city: Cambridge University Press, 1990.
[8]Caponnetto A, Micchelli C A, Pontil M, Ying Y. Universal multitask kernels[J]. Journal of Machine Learning Research, 2008; 9(1):1615‐1646.
責任編輯:程艷艷
Several Properties of Finite Rank Multi-task Kernel
LIU Jianqiang
(School of Mathematics and Computer, Ningxia University, Yinchuan 750021, China)
Abstract:There is less research on the properties of multi-task kernel. Some properties of multi-task kernel are given by applying the characterizing theorem, including the spatial structure, shifting along diagonal lines and several properties related to Kronecker product, which provides necessary methods and basis for selecting multi-task kernel in learning and experiments.
Keywords:multi-task kernel; Kronecker product; positive semidefinite