劉解放 王士同 王 駿 鄧趙紅
1(江南大學數字媒體學院 江蘇無錫 214122)2 (湖北交通職業技術學院交通信息學院 武漢 430079)
面向大規模數據屬性效應控制的核心向量回歸機
劉解放1,2王士同1王 駿1鄧趙紅1
1(江南大學數字媒體學院 江蘇無錫 214122)2(湖北交通職業技術學院交通信息學院 武漢 430079)
(ljf-it@163.com)

回歸學習;屬性效應控制;中心約束最小包含球;等均值約束;大規模數據
數據的可靠性是數據挖掘成敗的關鍵因素之一.然而,由于科技水平制約、不同數據來源、系統誤差、性別或種族歧視等原因,采集的數據(尤其是歷史數據)往往存在對敏感屬性的嚴重依賴[1-9].例如,早期的人口統計數據集(censusincome)[6-7]中,總的來說,女性工資遠低于男性工資.類似該數據集中敏感屬性(性別)所引起的數據嚴重偏差稱為屬性效應[8].它的存在嚴重影響學習器的訓練和預測精度.因此,針對屬性效應控制的問題引起了數據挖掘領域研究人員的廣泛關注.
針對屬性效應問題,研究人員從不同角度進行研究,提出了許多新的學習方法.早期研究中,人們大多在訓練分類器前對數據進行預處理來移除敏感屬性,從而達到移除數據之間依賴關系的目的.這些方法的局限性在于,它們只是對數據進行必要的預處理,而沒有針對屬性效應問題對已有的學習算法進行實質性的改進[2-5].文獻[6]指出,由于多個相關屬性的間接依賴,僅簡單移除原始數據中的個別敏感屬性并不能真正消除屬性效應;另一方面,移除敏感屬性會丟失部分有價值信息,這不利于后續學習器的訓練.最近,研究人員大多通過改造已有的學習器來解決面向屬性效應控制的分類和回歸問題.例如,文獻[6]通過向貝葉斯模型中添加隱變量,使用期望最大化學習準則來優化模型參數,提出了3種不同的貝葉斯分類學習方法.Kamishima等人[7]提出了適用于任意概率判別模型的正則化分類器,該方法通過向分類學習模型中引入正則化項來強制分類器使之獨立于敏感屬性,并進一步使用該方法解決了logistic回歸問題.Kamiran等人[9]提出了基于決策樹分類器,當選擇非葉子節點特征時,該方法不但考慮關于目標的信息增益,而且考慮關于敏感屬性的信息增益.這些方法較好地解決了針對屬性效應控制的分類問題.針對回歸問題,目前在該方面的研究成果較為少見,Calders等人[8]提出的等均值約束最小二乘(equalmeans-leastsquare,EM-LS)方法是線性回歸中屬性效應控制的典型代表.它基于誤差最小化原則,通過對最小平方誤差和目標學習準則施加等均值約束條件而實現.然而,由于它使用了矩陣乘法和求逆運算,時間和空間復雜度都達到O(N3),不但耗時且極易造成內存溢出,所以無法處理大規模數據的屬性效應控制問題;另外,由于它采用了經驗風險最小化原則,限制了它的泛化性和實用性.總之,這些方法雖然能夠有針對性地解決屬性效應在學習中的一些問題,但是仍然存在著局限性,主要表現在2個方面:1)算法復雜度較高,所以只適用于規模有限的數據集;2)大多面向屬性效應控制的分類問題,對于非線性回歸問題,卻較少涉及.然而,在現實生活中諸如生物形態學和社會科學等各個領域,大規模非線性數據隨處可見.如何面向復雜的大規模數據屬性效應控制來進行非線性回歸建模尚是學術研究的一個空白.
另一方面,基于最小包含球理論的大規模數據處理技術得到了深入的研究[10-12].該類方法通過求解近似最小包含球獲得核心集,能夠獲得與原始輸入數據集求解近似的結果且它的大小獨立于原始輸入數據集大小及樣本維度,從而實現了大規模數據的壓縮處理;此外,基于支持向量回歸學習理論的非線性回歸學習模型也得到了廣泛的研究[13-14].該類方法通過將原特征空間中的數據映射到高維空間中,從而使非線性數據線性可分,并基于間隔最大化目標學習準則實現了非線性數據的回歸學習.但是,支持向量學習技術均沒有考慮屬性效應對非線性回歸學習性能的影響,因此不能直接用來解決針對屬性效應控制的回歸學習問題.
受上述思想的啟發,本文將深入探討面向大規模數據屬性效應控制的非線性回歸建模問題.首先,通過向支持向量回歸機(supportvectorregression,SVR)目標學習準則中加入等均值約束條件提出了一種新型的非線性回歸學習模型EM-SVR(equalmean-supportvectorregression)以解決訓練數據中的屬性效應問題.進一步,針對大規模數據屬性效應控制的學習問題,通過將其與中心約束最小包含球建立等價關系,提出基于最小包含球的快速非線性回歸建模方法FEM-CVR(fastequalmean-corevectorregression),并從理論上深入探討相關性質.最后通過實驗驗證了本文方法的有效性.
1.1 算法推導

最小.通過引入L2范式的懲罰項和結構風險項,可構造并求解如下EM-SVR目標函數優化問題,
(1)

定理1. 對于式(1)的優化問題,其對偶問題可描述為如下的凸二次規劃形式,
(2)

(3)

I為單位矩陣,1是元素為1的向量,帶上標(*)的參數表示帶上標*的參數或不帶上標*的參數.

(4)
由KKT(Karush-Kuhn-Tucker)條件可得,

(5)

(6)

(7)
由式(5)和式(1)的等式約束條件wTd=0,可得:
(8)
將式(5)~(8)代入式(4),化簡可得:



(9)
通過定義式(3),將式(9)寫成對偶形式,也即得到式(2),因此,定理1成立.
證畢.
引理1[16]. 設X是d上的一個緊集,若H(xi,xj)是X×X上的連續對稱函數且關于任意xi∈X的Gram矩陣半正定,則H(xi,xj)是Mercer核.







證畢.
根據定理1和定理2的推導,可得到等均值支持向量回歸機算法EM-SVR,其主要步驟如下:
算法1. 等均值支持向量回歸機算法EM-SVR.
輸入:數據集D;
輸出:拉格朗日乘子α(*).
步驟1.讀入數據集D;
步驟3. 求解式(2)所示的二次規劃(quadratic programming, QP)問題,解得拉格朗日乘子α(*);
步驟4. 把解得的α(*)帶入式(5)和式(8),即可求出相應回歸模型f(x)=wTφ(x).
1.2 時間復雜度分析

由于等均值約束條件的引入,EM-SVR可以很好地控制屬性效應;核技巧的引入使之能夠很好地解決非線性回歸學習問題.但是在求解QP問題的過程中,其時間復雜度可達O((2N)3),因此面向大規模數據的屬性效應控制,其處理效率低下.本文將其與中心約束最小包含球問題建立等價關系,提出了基于中心約束最小包含球CC-MEB理論的快速等均值核心向量回歸機算法FEM-CVR.
2.1 最小包含球理論
MEB(minimumenclosingball)問題可描述為下列優化問題:
(10)
式(10)的對偶問題矩陣形式可以表示為
(11)
其中,K=(k(xi,xj))N×N=(φT(xi)φ(xj))N×N為核矩陣,φ為核空間映射函數,α=(α1,α2,…,αN)T為拉格朗日乘子,0=(0,0,…,0)T,1=(1,1,…,1)T.當核矩陣K對角線恒為常數k時,也即滿足如式(12)時,
(12)
式(11)等價于式(13),
(13)
通過求解式(13),即可得到MEB的球心c和半徑R,
(14)
Tsang等人[18]指出,形如式(13)并滿足式(12)的QP問題等價于最小包含球問題.在此基礎上,采用MEB理論的核心集方法開發了核心向量機(core vector machine, CVM)算法,研究表明,CVM算法對處理大規模數據集表現出非凡的效率.
Tsang等人[17]對核心向量機進行了擴展,提出廣義核心向量機(generalized core vector machine, GCVM).對形式如式(11)的QP問題,即使所含的一次項不滿足式(12),也可使用核心集技術進行快速求解,同時提出中心約束最小包含球CC-MEB來解決這一問題.
在CC-MEB中,給核空間任意樣本點φ(xi)增加一維新特征δi∈,形成新特征空間的新樣本點(φ(xi),δi)T,并約束MEB中增加的新特征維對應的球心定為圓點,即CC-MEB的中心是(c,0)T,這里c是原特征空間的MEB球心,然后求解新特征空間的MEB問題.CC-MEB目標問題可描述為下列優化問題:
(15)
式(15)的對偶問題矩陣形式可表示為,
(16)

(17)
此外,任意點(φ(xi),δi)T到球心(c,0)T的距離可表示為

(18)
因為αT1=1,所以在式(16)的目標函數中增加任意一項-ηαT1,η∈,不會影響其最優解,于是,式(16)等價于式(19),
(19)
文獻[17]指出,任意滿足式(19)的QP問題都可認為是CC-MEB問題,可運用核心集技術進行快速求解.
2.2 FEM-CVR算法
(20)
其中,η為任意實數并保證Δ≥0.根據式(20),式(2)隨即等價于式(21),
(21)
顯然,式(21)滿足式(19)的形式和約束條件,因此,它的QP問題可視為CC-MEB問題,也即EM-SVR可視為是CC-MEB問題,即可用核心集快速算法求解.
根據前面的推導,可得到快速等均值核心向量回歸機算法FEM-CVR,其主要步驟如下:
算法2. 快速等均值核心向量回歸機算法FEM-CVR.


步驟1. 設t為迭代計數器,且初值為0,并初始化核心集CS0,最小包含球球心c0,半徑R0;

步驟3. 根據式(18)查找離球心ct最遠的樣本點x,并添加該點到核心集CSt+1=CSt∪{x};
步驟4. 根據式(21)求解新的CC-MEB,記為MEB(CSt+1),并且通過式(17)設定ct+1=cMEB(CSt+1),Rt+1=RMEB(CSt+1);
步驟5.t=t+1,并返回步驟2;
步驟6. 終止訓練,返回所需要的輸出.
在實現FEM-CVR算法時有2點需要說明:
1)步驟1的初始化問題.已有研究表明[17-19],合理選擇數據點來初始化核心集可有效提高算法的性能.本文中,我們采用如下方法:首先從原始輸入數據集D中任取一點x,再選一點xa,使其距離x最遠;然后再找一點xb,使其距離xa最遠.最終初始化核心集為CS0={xa,xb},繼而球心為c0=(xa+xb)2,半徑為2.
2) 步驟2和步驟3中涉及的距離計算問題.對于每次迭代,就N個訓練點來說,計算式(18)要花費時間為O(|CSt|2+(N-|CSt|)|CSt|)=O(N×|CSt|),當N非常大時,計算量巨大.因此,可以使用概率加速方法[12,17],其思想在時間復雜度分析中有詳細說明.
2.3 時間復雜度分析

對于1.1節中提出的EM-SVR,需要求解其對偶的QP問題,所以它的運行時間不小于O((2N)2.3),甚至達到O((2N)3),而空間復雜度為O((2N)2).比較而言,FEM-CVR在訓練過程中的時間及空間復雜度都具有明顯的優勢.
FEM-CVR算法是基于最小包含球近似算法的一個特例,因此在計算系統開銷時,關于最小包含球核心集的結論同樣適合FEM-CVR算法.本文根據文獻[11,17,19],給出如下性質:
性質1指出了FEM-CVR算法在最壞情況下的理論迭代次數;性質2指出了FEM-CVR算法在最壞情況下的理論運行時間,它與數據集大小N呈線性關系.實際上,我們在實踐中發現,在面向大規模數據屬性效應控制時,算法的真實迭代次數和運行時間遠低于理論最壞值,這也表明了FEM-CVR算法對大規模數據集處理的優勢.

本文實驗采用如下3種指標對不同算法所得回歸結果進行比較.
1) 均方根誤差(root mean square error,RMSE)指標[17]:
(22)其中,yi為第i個樣本的真實值,N為所有樣本個數.
2) 平均差(mean difference,MD) 指標[8]:
(23)

3) 曲線下面積(area under the ROC curve,AUC)指標[8]:
(24)
其中,I(·)是指標函數,當它的參數為真時,返回1,否則為0.AUC的變化范圍為[0,1],當AUC=0.5時,表示隨機預測或不存在屬性效應.

3.1 FEM-CVR,EM-LS,SVR的比較
我們首先基于Communities and Crime[8]與Wine Quality[21]兩個數據集對本文算法進行評估,它們是數據挖掘領域公認的突顯屬性效應的2個典型數據集.
Communities and Crime數據集包含社區及社區犯罪率的社會經濟信息.本實驗中,我們對數據集進行了預處理,刪除了含有空值的屬性,并根據二值敏感屬性Race把數據集分為2組:1)表示由全體黑人形成的社區;2)表示由全體非黑人形成的社區.并對所有屬性進行標準化.在最終得到的數據集中,Communities and Crime數據集總共包含1994個實例,其中黑人社區和非黑人社區分別包含970和1 024個樣本,該數據集共有99個屬性.對該數據集進行分析,我們發現該數據集體現了目標犯罪率Crime Rate和敏感屬性Race之間的強烈依賴關系.黑人社區平均犯罪率為0.35,而非黑人社區平均犯罪率為0.13(MD=0.22,AUC=0.79).表1給出了Communities and Crime數據集的相關信息.

Table 1 The Main Characters of Each Dataset
Wine Quality數據集包含了對紅酒和白酒評級Rating的描述.含有11個屬性特征,函數輸出描述了對釀酒品質的評級,取值范圍為[1,10].實驗中我們對數據進行歸一化預處理.原始數據集中,2類酒的評級平均差較小.為了方便觀察試驗結果,我們隨機選取了70%的白酒數據,在它們的評級上加1.修改后紅酒和白酒2類數據的MD=0.94,AUC=0.76.數據集的相關信息如表1所示.
我們參考了文獻[8]中的方法采用傾向評分分析(propensity score analysis, PSA)[22]對數據進行分層.基于以上2個數據集,我們分別運行EM-LS,SVR,FEM-CVR三個算法對分層后得到的每一層數據進行建模.圖1和圖2給出了算法的運行結果,它們均由十折交叉驗證得到.仿照文獻[8]中的命名方法,我們對各算法在分層數據上進行建模采用后綴“-M”進行標識.

Fig. 1 Experimental results on Communities and Crime dataset圖1 Communities and Crime數據集實驗結果

Fig. 2 Experimental results on Wine Quality dataset圖2 Wine Quality數據集實驗結果
圖1和圖2分別給出了分層后每層MD,AUC和RMSE.為了便于比較,在圖1(a)(b)和圖2(a)(b)中我們還給出原始輸入數據集的每層MD和AUC.如圖1(a)(b)和圖2(a)(b)所示,每層中犯罪率對敏感屬性種族的依賴和酒品等級評定對酒類型的依賴都顯著降低.
從圖1和圖2中不難發現,本文引入等均值約束是有效的,它能夠使每層的MD值幾乎為0,AUC值接近0.5,也即幾乎完全消除了屬性效應.而SVR沒有考慮屬性效應,所以它的MD值略大,而AUC值也趨向于0或1,表明SVR不但不具有屬性效應控制能力,甚至可能放大屬性效應.此外,基于圖1(c)和圖2(c)來考察均方根誤差,本文的FEM-CVR由于采用了非線性回歸模型,其擬合效果明顯優于EM-LS方法.因此,基于圖1和圖2我們不難發現FEM-CVR較SVR和EM-LS提供了更好的屬性效應控制效果.
表2進一步比較了3種回歸方法采用不同的模型得到的結果.我們分全局模型(相應的方法采用“-S”進行標識,如SVR-S,EM-LS-S,FEM-CVR-S)和分層模型(如SVR-M,EM-LS-M,FEM-CVR-M)兩種情況進行對比.從表2中我們發現其結果類似圖1和圖2.SVR沒有考慮屬性效應,如2個數據集上SVR-S中AUC的值都大于原始數據集的AUC,所以增大了數據偏差,獲得了較差的結果.由于等均值約束的引入,EM-LS和FEM-CVR均能較好地消除數據集的屬性效應,但是EM-LS由于是線性回歸模型,所以得到的回歸結果不令人滿意.而FEM-CVR在施加等均值約束后,仍然能夠獲得相對較小的均方根誤差.需要說明的是:為了消除數據屬性效應(數據偏差),我們施加了等均值約束條件,此條件表示2組的預測結果應該相近;因此,其必定導致誤差加大.這也是SVR的均方根誤差小于其他2個算法的原因,但其不具有屬性效應控制能力.

Table 2 Comparison of Experimental Results for Different
3.2 大規模數據環境實驗
為了進一步驗證大規模數據屬性效應環境下FEM-CVR的性能,我們基于文獻[10]的方法對Communities and Crime和Wine Quality數據集進行了擴充.擴充后的新數據集每個屬性的隨機偏移量服從正態分布N(0,1),從而構造出大規模數據集,擴充后的Communities and Crime數據集記為ExtCrime,樣本數為19 940,Wine Quality數據集記為ExtWine,樣本數為64 970.另外,新增加了2個UCI數據集Census Income[6-7]及Census House[23]和1個合成數據集Friedman[24].表1顯示了這些數據集的主要特征.
Census Income數據集抽取于人口普查數據.該數據集被認為關于敏感屬性性別Sex存在屬性效應,總的說來,女性的工資遠低于男性工資.Census Income數據集原本用于分類,根據個人信息(如職業、性別、學歷等屬性)預測個人工資是否大于5萬美金.本文刪除個別空值數據及屬性值較少的字符屬性,并且離散化所有字符屬性,然后隨機生成連續的目標工資.修改后的數據集,男性工資與女性工資平均差MD=10.46,曲面下面積AUC=0.82.
Census House數據集是由美國統計局提供的房屋調查數據,它基于某地區的人口結構和房屋市場預測房子的平均價.Friedman是1個合成數據集.Census House和Friedman這2個數據集偏差并不明顯.為了方便觀察試驗結果,通過采用3.1節處理Wine Quality數據集相同的方法放大它們的屬性效應,處理后的數據集主要特征如表1所示.
為了驗證FEM-CVR能夠有效處理針對大規模數據屬性效應控制的回歸問題,我們首先從Census House數據集中分別隨機抽取不同容量的子集,分別運行EM-LS,SVR,FEM-CVR,并采用十折交叉驗證,對比它們的CPU運行時間、支持向量個數(SV)和均方根誤差.

Fig. 3 Experimental results on Census House dataset圖3 Census House數據集實驗結果
圖3(a)顯示,訓練樣本個數較少時,FEM-CVR在求解核心集過程中需要迭代外擴(多次求解QP問題),所以其速度優勢表現不明顯,甚至其運行速度低于SVR;但是隨著樣本個數的增多,采用基于最小包含球的核心集進行優化求解的速度優勢得到了充分的體現,其時間復雜度與訓練樣本個數基本呈線性關系,明顯優于同樣具有處理屬性效應能力的EM-LS算法.
圖3(b)顯示,采用不同大小的樣本容量訓練時,SVR選擇大約60%樣本作為的支持向量;而FEM-CVR的支持向量數目遠低于SVR.較少的支持向量個數有助于減少運行時間.
圖3(c)顯示,FEM-CVR可以取得與SVR接近的均方根誤差,其值明顯小于同樣具有處理屬性效應能力的EM-LS算法.

Fig. 4 Experimental results on Census Income dataset圖4 Census Income數據集實驗結果

Fig. 5 Experimental results on Friedman dataset圖5 Friedman數據集實驗結果
采用相同的實驗策略,我們在Census Income,Friedman,ExtCrime和ExtWine數據集上進行了與上文相同的實驗,圖4~7給出了相應的實驗結果.通過觀察可以發現這些結果表現出類似上文的特征.需要說明的是EM-LS算法在訓練數據集大于20 000時,內存溢出,我們無法給出結果;小于20 000時,CPU運行時間也明顯高于FEM-CVR,這充分說明了EM-LS算法在處理大規模數據回歸問題方面的不足.另外,表3給出了分別選取Census Income和Census House數據集中10 000個樣本時,FEM-CVR最大選擇了不足2 000多個核心向量.核心向量的減少,致使支持向量的減少,從而加快了運行速度.

Fig. 6 Experimental results on ExtCrime dataset圖6 ExtCrime數據集實驗結果

Fig. 7 Experimental results on ExtWine dataset圖7 ExtWine數據集實驗結果

ε-CensusIncomeCensusHouseRMSETrainingTime∕sTestingTime∕s|CS|RMSETrainingTime∕sTestingTime∕s|CS|1E-80.132103.69020.64819780.01991.27218.10618221E-70.17341.24619.01817190.02234.01216.12811501E-60.17829.95218.94415120.02310.00814.2728501E-50.17810.82816.3129510.0253.12813.0966641E-40.1823.1039.8503960.0481.0328.7863801E-30.1871.3766.5721440.0500.7446.3041211E-20.2021.1923.787750.0520.7363.763641E-10.4940.7521.250310.0730.7281.24840



[1]Pedreshi D, Ruggieri S, Turini F. Discrimination-aware data mining[C]Proc of the 14th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2008: 560-568
[2]Calders T, Kamiran F, Pechenizkiy M. Building classifiers with independency constraints[C]Proc of the 9th IEEE Int Conf on Data Mining Workshops. Piscataway, NJ: IEEE, 2009: 13-18
[3]Kamiran F, Calders T. Classifying without discriminating[C]Proc of the 2nd Int Conf on Computer, Control & Communication (IC4). Piscataway, NJ: IEEE, 2009: 1-6
[4]Kamiran F, Calders T. Classification with no discrimination by preferential sampling[C]Proc of the 19th Annual Machine Learning Conf of Belgium and the Netherlands. Leuven, Belgium: DTAI, 2010: 1-6
[5]Pedreschi D, Ruggieri S, Turini F. Measuring discrimination in socially-sensitive decision records[C]Proc of the SIAM Int Conf on Data Mining. New York: ASA, 2009: 581-592
[6]Calders T, Verwer S. Three Naive Bayes approaches for discrimination-free classification[J]. Data Mining and Knowledge Discovery, 2010, 21(2): 277-292
[7]Kamishima T, Akaho S, Asoh H, et al. Fairness-aware classifier with prejudice remover regularizer[C]Proc of the Machine Learning and Knowledge Discovery in Databases. Berlin: Springer, 2012: 35-50
[8]Calders T, Karim A, Kamiran F, et al. Controlling attribute effect in linear regression[C]Proc of the 13th IEEE Int Conf on Data Mining (ICDM). Piscataway, NJ: IEEE, 2013: 71-80
[9]Kamiran F, Calders T, Pechenizkiy M. Discrimination aware decision tree learning[C]Proc of the 10th IEEE Int Conf on Data Mining (ICDM). Piscataway, NJ: IEEE, 2010: 869-874
[10]Ying Wenhao, Xu Min, Wang Shitong. Fast adaptive clustering by synchronization on large scale datasets[J]. Journal of Computer Research and Development, 2014, 51(4): 707-720 (in Chinese)(應文豪, 許敏, 王士同. 在大規模數據集上進行快速自適應同步聚類[J]. 計算機研究與發展, 2014, 51(4): 707-720)
[11]Xu Min, Wang Shitong, Gu Xin, et al. Support vector regression for large domain adaptation[J]. Journal of Software, 2013, 24(10): 2312-2326 (in Chinese)(許敏, 王士同, 顧鑫, 等. 大樣本領域自適應支撐向量回歸機[J].軟件學報, 2013, 24(10): 2312-2326)
[12]Wang Jun, Wang Shitong, Deng Zhaohong. Fast kernel density estimator based image thresholding algorithm for small target images[J]. Acta Automatica Sinica, 2012, 38(10): 1679-1689 (in Chinese)(王駿, 王士同, 鄧趙紅. 面向小目標圖像的快速核密度估計圖像閾值分割算法[J]. 自動化學報, 2012, 38(10): 1679-1689)
[13]Ding Lizhong, Liao Shizhong. KMA-α: A kernel approximation algorithm for support vector machines[J]. Journal of Computer Research and Development, 2012, 49(4): 746-753 (in Chinese)(丁立中, 廖士中. KMA-α:一個支持向量機核矩陣的近似計算算法[J]. 計算機研究與發展, 2012, 49(4): 746-753)
[14]Wang Zhen, Shao Yuanhai, Bai Lan, et al. Twin support vector machine for clustering[J]. IEEE Trans on Neural Networks and Learning Systems, 2015, 26(10): 2583-2588
[15]Sch?lkopf B, Bartlett P, Smola A, et al. Support Vector Regression with Automatic Accuracy Control[M]. Berlin: Springer, 1998: 111-116
[16]Zhang Jingxiang, Wang Shitong. Common-decision-vector based multiple source transfer learning classification and its fast learning method[J]. Acta Electronica Sinica, 2015, 43(7): 1349-1355 (in Chinese)(張景祥, 王士同. 基于共同決策方向矢量的多源遷移及其快速學習方法[J]. 電子學報, 2015, 43(7): 1349-1355)
[17]Tsang I, Kwok J, Zurada J. Generalized core vector machines[J]. IEEE Trans on Neural Networks, 2006, 17(5): 1126-1139
[18]Tsang I, Kwok J, Cheung P. Core vector machines: Fast SVM training on very large data sets[J]. Journal of Machine Learning Research, 2005, 6(1): 363-392
[19]Deng Zhaohong, Chung Fulai, Wang Shitong. FRSDE: Fast reduced set density estimator using minimal enclosing ball approximation[J]. Pattern Recognition, 2008, 41(4): 1363-1372
[20]Chang C C, Lin C J. LIBSVM: A library for support vector machines[J]. ACM Trans on Intelligent Systems and Technology, 2011, 2(3): 27
[21]Cortez P, Cerdeira A, Almeida F, et al. Modeling wine preferences by data mining from physicochemical properties[J]. Decision Support Systems, 2009, 47(4): 547-553
[22]Rosenbaum P R, Rubin D B. Reducing bias in observational studies using subclassification on the propensity score[J]. Journal of the American Statistical Association, 1984, 79(387): 516-524
[23]Musicant D R, Feinberg A. Active set support vector regression[J]. IEEE Trans on Neural Networks, 2004, 15(2): 268-275
[24]Wang Shitong, Wang Jun, Chung F L. Kernel density estimation, kernel methods, and fast learning in large data sets[J]. IEEE Trans on Cybernetics, 2014, 44(1): 1-20

Liu Jiefang, born in 1982. PhD candidate at the School of Digital Media, Jiangnan University. Member of CCF. His main research interests include pattern recognition, intelligent computation.

Wang Shitong, born in 1964. Professor, PhD supervisor at the School of Digital Media, Jiangnan University. His main research interest include artificial intellig-ence, pattern recognition and bioinformatics.

Wang Jun, born in 1978. PhD, associate professor, master supervisor at the School of Digital Media, Jiangnan University. Senior member of CCF. His main research interests include pattern recognition, data mining, and digital image processing.

Deng Zhaohong, born in 1981. PhD, professor, master supervisor at the School of Digital Media, Jiangnan University. Senior member of CCF. His main research interests include fuzzy modeling and intelligent computation.
Core Vector Regression for Attribute Effect Control on Large Scale Dataset
Liu Jiefang1,2, Wang Shitong1, Wang Jun1, and Deng Zhaohong1
1(SchoolofDigitalMedia,JiangnanUniversity,Wuxi,Jiangsu214122)2(SchoolofTransportationandInformation,HubeiCommunicationsTechnicalCollege,Wuhan430079)

regressionlearning;attributeeffectcontrol;centerconstrained-minimumenclosingball(CC-MEB);equalmeanconstraint;largescaledata
2016-07-13;
2016-12-09
國家自然科學基金項目(61300151,61572236);江蘇省杰出青年基金項目(BK20140001);江蘇省自然科學基金項目(BK20130155,BK20151299) This work was supported by the National Natural Science Foundation of China (61300151, 61572236), the Distinguished Youth Foundation of Jiangsu Province (BK20140001), and the Natural Science Foundation of Jiangsu Province (BK20130155, BK20151299).
TP391