唐小川,羅 亮
(電子科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,成都 611731)
隨著大數(shù)據(jù)時(shí)代的到來(lái),許多數(shù)據(jù)集具有大量特征和數(shù)據(jù)記錄[1],比如社交網(wǎng)絡(luò)數(shù)據(jù)和自然語(yǔ)言處理數(shù)據(jù)。文獻(xiàn)[2]指出,這種特征數(shù)量多、數(shù)據(jù)量大的數(shù)據(jù)集為大數(shù)據(jù)分析帶來(lái)了巨大的挑戰(zhàn)。對(duì)于這類(lèi)數(shù)據(jù),傳統(tǒng)的因果關(guān)系分析可能變得十分困難,復(fù)雜度更低的相關(guān)關(guān)系分析[3]迎來(lái)了新的機(jī)遇。變量之間的相關(guān)關(guān)系是指目標(biāo)變量與特征之間的關(guān)聯(lián)性,文獻(xiàn)[4]對(duì)大數(shù)據(jù)相關(guān)關(guān)系分析方法進(jìn)行了綜述。文獻(xiàn)[5]指出,對(duì)于一些大數(shù)據(jù)分析問(wèn)題,相關(guān)關(guān)系的結(jié)果就足以解決問(wèn)題。在機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘領(lǐng)域,特征選擇方法廣泛應(yīng)用于挖掘與目標(biāo)變量相關(guān)的重要特征。
特征選擇算法通常可分為三類(lèi)[6]:嵌入式(Embedding)、封裝式(Wrapper)和過(guò)濾式(Filter)。嵌入式方法將特征選擇作為分類(lèi)器的一個(gè)組成部分。封裝式方法枚舉所有特征子集,并計(jì)算其分類(lèi)效果。過(guò)濾式方法通過(guò)定義一個(gè)評(píng)分標(biāo)準(zhǔn)對(duì)特征進(jìn)行打分排序,最終選擇得分高的特征,文獻(xiàn)[6]提出了一個(gè)過(guò)濾式特征選擇算法的框架。相比嵌入式和封裝式方法,過(guò)濾式方法的效率更高并且獨(dú)立于具體的分類(lèi)器,因此,本文研究使用過(guò)濾式特征選擇方法挖掘大數(shù)據(jù)相關(guān)關(guān)系。
文獻(xiàn)[7]將過(guò)濾式特征選擇方法分為單變量算法和多變量算法。單變量方法的效率高但是忽略特征之間的依賴(lài)性,比如信息增益(Information Gain, IG)[8]。多變量算法使用特征之間的依賴(lài)性提升了特征選擇的效果,比如:文獻(xiàn)[9]提出的互信息最大化算法考慮了相關(guān)性;……