結(jié)合顯式和隱式特征交互的深度融合模型

2020-03-19 12:24:48倪志文馬小虎邊麗娜

計算機工程 2020年3期

倪志文,馬小虎,孫霄,邊麗娜

(蘇州大學計算機科學與技術學院,江蘇蘇州 215000)

0 概述

數(shù)據(jù)表征能力是機器學習算法性能優(yōu)劣的決定因素之一[1-2],因此,解決特征提取的問題是機器學習算法設計的一項重要工作。特征工程在提取特征時具有重要的作用,但其人力成本較高,而且具有目前機器學習算法普遍存在的弱點,即無法從數(shù)據(jù)中提取出所有的特征[3]。在Kaggle社區(qū)中,數(shù)據(jù)科學家憑借經(jīng)驗和直覺對特征進行提取和組合,獲得了較好的結(jié)果。在計算機視覺領域,Shift算法在ImageNet比賽中取得了優(yōu)異的表現(xiàn)[4],但是其特征提取效果比深度學習算法要差很多。傳統(tǒng)的特征工程獲得高質(zhì)量特征所需的成本較高,因為正確的特征通常是數(shù)據(jù)科學家針對特定任務花費大量時間挖掘出來的。在大規(guī)模的預測系統(tǒng),如信貸預測和推薦系統(tǒng)中,由于原始數(shù)據(jù)量巨大,因此難以通過人工方式獲取全部有意義的組合特征或交叉特征。此外,人工提取的組合特征不能概括為數(shù)據(jù)中不可見的交互。

神經(jīng)網(wǎng)絡可以在不需要人工干預的前提下從單個特征開始學習,這一性能已經(jīng)在自然語言處理和圖像識別領域得到證明[5]。通過卷積神經(jīng)網(wǎng)絡從具體任務中提取特征已經(jīng)取代SIFT算法的人工提取方式,成為目前圖像識別領域的新技術[6-7]。類似的模型也已經(jīng)運用到自然語言處理中,在不需要大量特征工程的前提下構(gòu)建語言處理模型[8]。

在基于深度學習的特征融合模型中,特征交互的方式可以分為隱式特征交互和顯式特征交互2種[9],且各有利弊。FNN、PNN、DeepFM等模型的缺點在于,其學習的是隱式的特征交互,特征形式未知、不可控[10],同時,特征交互操作在元素級(bit-wise)而不是特征向量之間(vector-wise)進行。DCN模型旨在學習顯式的高階特征交互,其優(yōu)點是模型輕巧高效,缺點是模型最終的輸出表現(xiàn)為一種特殊的向量擴張,同時其特征交互依舊發(fā)生在元素級上。

為了自動學習顯式的高階特征交互,同時使得特征交互發(fā)生在向量級上,本文提出一種基于壓縮交互網(wǎng)絡的深度融合模型。使用經(jīng)過優(yōu)化的殘差單元隱式地學習高階特征交互,通過壓縮交互網(wǎng)絡學習顯式的高階特征交互,并將兩種特征進行融合,以提高特征提取的質(zhì)量。

1 embedding層

在計算機視覺或自然語言理解任務中,輸入數(shù)據(jù)通常是已知的圖像或文本信號且在空間或時間上相關,因此,可以將DNN直接應用在具有密集結(jié)構(gòu)的原始特征上。但是在大規(guī)模推薦系統(tǒng)中,輸入數(shù)據(jù)的特征稀疏、維度巨大,沒有明確的空間或時間相關性,因此,多場分類形式被廣泛使用,以解決上述問題。

大規(guī)模離散特征具有數(shù)據(jù)稀疏性,因此,要采用one-hot編碼方式對每個屬性特征進行編碼,然后再將每一條屬性鏈接生成輸入數(shù)據(jù),如圖1所示。在圖1中,嵌入層的結(jié)果是一個連續(xù)向量e,具體公式如下:

e=[e1,e2,…,em]

(1)

圖1 多場嵌入結(jié)構(gòu)Fig.1 Structure of multi-field embedding

2 高階特征交互

2.1 隱式高階特征交互

特征融合模型,如Wide& Deep、DCN、PNN等,通常利用前饋神經(jīng)網(wǎng)絡去學習高階的特征交互,具體過程如式(2)和式(3)所示。

x1=σ(W(1)e+b1)

(2)

xk=σ(W(k)xk-1+bk)

(3)

其中,k為網(wǎng)絡深度,σ為激活函數(shù),xk為k-1層也就是上一層的輸出。圖2給出PNN的結(jié)構(gòu)示意圖。

圖2 PNN結(jié)構(gòu)示意圖Fig.2 Schematic diagram of PNN structure

由圖2可以看出,在PNN結(jié)構(gòu)中,即使是相同元素的嵌入向量也會發(fā)生交互,此類交互是不可見的,即隱式特征交互。

2.2 顯式高階特征交互

Cross Network的結(jié)構(gòu)如圖3所示,其核心是提取顯式的高階特征交互[11]。

圖3 Cross Network的結(jié)構(gòu)示意圖Fig.3 Schematic diagram of Cross Network structure

不同于傳統(tǒng)的全連接前饋神經(jīng)網(wǎng)絡,Cross Network的隱藏層以式(4)所示的交互方式進行計算。

(4)

其中,wk、bk、xk分別為第k層的權(quán)重、偏差和輸出。Cross Network學習的是特殊的高階特征交互,x0會參與每一次的特征交互,因此,每個隱藏層的輸出xi是x0的數(shù)倍。例如,i+1層的輸出為:

(5)

由于偏差項不參與運算,先將其省去。當k=1時,根據(jù)交互公式進行如下計算:

(6)

αi+1x0

(7)

3 深度融合模型

3.1 壓縮交互網(wǎng)絡

壓縮交互網(wǎng)絡用于學習顯式的高階特征交互,并使特征交互發(fā)生在向量級,避免發(fā)生類似于DCN中輸出被限定于原始特征輸入形式的情況。在壓縮交互網(wǎng)絡中,隱向量為一個單元對象,因此,輸入的原始特征和神經(jīng)網(wǎng)絡中的隱藏層分別組成一個矩陣,記為x0與xk。壓縮交互網(wǎng)絡中每一層的神經(jīng)元都是根據(jù)前一層的隱層以及原始特征向量推算而來的,且特征交互發(fā)生在向量級,因此,xk第h行的計算公式如下:

(8)

步驟1根據(jù)前一層隱層的狀態(tài)xk和原始特征x0計算出一個中間結(jié)果zk+1,它是一個三維的張量,如圖4所示。

圖4 中間結(jié)果計算過程Fig.4 Calculation process of intermediate result

步驟2在這個中間結(jié)果上用Hk+1個尺寸為m×Hk的卷積核生成下一個隱層的狀態(tài),如圖5所示。該過程與計算機視覺中的卷積操作大體一致,主要區(qū)別在于卷積核不同,本文模型中一個神經(jīng)元相關的接受域垂直于特征維度D的平面,而CNN模型的接受域是神經(jīng)元周圍的局部小區(qū)域。因此,本文模型通過壓縮交互網(wǎng)絡卷積得到的是一個向量而非矩陣。

圖5 下一個隱層狀態(tài)的獲取Fig.5 Acquisition of state of next hidden layer

壓縮交互網(wǎng)絡的框架如圖6所示,其學習特征的階數(shù)由網(wǎng)絡的層數(shù)決定,每一層都通過一個池化操作連接到輸出層,從而保證輸出單元可以得到不同階數(shù)的特征交互模式。

圖6 壓縮交互網(wǎng)絡示意圖Fig.6 Schematic diagram of compressed interactive network

3.2 殘差網(wǎng)絡層

本文模型使用壓縮交互網(wǎng)絡學習顯式特征交互,而對于隱式特征交互,則使用稀疏結(jié)構(gòu)單元優(yōu)化的殘差網(wǎng)絡層進行學習。其中,殘差層由圖7所示的殘差單元構(gòu)成,殘差單元是殘差網(wǎng)絡的基本組成部分[12],其在2015年的ImageNet比賽中獲得冠軍,深度融合模型使用的是經(jīng)過優(yōu)化并結(jié)合稀疏結(jié)構(gòu)單元的殘差單元。

圖7 殘差單元示意圖Fig.7 Schematic diagram of a residual unit

大型神經(jīng)網(wǎng)絡的合理連接方式應該是稀疏的[13],這一點目前已得到很好的證明,CNN網(wǎng)絡在圖像處理上的成功及其各種迭代優(yōu)化版本在ILSVRC大賽中的優(yōu)異表現(xiàn)就是稀疏結(jié)構(gòu)優(yōu)越性能的最好證明。本文的深度融合模型也是得益于稀疏結(jié)構(gòu)連接以及殘差網(wǎng)絡中原始信息的跨通道傳輸,將神經(jīng)網(wǎng)絡中的2種最佳結(jié)構(gòu)進行結(jié)合,以取得更好的效果。

殘差單元的獨特之處在于,其允許原始的輸入信息直接傳輸?shù)胶笠粚?傳統(tǒng)的卷積層或者全連接層在信息傳遞時存在信息丟失、損耗等問題[14]。殘差單元在某種程度上解決了這一問題,其允許信息繞道輸出,以保護信息的完整性,可參考圖7的殘差單元結(jié)構(gòu),具體的計算公式如下:

xO=f(xI,{w0,w1},{b0,b1})+xI

(9)

其中,w0和w1分別為圖7中兩層神經(jīng)元的參數(shù),f表達式為輸入到輸出的映射,不同于Cross Network中對于原始特征x0的倍數(shù)操作,本文在原始特征進入非線性化操作時仍保存完整的輸入特征。這也是殘差網(wǎng)絡可以達到152層而沒有出現(xiàn)Degradation的原因。本文提出的深度特征交叉模型的實驗效果體現(xiàn)了殘差單元的優(yōu)越性。

3.3 稀疏結(jié)構(gòu)單元

稀疏結(jié)構(gòu)單元(如圖8所示)可以有效擴展網(wǎng)絡的寬度和深度,在提高精度的同時避免過擬合。稀疏結(jié)構(gòu)非常適合神經(jīng)網(wǎng)絡,尤其對大型且較深的神經(jīng)網(wǎng)絡[15],可以減少過擬合現(xiàn)象并降低計算量,例如,卷積神經(jīng)網(wǎng)絡就采用稀疏結(jié)構(gòu)。稀疏結(jié)構(gòu)單元的主要目標是尋找最優(yōu)稀疏結(jié)構(gòu),該結(jié)構(gòu)基于Hebbian原理,即神經(jīng)反射活動會導致神經(jīng)元連接穩(wěn)定性提升,因此,本文的深度融合模型通過結(jié)合稀疏結(jié)構(gòu)單元來優(yōu)化殘差單元。

圖8 稀疏結(jié)構(gòu)單元示意圖Fig.8 Schematic diagram of the structure of asparse structural unit

圖9為原始的殘差單元結(jié)構(gòu)與優(yōu)化后結(jié)構(gòu)的對比,1×1的卷積核在神經(jīng)網(wǎng)絡中是一種非常高效的結(jié)構(gòu),可以在減少網(wǎng)絡計算量的同時提高網(wǎng)絡的性能表現(xiàn)。本文深度融合模型將殘差單元和稀疏結(jié)構(gòu)單元進行結(jié)合。由圖9可知,優(yōu)化后的結(jié)構(gòu)單元為3層殘差學習單元,并且在中間3×3的卷積核前后都用了1×1的卷積核,起到先降維再升維的作用[16-17]。得益于稀疏結(jié)構(gòu)單元的高效性和殘差單元對于原始特征的特殊處理[18],這2種結(jié)構(gòu)結(jié)合后在不同數(shù)據(jù)集上都取得優(yōu)異的結(jié)果,但其內(nèi)在原因還需要進一步研究證明。在本文中,如果輸入輸出的維數(shù)不同,可以通過一個線性映射改變原始特征的維數(shù),然后再連接到后面的層。

圖9 殘差單元優(yōu)化前后的結(jié)構(gòu)對比Fig.9 Structure comparison of residual units before andafter optimization

3.4 模型框架

本文深度融合模型如圖10所示,其由壓縮交互網(wǎng)絡和殘差網(wǎng)絡層2個模塊構(gòu)成,集成這2個模塊能夠使深度融合模型同時以顯式和隱式2種方式學習高階的特征交互。為了提高模型的通用性,其允許接入不同的數(shù)據(jù),但是模型中集成的2個模塊需共享相同的數(shù)據(jù)[19]。

圖10 深度融合模型框架Fig.10 Framework of deep fusion model

4 實驗結(jié)果與分析

本文分別在京東金融數(shù)據(jù)集、搜狐內(nèi)容識別數(shù)據(jù)集,以及公開數(shù)據(jù)集Criteo Dataset和Bing News Dataset上進行實驗。在深度融合模型之前,本文嘗試了大量深層次的模型結(jié)構(gòu),但這些模型與2層或3層的原始模型結(jié)構(gòu)相比會帶來顯著的增益[20],即隨著模型的加深,識別效果并沒有改善。得益于殘差單元的結(jié)構(gòu),本文深度融合模型(即DRIM模型)的實驗效果優(yōu)于其淺層模型。

圖11給出4種模型在不同深度的實驗結(jié)果對比。其實驗數(shù)據(jù)來自京東金融競賽數(shù)據(jù)集,評分標準參照式(10),并根據(jù)結(jié)果在0～100打分。

(10)

圖11 4種模型在不同深度的實驗結(jié)果對比Fig.11 Comparison of experimental results betweenfour models at different depths

可以看出,傳統(tǒng)特征交互模型隨著網(wǎng)絡深度的不斷增加,實驗結(jié)果的得分會先上升然后達到飽和,繼續(xù)增加深度會導致得分下降[21]。而本文DRIM深度融合模型得益于信息的跨通道傳輸,并沒有出現(xiàn)degradation問題。

DRIM模型利用顯式和隱式的特征交互進行深度融合。為了驗證本文模型的優(yōu)越性,將其與幾種常用模型進行對比,對比模型的參數(shù)均采用最佳配置。實驗使用Google的TensorFlow框架,各個模型的學習率均設置為0.001,優(yōu)化方法為Adam[22],mini-batch的尺寸為4 096,且都使用L2正則化,λ=0.000 1。其中,PNN的dropout值設置為0.5,DNN每層神經(jīng)元的個數(shù)設置為400。

4.1 信貸預測

深度融合模型利用大量用戶以往的各類信息進行訓練和預測,其數(shù)據(jù)集來源于京東金融的競賽數(shù)據(jù),評分標準參照式(10)。

與隱式的高階特征交互模型PNN和顯式的高階特征模型DCN相比,本文深度融合模型DRIM在京東金融數(shù)據(jù)集上的實驗結(jié)果較好(見表1)。同時,隨著層數(shù)的增加,其他模型會出現(xiàn)Degradation,而DRIM模型得益于殘差單元不會出現(xiàn)該問題。

表1 不同模型在京東金融數(shù)據(jù)集上的實驗結(jié)果對比Table 1 Comparison of experimental results of differentmodels on JD financial dataset

4.2 文本內(nèi)容識別

為了驗證深度融合模型在不同數(shù)據(jù)集上的特征提取能力,本文將深度學習模型應用于搜狐的內(nèi)容識別數(shù)據(jù)集中對文本信息進行分類,并與RNN、TextCNN以及LR模型進行對比。在搜狐文本內(nèi)容識別競賽數(shù)據(jù)集中,大約有幾十萬條文本數(shù)據(jù),其中正樣本數(shù)據(jù)6 388 664條,負樣本數(shù)據(jù)845 659條。

實驗結(jié)果評估主要參考3個指標,即分類精度P、召回率R和F值。其中,F值的計算方式如下:

(11)

表2給出搜狐文本識別數(shù)據(jù)集上的實驗結(jié)果對比。實驗最終的評價方式以F值為準,分類精度P和召回率R作為評價模型性能的參考。

表2 4種模型在搜狐文本識別數(shù)據(jù)集上的實驗結(jié)果對比Table 2 Comparison of experimental results of four modelson Sohu text recognition dataset

由表2可知,本文DRIM模型在分類精度、召回率和F值3個指標上均優(yōu)于其他3種模型。就綜合指標F值而言,本文DRIM模型分別比LR模型、TextCNN模型和LSTM模型高9%、4%和3%。

4.3 在公開數(shù)據(jù)集上的實驗結(jié)果對比

本文在Criteo Dataset和Bing News Dataset公開數(shù)據(jù)集上進行實驗,其具體信息如下:

1)Criteo Dataset:著名的行業(yè)標準數(shù)據(jù)集,主要用來訓練預測廣告點擊率的模型,它是公開、可訪問的數(shù)據(jù)集,通過給定用戶及其正在瀏覽的頁面,預測用戶點擊給定廣告的可能性。

2)Bing News Dataset:微軟Bing搜索引擎的一部分,該數(shù)據(jù)集收集連續(xù)5天的日志文件,其中,前3天的數(shù)據(jù)用來訓練和驗證,后2天的數(shù)據(jù)則用作測試集。

表3給出6種模型在2個數(shù)據(jù)集上的實驗結(jié)果對比,可以看出,深度融合模型DRIM無論是AUC值還是Logloss值都優(yōu)于其他特征融合模型。

表3 在2個公開數(shù)據(jù)集上的實驗結(jié)果對比Table 3 Comparison of experimental results ontwo public datasets

5 結(jié)束語

為減少對特征工程的依賴并克服顯式和隱式特征交互方式各自的不足,本文構(gòu)建一種深度融合模型DRIM。將壓縮交互網(wǎng)絡與優(yōu)化后的殘差單元相結(jié)合,用于顯式和隱式特征交互。實驗結(jié)果表明,該模型的特征提取結(jié)果優(yōu)于DCN等顯式特征交互模型和PNN、DeepFM等隱式特征交互模型,并且解決了DCN中顯式特征交互被限定于原始特征形式的不足,降低了PNN模型特征交互的不可控性。下一步將在不同數(shù)據(jù)集上優(yōu)化模型的隱式特征交互過程,使隱式交互特征更具解釋性和泛化性,以拓展深度學習在推薦領域中的應用范圍。