基于域分離網絡的實體解析遷移方法

2023-03-08 06:32:38孫琛琛許雷申德榮聶鐵錚

湖南大學學報(自然科學版) 2023年2期

關鍵詞：模型

孫琛琛，許雷，申德榮，聶鐵錚

（1.天津理工大學計算機科學與工程學院，天津 300384；2.東北大學計算機科學與工程學院，遼寧沈陽 110169）

實體解析（Entity Resolution，ER）對重復數據刪除、記錄鏈接等應用和研究有著巨大的影響，它是數據清洗和數據集成中的一個基本問題［1］.它在數據庫、自然語言理解等多個領域都有巨大的應用價值.目前實體解析受到了很大的關注，但是還沒有令人滿意的解決方案.

實體解析［1］是給定可能具有錯誤、遺漏的記錄對集合，它識別出引用現實世界同一實體的記錄對.在過去幾年里，深度學習技術獲得了極大的進步.深度學習技術在文本、圖像和語音等領域都獲得了巨大的成功，深度學習使用帶標簽的數據，學習重要特征，減輕了昂貴的手工創建規則的負擔，大大提高了學習的效率.深度學習目前成為替代傳統機器學習的一種可行算法，例如支持向量機和決策樹等，使用深度學習方法解決實體解析問題已成為當前的研究熱點.

目前，只有當有大量標記的訓練數據可用時，深度學習在性能上才會有較大的優勢.但遺憾的是，現實中有時沒有大量的帶標簽數據來進行學習.并且，許多深度學習方法只有在一個共同的假設下才能很好地工作——訓練數據和測試數據來自相同的特征空間和分布.當分布發生變化時，大多數方法需要使用新收集的訓練數據從頭開始學習.在許多現實應用中，收集所需的訓練數據并重建模型是費時費力的，甚至是不可能的.在這種情況下，使用遷移學習［2］將是必要的.

遷移學習是解決上述問題的一種很有效的方法，遷移學習關注的是知識或者特征的跨域遷移［2］.一個人通過概括他的經驗，就有可能實現從一種知識到另一種知識的轉移.在生活中，學習國際象棋時，學過中國象棋的人可以比其他人學得更快，因為中國象棋和國際象棋之間可能有一些共同之處.受人類跨域傳遞知識能力的啟發，遷移學習的目的是利用來自相關領域（稱為源域）的知識來提高學習性能或最小化目標域中所需的標記樣例的數量［2］.遷移學習是利用數據、參數或領域之間的相似性，將在舊領域學習過的模型，應用于新領域的一種學習過程.遷移學習的關鍵是找到源域和目標域之間的相似性，并加以利用.

以往的實體解析方法大多假設存在大量的帶標簽數據供我們使用，因此，模型可以訓練出較好的結果.但當不存在帶標簽數據供我們使用時，依靠大量標簽數據才能得到較好結果的方法則無法使用，所以在實體解析領域應用遷移學習是很有必要的.本文假設本領域沒有標簽數據，而相似領域存在標簽數據，在這種情況下提出方法，從而解決本領域因無法得到標簽數據導致無法訓練的問題.以往的方法，如Kasai 等人［3］提出的低資源實體解析方法的網絡結構較為簡單，無法得到較好的遷移效果；Bogatu 等人［4］提出的變分主動實體解析模型（Variational Active Entity Resolution，VAER）方法需要先在其他領域進行預訓練并且在本領域進行微調才能使用.在實體解析領域進行遷移學習首先需要得到記錄中屬性的向量，才能匯總得到記錄的向量結果.在實體解析模型中，模型得到的是一對記錄之間的關系，而在實體解析領域遷移，要遷移的是每條記錄的知識或參數，而不是遷移一對記錄之間的相似性，因此要精心設計遷移模型.

本文提出了使用域分類網絡的基于深度學習的遷移方法，用于學習域不變表示.設計了用于實體解析的實體解析模型，具體地說，首先使用編碼層中的編碼器對屬性信息進行編碼得到屬性的分布向量，然后將各自的屬性分布向量，送入比較層，計算對應屬性間的差異，得到記錄間的比較結果，最后將比較結果向量送入分類器，得到最終的分類結果.隨后將實體解析模型作為組件設計了基于域分離網絡的遷移模型，遷移模型所用的編碼器結構與實體解析模型編碼層中編碼器結構一致.利用域分離網絡的編碼器將域的私有特征和共享特征分離開來，再利用分離出的域共享特征進行分類，得到分類結果，從而達到從源域遷移到目標域的目的.其中分離出來的域共享特征為源域和目標域共享的特征.具體來說，本文的貢獻如下：

1）構造了一個深度實體解析模型，對屬性進行編碼，隨后計算屬性的相似性，最后對記錄分類.實體解析模型訓練速度較快，因此作為隨后遷移模型的組件，遷移模型整體訓練時間較短.

2）將域分離網絡應用到實體解析領域，提出了一種基于深度實體解析的遷移方法，該方法學習域私有表示和域共享表示，利用域共享表示達到域遷移的效果.

3）在多個數據集上進行了實驗評估，測試本文提出方法的有效性，進行了消融實驗等，證明了提出的遷移方法的有效性.

本文第一節將介紹實體解析和遷移學習的相關工作.第二節介紹用于實體解析任務的匹配模型.第三節提出了基于域分離網絡的遷移學習方法.第四節介紹了所做的實驗以及實驗設置和數據集等細節，并在第五節進行了總結.

1 相關工作

1.1 實體解析

實體解析早期的研究工作致力于設計各種基于字符串的距離函數來度量成對記錄的相似性.顯然，這種無人監督的方法缺乏有效性和普遍性，并不存在針對所有數據集的單一度量.為了克服上述限制，基于機器學習的技術變得流行起來.這些方法將實體解析問題視為一個二分類任務，并將傳統的分類器（如貝葉斯分類器）應用于手工制作的特征.它們可以在一定程度上提高實體解析的精度，但對人工特征工程的依賴仍然阻礙了通用性和魯棒性.

目前，使用深度學習解決實體解析問題越來越受到歡迎，通過設計有效的深度學習模型來進一步提高性能.在給定一對文本記錄的情況下，DeepER采用GloVe 進行單詞嵌入，然后應用長短期記憶網絡（Long Short-Term Memory，LSTM）模型對實例的文本描述進行編碼，隨后進行分類訓練［5］.Deep?Matcher 使用注意力機制擴展了循環神經網絡（Re?current Neural Networks，RNNs），用于文本實例之間的實體匹配，將從每個屬性導出的相似性向量連接起來，以形成分類器的輸入［6］.對于異構的記錄或者記錄內存在缺失、錯誤拼寫、遺漏等情形，提出Hier?Matcher 方法，從單詞（token）層面對記錄進行比較，有效避免臟數據集的影響［7］.MCA（Multi-Context At?tention）提出使用多種注意力，計算記錄內和記錄間的注意力，利用多種注意力關系進行匹配［8］.

1.2 遷移學習

遷移學習首先由香港科技大學教授楊強提出.遷移學習允許訓練和測試中使用的任務或者分布有所不同.遷移學習近年來受到越來越多的關注，大量的遷移學習相關方法被提出.跨域誤差最小化（Cross-Domain Error Minimization，CDEM）方法旨在學習域不變特征，為此方法使用跨域誤差最小化、源域和目標域分類誤差最小化、分布對齊和鑒別性學習四個目標來保證學習域不變特征［9］.統一聯合分布對齊域自適應（Domain Adaptation with Unified Joint Distribution Alignment，UJDA）方法進行域和類兩個級別的對齊，使用兩個聯合分類器并利用聯合對抗性損失進行域自適應［10］.跨域梯度差異最小化（Cross-Domain Gradient Discrepancy Minimization，CGDM）明確地將源樣本和目標樣本產生的梯度差異最小化，以實現類級別更好的分布對齊［11］.特定域對抗網絡（Domain-Specific Adversarial Network，DSAN）提出了同時輸入域特征和域特殊信息到單一的編碼器（Encoder）來學習不變表示的方法［12］.語義集中域適應（Semantic Concentration for Domain Adap?tation，SCDA）方法在分類器和特征提取器間對樣本的預測分布進行對抗學習，從而獲得對齊良好的特征［13］.但是以上遷移學習方法并不適用于實體解析這樣需要學習記錄對間相互關系的領域.域對抗神經網絡（Domain-Adversarial Neural Network，DANN）通過在域分類器和特征提取器間加入梯度反轉層訓練模型，達到混淆域分類器的目的［14］.域分離網絡（Domain Separation Networks，DSN）方法利用編碼器和解碼器提取域的私有特征和共享特征，分類器對共享編碼器的輸出分類，得到分類結果［15］.

2 深度實體解析模型

本節介紹用于實體解析的模型，此模型將作為組件用于下一節將要介紹的實體解析遷移模型.模型學習各個屬性間的相似性，并進行實體匹配.具體地說，給定均由屬性A1，…，Am組成的一對記錄（l1，l2），屬性可以視為由單詞組成的序列.實體解析的目標是判斷l1和l2是否屬于真實世界的同一實體.表1列出了三條實體記錄示例，分別由三個屬性組成一條記錄.其中R1和R2是匹配的，R1和R3是不匹配的.

表1 實體解析示例Tab.1 Example of entity resolution

圖1 給出了實體解析的模型.給定一對記錄（l1，l2），首先使用詞嵌入fastText［16］為記錄中的每個屬性生成嵌入序列（w1，…，wm），其中w1為屬性A1對應的屬性嵌入向量序列.接下來每個屬性嵌入序列通過雙向門控循環單元（Gated Recurrent Unit，GRU）捕獲序列內的上下文關系生成各自的屬性嵌入向量（e1，…，em）.在記錄對的每個屬性經過編碼器生成屬性嵌入后，記錄對的對應屬性間進行相似性比較，將相似性比較的結果作為分類器的輸入，分類器輸出最終的匹配概率.

圖1 深度實體解析框架Fig.1 Framework of deep entity resolution

2.1 輸入層

輸入層主要用于得到記錄中屬性的上下文信息，分別得到各個屬性向量表示.因此，在給定文本的記錄對時，首先要將文本轉換為嵌入向量，相比于Word2Vec 和GloVe，fastText 在處理詞典外單詞方面具有一定的優勢，因此本文使用fastText.文本轉換為嵌入后，要想得到各自的屬性向量，一種方法是屬性里的單詞嵌入序列相加求均值作為各自的屬性向量表示，但是這種方法不能很好地提取單詞之間的上下文關系；另一種方法是利用循環神經網絡模型得到屬性向量，該方法能捕獲單詞間的上下文關系，因此選用此方法.

給定文本記錄對（l1，l2）作為輸入，首先將輸入的記錄矢量化，使用fastText 詞嵌入得到輸入記錄的矢量化表示（w1，…，wm），其中每個記錄的每個屬性均為詞嵌入序列.得到記錄的矢量化表示后，接下來生成各個屬性的嵌入表示.使用一個雙向的GRU 接收每個屬性序列，利用GRU 對屬性序列編碼得到屬性向量（e1，…，em），并將記錄對的屬性向量集合分別送入屬性編碼器.通過對比發現，采用門控結構的GRU模型比長短期神經網絡模型和遞歸神經網絡模型表現更好.如公式（1）所示.

2.2 屬性編碼層

屬性編碼層用于對得到的屬性向量進一步的編碼和壓縮并得到屬性隱含的分布式表示.本文利用變分自編碼器（Variational Auto-Encoders，VAE）［17］的結構，利用VAE 的編碼器對屬性嵌入序列編碼，VAE在提取深層的掩藏表示和重建方面具有一定的優勢，利用VAE對屬性向量提取分布式表示.VAE的編碼器用于生成均值μ和方差σ.VAE 的編碼器生成的μ和方差σ一起描述了屬性的分布，即（μ，σ）代表了一個屬性，因此屬性編碼層生成的分布可以用于下一層屬性比較層的計算.

屬性編碼層由兩個參數共享的屬性編碼器組成，輸入層用循環神經網絡模型得到了屬性的向量表示，兩個編碼器分別將屬性向量集合作為輸入，并通過帶有非線性激活函數的一到多個線性層.對于每個屬性向量表示，利用對角協方差（μ，σ）擬合潛在的高斯分布.每個編碼器分別生成實體表示｛（μ1，σ1），…，（μm，σm）｝，每個屬性值對應一個（μ，σ）.兩條記錄的比較通過對應屬性值生成的分布來計算.屬性編碼層利用對角協方差擬合屬性嵌入向量的分布，利用分布間的距離判斷對應屬性間是否相似，公式如下：

2.3 屬性比較層

屬性比較層計算對應屬性間的相似性，由于屬性編碼器輸出為高斯分布，對于量化兩個高斯分布間的距離可以使用Wasserstein 距離［18］.d-Wasserstein距離描述了當成本由Ld距離給定時，將一個概率測度的單位質量傳輸到另一個概率測度的單位質量的最小成本［18］.在本文中，使用d=2的平方后的Wasser?stein距離（W2）計算屬性相似性.例如，如果計算兩個k維對角高斯分布p和q之間的W2距離，公式如下：

屬性比較層用于比較屬性間的相似度，并將比較后的結果送入實體解析分類器.Wasserstein 距離用于計算兩個概率之間的距離，因此可以用于計算屬性編碼層輸出分布之間的距離.當兩個屬性編碼器輸出｛（μ1，σ1），…，（μm，σm）｝和，…，到屬性比較層，計算m個對應屬性間的Wasserstein 距離向量dw=（μ-μ′）2+（σ-σ′）2.最后，將m個計算出的向量拼接起來，送入實體解析分類器.

2.4 實體解析分類器

實體解析分類器區分一對記錄是否為同一實體.實體解析分類器接收上一層傳入的m個拼接起來的距離向量并送入到兩層具有非線性激活函數的多層感知器（Multilayer Perceptron，MLP）中，再將線性層的輸出經過Softmax 函數得到歸一化輸出，將其分類為匹配或不匹配.公式如（4）所示，其中dw代表m個對應屬性分布計算后的距離向量拼接后的向量，ReLU為激活函數.

實體解析任務優化目標是最小化分類器的分類誤差.其中Lc代表損失函數，y為真實的標簽，?表示經過實體解析分類器后輸出的預測標簽.定義損失函數如下：

3 深度實體解析遷移模型

在遷移環境下，本文改進域分離網絡結構適應實體解析任務進行遷移學習.在給定源域數據集帶標簽、目標域數據集不帶標簽的情況下，本文的訓練目標是利用源域和目標域的數據使模型能準確預測目標域數據的標簽.定義源域XS，其中有NS個帶標簽的數據，目標域XT，其中有Nt個不帶標簽的數據.本文假設源域和目標域的記錄共享相同的屬性模式.域分離網絡顯式建模了域的私有表示和域的共享表示.域分離網絡利用不同損失函數的組合實現了源域和目標域分別有一個域私有表示，同時源域和目標域有一個域共享表示.分類器通過對域共享表示部分的輸出進行分類得到分類結果.對連接域共享表示的分類器進行分類，能更好地跨域泛化，不受域私有表示的影響.本文利用變分主動實體解析模型（VAER）作為提取特征的基本組件，結合域分離網絡（DSN）的思想，提出了實體解析遷移模型VAERDSN.

將源域和目標域記錄對集合中所有記錄嵌入得到每條記錄的屬性嵌入序列，源域記錄對嵌入集合為XS，目標域記錄對嵌入集合為XT.如圖2所示，XS和XT為VAERDSN 的輸入；代表XS經過GRU 得到隱藏表示再輸入到源域私有編碼器得到的源域私有表示向量代表XS經過GRU 得到隱藏表示再輸入到共享編碼器Eu得到的源域共享表示向量，同理；表示將域私有表示和域共享表示經過解碼器D的重建輸出為將源域共享表示輸入到分類器C得到的預測標簽；d′k為域共享特征輸入到域分類器得到的域預測標簽；Lc、Ldifference、Lsimilarity和Lrecon為不同的損失函數.

圖2 遷移網絡架構Fig.2 Framework of the transfer learning network

3.1 遷移網絡結構之編碼器

遷移模型的編碼器E（x）旨在提取屬性的隱藏表示，為后續網絡結構提供更好的特征.編碼器E（x）分為私有編碼器Eo（x）和共享編碼器Eu（x），兩種編碼器結構與實體解析任務中的屬性編碼器結構相同.其中私有編碼器Eo（x）分為源域私有編碼器和目標域私有編碼器，負責提取域獨有的特征；共享編碼器Eu（x）負責提取源域和目標域公共的特征.編碼器E（x）將特征轉換為嵌入向量，為下一步的解碼器提供輸入.

因為源域和目標域的私有特征不同，因此需要兩個編碼器分別提取源域和目標域的私有特征.提取源域和目標域的公共特征時，可以只使用一個編碼器來達到提取公共特征的目的.例如當送入源域數據時，源域數據經過源域私有特征編碼器得到源域私有特征向量，源域數據經過域共享編碼器得到域共享特征向量.

數據進入編碼器中首先會生成屬性分布表示（μ，σ），屬性分布經過Sampling 操作后，得到對應的屬性向量表示.在高斯分布（0，1）中采樣ε，用Sam?pling 公式h=μ+ε×σ表示從屬性分布到屬性向量的變換.公式（6）中的Encoder 即為實體解析模型中編碼層的Encoder.數據經過編碼器過程如下：

3.2 遷移網絡結構之解碼器

解碼器D（h）將編碼器的輸出重建回屬性表示.遷移模型輸入源域數據時，解碼器接收源域私有編碼器輸出的源域私有特征和共享編碼器Eu（x）輸出的源域和目標域共享特征相加得到的向量作為輸入，經過解碼器得到源域的重建屬性表示.目標域數據工作方式與源域數據一致.解碼器D（h）由兩層帶有非線性激活函數的多層感知器構成，輸出用于重建損失.解碼器D（h）的存在保證了編碼器E（x）編碼有效的特征，避免了編碼器學習到與任務無關的參數，公式如下：

解碼器用于保證解碼器學習到的知識與任務相關.如果編碼器的輸出不經過解碼器進行重構，編碼器輸出在極端情況下會跟編碼器的輸入相似，而本文想要讓編碼器學習輸入的屬性向量的隱藏分布.因此為了避免編碼器不學習屬性向量的隱藏表示，在編碼器后面接入解碼器，計算解碼器的輸出與編碼器的輸入之間的重構誤差，保證編碼器學習到的知識與任務有關.

3.3 遷移網絡結構之分類器

分類器C（h）采用與實體解析任務中實體解析分類器相同的結構，由帶有非線性激活函數的多層感知器構成，輸入和輸出與公式（4）相同.分類器對源域數據經過共享編碼器Eu（x）的輸出進行分類任務，得到最終分類結果.只使用共享編碼器Eu（x）的輸出進行分類可以減少域私有特征的影響，只使用公共特征進行分類，從而得到更好的遷移到目標域的效果.分類器會輸出最終的分類結果，由于在訓練時，目標域數據沒有標簽，因此只有源域數據會經過分類器輸出分類結果.

3.4 損失函數

本小節介紹遷移模型的損失函數.遷移模型訓練目標是將總損失L降到最低，公式如下：

其中α、β和γ均為控制損失項的超參數；Lc為分類任務損失；Ldifference為差異性損失，保證域私有特征和域共享特征之間的差異性；Lsimilarity為相似性損失，保證源域和目標域各自提取的共享特征相似；最后，Lrecon表示重建損失，希望重建回的屬性表示與編碼器的輸入一致.

分類任務損失Lc表示模型預測標簽的能力，希望損失越小越好，它同實體解析模型損失函數定義一致.因為目標域沒有標簽，因此只有帶標簽的源域數據經過分類器.

差異性損失在源域的私有特征和共享特征或目標域的私有特征和共享特征之間計算，差異性損失保證了私有編碼器Eo（x）和共享編碼器Eu（x）之間提取記錄的不同方面.差異性損失利用Wasserstein 距離對私有編碼器和共享編碼器各自輸出的屬性分布表示.因為目標域計算差異性損失和源域一致，因此只介紹源域計算差異性損失.具體地說，給定XS作為輸入后，源域私有編碼器和共享編碼器的輸出均為記錄對的分布表示，分別為，其中i和j分別對應第i和j個屬性，i，j∈［1，m］.接下來計算兩個編碼器輸出的對應屬性分布間的距離，即用Wasserstein 距離計算當i和j相等時，之間的距離.差異性損失定義如下：

相似性損失鼓勵源域數據和目標域數據經過共享編碼器后的表示盡可能相似，而與域無關.使用域對抗相似性損失來訓練模型，迷惑域分類器使之不能正確地判斷數據來自源域或目標域.相似性損失通過梯度反轉訓練域共享編碼器學習域無關的特征，實現混淆域分類器的作用.其中，dk是樣本k的真實域標簽，d′k是域分類器輸出的樣本k的預測域標簽.相似性損失定義如下：

4 實驗評估

本文使用兩對共四個數據集進行了實驗.其中所有數據集均已經過分塊操作，每個數據集隨機分為訓練、驗證、測試數據，比例為3：1：1.表2 給出了數據集的統計數據，包含數據集大小、匹配大小、屬性個數等.其中Zomato-Yelp（ZY）、Fodors-Zagats（FZ）［6］是餐館數據集，Books3、Books4是書籍數據集.其中Zomato-Yelp、Books3 和Books4 數據集均來自AnHai’s Group［6］.超參數α設置為0.01，β設置為0.075，γ設置為0.25.系統全面地展示了本文提出方法的有效性.

表2 數據集Tab.2 Data Set

使用精確率（P）、召回率（R）和F1分數作為實驗的評價指標.精確率衡量預測集合中正確預測的比例，召回率衡量真實匹配集合中被正確預測的比例，F1為兩者的調和平均數.

為了評估實體匹配模型的有效性，使用Deep?Matcher、MCA 模型與本文實體解析模型比較.由于遷移模型使用了較多的編碼器，因此時間性能較為重要，在分類效果類似的情況下，本文更關注時間性能.

對于每個目標數據集，源由另外一個數據集給出（例如，ZY 的源是FZ）.圖3、圖4 展示了遷移模型的性能.在圖3 中，可以看到當FZ 為源數據集，ZY 為目標數據集時，在源數據集上訓練出來的模型直接在目標數據集上測試時的F1為66.92%，當使用了遷移模型后，F1提高到了83.8%，提高了大約17%.使用本文模型在沒有目標標簽的情況下達到了較高水平.在ZY為源數據集、FZ為目標數據集時，使用遷移模型后，相比硬遷移F1提高了大約5%.

在圖4 中，當Books3 為源數據集，Books4 為目標數據集時，在源數據集上訓練出來的模型直接在目標數據集上測試時的F1為37.35%，使用遷移模型后，F1提高了不到1%.在Books4 為源數據集、Books3為目標數據集時，使用了遷移模型后，相比于直接使用源數據集上訓練出來的模型，F1由71.2%提高到了86.92%.

在圖3和圖4中，可以觀察到由一個數據集遷移到另一個數據集時存在難易程度不同的現象，例如，由Books3遷移到Books4，模型提升效果很小，但當由Books4遷移到Books3時，模型提升效果較大，可以認為是數據集間蘊含的語義信息有較大差異.

圖3 餐廳數據集遷移結果Fig.3 Transfer learning results on restaurants

圖4 書籍數據集遷移結果Fig.4 Transfer learning results on books

本文與Kasai 等人提出的適用于低資源實體解析方法進行了對比.如圖5 所示，除了Books4 數據集，本文的方法VAERDSN 均比對比的方法性能要好.在餐廳的兩個數據集上，本文提出的方法相比Kasai 等人提出的方法有了較大的提升，如在ZY 數據集上，F1由43.76%提升到了83.8%，有較大的提高.在Books3數據集上，本文的方法相比低資源模型方法，F1由80.45%提高到86.92%.

圖5 遷移方法有效性Fig.5 Effectiveness of transfer learning

接下來對比了實體解析模型與以前提出的深度實體解析方法在性能和時間上的差異.如圖6 所示，本文的實體解析模型在Books4數據集上的F1超過了DeepMatcher但與MCA仍有差距.在另外三個數據集上，本文的實體解析模型與之前提出的兩個方法有一定的差距，如在Books3數據集上，本文的實體解析模型訓練得出的F1與另外兩種方法分別差了大約8%和4%.如圖7 所示，本文的實體解析模型的訓練效率高于DeepMatcher 和MCA 方法.在Books3 數據集上，本文提出的方法和DeepMatcher 訓練時間相差達到了5倍之多.

圖6 實體解析模型性能對比Fig.6 Performance comparison of entity resolution

圖7 實體解析訓練時間對比Fig.7 Comparison of entity resolution training time

因為遷移模型不使用解碼器也能訓練，因此本文進行了消融實驗，其中VAERDSN-Decoder 代表去掉解碼器的模型.如圖8 所示，在去掉解碼器之后，FZ 和ZY 數據集性能均有不同程度的下降.在FZ 數據集上，F1由53.46%降到了31.58%，在ZY 數據集上F1降低得最多，由83.8%降到了38.55%.由此可以看出遷移模型中，解碼器保證了編碼器提取的特征有利于遷移任務的進行，保證了編碼器向有利于任務的方向訓練.

圖8 解碼器消融研究結果Fig.8 Decoder ablation study results

本文還進行了參數實驗，比較不同隱藏層大小對性能的影響.如圖9 所示，選取了ZY 和Books3 兩個數據集進行展示.在ZY 數據集上，可以看出選取隱藏層大小為100 時，F1最小，為80.43%；在隱藏層大小為200 時，F1達到了83.8%；隱藏層大小為250時，F1為83.91%.隱藏層大小逐漸增大，F1也在逐漸增高，且在隱藏層大小為200和250之間的F1差距不大.在Books3 數據集上，顯示出了一樣的規律，隱藏層大小由100 增大到250，F1也逐漸增大，并且在隱藏層大小選取200和250時，F1差距不到0.5%.因此，本文設定隱藏層大小為200.

圖9 隱藏層不同大小時F1分數Fig.9 F1 score for different sizes of hidden layers

本文在多個數據集上進行了遷移實驗以驗證模型的有效性，遷移模型的實驗結果相比于直接在源域訓練均有不同程度提升.本文還將VAERDSN模型與其他遷移模型進行了對比，除了Books4數據集，其他數據集的實驗結果都比所對比的模型結果要好.本文還將實體解析模型訓練時間和其他實體解析模型訓練時間進行了對比，可以看出，本文方法的訓練時間要明顯低于其他模型的訓練時間.綜上所述，本文通過多方面實驗證明了VAERDSN的先進性.

5 結論

本文提出了基于深度學習和遷移學習的實體解析框架，解決實體解析領域的遷移學習.利用變分自編碼器中的編碼器結構作為組件，將編碼器結合到域分離網絡中，域分離網絡利用不同功能的編碼器提取出了域私有特征和域共享特征，并將域共享特征用作分類器的輸入，其中解碼器用于將提取出的特征重建回編碼器的輸入，編碼器、解碼器和分類器共同構成了本文提出的模型.通過實驗證明了本文方法具有較好的遷移能力.通過展示遷移模型的性能，與以前提出的方法進行對比，以及利用參數研究，證明了本文提出方法的有效性.本文通過兩對數據集的互相遷移，通過實驗證明了本文提出的模型可以從源域和目標域中學習到公共知識并遷移到目標域中.