999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于特征遷移的跨領域中文分詞模型

2021-10-27 05:57:12張韜政張家健
關鍵詞:特征實驗模型

張韜政,張家健

(中國傳媒大學信息與通信工程學院,北京 100024)

1 引言

中文分詞一直被視為是其他中文自然語言處理任務的前提,由于漢語不像英語一樣在書寫過程中天生帶有空格來表明詞與詞之間的分界,所以許多自然語言處理技術在中文領域中不能正常運行,因此,如何將中文進行快速、準確的分詞成為了大家共同所關注的問題。

2003年,隱馬爾可夫模型[1](Hidden Markov Model,HMM)和最大熵模型[2](Maximum Entropy Model,ME)是主要的分詞方法。2004年,Peng[3]提出了將條件隨機場(Conditional Random Fields,CRF)和分詞相結合,解決了輸出關聯之間的問題。近幾年人工神經網絡飛速發展,深度學習也開始應用于解決中文分詞問題,學者們開始使用循環神經網絡解決句子的長期依賴問題,Chen[4]將長短期記憶網絡(Long Short-Term Memory Networks,LSTM)引入到中文分詞,使分詞的準確率有了很大突破。在之后的幾年里,門控循環單元和LSTM網絡等及其雙向結構,結合CRF,便成了中文分詞的經典方案,一直沿用至今。2019年,谷歌[5]發布并開源了一種新的語言表征模型:BERT,即來自Transformer的雙向編碼器表征,其性能使自然語言處理領域的各個任務都有突破性的進步。至此,中文分詞在封閉數據范圍內的成績已經十分可觀。

然而,隨著互聯網時代飛速發展,各種新詞層出不窮,舊詞新用的現象屢見不鮮,這對中文分詞又提出了新的挑戰。同其他序列標注類任務一樣,中文分詞對于專業性強的法律、新聞、醫療、文學作品等特有領域來說,未登錄詞很可能出現激增的可能;在微博等互聯網平臺上,一方面,每時每刻都有新詞新意不斷誕生,另一方面,這些文本的句式、格式、語言習慣也和其他領域有著很大的不同;傳統的語料庫很難對各個領域進行完整的覆蓋,因此對于特定領域分詞的表現總是不盡如人意。同時,在特定領域中的分詞任務往往伴隨著數據量不足的情況,而擁有足夠數據量的開放性語料又很難針對特定領域有很高的提升,盲目的合并訓練只會產生負遷移,對于深度學習來說,沒有足夠的數據很難支撐起龐大的參數迭代,模型在訓練過程中退化嚴重。

基于這個背景,成于思等人[6]使用源域數據對模型的參數進行預訓練,并使用目標域數據進行微調,但該類方法容易使模型產生過擬合,并且模型仍然使用小數據量進行訓練,結果魯棒性不強。武惠等人[7]通過文本相似性從源域中篩選出和目標域相似的樣本進行有針對性的遷移學習,但這類方法需要兩個領域的數據分布有交集,并且高度依賴衡量文本相似性的算法的精度。Guo[8]提出了共享參數層的遷移方法,但是該模型只會盲目地對兩個領域的數據進行學習,并不對提取的特征加以區分,學習效率較低。因此,總結前人的工作,我們采取了一種遷移和對抗的方法來解決特定領域的小樣本深度學習問題,該模型鮮少用于解決序列標注類任務,這個方法通過共享層實現遷移學習,并運用了目前飛速發展的生成對抗網絡技術,來進一步提升模型的表現,實驗證明該模型確實對F1分數有不錯的提升。

2 基礎結構

我們采用了經典的Word Embedding+Bi-LSTM+CRF模型[9]作為對抗遷移模型的基礎結構,如圖1所示。該模型在絕大多數自然語言處理任務中都有著穩定的表現,我們將在此結構上進行改進,完成進一步提升。本節主要分析模型基礎結構的一些技術特點。

圖1 中文分詞基礎模型

2.1 詞嵌入技術

Bengio在2003年[10],根據Hinton提出的分布式表示概念[11],提出了詞嵌入技術(Word Embedding,WE),并用之于神經網絡,Zheng[12]在2013年中將該技術用于分詞。WE是將每一個字或詞語映射到向量空間之中,用稠密的向量對其進行表示,將語義相近的詞語之間距離拉近,這種表示方式改變了傳統one-hot的數據輸入模式,降低了數據維度以加快計算,提高語料利用率,并且WE 也拓展了遷移的可能,極大地加強了模型的泛化能力。

2.2 Bi‐LSTM 網絡

LSTM網絡,是基于循環神經網絡的深度學習模型。由Schmidhube在1997年提出[13],其計算單元如圖2所示。

圖2 LSTM 計算單元

它的特點是在模型中加入了記憶細胞,用于保存當前輸入的狀態,這個細胞將在傳輸中一直傳遞下去,同時用一系列的門函數來判斷是否處理細胞中的信息、是否更新細胞信息、以多大程度使用細胞提供的信息,從而將信息較好地傳遞到后方,達成長輸入學習,公式如下:

1997年Schuster 和Paliwal 提出雙向的循環神經網絡[14],雙向的LSTM 網絡—Bi-LSTM 應運而生。單向的網絡中將信息從頭傳至尾,而許多信息并不是簡單的單向關聯,因此雙向網絡的引入能使模型更好的理解上下文信息。

2.3 CRF層

CRF 是Lafferty 于2001年提出的一種無向圖模型[15],如圖3 所示,它同時擁有HMM 和ME 的優點,在序列標注類任務中有舉足輕重的作用。深度學習中通常使用Softmax 函數來進行分類預測,但是序列標注的輸出之間有著緊密的邏輯關系,因此CRF層通過發射分數矩陣和轉移分數矩陣全面衡量輸出之間的關系,最終給出符合邏輯的輸出序列,大大地提高準確率。

圖3 CRF層

3 對抗遷移模型

本文提出的模型整體結構如圖4所示。我們采用多任務學習中的共享-私有結構[16],并在其基礎上做出進一步改動。

圖4 對抗遷移模型

3.1 基于共享‐私有結構的遷移

遷移學習的核心思想是在數據量充足的源領域中學習一些有用的知識信息來幫助目標領域更好地學習,接下來對共享-私有結構做簡單介紹。

我們將源域和目標域中學習到的特征分為兩類:私有特征和共享特征。該模型將在源域和目標域學習到的特征分別引入兩類獨立的特征空間:私有特征空間和共享特征空間。私有特征強調領域本身的知識,共享特征更加蘊含對于分詞方法的通性知識。由此可見,我們希望源域在神經網絡學習的過程中,將對于目標域有用的知識信息通過共享特征空間傳遞給目標域。因此我們的目標就是讓共享特征空間中出現更多有用的共享特征,同時讓私有特征盡量少地出現在共享特征空間中,避免特征污染和冗余。

最后,給出分詞任務的損失函數計算過程:

3.2 正交約束

正交約束由Konstantinos 于2016 提出[17],是指通過將源域和目標域的私有特征與共享特征進行正交乘積,并在結果中按一定比例加入損失函數,完成共享特征和私有特征的差異化,計算公式如下:

其中:Hs和Hsc分別是源域的私有特征和共享特征構成的參數矩陣,同樣,Ht和Htc是目標域的相應參數矩陣,這些矩陣均為batch-size 行、特征維度列,batch-size是批大小。

3.3 GAN網絡

Goodfellow[18]首先提出了GAN網絡的概念,Ganin[19]在2016年將對抗思想用于解決遷移學習中的領域自適應問題。

正交約束的作用僅是增加共享特征和私有特征的差異,并不能明確保留在空間內的特征是共享特征還是私有特征,所以需要其他網絡來完成分類任務。因為共享特征空間提取的是兩個領域交叉的共有信息,因此在理想狀態下,兩個領域的輸入經過共享層所提取的特征應當為不帶有私有特征的共享特征,將這些特征輸入神經網絡和分類器后,模型應當無法給出可靠的預測。帶有梯度反轉的GAN 網絡便適用于這種情況,在正向傳播過程中,LSTM 網絡給出的共享特征試圖誤導分類器,而分類器則努力判斷該特征來自哪個領域,在反向傳播時梯度反轉不斷優化特征,使其變為不帶有私有特征的共享特征,經過不斷迭代后,對抗網絡達到平衡。對抗網絡的損失函數:

其中:Wc是權重參數,bc為偏置參數p(k|hic)。是對目標域(k=1)的預測,n為batch-size 的大小,即樣本個數。

3.4 輔助對抗學習

Chen[20]在論文中指出,Liu[16]的模型中對抗學習并沒有起到作用。在實驗之后我們也發現其模型相比于簡單的多任務學習并沒有明顯提升,加大對抗網絡和正交約束的損失函數比例反而會使模型退化更加嚴重,Chen分析原因認為共享特征并不能很好的訓練分類器,因此將私有特征也加入到分類器的訓練當中,完善了模型。輔助對抗學習損失函數:

其中:Wc是權重參數,bp為偏置參數。hp為私有特征,是hs、ht的集合。

最終的損失函數是:

其中:λ1、λ2、λ3是可調節的超參數。λ1代表正交約束損失函數的比重,該值越大,訓練后領域中的共享特征和私有特征差異越大。λ2是對抗訓練損失函數的比重,需要根據目標領域和源領域的特征分布重合程度調節。λ3代表輔助對抗訓練的損失比重,該值大小決定了模型對分類器性能關注程度,如果訓練后對抗網絡的分類器效果不好,便可進一步調整該參數。

4 實驗

4.1 實驗配置

我們盡可能收集了網絡上的開源中文分詞數據庫,分別為:sighan2005的PKU、MSR、AS、CITYU和SXU、CTB、UDC、CNC以及微博(WTB)和文學作品《誅仙》(ZX)共10個語料庫。將它們的嵌入通過t-SNE可視化出來如圖5所示,因為詞嵌入向量的數值并沒有具體意義,因此圖5的坐標軸并未標出具體單位。通過圖5發現各個語料庫之間幾乎沒有顯著的相似性[21]。

圖5 語料庫領域分布

經過多次實驗,我們得出損失函數的超參數為λ1=λ2=0.03,λ3=0.05 時模型的表現最好。由于對抗訓練需要一定的學習時間,所以迭代次數設定不能過少,本次實驗batch-size 設置為128,迭代次數為800。當僅使用正交約束進行訓練時,λ2在0~0.1 的范圍內時模型性能有不錯的提升,經過對比實驗,正交約束的輸入加入正則化后模型效果會進一步提高。當我們僅使用對抗和輔助對抗進行訓練時,發現模型F1分數是否上升十分依賴損失函數的超參數。最后,由于有多個損失函數項,實驗結果存在波動并不穩定,需要多次實驗觀察避免偶然性。

4.2 實驗結果

本次實驗取10萬個樣本作為源域數據,3000樣本作為目標域數據(其中WTB數據庫不足3000,用700訓練集和300測試集樣本進行實驗),評價標準為F1分數(通過準確率和召回率計算得出,該指標能夠更全面地衡量模型結果),按照數據量選擇了5個語料庫作為源域,5個語料庫作為目標域,對抗遷移模型在各個語料庫的表現如表1所示。

表1 模型在各個領域實驗的F1分數

為了更直觀地展現遷移結果,我們從ZX的預測結果中選出一個典型例子,如表2所示。

表2 語料庫ZX中的實例

觀察表2發現,在“佛道魔三方面”的分詞過程中,數據量稀缺的基礎模型認為“佛道”、“方面”經常作為完整的詞獨立出現,因而造成了分詞錯誤。但在我們的模型中,大量的源域數據中含有更多“佛道魔”、“三方面”相關的分詞樣本,這些樣本通過共享層遷移至目標域,使模型最后做出更準確的預測,同時分詞的粒度也更為精細。

我們同時也進行了多組對比實驗,分別為:基礎模型,包括:使用源域語料訓練模型后將其應用于目標域(source-only)、使用目標域語料訓練模型后將其應用于目標域(target-only)、源域和目標域語料混合訓練模型后將其應用于目標域(mix)等;目前的強基線模型[16]為僅共享Bi-LSTM 的遷移模型(SP-MTL),本文提出的對抗遷移模型(Ad-Tr),我們隨機選擇了5種情況進行實驗,S?T 代表從源域S 向目標域T 遷移,結果如表3所示。

表3 對比實驗結果

通過觀察我們發現CNC語料對ZX遷移效果最好,AS對UDC效果最差,因此我們進一步做了CNC和AS對目標域語料的對比實驗。通過觀察結果圖6和圖7,我們發現AS對各個語料的提升微弱,CNC對各個語料均有不錯的提升,分析原因可能是AS的語料內容比較單一,在遷移學習中沒有足夠的知識可以幫助目標域,而CNC的語料相比之下更加豐富,在各個領域都有涉及,可以更好地完成知識共享。

圖6 AS作為源域時的F1分數

圖7 CNC作為源域時的F1分數

5 結論與展望

本文實驗結果說明,雖然中文分詞各語料領域分布和分詞標準不同,但語料間仍存在可用于遷移學習的信息,同時,對抗學習和正交約束可提升共享特征的純凈度。本文模型同樣適用于諸如命名實體識別、詞性標注等其他序列標注類任務。此外,由于對抗學習可引入未標注數據,故今后可在對抗學習中引入無標注語料進一步提升效果。

猜你喜歡
特征實驗模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 高清视频一区| 国产一区二区三区日韩精品| 成人在线观看一区| 国产成人a毛片在线| 亚洲国产天堂在线观看| 99国产精品免费观看视频| 全部毛片免费看| 99999久久久久久亚洲| 亚洲最大福利网站| 亚洲国产一成久久精品国产成人综合| 精品自窥自偷在线看| 不卡的在线视频免费观看| 国产综合在线观看视频| 免费jjzz在在线播放国产| 日韩黄色在线| 国产色图在线观看| 亚洲视频四区| 波多野结衣一区二区三区四区视频| 亚洲无码37.| 成人一区在线| 欧美人人干| 亚洲人成亚洲精品| 亚洲欧洲AV一区二区三区| 久久久久久久久18禁秘 | 伊人久综合| 成人精品在线观看| 免费观看三级毛片| 亚洲不卡网| 中文字幕av一区二区三区欲色| 蜜芽一区二区国产精品| 91精品综合| 久久久久88色偷偷| 国产午夜在线观看视频| 性视频一区| 国产精品亚洲αv天堂无码| 国产呦精品一区二区三区网站| 成人亚洲国产| 日韩精品亚洲人旧成在线| 欧美一区精品| 这里只有精品国产| 人妻21p大胆| 亚洲三级片在线看| 最新国产网站| 九色国产在线| 中国国产高清免费AV片| 国产成人你懂的在线观看| 乱人伦99久久| 天天色天天综合| 一区二区三区四区精品视频| 亚洲综合久久成人AV| 欧美激情,国产精品| 最新国产精品鲁鲁免费视频| 五月婷婷丁香综合| 国产97区一区二区三区无码| 免费毛片全部不收费的| 日韩av高清无码一区二区三区| 久久久精品久久久久三级| 狠狠色成人综合首页| 精品国产香蕉伊思人在线| 免费A∨中文乱码专区| 成人午夜福利视频| 久久中文字幕不卡一二区| 青青草原国产免费av观看| 国产不卡一级毛片视频| 成人国产三级在线播放| 国产精品xxx| 国产特级毛片| 欧美综合区自拍亚洲综合天堂| 婷婷六月在线| 国产午夜精品一区二区三| 国产成人精品在线1区| 国产精品第三页在线看| 99免费视频观看| 狠狠色噜噜狠狠狠狠色综合久| 九色在线观看视频| 国产1区2区在线观看| 伊人丁香五月天久久综合| 自拍偷拍欧美日韩| 亚洲品质国产精品无码| 亚洲有无码中文网| 国产精品女人呻吟在线观看| 亚洲品质国产精品无码|