收稿日期:2021-11-15;修回日期:2021-12-31" 基金項目:南京大學計算機軟件新技術國家重點實驗室開放課題項目(KFKT2021B39)
作者簡介:韓士洋(1999-),男,河南鄧州人,碩士,主要研究方向為自然語言處理和深度學習;馬致遠(1987-),男(回族)(通信作者),四川攀枝花人,講師,主要研究方向為自然語言處理和神經網絡(yuliar3514@usst.edu.cn);楊芳艷(1979-),女,湖北人,副教授,主要研究方向為電路與系統和人工智能;李想(1996-),男,安徽淮南人,碩士,主要研究方向為自然語言處理;汪偉(1996-),男,安徽毫州人,碩士,主要研究方向為自然語言處理.
摘 要:成詞信息是一種對中文分詞任務十分重要的文本特征。最新中文分詞模型之一的WMSEG就是通過引入成詞信息來獲得最頂尖的分詞性能。然而這類模型在建模時并未考慮標簽之間的依賴關系,導致其分詞性能特別是對未登錄詞的識別有所欠缺。針對這一問題,通過在學習過程中引入標簽嵌入的注意力機制,提出了一種帶標簽注意力的成詞記憶網絡來增強標簽之間的依賴關系以及標簽和字符之間的相關性。實驗結果表明,該模型在四個常用數據集上都取得了不弱于WMSEG的分詞性能,同時提高了對未登錄詞的識別能力。
關鍵詞:成詞信息;中文分詞;標簽嵌入;注意力機制;未登錄詞
中圖分類號:TP391"" 文獻標志碼:A
文章編號:1001-3695(2022)06-008-1651-05
doi:10.19734/j.issn.1001-3695.2021.11.0592
Wordhood memory networks with label attention for Chinese word segmentation
Han Shiyang1a,1b,Ma Zhiyuan1a,2,Yang Fangyan1b,Li Xiang1a,1c,Wang Wei1a,1c
(1.a.Institute of Machine Intelligence,b.School of Mechanical Engineering,c.School of Optical- Electrical amp; Computer Engineering,University of Shanghai for Science amp; Technology,Shanghai 200093,China;2.State Key Laboratory for Novel Software Technology,Nanjing University,Nanjing 210093,China)
Abstract:Wordhood information is an extremely important contextual feature for Chinese word segmentation,and as one of the newest segmentation models,WMSEG obtains the state-of-the-art segmentation performance by incorporating the wordhood information.However,the model does not consider the label dependencies in modeling,which leads to the dissatisfactory segmentation performance,especially the recognition of out-of-vocabulary words.Aiming for the issue,this paper introduced an attention mechanism with label embedding in the learning process,and proposed a wordhood memory networks with label attention to enhance the label dependencies and the correlations between labels and characters.The experimental results show that the mo-del achieves equivalent if not better performance than WMSEG on four widely used datasets,and improves the recognition ability of out-of-vocabulary words.
Key words:wordhood information;Chinese word segmentation;label embedding;attention mechanism;out-of-vocabulary words
0 引言
中文分詞為中文語言處理(Chinese language processing,CLP)的基礎任務之一,其質量的好壞會直接影響下游任務的性能[1]。中文分詞的相關研究,可追溯到20世紀80年代,到目前為止,中文分詞方法可分為以下基于詞典的分詞方法[2]、基于規則的分詞方法[3,4]、基于傳統機器學習模型的分詞方法[5,6]和基于深度學習模型的分詞方法[7,8]四類。現有大多數方法將其建模為序列標注任務[9,10],即對給定文本中每個字符分配相應的標簽,以明確文本中詞的邊界,常用的標簽集有:{B:詞的左邊界、M:詞的中間部分、E:詞的右邊界、S:單字詞}等。
隨著深度學習技術的發展,各種預訓練模型也相繼被提出(如BERT[11]、XLNet[12]、ZEN[13]等),也有研究[14,15]將預訓練模型用于中文分詞任務,使模型性能獲得了極大的提升,但是相關模型對于未登錄(out-of-vocabulary,OOV) 詞的識別能力普遍偏弱,而OOV 詞的識別質量可以直接影響模型的分詞性能,從國際中文分詞測評活動Bakeoff的評測指標可看出,OOV詞的識別問題所造成的分詞精度損失至少比分詞歧義所造成的分詞精度損失大五倍以上[1]。成詞信息對于文本建模十分重要,其本質是一種能夠反映文本中字符之間共現概率的文本特征。近些年來,如何利用文本中成詞信息來增強模型性能的方法逐漸受到相關研究人員的關注,其中,Tian等人[16]基于鍵—值網絡[17]和注意力機制[18]提出一種利用文本中成詞信息的成詞記憶網絡,并且提出一種利用成詞記憶網絡的中文分詞模型WMSEG,取得了最先進(state-of-the-art,SOTA) 的中文分詞性能,而且提高了模型對OOV 詞的處理能力。但是,WMSEG在建模成詞信息的過程中并沒有考慮分詞標簽之間的依賴關系,例如標簽S后面應該跟標簽S或者B,而標簽B后面應該跟標簽M或者E。標簽之間的依賴關系在其他相關任務的建模中已經被證實可以顯著提升模型性能。在命名實體識別任務和詞性標注任務中,Zhang等人[19]通過引入標簽之間的依賴關系提高了模型的命名實體識別精度以及詞性標注精度。在組合范疇語法(combinatory categorial grammar,CCG)標注任務中,Vaswani等人[20]通過長短期記憶網絡(long short term memory,LSTM)模型引入標簽嵌入,以此將標簽之間的依賴關系整合到模型,提高了模型的CCG標注性能。因此,有理由相信在建模成詞信息過程中通過引入標簽嵌入,從而將標簽之間的依賴關系整合到WMSEG,能夠進一步提升模型的分詞性能。
基于上述問題和現狀,本文提出一種利用帶標簽注意力的成詞記憶網絡的中文分詞模型(Chinese word segmentation model using wordhood memory networks with label attention,WMN-LA)。WMN-LA通過標簽注意力機制引入標簽嵌入來建模標簽之間的依賴關系以及標簽和字符之間的相關性,使模型能夠學習更符合上下文的成詞信息,然后利用帶標簽注意力的成詞記憶網絡將成詞信息整合到模型,輔助模型進行分詞決策。
1 方法
1.1 算法框架概述
本文提出的中文分詞模型WMN-LA的模型結構如圖1所示。WMN-LA在WMSEG的基礎上通過標簽注意力機制引入輸出標簽候選集合的標簽嵌入,并且利用標簽注意力機制建模標簽嵌入和包含文本語義信息以及成詞信息的特征向量之間的相關性,以此將標簽之間的依賴關系以及標簽和字符之間的相關性整合到模型,使模型能夠學習更符合上下文的成詞信息。WMN-LA首先利用編碼器將輸入的文本序列編碼為包含文本語義信息的特征向量,通過標簽注意力機制將輸出標簽候選集合的標簽嵌入引入模型,然后利用帶標簽注意力的成詞記憶網絡將從詞典N篩選的n-gram片段中包含的成詞信息整合到模型,最后將包含文本成詞信息和文本語義信息的特征向量送入解碼器生成相應的標簽。
1.2 標簽表示
給定輸出標簽的候選集合B={b1,…,bk,…,b|B|},其中|B|為輸出標簽候選集合中標簽的數量,對于集合中每個標簽使用嵌入向量進行表示為
lbk=eb(bk)(1)
其中:eb表示標簽嵌入的查找表,標簽嵌入在模型的訓練開始時是隨機初始化得到的,在訓練過程中不斷調優。
1.3 詞典構造
WMN-LA需要構造一個詞典N,用做篩選文本中包含相應字符的n-gram片段。本文采用無監督構詞法:鄰接多樣度(accessor variety,AV)[21],根據原始語料構造詞典N,算法定義為
AV(k)=min(L(k),R(k))(2)
其中:L(k)表示n-gram片段k左側不同字符的數量;R(k)表示n-gram片段k右側不同字符的數量;AV分數越高則表明n-gram片段k越有可能是一個詞。使用AV構詞法對原始語料構造詞典時,需要設置相應的AV分數閾值,設置的閾值越大,所得的詞典越小,反之越大。
1.4 帶標簽注意力的成詞記憶網絡
本文提出一種帶標簽注意力的成詞記憶網絡,通過標簽注意力機制引入標簽嵌入,建模成詞信息時考慮標簽之間的依賴關系以及標簽和字符之間的相關性,使最后生成的嵌入向量更符合上下文。標簽嵌入的注意力機制與一般語義分析注意力機制的區別在于前者將輸出標簽候選集合的標簽表示引入注意力機制中,通過模型訓練,學習標簽和字符之間的相關性以及其中隱含的標簽之間的相關性,而后者 (如BERT中的自注意力機制) 僅建模序列字符之間的共現(co-occurance)信息。
給定文本序列X=[x1,…,xi,…,x|X|],其中|X|表示文本序列的長度,對于文本序列中每個字符xi,在詞典N中遍歷得到該文本序列中包含字符xi的所有n-gram片段,從而得到鍵列表Ki=[ki,1,…,ki,j,…,ki,m]和值列表Vi=[vi,1,…,vi,j,…,vi,m],m表示包含字符xi的n-gram片段的數量。例如,文本序列“職業道德建設”,x2=“業”,則得到K2=[“業”,“職業”,“職業道德”]和 V2=[VS,VE,VM],VS等表示標簽與數字映射之后的數值。在模型的訓練過程中,用鍵嵌入eki,j表示ki,j以及值嵌入evi,j表示vi,j,其中i表示字符在文本序列X中的位置, j表示n-gram片段ki,j在鍵列表K2中的位置。具體計算為
pi,j=exp(hi·eki,j)∑mj=1exp(hi·eki,j)(3)
ci=∑mj=1pi,jevi,j(4)
oi=hi+ci(5)
其中:hi表示編碼器所生成的包含文本語義信息的特征向量;pi,j表示關于包含字符xi的n-gram片段 ki,j 的概率分布;ci表示包含文本成詞信息的特征向量;oi為包含文本語義信息的特征向量hi和包含文本成詞信息的特征向量ci之和。
利用標簽注意力機制將標簽嵌入引入模型,使模型學習標簽之間的依賴關系以及標簽和字符之間的相關性。首先計算標簽嵌入矩陣lb和含文本語義信息和成詞信息的特征向量矩陣O之間的相關性矩陣M,得到字符和標簽之間的相關性,然后計算矩陣M和標簽嵌入矩陣lb之間的相關性矩陣MV,得到標簽之間的依賴關系以及標簽和字符之間相關性。定義如式(6)~(9)所示,Q=O,K=V=lb,其中O∈Euclid Math TwoRApn×d,lb∈Euclid Math TwoRAp|B|×d,n為文本序列的長度,|B|為輸出標簽候選集合中標簽的數量,d為標簽嵌入的維度。
O=[o1;…;oi;…;on](6)
lb=[lb1;…;lbk;…;lb|B|](7)
a=attention(Q,K,V)=MV(8)
M=softmax(QKTd)(9)
其中:[o1;…;oi;…;on]表示將n個向量拼接為一個向量,oi表示該向量的第i維;[lb1;…;lbk;…;lb|B|]表示將輸出標簽候選集合的標簽嵌入拼接為一個向量,lbk為該向量的第k維。
本文的標簽注意力機制為多頭結構的注意力機制,可并行提取相關性,計算如式(10)~(12)所示。
a=concat(head,…,headh)+O(10)
a=MV+O(11)
headi=attention(QWQi,KWKi,VWVi)(12)
其中:WQi∈Euclid Math TwoRApd×dh,WKi∈Euclid Math TwoRApd×dh,WVi∈Euclid Math TwoRApd×dh,三者均為可訓練參數;h為多頭結構的注意力機制的并行計算頭數,在標簽注意力機制的輸出端采用殘差連接的結構,以此來增強網絡的表達能力。
最后將標簽注意力機制的輸出和其查詢矩陣拼接起來,將拼接的結果送入全連接層進行降維,降維之后的結果為帶標簽注意力的成詞記憶網絡的輸出,計算如式(13)所示。
si=Wo·([oi;ai])+bo(13)
其中:Wo∈Euclid Math TwoRApd×2d,bo∈Euclid Math TwoRApd,兩者為可訓練參數;[oi;ai]表示對向量oi和向量ai進行拼接操作。
1.5 編碼器—解碼器框架
將文本序列X輸入到WMN-LA后,首先通過編碼器對序列中每個字符xi編碼出一個包含文本語義信息的特征向量hi,如式(14)所示。
encoder(X)=[h1;…;hi;…;h|X|](14)
其中:encoder表示編碼器,本文選擇BERT作為編碼器。
當帶標簽注意力的成詞記憶網絡產生所有的si后,解碼器就根據該特征向量預測文本的標簽序列Y= y1…yi…y|X|,如式(15)所示。
decoder(S)=Y(15)
其中:decoder 表示解碼器;S=s1…si…s|X|,本文選擇CRF 作為解碼器,算法定義如式(16)所示。
yi=arg maxexp(Wc·si+bc)∑yi-1yiexp(Wc·si)+bc yi∈B(16)
其中:Wc∈Euclid Math TwoRAp|B|×|B|,bc∈Euclid Math TwoRAp|B|,兩者均為可訓練參數。
1.6 損失函數
WMN-LA通過使用負對數似然損失的標準反向傳播算法進行訓練,如式(17)所示。
L(θ)=-∑|B|i=1log(p(yi|xi;θ))(17)
其中:θ為WMN-LA的模型參數。
2 實驗
2.1 數據集及評價指標
本文在四個常用中文分詞數據集(PKU、MSR、AS和CITYU)測試WMN-LA的性能,其中AS和CITYU為繁體中文數據集,MSR和PKU是簡體中文數據集,在進行模型訓練之前將繁體中文數據集轉換為簡體中文數據集,并按照官方給出的標準比例將數據集分割為訓練集和測試集,數據集的統計信息如表1所示。
本文所選的中文分詞性能評價指標為F1 分數和OOV詞召回率Roov。具體定義為
F1=2×準確率×召回率準確率+召回率(18)
Roov=模型正確識別的OOV詞總數測試集中OOV詞總數×100%(19)
其中:F1分數為中文分詞性能評估的主要參考指標;Roov能夠反映模型的泛化能力。
2.2 實驗環境與模型參數
本文的實驗采用PyTorch 1.4.0深度學習框架,編程環境為Python 3.7.9;實驗運行環境為Ubuntu16.04系統;CPU為Intel CoreTM i7-6700k CPU @ 4.00 GHz,內存為32 GB;GPU為TITAN V,顯存為12 GB;CUDA版本為10.2。另外,使用AV構詞法根據語料構造詞典N時,需要對數據集設置AV分數閾值,以此來篩選語料中的n-gram片段。本文將PKU和CITYU的AV分數閾值設置為2,將AS和MSR的AV分數閾值設置為5,WMN-LA的超參數設置如表2所示。
2.3 算法偽代碼
為了更好地解釋WMN-LA具體的實施細節,將模型算法偽代碼整理如算法1所示。
算法1 利用帶標簽注意力的成詞記憶網絡的分詞模型
輸入:標注數據L;輸出標簽候選集合B;訓練輪數E;批處理大小b。
輸出:在測試集上最小損失Ltestmin的模型m*。
初始化:一個編碼器encoder();一個標簽嵌入查詢表eb();一個鍵嵌入查詢表eK();一個值嵌入查詢表ey();
for i=1 to E do
按照批處理大小b加載標注數據L作為batch;
for文本序列 X in batch do
for 字符 xi∈X do
hi←encoder(xi)
從詞典中篩選n-gram片段, 得到Ki和Vi
eki,j←eK(ki,j)
evi,j←eV(vi,j)
ci←softmax(hi,eki,j)evi,j
oi←hi+ci
end
O←[o1;…;oi;…;on]
lbk←eb(bk)
lb←[lb1;…;lbk;…;lb|B|]
M←softmax(O,lb);
a←Mlb+O
end
if Ltestlt;Ltestmin
Ltestmin←Ltest
m*←m
end
return m*
2.4 對比實驗
為測試WMN-LA的效果,本文列舉了幾種近年來分詞模型的F1分數和Roov進行對比,如表3所示,其中包括通過自注意力機制利用預訓練字符嵌入的中文分詞模型[22]、使用僅由注意力機制堆疊的編碼器的中文分詞模型[23]、利用文本中成詞信息的分詞模型[24]、利用transformer結構的編碼器和CRF組合的分詞模型[25]、使用對抗多準則的分詞模型[26]、使用Switch-LSTMs模型的分詞模型[27];通過Lattice-LSTM 模型利用n-gram片段中文本語義信息的分詞方法[28]。
由表3可知,在PKU數據集上,文獻[22]使用自注意力機制將包含文本語義信息的預訓練字符嵌入整合到分詞模型,利用預訓練字符嵌入中的知識進行分詞,模型的F1分數達到96.70%,而WMN-LA在未使用預訓練字符嵌入的情況下F1 分數也達到了96.70%,與文獻[22]性能相當。在AS數據集上,文獻[24]通過引入n-gram片段的成詞信息輔助模型進行中文分詞,模型的F1分數達到96.62%,Roov 達到79.36%,而WMN-LA通過帶標簽注意力的成詞記憶網絡引入成詞信息,F1分數達到97.04%,Roov達到83.21%,與文獻[24]相比F1分數提高了0.42%,Roov提高了3.85%。在CITYU數據集上,文獻[25]將多分詞準則整合到Transformer編碼器—CRF框架,F1分數達到96.91%,Roov達到86.91%,而WMN-LA將成詞信息整合到BERT-CRF框架,F1 分數達到97.88%,Roov達到87.68%,與文獻[25]的模型相比F1分數提高了0.97%,Roov提高了0.77%。在MSR數據集上,文獻[28]通過Lattice-LSTM模型整合n-gram片段中文本語義信息輔助模型進行分詞決策,F1分數達到97.80%,而WMN-LA整合n-gram片段中成詞信息輔助模型進行分詞決策,F1 分數達到98.35%,與文獻[28]相比F1分數提高了0.55%。從對比實驗可以看出,WMN-LA在四個常用中文分詞數據集上都取得了不弱于其他模型的性能,并且取得了新的SOTA分詞性能。
2.5 消融實驗
為進一步驗證WMN-LA的有效性,對其進行消融實驗,本文所提出的改進有兩點:a)通過標簽注意力機制將標簽嵌入引入模型,使用標簽注意力機制將標簽之間的依賴關系以及標簽和字符之間的相關性整合到模型,使模型學習到更符合上下文的成詞信息;b)通過帶標簽注意力的成詞記憶網絡將成詞信息引入模型,輔助模型進行分詞決策。為驗證改進a)的有效性,將WMN-LA與WMSEG進行性能對比;為驗證改進b)的有效性,將WMN-LA與BERT-CRF模型進行性能對比。消融實驗結果如表4所示。
從WMN-LA和WMSEG的性能對比結果可以看出,將標簽嵌入引入模型,使用標簽注意力機制將標簽之間的依賴關系以及標簽和字符之間的相關性整合到模型中之后,在PKU、MSR、AS和CITYU上,模型的F1 分數分別提升了0.19%、0.07%、0.46%和0.08%,模型的Roov 分別提升了0.27%、2.08%、4.73%和0.11%,在保證模型分詞性能的情況下,有效提高了模型對OOV詞的處理能力,表明帶標簽注意力的成詞記憶網絡能夠學習更符合上下文的成詞信息。
從WMN-LA和BERT-CRF模型的性能對比結果可以看出,利用帶標簽注意力的成詞記憶網絡將文本的成詞信息整合到模型中之后,在PKU、MSR、AS和CITYU上,模型的F1分數分別提升了0.38%、0.37%、0.70%和0.25%,模型的Roov 分別提升了1.99%、1.00%、5.46%和1.02%,在保證模型分詞性能的情況下,大幅度提高了模型對OOV詞的處理能力,表明WMN-LA利用文本的成詞信息輔助進行中文分詞,有效提高了模型的分詞性能。
2.6 樣例分析和可視化
為了更好地說明WMN-LA相較于WMSEG能夠學習到更符合上下文的成詞信息,本文對WMN-LA分詞正確而WMSEG分詞錯誤的文本序列中關于候選n-gram片段的權重進行可視化,以文本“天空中看到流星雨”為例,可視化結果如圖2、3所示。
熱力圖的縱軸為文本序列,橫軸為文本中的候選n-gram片段,熱力圖中的顏色越深則表示權重越大,反之則越小。從圖2中可得,WMSEG中成詞記憶網絡對于“天”取uigram“天”,標簽信息為S;“空”取bigram“天空”,標簽信息為E;“中”取bigram“空中”,標簽信息為E。從圖3中可得,WMN-LA中帶標簽注意力的成詞記憶網絡對于“天”取bigram “天空”,標簽信息為B;“空”取bigram“天空”,標簽信息為E;“中”取uigram“中”,標簽信息為S。圖2所展示的成詞信息中“天”“空”和“中”為相鄰字符,但是標簽信息為“S”“E”和“E”,并不滿足中文分詞任務中的標簽依賴,而圖3所展示的成詞信息更符合上下文。
為了進一步說明WMN-LA相較于WMSEG能夠學習到更符合上下文的成詞信息,本文對兩模型都分詞正確的文本序列中關于候選n-gram片段的權重進行可視化,以文本“職業道德建設”為例,可視化結果如圖4、5所示。
從圖4中可得,WMSEG中成詞記憶網絡對于“職”取uigram“職”,標簽信息為S;“業”取uigram“業”,標簽信息為S;“道”取4-gram“職業道德”,標簽信息為M;“德”取4-gram“職業道德”,標簽信息為E。從圖5中可得,WMN-LA中帶標簽注意力的成詞記憶網絡對于“職”取4-gram “職業道德”,標簽信息為B;“業”取4-gram“職業道德”,標簽信息為M;“道”取4-gram“職業道德”,標簽信息為M;“德”取4-gram“職業道德”,標簽信息為E。圖4所展示的成詞信息中“業”和“道”為相鄰字符,但是標簽信息為“S”和“M”,并不滿足中文分詞任務中的標簽依賴,而圖5所展示的成詞信息更符合上下文。
從對WMN-LA分詞正確而WMSEG分詞錯誤的文本序列以及兩者都分詞正確的文本序列中關于候選n-gram片段的權重的可視化結果可看出,帶標簽注意力的成詞記憶網絡引入標簽之間的依賴關系以及標簽和字符的相關性后,模型可學習到更符合上下文的成詞信息,也進一步說明了WMN-LA優于WMSEG。
3 結束語
本文提出一種利用帶標簽注意力的成詞記憶網絡的中文分詞模型WMN-LA。該模型引入標簽嵌入并使用標簽注意力機制建模標簽之間的依賴關系以及標簽與字符之間的相關性,使模型能學習到更符合上下文的成詞信息。實驗結果表明,與其他模型相比,WMN-LA具有更好的分詞性能和對OOV詞的識別能力,并且取得了新的SOTA分詞性能。消融實驗結果和樣例分析進一步說明WMN-LA的兩點改進均提高了模型的分詞性能以及對OOV詞的識別精度,驗證了該模型能夠學習到更符合上下文的成詞信息。尤其是在AS上,F1分數提高了0.46%,Roov 提高了4.73%。在未來的研究中,可將成詞信息用于詞性標注任務和命名實體識別任務;另一方面,從實驗結果可看出成詞信息有助于模型處理OOV詞,可將其用于跨域中文分詞任務。
參考文獻:
[1]黃昌寧,趙海.中文分詞十年回顧[J].中文信息學報,2007,21(3):8-19.(Huang Changning,Zhao Hai.Chinese word segmentation:a decade review[J].Journal of Chinese Information Processing,2007,21(3):8-19.)
[2]Zhang Qi,Liu Xiaoyu,Fu Jinlan.Neural networks incorporating dictionaries for Chinese word segmentation[C]//Proc of the 32nd AAAI Conference on Artificial Intelligence.2018:5682-5689.
[3]Wu Andi,Jiang Zixin.Word segmentation in sentence analysis[C]//Proc of International Conference on Chinese Information Processing.1998:169-180.
[4]Sui Zhifang,Chen Yirong,Hu Junfeng,et al.The research on the automatic term extraction in the domain of information science and technology[C]//Proc of the 5th East Asia Forum of the Terminology.2002:45-52.
[5]Asahara M,Goh C L,Wang Xiaojie,et al.Combining segmenter and chunker for Chinese word segmentation[C]//Proc of the 2nd SIGHAN Workshop on Chinese Language Processing.2003:144-147.
[6]Fan Chao,Li Yu.Research on Chinese word segmentation based on conditional random fields[C]//Proc of International Conference on Intelligent Computing.Berlin:Springer,2021:316-326.
[7]Qun Nuo,Yan Hang,Qiu Xipeng,et al.Chinese word segmentation via BILSTM+Semi-CRF with relay node[J].Journal of Computer Science and Technology,2020,35(5):1115-1126.
[8]Tian Yuanhe,Song Yan,Ao Xiang,et al.Joint Chinese word segmentation and part-of-speech tagging via two-way attentions of auto-analyzed knowledge[C]//Proc of Annual Meeting of the Association for Computational Linguistics.2020:8286-8296.
[9]章登義,胡思,徐愛萍.一種基于雙向 LSTM 的聯合學習的中文分詞方法[J].計算機應用研究,2019,36(10):2920-2924.(Zhang Dengyi,Hu Si,Xu Aiping.Joint learning method based on BLSTM for Chinese word segmentation[J].Application Research of Compu-ters,2019,36(10):2920-2924.)
[10]Cai Tingting,Ma Zhiyuan,Zheng Hong,et al.NE-LP:normalized entropy and loss prediction-based sampling for active learning in Chinese word segmentation on EHRs[J].Neural Computing and Applications,2021,33:12535-12549.
[11]Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics.2018:4171-4186.
[12]Yang Zhilin,Dai Zihang,Yang Yiming,et al.XLNet:generalized autoregressive pretraining for language understanding[C]// Advances in Neural Information Processing Systems.2019:5753-5763.
[13]Diao Shizhe,Bai Jiaxin,Song Yan,et al.ZEN:pre-training Chinese text encoder enhanced by n-gram representations[C]//Proc of Conference on Empirical Methods in Natural Language Processing.2019:4729-4740.
[14]Yang Haiqin.BERT meets Chinese word segmentation[EB/OL].(2019-09-20).https://arxiv.org/abs/1909.09292.
[15]Ke Zhen,Shi Liang,Meng Erli,et al.Unified multi-criteria Chinese word segmentation with BERT[EB/OL].(2020-04-13).https://arxiv.org/abs/2004.05808.
[16]Tian Yuanhe,Song Yan,Xia Fei,et al.Improving Chinese word segmentation with wordhood memory networks[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics.2020:8274-8285.
[17]Miller A,Fisch A,Dodge J,et al.Key-value memory networks for directly reading documents[C]//Proc of Conference on Empirical Methods in Natural Language Processing.2016:1400-1409.
[18]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]// Advances in Neural Information Processing Systems.2017:5998-6008.
[19]Zhang Yuan,Chen Hongshen,Zhao Yihong,et al.Learning tag dependencies for sequence tagging[C]//Proc of International Joint Conference on Artificial Intelligence.2018:4581-4587.
[20]Vaswani A,Bisk Y,Sagae K,et al.Supertagging with LSTMs[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.2016:232-237.
[21]Feng Haodi,Chen Kang,Deng Xiaotie,et al.Accessor variety criteria for Chinese word extraction[J].Computational Linguistics,2004,30(1):75-93.
[22]Gan Leilei,Zhang Yue.Investigating self-attention network for Chinese word segmentation[J].IEEE Trans on Audio,Speech,and Language Processing,2020,28:2933-2941.
[23]Duan Sufeng,Zhao Hai.Attention is all you need for Chinese word segmentation[C]//Proc of Conference on Empirical Methods in Natural Language Processing.2019:3862-3872.
[24]Nguyen D V,Vo L B,Thin D V,et al.Span labeling approach for Vietnamese and Chinese word segmentation[C]//Proc of Pacific Rim International Conference on Artificial Intelligence.Berlin:Springer,2021:244-258.
[25]Qiu Xipeng,Pei Hengzhi,Yan Hang,et al.A concise model for multi-criteria Chinese word segmentation with transformer encoder[C]//Proc of Findings of the Association for Computational Linguistics.2020:2887-2897.
[26]Chen Xinchi,Shi Zhan,Qiu Xipeng,et al.Adversarial multi-criteria learning for Chinese word segmentation[C]//Proc of the 55th Annual Meeting of the Association for Computational Linguistics.2017:1193-1203.
[27]Gong Jingjing,Chen Xinchi,Gui Tao,et al.Switch-LSTM for multi-criteria Chinese word segmentation[C]//Proc of AAAI Conference on Artificial Intelligence.2019:6457-6464.
[28]Yang Jie,Zhang Yue,Liang Shuailong.Subword encoding in lattice LSTM for Chinese word segmentation[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics.2018:2720-2725.