于墨 趙鐵軍



摘 要:具有結構化輸出的學習任務(結構化學習)在自然語言處理領域廣泛存在。近年來研究人員們從理論上證明了數據標記的噪聲對于結構化學習的巨大影響,因此為適應結構化學習任務的去噪算法提出了需求。受到近年來表示學習發展的啟發,本文提出將自然語言的子結構低維表示引入結構化學習任務的樣本去噪算法中。這一新的去噪算法通過n元詞組的表示為序列標注問題中每個節點尋找近鄰,并根據節點標記與其近鄰標記的一致性實現去噪。本文在命名實體識別和詞性標注任務的跨語言映射上對上述去噪方法進行了驗證,證明了這一方法的有效性。
關鍵詞:表示學習;半監督學習;去噪算法;自然語言處理;跨語言映射
中圖分類號:TP181 文獻標識號:A 文章編號:2095-2163(2015)06-
Noise Removing based on N-gram Representations and its Applications to Cross-Lingual Projection
YU Mo, ZHAO Tiejun
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)
Abstract: Problems with structured predictions (structured learning) widely exist in natural language processing. Recent research found that compared to classification problems, structured learning problems were affected more seriously by label noises, suggesting the importance of noise removing algorithms for these problems. Inspired by the development of representation learning methods, the paper proposes a noise-removing algorithm for structured learning based on low-dimensional representations of sub-structures. The algorithm finds neighbors of each node in a sequential labeling task based on its associated n-gram representation, and then performs noise removing on the label of a node according to its consistency with the labels of its neighbors. Therefore the paper proves the effectiveness of the proposed algorithm on the cross-lingual projection of named entity recognition and POS tagging tasks.
Keywords: Representation Learning; Semi-supervised Learning; Noise Removing; Natural Language Processing; Cross-lingual Projection
0引 言
很多自然語言處理(NLP)技術依賴于有監督學習方法訓練的模型,而有監督學習方法的性能不僅依賴于標記樣本的數量,也依賴于標記樣本的質量。當標記樣本中發生了錯誤,即標記存在著噪聲時,學習得到的分類器的推廣能力會受到影響(相應的理論分析被稱為噪聲可學習性理論,見文獻[1-2])。由于具有結構化輸出的學習任務(結構化學習)在NLP領域的廣泛存在性和重要性,于墨等人[3]將上述噪聲可學習性理論推廣到結構化學習問題中,證明了對同樣的噪聲率,學習的難度隨結構的復雜性的增加而有所提升。這一理論分析結果說明了當NLP的結構化學習任務包含噪聲時,一個好的去噪算法對模型性能的改進完善極為重要。
綜合上述原因,本文以序列標注任務為例,提出了一種針對自然語言結構化學習問題的去噪方法。這一方法采用了基于最近鄰樣本的去噪策略,即假設相似的樣本應該具有相似的標記,從而當一個樣本的標記與其最相似的幾個樣本標記存在沖突時,便認為這個樣本的標記存在著噪聲,并可以根據其近鄰樣本的標記(或這些樣本標記的多數投票)去對錯誤樣本的標記進行修正。上述去噪算法的核心在于樣本相似性的定義,在自然語言的序列標注問題中,重點關注了序列中每個節點(即詞)的標記信息,從而每個詞被看作是一個樣本。然而由于詞的歧義性和用法的多樣性,僅使用詞本身并不足以描述該詞在序列中起到的作用并得出詞的標記信息。因此,在序列標注問題中,研究人員往往同時使用一個詞本身及其上下文詞去描述該詞的作用。這一思想啟發本研究也可使用同樣的上下文信息去定義樣本的相似性。
本文提出了一種用于描述詞及其上下文的n元詞組的表示。這里“表示”指的是一種將n元詞組映射到某個低維向量空間的方法。在自然語言處理中,表示學習方法往往用于將某些語言成分或特征通過維度約減而映射到低維向量。比如詞聚類[4]和詞嵌入[5]分別通過將詞分配到一些離散聚類中,或者將詞表示為低維的連續向量,實現了對于詞匯信息的降維。這樣的低維表示常常被用作有監督訓練模型的輸入特征,從而避免模型具有過多參數而過擬合訓練集樣本。而在本文中,具體是從另一個角度應用上述低維表示,即通過這些表示為原本稀疏的n元詞組之間建立關系,并以此作為去噪算法的相似性度量。本文在NLP領域首次嘗試將表示學習的成果應用于去噪算法,并在序列標注問題的跨語言映射上取得了巨大的成功。同時據已有研究成果所知,本文也首次在NLP領域將去噪算法引入結構化學習任務。
在本文的第一節,我們將對基于n元詞組表示的去噪方法進行描述。本文的第二節將介紹實驗部分,即跨語言映射問題的實驗設置。第三節給出本文去噪算法的實驗結果。最后在第四節中,則是對本文工作進行總結并進一步討論未來的研究方向。
1基于n元詞組表示的去噪方法
1.1序列標注問題
本文主要關注噪聲對序列標注問題的影響。這里序列標注問題可以被形式化定義為給定一個輸入序列X={xi},目標為輸出標記序列Y={yi}的技術實現過程描述。其中xi和yi形成了一一對應。自然語言處理中的一個經典序列標注問題為詞性標注研究,此時每個xi是句子中的一個單詞,而yi是這個單詞的詞性,如名詞、動詞等。圖1給出了使用條件隨機場(CRF)[6]對上述序列標注問題建模的一個示意。該情形的任務目標是為P(Y|X)建模。我們將該模型稱為1階模型,因為模型只考慮相鄰兩個標記yi-1 yi的條件依賴。
1.2基于布朗聚類的n元詞組表示
本文所提出的n元詞組表示方法以詞表示作為基礎,本節中使用詞表示的一種特例——布朗聚類完成這一任務。布朗聚類[4]是一種層次化的聚類算法,該算法的目標是最大化基于詞聚類的二元詞組之間的互信息。布朗聚類在大量的自然語言處理任務中均已得到了成功的應用,如命名實體識別[7],短語結構文法分析[8],依存句法分析[9]以及語義依存分析[10]。
1.3基于n元詞組表示的去噪算法描述
已有研究的理論分析[3]說明在結構化學習問題中,類別噪聲對于分類器訓練的影響會由于類別在結構中的相互依賴而放大。而在很多自然語言處理任務中,標注都會存在一定的噪聲。圖2給出了一個跨語言映射[11]的實例。這是一個命名實體識別任務,即判斷句子中某個詞或詞組是否為人名、地名、機構名等實體。在該例子中,源語言句子的標注會根據詞對齊結果被映射到目標語言端,從而在目標語言端構建了一個自動標注數據樣例。這些自動標注數據可以隨后應用在目標語言端來進行命名實體識別模型訓練。同時,在這個例子中,目標語言(漢語)端的“吳儀”一詞因為詞對齊的錯誤,沒有被標記為命名實體,為此而成為了訓練噪聲。由于詞對齊錯誤的大量存在,通過跨語言映射方法建立的目標語言訓練數據必將會存在大量的噪聲。
為了降低數據中的噪聲從而使得訓練得到的模型更加精確,本節提出了一個基于表示學習的去噪方法。該方法的基本假設是相似的詞應該具有相同的類別標記,這就使得當一個詞與其絕大部分近鄰標記均為不同時,研究則認為該詞標記錯誤,并將對應標記更改為其相近詞的標記。
該方法的一個極端情況是對相同的詞賦予相同的類別。然而數據噪聲往往并非獨立同分布,而是具有某些偏置(bias)。比如圖2所示的噪聲來自于詞對齊算法的系統錯誤,導致在語料中,低頻詞“吳儀”的大部分出現都對應著詞對齊錯誤。此時基于詞本身去噪并不能解決這一問題。而詞表示則可以給出具體解決辦法:對于上述例子,可以觀察到“吳儀”,“朱镕基”和“羅干”由于總是在相似的上下文中出現,而被分配在同一聚類中。如果這個聚類中的詞大部分都是人名,研究則有理由相信“吳儀”一詞的類別應被修改為“PER”。
另一方面,在序列標注任務中,一個詞的類別標記往往并不僅僅取決于詞自身,同時也取決于詞的上下文。因此,為了更精確地進行去噪操作,即可考慮以n元詞組取代詞作為一個樣本,從而相似的n元詞組的中心詞將會對應著相同的類別標記。在此設置下,最精確的去噪方式是使用n元詞組自身作為相似度度量,從而與上一段中的描述得到了類似推論:相同的n元詞組應該具有相同的標記。然而這一方法也同樣存在著問題:相比詞本身,n元詞組往往更加稀疏,因此從有限的數據樣本中可能難以獲得充分的統計信息去確定“一個n元詞組大部分情況下具有何種標記”。而上一節中的n元詞組表示卻恰好能夠為這樣的稀疏數據進行平滑,從而使得去噪過程更加準確。
2實驗設置
2.1實驗數據
本文以跨語言映射問題為例,對本文提出的去噪方法進行測試。實驗中以英語作為資源豐富型語言,用漢語、荷蘭語和西班牙語模擬資源缺乏型語言。上述數據選擇即為研究提供了兩種不同的應用環境:對于英語到漢語的映射任務,源語言和目標語言屬于兩個不同語系,從而具有較大差異;而歐洲語言對則相較而言會更為接近。本文隨即在英-漢語言對上進行了命名實體識別(NER)和詞性標注(POS)的跨語言映射。為了評價英語到漢語的NER的任務準確率,選擇使用了人民日報語料四月份部分(1998年)作為測試集(55 177個句子)。,并且將該數據的分詞標準轉化成賓州中文樹庫[12]的風格。對于英語到荷蘭語/西班牙語的任務,則使用了CoNLL 2002[13]任務所提供的標準數據劃分。為了評價POS任務的準確率,主要使用了CTB的標準測試集,并將英漢詞性標注類別都轉換為通用詞性集合[14]。
在本實驗中,使用了布朗聚類作為詞表示。具體就是通過使用[15]一文中提出的工具,在中文維基百科語料上訓練得到1 000類的布朗聚類。在此基礎上,則使用斯坦福分詞器[16]對中文維基語料進行分詞。對于荷蘭語和西班牙語的布朗聚類,特別優化使用了OpenNLP工具獲得這些語言維基百科語料的標記化文本,再使用與漢語相同的方法訓練1 000類的布朗聚類。
實驗中,使用了LDC2003E14語料作為英-漢雙語對齊語料。該語料包含了大約200,000個對齊句對。需要說明的是目前存在著豐富的大規模中英對齊語料,本文選擇該數據的原因是其規模適中,因此在其他語言對上也很容易收集到相似規模的對齊語料。這使得本文得出的結論在現實應用中更具有一般性。對于英語到荷蘭語和西班牙語的映射任務,有針對性地使用了Europarl語料[17]。同樣地,只為研究選取了這兩個對齊語料的前200 000個對齊句對。Europara語料提供了英語到西班牙語的詞對齊。對于其他語言對,則將使用GIZA++[18]產生詞對齊。
2.2基線系統
實驗中比較了三種基線系統,第一個系統來自于文獻[19],在該方法中,源語言端訓練出的布朗聚類根據詞對齊被映射到目標語言端,從而為目標語言的每個詞分配詞聚類。在此基礎上,還可以在同一個特征空間內表示源語言和目標語言樣本,因此用源語言語料在該特征空間上訓練得到的模型可以直接應用于目標語言。本文將這種方法稱為直接映射方法。實驗的第二個系統來自于對[11]一文的直接應用,在該方法中,利用源語言端的一個高質量的模型[20]來標記對齊語料中的源語言句子,并根據詞對齊將標記結果傳播到目標語言句子上,然后在目標語言端重新訓練模型。在實現過程中,采用[21]一文提出的方法,只使用一對一詞對齊進行映射,這一處理也使得映射后得到的數據質量更高(見文獻[21]中的分析)。本文將上述方法稱為基于詞對齊的映射方法。實驗的第三個系統基于第二種方法,同時使用了文獻[22]提出的詞表示復合特征,該方法被記為基于詞對齊的映射方法+詞表示。
在上述模型訓練過程中,研究使用了表1中的特征模板(來自文獻[22])。表中,w0代表當前詞,p0代表當前詞的詞性,c0代表當前詞的詞聚類(其中使用上一節中的布朗聚類),y0為當前詞的標記,wi代表相對當前詞位置為i的詞,w[1:i]代表詞w的長度為i的前綴,w[-i:-1]代表詞w的長度為i的后綴。Hyp和Cap是指示函數,分別表示當前詞是否包含連字符,以及當前詞第一個字母是否大寫。對于漢語的實驗,這里忽略了表中的形態學特征。
為了證明本文所提出的方法對于多種不同的NLP任務都能起到作用,又設計給出了英語到漢語的詞性標注映射結果。在這一任務中,明確使用了與NER任務相同的特征模板。表4給出了該任務上的結果。通過本文提出的基于n元詞組去噪方法的幫助,相比最好的基線系統,最終得到了大約2.7個百分點的提升。而且,在這一任務上,基于n元詞組表示的去噪方法相比在NER任務上起到了更加重要的作用:加入詞表示特征(3)相比系統(2)帶來了1.5個百分點的提升,而本文的去噪方法在此基礎上又取得了2.7個百分點的提升(相較之下前面的任務中詞表示特征提升幅度更大)。一個可能的原因是本文的去噪方法在實際上就假設了每個樣本標記均為詞級別的?,F實中,這一假設對于詞性標注是合理的,然而對于NER任務卻并不完全適用。
4結束語
本文提出了基于n元詞組表示的訓練數據去噪方法。其中的n元詞組表示可以有效地描述詞的上下文信息,從而更好地幫助獲取每個訓練樣本在標記數據中的近鄰,并考察訓練樣本標記的一致性。在多個跨語言映射任務上的實驗結果證明這一去噪方法可以大幅地提升訓練結果的準確率。在未來,則將考慮使用如詞嵌入等連續表示,同時結合流形學習的方法進行更加精確的去噪。同時我們將研究其它子結構的表示方法(如遞歸神經網絡[23]),并將其應用于更復雜結構學習問題的去噪算法中。
參考文獻:
[1] ANGLUIN D, LAIRD P. Learning from noisy examples[J]. Machine Learning, 1988, 2(4): 343–370.
[2] Laird P D. Learning from good and bad data[M]. Berlin: Springer Science & Business Media, 2012.
[3] 于墨, 趙鐵軍, 胡鵬龍, et al. 結構化學習的噪聲可學習性分析及其應用[J]. 軟件學報, 2013, 24(10): 2340–2353.
[4] BROWN P F, DESOUZA P V, MERCER R L, et al. Class-based n-gram models of natural language[J]. Computational linguistics, 1992, 18(4): 467–479.
[5] Bengio Y, Schwenk H, Sene ?cal J S, et al. Neural probabilistic language models[M]. Berlin: Springer, 2006: 137–186.
[6] LAFFERTY J, MCCALLUM A, PEREIRA F C. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]// ICML 2001. San Francisco: IMLS, 2001: 282-289
[7] MILLER S, GUINNESS J, ZAMANIAN A. Name tagging with word clusters and discriminative training[C]// NAACL 2004. Boston, Massachusetts: ACL,2004: 337-342.
[8] CANDITO M, CRABBE B. Improving generative statistical parsing with semi-supervised word clustering[C]// IWPT. 2009, [S.l.] ACL,2009: 138-141.
[9] KOO T, CARRERAS X, COLLINS M. Simple Semi-supervised Dependency Parsing[C]// Proceedings of ACL-08: HLT. Columbus, Ohio: ACL, 2008: 595–603
[10] ZHAO H, CHEN W, KIT C, et al. Multilingual dependency learning: a huge feature engineering method to semantic dependency parsing[C]// CoNLL 2009, Boulder, Colorado: ACL,2009: 55-60.
[11] YAROWSKY D, NGAI G, WICENTOWSKI R. Inducing multilingual text analysis tools via robust projection across aligned corpora[C]// HLT 2001, [S.l.]: ACL,2001: 1–8.
[12] XUE N, XIA F, CHIOU F, et al. The eenn Chinese treebank: Phrase structure annotation of a large corpus[J]. Natural Language Engineering, 2005, 11(2): 207.
[13] TJONG K S E. Introduction to the CoNLL-2002 shared task: Language-independent named entity recognition[C]//CoNLL 2002, Taipei, Taiwan: ACL, 2002: 155–158.
[14] PETROV S, DAS D, MCDONALD R. A universal part-of-speech tagset[J]. arXiv preprint arXiv:1104.2086, 2011.
[15] Liang P. Semi-supervised learning for natural language[D]. Massachusetts Institute of Technology, 2005.
[16] TSENG H, CHANG P, ANDREW G, et al. A conditional random field word segmenter for sighan bakeoff 2005[C]//SIGHAN 2005, [S.l.]: ACL,2005: 171.
[17] KOEHN P. Europarl: A parallel corpus for statistical machine translation[C]//MT summit. 2005, Phuket, Thailand: Citeseer,2005: 79–86.
[18] OCH F J, NEY H. A systematic comparison of various statistical alignment models[J]. Computational linguistics, 2003, 29(1): 19–51.
[19] T?CKSTR?M O, MCDONALD R, USZKOREIT J. Cross-lingual word clusters for direct transfer of linguistic structure[C]// NAACL 2012. Montréal, Canada: ACL,2012: 477-487.
[20] MANNING C D, SURDEANU M, BAUER J, et al. The Stanford CoreNLP Natural Language Processing Toolkit[C]// ACL 2014 (System Demonstrations). Baltimore, Maryland: ACL,2014: 55-60.
[21] HU P, YU M, LI J, et al. Semi-supervised Learning Framework for Cross-Lingual Projection[C]// WI-IAT 2011, Lyon, France: IEEE: 2011(3): 213–216.
[22] YU M, ZHAO T, DONG D, et al. Compound Embedding Features for Semi-supervised Learning[C]// NAACL 2013. Atlanta, Georgia: ACL,2013: 563-568.
[23] SOCHER R, BAUER J, MANNING C D, et al. Parsing with compositional vector grammars[C]// ACL 2013. Sofia, Bulgaria: ACL,2013: 455-465.