陳 歡 張 奇
(復旦大學計算機科學技術學院 上海 210000)
?
基于話題翻譯模型的雙語文本糾錯
陳歡張奇
(復旦大學計算機科學技術學院上海 210000)
近年來,隨著信息全球化的影響,社交網絡文本上的多語言混合現象越來越普遍。許多中文文本中混雜著其他語言的情況已很常見。絕大多數現有的自然語言處理算法都是基于單一語言的,并不能很好地處理多語言混合的文本,因此在進行其他自然語言處理任務之前對文本進行預處理顯得尤為重要。面對網絡文本語義空間雙語對齊語料的匱乏,提出一種基于話題翻譯模型的方法,利用不同語義空間的語料計算網絡文本語義空間的雙語對齊概率,再結合神經網絡語言模型將網絡混合文本中的英文翻譯成對應中文。實驗在人工標注的測試語料上進行,實驗結果表明,通過不同的對比試驗證明文中的方法是有效的,能提升翻譯正確率。
網絡文本話題翻譯模型神經網絡語言模型
隨著近年來網絡的飛速發展,越來越多的人加入到了社交網絡中。與此同時,信息的國界性變得不明顯,人們可能會使用各國語言發表評論,最為常見的就是文本中混雜英文的情況。近年來國內較為活躍的社交網絡就有新浪微博、微信朋友圈和人人網等,其中每天都會產生大量的文本,由于參與人群主要是年輕人,導致這些文本中包含很多非規范用語,中英文混合就是其中一個重要現象。
新浪微博是目前國內最活躍的社交媒體之一,通過對兩億余條微博的分析,我們發現有15%以上的微博包含至少一個英文單詞,這些英文單詞可能是單個字母,某個英文單詞,拼音組合等。例如:“小王這人真nice”(小王這人真好)。人們在微博中會將某個中文單詞按照另一種形式來表達,對于他們的閱讀受眾,并不會造成很大理解上的影響。
而現有的許多自然語言處理算法例如:分詞、句法解析、情感挖掘等都是基于單一語言的,并不能很好地處理多語言混合的情況。與此同時,這種非規范的網絡文本缺乏標注的對齊語料,許多自然語言處理任務的效率都受到了影響。因此在網絡文本上進行自然語言處理工作之前,對文本進行預處理顯得尤為重要。經過預處理工作將非規范文本轉換成規范的單一語言的規范文本,會極大地方便接下來的工作。
文本糾錯任務主要分為三步來完成。
第一步識別出需要糾錯的詞。本文中將著眼于網絡文本中混雜的英文單詞,對于拼音和一些可能的拼寫錯誤暫不考慮,我們通過簡單的字典匹配來識別需要處理的英文。
第二步產生每個非規范詞的替換詞列表。鑒于網絡文本的雙語對齊語料的缺乏,本文考慮利用其他語義空間(例如新聞語料)的雙語對齊語料統計出對齊概率表,再根據不同語義空間的映射來產生網絡語義空間的雙語對齊概率表。
第三步挑選出最合適的替換詞對非規范詞進行替換。本文中利用神經網絡語言模型,對第二步中產生的候選詞列表進行重新排序,最終排序代表了候選詞替換的概率。
Zhang等[10]首先提出了一種結合翻譯模型與語言模型來解決社交網絡語義空間中英文混合文本的翻譯方法。使用了GIZA++在非網絡語義空間生成中英文單詞對齊概率表,再結合神經網絡語言模型的訓練,對候選詞進行重新排序。本文中將在該方法的基礎上進行改進。
本文的主要研究內容包括:① 將中英文混合網絡文本糾錯工作看作是翻譯問題,通過話題翻譯模型和神經網絡語言模型的整合產生合適的替換詞。② 利用網絡語義空間外的訓練語料產生詞對齊列表,再將該語義空間映射到網絡語義空間,這樣就解決了網絡文本訓練語料缺乏的問題。③ 神經網絡語言模型的結合能有效利用網絡文本上下文信息,對替換詞列表就行重新排序。④ 所有訓練語料和測試語料均通過網絡爬取,并針對測試語料進行了人工標注。
隨著用戶生成文本的日益增多,國內外有許多文本糾錯方面的研究。Aw等[1]將文本糾錯工作看作是非規范英文到規范英文的翻譯工作,通過對于短信息文本的研究,提出了一種短語級別翻譯的方法來完成此工作。Kobus等[2]研究了法文短信息的字詞正確拼寫方法,提出了一種基于機器翻譯的方法,結合了不確定音素來實現文本糾錯。Han等[3]利用了一種有監督的方式來檢測費規范詞并利用音位形態上的相似性來生成正確的規范詞,再根據非規范詞和規范詞的相似度以及上下文信息來重新排序候選詞對。Liu等[4]提出了一種整合的糾錯系統,通過設置一系列字母轉換的模式并結合字母轉換、可視化刺激和字符相似度來進行文本糾錯。Han等[5]介紹了一種基于字典的方法,鑒于規范詞與非規范詞更多出現在相同的上下文中,自動構建出了一個規范化字典。Wang[6]等設計了一個定向搜索解碼器來解決缺失詞復原、標點糾錯、單詞糾錯和分割的問題。
以上這些方法在非規范文本糾錯方面達到了很好的效果,但這些工作都是著眼于單一語言的文本,因此中英文混合的情況在這里并不適用。
文本糾錯的工作可以看作是機器翻譯的工作,文本中混雜的非規范詞看作是源文本,其對應的規范詞看作是目標文本。對于相同語義空間的文本來說,很容易訓練出一個翻譯模型來解決文本糾錯的問題。但是由于社交網絡訓練語料的匱乏,而其它語義空間雙語對齊語料相比很容易獲得。最好的方法是能夠利用其它語義空間的雙語對齊語料,進行一些調整來適應網絡文本語義空間。Liu等[7]提出了一種話題翻譯模型,根據其它語義空間的雙語對齊語料和目標語義空間的話題分布進行映射,最終可以得到一個訓練語料充足且適應性強的模型。文中利用了隱藏馬爾可夫話題模型,由Gruber等[9]在2007年提出。該模型將文檔中詞的話題看作一條馬爾可夫鏈,假定相同句子和相鄰句子中的詞應該屬于相同的話題,來計算話題分布。最終可以得到每個話題下產生單詞的概率(單詞|話題)和每個句子屬于某個話題的概率(話題|句子)。
在這個部分將詳細描述如何解決網絡雙語混合文本糾錯的問題。通過對非規范詞發掘、規范詞對生成和規范詞排序三個步驟,將中文網絡文本中混雜的英文單詞轉換成結合了上下文信息最合適的規范替換詞。用下面公式來表示最終糾錯系統:

(1)
式中,c表示中文規范詞,C表示中文詞的字典,p(c)表示單詞的語言模型計算概率,p(c|t)表示句子t下單詞的翻譯概率。
2.1非規范詞發掘
中文網絡文本中包含很多類型的非規范詞。這里我們先通過英文字母的正則匹配從海量微博中挑選出包含英文字母的微博,之后根據標準英漢字典挑選出包含英文單詞的微博。
2.2規范詞對生成
在統計機器翻譯的工作中,詞對齊發揮了很大的作用。參考了Liu等[7]的工作,對于一個源句子,e=e1,…,ei,…,eI,和一個目標句子c=c1,…,cj,…,cJ,將詞對齊處理視為兩個句子單詞位置的笛卡爾積集合:
a?(i,j):i=1,…,I;j=1,…,J
(2)
其中,i和j分別表示詞在句子中的位置。對于雙語對齊語料中的所有單詞。本文通過每個詞的詞對齊來估計該詞的可能翻譯詞。結合了話題信息后,可以這樣定義英文單詞到中文單詞的翻譯概率:

(3)
等式右端第一項表示在給定話題tc下,英文單詞e翻譯成中文單詞c的概率,第二項英文單詞對應的話題分布。根據隱藏話題馬爾可夫模型在非網絡語義空間語料Cout的訓練,我們可以分別再計算特定話題下英文單詞對應中文單詞的分布P(中文|話題,英文)和英文的話題分布P(話題|英文)。因為需要進行不同語義空間的映射,我們還需要在網絡語義空間語料Cin進行話題模型訓練。為了區分,本文將網絡語義空間的話題用tc_in表示,非網絡語義空間的話題用tc_out表示。由于兩個不同語義空間的話題維度可能不同,這里需要再引入網絡文本語義空間話題對應非網絡文本語義空間的概率分布。非網絡文本語義空間的單詞對應話題的分布可以用下面的公式來計算:
(4)
這里可以理解為通過英文單詞在網絡文本空間的分布和不同語義空間的映射得到英文單詞對應非網絡文本空間的話題分布。則式(3)就可以進一步表示為:

(5)
接下來通過對于不同部分的計算來得到英文單詞對應中文單詞的翻譯概率。過濾掉較小的值之后,得到的每個英文單詞對應的翻譯詞表便是可能的候選詞。
首先需要定義在非網絡文本語義空間的特定話題下,英文單詞對應中文單詞的翻譯概率。類似Su等[7]的工作,根據每個句子的話題分布,可以計算出英文詞對應中文詞的條件分布。不同的是因為這里雙語對齊語料的話題空間相同,因此使用中文的話題分布,再利用到了最大似然估計的知識,定義話題相關的翻譯概率為:

(6)
式中,Cout表示非網絡文本語義空間語料集,
接下來要定義不同語義空間的映射概率分布。由于不同語義空間的出現的詞可能不同,這里根據兩個語義空間的公有詞來定義映射概率分布:
(7)
式中,P(c|tc_in)可以直接通過隱藏話題馬爾可夫模型直接得到,可以進一步通過句子對應的話題分布來計算P(tc_out|c):
(8)
式中,countc(c)表示在句子c中單詞c的出現次數。
最后,定義英文單詞對應網絡文本語義空間的話題分布計算方法,類似于之前的最大似然估計方法,按如下公式處理:
(9)

2.3規范詞篩選
為了更好地利用到用戶的歷史信息,這里引入一個用戶相關的神經網絡語言模型。該模型根據一段詞序列和某個用戶發表的句子,來估計當前序列的下一個詞。參考了Huang等[8]的神經網絡語言模型,本文的語言模型結構如圖1所示。

圖1 用戶歷史信息相關的神經網絡語言模型結構
整個神經網絡語言模型由兩個打分的部分組成,即詞序列信息和用戶歷史信息。給定一個詞序列c和用戶歷史信息u,我們的目標是從所有詞中挑選出正確的序列最后一個詞。s(c,u)表示神經網絡的得分函數,由局部序列得分scorel和用戶歷史信息得分scoreu加和得到。c表示當前的序列,cw表示最后一個詞被w替換后的詞序列。要找出比其余分數s(c,u)都高1以上的s(cw,u),可以對于每個語料中的(c,u),求解下列最小化損失目標函數:
(10)
神經網絡中第一個部分詞序列信息可以由以下方式計算。對于詞序列c=w1,w2,…,wn可以用一個詞向量列表x=(x1,x2,…,xn)來表示,xi是第i個詞wi的詞向量,c由每個詞的詞向量連接組成。整個詞向量矩陣E由每個字典中的詞的行向量組成,在訓練過程中將會不斷更新。最終詞序列信息得分scorel由下列公式計算:
a1=f(W1[x1,x2,…,xn]+b1)
(11)
scorel=W2a1+b2
(12)
式中f是激活函數,這里我們使用正切函數tanh,Wn是第n層神經網絡的權重轉移矩陣,bn是第n層的偏移矩陣,由于神經網絡只有一個隱藏層,所以n的取值只有1、2。
接下來需要定義神經網絡中第二個部分用戶歷史信息的計算方式。首先對于一個用戶文檔,計算其加權平均值:
(13)

最后的分數通過詞序列信息分數和用戶歷史信息分數加和得到:
score=scorel+scoreu
(14)
神經網絡訓練過程使用傳統的反向傳播算法,通過訓練可以得到每個詞的詞向量以及神經網絡權重轉移矩陣和偏移矩陣,進而可以對任意句子計算其語言模型分數score。通過語言模型分數和之前翻譯模型分數的乘積,就可以對整個候選詞列表就行重新排序。
由于在中英混合文本糾錯領域還沒有公開的標注數據集用來評測,這里將使用人工抓取并標注的數據用來訓練與測試,我們將與Zhang等[10]的工作進行對比,最后進行結果的分析。
3.1實驗數據
為了使提出的模型有更好的文本糾錯能力, 本文從新浪微博上爬取了2億條微博。從中隨機選取了500條包含英文單詞的中英混合微博,經過人工標注正確答案后作為測試集。同時 從射手網爬取了16 032 145條中英對齊電影字幕語料作為非網絡語義空間的訓練文本。本文使用了FudanNLP作為中文分詞工具,openHTMM作為訓練隱藏馬爾科夫話題模型的工具。
3.2實驗結果與分析
針對中英文混合文本中的英文單詞,話題翻譯模型可以為其生成候選詞列表,再結合神經網絡語言模型分數計算,可以對候選詞列表重新排序。實驗中將分別對第一個,前五個,前十個結果的正確率進行評測。對比試驗設置為使用字典方法與使用GIZA產生概率表的對比和使用n元語言模型與使用神經網絡語言模型的對比,實驗結果如表1所示。

表1 文本糾錯正確率
表中方法部分分別表示翻譯模型-語言模型。D表示基于字典查找的方式尋找翻譯詞,這里產生的翻譯詞沒有翻譯概率,因而將每個候選詞的初始概率設定為統一數值。GIZA表示使用GIZA++工具包產生對齊概率表,HTM為本文中提出的隱藏話題翻譯模型。LM表示n元語言模型,NLM表示本文中提出的神經網絡語言模型。
根據實驗結果表格中的結果可以看出,在不使用翻譯模型結合基本的n元語言模型時,可以對中英文混合文本中的英文詞達到25.2%的翻譯正確率,而使用了神經網絡語言模型后,正確率提升到了27.4%,同時對于前五結果的正確率也有一定的提升。鑒于字典中一般沒有詞超過10個解釋,所以前十結果正確率幾乎相同。在相同翻譯模型下,神經網絡語言模型相比n元語言模型產生了更好的效果,這也說明了我們提出的神經網絡語言模型能更好地在這種用戶相關的語義空間中捕捉上下文信息。使用GIZA++產生翻譯對時,因為涉及到真實世界里的翻譯場景,會生成更多的翻譯詞,并且可能產生一些字典中沒有的網絡釋義,這種釋義更接近微博語義空間中的真實環境,因此在正確率上取得了較大幅度的提升。最后引入的隱藏話題翻譯模型和神經網絡語言模型的結合取得了最高的正確率60.4%,同時在前五、前十結果也取得了最高的正確率72.6%,77.2%,這是因為隱藏話題翻譯模型能更好的結合相同詞在不同語義空間的上下文信息,同時由于系統設置,模型訓練不需要網絡語言空間的雙語對齊語料,使得本文的方法更容易被應用。
本文針對中文社交網絡進行了文本糾錯工作, 對于中英混合的社交文本,我們能夠有效地對混雜的英文進行翻譯,并且結合當前語境產生出合適的翻譯詞進行替換。經過了這一步預處理工作,能極大地方便接下來的后續自然語言處理工作。
我們定義了話題相關的翻譯模型來產生英文詞的翻譯對,這一步能有效利用上下文信息初步生成具有概率值的候選詞列表。再結合用戶歷史信息相關的神經網絡語言模型能最終生成正確的英文詞替換詞。這對于當今爆炸式的信息處理有很大的積極作用。
本文的工作還有很大提升空間,接下來會考慮利用深度學習網絡來挖掘翻譯詞,可能會產生更好的結果。
[1]AwAT,ZhangM,XiaoJ,etal.Aphrase-basedstatisticalmodelforSMStextnormalization[C]//ProceedingsoftheCOLING/ACLonMainconferencepostersessions.AssociationforComputationalLinguistics,2006:33-40.
[2]KobusC,YvonF,DamnatiG.NormalizingSMS:aretwometaphorsbetterthanone?[C]//Proceedingsofthe22ndInternationalConferenceonComputationalLinguistics-Volume1.AssociationforComputationalLinguistics,2008:441-448.
[3]HanB,BaldwinT.Lexicalnormalisationofshorttextmessages:Maknsensa#twitter[C]//Proceedingsofthe49thAnnualMeetingoftheAssociationforComputationalLinguistics:HumanLanguageTechnologies-Volume1.AssociationforComputationalLinguistics,2011:368-378.
[4]LiuF,WengF,JiangX.Abroad-coveragenormalizationsystemforsocialmedialanguage[C]//Proceedingsofthe50thAnnualMeetingoftheAssociationforComputationalLinguistics:LongPapers-Volume1.AssociationforComputationalLinguistics,2012:1035-1044.
[5]HanB,CookP,BaldwinT.Automaticallyconstructinganormalisationdictionaryformicroblogs[C]//Proceedingsofthe2012JointConferenceonEmpiricalMethodsinNaturalLanguageProcessingandComputationalNaturalLanguageLearning.AssociationforComputationalLinguistics,2012:421-432.
[6]WangP,NgHT.Abeam-searchdecoderfornormalizationofsocialmediatextwithapplicationtomachinetranslation[C]//ProceedingsofNAACL-HLT,2013:471-481.
[7]SuJ,WuH,WangH,etal.Translationmodeladaptationforstatisticalmachinetranslationwithmonolingualtopicinformation[C]//Proceedingsofthe50thAnnualMeetingoftheAssociationforComputationalLinguistics:LongPapers-Volume1.AssociationforComputationalLinguistics,2012:459-468.
[8]HuangEH,SocherR,ManningCD,etal.Improvingwordrepresentationsviaglobalcontextandmultiplewordprototypes[C]//Proceedingsofthe50thAnnualMeetingoftheAssociationforComputationalLinguistics:LongPapers-Volume1.AssociationforComputationalLinguistics,2012:873-882.
[9]GruberA,WeissY,Rosen-ZviM.HiddentopicMarkovmodels[C]//InternationalConferenceonArtificialIntelligenceandStatistics,2007:163-170.
[10]ZhangQ,ChenH,HuangX.Chinese-Englishmixedtextnormalization[C]//Proceedingsofthe7thACMinternationalconferenceonWebsearchanddatamining.ACM,2014:433-442.
TOPICSTRANSLATIONMODEL-BASEDBILINGUALTEXTERRORSCORRECTION
ChenHuanZhangQi
(School of Computer Science,Fudan University,Shanghai 210000,China)
Alongwiththeglobalisationofinformationinrecentyears,multilingualmixingphenomenahavebecomeincreasinglypopularinsocialnetworkstexts.ItisquitecommoninChinesetextsthatotherlanguagesaremixed.Sincemostoftheexistingnaturallanguageprocessingalgorithmisthemonolingualtask-based,themultilingualmixedtextcan’tbewellprocessed,thereforeitiscrucialtopre-processthetextbeforecarryingoutothernaturallanguageprocessingtasks.Forthelackofthecorpusofbilingualalignmentinnetworktextsemanticspace,weproposedatopicstranslationmodel-basedmethod,itcalculatestheprobabilityofbilingualalignmentofnetworktextsemanticspaceusingthecorpusindifferentsemanticspaces,thenincorporatesneuralnetworklanguagemodeltotranslatetheEnglishinmixednetworktexttocorrespondingChinesetext.Theexperimentwassetonamanuallabelledtestcorpus.Experimentalresultindicatedthatthroughdifferentcomparativeexperimentsitwasprovedthattheproposedapproachwaseffectiveandwasabletoimprovetranslationaccuracy.
NetworktextTopicstranslationmodelNeuralnetworklanguagemodel
2014-06-05。陳歡,碩士,主研領域:自然語言處理,機器學習。張奇,副教授。
TP391
ADOI:10.3969/j.issn.1000-386x.2016.03.067