塞麥提·麥麥提敏,吐爾根·伊布拉音
(新疆大學,烏魯木齊 830046)
機器翻譯、跨語言信息檢索等自然信息處理系統都需要雙語語料庫等大數據資源。在建立大型雙語語料庫中,自動句子對齊和句子長度相似度計算是重要的技術之一。自動句子對齊的方法基本上可分為三類,即基于長度的方法[1-3]、基于詞匯的方法[4-5]和混合的方法[6-7]。其中,Brown(1991)和 Gale(1993)等的基于長度的句子對齊方法最有名。該方法分別采用以單詞或字符作為句子長度計算單位,對Hansard語料庫進行英法句子的對齊試驗。其研究結果顯示,長度計算單位不同,句子對齊算法的準確率有差異。
在漢維句子對齊研究方面,畢雪華[8]、牛洪梅[9]和熱西旦[10]等先后做了實驗性探索。他們的基于長度的句子對齊算法都以字符作為漢維句子長度的計算單位。將字符作為長度單位進行句子對齊是拼音文字之間可以采取的方法。維文是拼音文字,漢文則不是拼音文字,漢文字符和維文字符屬于不同層面的語言單位,其功能和特點完全不同。以字符作為句子長度單位的方法可能不太適合于漢維語的特點。因此,基于多種長度單位的漢維句子對齊算法都值得嘗試。
本文對漢語字符、漢語漢字、維語單詞、維語字符等句子長度單位的4種組合進行統計與實驗分析,以便確定漢維句子長度計算的最佳單位,為計算漢維雙語句子對齊的概率提供可靠的依據,最終提高漢維句子對齊的效率。
基于長度的句子對齊算法可利用簡單的統計模型,是因為原文和譯文的長度滿足一定的比例關系,即原句子越長譯文越長,反之亦然?;谶@種考慮,句子對齊問題變成利用原文和譯文句子的長度關系,求解每一對雙語句子的互譯概率的問題。因此,在基于長度的對齊方法中,首先對已對齊的語料進行訓練,獲取概率參數,然后給每個句對分配一個概率得分,用此得分進行動態規劃,以找到最大可能的句子對齊。
于是,得到基于長度的句子對齊模型如下:

式(1)中,L(AiS)和 L(AiT)分別表示原文句子 AiS和譯文句子AiT的長度。
該對齊模型的關鍵在于求解概率:

而根據概率學中的條件概率公式有:

式(2)中,由于對于任意的 AiS、AiT、Prob(L(AiS),L(AiT))都可以認為是一個常數,因此在進行概率計算時可以略去該常數。Prob(AiSóAiT)表示不考慮長度條件下AiS和AiT互為翻譯的概率,該概率可以用雙語句子的對齊模式概率來估計。
通過這些方法確定Prob(A|S,T)的值以后,通過概率學原理可求得概率 Prob(L(AiS),L(AiT)|AiSóAiT)。
然后,采用動態規劃算法,通過計算兩個片段的最小距離的辦法確定句子對齊情況。動態規劃算法可總結為下面的遞歸等式:

其中,si,tj(i=1,2,…i;j=1,2,…,j)分別為兩個文本中的句子,算法開始時 D(i,j)=0。
句子長度計算單位的確定是基于長度的句子對齊算法首要解決的問題。計算單位不同,雙語句子之間的長度關系的概率不同。對于漢語和維語而言,句子長度的計算單位不像印歐語系語言那么容易確定。漢語句子長度的計算單位有單詞、純漢字(不包括標點符號等)、字符,維語句子長度的計算單位有單詞和字符(字母)等。理論上,漢語和維語句子的長度關系有以下六種組合:①漢語單詞/維語單詞②漢語單詞/維文字符③漢語漢字/維語單詞④漢語漢字/維語字符⑤漢語字符/維語單詞⑥漢語字符/維文字符。其中,①③⑤⑥比較適合于漢維語的特點,也有一定的比較性。因此,本文只對這4種組合進行相關的統計與分析。
本文訓練語料是新疆大學的“漢維雙語平行語料庫”。該語料庫一共收集550個樣本語料,總規模為4809873字(詞),其中漢文部分3174122漢字,維文部分1635751詞。按句子總數計算,一共216200句子,其中漢文句子105845,維文句子110355,句子對齊后的句對總數為100742。該語料庫包括文學、法律、公文、學術、新聞、日常會話等六種語體的雙語語料。
為了比較不同句子長度計算單位,對上述訓練語料的漢維句子長度及其相關性進行統計,獲得基于不同長度單位的句子長度相關系數和分布圖。通過統計發現,較長的漢語句子趨向于翻譯成較長的維語句子,而較短的漢語句子則趨向于翻譯成較短的維語句子。但是,計算單位不同,漢維句子的長度關系的相關性和分布不同。
圖1是以漢語單詞和維語單詞作為長度計算單位的句子長度分布圖。

圖1 子長度分布圖(漢語單詞/維語單詞)
根據圖1,以單詞作為句子長度單位時,漢維句子長度關系不太穩定,相關系數R的平方值也較小。
圖2是以漢語字數和維語詞數作為長度計算單位的句子長度分布圖。

圖2 子長度分布圖(漢語漢字/維語單詞)
圖3是以漢語字符數和維語詞數作為長度計算單位的句子長度分布圖。
根據圖2和圖3,與以漢字作為長度單位的分布比較,以漢語字符作為長度單位的分布相對集中,其句子關系相對穩定。排除標點符號、數字等非漢字字符的方法降低了句子長度關系的穩定性。

圖3 子長度分布圖(漢語字符/維語單詞)
圖4是以漢語字符數和維語字符數作為長度計算單位的句子長度分布圖。

圖4 長度分布圖(漢語字符/維語字符)
從圖1-4可以看出,漢維句子長度的分布具有一定的規律性。以漢語詞語和維語詞語(圖1)或漢語漢子和維語詞語作為長度單位(圖2)時,漢維句子長度的分布相對稀疏。以漢語字符數和維語詞數為長度單位(圖3)時,漢維句子的長度關系更為穩定。以漢語字符數和維語字符數作為長度單位(圖4)時,的分布相對集中,其相關系數接近于第三種組合(圖3),但是漢維句子長度比值較大時,對句子長度的變化不太敏感。
根據句子長度分布圖,可以初步判斷,在漢維句子對齊中不宜同時采用詞數(或字符數)作為句子長度的計算單位,而采用漢文字符數和維文單詞作為句子長度單位是比較合適的。當然,這一假設需要通過實驗驗證。
基于長度的對齊模型的第一個條件是式(2)中評價函數 Prob(L(AiS),L(AiT))滿足標準正態分布時,該模型才可以獲得較高的準確率。本文對訓練語料進行統計,得到漢維句子長度比例的數學期望值c和方差S2的參數值。c是通過計算漢維句子長度比值的平均值得到,S2是通過計算(Lc-Lu*c)2Lu的平均值得到。其中,Lc為漢語句子長度,Lu為維語句子長度。相關分析結果表明,句子長度隨機變量的分布情況相當接近于以c和S2為參數的正態分布?;诓煌渥娱L度實驗參數統計如表1所示。

表1 實驗參數值
根據表1,在漢維對齊的語料中,約1個漢語單詞對應0.96個維語單詞;1個漢語字符對應4.06個維語字符;1.76個漢字對應1個維語單詞;1.97個漢語字符對應1個維語單詞。
基于長度的對齊模型的第二個必要條件是:漢維句子長度滿足一定的比例關系。如表1所示,無論采用什么樣的計算單位,漢語和維語句子在長度方面高度相關(相關系數都大于0.9)。其中,以漢語字符和維語單詞為計算單位時,相關系數更接近于1。相關系數R可用以下公式計算:

式(4)中,x和y分別表示漢維句子的長度。
此外,句子對齊模型還需計算式(2)中的Prob(AiSóAiT)(句子對齊模式的概率),本文對訓練語料進行統計獲得的對齊模式的概率如表2所示:

表2 對齊模式的概率統計
為了比較不同計算單位對句子對齊的影響,進一步驗證上述假設,從新疆大學“漢維雙語平行語料庫”中,隨機抽取分別屬于文學、法律、公文、學術、新聞等5種語體的10個樣本(一共1482句對)作為測試語料。分別采用不同的長度計算單位,進行基于長度的句子對齊實驗。實驗評價標準如下:

實驗結果如表3所示:

表3 句子對齊實驗結果
根據實驗結果,句子長度計算單位不同,句子對齊的準確率和召回率都有差異。其中,以漢語字符和維語單詞作為長度計算單位時,句子對齊的準確率和召回率高于其他三種方法,分別達到94%和93.6%。文獻[13]的實驗結果也顯示,選用這種長度計算單位時,利用錨點等多種信息的混合句子對齊的準確率提高了2.7%。
通過分析實驗結果,可得出以下結論:
(1)以漢語單詞作為長度計算單位進行句子對齊,準確率比較低。這主要是因為漢語句子進行分詞才能計算句子長度,分詞的復雜性,往往導致較大誤差。此外,句子內的單詞數相對于字符數較少,容易出現數據的稀疏。一旦句子詞數的計算發生誤差,便會造成句子長度比值的較大幅度改變,從而導致后續句子對齊的錯誤。
(2)將字符作為句子長度的計算單位是拼音文字之間可以采取的方法,可是在計算漢維句子長度時,顯然是不可取的。因為,維文是拼音文字,漢文則不是拼音文字。漢文字符和維文字符在功能和特點上很不一樣,屬于不同層面的語言單位。因此,以字符作為句子長度單位不太適合于漢維這兩種文字的特點。
(3)根據上述統計和實驗結果,互譯的句子中漢語字符數和維文詞數具有高度相關性,句子長度比值更近似于正態分布,漢語字符和維文詞語的功能基本相同。因此,漢文字符和維文單詞是漢維句子對齊的最佳長度計算單位。
傳統的基于長度的漢維句子對齊算法大都以字符作為句子長度的計算單位。本文分別對句子長度計算的4種不同方法進行統計分析,根據實驗結果,漢維句子對齊的最佳長度計算單位是漢語字符和維語單詞,其準確率和召回率都高于其他方法。因此,在句子對齊中,以漢語字符和維語單詞作為長度計算單位是正確的選擇。