——以《尼山薩滿》為例"/>
999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?田春燕,徐 毅,解 威,郭淑云(大連民族大學 .外國語學院; .理學院;.東北少數民族研究院,遼寧 大連 116605)
在現代文化及外來文化的強勢沖擊下,少數民族的典籍文化流失嚴重,缺乏人員保護、處于十分瀕危的狀態[1]。薩滿文化是中國東北地區少數民族,尤其是滿族的一種重要民間文化,對其所遺留下來的文化典籍保護和推廣也成了民族文化傳承的重要課題[2]。近年來,一些地方仍然健在的薩滿典籍讓許多國外學者驚羨,然而這些薩滿文化大多是以紙質媒介傳播,因而如何運用現代技術手段傳承與保護薩滿典籍成為當務之急[3-4]。
平行語料庫是原文文本及其平行對應的譯文文本構成的雙語/多語語料庫,它對于眾多跨語言的自然語言處理研究和應用都具有相當高的研究和實用價值。
現在比較流行的少數民族平行語料庫大多是特定語言環境、特定詞匯間的翻譯語料庫,針對少數民族與漢語之間的平行語料庫大多集中在維語、蒙古語、藏族語言與漢語之間的翻譯,這些平行語料庫大多取材于日常用語及某些雜志期刊,很少涉及到民族典籍的翻譯。滿族典籍具有其特有的文化特征,翻譯的效果受文化傳統、風俗習慣等方面影響。大量專業性的雙語語料需要段落對齊、句對齊。滿族典籍由于其語言文字的局限性,很難像英語、漢語按段落、句子做對應的切分。某些對齊的滿族典籍語料,對齊效果也并不理想,這在很大程度上阻礙了滿族典籍翻譯語料庫的研究。
鑒于上述理由,考慮到大連民族大學目前已有多位專家從事東北民族典籍方面的研究,特別是對于《尼山薩滿》的翻譯和研究都已經非常成熟[5-6]。因此在他們的工作基礎之上,筆者及其團隊構建了《尼山薩滿》的多語平行語料庫,本文重點討論該平行語料庫的對齊技術問題。
語料對齊是指將雙語語料中兩個互譯的語料片段建立對應關系,對齊的語料片段可以分為篇章、段落、句子三個級別,研究最多的是段落對齊和句子對齊。
在《尼山薩滿》典籍中,其原文及其漢語譯文的段落基本上遵循一一對應的關系[2]。回車換行符基本都是用作段落分割的標志,通過這種分割可得到基本的段落單體。這種方法實現比較簡單,運行效率比較高,當原文與譯文文本格式比較規范,可以達到預期的對齊效果。但作者在研究過程中發現某些《尼山薩滿》譯本附錄中有些歌謠或者頌詞部分會出現段落不規范的情況;一旦某個段落出現錯誤,后面的段落或句子對齊的正確率會急劇下降。
考慮到本文所選典籍語料《尼山薩滿》是一個關于滿族文化的神話故事,人名貫穿故事始末,同一人名出現的頻率也非常高,《尼山薩滿》中部分人名關鍵字在滿漢典籍中出現的次數統計見表1。因此本文給出了一種基于人名關鍵字的段落對齊方法。首先應用回車符進行自然段的切分,然后利用滿漢雙語文本中人名關鍵字信息進行進一步的分段對齊。

表1 《尼山薩滿》典籍人名關鍵字統計表
具體實現步驟可描述如下,算法的流程圖如圖1。
(1) 首先使用回車符對滿漢互譯語料進行自然分段;
(2) 將步驟1中對齊的自然段落按順序對應起來,根據句子特征確定段落對齊;
(3) 以已對齊的滿漢互譯語料中的段落為單位,按照標點符號為基準劃分為若干個句子,得到漢文段落Ci的一個有序句列{Ci0,Ci1,Ci2,…,Ciu}和滿文段落Mj的一個有序句子序{Mj0,Mj1,Mj2,…,Mjv};
(4) 從漢語段落Ci的句子序列中依次取出每個包含人名關鍵字信息的句子 ,將該句子中的所有人名關鍵字按順序提取,得到人名關鍵字序列{N1,N2,N3,…,Ns}(s≥1);
(5)從人名關鍵字序列中取出一個人名關鍵字Ns,翻譯成滿語,然后在滿語有序段落Mj的有序句列中進行匹配,若找到匹配項則計數后跳到下一個人名關鍵字Ns+1繼續進行匹配。若沒有找到匹配項,則進入下一個滿文段落Mj+1進行匹配,一直到找到包含對應人名關鍵字的滿文句子。若一直未找到則進入到本漢語段落中下一個包含人名關鍵字信息的句子中;
(6) 若根據人名關鍵字找到匹配的滿漢語料句對,則對這個句子進行標記,并將此句作為本段的分割標準,劃分為兩個分段,然后以下一個分段為基礎繼續上述過程。若所有分段處理完畢,則算法結束。

圖1 基于人名關鍵字的段落對齊流程圖
在實際的典籍平行語料庫應用中,段落層次的對齊顯然不能夠滿足典籍語料庫的需求,需要做更小的語料顆粒劃分句子對齊。句子對齊是語料庫對齊中研究最多的一個課題,目前出現了眾多句子對齊方法。總體上看,這些方法可以分為如下幾種[7]:
(1) 基于長度統計的對齊方法。這種對齊方法是根據互譯的兩種語言之間長度關系的不同進行對齊,實現這種對齊方法需要統計兩種語言語料中對應句子的長度信息,并分析出其統計規律。
(2) 基于典型詞匯的句子對齊方法。這種對齊方法根據兩種互譯語料中特殊詞匯信息的比對而實現的對齊方法,實現這種對齊方法需要查詢詞典并對句子進行必要的處理。
(3) 基于句子長度和詞匯信息相結合的對齊方法。這種對齊方法是上面兩種對齊方法的結合,取二者的優點,既提高了句子的對齊性能又降低了對齊算法的復雜度。
在對滿族典籍平行語料庫句子對齊研究過程中,考慮到滿語與漢語屬于不同語系,滿語中單個詞匯識別度較差這些情況,決定采用句子長度的對齊方法。
在進行句子長度分析時,通常會以單詞或字符作為最小研究單位。在滿漢典籍語料研究中,若以單詞作為統計句子長度的最小單位會出現較多問題,主要原因在于漢語與滿語并非同一語系,漢語在分詞方面有一定的復雜性,這就會導致在統計滿文和對應漢語譯文句子長度時會出現一定的誤差,因此我們以字符數為最小單位對滿漢典籍語料句子長度的分析。對《尼山薩滿》原文及其海參崴版本譯文進行統計后發現,原文典籍共包含654個句子,而對應漢語譯文中有663個。在進行分段對齊及手工處理后共得到661個互譯句對,以字符數為最小研究單位得到的滿漢互譯句子長度關系統計如圖2。

圖2 滿漢互譯句子長度關系統計
分析可知,以字符數為標準的句子長度統計中,滿語句子字符數與對應的漢語句子字符數有一定的相互制約關系。一般情況下,漢語句子中的字符數與其對應的滿語句子中的字符數的比值是相互獨立的,具有一定的隨機性,將這個比值記做隨機變量X,X的分布具有正態分布的特點,將X的均值記做μ,方差記做σ2,得到相關統計結果見表2。μ≈滿語句子字符數/漢語句子字符數,σ2=(Lm-Lc·μ)2/Lc,其中Lm表示滿語句子中字符數,Lc表示漢語句子中的字符數。

表2 滿漢句子字符比值統計表
由于滿語和漢語不屬于同一語系,與同一語系的語言相比較,其句子長度之間差別比較大,我們把不滿足上述統計參數的句子所出現的范圍稱為拒絕域。從對統計表的分析可知,滿漢典籍語料句子長度比值均值的拒絕域是{Y=Lm/Lc|Y<2或Y>6},拒絕域中的句子格式如下:
從此之后,巴彥夫婦經常求神拜佛、燒香祈禱神靈保佑。作為回報,到了五十歲那年,又生了一共兒子,起名叫色爾古代費揚古。
Tereci bihei eigen gargam suisai se isifi endure fucihi de baime jalbirafi (jalbarifi) geli emu jui ujifi sergudia fiyanggu seme gebulefi。
Y=8.426
基于長度的句子對齊方法基本思想是按照互譯的兩種語言句子長度的相關關系研究句子的對齊,而不考慮其句子意思及所包含的詞匯信息。根據上述對滿漢語料句子長度的統計結果可以求取對應句子的互譯概率,于是得到基于句子長度的雙語句子對齊模型[8]
(1)
由貝葉斯定理可知:
(2)
式中,p(δ)是一個常數,不會影響句子的互譯概率,所以可以得到對應句子的互譯概率為
(3)
式(2)-(3)中,P(M(Lm,Lc))表示在不考慮句子長度的情況下得到的(Lm,Lc)句對類型出現的概率。式(2)中δ表示滿足標準正態分布類型的雙語句子長度關系評價函數,在這個關系函數中,p(δ|M(Lm,Lc))表示按正態分布密度函數[9],它的計算公式為
(4)
式中,μ和σ2分別表示滿漢典籍互譯句子字符數比值均值與比值方差,可以根據對滿漢典籍互譯句子字符數比值的統計得到。
(5)
通過動態規劃的思想,使用公式(5)找到滿足公式(4)的對齊句對。具體操作過程如下:
(1)對于公式(5)做初始化操作;
(2)根據我們已經總結的滿漢典籍語料句子匹配類型及其統計概率計算公式(5)的幾種可能情況,例如g(i-1,j-1),g(i-1,j-2),g(i-2,j-1),g(i-2,j-2);
(3)設置偏移量,當程序進行到分段段落的結尾時表示查找過程完成,基于長度的句子對齊算法結束;
(4)在查找過程中,如果出現有多個情況滿足式(5)的情況,取最小的計算值尋找滿足公式(4)的對齊句對;
(5)若一次查找完成后,將控制循環次數的參數進行加一操作后繼續執行。
本文對齊性能的評價方法主要通過計算對齊的召回率和準確率。
(1)假設有組對齊后的語料組{S,T},S表示按照執行對齊算法后得到的對齊句對,T表示人工處理后的需要達到理想狀況的對齊句對。把S中對齊正確的雙語片段數與T中正確的雙語片段數的比值稱為S對T的召回率,召回率Recall[10]計算公式為
(6)
分析可知,Recall的范圍在0與1之間,當Recall=0時表示S中正確片段數為0,這是句子對齊算法執行時最壞的情況;當Recall=1時表示S中對齊片段全部正確,這是最好的情況。
(2)在同樣一組語料組中,把S中對齊正確的片段數與S語段中所有對齊語料片段數的比值稱為準確率,S相對于T準確率Precission表示公式為:
(7)
Precission的范圍也在0與1之間,當Precission越大表示在對齊算法的準確度越高,當Precission=0時表示沒有正確的片段,當Precission=1時表示S中對齊片段全部正確。
本文的滿漢雙語語料分段方法的對齊結果分析見表3。由于《尼山薩滿》正文部分比較規范,回車符均是分段換行符,因此基于回車符分段的準確率和召回率均為百分之百,對于《尼山薩滿》附錄部分,由于很多回車符不是分段換行符,因而對齊的準確率和召回率會顯著下降。使用基于人名關鍵字的方法,雖然準確率和召回率相比基于回車符分段略有下降,但其準確率和召回率均在可接受范圍之內,而且其優點是會使句子對齊的準確率和召回率有很大提高;對于《尼山薩滿》附錄部分,很多回車符不是分段換行符,基于回車符的分段技術準確率和和召回率均有所下降,而基于人名關鍵字的對齊方法則不受影響。

表3 分段結果分析表 %
基于長度的句子對齊方法應用于滿漢典籍語料對齊中的對齊結果見表4。由分析結果可知,句子對齊與段落對齊相比略有下降,這主要是因為句子級別的對齊屬于更小顆粒的對齊,對齊范圍更精確,相比較而言也更容易出錯。由于是民族典籍翻譯,不要求句對的精確翻譯,而是要求句意忠于原文,因此這個統計數據也是在可以接受的范圍之內。

表4 基于長度的句子對齊結果分析 %
針對中國少數民族的文化典籍面臨的問題,本文以《尼山薩滿》為例,研究了滿族典籍平行語料庫的分段對齊和分句對齊方法。研究結果顯示:像《尼山薩滿》這樣的口傳民族文學經典,大多包涵大段的歌謠或頌詞,故在建立滿族典籍平行語料庫時,基于人名關鍵字的段落對齊方法更加有效;同時,實驗結果表明,在句子對齊方面,基于長度的句子對齊方法是切實有效的,可以滿足建立滿族經典平行語料庫的要求。
參考文獻:
[1] 張媛,王宏印. 民族典籍翻譯的現狀、問題與對策——人類學學者訪談錄之七十一[J]. 廣西民族大學學報(哲學社會科學版),2014(04): 23-26.
[2] 宋和平. 《尼山薩滿》研究[M]. 北京: 社會科學文獻出版社, 1998: 34-68.
[3] 崔穎. 東北少數民族典籍翻譯現狀與發展策略探究
[J]. 貴州民族研究, 2016(01): 117-119.
[4] 張玉. 東北地區少數民族典籍翻譯研究[J]. 校園英語, 2014(34): 229-230.
[5] 郭淑云. 中國薩滿教研究特點與展望[J]. 西域研究,2012(02): 96-103.
[6] 郭淑云. 中國薩滿教若干問題研究述評[J]. 民族研究,2011(03): 83-94.
[7] 惠聰. 機器翻譯中的高級對齊技術和開發集選擇策略研究[D]. 上海: 上海交通大學, 2012.
[8] 王克非. 雙語平行語料庫在翻譯教學上的用途[J]. 外語電化教學, 2004(06): 27-32.
[9] 魏宗舒. 概率論與數理統計教程[M]. 北京: 高等教育出版社, 1996.
[10] 劉昕,周明,朱勝火,等. 基于自動抽取詞匯信息的雙語句子對齊[J]. 計算機學報, 1998(S1): 151-158.
[11] RENNER. XML data and object databases: The perfect couple[C]. Washington: International Conference on data engineering, 2001.