999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語序變換的藏文復述句生成方法

2018-04-19 07:37:34,,
計算機工程 2018年4期
關鍵詞:實驗方法

,,

(1.青海師范大學 a.計算機學院,西寧 810008; b.藏文信息處理教育部重點實驗室,西寧 810008; 2.清華大學 計算機科學與技術系 智能技術與系統國家重點實驗室,北京 100084)

0 概述

自然語言理解是語言信息處理和人工智能領域的核心研究課題之一。判別計算機是否能理解自然語言必須具備4個標準,分別是問答系統、自動文摘、復述技術和機器翻譯。計算機只要達到以上4條中的任何一種要求,就可以說它理解了自然語言。其中,復述技術是一個句子或短語轉換成相同語義的句子或短語的技術。文獻[1]將復述看作傳達相同信息的可替換形式,文獻[2]則認為復述反映一個語言的多變性,表示對應到相同意義的等價表達方式。文獻[3-4]的定義則是概念上的近似等價。復述的簡單解釋就是對相同語義的不同表達[5]。

復述技術可應用在自動文摘、文本生成、信息抽取、自動問答、信息檢索、機器翻譯、情感分析[6-7]等領域。近年來,復述作為自然語言理解的一個重要的研究方向,已成為學術界關注的熱點。微軟研究院、谷歌研究院、南加州大學、康奈爾大學等研究機構對英語的復述進行深入研究,所提出的方法與具體語言無關,可擴展到其他語種。東京大學、京都大學、ATR研究院等機構對日文復述展開了研究,主要涉及日文特有的語言現象和特殊處理,該方法的語言相關性較強。國內對漢語復述的研究集中在哈爾濱工業大學,主要內容為詞匯級復述[8]、短語級復述[9]、針對機器翻譯的復述等[10],研究方法與以上2種語言相似。此外,其對漢語復述資源獲取、復述生成以及復述應用等方面也做了很多嘗試。

目前關于國內少數民族語言方面的復述研究較少,特別地,研究者對藏文復述研究領域更少涉及。因此,本文在參考英語、日語和漢語復述研究成果和藏文詞法分析的基礎上,提出一種利用全排列遞歸算法生成藏文復述句的方法。

1 相關研究

對藏文句子級復述的研究方法可分為2個部分:1)獲取資源,通過現有的資源構建復述句庫;2)復述生成,通過輸入的信息自動生成語義相同的復述句。

在復述資源獲取方面,比較通用方法是當一個著作有多個版本的譯文時,將不同譯文版的句子對齊作為復述句[11],此方法準確率高但資源有限。有些研究人員利用同一個主題不同媒體報道的新聞來做復述,也叫可比性語料[12-14],雖然其核心主題相同,但文本長度和內容表達都各有千秋,比較適合于段落層面的復述。另外,也有研究者應用機器翻譯的經驗來獲得復述,以及機器翻譯評測的參考答案構建復述句庫[15]。上述這些方法簡單易行,但獲得的復述句數量和領域有限。

對復述生成方法進行歸類可得:早期多數研究者采用基于規則的方法[16-18],此方法在特定條件下效果很好,但存在可擴展性差、工作量大、覆蓋面窄等缺點。有研究者利用基于詞典的方法將原句中的某些詞替換成詞典中的同義詞或釋義來生成復述句,此方法比較通用,生成效果較好。也有研究者利用機器翻譯生成復述句,也就是將復述生成看作單語機器翻譯。此外,也有研究者將統計機器翻譯模型應用于復述生成[19-20]以及將平行語料庫應用于多個翻譯系統獲得一對多譯文結果[15]。

復述生成結果按形式劃分可以分為2種:異形同義和同形同義。異形同義是指原文句子和復述句子之間字形不同但語義相同,主要通過同義詞、釋義、短語、句子結構的變化,利用從句、拆分與合并等技術手段生成復述句。同形同義是指原文句子和復述句子的組成成分完全相同,通過語序變換的方法生成復述句。

2 基于語序變換的復述生成

藏文語序變換的復述生成是在不改變原文句義的前提下,變換句子成分的位置但不改變句子的組成部件,在變換句子成分的位置時,組成謂語部件的位置必須在句末,其他句子成分的位置都比較靈活,可以出現在句首、句中。換而言之,改變這些成分的位置通常不會影響原文的句義。

句子是動態的話語運用單位,而句型是靜態的語言模型。從句子結構看,藏文也可以分為簡單句型、并列句型、復合句型。本文主要針對基于語序變換的藏文簡單句型復述方法進行研究。

2.1 藏文句型的特點

藏文是藏族使用的文字,已有1 300多年的歷史,據藏文史籍記載,藏文在歷史上曾進行過3次較大規模的厘定規范。在吞彌·桑布扎時期語言文法著作有8種,如今只傳世《三十頌》和《性入法》2種。

2.2 復述生成算法

在藏文復述生成過程中句子組塊識別與復述生成方法是2個重要的環節。藏文組塊分析是復述生成的預處理,通過簡化句子結構為生成復述句提供基礎。復述生成是通過句子構成部件或組塊的語序變換生成一個或多個與原句同義的復述句的過程。

2.2.1 藏文句子組塊生成模板原則

根據文獻[25]對組塊的定義,組塊是一種語法結構,是符合一定語法功能的非遞歸短語。每個組塊都有一個中心詞,組塊內的所有成分都圍繞該中心詞展開,任何一種類型的組塊內部不包含其他類型的組塊。

表1藏文組塊生成模板實例

藏文組塊識別作為生成復述句的一種預處理手段,主要功能是在不需要深層語言知識的前提下,識別句子中特定的組塊,如基本名詞短語、時間詞短語、代詞短語、動詞短語等,組塊分析的目的是找出詞、短語等的相互關系以及各自在句子中的作用,這種層次結構可以是從屬關系、直接成分關系,也可以是語法功能關系。

2.2.2 復述句生成方法

步驟4對非謂語組塊進行全排列:

{w1,w2,w3}?{w1,w3,w2}?{w2,w1,w3}?

{w2,w1,w3}?{w3,w1,w2}?{w3,w2,w1}

圖1 復述句生成示意圖

步驟5通過尾部添加謂語組塊生成藏文復述句。

表2藏文復述生成實例

3 實驗與結果分析

本文實驗從小學藏語文教材語料中抽取12 355條句子,過濾掉詞長d>15(句子過長影響復述句子生成質量)的句子后得到6 027句,從中隨機抽取500句作為實驗用語料,對自動生成基于語序變換的藏文復述準確性進行考查。

在實驗過程中,評測方法是對人工復述句和系統自動生成藏文復述句進行比較。首先對500句實驗用語料按照本文給出的組塊生成原則和復述句生成方法建立人工復述句庫,給出原句的所有復述形式。計算機自動生成復述過程中先對500個藏文原句進行分詞(分詞工具使用了青海師范大學開發的班智達分詞系統),將分詞好的文件讀入程序中,使計算機自動生成藏文復述句。

3.1 評測標準

設A為系統正確生成的復述數目,B為系統自動生成復述的總數目,C為人工句子復述數目,則實驗的評測指標,即準確率P、召回率R和綜合評價F值計算公式如下:

人工與系統自動生成復述句實驗結果對比如表3所示。

表3 人工與自動生成復述句實驗結果對比

3.2 結果分析

本文以簡單句型為例對基于語序變換的藏文復述句自動生成進行分析。從實驗結果可以看出,對于500個原句子系統總共自動生成了1 591個復述句,其中包含了所有人工復述句。最終計算機自動生成藏文復述句的準確率為93.4%,召回率為100%,F值為96.6%。 同時可以實驗結果中發現,原句的句型結構、組塊數量,組塊生成模板對復述生成結果有顯著的影響。

3.2.1 句型結構對復述句生成結果的影響

在簡單句型中主語和謂語是句子的主干,是句子的核心。 簡單句型的基本形式是由一個主語加一個謂語構成,可歸納為5個基本句型:主語+表語+系動詞(S+P+V),主語+謂語(S+V),主語+賓語+謂語(S+DO+V),主語+雙賓語+謂語(S+IO+DO+V),主語+賓語+賓補+謂語(S+DO+OC+C)。進一步對實驗數據進行分析后發現,句型結構與復述句生成數量存在如圖2所示關系。

圖2 句型結構與復述句生成數量的關系

3.2.2 組塊數量對復述句生成結果的影響

實驗結果顯示,復述句生成數量不在于句子長度而在于原句中組塊數量的多與少。換言之,句中組塊越多生成的復述句就越多,隨著組塊數的遞增復述生成以階乘式遞增。

句型結構不同生成的組塊數量不同。通過實驗數據分析可知,上述5種基本句型中相對生成較多結構是S+IO+DO+V和S+DO+OC+V。在實驗語料庫中每個句型結構與組塊數量的平均分布如圖3所示。

圖3 組塊數量平均分布情況

3.2.3 組塊生成模板對復述結果的影響

通過對錯誤藏文復述的結果分析中發現,導致錯誤的主要原因有2個:1)藏文組塊生成歧義問題;2)存在特殊分支句型結構。

以上2個錯誤都歸屬于S+P+V句型結構,該句型結構中存在一些特殊句子,這些分支句型結構對復述句生成實驗結果有直接影響。

4 結束語

本文通過語序變換分析藏文簡單句型中復述句的生成方法、數量和句型結構,同時對5種基本句型結構中每個結構對復述句生成的影響進行實驗。實驗結果顯示,S+P+V、S+V結構的復述生成數量較少,S+DO+V、S+IO+DO+V句型結構的復述生成數量較多。此外,當原句中句子成分組塊數量較多時,該句的復述生成數量超過幾百或幾千句,與原句的語義一致。在復述句自動生成過程中,原句的組塊分析和生成直接影響復述句語義的準確性。本文方法可以擴展到機器翻譯的雙語句子對齊、問答系統的答案抽取等應用領域,同時也能解決數據稀疏問題,提高機器翻譯評測性能。

復述生成中藏文組塊的組合對復述生成結果的影響很大,若組合不合理,復述生成結果與原句子之間的語義就不相等。因此后續將研究句型結構和組塊生成方法,進一步提高復述句生成的準確率。

[1] BARZILAY R,MCKEOWN K.Extracting paraphrases from a parallel corpus[C]//Proceedings of the 39th Annual Meeting on Association for Computational Linguistics.New York,USA:ACM Press,2001:50-57.

[2] GLICKMAN O,DAGAN I.Identifying lexical paraphrases from a single corpus:a case study for verbs[C]//Proceedings of Recent Advantages in Natural Language Processing.Borovets,Bulgaria:[s.n.],2003:1-8.

[3] de BEAUGRANDE R,DRESSLER W.Introduction to text linguistics[M].New York,USA:Longman,1981.

[4] HALLIDAY M A K,MATTHIESSEN C M I M.An introduction to functional grammar[M].London,UK:Hodder Education Publishers,1985.

[5] BARZILAY R,MCKEOWN K R.Extracting paraphrases from a parallel corpus[C]//Proceedings of ACL/EACL 2002.Morristown,USA:Association for Computational Linguistics,2002:50-57.

[6] 趙世奇,劉 挺,李 生.復述技術研究[J].軟件學報,2009,20(8):2124-2137.

[7] 王超越.基于復述技術的漢語情感分析方法的研究[D].哈爾濱:黑龍江大學,2014.

[8] ZHAO Shiqi,LIU Ting,LI Sheng.Lexical paraphrasing based on autumatically constructed corpora[J].Acta Ectrimica Sinica,2009,37(5):975-980.

[9] 李維剛,劉 挺,李 生.基于雙語語料庫的短語復述實例獲取研究[J].中文信息學報,2007,21(5):112-117.

[10] 羅 凌,陳毅東,史曉東,等.基于復述技術的漢語成語翻譯方法研究[J].中文信息學報,2015,29(4):166-174.

[11] IBRAHIM A,KATZ B,LIN J.Extracting structural paraphrases from aligned monolingual corpora[C]//Proceedings of IWP’03.Morristown,USA:Association for Computational Linguistics,2003:57-64.

[12] BARZILAY R,LEE L.Learning to paraphrase:an unsupervised approach using multiple-sequence alignment[C]//Proceedings of HLT-NAACL’03.Edmonton,Canada:[s.n.],2003:16-23.

[13] DOLAN B,QUIRK C.Brockett C.Unsupervised construction of large paraphrase corpora:exploiting massively parallel news sources[C]//Proceedings of International Conference on Computational Linguistics.Geneva,Switzerland:[s.n.],2004:350-356.

[14] SHINYAMA Y,SEKINE S,SUDO K.Automatic paraphrase acquisition from news articles[C]//Proceedings of the 2nd International Conference on Human Language Technology Research. [S.l.]:Morgan Kaufmann Publishers,2002:40-46.

[15] PANG B,KNIGHT K,MARCU D.Syntax-based alignment of multiple translations:extracting paraphrases and generating new sentences[C]//Proceedings of HLT-NAACL’03.Edmonton,Canada:[s.n.],2003:102-109.

[16] ZONG C,ZHANG Y,YAMAMOTO K,et al.Approach to spoken Chinese paraphrasing based on feature extraction[C]//Proceedings of NLPRS’01.Hitotsubashi,Japan:[s.n.],2001:551-556.

[17] McKEOWN K R.Paraphrasing using given and new information in a question-answer system[C]//Proceedings of ACL’79.[S.l.]:Association for Computational Linguistics,1979:67-72.

[18] TAKAHASHI T,IWAKURA T,IIDA R,et al.KURA:a transfer-based lexico-structural paraphrasing engine[C]//Proceedings of NLPRS’01.Hitotsubashi,Japan:[s.n.],2001:37-46.

[19] QUIRK C,BROCKETT C,DOLAN W.Monolingual machine translation for paraphrase generation[C]//Proceedings of EMNLP’04.Barcelona,Spain:[s.n.],2004:142-149.

[20] FINCH A,WATANABE T,AKIBA Y,et al.Paraphrasing as machine translation[J].Journal of Natural Language Processing,2004,11(5):87-111.

[21] 格桑居冕.論書面藏語單句的兩大部類[J].中國藏學,1994(1):133-140.

[22] 吉太加.現代藏文語法通論[M].蘭州:甘肅民族出版社,2000.

[23] 高定國,扎西加.藏語單句的基本句型研究[J].中國藏學,2014(4):127-131.

[24] 吉太加.藏文句法研究[M].北京:中國藏學出版社,2013.

[25] ABNEY S.Part of speech tagging and partial parsing[M]//CHURCH K,YOUNG S,BLOOTHOOFT G.Corpus-based Methods in Language and Speech Processing.Dordrecht,the Netherlands:Kluwer Academic Publishers,1996:119-136.

猜你喜歡
實驗方法
記一次有趣的實驗
微型實驗里看“燃燒”
做個怪怪長實驗
學習方法
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 国产精品毛片在线直播完整版 | 日本久久网站| 亚洲精品你懂的| 欧美日本在线观看| 色欲色欲久久综合网| 亚洲欧美在线综合图区| 2020最新国产精品视频| 久久熟女AV| 重口调教一区二区视频| 四虎免费视频网站| 日韩精品欧美国产在线| 精品国产自| 亚洲成a人片| 在线观看国产一区二区三区99| 热思思久久免费视频| 91国内外精品自在线播放| 成人福利视频网| 一级不卡毛片| 无码专区在线观看| 免费在线看黄网址| 国产精品女人呻吟在线观看| 色哟哟色院91精品网站| 夜夜操国产| 国产99视频精品免费观看9e| 91精品国产综合久久不国产大片| 国产在线97| 久久久久亚洲AV成人人电影软件| www.亚洲一区二区三区| 久久99国产乱子伦精品免| 日韩区欧美区| 一区二区自拍| 亚洲一区网站| 久久这里只精品热免费99| 2019年国产精品自拍不卡| 三上悠亚精品二区在线观看| 波多野结衣久久精品| 99re在线免费视频| 凹凸国产熟女精品视频| 亚洲国产成人久久精品软件| 就去色综合| 日韩一区精品视频一区二区| 无码高潮喷水在线观看| 999精品视频在线| 黄色网站不卡无码| 小说区 亚洲 自拍 另类| 成人一区专区在线观看| 欧美日本二区| 久久久久亚洲AV成人网站软件| 日韩中文无码av超清| 国产91高清视频| 亚洲成a人片| 国产区在线看| 一级一级特黄女人精品毛片| 国产男女XX00免费观看| 国产性爱网站| 久久久久久尹人网香蕉| 欧美日韩一区二区三| 亚洲 日韩 激情 无码 中出| 欧美一级一级做性视频| 国产18在线播放| 久久综合结合久久狠狠狠97色| 国产欧美性爱网| 91色老久久精品偷偷蜜臀| 国产精品网拍在线| 中文字幕无线码一区| 麻豆精品在线视频| 福利一区三区| 久久精品国产免费观看频道| 亚洲香蕉久久| 亚洲欧美精品日韩欧美| 狠狠操夜夜爽| 欧美日韩第三页| 国产精品视频猛进猛出| 久久久久久久久18禁秘| 欧美日韩亚洲综合在线观看| 暴力调教一区二区三区| 久久久久久久久18禁秘| 久久这里只精品国产99热8| 欧美成人a∨视频免费观看| 久久久久久久久18禁秘| 日韩国产综合精选| 伊人91视频|