999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文篇章關系任務分析及語料標注

2016-11-19 06:10:36張牧宇秦兵劉挺
智能計算機與應用 2016年5期

張牧宇 秦兵 劉挺

摘 要:篇章關系(Discourse Relation)是篇章語義分析的重要內容,本文在英文篇章關系研究的基礎上分析了中英文間的差異,總結了中文篇章語義分析的特點,并在此基礎上提出面向中文的層次化篇章關系體系,對其關系類型進行詳細描述。在其基礎上,研究構建包含1 096篇語料的中文篇章關系語料庫,為進一步的篇章語義分析工作奠定基礎。

關鍵詞:語義分析;篇章關系;中文篇章關系體系;語料標注;

中圖分類號:TP391 文獻標識號:A 文章編號:2095-2163(2015)06-

Chinese discourse relation analysis and data annotation

ZHANG Muyu, QIN Bing1, LIU Ting1

( School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)

Abstract: Discourse Relation is an important part of discourse semantic analysis. This paper analyses the differences between Chinese and English, then presents the first Chinese discourse relation hierarchy based on the English discourse relation researches with explanation in details. Based on the analysis, the paper further construct a large-scale Chinese Discourse Relation corpus, which consists of 1 096 documents. The corpus together with the related analysis during the data annotation lays a foundation for the future discourse semantic analysis.

Keywords: semantic analysis; discourse relation; Chinese discourse relation system; data annotation

0 引言

隨著詞匯語義、句子語義研究的逐漸成熟,篇章語義逐漸成為學界熱點,作為篇章語義分析的重要內容,篇章關系研究(Discourse Relation)也開始受到越來越多的關注。本文選擇篇章關系分析作為篇章分析研究的切入點,原因在于:文檔內的各部分內容并不是孤立存在的,而是通過某種關系與其上下文構成聯系,從而更好地被讀者接受與理解[1]。因此,篇章分析領域中的焦點問題之一就是識別兩個文本塊之間的篇章關系。在前期的工作中,研究人員已經證明篇章關系的有效識別可以顯著改善很多自然語言處理任務的性能,對自動文摘[2]、自動問答[3]、傾向性分析[4]以及文本質量評價[5]、文本連貫性評價[6]等許多NLP任務均將起到重大的幫助補益作用。

近幾年來,這一任務引起了很多研究人員的興趣,一個重要的原因就是大規模篇章關系樹庫的發布,其中最具代表性的則是賓州篇章樹庫(Penn Discourse Treebank,PDTB)[7]和修辭結構理論樹庫(Rhetorical Structure Theory Treebank,RST-DT)[8]。總地來說,RST-DT采用了基于修辭結構理論的方法,將待分析文檔轉化為一棵完整的篇章修辭結構樹。這種設置理論完善,表現力很強。但是無論是樹庫構建過程,還是自動分析過程,都面臨明顯的歧義問題,操作難度較大。為了求解以上問題,提高理論的可操作性,PDTB隨即采用了一種基于詞匯的方法,以篇章關聯詞(例如:但是)為核心標注篇章關系。這種設置使得篇章關系的標注歧義減小,一致性提高,結果比較可靠。雖然不可避免地會丟失一部分信息,但相比于篇章完全結構標注過程中存在的歧義和困難,這種基于詞匯的設置不失為一個良好的選擇和有效的突破。

目前已有的PDTB相關研究大部分都集中在英文上,雖然也有一些討論中文篇章關系語料的研究陸續涌現,但迄今尚無大規模的中文篇章關系語料的成果問世,這也已然成為了限制中文相關研究發展的關鍵問題。目前,中文篇章關系語料的構建嘗試大多聚焦于標注顯式篇章關系方向,對隱式篇章關系也并未給予足夠關注。唯一的例外是Zhou和Xue在2012年開展的工作,嘗試進行了中文篇章關系的標注,其中包括相鄰句子之間的隱式篇章關系標注。隨后,Zhou和Xue在前述分析的基礎上標注了164篇文檔,包括顯式關系和隱式關系兩類。然而,這些工作在分析隱式關系時都僅局限在相鄰單元之間進行,實際上隱式關系卻大量分布于不相鄰的文本單元之間。根據統計,不相鄰單元之間的隱式關系占到了所有隱式關系的46.66%,而這部分信息在已有的研究中都發生了丟失。另一方面,由于缺乏中文篇章關系語料庫,加之篇章分析問題本身的復雜性,使得中文篇章關系分析模型的相關研究僅是取得了緩慢進展。

本文首次提出面向中文的篇章關系體系,將基于篇章關系的語義分析方法應用在中文,通過分析中英文的差異指出中文體系的必要性,詳細介紹面向中文的關系體系并通過語料標注證明了中文體系的一致性和完備性。余下內容組織如下:第二部分論證了中英文的差異,說明中文體系的必要性;第三部分介紹本文提出的中文篇章關系體系;第四部分研究了中文篇章關系語料標注及問題分析;第五部分給出結論。

主站蜘蛛池模板: 男女男免费视频网站国产| 国产在线自在拍91精品黑人| 久久一本日韩精品中文字幕屁孩| 国产精品分类视频分类一区| 国产香蕉一区二区在线网站| 亚洲天堂免费| 国产欧美视频一区二区三区| 午夜精品久久久久久久99热下载| 亚洲婷婷丁香| 精品国产中文一级毛片在线看| 伊人久久婷婷| 国内毛片视频| 高清乱码精品福利在线视频| 人妻丰满熟妇AV无码区| 日本亚洲国产一区二区三区| 欧美一区二区啪啪| 国产精品福利导航| 日韩无码黄色网站| 日韩在线视频网| 久久久精品无码一区二区三区| 婷婷99视频精品全部在线观看| 久草视频一区| 国产在线视频自拍| 国产老女人精品免费视频| 国产成人精品三级| 国产在线98福利播放视频免费| 国产制服丝袜91在线| 国产成人精品一区二区三区| 国产00高中生在线播放| 中文字幕第4页| 亚洲一区无码在线| 国产精品偷伦视频免费观看国产 | 国产精品女在线观看| 91精品人妻一区二区| 岛国精品一区免费视频在线观看 | 免费观看无遮挡www的小视频| 亚洲三级成人| 香蕉蕉亚亚洲aav综合| 91精品情国产情侣高潮对白蜜| 国产一区二区三区精品久久呦| 久久99国产视频| 亚洲精品卡2卡3卡4卡5卡区| 亚洲高清资源| 伊人AV天堂| 亚洲91精品视频| 国产精品网曝门免费视频| 丰满人妻久久中文字幕| 日本在线免费网站| 三上悠亚在线精品二区| 五月激情综合网| 影音先锋亚洲无码| 国产人人射| 日韩东京热无码人妻| 区国产精品搜索视频| 伊人久久精品亚洲午夜| 日韩大乳视频中文字幕 | 99热在线只有精品| 国产欧美日韩资源在线观看| 亚洲国产无码有码| 国产av剧情无码精品色午夜| 日韩欧美中文字幕在线精品| 成人国产免费| 成年看免费观看视频拍拍| 91视频免费观看网站| 亚洲国产黄色| 国产成人久久777777| 国产精品太粉嫩高中在线观看| 亚洲第一福利视频导航| 国产第八页| 精品亚洲国产成人AV| 国产亚洲精品自在久久不卡| 91在线无码精品秘九色APP| 国产最爽的乱婬视频国语对白| 老色鬼欧美精品| 91免费国产在线观看尤物| 亚洲伊人天堂| 免费在线不卡视频| 72种姿势欧美久久久大黄蕉| 国产亚洲精| www成人国产在线观看网站| 亚洲国产成熟视频在线多多 | 久久综合一个色综合网|