999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

篇章分析中的逗號分類與識別研究

2016-05-30 19:42:35儲琢佳

儲琢佳

摘 要:標點符號分析對于篇章分析以及自然語言處理技術的發展有著重要作用。漢語中最常用的標點符號是逗號,研究其在句子中的作用、使用方法及自動分類等問題,可以有助于漢語篇章分析,促進中文信息處理的基礎研究和應用研究的發展。

關鍵詞:標點符號識別;逗號分類;篇章分析

中圖分類號:H515;TP391.1 文獻標識碼:A 文章編號:1673-2596(2016)03-0225-02

一、逗號分類與識別的意義

隨著信息化的發展,機器翻譯、抽取式自動文摘等自然語言處理技術迎來了技術革命。針對自然語言處理系統的研究通常以句子為單位,分析其中的詞法、句法和語義。然而,漢語中豐富的標點符號及其使用方法使得漢語句子較長并且句意復雜,降低了句法分析的正確率。

例如:在這條通往家鄉的路上,翻山,越嶺,渡江,離那里越近,我的心情越復雜,我越發覺得,生命在不同的地方和不同人的眼中真的是不同。

上面這個復雜的長句包含7個逗號,用途各有不同。第一個逗號是狀語與中心語之間的停頓;第二、三個逗號是并列動賓短語之間的停頓;第七個逗號是謂語與賓語之間的停頓。在“渡江”和“復雜”之后的兩個逗號相當于句子邊界,這兩個逗號前后的主語不同,在中譯英時等同于3個句子。使用Google翻譯器的翻譯如下:“In this journey home on the road, crosses, uphill, cross the river, from where the closer, the more complicated my feelings, I feel more and more, life in the eyes of different places and different people really are different.”

以上翻譯明顯存在語法和語義上的錯誤。Google翻譯只是將這7個逗號分隔成的子句獨立進行翻譯,沒有考慮彼此之間的關系,并將各自的譯文簡單的堆砌,在句法結構與表達的連貫性方面都不符合英文的規范。由此可見,對文本中逗號的使用方法進行正確的分類、識別可以直接影響機器翻譯對句意的正確判斷,從而影響到譯文的質量。

二、標點符號的研究現狀

標點符號是篇章單位分割的重要標志,在自然語言處理系統中已有很多針對標點符號的研究。研究通過理論及實驗證實,通過句內切分標點對長句子進行切分有助于輔助句法分析、機器翻譯和篇章消歧等。

Mayer[1]最早從語言學的角度對英文中的標點符號進行了分類,并描述了其功能。Nunberg[2]提出了詞匯語法和文本語法兩個概念,將標點符號視為語言學中獨立的系統,奠定了從句法分析的角度研究標點符號的理論基礎。Jones[3]制定了新的標點符號分類方法,將標點分為并列標點和依附標點兩種,并將它們視為依附于臨近句法成分的依附標點,而非句法上的獨立個體。

在漢語方面,Jin等[4]提出了利用逗號劃分漢語長句。文章通過漢語句子的上下文識別逗號左右子句的關系,并通過并列和從屬這兩種關系對逗號進行分類,從而分割句子,對其進行有效的句法分析。黃河燕等[5]利用標點符號將復雜長句進行切分,簡化為多個獨立的簡單句進行翻譯,提高了機器翻譯的準確率。Li等[6]用標點符號對長句子進行切分處理,形成完整的句法分析樹,展示了基于標點符號進行層次化漢語長句結構分析的優越性。

三、逗號和子句識別的關系

標點符號是子句的重要形式標志,可分為點號和標號兩大類。漢語中和子句邊界有關的是點號,其中句號、問號、嘆號和分號一定表示子句邊界;而頓號所分隔的語言片段則不可能為子句;另外一些標點(如逗號和冒號)所分隔的語言片段則有可能是子句。

表1基于漢語賓州樹庫(CTB6.0)的統計數據,給出了漢語中可以作為子句邊界的標點符號的使用頻率。從圖中可見,肯定是子句邊界的句末點號(句號、問號、感嘆號)和句內點號(分號)占31.14%;有可能是子句邊界的逗號占67.17%。因此子句識別的關鍵在于判斷逗號是否為子句邊界,可以結合逗號的具體用法和分類研究其作為子句邊界的情況。

(一)逗號的分類標準及使用方法

根據Yang and Xue)[7]的逗號分類標準,首先逗號的使用方法可以大體上分為兩類。第一類逗號所連接的兩子句之間存在關系;第二類逗號所連接的兩子句之間不存在關系。第一類又可以分為并列和從屬關系。并列關系包括3種類型(SB、IP_COORD、VP_COORD),從屬關系也包括3種類型(ADJ、COMP與SBJ)。

1.SB(sentence Boundary):用于分割句子邊界的逗號。這類逗號能夠在句子中起到句子邊界的作用。逗號作為句子邊界有兩點要求:逗號前后子句有完整的句法結構;具有獨立的句意且逗號前后子句間沒有緊密的句法關系,如例1中的c1和c2。

例1:我省重點合作項目簽約儀式目前舉行,c1其中外商投資項目9個,c2協議利用外資31億美元,引進城外資金660億元。

此句是很常見的流水句,句中的逗號是流水句中的停頓,句中的3個子句相互獨立,逗號c1和c2相當于句號,可視為句子邊界。

2.IP_COORD(IP Coordination):逗號的左右子句有完整的IP結構但句法上卻不獨立。分割父節點為非根節點的并列IP結構的逗號,如c3和c4

例2:改革二十多年來,我們黨在實踐中形成了一整套基本政策,c3實踐證明這些政策符合農村實際,c4必須保持穩定性和連續性。

3.VP_COORD(VP Coordination):分割并列動賓短語的逗號。與IP_COORD類逗號相似,此類逗號也是分割嵌套結構中的并列結構。

例3:養成好習慣是良好生活的體現,c5也是一個人素養的表現。

4.ADJ(Adjunction):用于分隔附屬從句與主句的逗號。附屬從句指在從屬復合句中擔當句子成分的主謂結構。雖然從句自身的句子結構完整,但它并不能脫離主句部分獨立完整地表達意思。

例4:為了依法推進行政審批制度改革,c6國務院于2013年7月對有關行政法進行了清理,并對25項行政法規的部分條款予以修改。

5.COMP(Complementation):用于分隔動詞與長賓語的逗號。通常出現在“認為”“提出”“表示”等提示性動詞之后。

例5:所有28位接受調查的專家都認為,c7澳洲聯儲至少眼下不會急于進行年內第三度降息。

6.SBJ(Sentential Subject):分割句子主語和謂語的逗號。

例6:食品工業迅速增長,c8已成為國民經濟支柱產業。

7.Other:其他類型。上述6種逗號類型之外的逗號都劃分為其他類型,往往不能標記語篇單元。

根據子句的定義,我們發現只有第一種情況中的逗號是子句邊界標點,而后幾種情況中的逗號都是子句內部的標點。綜上可知,逗號對于子句分隔十分重要。判斷逗號能否作為子句邊界,實際就是判斷逗號是否表示復句內部各分句之間的停頓。

(二)逗號的自動分類方法

目前的逗號自動分類方法較多是基于句法分析。如在加入逗號分類信息的情況下,使用句法分析器對句子進行句法分析得到逗號分類結果;或在句法分析器進行句法分析的基礎上對句法分析過的句子提取特征建立最大熵逗號分類器。此外,僅利用句子的詞語詞性信息對逗號進行自動分類也取得了較好的效果。具體方法是在分詞與詞性標注的語料中提取上下文特征,包括子句主干特征、當前逗號序號及序號前的逗號分類類別特征、詞匯特征,并采用分類器實現逗號的自動分類。

目前針對自動識別句子邊界的逗號的研究較少。Jin等[8]提出了一種基于逗號的漢語長句分割方法,利用標準句法樹,根據分割原理抽取訓練和測試樣例,采用謂詞和其他相關特征判斷逗號是否可以進行句子分割。Xue等[9]提出了判斷逗號是否為句子邊界的自動識別方法,利用CTB6.0語料,采用啟發式規則,自動標注語料中不同功能的逗號類型并抽取特征進行試驗,結果證實了這種方法的有效性。

目前,標點符號的分類與識別已經引起了眾多研究者的關注。然而,雖然在漢語篇章分析中已有很多研究取得了較大的進展,利用標點符號輔助句子分析的研究仍比較缺乏,從自然語言處理角度對漢語逗號的自動分類研究開展的也很少,現有的大多數自動句法分析系統也都忽略了標點符號的特殊作用。本文從自然語言處理角度研究了逗號在句子中的作用、使用方法,總結了逗號的分類問題,希望可以有助于漢語篇章自動分析,豐富和發展語言學理論,促進中文信息處理基礎研究和應用研究的發展。

參考文獻:

〔1〕Charles Meyer. A Linguistic Study of American Punctuation[M]. Peter Lang: New York.1987.

〔2〕Geoffrey Nunberg. The Linguistics of Punctuation[M].CSLI Lecture Notes, No. 18, StanfordCA,1990.

〔3〕Jones Bernard. Whats the Point? A (Computational) Theory of Punctuations[D]. PhD thesis, Centre for Cognitive Science, Universito of Edinburgh, Edinburgh, UK, 1997.

〔4〕〔8〕Meixun Jin, Mi-Young Kim, Dong-Il Kim, and Jong-Hyeok Lee. Segmentation of Chinese Long Sentences Using Commas. [C]//In Proceedings of the SIGHANN Workshop on Chinese Language Processing.2004:56-64.

〔5〕黃河燕,陳肇雄.基于多策略分析的復雜長句翻譯處理算法[C].中文信息學報,2002,16(3):1-6.

〔6〕Xing Li, Chengqing Zong. A Hierarchical Parsing Approach with Punctuation Processing for Long Complex Chinese Sentences[A]. In Companion Volume to the Proceedings of Conference including Posters/Demos and Tutorial Abstracts, IJCNLP2005, Jeju Island, Korea, October11-13,2005:9-14.

〔7〕〔9〕Yaqin Yang, Nianwen Xue. Chinese Comma Disambiguation for Discourse Analysis. [C]//Proceedings of Annual.

(責任編輯 賽漢)

主站蜘蛛池模板: 亚洲六月丁香六月婷婷蜜芽| 欧美不卡二区| 国产精品手机在线观看你懂的| 色偷偷一区| 亚洲伊人电影| 青青极品在线| 中文字幕1区2区| 真实国产乱子伦高清| 国产成人精品视频一区二区电影| 国产乱人伦AV在线A| 精品午夜国产福利观看| 国内熟女少妇一线天| jijzzizz老师出水喷水喷出| 国产精品视频第一专区| 国产人妖视频一区在线观看| 亚洲欧美日韩另类在线一| 日韩欧美国产三级| 99re热精品视频国产免费| 国产精品林美惠子在线播放| 国内毛片视频| 国产成人精品亚洲日本对白优播| 99精品国产电影| 四虎亚洲国产成人久久精品| 一级片免费网站| 亚洲精品欧美重口| 欧美成人精品在线| 国产视频只有无码精品| 精品99在线观看| 久久国产精品波多野结衣| 国产极品美女在线播放| 午夜性刺激在线观看免费| 国产欧美自拍视频| 成年免费在线观看| 亚洲成人黄色网址| 97在线国产视频| 国产精品福利尤物youwu| 在线观看亚洲精品福利片| 亚洲人成影院在线观看| 99一级毛片| 中国一级特黄视频| 99热国产这里只有精品无卡顿"| 国产va欧美va在线观看| 欧美色99| 丁香婷婷在线视频| 亚洲成人黄色在线观看| 国产免费人成视频网| 99er这里只有精品| 澳门av无码| www.国产福利| 日韩一级毛一欧美一国产| 一本一道波多野结衣一区二区 | 国产白浆在线| 亚洲无码电影| 亚洲欧美一级一级a| 色婷婷综合激情视频免费看| 久久精品国产亚洲麻豆| 成人精品在线观看| 久久久久久午夜精品| 亚洲香蕉在线| 婷婷六月天激情| 老司机久久99久久精品播放 | 激情综合网址| 欧美精品亚洲日韩a| 欧美亚洲一二三区| AV不卡无码免费一区二区三区| 92午夜福利影院一区二区三区| 欧美啪啪一区| 国产高潮视频在线观看| 国产成人AV综合久久| 麻豆国产在线观看一区二区| 久久久久久久97| 欧美全免费aaaaaa特黄在线| 国产a v无码专区亚洲av| 国产精品香蕉在线观看不卡| 97久久人人超碰国产精品| 亚洲欧洲免费视频| 特级毛片8级毛片免费观看| 欧美一级黄片一区2区| 久久免费观看视频| 黄片一区二区三区| 色婷婷狠狠干| 免费在线国产一区二区三区精品|