999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

英語從句識別中的特征表示

2007-01-01 00:00:00王炳錫李弼程
計算機應(yīng)用研究 2007年2期

摘 要:英語從句識別是句法分析的基本問題,它是進一步進行英漢機器翻譯的基礎(chǔ)。提出一種基于最大熵原理的英語從句識別方法,即先將提取后的特征表示為最大熵模型形式并對其編碼,再采用最大熵原理完成最后的識別過程。采用該方法進行完整從句識別的正確率和召回率分別達到80.92%和62.36%,實驗表明,該方法的正確識別率遠高于CoNLL01的底線標準,是一種簡單有效的從句識別方法。

關(guān)鍵詞:從句識別; 最大熵; 特征

中圖法分類號:TP391文獻標識碼:A

文章編號:1001—3695(2007)02—0089—03

1 引言

目前的機器翻譯系統(tǒng)仍不能很好地處理復(fù)合句。為了提高翻譯質(zhì)量,人們提出淺層句法分析的概念,即將復(fù)雜的句子分割成較小的單元,并對它們分別進行識別分析。從復(fù)合句中將一個個從句分離出來的過程就被稱為從句識別。復(fù)合句中從句的識別問題不僅可以應(yīng)用于機器翻譯,而且可以用于語料庫的對齊、文語轉(zhuǎn)換和信息檢索等領(lǐng)域。

英語從句的識別問題始于20世紀90年代初。1990年Aberney在他的CASS分析器中采用了一個從句濾波器來識別從句。20世紀90年代中期美國的New Mexico State Univ.(NMSU),Univ.of Southern California(USC),Carnegie Mellon Univ.(CMU)三所大學(xué)聯(lián)合實現(xiàn)的機譯系統(tǒng)——PANGLOSS MARK Ⅲ是使用DCG規(guī)則來識別四種類型的從句[4]。2001年在CoNLL(Conference on Computational Natural Language Learning)會議上,人們首次提出將統(tǒng)計的方法應(yīng)用于從句識別中,其中Xavier Carrearas[1]采用Adaboost Decision Trees的方法效果最好,其召回率達到73.28%。

近年來,最大熵模型[2]已經(jīng)被成功地用于分詞、詞性標注、短語識別等自然語言處理領(lǐng)域。它的優(yōu)點是在試驗過程中,只需要選擇特征,而無須考慮如何使用這些特征;并且可以很靈活地選擇使用各種不同類型的特征,這些特征之間相互獨立。

2 系統(tǒng)介紹

該試驗根據(jù)最大熵原理建立從句識別模型。最大熵方法的主要思想是,在只掌握關(guān)于未知分布的部分知識時選取符合這些知識且熵值最大的概率分布。系統(tǒng)具體實現(xiàn)如圖1所示。輸入為已經(jīng)實現(xiàn)詞性標注、短語標注的Penn Tree Bank語料。識別從句句首的過程是:首先從訓(xùn)練語料中提取特征;然后利用最大熵模型計算對應(yīng)特征參數(shù),建立識別模型,再從測試語料中提取出同類別特征;最后根據(jù)識別模型預(yù)測出每個詞是否為句首。識別句尾的過程與句首的相似,兩者唯一的區(qū)別在于提取的特征略有不同,即句尾識別將利用句首識別的預(yù)測結(jié)果作為其特征。對于完整從句的識別,是結(jié)合前兩部分的結(jié)果和語法規(guī)則得到最后的標注輸出。

3 最大熵原理

4 從句識別中的特征描述

4.1 特征選擇

選取合適的特征對于從句識別問題至關(guān)重要。本文中所采用的特征是基于CoNLL’01會議上Xavier Carrearas提出的四種特征并對其加以改進后得到的。本試驗采用的語料是CoNLL’01會議提供的Penn Tree Bank語料。對于從句句首識別,用“S”“X”來區(qū)分句首詞和非句首詞,用“E”“X”來區(qū)分句尾詞和非句尾詞,對于完整從句標注則使用括號、“S”、星號來標志從句。

最大熵模型中,特征集合的選取是一個非常重要的問題。以句首識別為例,一般將句首識別的特征分為兩大類,即詞匯特征和句子特征。其中詞匯特征采取滑動窗口的方法得到詞語、詞性標注、短語標注三類特征,如例1所示,窗內(nèi)中心詞為當前詞。而句子特征又可以劃分為以下五個方面:

(1)句子結(jié)構(gòu)

①判斷當前位置是否為句首;

②將句子左右兩部分的詞性串和短語串作為句子特征提取出來,并且在短語串中只關(guān)心動詞短語、逗號、關(guān)聯(lián)詞這些體現(xiàn)句首信息的短語。

(2)功能詞信息

①當前詞為If/That/What/Who/Where/When/Why/Whose/Whether/How/While時,確定從句句首位置;

②當前詞為Which時,檢查它的前一個詞是否為at/in/on等,由此找出從句句首。

(3)動詞信息

以當前詞為界,判斷這句話中左右兩部分是否有VP出現(xiàn)。

(4)標點信息

①遇到逗號的情形。整句話中如果只有一個逗號,則以此為界劃分句子;如果有多個逗號,首先檢查逗號之間有沒有VP出現(xiàn),然后再提取特征信息。

②當前詞是冒號或引號時。將該詞本身與后面一個詞的標注情況作為一條特征。

(5)特殊情況

當前詞是And或Or時,判斷左右是否有VP出現(xiàn)。

4.2 特征編碼

不僅特征的選擇會影響識別結(jié)果,特征的表示形式也與最后結(jié)果有直接關(guān)系,因此對每一類特征分別進行編碼是必不可少的。

在給出編碼之前,首先引入謂詞的概念。在最大熵模型中用二值函數(shù)表示特征:

LSEN=B-VP,RSEN=B-VP_I-VP_O分別表示從句首到當前位置包含一個只有一個動詞的動詞短語;從當前位置到句尾包含一個動詞短語和一個句號。

POSS=PRP_VBZ_DT_JJ_NN_NN_MD_VB_TO_RB_#_CD_CD_IN_NNP_表示將該句話的詞性串作為一條特征。

最后在這些特征之后添加當前位置的句首類別標志“S”,這樣對于當前詞The的所有特征就表示了出來。

由此可以看出,一個特征函數(shù)可由三部分組成:等號及其左邊的部分、特征取值、類別標志。此特征函數(shù)的取值即為0或1,實際前兩部分恰好構(gòu)成謂詞。

5 實驗結(jié)果

試驗建立在基于完成短語標注的Penn Tree Bank語料上,其中WSJ15-18作為訓(xùn)練集(211 727個詞),WSJ21作為開放測試(40 039個詞)。

由于訓(xùn)練集中兩類數(shù)據(jù)分布不均,造成對于詞匯成為非句首(非句尾)的特征遠比成為句首(句尾)的特征貢獻大得多。所以本試驗中沒有直接采用最大熵模型計算出來的概率作為分類標準,而是將其計算的兩類概率相除作為一個分值[5]。這里按照訓(xùn)練集數(shù)據(jù)特點制定動態(tài)閾值,結(jié)合分值大小來判斷詞語的類別。

正確率=識別出的正確句子數(shù)識別出的句子數(shù);

召回率=識別出的正確句子數(shù)語料中的句子數(shù)

由實驗結(jié)果可以看出,針對從句識別問題提出適合最大熵模型的特征描述方式,對于問題的解決有很好的效果。

6 結(jié)論

最大熵模型通過對訓(xùn)練語料提取詞匯和句子特征,并對它們進行編碼,有效地表示了句首和句尾的信息。試驗中充分利用了最大熵模型對特征要求的靈活性,經(jīng)過測試,開放集識別的正確率達到80.92%,召回率達到62.36%。試驗過程中動態(tài)閾值是根據(jù)訓(xùn)練數(shù)據(jù)得到的,如何在開放集中設(shè)定更加準確的閾值將成為下一步的研究方向。

本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。

主站蜘蛛池模板: 亚洲第一天堂无码专区| 亚洲九九视频| 超碰91免费人妻| 国产成人精品2021欧美日韩| 亚洲欧美人成电影在线观看| 日本手机在线视频| 99激情网| 国内精品久久久久鸭| 搞黄网站免费观看| 人妻丝袜无码视频| 亚洲日韩AV无码精品| 在线另类稀缺国产呦| 丰满的少妇人妻无码区| 欧洲欧美人成免费全部视频| 草逼视频国产| 国产在线专区| 国产精品永久不卡免费视频| 国产无码制服丝袜| 九色视频一区| 久久久噜噜噜久久中文字幕色伊伊 | a在线亚洲男人的天堂试看| 看你懂的巨臀中文字幕一区二区 | 57pao国产成视频免费播放| 欧洲亚洲一区| 国产亚卅精品无码| 国产精品女在线观看| 精品91在线| 欧美成人在线免费| 精品無碼一區在線觀看 | 久久www视频| 国产成人久视频免费| 熟妇人妻无乱码中文字幕真矢织江| 伊人大杳蕉中文无码| 91免费国产在线观看尤物| 国产黄在线免费观看| 欧美日本视频在线观看| 成年人国产网站| 亚洲人成日本在线观看| 亚洲美女视频一区| 国产亚洲精品精品精品| 国产乱论视频| 欧美不卡视频一区发布| 日韩国产亚洲一区二区在线观看| 国产在线麻豆波多野结衣| 91亚瑟视频| 国产小视频a在线观看| 亚洲aaa视频| 亚洲日韩AV无码一区二区三区人| 欧美性色综合网| 国产91色| 秋霞一区二区三区| 四虎精品国产永久在线观看| 国产男女免费完整版视频| 日韩精品免费一线在线观看| 色有码无码视频| 91久久天天躁狠狠躁夜夜| 97视频在线观看免费视频| 91九色国产porny| 国产成人综合日韩精品无码首页 | 91丝袜乱伦| 在线欧美a| 久久免费成人| 91麻豆国产精品91久久久| 国产xx在线观看| 永久免费AⅤ无码网站在线观看| 国产亚洲男人的天堂在线观看| 欧美日本在线观看| 国产精品午夜福利麻豆| 亚洲91在线精品| 五月六月伊人狠狠丁香网| 中文字幕人成人乱码亚洲电影| 狠狠亚洲婷婷综合色香| 精品自拍视频在线观看| 老色鬼欧美精品| 最新加勒比隔壁人妻| 国产在线拍偷自揄观看视频网站| 欧美日本在线一区二区三区| 亚洲综合第一区| 在线观看国产精品日本不卡网| 成人午夜视频在线| 在线免费a视频| 中国黄色一级视频|