999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語料庫的數量名短語識別*

2012-11-17 04:44:14
湖北科技學院學報 2012年1期
關鍵詞:自動識別

方 芳

(安徽師范大學 國際教育學院,安徽 蕪湖 241003)

基于語料庫的數量名短語識別*

方 芳

(安徽師范大學 國際教育學院,安徽 蕪湖 241003)

數量名短語的自動識別是中文信息處理中短語識別的重要內容,對漢語深層次句法分析和語義分析將起到很重要的作用。本文對“數·量·名”、量詞重疊的數量名短語進行自動識別,以量名搭配概率為基礎,提出了基于變長后綴匹配的后退算法來發現更多的量名搭配,把召回率提高了40個百分點。我們在240萬字的當代新聞小說語料上進行了識別試驗和測試,結果顯示,達到80%左右的調和平均值。

數量名短語;短語識別;搭配識別;中文信息處理

一、研究背景

數量名短語在現代漢語中是一種常見的短語結構,傳統語言學領域對量詞及數量短語進行過比較充分的研究,但調查規模比較小,并且側重于語法意義的研究。在大規模真實文本語料中調查數量名短語,可以從另一個角度進行觀察和分析。數量名短語的自動識別和形式特征調查對用統計方法處理漢語將起到很重要的作用。

二、研究內容

我們的研究對象是這樣的數量名短語形式:

指示代詞(P)|數詞(M)|(指示代詞+數詞)+量詞成分(QC)+名詞短語(NP)

其形式化描述為:

MQN::=[P]+M+QC+NP

NP::=名詞|名詞短語

◆P(Pronoun)表示指示代詞,即這、那。NUM表示數詞,包括各類數詞、連接多個數詞的詞語和表概數的輔助詞語,如到、至、來等;

◆如果前一個P已出現,則后一個P必不出現;

◆QC(Quantifier Component)包括單個量詞和量詞重疊式;

◆NP(Noun Phrase)指單個名詞或各種形式的名詞短語,也包括數量名短語。

三、研究對策

(一)數詞分析

我們從形式和組合規律上對漢語數詞作出以下分類:

基數詞——阿拉伯數字(串)的漢語表達方式,包括小數、分數。

例:一、二十九、四點五三、十分之一、三百五十六、百、一百

序數詞——“第”與某些基數詞(除卻小數、分數和百、千、萬、億的基數詞,下同)的順序組合。“初”雖然也能與某些基數詞順序組合,但是一般不出現在量詞前面,因此不予考慮。

例:第一、第五十三

特殊數詞——以非基數詞的漢字表示數量多少、程度、范圍的形式。

例:數、頭、首、整、雙、半、幾、多、無數、好幾、若干、大半、多少、成千上萬、上千萬、上百萬

其中,大部分特殊數詞直接與量詞順序連接使用,如:數(名)(官員)、整(個)(城市)。但半、多可以跨越量詞而與某些基數詞組合使用,如:一(個)半(科學家)、三(個)多(星期)。多還可以跨越量詞而與半組合使用,如:半(個)多(世紀)。

基數詞(不含小數、分數)和特殊數詞的組合

例:數十(位)、頭幾(場)、頭三(個)、五百多(頁)

基數詞(不含小數、分數)與余、來的組合

例:三十余(所)、十來(個)

(二)數量結構分析

本文只討論那些位于所修飾的名詞語前面的數量結構,主要有以下七種結構形式:

MQ1:單個數詞+單個量詞(+多/半)

例:一條街、5篇論文、首場大雪、兩項省部級以上的科研項目

MQ2:單個數詞+量詞重疊式

例:一個個平凡而真實的日子、一幅幅藝術作品

MQ3:數詞復疊式+單個量詞

例:3到6個月、第四、五、六屆全國委員會。

MQ4:數量結構重疊式

例:一片一片、一幅又一幅

MQ5:數量結構復疊式

例:5級—6級偏北風、幾十個甚至上百個國家

MQ6:量詞重疊式

例:座座/m青峰/n

MQ7:單個數詞+形容詞+單個量詞

例:一大摞賀卡、一大麻袋還帶著泥土芳香的花生

與數量結構相比,指量結構的形式則簡單得多。主要有兩種結構形式:

PQ1:指示代詞+QE

例:這項政策

PQ2:指示代詞+MQ

例:這兩個項目

(三)量名沖突

由于名詞或名詞短語間的沖突,使得每條量名搭配在語言學上和算法上呈現出不同的狀態,主要表現為語言學上的歧義關系和算法中的競爭關系。

從語言學角度看,量名搭配有三種歧義類型:

類型1:數量/指量結構之后、終止符之前有多個名詞,而實際上只有一個能與量詞形成合理搭配。

例:給[這項/r活動/n]籌措更多的資金/n

我們專門構建了一部的量名搭配詞典中,讓計算機通過查對搭配詞典基本消解此類歧義。

類型2:數量/指量結構之后、終止符之前有多個名詞,且它們有的或全部都能與QE形成合理搭配。但只有一個名詞與量詞在同一個句法層面上。

例:[多種/m類型/n]的幫困/vn服務/vn小組/n

這種歧義的消解需要在句法層面判定。目前普遍使用的句法分析器一般難以克服這個問題,因此我們試圖引入邊界概率,來解決此類問題。

類型3:選擇哪個名詞與量詞搭配,有時即使在句法層面也無法判定,可以稱作“偽歧義”。(由于基本不影響理解和應用,如機器翻譯等,因此不予進行歧義消解)當然,選擇的結果對語意側重及感知有一定影響。

例:[一些 登山者/n]的 足跡/n

[一些登山者/n的足跡/n]

從算法的角度看,量名搭配中,名詞性短語之間存在著兩種不同的競爭關系,以[第一/m個/q有關/vn軍事/n安全/an磋商/vn機制/n的/u協定/n]為例:

一是搭配詞典內的競爭:即詞典內量詞與多個候選名詞中,哪一個為符合語義語法的正確搭配。如例句中的名詞機制和協定。這種競爭關系可對應于歧義類型2和類型3。

二是搭配詞典外的競爭:即參與競爭的名詞有的可在量名搭配詞典內找到與該句中量詞的搭配條目,有的找不到,如例句中的安全和協定。這種競爭關系可對應于歧義類型1。

四、MQN搭配識別算法

該算法的主要策略是:先定位MQN的左邊界;再利用特殊語言規則約束和一般詞例知識來排除非數量名短語結構;最后利用量名之間的搭配概率和中心名詞的邊界概率來進行MQN的自動識別。分為三個模塊進行。其中量名搭配識別模塊最為關鍵和復雜。

該階段,我們采取了三種策略。首先,搭配概率最高的作為中心名詞;邊界概率次之;肯定規則為判定MQN的最后一道標準。在選擇的過程中,只有當本條標準沒有發揮作用時,才能采用下一條標準。在搭配概率的計算中,我們運用了“后退算法”,即先將名詞后退到雙字詞尾,不成功再后退到單字詞尾,還不成功再后退到量詞“個”(因為“個”的搭配范圍最為廣泛),最后將量詞和名詞同時后退。之所以依次后退而不是加權于各參數之上,是由量名搭配在語料中的分布規模和特點所決定的,也是對克服數據稀疏的一個嘗試。

用CP表示搭配概率,用BP表示名詞的邊界概率,Q表示量詞,N表示名詞,i表示候選量名搭配中名詞的序號。則對每一條候選詞串,有如下公式:

注:公式(1)是個四項式,依次表示一次原始查詢和四步后退查詢(見3.1.1.2.)時的搭配概率計算。其中,每項前的λ為加權值。當前后退項的λ值為1,同時其他項的λ值為0。算法優化時,還可考慮對不同項的λ值作不同權重處理。

五、實驗結果與分析

我們在《人民日報》語料上進行了測試。測試結果的基線(Baseline)是:只利用訓練語料獲取搭配資源即搭配詞典(QNDict),不利用其他任何數據信息和算法,進行識別的精確率(Acc.)、召回率(Cov.)及調和平均值(F)。

評測項目為目前普遍采用的測試評估標準:精確率、召回率和調和平均值。

測試結果顯示,單純依靠搭配詞典而不使用其他信息,識別出的數量名短語少,但是較為準確;使用后退算法以后,召回率提高了近40個百分點,說明其在對未登錄詞的識別上,發揮了較大作用,而且精確率幾乎沒有受到影響;句法規則可以排除掉大量的錯誤而迅速提高精確率,并且,由于肯定規則的采用,也能回收一些可能被淘汰掉的數量名短語;搭配概率和邊界概率一定程度地彌補了后退算法在識別精確度上的不足,通過解決搭配沖突,促成了精確率的提高,并帶動了調和平均值的上升。

對長短距離的數量名短語的識別情況報告:測試語料中有“數量結構+名詞”的數量名短語3878條,占總數的55.8%,自動識別出3705條;“數量結構+n個詞(n>=3)+名詞”的數量名短語1921條,占總數的27.7%,自動識別出412條。由此可見,自動識別的困難主要集中于長距離的數量名短語上。

六、結 論

本文采用了基于相同末字的后退算法來獲取那些不在搭配詞典中的量名搭配,結果證明,這種方法是有效的。使用后退算法后,系統比僅僅依靠搭配詞典多召回近一倍的量名搭配,也直接使得數量名短語的召回率大大提高。由于后退詞典直接在原有的搭配詞典上生成,實際上是一種利用字面相似度的思想,因此這種算法亦可應用于中文信息處理的其他類似工作之中,如其他類型短語的自動識別、特定句式的消歧,等等。

[1]朱德熙.語法講義[M].北京:商務印書館,1982.

[2]李宇明.漢語量范疇研究[M].武漢:華中師范大學出版社,2000.

[3]郭先珍.現代漢語量詞用法詞典[M].北京:語文出版社,2002.

[4]何杰.現代漢語量詞研究(修訂版)[M].北京:民族出版社,2001.

[5]劉學敏,鄧崇謨.現代漢語名詞量詞搭配詞典[M].杭州:浙江教育出版社,1989.

[6]劉瓊竹.數量名主語句的句法分析[J].漢語學習,2000,(10):36 ~40.

[7]劉瓊竹.數量名主語句的語義語用考察[J].湘潭大學學報(哲學社會科學版),1999,(3):54 ~58.

[8]楊愛姣.“數·量·名”定中結構的變異搭配[J].襄樊學院學報,2000,(5):53 ~56.

H109.4

A

1006-5342(2012)01-0047-02

2011-11-13

猜你喜歡
自動識別
中國自動識別技術協會
船舶模擬駕駛系統障礙物自動識別方法
基于數據挖掘的船舶航跡自動識別系統
太陽黑子自動識別與特征參量自動提取
基于衛星遙感圖像的收費站位置自動識別與校核
船舶自動識別系統對船舶救助的影響
水上消防(2019年3期)2019-08-20 05:46:08
基于改進Canny算法的道路標線自動識別及定位
自動識別系統
特別健康(2018年3期)2018-07-04 00:40:18
金屬垃圾自動識別回收箱
基于IEC61850的配網終端自動識別技術
電測與儀表(2016年6期)2016-04-11 12:06:38
主站蜘蛛池模板: 福利一区在线| 欧美日韩中文国产| 国产精品lululu在线观看| 999国内精品视频免费| 日韩高清无码免费| 亚洲欧美另类色图| 亚洲日韩AV无码精品| 国产精品丝袜在线| 中国特黄美女一级视频| 亚洲午夜国产精品无卡| 成人精品区| 99热这里只有精品2| 全部无卡免费的毛片在线看| 夜夜操国产| 亚洲欧美成人| 日本人妻一区二区三区不卡影院| 国产美女人喷水在线观看| 日韩福利视频导航| 日本一区高清| 中文字幕亚洲精品2页| 四虎永久在线| 青青热久免费精品视频6| 日韩人妻无码制服丝袜视频| 特级做a爰片毛片免费69| 久久国产乱子| 午夜小视频在线| 亚洲第一福利视频导航| 国产在线视频福利资源站| 原味小视频在线www国产| 刘亦菲一区二区在线观看| 欧美午夜在线播放| www.91在线播放| 亚洲综合婷婷激情| 国产免费福利网站| 噜噜噜久久| 伊伊人成亚洲综合人网7777 | 国产91九色在线播放| 色综合天天视频在线观看| 香蕉99国内自产自拍视频| 亚洲黄色高清| 欧洲一区二区三区无码| 亚洲综合专区| 成人亚洲视频| 最新国产在线| 看看一级毛片| aaa国产一级毛片| 日韩在线永久免费播放| 国产高清无码第一十页在线观看| 夜夜操天天摸| 九一九色国产| 亚洲欧美一区二区三区蜜芽| 国产高潮流白浆视频| 毛片网站观看| 亚洲经典在线中文字幕| 日韩精品一区二区深田咏美| 久久先锋资源| 国产第八页| 精品一区二区久久久久网站| 中文天堂在线视频| 四虎在线观看视频高清无码| 理论片一区| 中文字幕无码av专区久久| 国产第一页屁屁影院| 国产色婷婷| 欧美日韩在线亚洲国产人| 成人午夜亚洲影视在线观看| 亚洲—日韩aV在线| 蜜臀AV在线播放| 国产自产视频一区二区三区| 国产小视频a在线观看| 国产一区在线观看无码| 亚洲一区二区在线无码| 人妻91无码色偷偷色噜噜噜| 天天婬欲婬香婬色婬视频播放| 毛片手机在线看| 国产国模一区二区三区四区| 国产精品成人久久| 国产一级视频久久| 色首页AV在线| 久久国产精品娇妻素人| 在线观看免费国产| 日本成人一区|