方 芳
(安徽師范大學 國際教育學院,安徽 蕪湖 241003)
基于語料庫的數量名短語識別*
方 芳
(安徽師范大學 國際教育學院,安徽 蕪湖 241003)
數量名短語的自動識別是中文信息處理中短語識別的重要內容,對漢語深層次句法分析和語義分析將起到很重要的作用。本文對“數·量·名”、量詞重疊的數量名短語進行自動識別,以量名搭配概率為基礎,提出了基于變長后綴匹配的后退算法來發現更多的量名搭配,把召回率提高了40個百分點。我們在240萬字的當代新聞小說語料上進行了識別試驗和測試,結果顯示,達到80%左右的調和平均值。
數量名短語;短語識別;搭配識別;中文信息處理
數量名短語在現代漢語中是一種常見的短語結構,傳統語言學領域對量詞及數量短語進行過比較充分的研究,但調查規模比較小,并且側重于語法意義的研究。在大規模真實文本語料中調查數量名短語,可以從另一個角度進行觀察和分析。數量名短語的自動識別和形式特征調查對用統計方法處理漢語將起到很重要的作用。
我們的研究對象是這樣的數量名短語形式:
指示代詞(P)|數詞(M)|(指示代詞+數詞)+量詞成分(QC)+名詞短語(NP)
其形式化描述為:
MQN::=[P]+M+QC+NP
NP::=名詞|名詞短語
◆P(Pronoun)表示指示代詞,即這、那。NUM表示數詞,包括各類數詞、連接多個數詞的詞語和表概數的輔助詞語,如到、至、來等;
◆如果前一個P已出現,則后一個P必不出現;
◆QC(Quantifier Component)包括單個量詞和量詞重疊式;
◆NP(Noun Phrase)指單個名詞或各種形式的名詞短語,也包括數量名短語。
我們從形式和組合規律上對漢語數詞作出以下分類:
基數詞——阿拉伯數字(串)的漢語表達方式,包括小數、分數。
例:一、二十九、四點五三、十分之一、三百五十六、百、一百
序數詞——“第”與某些基數詞(除卻小數、分數和百、千、萬、億的基數詞,下同)的順序組合。“初”雖然也能與某些基數詞順序組合,但是一般不出現在量詞前面,因此不予考慮。
例:第一、第五十三
特殊數詞——以非基數詞的漢字表示數量多少、程度、范圍的形式。
例:數、頭、首、整、雙、半、幾、多、無數、好幾、若干、大半、多少、成千上萬、上千萬、上百萬
其中,大部分特殊數詞直接與量詞順序連接使用,如:數(名)(官員)、整(個)(城市)。但半、多可以跨越量詞而與某些基數詞組合使用,如:一(個)半(科學家)、三(個)多(星期)。多還可以跨越量詞而與半組合使用,如:半(個)多(世紀)。
基數詞(不含小數、分數)和特殊數詞的組合
例:數十(位)、頭幾(場)、頭三(個)、五百多(頁)
基數詞(不含小數、分數)與余、來的組合
例:三十余(所)、十來(個)
本文只討論那些位于所修飾的名詞語前面的數量結構,主要有以下七種結構形式:
MQ1:單個數詞+單個量詞(+多/半)
例:一條街、5篇論文、首場大雪、兩項省部級以上的科研項目
MQ2:單個數詞+量詞重疊式
例:一個個平凡而真實的日子、一幅幅藝術作品
MQ3:數詞復疊式+單個量詞
例:3到6個月、第四、五、六屆全國委員會。
MQ4:數量結構重疊式
例:一片一片、一幅又一幅
MQ5:數量結構復疊式
例:5級—6級偏北風、幾十個甚至上百個國家
MQ6:量詞重疊式
例:座座/m青峰/n
MQ7:單個數詞+形容詞+單個量詞
例:一大摞賀卡、一大麻袋還帶著泥土芳香的花生
與數量結構相比,指量結構的形式則簡單得多。主要有兩種結構形式:
PQ1:指示代詞+QE
例:這項政策
PQ2:指示代詞+MQ
例:這兩個項目
由于名詞或名詞短語間的沖突,使得每條量名搭配在語言學上和算法上呈現出不同的狀態,主要表現為語言學上的歧義關系和算法中的競爭關系。
從語言學角度看,量名搭配有三種歧義類型:
類型1:數量/指量結構之后、終止符之前有多個名詞,而實際上只有一個能與量詞形成合理搭配。
例:給[這項/r活動/n]籌措更多的資金/n
我們專門構建了一部的量名搭配詞典中,讓計算機通過查對搭配詞典基本消解此類歧義。
類型2:數量/指量結構之后、終止符之前有多個名詞,且它們有的或全部都能與QE形成合理搭配。但只有一個名詞與量詞在同一個句法層面上。
例:[多種/m類型/n]的幫困/vn服務/vn小組/n
這種歧義的消解需要在句法層面判定。目前普遍使用的句法分析器一般難以克服這個問題,因此我們試圖引入邊界概率,來解決此類問題。
類型3:選擇哪個名詞與量詞搭配,有時即使在句法層面也無法判定,可以稱作“偽歧義”。(由于基本不影響理解和應用,如機器翻譯等,因此不予進行歧義消解)當然,選擇的結果對語意側重及感知有一定影響。
例:[一些 登山者/n]的 足跡/n
[一些登山者/n的足跡/n]
從算法的角度看,量名搭配中,名詞性短語之間存在著兩種不同的競爭關系,以[第一/m個/q有關/vn軍事/n安全/an磋商/vn機制/n的/u協定/n]為例:
一是搭配詞典內的競爭:即詞典內量詞與多個候選名詞中,哪一個為符合語義語法的正確搭配。如例句中的名詞機制和協定。這種競爭關系可對應于歧義類型2和類型3。
二是搭配詞典外的競爭:即參與競爭的名詞有的可在量名搭配詞典內找到與該句中量詞的搭配條目,有的找不到,如例句中的安全和協定。這種競爭關系可對應于歧義類型1。
該算法的主要策略是:先定位MQN的左邊界;再利用特殊語言規則約束和一般詞例知識來排除非數量名短語結構;最后利用量名之間的搭配概率和中心名詞的邊界概率來進行MQN的自動識別。分為三個模塊進行。其中量名搭配識別模塊最為關鍵和復雜。
該階段,我們采取了三種策略。首先,搭配概率最高的作為中心名詞;邊界概率次之;肯定規則為判定MQN的最后一道標準。在選擇的過程中,只有當本條標準沒有發揮作用時,才能采用下一條標準。在搭配概率的計算中,我們運用了“后退算法”,即先將名詞后退到雙字詞尾,不成功再后退到單字詞尾,還不成功再后退到量詞“個”(因為“個”的搭配范圍最為廣泛),最后將量詞和名詞同時后退。之所以依次后退而不是加權于各參數之上,是由量名搭配在語料中的分布規模和特點所決定的,也是對克服數據稀疏的一個嘗試。
用CP表示搭配概率,用BP表示名詞的邊界概率,Q表示量詞,N表示名詞,i表示候選量名搭配中名詞的序號。則對每一條候選詞串,有如下公式:

注:公式(1)是個四項式,依次表示一次原始查詢和四步后退查詢(見3.1.1.2.)時的搭配概率計算。其中,每項前的λ為加權值。當前后退項的λ值為1,同時其他項的λ值為0。算法優化時,還可考慮對不同項的λ值作不同權重處理。
我們在《人民日報》語料上進行了測試。測試結果的基線(Baseline)是:只利用訓練語料獲取搭配資源即搭配詞典(QNDict),不利用其他任何數據信息和算法,進行識別的精確率(Acc.)、召回率(Cov.)及調和平均值(F)。
評測項目為目前普遍采用的測試評估標準:精確率、召回率和調和平均值。
測試結果顯示,單純依靠搭配詞典而不使用其他信息,識別出的數量名短語少,但是較為準確;使用后退算法以后,召回率提高了近40個百分點,說明其在對未登錄詞的識別上,發揮了較大作用,而且精確率幾乎沒有受到影響;句法規則可以排除掉大量的錯誤而迅速提高精確率,并且,由于肯定規則的采用,也能回收一些可能被淘汰掉的數量名短語;搭配概率和邊界概率一定程度地彌補了后退算法在識別精確度上的不足,通過解決搭配沖突,促成了精確率的提高,并帶動了調和平均值的上升。
對長短距離的數量名短語的識別情況報告:測試語料中有“數量結構+名詞”的數量名短語3878條,占總數的55.8%,自動識別出3705條;“數量結構+n個詞(n>=3)+名詞”的數量名短語1921條,占總數的27.7%,自動識別出412條。由此可見,自動識別的困難主要集中于長距離的數量名短語上。
本文采用了基于相同末字的后退算法來獲取那些不在搭配詞典中的量名搭配,結果證明,這種方法是有效的。使用后退算法后,系統比僅僅依靠搭配詞典多召回近一倍的量名搭配,也直接使得數量名短語的召回率大大提高。由于后退詞典直接在原有的搭配詞典上生成,實際上是一種利用字面相似度的思想,因此這種算法亦可應用于中文信息處理的其他類似工作之中,如其他類型短語的自動識別、特定句式的消歧,等等。
[1]朱德熙.語法講義[M].北京:商務印書館,1982.
[2]李宇明.漢語量范疇研究[M].武漢:華中師范大學出版社,2000.
[3]郭先珍.現代漢語量詞用法詞典[M].北京:語文出版社,2002.
[4]何杰.現代漢語量詞研究(修訂版)[M].北京:民族出版社,2001.
[5]劉學敏,鄧崇謨.現代漢語名詞量詞搭配詞典[M].杭州:浙江教育出版社,1989.
[6]劉瓊竹.數量名主語句的句法分析[J].漢語學習,2000,(10):36 ~40.
[7]劉瓊竹.數量名主語句的語義語用考察[J].湘潭大學學報(哲學社會科學版),1999,(3):54 ~58.
[8]楊愛姣.“數·量·名”定中結構的變異搭配[J].襄樊學院學報,2000,(5):53 ~56.
H109.4
A
1006-5342(2012)01-0047-02
2011-11-13