李德俊 楊曉冬
大多數情況下,人們查詞典不外乎兩個目的: 其一是查詢生字詞的意義,以便理解;其二是查詢字詞(未必是陌生的字詞)的搭配以便使用。以上兩點關涉詞典的釋義和配例,是詞典編纂的核心內容。借助語料庫,釋義和配例都走出了內省的困境,在方法和手段上都發生了革命性的變化。語料庫通過索引行顯示使用中的語言素材,同時也提供了語境。但是,基于索引行的詞典編寫也有一些明顯的缺陷,例如釋讀索引行仍然需要花費大量的時間,特別是當數據過大時,仔細閱讀和分析索引行數據其實是不可行的,大量的有價值信息淹沒在索引行中而得不到利用。研究表明,通過統計方法將索引行數據轉化為包含關鍵詞和搭配的短語級語料,在冗余的信息被過濾掉之后,有價值的信息得以凸顯。短語驅動不僅與索引行驅動的效率相當,而且還可以節約大量的時間。短語驅動是語料驅動的最簡方案。(李德俊 2016)40
廣義上的短語指由兩個及以上詞語組成的語言單位。當代語言學對短語的興趣一直很濃,因此也產生了若干類似的術語,例如搭配(collocation)、語塊(chunk)、詞簇(cluster)、多詞單位(MWU, multi-word unit),等等。搭配一直是語料庫語言學的重要研究領域,同時也是詞典學的主要討論對象之一。但有趣的是,在語言學界對什么是搭配并沒有形成共識,下面的不同定義反映了人們對搭配的理解存在一定差異:
1. 搭配是符合語法的相鄰詞之間的語義兼容關系。(Hartman & James 2000)
2. 搭配是一些語言學家,特別是Firth學派的語言學家在詞匯學領域使用的一個術語,它指詞匯單位的習慣性共現。(Crystal 2008)
3. 兩個或兩個以上的詞在文本中很短距離內的共現。(Sinclair 1991)
4. 搭配是具有統計意義的詞匯共現。(Hunston 2006)
上述定義給我們呈現了搭配研究對象相對混亂的一面,搭配可以僅指固定結構,也可以包括所有具有共現關系的詞語組合,而不論其組合是否具有獨立的語義。Siepmann(2005)認為搭配不僅包含類聯接(colligation),也包括短語。此時,搭配具有了無所不包的性質。
由于對搭配理解的差異較大,語料庫語言學在開創短語研究的新領域時,放棄了搭配這個術語,使用了一個全新的詞匯“phraseology”來表示短語,并將這個新的研究領域稱為“短語學”。1998年,第一部全面論述短語學的著作《短語學: 理論、分析與應用》由牛津大學出版社出版。此后,短語學的研究在語料庫語言學領域逐漸升溫并逐漸成為核心研究內容之一。
目前,短語的定義已經基本趨于統一,它可以定義為: 短語是一個詞匯單位和另一個或幾個詞匯單位的共現,該共現組合具有獨立完整的語義功能(function as one semantic unit),其共現頻率大于理論頻率。(Gries 2008)6短語不僅是心理上的語義共現關系,更為重要的是構成短語的詞語間共現頻率大于理論頻率。這個定義克服了對短語判斷的純主觀性缺陷,是對短語進行統計識別的基礎。
Gries的定義較為全面地概括了短語的特征,據此短語可以是兩個詞構成的詞組,也可以是多個詞組成的詞簇。短語未必相鄰,也可以是不相鄰的結構模板形式(template),例如: x(number) hours drive from y(place)。短語可以是固定詞組,也可以是某些自由詞組。固定詞組包括成語、諺語、歇后語、專門用語、慣用語等;自由詞組指按照語法規則組成的臨時結構,如“紅花、綠葉子、詞典的結構、英國大學”等。“詞典的結構;英國大學”不是短語,因為構成這些詞語串的語詞間是偶然的共現關系,不具有統計學意義,它們是完全自由詞組;與之不同的是,構成“紅花、綠葉子”等詞語串的語詞具有相互吸引的傾向,共現頻率也具有統計學意義,它們是半自由詞組,是短語的一種形式。
短語學與語料庫語言學具有良好的互動關系,2005年10月,來自世界各地的170位學者聚集比利時新魯汶(Louvain-la-Neuve)就短語學的研究展開研討。會議肯定了語料庫語言學對短語學的貢獻,會后出版的3本著作有力推動了短語學研究在世界各地的發展。
正如Granger & Meunier(2008)所言的那樣,今天,短語學正日益成為眾多學科領域的研究中心,不管是傳統的語言教學,還是前沿的自然語言處理領域都是短語學的舞臺。詞典作為指導人們對語言進行解碼或使用語言進行編碼的工具書,短語的價值何在也需要認真思考。
在語料庫語言學、二語習得、自然語言處理等領域,短語的價值受到了普遍的關注,但是在詞典學領域,只有少數學者注意到了短語及短語學的價值。(徐海 2013;李德俊 2014)除了傳統的熟語、固定搭配等之外,非典型的短語并沒有得到重視。例如漢語里的“謹慎樂觀”“互利共贏”“小心臺階”等非典型短語,在翻譯成英語時很可能會給譯者帶來挑戰,“謹慎”有careful, prudent, cautious等譯法,它們是不是都可以和“樂觀”的英文optimistic組成地道的英語表達?這是編碼詞典需要思考的問題。對于解碼詞典來說,短語的價值也是不言而喻的,例如英語里的confidence man也是非典型的短語,其詞義并不能從字面推出,詞典如果不收錄,就會降低詞典的交際價值。以下從語言交際和詞典研編兩個方面來具體談談短語的詞典學意義。
1.基本表義單位
如果對表義單位進行排列,從小到大的順序是義素、詞、短語、小句、語篇。那么哪個該是表義的基本單位?這里說的表義基本單位指的是使用語言組織思想時我們的語言官能習慣使用的語言單位。基本表義單位需要具有模塊化、使用頻率高和無歧義等基本特征。很顯然,只有詞和短語才是基本表義單位的選項。詞是可以獨立使用的最小意義單位,但是在表義的時候,詞有一個天然的缺陷,很多詞的意思通常都是不明確的,例如漢語的“打”,英語的“foot”。除了詞義相對比較固定的技術類詞匯之外,多數詞匯,我們不僅不能明確它們的意思,有時甚至連詞性都無法確定。
短語是比詞高一級的表義單位。Firth(1957)說的“由詞之伴而知其義”充分肯定了短語在詞義顯化中的重要作用。Sinclair也一再強調詞匯不是孤立的,它們相互作用、搭配是詞義形成的關鍵。(Moon 2008)短語還原的是“使用中語言”的最小語境,詞義在該語境中得以顯化。研究表明,詞匯的兩種最重要意義,概念義和情感義,大多可以通過該詞語所處的短語語境而得以明晰。(李德俊 2016)34-35
Sinclair(2004)36-37的習語原則(idiom or phraseological principle)認為語言使用者在理解和造句時遵循的是一套短語規則。有大量的半加工、預處理過的短語如同成品的建筑構件被儲存在使用者的頭腦中,它們在語言的編碼和解碼中發揮著比詞更為重要的作用。我們使用語言很大程度上就是對短語的調用。
通過對語料的統計,研究者發現短語在語言的編碼和解碼中所占比例遠遠超過詞的比例,語料庫語言學家Altenberg(1991)對LLC(London-Lund Corpus)語料庫的抽樣研究表明在總形符中(token),短語所占的比例高達70%。
因為短語同時具有模塊化、使用頻率高和無歧義3個特征,我們認為短語是基本的表義單位。它在言語交際中發揮主要的作用。
2.詞匯和結構共選
對意義的形成起作用的不僅是詞匯,結構也是重要因素。對結構義的關注可以追溯到Fries(1952),在《英語結構》(StructureofEnglish)中,他區分了詞匯義和結構義兩種意義,并指出習得語言就是習得由詞匯組成的結構。Harris(1982)認為形和義(或者說語法結構和語義)是不可分割的,他的理論“算符語法”(Operator Grammar)通過形式推演證明了自然語言是個“自組織系統”(self-organizing system),在這個系統中,詞匯的結構和語義屬性通過與其他詞匯的聯系而得到明確。Harris(1991)還認為,我們對結構的習得是通過語言接觸來完成的。
對“結構”和“句型”的研究催生了若干語言理論,例如“構式語法”(Construction Grammar)、“型式語法”(Pattern Grammar)和“短語學”(Phraseology)。構式體現的是形和義的配對,它是語言社團習慣使用的,并固化在頭腦中的具有符號象征特性的語言單位(symbolic units of language)。構式將形態、詞匯和句法形式與語義、語用和語篇功能相連接。(Goldberg 1995, 2006)型式語法由Hunston等人倡導,基于在COBUILD語料庫建庫和研究時所接觸的大量語言實例和積累的豐富經驗,他們發現每個詞都有屬于自己的型式,在此型式下,該詞匯使用的典型語境得以復現。(Hunston & Francis 2000)短語學由語料庫語言學家提出,它是語料庫語言學所研究的主要內容之一,它不僅強調短語的可計算性,而且更加重視詞匯和結構、型式與意義的共選(coselection)。當我們選擇短語從事言語實踐時,同時就選擇了詞匯、語法和語用關系。(Partingtonetal. 2013)正是由于短語集詞匯和語法結構于一身的特征,短語才具有了消除歧義、語義自足的優點。從簡單搭配foot the bill,到成語take a French leave,再到由固定詞匯和自由選項組成的“模板”(template)“{see} + [out of/from] the corner of [possessive] eye”(Sinclair 2004)171,短語都體現了詞匯和結構共選、型式與意義共選的特征。因此,學會一個短語就同時掌握了該短語的語義,以及它所包含的詞匯搭配關系和語法結構。短語融詞法和語法于一身。
正因為短語在言語交際中的重要作用,所以對于指導言語交際的詞典來說,短語的價值是不言而喻的。
首先,短語是詞典交際力的主要體現。詞典是語內或跨語交際的工具書,由于單個詞語的交際功能弱,不能體現“使用中語言”的特征。特別是對于積極型雙語詞典來說,對詞語的單純釋義并不能對語言的編碼具有可靠的指導作用。以前文的“打”為例,暫且不考慮一詞多義,在“用手或器具撞擊物體”的意義之下,“打”的英文釋義為“strike; hit; knock; smash”。(《新時代漢英詞典》)如果不提供短語作為例證,單憑這些釋義詞很難為諸如“打翻;打更;打鼓;打屁股”等短語的翻譯提供幫助。對于雙語詞典來說,短語收錄的多寡與詞典編碼交際力休戚相關。再看一個詞典指導語言解碼的例子。《柯林斯COBUILD高級英漢雙解詞典》(2009)對英文單詞call用了4個版塊來處理,前3個為call的義項大類,最后列出的是短語動詞。該詞典共列出與call相關的短語10多個,有些短語的意義很難從字面推理得出,例如call off。短語收錄的質量不僅影響詞典的編碼能力,也與詞典解碼交際力成正相關。對于意義不能自明的短語來說,如果漏收錄,將會對詞典交際力產生很大影響。例如:
Meanwhile the defence ministry, which calls the shots on such vital questions as procurement and promotions, is staffed with career bureaucrats and political appointees.
在這句話中,對理解起關鍵作用的是短語“call the shots”,只有知道其義為“做決斷、做主”,才能理解這個英文句子的意思。《柯林斯COBUILD高級英漢雙解詞典》并沒有列出這個短語,不能不說是一種遺憾。
作為基本表義單位,短語也是基本的認知單位;在跨語交際時,它又是基本的翻譯單位。因此,不論是對于服務于母語學習者的普通語文詞典,還是學習詞典或者翻譯詞典,短語的收錄與詞典的交際力都息息相關。
其次,短語是語料驅動釋義的抓手,使用短語驅動可以獲得最佳收益。短語的釋義功能還體現在一詞多義的分辨上,由于短語提供了分辨詞義的最小語境,義項的分析也可以在短語語料的基礎上來進行。基于索引行的釋義和義項分辨固然可行,但因為索引行的固有缺陷,對索引行的分析需要花費大量的時間。當索引行被進一步濃縮為短語后,冗余信息被過濾,關鍵信息得以凸顯。短語驅動是釋義和義項分辨經濟且高效的選項。
再次,短語收錄與詞典的經濟性也有密切關系。由于釋義并不能指導語言使用,需要發揮例證的輔助釋義功能。短語比句子具有更好的經濟性,在短語能滿足指導語言使用的前提下,不需要收錄完整的句子。
短語的識別有兩個基本方法: 人工識別和自動識別。從目前的技術條件來看,自動識別的精度低于人工識別。但是,人工識別只適合于小規模的文本,針對大型語料庫的短語識別必須采用自動識別的方式。短語自動識別也是語料庫工具軟件必須具備的功能。
短語的自動識別主要基于統計值,最簡單的判斷短語的方法就是依據節點詞和搭配詞在一定跨距內的共現次數。Wordsmith將次數門檻(threshold)設為5,即在設定跨距內如果某個詞與節點詞的共現次數達到5次或以上即為短語。圖1是Wordsmith(Version 7.0)識別的與節點詞NATURA相關的、頻率最高的10個搭配詞(語料由西塞羅作品組成,共計137932個形符):

圖1 與NATURA共現頻率最高的10個搭配詞
從圖1可知,10個頻率最高的搭配詞基本都是介詞、連接詞等功能詞,它們與節點詞的共現既沒有詞典學意義,也沒有統計學意義。它們并不是詞典編纂所需要的短語,突出的共現頻數只是由于et,a,est,ut等詞匯在語料庫文本中的超高頻使用所致。為了克服簡單頻數這一缺點,語言學家設計出了一些實用的計算短語的統計學方法。
Evert(2004)提出過30多種統計算法。Wordsmith(Version 7.0)工具識別短語使用了7種方法,其中Z值測量法、T值測量法和MI(Mutual Information)值(互信息值;互信息熵;MI值)測量法最為常用。此外,Dice系數也是甄別短語的重要方法。Dice系數介于0至1之間,數值越大表示搭配力越強。
使用上述統計方法,大于門檻值(具有統計意義)的共現得以凸顯,大多數簡單頻率高的搭配詞會被過濾。例如使用Z值,以ORATIO為節點詞,從當前語料庫中可以識別出NUMEROSA ORATIO,OMNIS ORATIO,VIDETUR ORATIO等短語,隨著語料庫容量的增大,識別的短語會越來越多。從理論上說,只要語料庫達到一定規模,與節點詞(例如ORATIO)相關的搭配詞都蘊藏在其中,提取短語就是一個數據挖掘的過程。
表1是以ORATIO,NATURA和SOLUM三個拉丁詞為節點詞,通過不同統計值識別所得的短語數量。

表1 四種統計方法所得的顯性共現詞語數量[1]
從表1可知,使用MI值時,所獲得的共現詞語對數量最多,T值最接近平均數,基于Dice系數的共現詞語對數據最為穩定。
以ORATIO為例,從ORATIO的共現詞匯來看,在通過4種不同方法得到的排序最前的40個詞匯中,有11個是相同的,分別為: omnis (general), nostra (our), numerosa (numerous), videtur (it seems good), habetur (deemed), tua (your), philosophorum (philosophers), fit (is), ratione (reason), autem (however), debet (should)。4種方式識別的一致性比率為27.5%。
在針對ORATIO的短語識別中,T檢驗方法將部分功能詞和關聯詞判斷為具有共現關系,例如et (with),si (if),quod (and),aut (or)和verum (but)等,其他3種短語識別方式都沒有此種情況。使用T檢驗法,MOLLIS (FLEXIBLE)與ORATIO (SPEECH)的共現T值為1.41,不具有統計意義,而另外3種統計方法都將其識別為最常用的20個共現詞語。這表明T檢驗的識別精度相對較差。Z值和Dice系數(設系數為0.03時)識別的數量相當,MI值識別的數量最多。
再以NATURA為節點詞,基于本研究所使用的西塞羅作品語料庫,通過上述4種短語識別方法獲取的基本數據如下:
1. 識別的短語數量依次為: MI值>T值>Z值>DICE系數。
2. T值和DICE系數識別的前50個共現詞語大多數為功能詞,與NATURA的共現沒有詞典學意義。Z值和MI值識別的前50個詞以實義詞為多,其中多數具有詞典學意義。
3. 在前20個被識別的詞語中(見表2),Z值和MI值識別的一致率達到80%,其中多數具有詞典學意義或為實義詞,例如DEPRAVATA, ABHORRERE, ADHIBENTEM, PARABILES, CERTOS, CONIUNCTOS, REPUGNANTE等。

表2 MI值與Z值算法識別的前20個共現詞語
SOLUM的情況與ORATIO和NATURA類似,也表現為MI值識別數量最多,T值較大的(排序靠前的)多為功能詞等特征。根據以上3個節點詞短語識別的數據,我們對常用識別方法總結如下: 不同識別算法在識別精度和效率方面有一定差異,T值較差,可以在實際短語識別和提取中放棄該算法;Dice系數在識別具有詞典學意義的短語時,效果也不穩定,排序靠前的識別結果也有較大噪音;MI值和Z值短語識別的效度較好,可以將它們作為短語識別的首選方法。MI值和Z值最大的區別在于短語識別的數量不同,為了取得最佳效果,可以將兩者綜合起來使用,以取舍短取長之效。
基于統計的短語識別是目前短語自動識別最為有效的方法,但該方法也存在下列幾個不足:
1. 算法本身的缺陷。各種算法都有過度匹配的問題,其中以互信息值算法最為嚴重。例如: HABEAMUS,VI,A,FINIS,SIVE等與NATURA的共現關系。
與過度匹配相反的是數據稀疏帶來的關鍵短語統計值不具有顯著意義和漏識別的問題,例如上文提到的MOLLIS和ORATIO的T值問題。同樣使用T值,以NATURA為節點詞,也有很多具有詞典學意義的短語被排除在外,如HUMANI(T值為1.38),COMMUNIA(T值為1.37),PERSPICUUM(T值為1.37)等。
以上問題是統計識別的共性問題,增加語料可以解決數據稀疏的不足,但過度匹配暫時難以解決。
2. 跨距設定的悖論。目前普遍認為跨距為4或者5比較合適,Wordsmith默認值為5。從語言的實際情況看,短語共現的跨距是不固定的,跨距小會過濾掉大量短語,跨距大則會導致短語的過度識別。
3. 語料庫工具在詞形還原方面的缺陷。基于統計的搭配識別需要獲得節點詞、搭配詞的頻數及它們的共現次數等數值,目前這些數值都依靠相關軟件獲得。以Wordsmith為例,它所生成的數值有時并不可靠。例如NATURA,NATURAM,NATURAE是同一個詞形(lemma),但是Wordsmith將它們作為不同的詞形列出,當數據差異較大時,短語識別的結果不可避免會產生誤差。在詞形還原(lemmatization)問題得以解決之前,此缺陷難以避免。
對短語的記錄任務通常由詞典(紙質詞典或機器詞典)來承擔,但是在詞典學領域,詞典理論家和編纂者長期以來主要關注相對較為固化的表達。(Gries 2008)3因此,詞典對短語的記錄任務還遠遠沒有完成,大量的短語被有意或無意地排斥在詞典收錄范圍之外。由于短語在語言交際中的重要地位,積極型的編碼詞典和面向語言理解或智能翻譯的機器詞典都應該多收錄短語。
基于語料庫的短語識別主要是自動識別,人工識別處于輔助地位,只有在對結果進行梳理時,人的判斷才真正有價值。雖然自動識別目前還有一些不足,但總的來說,短語自動識別的結果還是可靠的。短語的漏識別是對自動識別的嚴峻挑戰,但隨著語料容量的增加,數據稀疏問題會得以解決。過度匹配并不是嚴重的問題,人工梳理階段可以剔除沒有詞典學意義的短語。
本文的研究主要針對拉丁語,但由于西語多以拉丁字母為基礎,有屈折變化,詞語間不需要分詞處理等共性,因此,該研究的結論有普遍性意義,同樣適合其他以拉丁字母編碼的語言。
附注
[1] 本文所言的“顯性共現”值指具有統計意義的T值、Z值和MI值,分別為T值大于等于1.645(p值為0.05),Z值大于2,MI值大于3。本研究中,Dice系數大于0.03被認定為顯性共現。