○黃俊超
詞條義項分合的標(biāo)準化檢驗方法
○黃俊超
摘要:義項的劃分需要明確一點:客觀問題與主觀問題的階段性,即由客觀問題的處理到主觀問題的處理,是一前一后的階段性操作??陀^問題即指沒有共時語義關(guān)系的義項切分問題,主觀問題即指具有共時語義關(guān)系的義項分合問題。假設(shè)義項劃分存在這兩個問題,那么通過以下三個步驟可以實現(xiàn)劃分:1.最小義項切分。2.局域識別。3.義項離合檢驗。為了做到標(biāo)準化的檢驗,第三步可以通過在語料庫中進行統(tǒng)計檢驗來實現(xiàn)。
關(guān)鍵詞:義項分合義項劃分統(tǒng)計檢驗
在詞典編纂中需要對多義詞進行分項說明,這就涉及到義項的劃分。但基于義位的義項劃分并不適用(符淮青,1998),并且各類詞典也并未完全按照義位進行義項劃分。雖然不同詞典的同一詞條其釋義大同小異,但擁有的義項數(shù)還存在差異。一個詞應(yīng)該有多少個義項,義項A和義項B是否應(yīng)當(dāng)合并為同一個義項,義項C是否應(yīng)該分拆D、E等次義項等問題都是值得探討的。因此,制定一種更為標(biāo)準化、步驟化、可重復(fù)操作的義項劃分方法顯得尤為重要。根據(jù)這一思路,本文吸收現(xiàn)有的義項劃分成果,基于義項劃分中的客觀切分與主觀分合假設(shè),利用語料庫統(tǒng)計的方法,制定出一套可操作的、步驟化的義項分合檢驗范式。通過步驟化操作,可以針對某詞條現(xiàn)有的義項劃分給出適當(dāng)與否的評判,由此得到一個基于語料使用的詞條義項劃分。
義項作為詞典學(xué)的使用術(shù)語,是辭書中一個詞的釋義條目,這些條目的劃分表現(xiàn)出了兩面性,一方面具有客觀性,另一方面具有主觀性。義項的劃分具有主觀性,這一觀點可以從辭書的對比中找到依據(jù),同一個詞在不同的辭書中可能會有不同的劃分。而支持義項劃分具有客觀性的人則認為,雖然不同辭書的義項劃分可能不同,但這種不同是大同小異,即基本的義項類別在劃分上是客觀的。
實際上,義項劃分所表現(xiàn)出的主觀性與客觀性,實則是相容的,二者并不矛盾,因為它們并非處在義項劃分的同一時間段上。要理解這一觀點,就需要弄清楚客觀性和主觀性的基礎(chǔ)是什么。
首先,義項實際上找不到一個實際的語言單位與之對應(yīng)。雖然義位與義項是一對極其容易混淆的概念,但并不能說義項在語言中的對應(yīng)單位就是義位。符淮青(1998)就指出過義位的分合具有客觀性,不能隨意分合;而義項則是根據(jù)辭書編纂者的經(jīng)驗、詞語使用現(xiàn)狀有策略地分合,具有主觀性,因而義項和義位是不對應(yīng)的兩個概念。
其次,需要知道,義項分合時常是一個局部問題而非全局問題,亦即涉及義項分合的區(qū)域通常并不是整個詞義,而是詞的多個義項當(dāng)中的某幾個義項需要考慮分合問題。例如詞W擁有A、B、C、D、E五個最小義項[1],可能A、B和C、D、E具有明顯差異,因而A、B與C、D、E是相對獨立的,義項劃分中不會出現(xiàn)A、B與C、D、E的交叉義項。而其中的A、B可能存在分合問題,C、D、E可能存在分合問題。這些問題都是局部問題,通常不涉及到A、B、C、D、E整體的分合。這個現(xiàn)象的原因大多在于詞的歷時性,一個詞的義項可能由于年代、來源成分的差異而顯得毫無關(guān)聯(lián),或者至少在共時層面上找不出關(guān)聯(lián),那么A義項就很容易與B義項區(qū)分開來,并且沒有爭議。例如《現(xiàn)代漢語詞典》[2]關(guān)于“木”的釋義:
(1)木:①樹木②木頭③棺材④質(zhì)樸⑤{形}反應(yīng)遲鈍⑥{形}麻木⑦(名)姓
其中①②是不可能與③④⑤⑥⑦釋義合并的,因此不存在關(guān)于①②③合并為一個義項的爭議,只有①②之間存在合并的爭議。可見義項分合的研究對象往往不是詞義的全局而是局部,當(dāng)排除掉一些不在局域內(nèi)的義項后,義項的分合問題才面臨了真正的對象。而這些義項之所以難以分割,是因為它們可能具有引申、比喻、交叉、包蘊等關(guān)系,例如《現(xiàn)漢》里的“節(jié)日”“大雁”:
(2)節(jié)日:①紀念日,如五一國際勞動節(jié)等。②傳統(tǒng)的慶?;蚣漓氲娜兆?,如清明節(jié)、中秋節(jié)等。
大雁:①鴻雁(鳥名)。②泛指雁類。
“節(jié)日”的兩個義項間有著交叉關(guān)系,大雁的兩個義項之間有著包蘊關(guān)系。總之義項間要具備“語義關(guān)系”才可能引起分合問題,否側(cè)義項的分合問題實際上是不存在的,“關(guān)系”是串聯(lián)起義項的橋梁。
根據(jù)以上兩點可知,客觀性與主觀性的基礎(chǔ)不是任何語言單位,而是一種關(guān)系,即共時語義關(guān)系。當(dāng)語義關(guān)系增強時,分合的主觀性就會增強,當(dāng)語義關(guān)系減弱時,客觀性就會凸顯。這也就是為什么義項的劃分表現(xiàn)出“主客觀兩面性”的特點。
由此,義項劃分應(yīng)至少由兩個步驟來完成對主觀問題和客觀問題的處理:一步用以處理客觀性問題,即義項的切分處理;一步用以處理主觀性問題,即義項的分合處理。并且客觀性問題的處理要先于主觀性問題的處理,這是由于客觀性是全局的,而主觀性是局部的。我們將這兩個步驟實現(xiàn)為“局域識別”和“分合檢驗”。局域識別依據(jù)義項的客觀性劃分出“分合”的對象,分合檢驗解決義項分合的主觀性問題,讓分合更符合語言使用現(xiàn)狀。例如義項A、B從各項應(yīng)用指標(biāo)都反映出它們具有顯著獨立的使用[3],那么毫無疑問A、B應(yīng)拆分為兩項,反之合為一項。這里的“指標(biāo)”實際上是指義項中特有義征[4]的獨立性,而獨立性的度量是用某義項在語料中的使用比例來測度的。如果在實際語言運用中,某幾個義項并沒有達到足夠獨立的使用比例,那么該義項就不具有獨立性,應(yīng)當(dāng)合并;反之,則具有獨立性,可以分別獨立為一個義項。
需要指出的,上述分析中使用的A、B、C、D、E是最小義項。最小義項是一個操作單位,不是對應(yīng)特定語言單位的術(shù)語。最小義項是義項的極限取值,也就是把可能成為義項的詞義都切分出來作為一個義項。有了最小義項才可能討論義項的分合問題,也就是說最小義項是實際的研究對象。并且最小義項的切分實際是在提前處理義項中“分”的問題,進而把義項的分合問題簡化為義項的合并問題,之后只需尋找義項的合并理據(jù)。最小義項這一概念的難點在于概念的界定以及如何得到最小義項。由于義項不同于語言學(xué)中的義位,單憑義素作為劃分義項的標(biāo)準是行不通的。義項有時反映一個義位,有時則是多個義位的綜合反映,例如“航船”的兩個義項分別反映了一個義位:
(3)航船:①江浙一帶定期行駛于城鎮(zhèn)之間的載客運貨的木船。②泛指航行的船只。
義項最大的特點是其包含的義位具有非完整義位的特點,也就是說義項可能包含一些其他的義素、義征,但不必滿足義位的完整性,義征并沒有構(gòu)成義位,形象地說,義項可能會包含1.5個義位。例如《現(xiàn)漢》的“吃白飯”一詞:
(4)吃白飯:①吃飯時光吃主食不就菜。②吃飯不付錢。③只吃飯而不干活(多指沒有工作),也指寄居別人家里,靠別人生活。
義項②③共享了一個義位“不付錢”,但其中義項③是作為一種特殊的社會意義來表達的,因此只算是一種引申,那么就不是多個義位的組合,但義項③又包含著“[依靠他人]”等義征,由此可見,實際上義項③包含的義位是大于①小于②的。
因此,最小義項應(yīng)該是至少包含一個義位的義項,而其義位以外的義征越少,這個義項也就越獨立,進而也就越接近最小。那么區(qū)分最小義項的標(biāo)準就不是義位而是義征。
以上對最小義項的敘述僅是一種假設(shè),并且難以操作。為了在義項分合問題的處理中獲得與最小義項近似的“基元”,我們將選用一種簡便的方法,通過綜合不同辭書的義項劃分,給出一個最小義項的切分。這種方法看似隨意,但它實現(xiàn)了兩點:一是足夠小,二是劃分可用性高?!白銐蛐 敝赋?,通過這種方法得到的義項是在可觀察到的材料中劃分最小的?!皠澐挚捎眯愿摺敝赋?,這種方法是基于現(xiàn)有辭書成果而進行的合理歸并,因此可以避免由于新方法的介入導(dǎo)致劃分不當(dāng)?shù)膯栴}。
據(jù)上述,義項分合問題將采用基于語料庫的統(tǒng)計方法來解決。總體來說,這一工作需要三個步驟:最小義項切分、局域識別、義項離合檢驗。
局域識別的工作是剔除掉不在分合問題范圍內(nèi)的義項,把那些沒有“關(guān)系”的義項直接獨立出來,不再列入檢驗范圍。這一步可能有如下結(jié)果:
圖1:

如圖1,當(dāng)義項經(jīng)過局域識別后,剩下的C、D、E才會進入到分合檢驗的環(huán)節(jié),而A、B分別獨立為兩個義項,又因為A、B是最小義項,因而不再繼續(xù)分析。例如《現(xiàn)代漢語詞典》中“目”的釋義:
(5)目:①眼睛②網(wǎng)眼③<書>看④大項中再分的小項⑤生物學(xué)中把同一綱的生物按照彼此相似的特征分為幾個群叫做目,如鳥綱中有雁形目、雞形目、鶴形目等,松柏綱中銀杏目、松柏目等。目以下為科⑥目錄⑦名稱⑧計算圍棋輸贏的單位
其中①②③具有相關(guān)性,④⑤具有相關(guān)性,⑥⑦⑧不具有相關(guān)性,因此可以作如下劃分:
①②③||||④⑤||||⑥||||⑦||||⑧
存在分合爭議的義項只在①②③和④⑤的內(nèi)部,⑥⑦⑧并不參與分合檢驗,可直接分別獨立為一個義項。
得到局域內(nèi)的義項后便需要進行義項的分合檢驗,這一步采取的是基于義征標(biāo)示的離合度檢驗方法。依據(jù)具有不同義征的義項的使用率,以評價義征所標(biāo)示的義項的獨立程度。每個義項只提取出一個特有義征作為標(biāo)示,在語料庫中檢索出含有該詞局域內(nèi)義項的語料,逐一進行義征的標(biāo)示,統(tǒng)計使用頻數(shù)。進而利用語料總數(shù)得到義項的實際使用比例。這一步需要將不同的義項看作是不同的總體,理由有二:第一,由于這一步檢驗的對象都具有一定程度的相關(guān)性,因此不宜對其進行相關(guān)性檢驗,將不同義項看作獨立的總體,轉(zhuǎn)而檢驗總體間的差異性更為合理;第二,義項的分合關(guān)鍵在于義項的使用狀況與其他義項有無差異,如果一個義項的使用明顯弱于局域內(nèi)的其它義項,那么就應(yīng)該被合并[5]。將義項看作獨立的總體后便進行假設(shè)檢驗:
第一,取實用頻數(shù)與總語料數(shù)的比值作為樣本的比例ρ,并近似看作總體的比例π(條件允許的情況下可使用多樣本給出比例的點估計或區(qū)間估計,可提高比例的真實性)。
第二,假設(shè)兩個總體比例相等(因為此處的義項為最小義項,基于釋義的精準要求,在此將“比例不等”看作是小概率事件,即采取不輕易合并義項的策略)。
“吃”在《現(xiàn)漢》中共有8個義項:①{動}把食物等放到嘴里經(jīng)過咀嚼咽下去(包括吸,喝)②{動}依靠某種事物來生活③{動}吸收(液體)④{動}消滅(多用于軍事、棋戲)⑤{動}承受⑥{動}受;挨⑦{動}耗費⑧{介}被(多見于早期白話)。
《新華》中共有9個義項:①.把東西送進口中咽下,或依靠某種事物生活②消滅(多用于軍事、棋奕)③吸④感受⑤挨⑥承受,支持⑦船身入水的深度⑧被⑨說話結(jié)巴
按照項數(shù)最大化、義項最小化的原則,得到11個最小義項:
①{動}把食物等放到嘴里經(jīng)過咀嚼咽下去;②{動}依靠某種事物來生活;③{動}吸收(液體);④{動}消滅(多用于軍事、棋戲);⑤{動}承受;⑥{動}受;挨;⑦{動}耗費;⑧{介}被(多見于早期白話);⑨{動}吸,喝;⑩{動}船身入水的深度;說話結(jié)巴;
經(jīng)過局域識別后可以得到如下排列:
①⑨||||③||||②||||④||||⑤⑥||||⑦||||⑧|||| ⑩||||
可見,即使多達11個最小義項的詞,在經(jīng)過局域識別后,實際上涉及到分合問題的義項并不多,因此局域識別是義項劃分中的重要一步。接下來,只需處理義項①和⑨、義項⑤和⑥的分合問題。將①的義征標(biāo)示為[咬],⑨標(biāo)示為[吸],使①、⑨得以區(qū)別;⑤標(biāo)示為[中性],⑥標(biāo)示為[貶義],使⑤、⑥得以區(qū)別;這一步的作用是使相近的義項得以區(qū)分開來,然后利用語料庫[6]統(tǒng)計到,在1000條語料中①的頻數(shù)為442、⑨的頻數(shù)為17,⑤的頻數(shù)為6、⑥的頻數(shù)為13,因此:
ρ1=0.442,ρ9=0.017
ρ5=0.006,ρ6=0.013
進而提出假設(shè):
H0:π1=π9,H1:π12≠π9
H0:π1=π6,H1:π5≠π6

ρ1與ρ9的z值 = 23.611
ρ1與ρ6的z值 = -1.75
根據(jù)決策準則可知,在顯著水平為0.05的條件下,ρ1與ρ9的z值落入拒絕域,ρ5與ρ6的z值落入接受域,由此推斷義項①和⑨的比例差異較大,即一個使用頻率高一個使用頻率低,不宜將小比例的義項⑨單獨立為一個義項;義項⑤和⑥的使用差異不大,亦即兩者均等,因此可以分別獨立出來。
最終“吃”的義項劃分為:
①{動}把食物等放到嘴里經(jīng)過咀嚼咽下去(包括吸,喝);②{動}依靠某種事物來生活;③{動}吸收(液體);④{動}消滅(多用于軍事、棋戲);⑤{動}承受;⑥{動}受;挨;⑦{動}耗費;⑧{介}被(多見于早期白話);⑨{動}船身入水的深度;⑩{形}說話結(jié)巴;
義項劃分應(yīng)當(dāng)明確區(qū)分出兩個問題,一個是客觀性問題——局域切分,另一個是主觀性問題——分合檢驗。而義項分合問題只有在劃分出局域后才面臨真正的對象。由于此時的義項具有相關(guān)性,而義項本身又難以找到客觀的語言單位與之對應(yīng),因此適合從應(yīng)用的角度進行檢驗,其首要標(biāo)準就是該義項的使用比例。由于之前已經(jīng)剔除掉了非局域成員,因此不會出現(xiàn)某低頻義項由于使用率低而無法獨立的情況。需要指出的是,利用統(tǒng)計方法進行使用率的檢驗,雖然在一定程度上可以改善義項分合的任意性,但這種方法也有很大的局限性,例如樣本容量較小時易出現(xiàn)不當(dāng)劃分,實用頻數(shù)過低時義項劃分的波動性也會增大。并且由于義征標(biāo)示的工作量較大,因此在大規(guī)模的辭書編纂中不宜使用此類方法,相較于辭書編纂,在義項劃分的合理性評判等小規(guī)模問題的處理中更具有操作性。
注釋:
[1]“最小義項”概念的在下文介紹。
[2]使用《現(xiàn)代漢語詞典》第六版,以下簡稱《現(xiàn)漢》。
[3]此處的“使用”不是語法上的分布,而是參考語料分布的使用情況。
[4]在下文“最小義項”的討論中將解釋“特有義征”的作用。
[5]此處的前提是經(jīng)過了局域劃分的義項。當(dāng)義項經(jīng)過局域劃分后,義項間的差異就是主觀的而不是客觀的,因此才依據(jù)使用狀況來判斷分合。
[6]語言文字應(yīng)用研究所語料庫網(wǎng)絡(luò)版http://www.cncorpus.org。
參考文獻:
[1]符淮青.詞義單位的劃分[J].漢語學(xué)習(xí),1998,(4):26-32.
[2]符淮青.義項的性質(zhì)與分合[J].辭書研究,1981,(3):86-94.
[3]黃彬.義項劃分的依據(jù)與標(biāo)準[J].辭書研究,2005,(5):31-36.
[4]金立鑫.語言研究方法導(dǎo)論[M].上海:上海外語教育出版社,2007:102-117.
[5]賈俊平.統(tǒng)計學(xué)(第四版)[M].北京:中國人民大學(xué)出版社,2009:231-233.
[6]劉哲.《現(xiàn)代漢語詞典》義項劃分芻議[J].辭書研究,2002,(2):12-15.
[7]李安.對義項設(shè)立是否貼切的一種檢驗方法——詞義標(biāo)注對詞典編纂的一點啟示[J].辭書研究,2012,(3):28-31.
[8]尹潔.義項界說綜論[J].辭書研究,2013,(3):21-29.
[9]楊金華.釋義·義項劃分·義項排列 (上)——《現(xiàn)代漢語詞典》和《小羅貝爾法語詞典》的對比初探[J].辭書研究,1987,(4):98-105.
[10]章宜華.多義性形成的認知機制與詞典義項的處理——兼談多義詞的語義理據(jù)及詞典義項的解讀[J].廣東外語外貿(mào)大學(xué)學(xué)報,2005,(3): 13-18.
[11]章宜華.語義·認知·釋義[M].上海:上海外語教育出版社,2009.
[12]趙學(xué)清.古漢語辭書義項處理的客觀性和主觀性[J].辭書研究,2004,(2):22-30.
[13]鄒酆.論義項的概括與“分合”[J].辭書研究,1980,(4):197-208.
(黃俊超西南民族大學(xué)文學(xué)與新聞傳播學(xué)院610041)
基金項目:(西南民族大學(xué)中央高?;究蒲袠I(yè)務(wù)費專項資金項目“詞條的義項分合標(biāo)準化檢驗研究”,項目編號:[2015ZYXS56]。)