摘 要:語料庫語言學(xué)的方法在詞典編纂中的應(yīng)用已有三十年的歷史了,但漢語研究中對(duì)其應(yīng)用仍顯不足。《現(xiàn)代漢語常用實(shí)詞搭配詞典》的編纂,是對(duì)語料庫語言學(xué)方法應(yīng)用的一種嘗試。由于這部詞典是以第二語言學(xué)習(xí)者為對(duì)象的,所以選詞范圍限制在《漢語水平詞匯與漢字等級(jí)大綱》的8822詞中的實(shí)詞,釋義盡量簡(jiǎn)明、有代表性。采用的是基于語料庫數(shù)據(jù)的方法,即從語料庫出檢索出某一實(shí)詞的所有搭配結(jié)構(gòu),并且在人工干預(yù)下描繪出它的搭配詞的語義類別,并舉出其有代表性的搭配結(jié)構(gòu)和范圍。
關(guān)鍵詞:語料庫 搭配 關(guān)鍵詞 搭配詞
一
《現(xiàn)代漢語常用實(shí)詞搭配詞典》①是一部專門為第二語言學(xué)習(xí)者學(xué)習(xí)漢語編纂的實(shí)用型詞典。由于第二語言學(xué)習(xí)者缺乏漢語語感,再加上不同的詞語有不同的搭配詞,搭配中有詞性、詞義、詞形和語用等制約因素,所以有時(shí)學(xué)生即使明白了詞義,在使用中也常常會(huì)出現(xiàn)搭配不當(dāng)?shù)默F(xiàn)象。對(duì)外漢語教學(xué)工作的實(shí)踐證明,相當(dāng)多的語句偏誤出現(xiàn)在搭配上,這種搭配不僅表現(xiàn)為語法搭配,更表現(xiàn)為語義搭配。現(xiàn)有的幾部搭配詞典,雖然介紹了語法搭配,列舉了搭配詞條,但對(duì)于搭配詞的語義類別沒有概括,舉例代表性不夠,所以留學(xué)生在學(xué)習(xí)中沒有很好的參考工具,因此,編寫一部適用于以漢語為第二語言的學(xué)習(xí)者的搭配詞典,就顯得尤為重要。在這部詞典中,不僅指出了某個(gè)詞常常和哪類詞搭配,而且概括出搭配詞的語義類,然后再列舉其有代表性的結(jié)構(gòu)。同時(shí)對(duì)有些詞還概括出語音搭配,即兩個(gè)搭配詞的音節(jié)和諧問題。另外,在語用方面也有所兼顧,如有的詞書面語色彩突出,在詞典中都有說明。
因?yàn)樵~典的使用群體是留學(xué)生,所以收詞范圍、釋義等都以《漢語水平詞匯與漢字等級(jí)大綱》8822個(gè)詞為參照。具體特點(diǎn)如下:
(一)收詞和釋義:詞典以漢語水平考試大綱中的8000多個(gè)詞為基礎(chǔ),剔除虛詞、單純的構(gòu)詞成分以及個(gè)別搭配特點(diǎn)不明顯的實(shí)詞。釋義可參考各類工具書和各種對(duì)外漢語教材,盡量適合以漢語為第二語言學(xué)習(xí)者學(xué)習(xí)階段的水平,力求淺顯簡(jiǎn)約,使用最常用最基本的少量核心詞,具體標(biāo)準(zhǔn)就是將釋義用詞的范圍控制在漢語水平考試大綱中的3000余個(gè)甲、乙級(jí)詞語范圍之內(nèi)。
(二)搭配結(jié)構(gòu)的選擇:考慮到外國(guó)人學(xué)習(xí)漢語的需要,本詞典不反映詞目的全部語法功能,所收詞目不列舉其全部搭配結(jié)構(gòu),只選收外國(guó)人學(xué)習(xí)漢語時(shí)容易出現(xiàn)問題的搭配結(jié)構(gòu)和代表性的結(jié)構(gòu),并概括出搭配詞的語義類。
(三)搭配結(jié)構(gòu)的排列:詞典分義項(xiàng)列舉詞目的搭配情況首先根據(jù)詞語的搭配能力,分別列舉詞目與不同類詞語的自由搭配情況。自由組合盡量指明搭配范圍(即概括出搭配詞的義類),并舉例列舉(列舉搭配詞語有代表性),有一定限制性的組合盡量列舉全部搭配詞語。例句基本不出現(xiàn)。
(四)不能搭配的結(jié)構(gòu):搭配項(xiàng)列舉完后,可根據(jù)留學(xué)生使用詞語的情況,注明詞目不與哪類詞語搭配以及其他需要注意的事項(xiàng),以▲標(biāo)出。②
二
在詞典編纂過程中,擬采用語料庫數(shù)據(jù)支持的方法,主要有基于語料庫數(shù)據(jù)的方法(data-based approach)和語料庫數(shù)據(jù)驅(qū)動(dòng)的(data-driven approach)方法。這兩種方法從語料庫語言學(xué)的興起開始,已經(jīng)有30年的歷史了,其中卓有成效的研究有(Jones Sinclair,1974;Sinclair 1987、1991、1996;Kjellmer,1984、1987、1991;Kennedy,1990)。之所以采用語料庫語言學(xué)的方法,是因?yàn)樵~語搭配中呈現(xiàn)出共現(xiàn)性、相對(duì)穩(wěn)定性和不可解釋性,這些特征有的可以從語法、語義的角度加以解釋,但有些是人們長(zhǎng)期習(xí)用的結(jié)果,表現(xiàn)出一些統(tǒng)計(jì)學(xué)特征,統(tǒng)計(jì)學(xué)特征就需要語料庫證據(jù)的支持,才能更全面。因此,有了合適規(guī)模的語料庫,就可以全面、準(zhǔn)確、快速地完成編纂任務(wù),再也不用像《English Collocation Dictionary》那樣歷時(shí)二十年才編纂成書了。
語料庫的建設(shè),這是編纂搭配詞典的基礎(chǔ)平臺(tái)。目前語料庫建設(shè)已經(jīng)完成,建庫時(shí)既利用了現(xiàn)有的語料庫成果,又增加了一些適用于留學(xué)生的語料,其中既有各類學(xué)校編寫的對(duì)外漢語教材,又有現(xiàn)當(dāng)代漢語語料。題材、各類語料的比例力求科學(xué)合理。有了語料庫以后,具體方法的運(yùn)用主要采用基于語料庫數(shù)據(jù)的方法。
類聯(lián)接是詞語搭配研究中的一個(gè)重要概念,是“語法范疇在句法結(jié)構(gòu)上的相互關(guān)系”(Tognini Binelli 2001:5)。它不是指具體詞與詞的搭配,而是詞的語法類別之間的搭配,如V+N、ADV+AD、N+N等都是類聯(lián)接。在此搭配詞典中,是以詞項(xiàng)為中心,將要研究其搭配結(jié)構(gòu)的詞項(xiàng)稱為關(guān)鍵詞,參照類聯(lián)接框架,觀察、概括和描述詞項(xiàng)的搭配。
索引(concordance),是語料庫中含有所研究的關(guān)鍵詞的句子。采用索引軟件即可進(jìn)行索引。將要研究的關(guān)鍵詞輸入計(jì)算機(jī),計(jì)算機(jī)就會(huì)按照編好的程序列舉出索引。目前,國(guó)外的Brown、COB等語料庫都可以利用索引軟件直接查詢。國(guó)內(nèi)有北京大學(xué)漢語語言學(xué)研究中心的現(xiàn)代漢語、古代漢語、漢英雙語語料庫。
三
語料庫建設(shè)完成以后,可用索引軟件從語料庫中尋找含有某一關(guān)鍵詞的所有索引,從索引中尋找搭配結(jié)構(gòu)。關(guān)鍵詞有詞性的區(qū)別,可按照詞性將索引進(jìn)行粗分類,將同一詞性的視為一類,然后按類歸納。同一詞性的詞有單義與多義之分,對(duì)于多義詞可以按照義項(xiàng)再分類,同一個(gè)義項(xiàng)的歸為一類,并對(duì)索引進(jìn)行歸類,單義詞不存在再分類的問題。按詞性、義項(xiàng)分類完畢以后,檢查關(guān)鍵詞與它的左右搭配詞,看其左右搭配詞中實(shí)詞結(jié)合的緊密程度,虛詞剔除。如和左搭配詞更能構(gòu)成一個(gè)完整的結(jié)構(gòu),就提取關(guān)鍵詞和左搭配詞,如和右搭配詞更能構(gòu)成一個(gè)完整的結(jié)構(gòu),就提取關(guān)鍵詞和右搭配詞。有時(shí)根據(jù)意義同時(shí)提取左右搭配詞,視情況而定,但要以表達(dá)一個(gè)完整的意義為準(zhǔn)。
搭配詞也存在詞性問題,根據(jù)詞性,就可提取出類聯(lián)接。再歸納同一類聯(lián)接的搭配詞的義類,從而列舉出某一關(guān)鍵詞的搭配范圍。歸納義類不是隨意而為的,參照了《同義詞詞林》的義類劃分標(biāo)準(zhǔn),并在確保意義準(zhǔn)確的情況下盡量用淺顯的語言概括出來,在搭配范圍后列舉典型例證,兼顧到所有的搭配范圍。這就是基于數(shù)據(jù)的方法,用這種方法,研究者憑借豐富的資源,可對(duì)關(guān)鍵詞的搭配情況和搭配特點(diǎn)進(jìn)行較為扎實(shí)的概括,如果語料庫容量比較大,且有一定的代表性,那么研究結(jié)果就有較高的效度。
由于這部詞典收詞選取的是有代表性的搭配結(jié)構(gòu),而不是所有的自由組合都不加取舍地收進(jìn)來。所以,在索引中就有一個(gè)進(jìn)一步取舍的問題。對(duì)于在語料中偶然出現(xiàn)的搭配,不是僅靠直覺,而是計(jì)算出關(guān)鍵詞和搭配詞的共現(xiàn)頻率。在用檢索軟件檢索關(guān)鍵詞后,將所有的搭配詞按降頻排列,非常低的共現(xiàn)頻率不予考慮,這樣就可避免偶然搭配,很好地體現(xiàn)編寫體例中的代表性特征。
我們從北大CCL現(xiàn)代漢語語料庫中查到的“選拔”一詞的索引有3804條,下面是部分索引:
(1)國(guó)統(tǒng)考是我國(guó)選拔碩士生的主要方式,它分為初試和復(fù)試。
(2)在98MBA聯(lián)考的考生中選拔,而不再組織統(tǒng)考或單考。
(3)主要的原因是美國(guó)大多數(shù)商科院校不懂得如何選拔那些清楚如何在中國(guó)做生意的大陸中國(guó)人做留學(xué)生。
(4)要論上陣打仗的本領(lǐng),你不如我;至于選拔人才,任用賢人,我比不上你。
(5)朝廷設(shè)置官員,為的是治理國(guó)家,應(yīng)該選拔賢才,怎么能拿關(guān)系來作選人的標(biāo)準(zhǔn)呢?
(6)有一年,長(zhǎng)安舉行考試,選拔能夠直言敢諫的人才。
(7)考官看了卷子,認(rèn)為這兩個(gè)人符合選拔的條件,就把他們推薦給唐憲宗。
(8)樣樣精通,加上膽壯力大,后來被選拔做了小軍官。
(9)他認(rèn)為這正是他選拔人才、改革文風(fēng)的好機(jī)會(huì)。
(10)國(guó)際水平的定期雜志,而且還承擔(dān)了選拔諾貝爾物理、化學(xué)、經(jīng)濟(jì)三個(gè)領(lǐng)域的獲獎(jiǎng)?wù)叩娜蝿?wù)。
(11)就是通過全國(guó)競(jìng)賽和不列顛數(shù)學(xué)奧林匹克選拔的。
(12)實(shí)際上也是從中選拔人才,任用做官。
(13)一些政治開明的統(tǒng)治者從被統(tǒng)治者的最下層選拔出個(gè)別突出的人才,破格委以重任。
(14)希望通過新制度不拘一格選拔人才,壯大封建地主階級(jí)的力量。
(15)孔子認(rèn)為選拔人才的標(biāo)準(zhǔn)是“志于道、據(jù)于德、依于仁、游于藝”。
(16)這時(shí),過去通過軍功、養(yǎng)士選拔人才的辦法已經(jīng)不能適應(yīng)現(xiàn)實(shí)的封建中央集權(quán)制度
(17)曾下詔強(qiáng)調(diào)要以“四科”辟士,這是指選拔人才應(yīng)該掌握的四方面標(biāo)準(zhǔn)。
(18)評(píng)價(jià)教育質(zhì)量、選拔專業(yè)人材、診斷病人,鑒別超常、低常兒童……
(19)通過國(guó)家考試結(jié)合平時(shí)的考核成績(jī)選拔優(yōu)秀的學(xué)生進(jìn)校學(xué)習(xí)。
通過分析可知,“選拔”的對(duì)象一般為從事某種職業(yè)的人或某類人才,這類有3733條記錄,極少和表示作品的詞搭配,在我們的統(tǒng)計(jì)中只發(fā)現(xiàn)71條記錄。高頻搭配詞見表1。

另外,在詞語搭配研究中還有語料庫數(shù)據(jù)驅(qū)動(dòng)的方法,這種方法沒有先入為主的觀念,完全由統(tǒng)計(jì)數(shù)據(jù)驅(qū)動(dòng)。這種方法有一套完整的概念:節(jié)點(diǎn)詞(node)、跨距(span)和搭配詞(collocate)等。節(jié)點(diǎn)詞即關(guān)鍵詞,跨距是節(jié)點(diǎn)詞在其左右的作為其語境的詞的數(shù)目,一般為-5/+5或-4/+4,即在節(jié)點(diǎn)詞左右各取5個(gè)或4個(gè)詞為其語境。將跨距內(nèi)所有的搭配詞與節(jié)點(diǎn)詞的共現(xiàn)情況進(jìn)行計(jì)算,根據(jù)公式,計(jì)算出T值(判斷詞項(xiàng)間預(yù)見和吸引程度的尺度)或MI值(判斷詞語間搭配強(qiáng)度),目的是計(jì)算搭配詞與節(jié)點(diǎn)詞的共現(xiàn)頻率,尋求典型搭配。這種方法適用于大型語料庫研究,也有利于發(fā)現(xiàn)新的語言現(xiàn)象。
四
《現(xiàn)代漢語常用實(shí)詞搭配詞典》的服務(wù)對(duì)象決定了語料的選擇、搭配結(jié)構(gòu)和搭配范圍的確定,這只是語料庫語言學(xué)的方法在詞典編纂中的一個(gè)嘗試,在語料庫詳實(shí)全面的材料、完善的檢索統(tǒng)計(jì)功能和合理的人工干預(yù)下,相信這部詞典定會(huì)準(zhǔn)確、全面、科學(xué)而又實(shí)用。
附注:
①《現(xiàn)代漢語常用實(shí)詞搭配詞典》是河北師范大學(xué)楊同用教
授正在研制的一部詞典。
②參照楊同用《關(guān)于編纂<現(xiàn)代漢語常用實(shí)詞搭配詞典>的設(shè)
想》,未公開發(fā)表。
參考文獻(xiàn):
[1]衛(wèi)乃興.搭配研究50年:概念的演變與方法的發(fā)展[J].解放軍外國(guó)語學(xué)院學(xué)報(bào),2003,(3).
[2]衛(wèi)乃興.基于語料庫和語料庫驅(qū)動(dòng)的詞語搭配研究[J].當(dāng)代語言學(xué),2002,(2).
[3]鄧耀臣.詞語搭配研究中的統(tǒng)計(jì)方法[J].大連海事大學(xué)學(xué)報(bào),2003,(12).
[4]林杏光.論詞語搭配及其研究[J].語言教學(xué)與研究,1994,(4).
[5]王建新.語料庫語言學(xué)發(fā)展史上的幾個(gè)重要階段.外語教學(xué)與研究,1998,(4).
[6]黃昌寧,李涓子.語料庫語言學(xué)[M].北京:商務(wù)印書館,2002.
[7]John Sinclair.Corpus Concordance Collocation[m].上海:上海外語教育出版社,1999.
(劉鳳芹,青島大學(xué)漢語言學(xué)院)