漢語搭配詞典存在的問題及應對策略研究

2017-03-07 19:28:32郝瑜鑫徐婷婷

辭書研究 2017年1期

關鍵詞：研究

郝瑜鑫　徐婷婷

摘要文章首先對現代漢語搭配詞典的大致情況進行了介紹。在此基礎上，結合搭配詞典的用戶群體，編纂理念和方法，詞項在真實文本中的用法指出了存在的問題。最后，針對漢語搭配詞典存在的問題提出了建議。

關鍵詞搭配詞典漢語問題調查對策

一、引言

隨著“漢語熱”的到來，為了滿足漢語教學和學習的需要，學界陸續編纂出版了一些漢語學習詞典，如孫全洲主編的《現代漢語學習詞典》、李憶民主編的《現代漢語常用詞用法詞典》、李曉琪主編的《漢語常用詞用法詞典》、徐玉敏主編的《當代漢語學習詞典》、魯健驥等主編的《商務館學漢語詞典》等。付娜（2010）對四部學習詞典中的詞語搭配進行了考察。詞典在對搭配的處理方式上分隱性處理和顯性處理，前者指在釋義或配例中給出搭配，后者是直接給出搭配的情況。研究發現，這些詞典對搭配的處理存在一些問題，如配例分配與搭配在真實語言材料中的分布不合，配例典型性不夠，配例實用性不強，同類型搭配信息重復，固定搭配漏收或者沒有與自由搭配區別對待等。作者還進一步提出了解決這些問題的策略。

現代漢語搭配詞典的編纂從二十世紀八十年代開始起步，九十年代出現了一批能代表當時漢語界詞語搭配研究水平的詞典。從收詞與所收搭配的情況來看，漢語搭配詞典可以分為四類：第一類是專收實詞的搭配詞典，如《學生常用詞語搭配詞典》（以下簡稱《學生》；張壽康，林杏光1989）、《簡明漢語搭配詞典》（以下簡稱《簡明》；張壽康，林杏光1990）、《現代漢語實詞搭配詞典》（以下簡稱《實詞》；張壽康，林杏光1996）；第二類是偏重于收實詞，兼收虛詞的詞典，如《漢語常用詞搭配詞典》（以下簡稱《漢語》；楊天戈等1990）、《常用詞語搭配詞典》（以下簡稱《常用詞》；趙培庠1999）、《現代漢語搭配詞典》（以下簡稱《現代》；梅家駒1999）；第三類是專收動詞搭配的詞典，如《漢語常用動詞搭配詞典》（以下簡稱《搭配》；王硯農等1984）；第四類是專收某類詞與特定句法成分搭配的詞典，如《漢語動詞結果補語搭配詞典》（王硯農等1987）就只收錄動詞與其結果補語的搭配。從詞典學角度專門論述搭配的文獻不多，大都散見于相關詞典的序言、使用說明中。楊同用、司敬新（2007）從搭配詞典編纂的角度對搭配進行了分類，分為語法搭配、邏輯搭配、習慣搭配、高頻搭配與個性搭配、固定搭配、超常搭配等，作者認為習慣搭配、高頻搭配、固定搭配是搭配詞典應該處理的重點內容。和英語搭配詞典一樣，漢語搭配詞典對搭配的處理也是綜合性的，提供了豐富的語義、句法信息。但是漢語詞典也存在不少問題，如不區分自由搭配和限制搭配（郭茜，黃昌寧1995），即沒有對搭配進行細致分類，更沒有區別對待；這些搭配詞典都沒有提供詞項出現的典型句法模式（即句型），部分詞典提供了諸如主謂、動賓這樣的搭配框架，但這對于學習者來說是遠遠不夠的；這些搭配詞典都不是在大規模語料庫的基礎上完成的。

從以上論述可以看出，漢語搭配詞典，尤其是面向漢語作為第二語言的學習者的搭配詞典還有許多不完善之處，這就需要我們對漢語搭配詞典進行細致考察。本文以七部漢語搭配詞典為研究對象，比較搭配詞典存在的問題，進而提出初步的解決對策。

二、漢語搭配詞典存在的問題

1. 宏觀方面的問題

從宏觀的角度來看，漢語搭配詞典在用戶群體的針對性、收詞量、語料的使用和信息呈現手段等方面尚存在問題，下文逐條論述。

（1）用戶群體的針對性

一般來說，任何一部詞典在編纂之初就應該有比較明確的目標用戶群體。從國際詞典學的發展趨勢來看，使用者視角的詞典研究已經成為一個熱門的研究領域，國際上已有不少學者對該領域進行了專門研究，Atkins、Hartmann和Yukio Tono等學者出版了專題論著。（郝瑜鑫，王志軍2013）但我們所考察的七部現代漢語搭配詞典所擬定的目標用戶群體都缺乏針對性，大多數詞典在前言中稱其服務對象為中小學生、教師、語言文字工作者、留學生、計算機用戶等。根據這種表述，這些搭配詞典的適用群體似乎很廣泛，但是從另一個角度來看，所涉及的面越廣，其針對性就越差。目標用戶群體的不同直接影響到詞典的收詞數量、收詞范圍、編寫體例，甚至會影響具體的詞條處理。

（2）收詞量的問題

從上文可以看出，現代漢語搭配詞典所收錄的詞多為常用的動詞、形容詞和名詞，收詞量從1000到8000不等，其間差距竟如此之大，那么現代漢語搭配詞典究竟應該收錄多少詞比較合適？《漢語水平詞匯與漢字等級大綱》是國家漢語水平考試委員會辦公室考試中心在大規模真實文本的基礎上通過計算機進行詞頻統計，然后再加以人工干預制定的常用詞詞表，因此該詞表中所收錄的詞語基本涵蓋了當代漢語較為高頻的常用詞。該詞表收錄動詞約3200個，形容詞約1200個，名詞約3500個，其中謂詞約4400個，因此我們認為，僅以謂詞作為詞目詞的搭配詞典，其收詞量應在4400個左右，如果加上一些用法比較特殊的名詞，收詞量應該在6000個左右。

（3）語料選擇和統計方法的使用

本文所考察的七部搭配詞典有三部沒有交代語料的來源（《搭配》《學生》和《現代》），其余四部均選自影響力較大的現當代典范文學作品，調查手段為人工制作卡片。由此可以看出，這些搭配詞典在語料的選擇和使用方面都存在較大問題。首先是語料的選擇過于單一。從語體的角度來看，僅僅涉及書面語體；從語域的角度看，主要涉及的只有文學作品。其次是統計手段過于傳統。從文學作品中選擇例句后人工制作卡片的方式費時耗力且不能保證統計的準確性。二十世紀后半葉，由于語言研究觀念的轉變，加之計算機處理自然語言技術的發展，計算機技術開始應用于語言研究。1961年，弗朗西斯（N.Francis）和庫塞拉（H.Kucera）等學者合作建成了世界上最早的機讀語料庫，即布朗語料庫（Brown Corpus）。二十世紀九十年代以后，漢語大規模語料庫的建設得到了重視。大規模語料庫的建設無疑為語言研究和詞典編寫中的檢索、分析語料提供了莫大的便利。下文還將就這一問題具體展開論述。

（4）信息呈現手段過于單一

正文中通過插圖、插表等直觀形象的方式說明詞語的句法、語用等信息，已經是英語詞典普遍采用的方式，比如使用柱狀圖或餅圖展示詞語在不同語域中的使用概率等。（郝瑜鑫 2013b）和英語搭配詞典相比，漢語搭配詞典信息呈現手段過于單一，所考察的七部詞典均為文字表述，沒有使用任何插圖、插表等輔助手段。

2. 微觀方面的問題

從微觀的角度看，在對不同類型搭配的處理、詞目詞的處理、搭配信息的處理等方面，漢語搭配詞典存在不少問題。

（1）不同類型搭配的處理

這些詞典對固定搭配與一般搭配不加區別，對半固定搭配不予收錄。固定搭配包括成語、慣用語等。這類詞語通常在形式上是凝固的，不能隨意更換；語義上通常是融合的，也就是說，一般情況下不能按照字面意思來理解。本文所指的固定搭配不一定是成語或者慣用語，但符合以上列出的兩個特點。一般搭配與固定搭配不同，通常可以替換其中的詞語，一般搭配的意義可以通過詞與詞意義的相加得到。然而，如《簡明》中詞項“幫”的搭配中將固定搭配“幫閑湊趣”“幫倒忙”等和一般搭配“幫別人”“幫我出主意”“幫著疊衣服”等混雜在一起，不加區分，顯然是對搭配的類型沒有處理好。

半固定搭配通常是一個開放的框架，在這個框架內可以更換一部分詞語。半固定搭配是非常典型的一類搭配，對于語言運用尤其重要。但是我們所考察的搭配詞典對這類搭配關注甚少。譬如“幫助”大多數可以出現在“在N的V下”這個半固定搭配框架中（如“在老師的幫助下……”），詞項“到”有一個半固定搭配是“到某時間為止”，但這些搭配均沒有收錄進詞典。

（2）詞條處理不當

詞條處理不科學，沒有及時吸收漢語研究的相關成果。此處以離合詞“幫忙”的處理為例進行說明。《學生》和《實詞》中，“幫忙”一詞只有合式的搭配情況，離式的用法完全沒有涉及；而《簡明》中“幫忙”混雜在“幫”中。漢語的離合詞現象很早就受到了關注，研究成果也頗為豐富，顯然搭配詞典這樣的處理沒有吸收相關的研究成果。此外，《簡明》對“幫助”的處理也存在類似的問題，“幫助”有動詞和名詞兩個詞性，分屬于不同的義項，但《簡明》把這兩個義項的搭配混在一起羅列。漢語的研究越來越接近語言事實，越來越精密，因此搭配詞典的編纂應該不斷吸收語言學研究中較為成熟的成果，以使詞語搭配的描寫更符合語言使用，為用戶提供更為準確的信息。

（3）搭配信息不規范

搭配信息不規范，方言俚語混雜其中。現代漢語搭配詞典提供給用戶的信息應該屬于漢語普通話的范疇，具有規范性。大多數搭配詞典收錄的語料來自現當代名家名作，但是名家名作中也有很多非標準普通話的元素，這些信息不應該收錄在搭配詞典中。如《漢語》中詞項“幫忙”的搭配中有“這就幫了俺的大忙了”“我憑啥子幫你忙”“幫忙搞總結”等例句，這里的“俺”“啥子”“搞總結”等就不屬于通用的規范詞語。

（4）信息冗余

貪多求全，面面俱到。譬如《實詞》《漢語》等把詞項所有可能出現的搭配框架都列出來，然后添加搭配詞或完整句例證。就動詞而言，幾乎所有的動詞都列出了做謂語、賓語、主語、狀語、定語、中心語的情況，其中《實詞》在搭配框架和說明部分明確提出每個詞的搭配框架窮盡列舉不遺漏的編纂理念。詞項“幫忙”在我們考察的語料中無一例做賓語的情況，但是《漢語》等詞典依然列出該框架的搭配詞。這些做法體現出了很強的貪多求全傾向，顯然與語言教學和學習所需求的搭配詞典應具有典型性的要求相去甚遠。

（5）所列搭配與詞項真實用法不相符

在語料庫中以“幫助”為關鍵詞檢索到有效語料250例，在此基礎上整理出“幫助”的用法分布狀況，詳情如表1所示：

依表1為參照，我們對部分搭配詞典進行了細致的考察。結果發現，不少搭配詞典列出的搭配類型及該類型所占總數的比例與真實語料不相符。譬如，《學生》中“幫助”做謂語列出搭配24項，占總數的48%，做賓語列出26項，占52%；而真實話語中做賓語的情況僅有34.4%。就“幫助”做謂語的情況而言，《學生》中體詞性賓語和謂詞性賓語占總數的42.86%，兼語賓語占14.29%，真實文本中“幫助”接謂詞性賓語僅有9.73%，而兼語有4269%。《實詞》等詞典甚至沒有列出“幫助”的主要用法后接兼語的情況，出現了嚴重的典型搭配漏收問題。

搭配詞與詞項用法不相符還體現在例句的排序上。比如《學生》先列出“幫助”帶體詞賓語的情況，然后是帶謂詞賓語，接著是狀語，最后才是帶兼語的例證。《簡明》各類搭配混雜在一起，沒有任何排序的意識。這種編排順序顯然不符合詞項的用法，而沒有對所列材料進行排序的做法更是難以滿足用戶的需求。

（6）語用信息缺乏系統性和準確性

現代漢語搭配詞典提供的主要是詞項的句法和語義的相關信息，而對語用信息的揭示很不到位。所考察的七部搭配詞典中只有《漢語》提供了部分詞項的語用信息，但是有些信息的準確性還有待研究。譬如《漢語》收錄的“鼓勵”類動詞有“鼓勵”“鼓動”“鼓舞”“激勵”和“勉勵”五個詞項，其中只有“鼓勵”提供了語用信息“多用于褒義，也有少數用于貶義”，但是在我們所考察的108例語料中，該詞項并無一例用于消極語義的情況。所以，現代漢語搭配詞典的編纂和研究需要在詞項的語用信息方面下更大的功夫。

三、應對策略

針對當下搭配詞典存在的問題，我們認為應該從四個方面采取措施。

1. 詞典編纂者知識結構的更新和完善

從目前發現的一些問題來看，搭配詞典編纂者知識體系陳舊是造成搭配詞典存在問題的一個非常重要的原因。詞典編纂和研究是一項理論性和實踐性兼具的綜合性活動，對詞典編纂者的要求也非常高，只有詞典編纂者自身的知識結構完善并且能夠及時更新，才有可能編纂出高質量、滿足使用者需求的詞典。當代詞典工作者，特別是從事學習詞典編纂、研究的工作者，除詞典學的基本理論外，我們認為至少還需要具備四個方面的知識：第一，當代語言學理論；第二，當代漢語語法、詞匯、語義研究的新動態；第三，語言習得理論；第四，語料庫數據庫技術。

2. 對用戶搭配詞典需求的廣泛調查

“需求分析”理論在管理學、外語教學等多個領域廣泛使用（陳冰冰2009）。需求分析的首要任務就是要明確搭配詞典的使用對象。從大的方面看，首先可以分為機用搭配詞典和人用搭配詞典。機用搭配詞典屬于人工智能的范疇，主要用于文本自動識別、機器翻譯等方面。人用搭配詞典又可以分為面向本族人的和面向外族人的兩類。漢語搭配詞典的設計首先要明確服務對象。只有明確了用戶群體，才有可能對用戶的特點和需求開展廣泛的調查研究，才有可能編纂出針對性強、適合用戶特點的詞典。郝瑜鑫等（2010）對漢語普通詞典的調查發現：（1）不同水平漢語學習者需要不同內容和體例的詞典，用一部詞典來滿足所有學習者需求的愿望是不現實的；（2）學習者對紙質詞典、電子詞典和網絡詞典都有需求，漢語水平不同，具體需求也不同；（3）搭配和例句在數量和質量上都應該科學安排，不應該只根據編寫者的經驗處理；（4）對詞語語用和語法信息的說明是受用戶歡迎的。這些調查結果對搭配詞典的編寫也有一定的啟發意義。

3. 積極汲取詞匯習得的研究成果

偏誤分析是將學習者的語言系統考慮在內的語言習得理論，主要關注學習者習得過程中出現的偏誤現象。這對二語搭配詞典的編纂是有實際意義的。首先，詞典編纂者具備了偏誤分析的意識，意識到了學習過程中可能出現的偏誤，那么就會對相關的語言現象進行特別處理。其次，偏誤分析的研究成果可以體現在二語學習者所用的學習詞典中，既可以是獨立成冊的正誤對比詞典，如楊慶蕙（2009）主編的《現代漢語正誤辭典》，也可以體現在搭配詞典詞條中，如Langman Interactive English Dictionary（《朗文互動式英語詞典》）和Cambridge Advanced Learners Dictionary（《劍橋高級英語學習詞典》）。后一種處理方式在二語學習者所用漢語學習詞典中尚不普遍。

偏誤分析主要關注的是學習者習得中的偏誤現象，而這對于觀察、揭示語言習得規律是遠遠不夠的。對學習者的語言系統進行全面分析的理論是中介語理論。該理論認為：（1）中介語具有獨立性；（2）中介語是可以觀察到的語言系統；（3）中介語具有系統性；（4）中介語具有動態發展的特點。（王建勤2009）。從這些特點可以看出，中介語是可以進行研究的。

Sylviane Granger于2002年提出了中介語對比分析方法（Contrastive Interlanguage Analysis，簡稱CIA）。中介語對比分析包括兩種類型的對比，一為母語者（NS）語料和非母語者（NNS）語料的對比，二為不同類型非母語者語料的對比。前一種對比的目的是弄清楚學習者所產出的中介語的特征。這種對比能夠凸顯非母語者語料的一系列特征，不單單是偏誤，而且能顯示出學習者對詞語、句法結構的使用不足和使用過度。Granger早在1998年就做過這方面的研究。后一種對比是常見的一種類型。通過對不同母語者中介語語料的分析能夠顯示出母語背景在語言習得中的影響，即語際遷移。Granger & Tyson（1996）通過對母語為法語、荷蘭語和漢語的學習者習得英語連接詞的考察就證明了這個問題。Granger所在的比利時Louvain大學英語語料庫語言學中心已經承擔了麥克米倫系列詞典（Macmillan English Dictionary）的修訂再版任務，相信這一研究范式將會在二語學習者所用英語學習詞典中施展用武之地。但是，基于該研究范式進行的漢語研究寥寥無幾（郝瑜鑫2013b），更不用說對二語學習者所用漢語搭配詞典的影響。

4. 語料庫數據庫的科學使用

詞典編寫要依據語言事實，這是最基本的原則之一，但是語言事實從哪里得來？以往的搭配詞典編寫大多是基于編寫者個人的語言感覺，然后再通過報刊等書籍中的用例加以佐證，其手段多是靠摘抄卡片。用這種方法得來的材料相對來說問題比較多，至少有四個方面：其一數量少，其二不夠全面，其三典型不突出，其四難以進行統計。這樣一來，編纂者對語言事實的描寫就會存在問題，編纂出的成品有各種各樣的問題也就不足為奇了。

自二十世紀六十年代Francis和Kucera等學者合作建成世界上最早的機讀語料庫Brown Corpus以來，語言學研究就發生了翻天覆地的變化，越來越多的學者開始采用基于語料庫或語料庫驅動的方法。隨著計算機技術的發展，現在我們已經完全有可能占有大規模的語言材料，并且計算機可以在語言材料分析中提供幫助，雖然人工干預仍然不可缺少。Sinclair（1966）認為基于計算機的搭配研究，目的是為了在大規模文本中發現詞項結伴出現的頻率，即詞項與詞項之間形成搭配相互聯結的強度，并建議通過設置跨距的方法來進行調查。Smadja（1993）研制了Xtract檢索統計工具，該軟件可以從大規模文本中獲取并確認搭配，還可以用于輔助詞典編纂。Smadja、McKeown和Hatzivassiloglou（1996）研制了自動翻譯搭配的工具Champollion。Biber（1993）跟Smadja等學者的研究興趣比較接近，自主開發了搭配自動提取工具Factor analisis。該軟件可以識別目標詞的典型搭配模式、計算搭配出現的頻率、確認經常共現的搭配。漢語界從計算語言學視角對搭配進行觀照的學者孫茂松等（1997）在借鑒國外計算語言學搭配研究成果的基礎上，提出了確定搭配的三項統計指標，包括強度、離散度和尖峰。在此基礎上研制了搭配自動提取工具，通過對“能力”一詞的實驗，結果發現正確率已經相當可觀。在孫氏之后搭配自動提取的方法得到了很大程度的改善，自動識別和提取涉及的范圍也越來越廣，既有一般性的研究，也有在某種句法框架內的研究，還涉及了部分虛詞搭配的自動提取。目前在漢語詞語搭配檢索方面做得比較成熟的是臺灣“中央研究院”語言學研究所開發的“中文詞匯特性速描系統”，比如在系統中輸入“能力”一詞，就可以得到該詞不同搭配框架的高頻搭配詞，如高頻定語有“思考、判斷、學習、想象、溝通、研發、運算、強大、足夠、外語、經濟、競爭、消費、心理、思維”等，作為賓語時的高頻謂語有“培養、具備、喪失、缺乏、失去、提升、發揮”等，作為主語時的高頻謂語有“強、不足、差、弱、好、不錯、下降、降低、培養、提高、提升”等，修飾它的高頻量詞有“種、類、項”等。可見，從技術層面來講，計算機介入漢語搭配詞典編纂的時機已經比較成熟。借助大規模語料庫，運用搭配識別軟件，借助數據庫的強大統計功能，是編纂高質量的漢語搭配詞典的必由之路。

參考文獻

1. 陳冰冰.國外需求分析研究述評.外語教學與研究，2009（2）.

2. 付娜.外向型漢語學習詞典配例中搭配信息的呈現原則及實現條件.辭書研究，2010（5）.

3. 郭茜，黃昌寧.Benson在搭配方面的研究——兼評《BBI英語搭配詞典》.國外語言學，1995（4）.

4. 郝瑜鑫.漢語學習詞典語法信息的呈現原則與實現條件.西華大學學報，2013a（6）.

5. 郝瑜鑫.定量研究與漢語學習詞典編纂理念的創新.云南師范大學學報，2013b（5）.

6. 郝瑜鑫，劉文，邢紅兵.基于大規模語料庫和詞匯習得理論的學習型詞典編撰構想.湘南學院學報，2010（6）.

7. 郝瑜鑫，王志軍.國外漢語學習詞典需求之探討.華文教學與研究，2013（4）.

8. 梅家駒.現代漢語搭配詞典.上海：漢語大詞典出版社，1999.

9. 孫茂松，黃昌寧，方捷.詞語搭配定量分析初探.中國語文，1997（1）.

10. 王建勤.第二語言習得研究.北京：商務印書館，2009.

11. 王硯農，焦龐颙.漢語常用動詞搭配詞典.北京：外語教學與研究出版社，1984.

12. 王硯農，焦群，龐颙.漢語動詞結果補語搭配詞典.北京：北京語言學院出版社，1987.

13. 楊慶蕙.現代漢語正誤辭典.北京：北京師范大學出版社，2009.

14. 楊天戈，劉沫，吳岫光等.漢語常用詞搭配詞典.北京：外語教學與研究出版社，1990.

15. 楊同用，司敬新.搭配類型與對外漢語實詞搭配詞典的編纂.辭書研究，2007（2）.

16. 張壽康，林杏光.學生常用詞語搭配詞典.石家莊：河北少年兒童出版社，1989.

17. 張壽康，林杏光.簡明漢語搭配詞典.福州：福建人民出版社，1990.

18. 張壽康，林杏光.現代漢語實詞搭配詞典.北京：商務印書館，1996.

19. 章宜華，雍和明.當代詞典學.北京：商務印書館，2007.

20. 趙培庠.常用詞語搭配詞典.北京：首都師范大學出版社，1999.

21. Biber D.Cooccurrence Patterns among Collocations： A Tool for Corpusbased Lexical Knowledge Acquisition. Computational Linguistics， 1993（19）.

22. Granger S. From CA to CIA and back： An Integrated Approach to Omputerized Bilingual and Learner Corpora.∥Aijmer K， Altenberg B， Johansson. （eds.） Languages in Contrast.Lund： Lund University Press， 1996.

23. Granger S.（ed.） Learner English on Computer.London： Longman， 1998.

24. Granger S. A Birdseye View of Learner Corpus Research.∥Granger S， Hung J， PetchTyson S. （eds.） Computer Learner Corpora， Second Language Acquisition and Foreign Language Teaching.Amsterdam： John Benjamins， 2002.

25. Granger S， Tyson S. Connector Usage in the English Essay Writing of Native and Nonnative EFL Speakers of English. World Englishes， 1996（15）.

26. Sinclair J.Beginning the Study of Lexis.∥Bazell C E， Catford J C， Halliday M A K. et al.（eds.） In Memory of J. R. Firth. London： Langman， 1966.

27. Smadja F A. XTRACT： An Overview. Computers and the Humanities， 1993（26）.

28. Smadja F， McKeown K R， Hatzivassiloglou V. Translating Collocations for Bilingual Lexicons： A Statistical Approach. Computers Linguistics， 1996（22）.

（郝瑜鑫華僑大學華文教育研究院廈門361021）

（徐婷婷華僑大學華文學院廈門361021）

（責任編輯李瀟瀟）