陳衡
摘要:詞和短語的區分問題是漢語語言學研究的一個重點和難點,傳統的“結構穩固、意義凝聚、音節長度適中”并不能很好地解決這一問題。近年來,從“頻率”角度對這一問題展開的討論增加,但主要限制在關于“詞感”的討論方面,還缺乏大規模數據統計的支持。“頻率”是否真正適合作為區分詞和短語的一個標準還沒有定論。本文基于對近5億字現代漢語語料2-gram串統計結果最高頻1000個字符串的考察,得出:“頻率”還不能直接作為界定詞的標準,它在解決詞和短語區分的模糊地帶方面能否發揮較大作用還需進一步探討。
關鍵詞:詞 短語 頻率 二字詞 二字短語
一、引言
在漢語語言學研究中,“詞”是各類研究的重要基礎,沒有對詞的定義和界定,基于其上的諸如詞語研究、詞類研究、構詞研究、短語研究、詞典編纂等都將無從談起。詞的定義與界定問題是現代漢語中一個非常重要的問題,也是一個難題。與英語中實行單詞分寫不同,漢語的字不實行分詞連寫,因此,漢語中“詞”的定義與界定問題比英語中的復雜得多。
關于詞該如何定義及界定的問題自中國現代語言學誕生時就已經開始探討。邵敬敏(1990)總結認為,詞的劃界一是定義的需要,二是分詞連寫的需要。譬如,中文信息處理中的分詞問題——盡管目前使用“分詞單位”作為權宜之計,但以此制定出來的“分詞詞表”仍飽受詬病,原因之一還是對“詞”的定義與界定沒有很好的把握。
到目前為止,一般廣為接受的關于“詞”的定義應該是呂叔湘先生的“最小的自由活動的語言片段”(呂叔湘,1979)。但光從這一定義來看,處處都有著不確定性,什么是“最小的、自由的、語言片段”都不好把握,連呂叔湘自己都說“這仍不十分明確”,“最好是用具體事例來給詞劃界”。然而用具體事例來給詞劃界又陷入了這樣一個邏輯怪圈:不知道“詞”是什么,卻需要對具體事例作出判斷從而反過來說明什么是詞。
傳統研究中對于詞的界定,一般認可以下三個標準:結構穩固、意義凝聚、音節適長。然而,細細考究起來,無論哪一個標準,都有無法解決的難題(黃月圓,1995)。近十多年來,隨著數學統計方法在語言學中的運用,從“頻率”的角度對這一問題展開的研究增多,如胡明揚(1999)、梁源(2000)、吳為善(2003)、丁喜霞(2006)、李宇明、李晉霞(2007)、劉云(2009)、李晉霞(2013)。這些研究增進了我們對頻率之于詞和短語區分影響上的認識,但缺憾是缺乏大規模數據統計的支持,因此“頻率”是否真的適合作為區分詞和短語的一個標準還需進一步探討。
二、基于N-gram串頻率的驗證
N-gram串指語流中接連出現的n個音節(在文本上表現為字)。N-gram串一般以標點符號為天然的分界線。例如:“天放晴了,最容易忘記雨傘”中包含的2-gram應該是:天放、放晴、晴了、最容、容易、易忘、忘記、記雨、雨傘;包含的3-gram應該是:天放晴、放晴了、最容易、容易忘、易忘記、忘記雨、記雨傘。
(一)“頻率”相關研究問題分析及本文驗證思路
綜合目前所見學術界關于“頻率”與“詞”關系的研究,一般認為:“詞感”與“頻率”呈現“共變”關系,即詞的頻率越高,詞感越強。從“詞感”這一術語的使用可見,不同的詞給人的“成詞的感覺”(即哪個更像詞)是不一樣的。目前關于頻率的研究還存在以下問題:
第一,“詞感”的使用盡管體現了“連續性”這一概念,但又增添了“主觀性”這一變數,即“詞感”體現的是人的感覺,這種感覺會因人而異,胡明楊(1999)對此有所論述。除此之外,漢語中的詞語個數上萬甚至十幾萬,通過“詞感”調查來劃分詞語的“連續性”不可行,且符合一部分人的“詞感”不一定符合另一部分人的“詞感”。對此,我們用“成詞性”這一較客觀的術語來指稱從“短語”到“詞”的漢字字符串成詞能力的強弱。它指的是“字符串”的成詞性的強弱,因此在未界定單位性質前用這一術語可以避免指稱上的混亂。
第二,以往的研究多為舉例式的考察,未能將全部漢語詞語作為考察的對象,因此還不可得知“頻率”作為界定詞語能否成為一條真正的可行的標準。為此,我們收集整理了一個字符數達1.08GB的超大規模語料庫,未分詞,通過軟件統計出2-gram字符串的頻率并排序。這樣做的好處一是避免了分詞造成的偏差;二是事先不考慮“詞”概念的使用,將“詞、短語、無效串”(即“字符串”構成)統一無差別排序,這樣就避免了我們在未界定出“詞”之前卻先使用了“詞”的邏輯悖論。
我們的基本思路是:以統計結果中最高頻的1000個2-gram串為分析對象,對它們進行屬性標注,分別為詞、短語或無效串。詞的判別以《現代漢語詞典》(第6版)、《現代漢語規范詞典》(第2版)和《漢語大詞典》(1997)為依據;沒有任何意義的為無效串,其余為短語。這里需要說明的是,我們之所以只考察2-gram串,是因為漢語中約70%的詞是雙音節詞。(王惠,2009)
(二)基于2-gram串驗證存在的問題分析
雖然我們基于2-gram串進行統計可以擺脫基于分詞所帶來的問題,但它也帶來了另外的一些問題,不過這并不會對考察造成太大的影響。基于2-gram串的考察所帶來的問題主要有以下幾個方面:
第一,字串的“耦合性”。
由于N-gram串只是幾個字符的簡單共現,并不涉及是否有意義,或處于一個結構中,所以,具有“耦合性”。例如“中國人民愛好和平”中的“國人”單獨來看是一個詞,但在該句子中并不處于同一個結構層次中。
對于這個問題,就以下幾點分析,不會對本文的考察產生較大影響。
首先,大規模語料的抵消作用。由于本文使用的語料規模高達1.08GB,有近5億字數,因此可以在一定程度上較少偏差,尤其是在超高頻字串與中低頻字串之間,一般不會出現高頻詞實際頻率低于中低頻字串的情況。
其次,從邏輯上來講,一個“詞”的串頻低,其實際詞頻必然更低,而高頻“短語”不會出現誤差。這樣的對比是有意義的對比。
再次,以N-gram串作為考察對象還有一個非常重要的考量,就是要撇開語義直接考察簡單的形式共現是否對字串成詞性產生重要影響。例如,Bybee(2007)認為在很多情形下,高頻共現已經超過了語義成為字串結合的重要影響因素。
第二,“詞”和“短語”的區分問題。
盡管我們以三部權威詞典作為判定依據,但還是遇到了一些困難。
首先,有的字串具有詞和短語的雙重屬性,只有在具體的句子語境中我們才能確定它到底是一個詞還是一個短語。例如“不是”,當作“錯處、過失”講時,是一個名詞,如“出手打人就是你的不是了”中的“不是”;但當作“否定”義講時,“不是”是一個狀中短語,而不再是一個詞了。
其次,加不加“兒”的問題。“兒”字是一個很特殊的成分,代表兒化,雖然在音節上它可以依附于前面的成分,但它畢竟也占一個字符,這樣就在音節長度和字符串長度上產生了矛盾。比如,詞典中“一會兒”是一個詞,但“一會”就不大好處理。
對于第二個問題,由于本文的目的是考察“高頻是否一定是詞”,因此,對于“詞”和“短語”的區分,我們本著它是“詞”的原則,如果能得出相反的結論,更是對本文論證的加強。
第三,“短語”和“無效串”的區分問題
盡管看起來將“短語”和“無效串”區分開來不會有什么難點,但這是在句子中,在有語境的情況下。其實,單獨從字符串的角度來看,還是有一些難于處理的情況,例如“也不、有一、在這、這一、的話、里的、面的”。以“的字短語”為例,本文是將所有“的字結構”看作短語的,但有些情況卻不能很好地做出判定,像“里的、面的”。
對“短語”和“無效串”的區分中存在的問題,本文采取以下原則及策略:
1.有意義即為短語,無任何意義、斷裂的結構為無效串。
2.以紫光系統詞庫(153956條,實際包括詞和短語)作為驗證短語的一個策略,出現在里面的一定為短語。
三、語料收集與統計說明
本文的統計語料皆來自互聯網,共1.08G,高達486408743個漢字,接近5億,都是手工采集并經處理的有效文本內容,存為TXT.文件。語料采集的時間為:2012年4月~11月。
語料內容包括四部分:中國現當代文學作品(包括現當代知名作家的全部代表性作品,及其他一些比較知名的文學作品)、新聞(包括人民日報、新華網、中國青年報等媒體的新聞報道)、政府公文(包括法律類、政策類等官方文件)、網絡小說(包括“都市言情、軍事、科幻靈異、玄幻修真、游戲競技、耽美同人”等類型)。這四部分語料的規模分別為312M、94.3M、92.2M、609M,共1107.5M,比例約為3:1:
1:
5。
以上語料都是從網絡下載的,語料文本中存在著廣告等無效信息,與原文不相關的成分如序言、后記等我們一并刪除。對這些無效信息的處理,我們采用人工和機器處理相結合的方法:有些有一定規則的重復出現的信息我們用機器刪除,零碎的不成規則的全部手工刪除。語料下載收集與預處理工作是同時進行的。
本文使用的預處理及統計工具是“漢字串N-gram統計檢索軟件Cici V1.0”,該軟件基于Java語言開發,支持GB級別中文文本語料N-gram串統計與檢索,支持長度為1-10之間的漢字串統計。Cici是一個自由、綠色軟件,用戶可通過互聯網直接獲取。
四、統計結果分析
本文對1000個高頻2-gram串的考察結果見表1。
從表1可以看出,在頻率最高的前1000個二字串中,“詞語”所占的比例最高,約占一半,短語次之,另外還有約五分之一比例的無效字符串。這至少說明以下幾個問題:1.在漢語中頻率非常高的二字串中,詞語的比例很高,有很大可能性是詞。2.盡管我們統計了一個超大規模的語料庫,可以說分析了漢語中毗連頻率最高的1000個二字串,但還是有一半的二字串不是詞語,這說明,絕對的高頻率毗連的二字串不一定是詞,而且除了無效串,這里面還有很多是短語。3.想以高頻率來抽取漢語中的詞語的方法是不可行的,因為在我們抽取的超高頻二字串中都有許多非詞成分。
本文還發現,出現在超高頻字串表中的無效串有以下特點:
第一,多和絕對高頻的單字串在一起出現。
第二,很多無效串二字多處于跨層結構中,例如“況下”,多半情況下出現在“在……情況下”語境中。
第三,無效字串中不乏有短語化、詞匯化傾向的例子,例如已有研究的“的話”(不過詞典還未收錄)——即處于跨層結構中;再如“的說”,其“成詞性”要稍弱于“的話”。而“的話”的串頻要遠遠高于“的說”,這說明,二字的高頻共現,尤其是與虛詞有關的高頻共現確實容易誘發詞匯化、語法化現象。
最高頻1000個二字串中各屬性字串構成比見表2。
由表2可知,(1)雖然我們選取的1000個二字串都是超高頻二字串,但它們內部本身差異是很大的。譬如,頻率最高的詞與頻率最低的詞的頻率之比約是20:1;頻率最高的短語與頻率最低的短語頻率之比約是23:1;頻率最高的無效串與頻率最低的無效串頻率之比約是15:1;頻率最高的二字串與頻率最低的二字串之比約是28:1。(2)在我們分成四塊的考察中,每塊里面都有一定比例的詞語、短語以及無效串,而且它們的比例都是成“詞>短語>無效串”的序列。(3)各塊“詞、短語、無效串”所占比例分別都與表1所統計比例類似,例如:排名251~500Z-字串部分詞、短語、無效串所占比例分別為48.8%、32.8%、18.4%,與表1所示總體比例49%、31.4%、19.6%基本持平,但也表現出一定的差異,見圖1。
基于數據分析,本章得出以下幾個結論:
第一,不考慮其他因素,相鄰共現字串的“高頻率”不能作為其被判定為詞的標準。通過上面對1000個超高頻二字串屬性的統計,可以看出,不論多么高的頻率范圍,總是會有一定比例的短語存在,而且其中最高頻的“一個”都是短語,并沒有因高頻而“詞化”。
第二,頻率單獨不能實現漢語短語到詞的“連續統”劃分。從1000字串分段分析中我們看到,詞和短語是交叉分布的,而且每塊各個比例都相當,因此,盡管從所有排序字串屬性來說很可能高頻詞多,低頻詞少,但這同樣還是不能掩蓋詞和短語交叉分布的事實。依據圖1還可以發現,短語數并沒有隨排名降低而明顯減少或增多,這說明短語分布的普遍性和均勻性以及漢字超強的組合能力。
第三,高頻出現的字串屬性“可能性”:詞語字串>短語字串>無效字串。這一結論只具有統計學上的意義,是籠統的,不具有判定字串屬性時的實際操作性,因為不論從“高頻共現”(字串)的角度還是“高頻出現”(有意義字串)的角度來說,它們既可以是詞,也可以是短語,還有可能是無意義的字串。不論如何選取語料,這一事實不會改變。這意味著,在區分詞和短語這一問題上,“頻率”發揮的作用不會那么完全有效,需要進一步找出其適用范圍,以及合適的統計方法。當然,對于不是以區分詞和短語的研究來說,比如選取除詞典以外的“分詞單位”、計算機輸入法詞庫的語言單位等,基于頻率的選取是非常重要的一個來源。
第四,頻率越高,字串的“有意義性”幾率越很大。
在這里“有意義性”是指語言上是有意義的單位,具體指“詞”和“短語”。只要是高頻出現在一起的字串基本可以有一定的意義或高度熟悉感。
那么應該怎么來解釋并非“頻率越高,成詞性越高”這一結論呢,本文認為原因如下:
第一,詞語并不是人們表達的唯一常用單位,有很多短語也是人們經常使用的單位,但它們并未“詞化”。
第二,詞的產生過程并不與頻率有必然的聯系,人們構造新詞只是使用上的需要,或者有可能只是部分領域使用的需要,因此不必然與高頻率相聯系。
第三,即使由所謂“高頻共現”而產生的新詞,也不與“籠統頻率”存在必然聯系,而只與“臨界頻率”有關,彭睿(2011)對此有詳細論述。
五、結語
本文通過對近5億字的現代漢語語料2-gram串的考察分析,得出了如下結論:“頻率”不是“詞”定義的應有之義,也不可直接作為界定詞的標準;它在解決詞和短語區分的模糊地帶也不能廣泛發揮作用;它在解決詞和短語區分的模糊地帶方面能否發揮重大作用還需進一步的分類探討,這也是我們下一步將要進行的工作。
本文還存在一定的不足,后續研究中還可以從以下幾個角度深入展開討論:
第一,不同語料庫的統計結果會有一些差異,因此有必要考察不同語體語料對詞和短語區分可能產生的不同影響。
第二,對中、低頻二字串部分加強定量考察,并與高頻部分的統計結果作對照。
第三,對有意義耦合字串在文本中出現的真實頻率進行統計,并考察其對區分詞和短語產生的影響大小。