紀丹丹
摘要:詞是語言中一個多維性的概念,不同的研究方向和視角,便產生了不同的維度的詞。語法詞是語法學研究的對象,心理詞是心理語言學研究的對象。語法詞和心理詞兩者既有聯系,也有區別。語料庫中詞的切分標準就涉及到了語法詞與心理詞問題。
關鍵詞:語料庫;語法詞;心理詞
中圖分類號:H3 文獻標識碼:A文章編號:1671-864X(2016)02-0149-02
一、引言
語料庫是進行語言學研究和計算機研究的大規模電子文本庫,不同的語料庫有不同的作用,分詞語料庫就是針對分詞專門建立的自動分詞語料庫。孫茂松(1999)在《談談漢語分詞語料庫的一致性問題》中提出一個問題:語料庫的分詞應該傾向于切成“語法詞”還是“心理詞”?孫茂松認為,所謂的“語法詞”是指語言學家心目中的詞,“心理詞”指不自覺得潛移默化于老百姓心目中的詞。“語法詞”與“心理詞”兩者的定義不同,劃分標準也不同,語料庫的分詞應該以哪一個為標準,這是值得我們思考的問題。孫茂松提出語料庫的分詞應該突破“語法詞”的圈圈,把視野進一步擴大到“心理詞”上①。這樣,語料庫中詞的切分就不僅僅考慮了語法上的標準,還注意到了讀者心理上詞的劃分情況。
本文擬就語料庫中詞的切分問題進行研究,探討語料庫中的分詞到底應該如何執行。
二、語法詞
章士釗最早提出了“詞”的概念,細致地區別了字、詞以及短語。黎錦錫指出“詞就是說話的時候表示思想中的一個觀念的語詞”,這種說法完全是從意義的角度對詞進行的定義,忽略了虛詞,因而具有一定的局限性。王力把詞定義為“最小的意義的單位”,他在確定詞的過程中,還采用插入法和意義分析法來確定詞,這種確定詞的方法今天仍然在用。呂叔湘定義詞為“語言的最小的獨立運用的單位”。目前學界比較認定的是黃伯榮、廖序東提出的“詞是語言中最小的能夠獨立運用的有音有義的單位”。這是從語法角度對詞所作出的本質概括,所以也可以視為“語法詞”的定義。
語法詞是語法學研究的主要內容之一,突出了詞的語法性,是語料庫中劃分詞的最主要的標準。
三、心理詞
心理詞是指讀者頭腦中對詞的表征,它包括了個人對該詞所包含的所有信息,如詞的拼音、意義、拼寫以及和其它詞的關系等。心理詞的實質是看一個漢字組合在讀者認知系統中是否是作為一個整體被表征的,從定義來看,心理詞突破了傳統的對詞的定義,范圍上有所擴展和延伸,既包含了傳統意義上的詞,又包含了一些詞匯化的單位,如短語等②。心理詞是個比較寬泛的概念,相對于“語法詞”來說,它具有很大的主觀性以及模糊性,其分合程度因人、因詞而異。
心理詞與語法詞在某些情況下是可以一致的,如“成功”、“商店”等詞,在語法上和讀者的心理表征上都被認為是詞。這時,心理詞和語法詞都是讀者在閱讀中的基本語義單元,只不過語法詞是從語法的角度規定詞的構成,而心理詞的定義更加關注讀者閱讀時加工的語義單元。
心理詞與語法詞在某些情況下也可能不一致,如“自然科學”,在語法上是“自然”和“科學”兩個詞,但是很多讀者在心理上將其劃分為一個詞,把它作為一個整體來接受。心理詞是存在于讀者心理詞典中的詞條,因每個人的知識掌握水平、經驗以及一些客觀原因的不同而不同,沒有一個統一的標準,因此不同的讀者對詞所作出的判定不可能完全一致。如此看來,心理詞與語法詞的標準也就可能一致,可能不一致。這也是心理詞的彈性和模糊性所在。
四、心理詞與語法詞切分分歧的原因
(一)語法知識水平
閆國利(2012)做過一組實驗,挑選一定數量的不同語法知識水平的人(中文專業的學生和一般的學生)對相同的篇章進行詞切分,并且觀察他們詞切分的差異。研究結果發現:語法知識掌握水平影響讀者對詞的認識,當讀者語法知識掌握少時,對詞的認識就比較模糊,切分的單元會比依據語法標準切分所獲得的詞單元大,因此心理詞與語法詞的差異也就很大;當讀者掌握的語法知識較多時,對詞的認識會比較清晰,切分的單元更貼近依據語法標準切分所獲得的詞,因而心理詞與語法詞的差異也就較小。
因此不同的讀者對詞的切分存在分歧的最主要原因就是讀者語法知識的強弱。當讀者的語法知識薄弱,缺乏清晰的詞概念,對什么是詞以及如何區分詞沒有明確的認識的時候,就容易導致心理詞與語法詞之間的差異過大。比如“就是”,是由副詞與動詞兩個語法詞組合起來的,但是很多人會憑感覺將它劃分為一個詞。還有很多讀者不是按照詞形或語言學標準完成詞的切分,而是受文本背景的影響,根據直覺完成詞切分,切分的單元表達一件事或者一個概念。
(二)漢語書寫系統的特點
漢語文本以字為基本書寫單位,每個漢字所占的空間大小一樣,并且漢字間的間隔也是等距的,詞與詞之間沒有明顯的物理線索標記詞。因此漢語讀者如何對句子進行切分,如何識別詞以及短語,一直是語言學家們研究的問題。關于讀者閱讀的基本信息單元問題,目前學界有兩種說法。一種是漢語閱讀是基于詞的閱讀,另一種觀點是漢語閱讀是基于字的閱讀。這兩種說法都得到實驗證據的支持。
(三)詞頻
詞頻是指某個固定搭配出現的次數,出現的次數越多,頻率越高,變成心理詞的可能性就越高。如“豬肉”、“文化館”,從語法詞的角度劃分,“豬肉”應該是由“豬”、“肉”兩個詞構成;“文化館”由“文化”和“館”兩個詞構成。但是由于這兩個詞搭配出現頻率很高,讀者從自己的閱讀經驗出發,就更傾向于將它們看作是詞而不是短語。
(四)語義的聯系
不同詞之間的語義聯系是影響讀者對詞切分的因素之一。當兩個詞之間的語義聯系密切時,讀者的判斷會受到影響,從而將它們劃分為一個詞。如“研究方法”,從語法詞角度劃分,是“研究”和“方法”兩個詞;而讀者鑒于“研究”與“方法”兩個單元之間的語義上的密切聯系,會將“研究方法”看成一個整體。
(五)結構上的相似性
由于語言單位結構的相似性,我們在劃分詞或短語的時候會錯誤地進行類比,故而劃分錯了詞或短語。如,“白菜”不等于是“白的菜”,“黑板”不等于是“黑的板”,因此“白菜”、“黑板”是詞而不是短語。若是以此類推,認為“牛肉”等于“牛的肉”,那么“牛肉”就是短語而不是詞。這就是不正確的反推,相似的語言結構不代表屬于同一語法層級單位。
另外,語義的穩固性、讀者閱讀過程中正確切分詞的需求、詞的定義方法不同等都是影響詞切分的因素。
五、心理詞進入語料庫
漢語讀者進行詞切分的時主要有兩個特點:(1)把實詞和虛詞連在一起,如“等于”、“我的”。(2)把短語看作一個詞,“豬肉”、“一名”、“研究方法”。
對于“等于”、“豬肉”這樣的切分,我們是可以接受的,因為“等于”、“豬肉”這樣的切分,一定程度上反映了人的心理傾向。這樣的切分,語料庫里是可以存在的。而“我的”、“一名”、“研究方法”這樣的切分,與語法詞的偏離較大,語料庫里是不能包容的。因此,我們需要引起關注的是:語料庫中詞的切分應該考慮到心理詞的因素,但不是所有的心理詞都能進入語料庫。那么,到底什么樣的心理詞能進入語料庫?
心理詞的概念不單單是讀者頭腦中對詞的界定,對于像“豬肉”、“等于”這類詞的切分,讀者是從自身的閱讀經驗出發,認為讀者閱讀的基本信息單元不是詞典上的語法詞而是更貼近真實閱讀,更具有彈性以及靈活性的心理詞。從這個角度看,語料庫中詞的切分不應該僅僅局限在語法詞上,我們應該將觸角由“語法詞”延伸到“心理詞”。需要注意的是,我們也不能將“心理詞”的外延無限擴大,導致它們急劇膨脹,阻礙“語法詞”的發展。換句話說,心理詞進入語法詞必須有個限度。那心理詞進入語料庫的度是什么?筆者認為,第一,語料庫里切分的心理詞應該是反映大多數語法知識水平較高的人(專科以上水平)的共同心理傾向,而不能是反映單個人的心理傾向。第二,切成的“心理詞”與“語法詞”之間差異不能過大,否則會給詞匯造成一定的混亂。第三,兩個相同的結構體的心理詞在語料庫中的切分是否應該一致,這個要具體問題具體分析。把握好心理詞進入語料庫的度,是目前語料庫中詞的切分問題的一個難點,實踐起來遇到的具體困難,還有待于我們去解決。
六、結語
語法詞和心理詞是漢語中很值得關注的兩種詞。語法詞是詞匯中最小的可以獨立運用的音義結合體,心理詞是心理語言學中讀者頭腦中對詞的表征。兩者既有區別也有聯系。語法知識的掌握水平、漢語書寫系統的特點、詞頻、語義關系、結構的相似性都會影響讀者對詞的切分。無論是語法知識掌握水平低的人還是語法知識掌握水平高的人,都不能完全將詞與其它語言成分區別開來,“語法詞”與“心理詞”這兩者在一個人身上是同時并存的。每個讀者詞切分出來的單元就是讀者頭腦中的心理詞,因而心理詞有極大的模糊性與主觀性。語料庫中應收入反映絕大多數語法知識水平較高的人的共同心理傾向并且與“語法詞”差異較小的“心理詞”。
注釋:
①孫茂松.談談漢語分詞語料庫的一致性問題[J].語言文字應用,1999(2).
②孫莎莎.漢語心理詞加工的優勢效應[J].天津師范大學,2012.
參考文獻:
[1]張蘭蘭.不同語法知識掌握水平對中文詞切分的影響[J].天津師范大學,2009.
[2]閆國利.漢語閱讀中的心理詞加工[J].心理與行為研究,2012(10).
[3]高燕.詞匯詞·語法詞·拼寫詞[J].