摘 要 語言監測工作中有關新詞語的監測結果可以利用新詞語編年本的方式向社會公布。新詞語編年本的功能、目標與多年本不同,除了傳播語文知識外,還具有歷史紀實、即時反映社會文化、詞源查詢和語言資源研究等多項功能,這就決定了新詞語編年本在詞目搜獲上最好采用機器加人I的方法,在詞目收錄上除了應遵循符合公眾語感這一總原則外,還要考慮寬容、全面、前瞻等諸準則,在具體編寫時還要注意釋義、背景知識和例句等的適當安排。
關鍵詞 編年本 新詞語 語言監測 詞目搜獲 詞目收錄
上個世紀80年代以來,新詞語一直是漢語學界關注和研究的熱點。據統計,至今已有50余部各種新詞語詞典出版。根據所收新詞語產生時間跨度的不同,新詞語詞典可分為兩種:編年本和多年本,也可稱為“即時型新詞語詞典”和“穩定型新詞語詞典”。
新詞語多年本詞典所收詞語產生時間跨度一般較長,可以是一個時期,幾十年,如韓敬體等主編的《漢語新詞詞典》;也可以是十年左右,如周洪波主編的《新華新詞語詞典》;編年本所收詞語一般是在某一年度產生的,如于根元主編的《1991漢語新詞語》以及周薦主編的《2006漢語新詞語》;也有人將兩年或三年內產生的新詞語合在一起編纂,如宋子然主編的《漢語新詞新語年編(1995—1996)》等。
編年本與多年本用途不同,目標不同,詞語收錄與編纂原則也有不同。本文試從語言監測的目標出發,在與多年本的比較中闡釋編年本的特點,提出編年本的編纂原則,以就教于方家。
一、語言監測與新詞語編年本
語言是交際的工具,也是一種資源,是一種有價值、可利用、出效益、多變化、能發展的特殊的社會資源。開發利用資源的前提是了解、把握這種資源。國家語言資源監測與研究中心近些年來開展的工作就是利用先進的科學技術手段,在大規模動態流通語料庫的基礎上,調查、描述社會語言生活的實際狀況,以便人們更好地了解并利用我們的語言資源。
語言是社會的一面鏡子,反映著社會生活的各種變化。新詞語的產生是語言變化的重要表現形式。只要社會存在,語言存在,新詞語就會產生,它必然地成為語言監測的重要內容。國家語言資源監測與研究中心“以‘中國語言生活綠皮書’的形式,每年向社會發布研究成果,其中有一個內容,便是對新詞新語進行監測的結果。這是一項令人鼓舞的宏大工程,如果能夠得到理想的結果,便能夠清楚顯示每個新詞語的來龍去脈,便意味著建立起了高精密度的‘新詞語檔案館和監測臺’”。
語言監測,指的是利用現代科技手段,實時地、不間斷地對能夠代表某一社團或某一領域語言使用狀況的語料樣本進行調查、分析、描寫,目的是及時反映語言生活狀況,描述語言變化實態,向人們提供語言使用的實際情況,以便對語言這種資源進行更好的開發和利用。顯然,語言監測工作具有即時性、記實性和不間斷性三個特點。要體現語言監測的這三個特點,把對新詞語的監測情況及時記錄與反映出來,編年本是比較合適的選擇。
新詞語編年本所收詞語時間跨度小,數量多,可以忠實地記錄社會上產生的新詞語,客觀地描述共時語言現象,及時反映語言使用的原生態,具有原始數據性質,可供應用語言學、理論語言學研究之用,也可以作為多年本新詞語詞典和規范型語文詞典的來源和基礎。
新詞語編年本功能與目標與多年本不同,在詞目的搜獲、收錄以及編寫方法上都有自己的特點。
二、新詞語編年本的詞目搜獲方式
在語言生活中,新詞語是隨時、隨機產生的,制造新詞的人不會在媒體上專門宣布,使用新詞的人一般也不會特別說明,新詞語和原有詞語一起融合在語言生活的大海里。那么,在語言的大海中識別出新詞語的身影,并把它們準確地提取出來,是語言監測的任務,是新詞語編年本的第一步工作,同時也是最重要、最困難的工作。
到目前為止,幾乎所有編年本中新詞語的搜獲,都是靠人工閱讀報章雜志,從中摘取,有些在人工操作的基礎上再作一些技術性處理。邢福義指出:“這樣得到的新詞語,不可能全面,更不可能知道所得新詞語最早是在什么時候、什么地方出現的。”他進而指出:要監測到每年在什么時候、什么地方、出現什么新詞語,必須建制出一套“獲取新詞語的多功能篩濾網”,篩濾原詞語、原詞語外的非新詞現象和原有義項。鄒嘉彥也認為,依據個人或少數人所見語料來編寫新詞詞典,難免以偏概全;“較好的辦法是‘先機器后人工’,先用語料庫自動抽取新出現的詞語,然后由人工審閱,剔除那些不合‘新詞,資格的詞語”。看來,采用現代信息處理技術,在語料庫的基礎上搜獲新詞語是一種比較可靠的方法,這已成為人們的共識。
上世紀90年代以來,人們已陸續建立了各種各樣的語料庫,這些語料庫在語言研究中起到了重要的作用,但不是所有的語料庫都適合用來監測并搜獲新詞語。用來監測新詞語的語料庫必須具有流通度高、開放性強、規模巨大三個特點。
首先,語料庫選取的語料必須要有很高的流通度。流通度可以保證該語料在社會上的通用性,保證該語料對人們的影響力。
其次,語料庫必須是開放的,新的語料要實時地、源源不斷地匯人語料庫,以保證語料的新鮮度。
最后,語料庫規模要足夠大。因為詞匯關系到社會生活的各個方面,語料只有達到一定規模才能比較真實、全面地反映社會語言生活。
國家語言資源監測與研究中心的國家語言資源語料庫基本上具備這三個特點:首先,該語料庫的三個子庫是按照對社會發展和人們生活影響最大的三個大眾主流媒體設置的,包括報紙(平面媒體)、廣播電視(有聲媒體)、網絡(網絡媒體);而且,各子語料庫又都以流通度作為采集語料的依據,這就保證了其語料具有足夠的空間分布,對社會具有很強的影響力。其次,該語料庫是動態的,現正按每年度10億字次的規模持續滾動采集語料。到目前為止,各子語料庫都已經積累了從2000年到最近的語料,總體規模近50億字次,完全具備了自動搜獲新詞語的基礎條件。
合適的語料庫只是新詞語自動采集的基礎,要很好地完成這項工作,還需要技術方面的保障。人們已作了一些這方面的嘗試,也積累了一些比較成功的經驗。但毋庸諱言,受到技術水平的限制,計算機自動提取新詞語還存在很多問題。
問題之一,無論哪種方法,人們自動搜獲的都是新詞形,而新詞義很難獲取,用計算機自動提取新詞義,人們還沒有找到很有效的辦法,還需要進一步探索、研究。
問題之二,即使是新詞形,如果是可以被嵌入到某個已有詞語中的,也很難獲取。如“動車”,作為“動車組”一詞的簡縮形式,是2007年出現的。因為它可以被嵌入在“動車組”、“機動車”、“電動車”等形式中,所以僅靠一些形式上的特征,如頻次、文本數等,很難識別出來。
問題之三,根據計算機自動提取的結果來看,目前的方法大致可以分為兩種情況:準確度高的,伴隨著較大的召回率損失,一些新詞語被遺漏了;召回率高的,則意味著大量的后續人工干預工作,而人工干預會造成新的遺漏。
綜上所述,在新詞語的搜獲上,無論人工查獲還是機器提取,都不可能無一遺漏,新詞語編年本也不可能做到將該年度的所有新詞語都一網打盡。比較起來,機器加人工,是一個可行的辦法。現階段,人工力量的比重還比較大,希望隨著研究的深入,人工干預能夠越來越少。
三、新詞語編年本的詞目收錄原則
國家語言資源監測與研究中心的統計證明,每一年使用的詞語大約有65%~70%是不相同的,就是說,每一年語言中都會有大量的新的字符串出現。這些新的字符串不可能都收進詞典中,其中很大一部分在人們的語感上也不是新詞語。
新詞語是某一時段后新產生的詞、短語或意義。新詞語的本質屬性有兩個:1 必須是一個詞語;2 必須是“新”的。“必須是一個詞語”,指的是它必須具有詞匯意義,具有代碼化的特點,不能是一個自由短語或一個句子。另外,那些離開具體語境就不明其義、很難確定其詞語地位的,也不是新詞語。所謂“新”,是一個相對時間概念。從系統的角度看,新詞語是指那些以語言系統中已有詞語或已有詞語的已有意義作為參照物而存在的詞語或意義;從個體的角度看,新詞語是指那些處于自己生命周期開始階段的詞語或意義。年度新詞語指的是在某一年中產生并在該年度語言詞匯系統中占據一定空間的詞語(或意義)。我們把對新詞語的這種認識作為一個工作定義,用它來指導編年本對新詞語的收錄工作。
收錄新詞語的過程,實質上是對新詞語確認的過程。確認新詞語的總原則是要符合公眾的語感。此外,還要有一些具體的準則:寬容、全面、前瞻。這些準則是與編年本的功能以及它的編纂目標直接相關的。
1 寬容
像所有生物個體一樣,每個詞語也有它自己的生命周期。根據時間發展和空間分布,可以把新詞語的生命歷程分為頻次低、偶發分布的起始階段,使用頻次增加、分布空間擴大成為準詞位的發展階段,以及“新”色彩漸失、獲得詞位地位的成熟階段。從起始階段,到發展階段,再到成熟階段,新詞語所需要的時間不一,有的很長,有的則很短。年度新詞語能進入成熟階段的不是很多,大部分都處在起始或發展階段,其中有相當一部分可能尚未進入成熟階段就從語言中消失了。那么,這些曇花一現的新詞語是否要收錄,就成了一個有爭議的問題。
我們認為,新詞語編年本的功能不僅是為人們提供一些新詞和釋義,也應該是展示那一年度社會生活的畫卷。編年本的這一功能就決定了收錄新詞語時態度要寬容,不以其生命長短作為衡量標準,只要在語言生活中實現了交際價值、體現了文化傳錄功能的新詞語,就應該收錄。“稍縱即逝的詞語也同樣是詞語,從研究的角度看,比起那些已登錄的詞語或穩定性強的詞語,它們的價值并不低。”比如,在2007年度新詞語中的“紙餡包子、蕉癌、周末憂慮癥、奧運沙”等,出現時間并不長,可能以后也不會再出現,但它們記載了2007年度中國發生的某些事件,應該把它們收入其中。
有人說編年本應該實錄,即語言中出現了什么就記錄什么,這只能是一種愿望,實際是做不到的。雖然做不到實錄,但編纂者在收錄詞條時應該抱有一種寬容的心態,正如呂叔湘先生所說,“與其失之于嚴,毋寧失之于寬”。
2 全面
新詞語編年本是對該年度一定社會空間新詞語現象的全面觀照,應該具有開闊的文化視野。隨著信息技術的發展、大眾媒體的影響力日益強大以及科技的不斷發展,很多新的行業術語已進入大眾媒體,走進尋常百姓的生活中。“新詞語詞典必須以收詞的社會化來凸顯其涵蓋之廣,信息之富。只有廣納博取,語詞百科兼容并包,才能體現其實用價值。”
另外,漢語通用語中新出現的字母詞、來自某地域的方言詞等等,只要在大眾媒體上出現,都是編年本收錄的對象。
我們說的大眾媒體包括主流報紙、廣播電視和各大門戶網站的網絡新聞。這些媒體向大眾傳播的內容都有具體的把關人,在語言運用上,絕大部分都是人們語感上能夠接受的,個人的隨意性不是很大。至于那些個別人在某些特定場合使用的新的語言現象,在大眾媒體上沒有出現的,就不予收錄。
3 前瞻
所謂前瞻,指的是有些詞語,或者是由于出現在年末歲尾,或者是其他原因,在該年度語料中出現頻次極低,但如果預測其有生命力,也可以收入。比如“裸退”這個詞,是吳儀在2007年12月24日參加一個商界會議宣布自己將在2008年3月全國人大會議之后完全退休,不再擔任任何職務時使用的一個詞。這個詞在2007年年末出現,在2007年大眾媒體的語料里出現頻次很低,但吳儀講話以后,這個詞在社會上引起的反響很大,人們口頭廣為流傳,我們預測它會有比較強的生命力,于是也收錄進來。但這一原則的運用似須慎重。
四、新詞語編年本的編寫方法
確認好了詞條,剩下來的工作就是如何編纂了。為實現編年本的多種功能,以下幾個方面不能不認真考慮。
1 釋義的原則
作為詞典,釋義是不可少的。但對剛剛產生的新詞語進行釋義,有一定的難度,因為它的用法還沒有固定下來。另外,在釋義時也應本著描寫的態度,反映語言使用的實際情況。如“股市癥候群”,它本指因股市產生的生理和心理的諸多不健康癥狀,指的是“病”;但可能由于受“癥候群”這個“群”字的影響,又有一些人用這個詞語指“因為股市影響生理和心理健康,有著諸多癥狀的股民或非股民”,指的是患有某種癥狀的“人”。在釋義時,這兩種意義都應該給出。
2 背景知識的介紹
有些新詞語僅僅給出釋義還不夠,還起不到它作為歷史畫卷,作為社會變化百科全書,作為詞源學詞典、語用學詞典的作用,還應該給出該詞條的背景知識。宋子然主編的幾本《新詞新語年編》和周洪波主編的《新華新詞語詞典》做了一些開創性的工作。《新詞新語年編》在每一個詞條后設“按語”;《新華新詞語詞典》則在部分詞條后面開有“知識窗”。相比之下,“知識窗”更為經濟,且更客觀。《新華新詞語詞典》還在一些詞語后面列出相關詞語,反映新詞語中形成的一個個詞族,如因同一事件而出現的“基民、基盲、基友、炒基、炒基團”,造詞法相同的“托豬所、托牛所”等。這樣更便于讀者理解和查考。
3 例句的選取
對新詞語詞典例句的選擇,有人主張應給出該詞語最早使用的例句,以確定該詞的“出生時間”,給它一個出生證。這個想法固然很好,但第一,像“裸退”這樣既容易找到出生時間、又能找到生產者的是極少數。對于大多數情況來說,要想給每一個詞語找到它的出生時間,絕非易事。姑且不說個人使用,就是大眾媒體,現在的語料也是浩如煙海,你說你看見這個詞最先在甲報紙上出現,你怎么敢保證沒有人看見它更早一點在乙報紙上出現呢?雖然我們可以利用互聯網上的搜索工具,但事實是,并不是所有的媒體語料都已經掛到網上了。所以,在詞典中聲稱所選例句是該詞的第。一次使用,風險性太大,有點不靠譜兒。第二,就算你找到了它的出生時間,找到了第一個使用這個詞語的句子,但例句的作用主要是幫助人們了解詞條的意義,掌握它的用法。如果最早的例句符合這個條件,能起到這樣的作用,自是最好;如果不能,還是應該以實現例句的功能為主要選擇標準。尤其在編年本中,所有的詞語都是該年度出生的,更應該重視它幫助人們了解該詞產生背景、掌握該詞用法的作用。
4 使用狀況的說明
為了幫助人們更全面地了解新詞語的使用情況,除了上面幾條外,如果可能,編年本還應該給出一個數據:在一定規模語料庫中出現的頻次和文本數。為了閱讀、使用的方便,該數據可采用表格方式附在正文后面。
五、結語
語言監測工作中有關新詞語的監測結果可以利用新詞語編年本的方式向社會公布。編年本的功能與目標與多年本不同,除了傳播語文知識外,還應具有歷史紀實功能、即時反映社會文化功能、詞源查詢功能和語言資源研究功能,這些功能就決定了它與多年本在詞目搜獲、收錄和編纂上具有不同的特點。目前,我們僅僅是對此作了初步探討,對新詞語編年本的更深入的了解,對它的功能的更全面的挖掘,還有待進一步研究。
(責任編輯 劉 琳)