戴鐘漪
(四川師范大學文學院,四川成都 610000)
2006年國家語言資源監測與研究中心和商務印刷館聯合發起了“漢語盤點”活動,旨在讓廣大網民通過一個字、一個詞,對過去一年的中國與世界進行描述,以展現漢語的魅力,并記錄社會的變遷。2011年后“漢語盤點”活動從“年度字詞”的單體發布,到與“十大流行語”“十大新詞語”一體發布。
統計語言學是運用統計數學的方法來研究語言現象的學科,研究領域非常廣泛,可以用來發現詞頻與詞排序之間的關系、常用詞和非常用詞、詞語搭配、短語獲取、語言習得、語域變異及作品風格分析等,近些年統計語言學廣泛應用于計算機,主要應用在頻率詞典的編寫、詞匯增幅率研究、計算機詞匯統計研究、語料庫建設等方面。[1]
有不少學者對年度新詞和流行詞語進行研究,比如丁聰(2014)、張大雁(2017)對流行詞語“土豪”一詞的詞義演變進行了探究;楊昊(2011)對網絡熱詞“傷不起”的詞義及其功能進行了分析;周思璐(2019)對2018年度網絡流行語進行了分析。[3]但這些學者都是對熱詞進行研究,很少有學者對這些詞剛產生時的使用頻率進行研究,也沒有學者將這些年度新詞與統計語言學相聯系。故本文擬用統計語言學對最近六年發布的十大新詞進行數據統計與分析,并依據統計分析中遇到的問題,最終為統計語言學的應用方面提出建議。
筆者通過統計研究的方法對2016—2021年度的十大新詞進行研究,選取依據是該詞在BCC語料庫中的語料條數。結果如文末表1所示。
1.年度新詞的分類
從來源上來看,年度新詞可以分為來源于網絡、來源于政策、來源于新生事物或現象三類。其中來源于網絡的新詞有5個,分別是表情包、洪荒之力、吃瓜群眾、夸夸群、破防;來源于政策的新詞有兩學一做、凍產、雄安新區、共有產權房、租購同權、通俄門、留置、金磚+、信聯、站位、貿易霸凌、極限施壓、止暴制亂、接訴即辦、基層減負年、鄉字號/土字號、復工復產、服貿會、雙循環、七一勛章、雙碳、雙減、保障性租賃住房、跨周期調節、減污降碳、動態清零,共26個;來源于新生事物或現象的新詞最多,有阿爾法圍棋、網絡大電影、摩拜單車、山寨社團、閨蜜門、共享充電寶、灰犀牛、勒索病毒、地條鋼、進博會、直播答題、限競房、消費降級、中國農民豐收節、大數據殺熟、冰屏、夜經濟、5G元年、冰墩墩/雪容融、殺豬盤、疫情、感染者、方艙醫院、健康碼、數字人民幣、天問一號、無接觸配送、祝融號、德爾塔,共29個。通過對這三類年度新詞進行數據上的比較,發現來源于網絡的新詞數量較少,而來源于政策與新生事物現象的新詞數量較多。
從音節結構上來看,在表1中,雙音節詞有7個,三音節詞有19個,四音節詞有22個,五音節詞有9個,六音節詞有1個,七音節詞有2個。也就是說,年度新詞中沒有單音節詞,三音節詞和四音節詞數量較多,雙音節詞和五音節詞數量較少,六音節詞和七音節詞數量都很有限。這樣的分布結果也正好符合了現代漢語的語法習慣。以四音節詞為例,四音節詞在結構上整齊勻稱,在音韻上抑揚頓挫,且四音節結構大都由兩個雙音節詞構成,符合現代漢語中雙音節詞占優勢的特點。

表1 2016—2021年度十大新詞在BCC語料庫中的語料條數
2.年度新詞的使用情況
通過對BCC語料庫中的語料數據進行比較,我們發現有些新詞在語料庫中的語料可以達到上萬條,比如:“表情包”等。但是有些詞在語料庫中一條語料也沒有,比如“中國農民豐收節”“直播答題”“消費降級”等。由此可以看出有些新詞產生之后由于使用頻率不高已經處在逐步消失的階段,有些新詞仍在大量使用。[4]
值得一提的是,在年度新詞的來源進行分析時,我們認為來源于網絡社會的新詞數量較少,而來源于政策與新生事物現象的新詞數量較多。但相當一部分政策類新詞的語料和新生事物現象類新詞的語料有著在語料庫中一條語料也沒有的現象。而網絡類新詞就個體而言,每個新詞的語料數量是較為豐富的。也就是說,來源于網絡的年度新詞較易被語言使用者接受,使用情況較好。這類新詞雖然最初起源于網絡,但隨著網民的大量使用和網絡社會的發展,在日常生活中,這類新詞也漸漸被接受并廣為使用。這充分體現了新詞的活力與價值,是值得肯定的。同時,政策類新詞由于其適用范圍的局限性,如“保障性租賃住房”“跨周期調節”等詞,使用需求不大,一般出現在報刊新聞上,而較少出現在日常生活中,故使用頻率較低,語料數量較少。來源于新生事物現象的新詞也是如此,一部分該類新詞能夠廣為所用,如“摩拜單車”“德爾塔”等,但相當一部分新詞使用頻率較低。這也是這類新詞的本身特性導致的,部分新詞如“夜經濟”“冰屏”“地條鋼”等,專業指向性較強,相當一部分人甚至都沒有聽過這些新詞,因此其使用頻率低、使用情況較差也是可以理解的。同時,來源于新生事物現象的新詞還會因為新生事物或現象熱度的減退而隨之降低使用頻率,如“冰墩墩/雪容融”。
在對年度新詞進行統計分析的過程中,筆者發現語料庫中存在語料雜亂重復、新詞語料數量過少等問題。針對這些問題,下文擬從兩方面提出建議,分別是對頻率詞典編寫的建議和對語料庫建設的建議。
頻率詞典是按照詞出現頻率的高低而編排的詞典。世界上第一部頻率詞典是1898年德國語言學家凱定編的《德語頻率詞典》。中國的頻率詞典有1986年北京語言學院語言研究所出版的《現代漢語頻率詞典》和1990年北京宇航出版社出版的《現代漢語常用詞詞頻詞典》。新詞的產生會豐富現代漢語的詞匯系統,有些新詞產生之后使用頻率特別高,對于這種使用頻率特別高的新詞,可以收錄到頻率詞典中。
以2016年—2021年間在BCC語料庫中語料條數最多的三個新詞,即“表情包”“金磚+”“信聯”為例,通過對語料庫中這三個詞語的前10000條語料進行研究,我們發現這些新詞產生之后就迅速發展,廣為使用。
通過表2我們可以看出這三個新詞在產生以后使用頻率很高,對于這類使用頻率很高的新詞,在編寫頻率詞典的時候應該收錄進去,并標注這些詞產生的年份,這樣就可以清楚地記錄這些新詞的產生和發展。

表2 “表情包”“金磚+”“信聯”前10000條語料年份分布情況
在我國,從20世紀20年代開始,就有學者運用統計語言學來對漢字的使用頻率進行分析研究,建立出可供使用的文本的語料庫,并制定出基礎漢字的字表。到了1979年,我國逐漸開展對機器可讀語料庫的建設。[5]至今,現在常用的語料庫有北京語言大學 BCC 語料庫、北京大學中國語言學研究中心CCL語料庫、國家語委現代漢語平衡語料庫等。[2]但是隨著時代的發展,新詞的出現會要求這些語料庫做出進一步的改變,根據前面對“漢語盤點”活動盤點出的新詞研究,對語料庫建設的意見主要有以下幾個方面。
1.擴大語料庫覆蓋面
根據“十大新詞”在實際生活的具體使用和在語料庫中的收錄條數,“十大新詞”具有較高的使用頻率和影響力,因此語料庫建設者在建設語料庫的時候可以擴大語料庫覆蓋面。CCL語料庫中有“HSK”“文學”“篇章檢索”“多領域”“微博”“科技”“古漢語”“報刊”這八個板塊,可以適當增加“年度新詞”和“年度流行語”板塊。這樣可以清晰記錄代表性新詞的流變,發現有哪些新詞的產生,又有哪些舊詞隨著時間流逝而逐漸減少使用。
2.對語料進行歸納整理
在統計整理語料的過程中,筆者發現語料庫中的語料十分雜亂。以2017年年度新詞中的“金磚+”為例,筆者發現在語料庫檢索結果中,“金磚+”的語料與“金磚”的語料相互混雜,這是不應當的。如:
(1)巴育表示,中國為完善“金磚+”模式、促進新興市場國家與發展中國家參與全球經濟治理發揮了重要作用。(人民日報2017年09月07日)
(2)茲奇金礦是約翰內斯堡高地金礦集團五大金礦之一,每周生產這樣的金磚8塊,這實在是了不起的數字。(人民日報1995年01月10日)
可見,語料庫中的語料應該進行歸納整理,不同的語料應當歸屬不同的類別。同時,筆者在整理這些語料的時候發現有些語料還重復出現,嚴重影響了統計結果。對于這些重復語料,語料庫建設者在建設整理語料庫的時候應當立即刪除。
3.增強動態語料庫的時效性
在表1中,2016年、2017年的年度新詞在語料庫中的收錄總量較多,所有新詞均有可供參考的語料。但從2018年開始,每一年年度新詞在語料庫中的語料條數總量都較少,且大量存在部分新詞在語料庫中沒有語料的問題,尤其是2019年,僅有兩個新詞在語料庫中存有語料,且語料條數極少。為了進一步研究語料庫對近幾年的新詞收錄情況,筆者以最新一年,也就是2021年“漢語盤點”盤點出的年度“十大新詞”進行了語料庫檢索。主要在動態語料庫:CCL語料庫主、BCC語料庫、和國家語委現代漢語平衡語料庫中檢索。

表3 2021年“十大新詞”語料情況
從2021年的“十大新詞”在語料庫中的語料條數可以看出,2021年度新詞存在著相當一部分新詞在三個語料庫中都沒有語料的問題。有些新詞即使在BCC語料庫中有少數語料,但在其他語料庫中依然沒有語料。這說明動態語料庫在更新語料方面不夠及時,而語料的缺失也會在很大程度上影響相關研究人員的查找搜集工作。所以語料庫建設者在搜集語料的時候應該注重時效性,盡量將每年產生的新詞及時收錄進去,做到及時更新。
年度十大新詞作為最具代表性的新詞,具有較高的研究價值。運用統計語言學對年度新詞進行統計分析,可以更為清晰直觀地認識年度新詞。這些詞語有的自產生之后就蓬勃發展,有的產生之后會隨著時間的流逝而逐漸減少使用。那些蓬勃發展的詞語就會對統計語言學的應用產生影響,在編寫頻率詞典的時候要考慮到這些產生之后就大量使用的新詞。在建設語料庫的時候覆蓋面也應廣一些,可以適當增加“年度新詞”和“年度流行語”板塊,對包含這些年度新詞的語料進行歸納整理,并對語料庫進行實時更新,才能為現代漢語的詞匯研究提供更豐富的語言資料,既可以保持漢語詞匯系統的活力又能清楚地看到漢語詞匯系統的發展過程。