王治敏
(北京語言大學漢語學院,北京 100083)
基于時間跨度的漢語教學常用詞表統計研究①
王治敏
(北京語言大學漢語學院,北京 100083)
統計特征;教材編寫;統計詞表
本文利用語料的頻次信息和時間跨度,通過設計不同的統計時點,建立了兩個可以反映詞語歷時變化的漢語名詞常用詞語統計詞表。兩個統計詞表不僅為《漢語水平詞匯與漢字等級大綱》新詞的收取和歷史詞的過濾提供了有價值的數據,也為人工選取教學詞匯提供了有益的參考。為驗證統計詞表的可靠性,本文又進行了統計詞表與教材高頻詞的對比研究,結果表明《人民日報》雖然是新聞語料,但是基本包含了漢語作為第二語言教材中的常用詞匯。
漢語常用詞表的研制歷史由來已久,學者們經過多次實踐,研制出多個面向不同需求的常用詞詞表,例如:1986年北京語言學院研制的《現代漢語頻率詞典》;1989年北京航空航天大學的《現代漢語常用詞詞頻詞典》;北京師范大學的《中小學漢語教學詞表》;1990山東大學的《現代漢語常用詞庫》以及 1992年國家漢語水平考試委員會辦公室考試中心研制的《漢語水平詞匯與漢字等級大綱》(簡稱 HSK詞匯大綱)。其中 HSK詞匯大綱的影響最大,大綱中詞匯的篩選不僅集成了上述各類詞表的資源成果,同時還邀請了 33位對外漢語教學專家進行人工干預。詞匯大綱曾經作為我國對外漢語總體設計、教材編寫、課堂教學、教學測試的重要依據,在學界發揮了重要的作用,但是由于詞匯大綱所用的統計語料全部來自上個世紀 80年代,多年來未曾更新,有些詞匯已經不再使用。
長期以來,學者們對于詞匯大綱的修訂提出過種種建議。趙金銘 (2003)提出在大型語料庫進行精詞頻和義頻統計之后重新進行詞語篩選和分級。姜德梧 (2004)從詞匯的發展變化、收詞標準、詞性標注、同形詞和一詞多義的處理、輕聲和兒化等多個方面提出了解決這些問題的原則和方法。李紅印 (2005)提出把大于詞的短語、結構、成語和習用語歸入新增的 “語匯大綱”,與已有的 “漢字等級大綱”、“詞匯等級大綱”相照應。劉長征 (2008)提出利用語言監測的相關結果,實現對外漢語教學用詞表定期更新的設想。如何繼承原有大綱的成果,研制新的大綱是亟待解決的問題。
因此,本文嘗試利用大規模語料的統計結果,自動提取和發現漢語常用詞語,建立名詞常用詞語統計詞表,為詞匯大綱的詞條收取和更新提供科學可靠的依據,也為制定基于統計特征的漢語教學本科詞匯大綱提供思路。
常用詞的界定往往要和基本詞匯聯系在一起,常用詞就是當代社會中常用的詞,它可以是基本詞匯的詞,也可以是一般詞匯的詞,常用詞的確定完全根據詞在最流行的書刊中的頻次 (劉叔新,1964)。一個詞語是否常用,往往是憑借經驗和直覺的判斷,但是這種直覺判斷往往帶有主觀的個人因素,不同的專業背景可能有不同的結果,因此,制定一個詞語收取的客觀標準非常重要。
國家語言監測與研究中心在《中國語言生活狀況報告》中發布了針對中國內地報紙、廣播電視和網絡的用字用詞的調查結果。該調查基于超大規模語料,考慮了平面媒體、有聲媒體、教材媒體等多方面的因素,而且發布了年度流行語的監測。由于時間只有一年的跨度,上述調查還無法判斷詞語的持續性,無法作為判定常用詞的標準。
因此,本文給出了一個量化的定義,衡量一個詞語是否常用,最重要的應該看該詞是否能夠在特定的時間段中持續流行,這就是說,一個詞語的常用程度不能只通過一個點的頻次記錄來衡量,而應該把該詞語放在歷史大背景下,通過考察詞語在多個統計時點的變化來確定其常用程度。如果一個詞在特定歷史時段中的統計時點上出現數量很多且分布很均勻,根據出現的頻繁和穩定程度可以認為該詞為常用詞匯。如果一個詞語在某一個特定歷史時段的多個統計時點上出現很少或者不出現,我們就認為該詞的使用情況復雜,有待于觀察,不能作為常用詞匯。為了驗證這一假設,本文以《人民日報》作為基本語料,考察《人民日報》(1999~2003)這一歷史時段詞語的發展變化。選擇《人民日報》主要是考慮到語言的規范、發行量、影響力等多方面的因素。
在 5年的《人民日報》中如何確定統計時點是首先要考慮的問題。本文設計了兩種統計方案,第一種以 5年《人民日報》中 20個季節時點作為統計對象,第二種選擇以 5年《人民日報》中的第一個季度 (5個季度)作為統計對象,期望通過兩種統計的對比分析,確定最合理的常用詞語提取方法。語料加工如下:
首先,利用北京大學計算語言學研究所自主研制的分詞軟件對 5年的《人民日表》進行切分標注,然后把經過分詞標注后的語料按照季度分成 20個子集 S1、S2……S20。先后提取詞語在 20個子集和第一季度 5個子集的詞頻統計數據,建立兩個可以反映詞語變化曲線的《人民日報》統計詞表。這兩個統計詞表記錄了在 5年時間詞語在季度上的統計數據。
其次,常用詞語必須滿足在 20個季度或者5個季度的統計詞表中均有出現,通過這樣的篩選,在任意一個季度不出現,都會被過濾掉。最后兩個統計詞表所收的名詞如表1所示:

表1:漢語名詞統計詞表收詞情況統計
兩個統計詞表的統計時點不同,得到的常用詞語集合也有所差別,統計的時點越多,限定條件越嚴格,得到的名詞條數越少。20個季度統計詞表中的名詞詞條只有 8607條,而 5個季度統計詞表得到的名詞要高得多,名詞總數達到 11175條。兩個詞表詞條總數不同,詞語分布是否也存在差異?筆者對此進行了調查,調查結果表明,當名詞的平均頻次大于 10次、50次、100次時,詞表的名詞個數變化曲線基本重合。當名詞的平均頻次小于 10次時,兩個詞表的個數出現了明顯的分化,兩個統計詞表的名詞數分別為 2562條和 5297條。數量上有了明顯差距,這說明兩個詞表最重要的收詞差異在于低頻詞的收取方面,具體分布如圖 1所示:

圖1:統計詞表詞語分布與對比分析
詞語在兩個詞表的季度節點上的平均頻次紀錄較高,往往很常用。例如:“經濟、企業、公司”是現代生活中的高頻詞,它們在兩個詞表的平均頻次全部超過了 2000次以上。因此未來新詞的收取主要考慮平均頻次靠前的詞語。
有一些詞語在統計詞表上雖然有記錄,但是頻次非常低,說明其常用程度不高。例如:“大哥大”現在已經不用,只是語料中還有零星紀錄,不過這樣的詞語相對于頻次高的詞語,它的變化曲線也幾乎為零。例如:

圖2:“大學、信息、大哥大”的詞語變化圖示
還有一些詞語,在 20個季度中分布不穩定。例如:“小鬼”在 20個季度的平均頻次為2.15次,在 2000年和 2003年第四季度的頻次為 0,與之相比,“火柴”的頻次相比高一些,平均頻次為 4.95,但是其分別在 2001年第一季度、2002年第二季度和 2003年的第四季度分別出現了 0紀錄。“火柴”這個詞語反映了人們社會生活的變化,原來人們使用火柴點火做飯,現在出現了電子打火,城市里居民幾乎不再使用火柴。“火柴”的頻次出現了明顯變化。因此“小鬼、火柴”被排除在統計詞表之外。

圖3:“小鬼、火柴”的詞語變化圖示
漢語中有很多詞語可能會在這一時段出現,但不能保證在所有的統計時點中出現,大量的低頻、分布不均勻的詞語都會被本文設計的統計詞表自動排除。
統計詞表中還有一些詞語,受突發事件的影響,在個別季度中出現急劇增加。以“肺炎、疫情、傳染病”為例:

圖4:兩個統計詞表中“肺炎、疫情、傳染病”的變化圖示
這 3個詞語在 2003年的使用頻次猛增,致使這 3個詞語的季度平均頻次不能反應它們的真實使用程度,因此詞語的收取不能光考慮平均頻次,還需要考慮它的穩定程度。
王治敏 (2009)提出一個衡量詞語穩定程度的U作為選取常用詞語的依據,該模型反映了詞語在語料中出現的平均頻次及詞匯波動性等因素。因此本文采用該模型來計算。

式 (1)中,f表示詞語出現的平均頻次,其計算公式如式 (2)所示;stdev(f)表示詞語出現頻次的標準差,其計算公式如式 (3)所示。

式 (2)、式 (3)中,n為詞語統計頻次f的個數。從公式 (1)可以看出,參數與詞語在語料庫中出現的平均頻次成正比,與詞語出現頻次的標準差成反比。詞語的季度平均值反映了使用該詞語的頻繁程度,一個詞語使用得越頻繁,其在語料中的季度平均值越高。標準差stdev(f)反映了該詞語出現頻次的波動程度,一個詞語在季度中的分布越不穩定,其標準偏差的值越大,U的值就越小。比如和年度突發事件的詞語標準偏差很大,參數U就會把這些詞語排除在外。
按照評價參數U,排名越靠前,詞語穩定性和季度出現頻繁程度就越高。我們按照兩個統計詞表中的U值排列順序統計發現,排名靠前的詞語中有大量名詞可以作為未來 HSK詞匯大綱的備選新詞語。不過,兩個統計詞表在備選詞語提取方面存在明顯的差異,具體如圖 5所示:

圖5:統計詞表中新詞備選分布圖示
在U排名前 500條詞語中,5個季度的統計詞表中在新詞備選遠遠高于 20個季度的統計詞表,備選詞語有 258條,已經占總數的 51.6%。而 20個季度的統計詞表前 500位中只包含備選詞語 156條,占總數的 31.20%。這說明 5個季度的統計詞表在新詞提取方面具有明顯的優勢。因此,未來 HSK詞匯大綱的新詞收取應主要參考 5個季度統計詞表的數據。
漢語名詞統計詞表記錄了詞語的各種統計特征,為漢語詞匯大綱的所有詞語提供了在大規模語料中的歷時分布,也為濾掉陳舊詞匯提供了可能。筆者分別用兩個統計詞表對 HSK詞匯大綱的名詞進行了篩選和人工統計,結果如下:

圖6:兩個統計詞表中未出現的 HSK歷史詞匯
兩個統計詞表分別濾掉 HSK名詞 179條和153條,從上面的統計可以看出,丁級詞匯比例最高,兩個詞表分別為 145條、124條,相比較而言,20個季度的統計詞表的過濾能力比 5個季度的過濾能力稍強,這可能與兩個統計詞表的詞語限定條件有關。兩個詞表的交叉部分為138條。具體分布如表2所示:

表2:兩個統計詞表共同過濾掉的 HSK歷史詞匯
丁級詞匯的交叉部分為 112條,占絕大部分。甲級詞匯最少,只有一例 “汽水”。 “汽水”原來是人們生活中常用詞,但由于生活水平的提高,出現了種類繁多的飲品,人們常常統稱為“飲料”,可以考慮用 “飲料”替換掉“汽水”。上述詞語絕大多數都是不常用的詞匯,例如“火柴、冰棍兒、校徽、尼龍、的確良”等詞語所指的事物已經在人們生活中基本消失,應該考慮剔除。除此之外,還有與農業生產、戰爭相關的詞語,對留學生的漢語教學作用不大,也可以征求專家意見后考慮有選擇地剔除。
2006年中國語言生活狀況報告中發布了漢語作為第二語言教材用詞調查結果,并給出了漢語作為第二語言教材中具有代表性的 1500條高頻詞 (蘇新春,2006)。這 1500條高頻詞語由 12套教材統計得到,最低頻次為 33次,覆蓋了總語料的 77%,這樣高的比例足以說明學者們在編寫教材時對這些詞語的認同。為此筆者對這些高頻詞作了進一步的統計,考察發現二字詞最多,占到全部詞語的 59.60%,一字詞位居第二,占全部詞語的 37.73%,三字詞 38個,占全部詞語的 2.53%。名詞在 1500高頻詞中共計 479條,基本占全部高頻詞語的 1/3。在這些名詞中,一字名詞 99條,二字名詞 359條,三字名詞 20條,沒有四字名詞。

圖7:1500高頻名詞字數分布
從上面的統計可以看出,二字名詞的比例非常高,已經占全部名詞的 72.23%。因此二字名詞將是研究的重點。除此之外,高頻名詞中沒有四字詞語,這說明對外漢語教材中四字成語使用非常少,這可能和 HSK詞匯大綱的收詞有關,在 HSK詞匯大綱中成語不在考慮范圍內,今后也要加強這方面的研究。
教材中的高頻名詞大多是我們生活中的基礎詞匯,它們在《人民日報》中分布如何?在本文設計的統計詞表中有多大比例?筆者對此做了詳細考察,發現 479高頻名詞中有 466個詞語都包含在 20個季度統計詞表中,占全部詞語的 97.29%。這足以說明,《人民日報》雖然是新聞語料,語體方面很正式,但是基本涵蓋了人們日常的生活詞匯。因此,選擇《人民日報》語料作為實驗語料完全可行。
不在《人民日報》加工出來的統計詞表的詞語共計 12個,它們是 “嬸、太祖母、少爺、掌柜、一年、每年、每天、年輕人、期中、民族、英語、大聲”。其中 “嬸、太祖母、少爺、掌柜”并不是常用的稱呼用語,特別是 “少爺、掌柜”現在已經基本不用。“一年、每年、每天”沒有出現在《人民日報》統計詞表中主要是由于切分問題,在語料中,“一年、每年、每天、年輕人”不是以一個詞語的形式出現,分別被切分成兩個詞。“民族”在語料中以 “民族之林 /n、民族主義 /n、少數民族 /n”出現。統計詞表中雖然沒有 “英語、漢語”,但是 “中文、英文”都在統計詞表中,這可能和《人民日報》的語體有關。
本文以名詞為例,利用語料的時間跨度和頻次信息設計了兩個漢語名詞常用詞語統計詞表,并利用該詞表自動過濾 HSK詞匯大綱中過時的詞匯,實現了詞匯大綱的半自動更新,常用詞語統計詞表為詞匯大綱中的所有詞匯繪制了一個歷時的詞語變化圖譜,為人工選取教學詞匯提供有益的參考。兩個統計詞表在新詞收取和歷史詞匯更新方面具有各自的優勢,因此未來詞匯大綱的收詞應該綜合利用兩個統計詞表的統計數據。上述方法同樣也可用于其他詞類的常用詞語提取研究。
另外,統計詞表和教材高頻詞的對比研究也表明,《人民日報》雖然是新聞語料,但是基本包含了漢語作為第二語言教材中的常用詞匯,這為利用新聞語料開展常用詞語的統計研究提供了有價值的證據。
北京語言學院語言教學研究所 1986 《現代漢語頻率詞典》,北京語言學院出版社。
國家漢語水平考試委員會辦公室考試中心 2001 《漢語水平詞匯與漢字等級大綱》 (修訂本),經濟科學出版社。
國家語言資源監測與研究中心 2006 《中國語言生活狀況報告 2005》(下編),商務印書館。
國家語言資源監測與研究中心 2007 《中國語言生活狀況報告 2006》(下編),商務印書館。
姜德梧 2004 《關于〈漢語水平詞匯與漢字等級大綱〉的思考》,《世界漢語教學》第 1期。
李紅印 2005 《〈漢語水平詞匯與漢字等級大綱〉收“語”分析》,《語言文字應用》第 4期。
劉長征 2008 《對外漢語教學用詞表的多元化與動態更新》,《語言文字應用》第 2期。
劉叔新 1964 《論詞匯體系問題》,《中國語文》第3期。
蘇新春 2006 《對外漢語詞匯大綱與兩種教材詞匯狀況的對比研究》,《語言文字應用》第 2期。
王治敏 2009 《漢語常用名詞的自動提取研究——兼論“漢語水平詞匯與漢字等級大綱”的詞語更新問題》,《全國第十屆計算語言學學術會議論文集》(CNCCL):52-58。
趙金銘 張 博 程 娟 2003 《關于修訂 <漢語水平詞匯等級大綱 >的若干意見》,《世界漢語教學》第 3期。
The Statistical Research on Diachron ic Changes of the Common Wordlist for Chinese Teaching
WANG Zhi-min
(College of Chinese Studies,Beijing Language and Culture University,Beijing100083,China)
statistical characteristics;textbook compilation;statistical database
Frequency and time span of corpus are used to establish two statistical databases for common nouns,which can reflect the diachronic changes of Chinese nouns by designing different time points.The databases not only provide the valuable data for collecting the new words and filtering the historical words for Syllabus ofGraded W ords and Characters for Chinese Proficiency,but also provide the beneficial reference for artificial selection of the teaching vocabulary. In order to verify its reliabilty,we make a contrast analysis of the statistical database and high frequencywords of textbook.The results show that thePeople'sDaily,as a news corpus,contains the basic common nouns for Chinese as a second language teachingmaterials.
H195
A
1674-8174(2010)04-0049-07
2010-06-18
王治敏 (1972-),女,北京語言大學副教授,博士,碩士生導師,主要從事對外漢語教學、自然語言處理研究。
教育部人文社科研究項目 (09YJC740010);國家語言資源中心平面媒體分中心課題
①本文曾在國家語言資源監測與研究中心暨平面媒體分中心成立五周年學術會議上宣讀,陸儉明教授、馮志偉教授、楊爾弘教授提出了諸多寶貴意見,特此致謝。
【責任編輯 蔡 麗】