999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于時間跨度的漢語教學常用詞表統計研究①

2010-01-11 09:39:14王治敏
華文教學與研究 2010年4期
關鍵詞:詞匯

王治敏

(北京語言大學漢語學院,北京 100083)

基于時間跨度的漢語教學常用詞表統計研究①

王治敏

(北京語言大學漢語學院,北京 100083)

統計特征;教材編寫;統計詞表

本文利用語料的頻次信息和時間跨度,通過設計不同的統計時點,建立了兩個可以反映詞語歷時變化的漢語名詞常用詞語統計詞表。兩個統計詞表不僅為《漢語水平詞匯與漢字等級大綱》新詞的收取和歷史詞的過濾提供了有價值的數據,也為人工選取教學詞匯提供了有益的參考。為驗證統計詞表的可靠性,本文又進行了統計詞表與教材高頻詞的對比研究,結果表明《人民日報》雖然是新聞語料,但是基本包含了漢語作為第二語言教材中的常用詞匯。

1.前言

漢語常用詞表的研制歷史由來已久,學者們經過多次實踐,研制出多個面向不同需求的常用詞詞表,例如:1986年北京語言學院研制的《現代漢語頻率詞典》;1989年北京航空航天大學的《現代漢語常用詞詞頻詞典》;北京師范大學的《中小學漢語教學詞表》;1990山東大學的《現代漢語常用詞庫》以及 1992年國家漢語水平考試委員會辦公室考試中心研制的《漢語水平詞匯與漢字等級大綱》(簡稱 HSK詞匯大綱)。其中 HSK詞匯大綱的影響最大,大綱中詞匯的篩選不僅集成了上述各類詞表的資源成果,同時還邀請了 33位對外漢語教學專家進行人工干預。詞匯大綱曾經作為我國對外漢語總體設計、教材編寫、課堂教學、教學測試的重要依據,在學界發揮了重要的作用,但是由于詞匯大綱所用的統計語料全部來自上個世紀 80年代,多年來未曾更新,有些詞匯已經不再使用。

長期以來,學者們對于詞匯大綱的修訂提出過種種建議。趙金銘 (2003)提出在大型語料庫進行精詞頻和義頻統計之后重新進行詞語篩選和分級。姜德梧 (2004)從詞匯的發展變化、收詞標準、詞性標注、同形詞和一詞多義的處理、輕聲和兒化等多個方面提出了解決這些問題的原則和方法。李紅印 (2005)提出把大于詞的短語、結構、成語和習用語歸入新增的 “語匯大綱”,與已有的 “漢字等級大綱”、“詞匯等級大綱”相照應。劉長征 (2008)提出利用語言監測的相關結果,實現對外漢語教學用詞表定期更新的設想。如何繼承原有大綱的成果,研制新的大綱是亟待解決的問題。

因此,本文嘗試利用大規模語料的統計結果,自動提取和發現漢語常用詞語,建立名詞常用詞語統計詞表,為詞匯大綱的詞條收取和更新提供科學可靠的依據,也為制定基于統計特征的漢語教學本科詞匯大綱提供思路。

2.常用詞語統計詞表的設計方法

常用詞的界定往往要和基本詞匯聯系在一起,常用詞就是當代社會中常用的詞,它可以是基本詞匯的詞,也可以是一般詞匯的詞,常用詞的確定完全根據詞在最流行的書刊中的頻次 (劉叔新,1964)。一個詞語是否常用,往往是憑借經驗和直覺的判斷,但是這種直覺判斷往往帶有主觀的個人因素,不同的專業背景可能有不同的結果,因此,制定一個詞語收取的客觀標準非常重要。

國家語言監測與研究中心在《中國語言生活狀況報告》中發布了針對中國內地報紙、廣播電視和網絡的用字用詞的調查結果。該調查基于超大規模語料,考慮了平面媒體、有聲媒體、教材媒體等多方面的因素,而且發布了年度流行語的監測。由于時間只有一年的跨度,上述調查還無法判斷詞語的持續性,無法作為判定常用詞的標準。

因此,本文給出了一個量化的定義,衡量一個詞語是否常用,最重要的應該看該詞是否能夠在特定的時間段中持續流行,這就是說,一個詞語的常用程度不能只通過一個點的頻次記錄來衡量,而應該把該詞語放在歷史大背景下,通過考察詞語在多個統計時點的變化來確定其常用程度。如果一個詞在特定歷史時段中的統計時點上出現數量很多且分布很均勻,根據出現的頻繁和穩定程度可以認為該詞為常用詞匯。如果一個詞語在某一個特定歷史時段的多個統計時點上出現很少或者不出現,我們就認為該詞的使用情況復雜,有待于觀察,不能作為常用詞匯。為了驗證這一假設,本文以《人民日報》作為基本語料,考察《人民日報》(1999~2003)這一歷史時段詞語的發展變化。選擇《人民日報》主要是考慮到語言的規范、發行量、影響力等多方面的因素。

在 5年的《人民日報》中如何確定統計時點是首先要考慮的問題。本文設計了兩種統計方案,第一種以 5年《人民日報》中 20個季節時點作為統計對象,第二種選擇以 5年《人民日報》中的第一個季度 (5個季度)作為統計對象,期望通過兩種統計的對比分析,確定最合理的常用詞語提取方法。語料加工如下:

首先,利用北京大學計算語言學研究所自主研制的分詞軟件對 5年的《人民日表》進行切分標注,然后把經過分詞標注后的語料按照季度分成 20個子集 S1、S2……S20。先后提取詞語在 20個子集和第一季度 5個子集的詞頻統計數據,建立兩個可以反映詞語變化曲線的《人民日報》統計詞表。這兩個統計詞表記錄了在 5年時間詞語在季度上的統計數據。

其次,常用詞語必須滿足在 20個季度或者5個季度的統計詞表中均有出現,通過這樣的篩選,在任意一個季度不出現,都會被過濾掉。最后兩個統計詞表所收的名詞如表1所示:

表1:漢語名詞統計詞表收詞情況統計

兩個統計詞表的統計時點不同,得到的常用詞語集合也有所差別,統計的時點越多,限定條件越嚴格,得到的名詞條數越少。20個季度統計詞表中的名詞詞條只有 8607條,而 5個季度統計詞表得到的名詞要高得多,名詞總數達到 11175條。兩個詞表詞條總數不同,詞語分布是否也存在差異?筆者對此進行了調查,調查結果表明,當名詞的平均頻次大于 10次、50次、100次時,詞表的名詞個數變化曲線基本重合。當名詞的平均頻次小于 10次時,兩個詞表的個數出現了明顯的分化,兩個統計詞表的名詞數分別為 2562條和 5297條。數量上有了明顯差距,這說明兩個詞表最重要的收詞差異在于低頻詞的收取方面,具體分布如圖 1所示:

圖1:統計詞表詞語分布與對比分析

詞語在兩個詞表的季度節點上的平均頻次紀錄較高,往往很常用。例如:“經濟、企業、公司”是現代生活中的高頻詞,它們在兩個詞表的平均頻次全部超過了 2000次以上。因此未來新詞的收取主要考慮平均頻次靠前的詞語。

有一些詞語在統計詞表上雖然有記錄,但是頻次非常低,說明其常用程度不高。例如:“大哥大”現在已經不用,只是語料中還有零星紀錄,不過這樣的詞語相對于頻次高的詞語,它的變化曲線也幾乎為零。例如:

圖2:“大學、信息、大哥大”的詞語變化圖示

還有一些詞語,在 20個季度中分布不穩定。例如:“小鬼”在 20個季度的平均頻次為2.15次,在 2000年和 2003年第四季度的頻次為 0,與之相比,“火柴”的頻次相比高一些,平均頻次為 4.95,但是其分別在 2001年第一季度、2002年第二季度和 2003年的第四季度分別出現了 0紀錄。“火柴”這個詞語反映了人們社會生活的變化,原來人們使用火柴點火做飯,現在出現了電子打火,城市里居民幾乎不再使用火柴。“火柴”的頻次出現了明顯變化。因此“小鬼、火柴”被排除在統計詞表之外。

圖3:“小鬼、火柴”的詞語變化圖示

漢語中有很多詞語可能會在這一時段出現,但不能保證在所有的統計時點中出現,大量的低頻、分布不均勻的詞語都會被本文設計的統計詞表自動排除。

統計詞表中還有一些詞語,受突發事件的影響,在個別季度中出現急劇增加。以“肺炎、疫情、傳染病”為例:

圖4:兩個統計詞表中“肺炎、疫情、傳染病”的變化圖示

這 3個詞語在 2003年的使用頻次猛增,致使這 3個詞語的季度平均頻次不能反應它們的真實使用程度,因此詞語的收取不能光考慮平均頻次,還需要考慮它的穩定程度。

3.統計詞表的穩定參數設計

王治敏 (2009)提出一個衡量詞語穩定程度的U作為選取常用詞語的依據,該模型反映了詞語在語料中出現的平均頻次及詞匯波動性等因素。因此本文采用該模型來計算。

式 (1)中,f表示詞語出現的平均頻次,其計算公式如式 (2)所示;stdev(f)表示詞語出現頻次的標準差,其計算公式如式 (3)所示。

式 (2)、式 (3)中,n為詞語統計頻次f的個數。從公式 (1)可以看出,參數與詞語在語料庫中出現的平均頻次成正比,與詞語出現頻次的標準差成反比。詞語的季度平均值反映了使用該詞語的頻繁程度,一個詞語使用得越頻繁,其在語料中的季度平均值越高。標準差stdev(f)反映了該詞語出現頻次的波動程度,一個詞語在季度中的分布越不穩定,其標準偏差的值越大,U的值就越小。比如和年度突發事件的詞語標準偏差很大,參數U就會把這些詞語排除在外。

按照評價參數U,排名越靠前,詞語穩定性和季度出現頻繁程度就越高。我們按照兩個統計詞表中的U值排列順序統計發現,排名靠前的詞語中有大量名詞可以作為未來 HSK詞匯大綱的備選新詞語。不過,兩個統計詞表在備選詞語提取方面存在明顯的差異,具體如圖 5所示:

圖5:統計詞表中新詞備選分布圖示

在U排名前 500條詞語中,5個季度的統計詞表中在新詞備選遠遠高于 20個季度的統計詞表,備選詞語有 258條,已經占總數的 51.6%。而 20個季度的統計詞表前 500位中只包含備選詞語 156條,占總數的 31.20%。這說明 5個季度的統計詞表在新詞提取方面具有明顯的優勢。因此,未來 HSK詞匯大綱的新詞收取應主要參考 5個季度統計詞表的數據。

4.HSK詞匯大綱中名詞的更新

漢語名詞統計詞表記錄了詞語的各種統計特征,為漢語詞匯大綱的所有詞語提供了在大規模語料中的歷時分布,也為濾掉陳舊詞匯提供了可能。筆者分別用兩個統計詞表對 HSK詞匯大綱的名詞進行了篩選和人工統計,結果如下:

圖6:兩個統計詞表中未出現的 HSK歷史詞匯

兩個統計詞表分別濾掉 HSK名詞 179條和153條,從上面的統計可以看出,丁級詞匯比例最高,兩個詞表分別為 145條、124條,相比較而言,20個季度的統計詞表的過濾能力比 5個季度的過濾能力稍強,這可能與兩個統計詞表的詞語限定條件有關。兩個詞表的交叉部分為138條。具體分布如表2所示:

表2:兩個統計詞表共同過濾掉的 HSK歷史詞匯

丁級詞匯的交叉部分為 112條,占絕大部分。甲級詞匯最少,只有一例 “汽水”。 “汽水”原來是人們生活中常用詞,但由于生活水平的提高,出現了種類繁多的飲品,人們常常統稱為“飲料”,可以考慮用 “飲料”替換掉“汽水”。上述詞語絕大多數都是不常用的詞匯,例如“火柴、冰棍兒、校徽、尼龍、的確良”等詞語所指的事物已經在人們生活中基本消失,應該考慮剔除。除此之外,還有與農業生產、戰爭相關的詞語,對留學生的漢語教學作用不大,也可以征求專家意見后考慮有選擇地剔除。

5.教材高頻詞和統計詞表的對比研究

2006年中國語言生活狀況報告中發布了漢語作為第二語言教材用詞調查結果,并給出了漢語作為第二語言教材中具有代表性的 1500條高頻詞 (蘇新春,2006)。這 1500條高頻詞語由 12套教材統計得到,最低頻次為 33次,覆蓋了總語料的 77%,這樣高的比例足以說明學者們在編寫教材時對這些詞語的認同。為此筆者對這些高頻詞作了進一步的統計,考察發現二字詞最多,占到全部詞語的 59.60%,一字詞位居第二,占全部詞語的 37.73%,三字詞 38個,占全部詞語的 2.53%。名詞在 1500高頻詞中共計 479條,基本占全部高頻詞語的 1/3。在這些名詞中,一字名詞 99條,二字名詞 359條,三字名詞 20條,沒有四字名詞。

圖7:1500高頻名詞字數分布

從上面的統計可以看出,二字名詞的比例非常高,已經占全部名詞的 72.23%。因此二字名詞將是研究的重點。除此之外,高頻名詞中沒有四字詞語,這說明對外漢語教材中四字成語使用非常少,這可能和 HSK詞匯大綱的收詞有關,在 HSK詞匯大綱中成語不在考慮范圍內,今后也要加強這方面的研究。

教材中的高頻名詞大多是我們生活中的基礎詞匯,它們在《人民日報》中分布如何?在本文設計的統計詞表中有多大比例?筆者對此做了詳細考察,發現 479高頻名詞中有 466個詞語都包含在 20個季度統計詞表中,占全部詞語的 97.29%。這足以說明,《人民日報》雖然是新聞語料,語體方面很正式,但是基本涵蓋了人們日常的生活詞匯。因此,選擇《人民日報》語料作為實驗語料完全可行。

不在《人民日報》加工出來的統計詞表的詞語共計 12個,它們是 “嬸、太祖母、少爺、掌柜、一年、每年、每天、年輕人、期中、民族、英語、大聲”。其中 “嬸、太祖母、少爺、掌柜”并不是常用的稱呼用語,特別是 “少爺、掌柜”現在已經基本不用。“一年、每年、每天”沒有出現在《人民日報》統計詞表中主要是由于切分問題,在語料中,“一年、每年、每天、年輕人”不是以一個詞語的形式出現,分別被切分成兩個詞。“民族”在語料中以 “民族之林 /n、民族主義 /n、少數民族 /n”出現。統計詞表中雖然沒有 “英語、漢語”,但是 “中文、英文”都在統計詞表中,這可能和《人民日報》的語體有關。

6.結語

本文以名詞為例,利用語料的時間跨度和頻次信息設計了兩個漢語名詞常用詞語統計詞表,并利用該詞表自動過濾 HSK詞匯大綱中過時的詞匯,實現了詞匯大綱的半自動更新,常用詞語統計詞表為詞匯大綱中的所有詞匯繪制了一個歷時的詞語變化圖譜,為人工選取教學詞匯提供有益的參考。兩個統計詞表在新詞收取和歷史詞匯更新方面具有各自的優勢,因此未來詞匯大綱的收詞應該綜合利用兩個統計詞表的統計數據。上述方法同樣也可用于其他詞類的常用詞語提取研究。

另外,統計詞表和教材高頻詞的對比研究也表明,《人民日報》雖然是新聞語料,但是基本包含了漢語作為第二語言教材中的常用詞匯,這為利用新聞語料開展常用詞語的統計研究提供了有價值的證據。

北京語言學院語言教學研究所 1986 《現代漢語頻率詞典》,北京語言學院出版社。

國家漢語水平考試委員會辦公室考試中心 2001 《漢語水平詞匯與漢字等級大綱》 (修訂本),經濟科學出版社。

國家語言資源監測與研究中心 2006 《中國語言生活狀況報告 2005》(下編),商務印書館。

國家語言資源監測與研究中心 2007 《中國語言生活狀況報告 2006》(下編),商務印書館。

姜德梧 2004 《關于〈漢語水平詞匯與漢字等級大綱〉的思考》,《世界漢語教學》第 1期。

李紅印 2005 《〈漢語水平詞匯與漢字等級大綱〉收“語”分析》,《語言文字應用》第 4期。

劉長征 2008 《對外漢語教學用詞表的多元化與動態更新》,《語言文字應用》第 2期。

劉叔新 1964 《論詞匯體系問題》,《中國語文》第3期。

蘇新春 2006 《對外漢語詞匯大綱與兩種教材詞匯狀況的對比研究》,《語言文字應用》第 2期。

王治敏 2009 《漢語常用名詞的自動提取研究——兼論“漢語水平詞匯與漢字等級大綱”的詞語更新問題》,《全國第十屆計算語言學學術會議論文集》(CNCCL):52-58。

趙金銘 張 博 程 娟 2003 《關于修訂 <漢語水平詞匯等級大綱 >的若干意見》,《世界漢語教學》第 3期。

The Statistical Research on Diachron ic Changes of the Common Wordlist for Chinese Teaching

WANG Zhi-min
(College of Chinese Studies,Beijing Language and Culture University,Beijing100083,China)

statistical characteristics;textbook compilation;statistical database

Frequency and time span of corpus are used to establish two statistical databases for common nouns,which can reflect the diachronic changes of Chinese nouns by designing different time points.The databases not only provide the valuable data for collecting the new words and filtering the historical words for Syllabus ofGraded W ords and Characters for Chinese Proficiency,but also provide the beneficial reference for artificial selection of the teaching vocabulary. In order to verify its reliabilty,we make a contrast analysis of the statistical database and high frequencywords of textbook.The results show that thePeople'sDaily,as a news corpus,contains the basic common nouns for Chinese as a second language teachingmaterials.

H195

A

1674-8174(2010)04-0049-07

2010-06-18

王治敏 (1972-),女,北京語言大學副教授,博士,碩士生導師,主要從事對外漢語教學、自然語言處理研究。

教育部人文社科研究項目 (09YJC740010);國家語言資源中心平面媒體分中心課題

①本文曾在國家語言資源監測與研究中心暨平面媒體分中心成立五周年學術會議上宣讀,陸儉明教授、馮志偉教授、楊爾弘教授提出了諸多寶貴意見,特此致謝。

【責任編輯 蔡 麗】

猜你喜歡
詞匯
2021年本刊一些常用詞匯可直接用縮寫(二)
2021年本刊一些常用詞匯可直接用縮寫(一)
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2017年35期)2017-10-10 02:45:28
一些常用詞匯可直接用縮寫
山東醫藥(2017年33期)2017-10-09 12:31:41
詞匯小達人
一些常用詞匯可直接用縮寫
山東醫藥(2014年48期)2014-12-02 04:34:34
一些常用詞匯可直接用縮寫
山東醫藥(2014年34期)2014-12-02 04:33:52
主站蜘蛛池模板: 日本爱爱精品一区二区| 国产日产欧美精品| 毛片a级毛片免费观看免下载| 亚洲欧美精品一中文字幕| 国产极品嫩模在线观看91| 亚洲男人天堂2020| 亚洲国产91人成在线| 成人欧美日韩| jizz亚洲高清在线观看| 全色黄大色大片免费久久老太| 在线观看视频99| 黄色网在线| 欧美日韩国产精品va| 久久五月视频| 亚洲免费黄色网| 毛片在线看网站| 亚洲色图欧美激情| AV无码无在线观看免费| 国产在线观看第二页| 欧美性久久久久| 亚洲综合香蕉| 国产一级小视频| 国产精品视频第一专区| 亚洲天堂在线免费| 精品视频免费在线| 福利在线不卡| 国产网友愉拍精品视频| 欧美成一级| 国产成人无码久久久久毛片| 亚洲天堂网在线视频| 老色鬼久久亚洲AV综合| 亚洲人成网址| 国产无人区一区二区三区| 亚洲福利一区二区三区| 亚洲无码高清视频在线观看| 美女被狂躁www在线观看| 五月婷婷综合网| 午夜国产理论| 狠狠久久综合伊人不卡| 国产精品.com| 国产a v无码专区亚洲av| 永久免费av网站可以直接看的 | 又爽又大又黄a级毛片在线视频| 久久久亚洲色| 亚洲色图在线观看| 777午夜精品电影免费看| 国产第一页亚洲| 老汉色老汉首页a亚洲| 亚洲不卡av中文在线| 91精品国产综合久久香蕉922| 国产精品白浆无码流出在线看| 国产亚洲日韩av在线| 青青草a国产免费观看| 日日碰狠狠添天天爽| 亚洲国产欧美目韩成人综合| 国产精品美女网站| 国产日韩精品一区在线不卡| 久久精品无码中文字幕| 国产日韩丝袜一二三区| 国产亚洲精品无码专| 国产国语一级毛片在线视频| 日本精品视频| 国产免费a级片| 国产精品亚欧美一区二区| 久久综合九色综合97婷婷| 中文字幕有乳无码| 亚洲一区二区三区麻豆| 一级毛片不卡片免费观看| 欧美激情网址| 亚洲视频在线青青| 拍国产真实乱人偷精品| 国产成人免费观看在线视频| 日韩久草视频| 婷婷丁香在线观看| 福利在线不卡一区| 日本精品中文字幕在线不卡 | 一级黄色欧美| 久草性视频| 嫩草国产在线| 99爱视频精品免视看| 喷潮白浆直流在线播放| 免费看av在线网站网址|