999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

漢語詞表建設概述

2012-04-13 08:48:15
華中學術 2012年2期
關鍵詞:詞匯

劉 云

(華中師范大學文學院,湖北武漢,430079)

詞表是詞語按照一定的原則收集起來的詞匯集合。詞表既是漢語詞匯計量研究的對象,又是漢語詞匯計量研究的結果,對語言教學與研究、圖書情報分類檢索、詞典編撰和中文信息處理等都有著重要的價值。就目前已經刊行的詞表而言,主要集中在三個方面:語文詞典收錄的詞目表、語言信息處理用詞表、圖書情報的主題詞表。

一、語文詞典收錄的詞目表

語文詞典詞目的研制在我國有悠久的歷史,古代漢語單音節詞占優勢,因此語文詞目表的研制在古代表現為字書的編撰。漢字是一種表意文字,要學習文化知識首先面臨的就是識字的任務。我國自古就有集中識字的傳統,要識字就得有識字的教材。周宣王時太史籀編寫的教學童書《史籀篇》是我國蒙學識字教材的源頭。秦始皇統一中國后,實行“書同文”的政策,對以前各國文字的使用進行徹底的整理,命令丞相李斯、中車府令趙高和太史令胡毋敬模仿《史籀篇》的體例,改籀文為秦篆,分別編寫了《倉頡》七章、《爰歷》六章、《博學》七章,到漢初將這三部字書合并為《蒼頡篇》。此后,識字課本的編纂開始增多,據《漢書·藝文志》,在西漢武帝時司馬相如作《凡將篇》,元帝時黃門令史游作《急就篇》,成帝時將作大匠李長作《元尚篇》[1]。后來出現的《千字文》、《三字經》、《百家姓》等識字課本,所選的字也都是常見的字,句式簡短、對稱、押韻,用字重復率極低。三本書合起來的總字數是2708個,去重后的字數是1426個,這些字有84.27%屬于如今3500個常用字的范圍內[2]。不過,當時還沒有統計字頻,只是根據語感選用,我國第一部漢語頻率字典是陳鶴琴在1928年編成的《語體文應用字匯》,他分析了554478個詞,得出4261個常用字,但這還不是嚴格意義上的頻率詞表。

新中國成立后,為了推廣普通話,普及文化知識,需要編寫各種識字教材,因此,各級各部門都非常重視對漢語常用字詞的統計,陸續公布了一些基于頻率統計的字表和詞表,如1950年9月中央人民政府教育部社會教育司發布的《常用漢字登記表》收字1017個,1952年6月中央人民政府教育部發布的《常用字表》收字2000個,1958年8月山東省教育廳發布的《普通話常用字表》收字3000個,1962年中國文字改革委員會發布的《普通話三千常用詞表》收詞3000個,1965年3月北京市教育局發布的《常用字表》收字3100個等。其中《普通話三千常用詞表》是這一時期詞匯統計研究最重要的成果,詞表收詞達3218個。這一時期的統計工作基本上是面向中小學語文教學的,常用字的字頻手工統計占了絕對優勢,詞頻統計剛剛開始,而且規模一般比較小,統計結果也只是用來編寫常用字表或詞表,相關的詞匯統計研究尚未真正展開。

對漢語詞匯頻率的統計研究,最早要算鄭林曦所編《普通話三千常用詞表》。該詞表初稿本于1959年出版,收詞3624個,增訂本于1987年出版,收詞3996個。這是我國第一本分詞類排列的常用詞表,該詞表采取選擇和統計、檢驗相結合的方法,據編者自己進行的常用性檢驗,初稿本的詞匯出現頻率平均約為80%,增訂本的詞匯出現頻率提高到87%。這項成果不是建立在嚴格的詞頻統計的基礎上的,計算機技術得到廣泛應用之后,我國便開展了大規模的不同用途的漢語詞頻統計工作。劉英林、宋紹周在《論漢語教學字詞的統計與分級(代序)》中概括了我國20世紀90年代之前普通話詞表的研制情況,提及那一時期制訂的詞表有[3]:

普通話三千常用詞表(3000詞),1959年,文字改革委員會漢字組

兩千雙字詞表(2000詞),1960年,《文字改革》發表

外國學生用四千詞表(4000詞),1964年,北京語言學院

外國人實用漢語常用詞表(3040詞),1981年,北京語言學院

報刊詞語三千六百條(3600詞),1983年,北京語言學院

中小學文科教學七千詞表(7000詞),承德醫學院、中國人民大學

現代漢語七千詞表(7000詞),中國人民大學

擬制文件六千詞表(6800詞),燕山計算機應用研究中心

信息處理用現代漢語五千詞表(收雙音以上詞語5639條),1985年,現代漢語工程實用詞庫國家標準研制組

現代漢語頻率詞典(常用詞部分8548詞),1985年,北京語言學院

對外漢語教學常用詞表(4000詞),1986年,北京語言學院

漢語水平等級標準和等級大綱(《詞匯大綱》部分收甲、乙、丙三級常用詞5168個),1988年,中國對外漢語教學學會

現代漢語常用詞詞頻詞典(常用詞部分9000),1989年,北京航空航天大學等

中小學漢語常用詞表(常用詞部分8107),1990年,北京師范大學現代教育技術研究所

現代漢語常用詞庫(常用詞部分9000),1990年,山東大學

北京口語調查(常用詞部分6966),1991年,北京語言學院

利用計算機統計詞頻并進而建立各種詞表主要開展了以下工作:

(1)北京師范大學現代教育技術研究所同中文系合作,從1983年至1985年完成了中小學語文教材的詞頻統計與分析研究。課題組對當時全國統一使用的1983—1984年度的中小學語文教材(共24冊)作了大規模的詞頻統計與分析。利用計算機把詞頻值(即詞的出現頻度的高低)和方差值(即詞在各種文體中的覆蓋率)都達到某一界限的詞全部挑選出來,確認為常用詞,編成常用詞表。這項成果于1985年7月通過國家鑒定,形成了《現代漢語詞表》、《三千常用詞表》、《八千常用詞表》、《一萬常用詞表》和《現代漢語構詞字典》等具體成果。這項研究對于中小學詞匯教學的意義毋庸置疑,但是詞頻統計的取材范圍局限于一套統編教材,不足以充分證明所選詞語的“常用性”。

(2)國家語委語用所現代漢語通用詞課題組,在近2億漢字語料的基礎上,吸收國內外主要的詞頻統計成果,并運用新的抽樣語料進行覆蓋率檢驗,采集“全社會性質的、跨行業的、應用廣泛的”通用詞匯集。通用詞包括人們通常說的“常用詞”、“次常用詞”,還包括少量頻度較低但分布率較高、人們十分熟悉的詞語。該項研究的成果《現代漢語通用詞·基本集》于1997年通過專家審定,基本集以語法詞為主,兼收慣用語和成語,收詞6萬多個,其中一級詞5191個,二級詞8792個,共13983個。除《現代漢語通用詞·基本集》以外,還有擴充集,擴充集以短語為主。通用詞集的研制兼顧了抽樣語料的通俗性、廣泛性、規范性,采用通用度計算公式,盡量克服抽樣偏差或統計偏差造成的“假象高頻詞干擾”[4]。

(3)經教育部、國家語委批準,我國出臺了漢語國際教育方面的第一個國家標準《漢語國際教育用音節漢字詞匯等級劃分》。《漢語國際教育用音節漢字詞匯等級劃分》創立了適用于漢語國際教育的音節漢字詞匯的三維基準體系,一級音節608個,二級音節301個,三級音節163個,三級附錄音節38個,共計1110個;一級漢字900個,二級漢字900個,三級漢字900個,三級附錄漢字300個,共計3000個;一級詞匯2245個,二級詞匯3211個,三級詞匯4175個,三級附錄詞匯1461個,共計11092個。與此配套的《漢語口語水平等級標準及測試大綱》也同步實施,測試的詞語表分為初等(2100條)、中等(3100條)、高等(3100條)三個層級,共8300條詞語,主要測試在日常生活領域運用漢語口語交際的語音水平、理解水平和表達水平。

(4)漢語常用詞詞表的研制。漢語常用詞表的研制歷史由來已久,學者們經過多次實踐,研制出多個面向不同需求的常用詞詞表,例如,1985年北京語言學院研制的《現代漢語頻率詞典》,1989年北京航空航天大學的《現代漢語常用詞詞頻詞典》,北京師范大學的《中小學漢語教學詞表》,1990年山東大學的《現代漢語常用詞庫》以及1992年國家漢語水平考試委員會辦公室考試中心研制的《漢語水平詞匯與漢字等級大綱》(簡稱HSK 詞匯大綱)。其中HSK 詞匯大綱的影響較大,大綱中詞匯的篩選不僅集成了上述各類詞表的資源成果,同時還邀請對外漢語教學專家進行人工干預。《漢語水平詞匯與漢字等級大綱》收詞8822個,由易到難分甲、乙、丙、丁四個等級,其中甲級詞1033個,乙級詞2018個,丙級詞2202個,丁級詞3569個。詞匯大綱曾經作為我國對外漢語總體設計、教材編寫、課堂教學、教學測試的重要依據,在學界發揮了重要的作用。漢語常用詞詞表研制方面規模最大、影響最大的要數《現代漢語常用詞表》課題組編的《現代漢語常用詞表(草案)》。《現代漢語常用詞表(草案)》提出了現當代社會生活中比較穩定的、使用頻率較高的漢語普通話常用詞語56008個,形成了《現代漢語常用詞表(草案)》給出了詞語的詞形。詞表的研制采取詞和語兼顧原則,草案的詞語收錄,以單音節詞和雙音節詞為主,同時,根據語言使用的實際情況,也收錄一些常用的縮略語、成語、慣用語等熟語,以及表達整體概念名稱的其他固定短語,兼顧系統性和實用性原則。草案的詞語收錄,既注意詞語的系統性,又注意詞語在語用中的實用性,最終形成的《現代漢語常用詞表》,收錄詞語共56008個[5]。包括單音節詞3181個,雙音節詞語40351個,三音節詞語6459個,四音節詞語5855個,五音節和五音節以上詞語162個。詞表確定詞語的使用頻度順序采用的是“詞頻頻級排序法”。由于詞語的來源面比較寬,各種語料都有自己的覆蓋面與構成特點,詞表中的詞語不能在每種語料中都得到全部顯現。同一個詞語在不同語料庫中的頻次也可能相差較大,因而不同語料庫中的具體頻次之間缺乏嚴格的可比性。用頻級統計則能較客觀地顯示每個詞語的使用情況。頻級排序法就是同一語料庫中所有詞語按頻次數的多少進行的一種排序方法。相同頻次的為一個頻級。相同頻級的詞語,根據總頻次的多少由高到低排序,相同頻次的根據讀音按字母升序排列。詞表的研制成果可供中小學語文教學、掃盲教育、漢語教育、中文信息處理和辭書編纂等方面參考、采用[6]。

進入21世紀后,先后有六次大規模的詞匯統計,分別是《中國語言生活狀況報告(2005)》、《中國語言生活狀況報告(2006)》、《中國語言生活狀況報告(2007)》、《中國語言生活狀況報告(2008)》、《中國語言生活狀況報告(2009)》和《中國語言生活狀況報告(2010)》。縱觀這六次大規模的詞匯統計,每次統計的樣本都相當大,這里以《中國語言生活狀況報告(2010)》為例,全部語料共計601649583詞次,詞種2175837個。覆蓋率達到90%的高頻詞語13672個,占全部詞種數的0.63%。媒體的詞語使用具有以下特點:(1)高頻詞語數量及高頻詞語用字數量較穩定。高頻詞語數量穩定在1萬余條,高頻詞語用字數量穩定在2700條左右。這些高頻詞語在媒體中使用穩定,主要是語文詞語,也包括少數專名和時間表達式。(2)高頻詞語中使用頻率變化較大的詞語體現了年度的社會生活。如:與2009年詞語相比,2010年度下列高頻詞語使用頻率有明顯增加,這些詞語反映2010年的社會圖景:微博、低碳、團購、加息、二手房、房貸、高鐵、央企、準備金率、糾結、給力、上海世博會、亞運會、海地、玉樹、舟曲、智利、希臘、泥石流、火山、國美、富士康、阿凡達、曹操。(3)媒體中大量詞語出現頻率較低,占年度全部詞種約92%的低頻詞語僅覆蓋全部語料的1%。這些詞語主要是人名、地名、組織機構名以及時間、數字表達式等[7]。

除了以上這些直接體現頻率的詞表外,方言調查詞匯手冊和《現代漢語詞典》在某種意義上也是一種語文詞表。

方言調查。新中國成立后,1955年召開了“現代漢語規范問題學術會議”,著名語言學家丁聲樹、李榮在會上作了《漢語方言調查》的學術報告,提出為了推廣普通話必須重視漢語方言的調查與研究,“不僅要調查語音情況,還要重視方言詞匯和方言語法的研究”,并建議“在兩年內完成漢語方言初步普查的計劃”[8]。1955年中科院語言研究所丁聲樹和李榮主編的《方言調查詞匯手冊》(《方言》1989年第2期),收詞300多條,小型﹑初步的調查可以以它為基礎。1956年中科院語言研究所編寫了《方言詞匯調查手冊》。1958年語言研究所方言組編寫了《方言調查詞匯表》(《方言》1981年第3期),之后,方言研究室在《方言調查詞匯表》的基礎上制定了《漢語方言詞匯調查詳表》,供課題組內部使用,一直沒有公開發表過。北京大學中文系語言學教研室編纂的《漢語方言詞匯》(1964),收錄了18個代表點方言905條詞語,其修訂版《漢語方言詞匯》(1995)收錄了20 個代表點方言1230 條。1991年起,方言研究室組織編纂《現代漢語方言大詞典》,為此制定了《漢語方言詞匯調查表》,后來,方言研究室資料室對原來的詞匯表做了一些必要的修正和改動,刪去了編碼,定名為《漢語方言詞語調查條目表》(《方言》2003年第1期)。《漢語方言詞語調查條目表》共有29大類,前23類按照意義來分,后6類按照詞類來分。每大類下再分若干小類,列詞目3000余條。《現代漢語方言大詞典》分為42種分卷本,分卷本具有統一的編纂體例,使用統一的詞匯表,因此有大致相同的詞語收錄范圍。每卷本收錄8000條上下的詞語條目,以實詞為主,兼收虛詞。

詞典的詞目是按照一定的原則收錄的,整個詞典的詞目就是一個一定規模的詞表。《現代漢語詞典》是新中國成立后編寫的第一部中型漢語詞典。《現代漢語詞典》1978年正式公開發行第1版,收詞約56000條,在正式公開發行之前,還有三種鉛印本:1960年的試印本、1965年的試用本送審稿和1973年的試用本[9]。《現代漢語詞典》以其科學性、規范性、實用性把我國的語文詞典推向了一個新的起點,在推廣普通話、促進漢語規范化方面,在我國語文教育、語言文字的應用及理論研究方面都發揮了積極作用,受到了社會各界的重視和歡迎。試印本正文共收詞43000條,1965年修改成的試用本,多收了一些古漢語詞匯和方言詞匯,正文增到50000條,到1978年第1版,收詞條目增到56000余條。1983年出版的第2版主要是消除殘存的“文革”的影響,收詞方面變動不大,共收詞56147條,其中單字詞目10540條,復音詞目45607條。1996年出版的修訂第3版,收詞61000余條,修訂的重點在于增刪條目,增收詞語達9000余條,主要是新詞;刪詞約4000條,主要是過于專業或過時的自然科學、社會科學專科條目[10]。2002年出版的第4版,用粉紅色的紙張將1200多條新詞匯附在原《現代漢語詞典》第3版正文后面,單獨排序。2005年的第5版與1996年出版的第3版相比,增加了詞語7200余條,其中新詞新義約占三分之一,刪去詞語2700余條,還增、刪了不少詞義。收詞方面增新刪舊,調整平衡,能較為全面地反映詞匯的新發展,以適應讀者的需要。新修訂版增收的內容主要包括新詞新義和為調整、平衡而增補的詞語兩個方面[11]。可見,5個版本的《現代漢語詞典》收詞范圍不斷擴大,收詞數量呈“三級跳”式擴展,第1~2版收詞相差無幾,在56000條詞目左右;第4版較第3版略有增多,兩者都有60000余條;第5版收詞數量又上了一個臺階,達到65000余條。總體而言,5個版本的《現代漢語詞典》都遵守了“收詞要收‘通用(普通)的詞’”、“次要的‘應該酌量選收’”的收詞原則。

二、語言信息處理用詞表

語言信息處理后臺一般要有一個一定規模的后臺詞表,漢語的詞匯平面構成了現階段中文信息處理主要應用領域(漢字識別,漢語語音識別及合成,全文信息檢索及文本自動分類,文本自動校對等)的主要支撐平臺。中文信息處理界影響較大的詞表有北京語言學院完成的“現代漢語詞匯的統計與分析”專題研究,北京航空學院等完成的“現代漢語詞頻統計”項目,許嘉璐、傅永和主持的國家社科基金“九五”重大項目《信息處理用現代漢語詞匯研究》,孫茂松構建的《信息處理用現代漢語分詞詞表》,北京大學俞士汶主編的《漢語語法信息詞典》。

(1)北京語言學院語言教學研究所從1979年末至1986年完成了“現代漢語詞匯的統計與分析”專題研究,對4類(報刊政論、科普、生活口語、文學作品)語體179種180萬字的語料進行統計,共得到詞條31159個,其中出現頻率在10次以上的常用詞,只有8000個,其累計頻率占95%強,其余23159個詞的累計頻率僅占不到5%。據此編撰了《現代漢語頻率詞典》,是我國第一部有著嚴格統計學意義的反映詞量、詞長、詞匯分布、詞語構成等斷代詞匯狀況的詞典,其結果具有較高的客觀性和準確性。這項成果對對外漢語教學產生了比較大的影響,國家對外漢語教學領導小組辦公室還據此確立了《漢語水平詞匯與漢字等級大綱》(1992)和《漢語水平等級標準與語法等級大綱》(1995)里的詞匯量化標準8822個。

(2)北京航空學院等11個單位從1981年到1986年完成了“現代漢語詞頻統計”項目。此次詞頻統計選材3億漢字,選了1919年到1982年的正式出版物,并分四個時期,其統計成果有三個方面:①四個時期十類分科頻度表,共35個頻度表;②四個時期中每一時期均有社會科學綜合頻度表、自然科學綜合頻度表和社會科學、自然科學綜合頻度表;③四個時期的綜合頻度表。這次詞頻統計是當時規模最大、取材范圍最廣的一次,統計結果具有一定的代表性。主要成果體現為劉源主編的《現代漢語常用詞詞頻詞典》,但該統計也存在不足,例如收詞時沒有一個嚴格的“詞”的標準。

(3)由許嘉璐、傅永和主持的國家社科基金“九五”重大項目《信息處理用現代漢語詞匯研究》于2001年3月通過專家鑒定,其子課題“信息處理用現代漢語分詞詞表”制定了一個面向信息處理的、具有較強通用性及覆蓋能力的現代漢語分詞詞表,整個詞表分成7大分庫:普通詞庫、帶字母詞庫、專名庫、常用接續庫、成語庫、俗語庫(以上均針對多字詞)以及單字詞庫。以一個包含158000個詞的工作初表為基礎,將這個表中的每個詞置于一個8億字左右的語料中作詞頻統計,最后采用“定性+定量”的處理策略,形成了《信息處理用現代漢語分詞詞表》,這個詞表共收詞92843個,其中一級常用詞56606個,二級常用詞36237個[12]。

(4)國家技術監督局1993年發布了中華人民共和國國家標準GB/T13715-92《信息處理用現代漢語分詞規范》,定義了一個新的概念“分詞單位”,即“漢語信息處理使用的、具有確定的語義或語法功能的基本單位。包括本規范的規則限定的詞和詞組”,其中“詞”和“詞組”這兩個概念與語言學中的相同[13]。可見,“分詞單位”較語言學意義上的“詞”要寬泛些,涵蓋了語言學中的“詞”以及一部分看上去比較接近詞的“詞組”。《信息處理用現代漢語分詞規范》中多次出現“結合緊密、使用穩定”的表述,這個表述比較模糊、難以操作。由此,孫茂松主持的國家社科“九五”規劃重大項目《信息處理用現代漢語詞匯研究》子課題“信息處理用現代漢語分詞詞表”就是想制定一個面向信息處理的、具有較強通用性及覆蓋能力的現代漢語分詞詞表。課題組把經過精心挑選的十多部詞典合并去重后,得到一個包含158000條多字詞的工作初表;然后,對工作初表中的每個詞,均從一個8億字的生語料庫中自動獲取了其串頻、詞頻、互信息等統計數據;最后,審校者運用各類語言學規則(定性)并參照上述統計數據(定量),對工作初表中的158000個詞逐條作出是否應該收入詞表的判斷。經過多次審校,最后得到課題最終成果的詞表,詞表的總詞數為92843條,其中一級常用詞共56606條,二級常用詞共36237條。整個詞表分成7大分庫:普通詞庫、帶字母詞庫、專名庫、常用接續庫、成語庫、俗語庫(以上均針對多字詞)以及單字詞庫[14]。

(5)北京大學俞士汶等編寫的《現代漢語語法信息詞典》是一部供計算機分析與生成漢語句子而使用的機器詞典。其收詞原則有:①規范原則,符合國家標準《信息處理用現代漢語分詞規范》的詞語,都屬于電子詞典的收詞范圍;不符合分詞規范的詞語,原則上將不予收錄。②高頻原則,為了做到收詞量一定而詞的覆蓋面最大或詞的覆蓋面足夠大而收詞量最少,電子詞典在規范原則的基礎上,遵守高頻原則,盡可能多地選收那些使用頻率高、適用面廣的詞語,盡量少收低頻詞。③穩定原則,電子詞典在選收詞語時,不僅要遵守規范原則、高頻原則,而且要遵守穩定原則,盡可能多地收錄穩定性強的詞語,對那些只通行于過去某一段時期,而現在已較少使用的詞語,即使統計頻率較高,一般也不予收錄。④詞部件原則,漢語中詞語數目無限多,可是構成這些詞語的基本部件卻是有限的,語法信息詞典著重收錄可以作為“詞部件”的基本構詞成分、詞和固定短語,對于由這些詞部件構成的上級語言單位,如派生詞、復合詞、重疊形式、自由短語等,盡可能少收,甚至不收。⑤語法義項原則,具有同一詞形的同形詞語,以及兼類詞語、語法功能有較大差別的多義詞,都看作不同的詞語而列入收錄范圍,這種做法的依據就是語法義項原則,即根據詞語的詞類及其它語法功能的異同,來建立相應的語法義項,同一個詞形具有幾個語法義項,就作為幾個詞語收錄。⑥實用原則,以規范的現代漢語普通話詞語為主,盡量少收古漢語詞語、方言詞語;增補了少量使用頻率特別高的自由短語,如“一個、一下子、一會兒、各種、百分之、全國、這種”等;5字以上詞語暫不收錄,這些詞語在大規模的語料中出現的幾率非常低;增補了中文標點符號。

三、圖書情報的主題詞表

圖書情報界的詞表建設以1980年的《漢語主題詞表》為界,之前是經驗積累期,之后是收獲期。20世紀60年代我國只出過一部主題詞表《航空科技資料主題詞表》,這是新中國成立后的第一部詞表,20世紀70年代的詞表有《科學技術用語敘詞表》、《電子技術漢語主題詞表》、《常規武器裝備主題詞表》、《國防科學技術主題詞表》、《原子能科技資料主題詞表》、《機械工程主題詞表》,1980年出版了《漢語主題詞表》[15]。

《漢語主題詞表》是我國第一部大型的綜合性的敘詞表,由中國科技信息研究所和北京圖書館負責主持,1975年開始編制,1980年正式出版。分為社會科學、自然科學和附表3卷,共10個分冊,全表收錄主題詞108568個。其中正式主題詞91158個,非正式主題詞17410個,詞族數3707個,一級范疇數58個,二級674個,三級1080個[16]。1991年自然科學部分出增訂本,增補新詞8221條,刪除不適用詞5434條[17]。《漢語主題詞表》是當時世界上收詞最多的敘詞表,也是世界上少數幾種綜合性敘詞表之一。《漢語主題詞表》是一部顯示主題詞與詞間語義關系的規范化動態性的檢索語言詞表,以詞和詞組為基本單元,以規范化的檢索語言來揭示圖書情報的內容;以參照款目來反映主題詞之間的等同關系、相互關系和從屬關系;以主題組配等形式來提高檢全率,該表既適合于機械檢索也適應于手工檢索。從《漢語主題詞表》誕生時起,我國圖書情報界就大力推廣和建議使用《漢語主題詞表》,并且對專業敘詞表選詞有重要的參考作用。在《漢語主題詞表》出版以后,雖然可以對各專業領域進行標引和檢索,但對于不同的具體專業,由于相關概念術語詞匯量偏少,引發了對專業敘詞表的現實需求,各專業的研究人員參考《漢語主題詞表》的選詞規范和編制技術,編制了各類專業敘詞表。在選詞方面,各專業敘詞表的基礎詞匯(多數來自《漢語主題詞表》)是在《漢語主題詞表》專業核心概念的基礎上的豐富和擴展。各專業詞表選定的主題詞,主要是各學科領域文獻中經常出現、在情報檢索中有使用價值和一定的使用頻率、能作為主題匯集一定量文獻或具有敘詞組配功能的名詞術語;詞表選定的主題詞,必須詞形簡練、詞義明確、嚴格遵守一詞一義原則,并且通過概念組配應能表達文獻或用戶查詢的特定主題;詞表選定的主題詞,符合我國科技發展的實際需要,盡量與國內外主要科技主題詞表相兼容,并注意到主題詞的科學性與思想性。此后的20世紀80年代出版了《常規武器工業敘詞表》、《農業主題詞表》、《圖書情報學主題詞表》、《環境科學敘詞表》、《自動化科學技術主題詞表》等40多種專業敘詞表。20世紀90年代出版了《計算機科學技術漢語敘詞表》、《世界漢語教學主題詞表》、《數學漢語主題詞表》、《中國鐵路敘詞表》、《大氣科學主題詞表》等30多種專業敘詞表,進入21世紀,還陸陸續續有各種專業敘詞表不斷涌現[18]。

此外,較有影響的還有《中國分類主題詞表》和《國務院公文主題詞表》。《中國分類主題詞表》(1994)是在《中圖法》第三版和《漢語主題詞表》第一版的基礎上編制的、兩者兼容的一體化情報檢索語言,是一部大型綜合性的信息文獻標引工具。它問世后在圖書館及情報界得到了廣泛應用,2005年9月由北京圖書館出版社出版了第二版,包括印刷版和電子版。《國務院公文主題詞表》(1997年12月修訂)共由15類1049個主題詞組成,分為主表和附表兩大部分,主表有13類751個主題詞,附表有2類298個主題詞。詞表分為三個層次。第一層是對主題詞區域的分類,如“綜合經濟”、“財政、金融”類等。第二層是類別詞,即對主題詞的具體分類,如“工交、能源、郵電”類中的“工業”、“交通”、“能源”和“郵電”等。第三層是類屬詞,如“體制”、“職能”、“編制”等。第二層和第三層統稱為主題詞,用于文件的標引。

根據高文飛、趙新力《我國主題詞表的發展研究》(《圖書情報工作》2008年第9期)介紹,我國編制出版的主題詞表有130部,可以從年代分布、專業領域分布、詞表規模等方面對這些主題詞表進行歸類。從年代分布看,1956年至1965年是我國主題詞表發展的探索階段。1966年至1975年,我國主題詞表發展處于停滯狀態。1976年至1985年是我國主題詞表編制起步階段,這期間共編制主題詞表22部,占所收集全部詞表的16.92%。1986年至1995年是我國主題詞表飛躍發展時期,這一階段共編制主題詞表82 部,占所收集全部詞表的63.08%。1996年至2005年,我國主題詞表編制熱潮開始回落,編制主題詞表24部,占所收集全部詞表的18.46%。這一時期,我國主題詞表發展由編制新表轉為以對已有詞表進行修訂為主。從專業領域來看,社會科學詞表有31部,占23.85%;自然科學詞表共88部,占67.69%。包容社會科學和自然科學兩個領域的綜合性詞表有11部,占8.46%。根據詞表收詞量的多少,將詞表分為大、中、小三類。收詞量在10000條以上的為大型詞表,收詞量在10000 條至1000 條之間的為中型詞表,收詞量在1000條以下的為小型詞表。所收集的130部詞表中有詳細介紹的89部詞表的詞匯規模分布如下:中型詞表最多,占55.06%;其次是大型詞表,占35.95%;小型詞表最少,僅有8部,占8.99%。我國大型詞表所占比例相對較大,34部大型詞表中收詞量在20000條以上的詞表達14部,其中《漢語主題詞表》收詞量達108568條,《軍用主題詞表》收錄主題詞52500條。我國編制的小型詞表較少,多為未公開出版的由國家部委或機構團體編制供內部使用的詞表。

注釋:

[1]參見《漢書·藝文志》:“《蒼頡》七章者,秦丞相李斯所作也;《爰歷》六章者,車府令趙高所作也;《博學》七章者,太史令胡毋敬所作也;文字多取《史籀篇》,而篆體復頗異,所謂秦篆者也。是時始造隸書矣,起于官獄多事,茍趨省易,施之于徒隸也。漢興,閭里書師合《蒼頡》、《爰歷》、《博學》三篇,斷六十字以為一章,凡五十五章,并為《蒼頡篇》。武帝時司馬相如作《凡將篇》,無復字。元帝時黃門令史游作《急就篇》,成帝時將作大匠李長作《元尚篇》,皆《蒼頡》中正字也。《凡將》則頗有出矣。至元始中,征天下通小學者以百數,各令記字于庭中。揚雄取其有用者以作《訓纂篇》,順續《蒼頡》,又易《蒼頡》中重復之字,凡八十九章。”北京:中華書局,1962年,第1721頁。

[2]參見鄭國民、劉彩祥、王元華、陳雙新:《小學語文常用讀物的字種與字量研究——“三、百、千”“四書”、古詩80首等六種讀物的用字》,《語言文字應用》2003年第4期。

[3]參見劉英林、宋紹周:《論漢語教學字詞的統計與分級(代序)》,載國家對外漢語教學領導小組辦公室漢語水平考試部:《漢語水平詞匯與漢字等級大綱》,北京:北京語言學院出版社,1992年。

[4]參見通用詞研究課題組:《現代漢語通用詞研究的若干原則和方法》,《語文建設》1994年第4期。

[5]相同詞形的詞語因意義不同或讀音不同出現在不同位置時,算作不同詞條。

[6]參見《現代漢語常用詞表》課題組:《現代漢語常用詞表(草案)》,北京:商務印書館,2008年。

[7]參見《中國語言生活狀況報告(2010)》,北京:商務印書館,2011年。

[8]參見丁聲樹、李榮:《漢語方言調查》,載現代漢語規范問題學術會議秘書處編:《現代漢語規范問題學術會議文件匯編》,北京:科學出版社,1956年。

[9]參見劉慶隆:《現代漢語詞典的收詞》,《辭書研究》1982年第1期。

[10]參見韓敬體:《〈現代漢語詞典〉(修訂本)介紹》,《中國語文》1996年第6期。

[11]在本文完成之后,商務印書館于2012年7月出版了《現代漢語詞典》(第六版)。

[12]參見孫茂松等:《〈信息處理用詞匯研究〉九五項目結題匯報 信息處理用現代漢語分詞詞表》,《語言文字應用》2001年第4期。

[13]參見國家技術監督局:《中華人民共和國國家標準GB/T 13715-92信息處理用現代漢語分詞規范》,北京:中國標準出版社,1993。

[14]參見孫茂松等:《〈信息處理用詞匯研究〉九五項目結題匯報 信息處理用現代漢語分詞詞表》,《語言文字應用》2001年第4期。

[15]參見梁冰、喬曉東:《從維基文化看我國詞表建設》,《圖書情報工作》2007年第7期。

[16]參見中國科學技術情報研究所、北京圖書館:《漢語主題詞表》,北京:科學技術文獻出版社,1980年。

[17]參見中國科學技術情報研究所:《漢語主題詞表:自然科學》(增訂本),北京:科學技術文獻出版社,1991年。

[18]參見梁冰、喬曉東:《從維基文化看我國詞表建設》,《圖書情報工作》2007年第7期。

猜你喜歡
詞匯
2021年本刊一些常用詞匯可直接用縮寫(二)
2021年本刊一些常用詞匯可直接用縮寫(一)
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2017年35期)2017-10-10 02:45:28
一些常用詞匯可直接用縮寫
山東醫藥(2017年33期)2017-10-09 12:31:41
詞匯小達人
一些常用詞匯可直接用縮寫
山東醫藥(2014年48期)2014-12-02 04:34:34
一些常用詞匯可直接用縮寫
山東醫藥(2014年34期)2014-12-02 04:33:52
主站蜘蛛池模板: 高清欧美性猛交XXXX黑人猛交 | 国产aⅴ无码专区亚洲av综合网 | 99热这里只有成人精品国产| 园内精品自拍视频在线播放| 国产亚洲高清在线精品99| 国产激情国语对白普通话| 久草青青在线视频| 久久久久国产精品嫩草影院| 日韩中文精品亚洲第三区| 国产精品亚洲va在线观看 | 奇米影视狠狠精品7777| 国产99免费视频| 99在线观看免费视频| 日韩精品一区二区三区swag| 欧美日韩中文国产| 国产99免费视频| 国产青榴视频在线观看网站| 免费高清自慰一区二区三区| 好吊色妇女免费视频免费| 国产精品无码一二三视频| 日韩成人高清无码| 亚洲精品第一在线观看视频| 18禁不卡免费网站| 久久国产成人精品国产成人亚洲 | 992tv国产人成在线观看| 国产成人成人一区二区| 在线播放国产99re| 日韩视频福利| 五月天在线网站| 久久综合国产乱子免费| 亚洲色图欧美激情| 精品少妇人妻av无码久久| 色妞www精品视频一级下载| 国产日韩欧美成人| 天天色天天操综合网| 亚洲综合中文字幕国产精品欧美| 露脸一二三区国语对白| 尤物精品视频一区二区三区| 国产精品成人AⅤ在线一二三四| 高h视频在线| 国产福利影院在线观看| 欧美日本在线一区二区三区| 99ri国产在线| 国产网站免费观看| 日韩AV无码一区| 成人字幕网视频在线观看| 久久成人免费| 国产成人精品亚洲77美色| 在线国产毛片| 国产精品30p| 国产高清又黄又嫩的免费视频网站| 午夜三级在线| 国产粉嫩粉嫩的18在线播放91| 亚洲国产天堂在线观看| 欧美性猛交一区二区三区| 国产精品亚洲а∨天堂免下载| 国产精品免费露脸视频| 天天综合网亚洲网站| 婷婷丁香色| 亚洲AV无码乱码在线观看代蜜桃| 国产超碰在线观看| 欧美激情综合| 久草中文网| 亚洲日韩高清在线亚洲专区| 亚洲第一视频区| 国产无码高清视频不卡| 久久精品视频亚洲| 国产精品无码一区二区桃花视频| 99精品这里只有精品高清视频| 99热这里只有精品免费| 试看120秒男女啪啪免费| 97精品国产高清久久久久蜜芽 | 国产成人啪视频一区二区三区| 在线国产资源| 成人午夜福利视频| 97se亚洲综合在线天天| 福利一区在线| 香蕉综合在线视频91| 综1合AV在线播放| 亚洲第一区在线| 91在线一9|永久视频在线| 欧美高清国产|