漢語詞匯教學目標能夠量化,已是一個不爭的事實。
自1898年德國語言學家F.W.凱丁出版第一部根據統計材料編成的《德語頻率詞典》以來,各國語言學家、教育家都十分重視編寫頻率詞典,從頻率的高低來確定常用詞,推進詞匯的教學,提高學習效率。如美國的教育家兼心理學家E.L.桑代克對英語詞匯的頻率做了大量的統計工作,在此基礎上編寫了《教師兩萬詞詞書》和《教師三萬詞詞書》。后來人們又在此基礎上將常用詞分為最低限度詞匯、常用詞匯、次常用詞匯、一般常用詞匯等幾個等級,供教學選用,把詞匯教學納入科學的軌道。
漢語常用字詞的研究,要說早則早矣。
周宣王時的太史籀,為了教學童,編《史籀篇》。秦朝李斯、趙高和胡毋敬又各自取材于《史籀篇》,改籀文為秦篆,分別編了《倉頡篇》《爰歷篇》《博學篇》。漢代的民間先生又將這三部字書合并,題名為“倉頡篇”。此后漢武帝時司馬相如編《凡將篇》,元帝時史游編《急就篇》,成帝時李長編《元尚篇》。它們開我國集中識字學詞教學之先河。到后來大量涌現的諸如《千字文》《三字經》《百家姓》等蒙童韻語識字課本,其編寫方法無不是脫胎于前者?!肚ё治摹愤x擇了1000個字,都是古書上常用的,基本上沒有生僻字,只有個別字重復?!度纸洝肥?140字,用的都是極常見的字,講的都是極通俗淺顯的名物事理,用字有一定的重復。《百家姓》是568字,字數少,所列的字大多是兒童很容易理解的普通常見的姓,有個別復姓中的用字重復。三本書合起來,總字數是2708個,除去重復的字不算,單字是1426個。從字種比例看,“三、百、千”有73.67%的字是現代漢語常用字,有10.61%是現代漢語次常用字,兩項合起來,有84.27%的字在我們常說的3500個常用字范圍內。單從字種比例看,“三、百、千”即使在今天仍然不失為優秀的識字課本。如果把這些蒙童韻語讀物看成我國古代語文教育工作者在母語字詞教學方面的數量范圍追求的有益嘗試的話,我國母語詞匯教學量化實踐的歷史可謂長矣。
當然,科學意義的詞匯目標量化工作是要建立在詞頻統計工作基礎上的。
我國第一部漢語頻率字典是陳鶴琴在1928年編成的《語體文應用字匯》,他分析了554478個詞,得出4261個常用字。但這還不是嚴格意義上的頻率詞典。
對漢語詞匯頻率的統計研究,最早應算《普通話三千常用詞表》。該詞表為鄭林曦先生所編,初稿本出版于1959年,收詞3624個,增訂本出版于1987年,收詞3996個。這是我國第一本按漢語語法分詞類排列的常用詞表,原本主要是供學習普通話、編寫普通話課本、讀物時參考的。從學習者、使用者的反應來看,該詞表確實收到了較好的社會效果。不過,該詞表無論是初稿本還是增訂本,都沒有采取統計大量材料的方法,而采取選擇和統計、檢驗相結合的方法。據編者介紹,詞表編成后,曾利用各種性質的書報文章約130000多字、50000多詞進行常用性檢驗,結果證明,初稿本的詞匯出現頻率平均約為80%,增訂本的詞匯出現頻率提高到87%。
另一項具有手工性質的勞動,是1980年前婁警予、馬世一等教師,對當時試行的十冊統編教材中的中學生應該理解掌握的常用詞,作了比較詳盡的調查和統計,一共理出6494個常用詞。他們認為這遠遠不夠,因此,又按照《現代漢語詞典》的順序,挑出他們認為中學生應該學習掌握的詞匯6113個。此外,他們認為《現代漢語小詞典》所選的3000條成語,絕大多數都是中學生應該學習和掌握的,而那套課本只出現了814個。據此,他們提出,中學語文應該教給學生的詞匯,大約應是15000條左右(其中成語約3000條,其他詞語約12000條)。他們因此按音序列成了《中學生常用詞匯表》,并提出“到底是多少,又應該包括哪些詞匯”,需要“大家共同來研究”,他們只是“向全國熱心于語文教學改革的同志們提供一個藍本”。
這是目前我們所知的新中國第一項直接面向學校教育的漢語詞匯目標量化研究。這項研究肯定沒有借助計算機,它的選詞標準也不是建立在詞頻統計基礎上的,因而就某一具體詞語的當選與否來講,其科學性肯定是差點兒。這項成果也沒有在全國推廣。但這項研究的巨大意義就在于,它是新中國語文教育史上第一項明確關于漢語詞匯教學量化標準問題的研究。
我國開展大規模的不同用途的漢語詞頻統計工作,是在計算機技術得到廣泛應用以后。這些成果中比較具有全局意義的直接面向學校和用作其他需要的各有數項,下面略作介紹:
(一)直接面向學校的
1.北京師范大學現代教育技術研究所部分研究人員同中文系部分漢語教師合作,利用兩年多的時間,對全國統一使用的1983~1984年度的中小學語文教材(共24冊)作了大規模的詞頻統計與分析。共輸入104萬字,約生成4萬個詞條。然后再利用計算機把詞頻值和方差值(即詞在各種文體中的覆蓋率)都達到某一界限的詞全部選出來,確定為常用詞。這項成果于1985年7月通過國家鑒定,并形成《現代漢語詞表》《三千常用詞表》《八千常用詞表》《一萬常用詞表》和《現代漢語構詞字典》等具體成果。
這項研究的意義毋庸置疑,但是,它并沒有提出中小學詞語教學的量化標準,而且,詞頻統計的取材范圍只局限于當時的一套統編教材,這個選材面太窄了,明顯不足以證明所選詞語的“常用性”,統計結果受該教材的編輯思想和選文標準的局限是自然的。
2.北京語言學院語言教學研究所從1979年11月開始至1985年7月止,歷時5年零8個月,對4類(報刊政論、科普、生活口語、文學作品)語體179種180萬字的語料進行統計,共得到詞條31159個,其中出現頻率在10次以上的常用詞,只有8000個。這8000個詞累計出現頻率占全部語料總量的95%強,其余23159個詞的累計出現頻率僅占全部語料的5%弱。據此他們編成《現代漢語頻率詞典》。
這項成果還直接生成或影響了另外兩項成果:一是國家對外漢語教學領導小組辦公室漢語水平考試部,據此確立了《漢語水平詞匯與漢字等級大綱》(1992)和《漢語水平等級標準》(1995)里的詞匯量化標準8821個(亦說8822個)。一是國家語委據此編制了《普通話水平測試大綱(修訂本)》(1994)“普通話(口語和書面語)常用詞語”表一里的8454個常用詞語。
這項成果對對外漢語教學產生了比較大的影響,直到現在它還是人們討論對外漢語詞匯教學問題的依據,但是這項成果對國內中小學語文教學并沒有產生直接影響。
(二)用作其他需要的
1.北京航空航天大學等10個單位,從1981年到1986年,歷時6年,前后有數百人,進行了一項據他們自己稱是“世界上迄今為止規模最大的”漢語詞頻統計。這次詞頻統計選材3億漢字,編碼輸出2000萬漢字(含標點符號),統計出詞條達7萬之多,統計材料覆蓋1919年至1982年的四個時期,涉及社會科學和自然科學的10類學科。該項研究1986年6月30日通過國家級鑒定,主要成果收集在劉源主編的《現代漢語常用詞詞頻詞典》里。
2.國家語委語用所現代漢語通用詞課題組,在近2億漢字語料的基礎上,吸收國內外主要的詞頻統計成果,并運用新的抽樣語料進行覆蓋率檢驗,采集我國“社會生活各個方面、各行各業都通用”的現代漢語詞匯。該項研究的首批成果《現代漢語通用詞·基本集》已通過專家審定(1997),它收詞6萬多,其中一級詞5191個,二級詞8792個,共13893個?!冬F代漢語通用詞·基本集》以外還有擴充集。擴充集以短語為主。
3.許嘉璐、傅永和主持,清華大學、北京大學、國家語委語用所等十多個單位聯合攻關完成的國家社科研究九五規劃重大項目“信息處理用現代漢語詞匯研究”,得到一個包含158000個字詞的工作初表,然后再將這個表中的每個詞置于8億字左右的語料中作詞頻統計,最后采用“定性+定量”的處理策略(即運用各類語言學規則并參照統計數據),形成這個課題的核心成果之一——《信息處理用現代漢語分詞詞表》。這個詞表共收詞92843個,其中一級常用詞56606個,二級常用詞36237個。
這項成果除了給出到目前為止有統計學依據的最大現代漢語常用詞表外,特別值得我們注意的有兩點:一是該詞表的詞語分類。整個詞表分成7大分庫:普通詞庫、帶字母詞庫、專名庫、常用接續庫(即語法學上的短語)、成語庫、俗語庫以及單字詞庫。每庫詞語又根據頻度分為一級常用、二級常用。這些數據對于我們制定語文詞匯教學量表有重要參考價值。二是該詞表還采取了一個技術性措施,即強制要求該表必須涵蓋《普通話常用三千詞》及《漢語水平詞匯與漢字等級大綱》給出的漢語常用8000詞,僅僅淘汰了極少量過時的詞。這使我們更加有理由重視漢語“八千常用詞”,即上文所說“8821”或“8454”。
以上三項成果,雖然都不是直接面向和服務于學校教育的,但它對于我們制定漢語詞匯教學標準,考慮選詞范圍和選詞量,是有重要參考價值的。
參考文獻:
(1)倪寶元《語言學與語文教育》,上海教育出版社1995年。
(2)徐梓、王雪梅《蒙學便讀》,山西教育出版社1991年。
(3)張志公《傳統語文教育初探》,上海教育出版社1962年。
(4)鄭國民等《小學語文常用讀物的字種與字量研究——“三、百、千”“四書”、古詩80首等六種讀物的用字》,《語言文字應用》2003年第4期。
(5)鄭林曦《普通話三千常用詞表》,文字改革出版社1987年。
(6)張志公《語文教學研究——中學語文教學研究會會刊第一輯》,教育科學出版社1980年。
(7)何克抗、李大魁《現代漢語三千常用詞表》,北京師范大學出版社1987年。
(8)呂必松《對外漢語教學概論(講義)(續十)》,《世界漢語教學》1994年第4期。
(9)北京語言學院語言教學研究室《現代漢語頻率詞典》,北京語言學院出版社1986年。
(10)劉照雄《普通話水平測試大綱(修訂本)》,吉林人民出版社1994年。
(11)劉源《現代漢語常用詞詞頻詞典》,宇航出版社1990年。
(12)國家語委語用所《現代漢語通用詞》課題組(執筆)厲兵《〈現代漢語通用詞〉選詞原則》,《語言文字應用》1998年第2期。
(13)孫茂松等《信息處理用現代漢語分詞詞表》,《語言文字應用》2001年第4期。