木合塔爾·沙地克 布合力齊姑麗·瓦斯力
摘 要:學國語是每位中國人的神圣職責。作為少數民族,學國語的難點莫過于是聲調。為了掀起學習國語的熱潮、揭開漢字聲調的神秘面紗,創新理念思路、創新方式方法對漢字進行大數據分析并可視化。首先自動獲取Unicode漢字字符集中的所有漢字及其拼音,其后進行基于聲調、多音字、同音字等多角度的分析并其可視化。分析發現,漢字中第四聲調的最多;忽略聲調有421種發音,前二十發音的漢字累計占比20%;加聲調有1202種發音,前二十發音的漢字累計占比10%。雖然漢字入門比較難進,但學會常用字后,無需死記硬背海量詞匯。
關鍵詞:多音字 同音字 聲調 基本漢字
中圖分類號:TP392 文獻標識碼:A 文章編號:1003-9082(2018)05-0-02
引言
中華文化歷史悠久,內涵豐富。能夠代表中華文化的符號數量眾多,其中最具有代表性的,一定非漢字莫屬。這不僅因為漢字是中華文化的載體,更是因為漢字本身就是中華文化不可或缺的組成部分1。漢字是世界上最古老的文字之一,已有四千多年的歷史。漢字的數量并沒有準確數字,大約將近十萬個,日常所使用的漢字只有幾千個。
Unicode 是全球文字統一編碼。它把世界上的各種文字的每一個字符指定唯一編碼,實現跨語種、跨平臺的應用。基本漢字Unicode編碼范圍為4E00-9FA5,其中:大陸(S)提出的漢字17124個,臺灣(T)提出的漢字17258個;S與T的并集,即中國(C)提出的漢字為20158個。日本(J)提出的漢字為12157個,中國未提出的690個(Ja);韓國(K)提出的漢字為7477個,其中中國未提出的90個(Ka);Ja與Ka并集共744字2。
《國家中長期語言文字事業改革和發展規劃綱要(2012-2020年)》提出了到2020年,普通話在全國范圍內基本普及,漢字社會應用的規范化程度進一步提高,漢語拼音更好地發揮作用3。十九大報告提出“文化是一個國家、一個民族的靈魂。文化興國運興,文化強民族強。沒有高度的文化自信,沒有文化的繁榮興盛,就沒有中華民族偉大復興” 4。
本文為了推廣和普及國家通用語言文字、提高國民語言文字應用能力、弘揚傳播中華優秀文化、掀起學習國語的熱潮、揭開漢字的神秘面紗,創新理念思路、創新方式方法,對Unicode基本漢字字符集中的20902個漢字進行了統計分析與可視化。
一、分析與可視化
1.聲調占比分析(含多音)
在基本漢字字符集的常用發音(即一字一音)聲調占比分析5基礎上,對含多音情況進行聲調占比分析,如表1所示:
表中看到,在基本漢字字符集中,發音為第一聲調的有7053個;第二聲調的有7734個;第三聲調的有4789個;第四聲調的最多,即9830個;輕聲或非漢字的有244個。在此基礎上,進行占比分析,如圖1所示:
圖中看到,第一聲調占比23.79%,第二聲調占比26.08%,第三聲調占比16.15%,第四聲調占比33.15%,輕聲或非漢字發音占比0.82%。
另外,發音總數有明顯增大,即20902個漢字共有29650中發音,比常用發音多出了8748個音。各聲調的發音數也相應的增加,其中第四聲的增幅最大,即增加了3167個,第三聲增加1418個,第二聲增加2098個,第一聲增加1969個,輕聲或非漢字發音增加96個。
2.多音字分析
在基本漢字字符集20902個漢字中,多音字有6164個(有兩個及以上發音),其中發音最多的前十漢字,如表2所示:
表中看到,有些漢字的發音包括非漢語拼音,如“欸”、“誒”等。
3.同音字分析
3.1不帶聲調情況
在基本漢字字符集20902個漢字中,共有421種不帶聲調的發音(即忽略聲調),其中前十同音字如表3所示(表中每種發音只取前十漢字):
表中看到,讀音為yi的漢字共有364個,前十同音字中每個發音對應的漢字數均超過200。
3.2帶聲調情況
在基本漢字字符集20902個漢字中,共有1202種帶聲調的發音(不考慮多音字情況),其中前十同音字如表4所示(表中每種發音只取前十漢字):
表中看到,讀音為yì的漢字共有203個,比不帶聲調的yi減少了161個,前十帶聲調同音字中每個發音對應的漢字數均超過90。
4.同音字頻率分布
4.1不帶聲調情況
對基本漢字字符集中20902個漢字的421種不帶聲調發音進行頻率分布分析,如圖2所示:
圖中看到,頻率最高的前二十個發音的漢字數占整個漢字的20%;yi,ji,yu,xi,zhi,li,yan,fu等八個發音的漢字占整個漢字的10%。
4.2帶聲調情況
對基本漢字字符集中20902個漢字的1202種帶聲調發音進行頻率分布分析,如圖3所示:
圖中看到,頻率最高的前二十個帶聲調發音的漢字數占整個漢字的10%;yì,lì,xī,yù,zhì,bì,jī,jì,qí,fú等八個發音的漢字占整個漢字的6%。
5.拼音云
5.1不帶聲調情況
繪制基本漢字字符集中20902個漢字的421種不帶聲調發音的拼音云圖,如圖4所示:
圖中看到,yi,ji,yu,zhi,xi等包含最多同音詞的不帶聲調發音以大字顯示。
5.2帶聲調情況
繪制基本漢字字符集中20902個漢字的1202種帶聲調發音的拼音云圖,如圖5所示:
圖中看到,yì,lì,xī,yù,zhì等包含最多同音詞的帶聲調發音以大字顯示。
結語
漢字的大數據非常博淵深奧,探淵索珠不易之事。本文只是對基本字符集中漢字的一知半解(因篇幅原因,除了聲調占比分析外,其它部分沒考慮一字多音情況)。學習漢字學的意義遠不止于了解漢字的這些特征,通過漢字的深入研究,可以獲得更多的靈感,學到更多的研究漢字的方法6。
中國文化起源于漢字,漢字對中華文明的傳播起到了不可或缺的作用。它是中華民族和世界的共同財富,不僅給漢民族帶來了文化的繁榮,也對我國其他少數民族的文化發展產生了深遠影響。在幾千年的歷史當中,繼續發展傳播日本、韓國、越南、新加坡等國家,在他們的文字和文化發展中發揮了重要作用。
文化認同是一種群體文化認同的感覺。對外來文化價值的認同,足以瓦解一國的政治制度,民族的凝聚力;反之,人民對本國自身文化的強烈認同,既是該國自立于世界民族之林的偉大精神力量,又是使民族在激烈的國際競爭中立于不敗之地。
學國語是每位中國人的神圣職責。作為少數民族,學國語的難點莫過于是聲調。經過分析發現,漢字中第四聲調的最多,忽略聲調時有421種發音,考慮聲調有1202種發音。雖然漢字入門比較難進,但學會常用字后,無需死記硬背海量詞匯。作為中華文化的傳承人,“要以科學武裝自己、把文化自信作為底氣,發展中國特色社會主義文化”4是我們不可推卸的責任。
參考文獻
[1]王立.漢字的強大生命力源自哪里?[EB/OL].(2017-11-30)[2017.12.4].光明日報微信平臺: http://mp.weixin.qq.com/s/g3zVyAW0_Kq_VqcB_Kfcsg.
[2]漢典.漢字簡介. [EB/OL].[2017.12.4].http://www.zdic.net/appendix/f21.htm.
[3]360百科.《國家中長期語言文字事業改革和發展規劃綱要(2012-2020年)》. [EB/OL].[2017.12.4]. https://baike.so.com/doc/8706653-9028846.html.
[4]習近平.中共十九大開幕,習近平代表十八屆中央委員會作報告(直播全文).[EB/OL].(2017-10-18)[2017.12.4].http://www.china.com.cn/cppcc/2017-10/18/content_41752399.htm.
[5]木合塔爾·沙地克,布合力齊姑麗·瓦斯力. 用Python數據分析方法進行漢字聲調頻率統計分析[J].電腦知識與技術, 2017年12月(已錄用).
[6]百度文庫.漢字學.[EB/OL].(2011-01-09)[2017.12.4].https://wenku.baidu.com/view/f3f0e52558fb770bf78a55ba.html