李向農(nóng) 王宇波
(華中師范大學(xué) 文學(xué)院,湖北 武漢 430079)
網(wǎng)絡(luò)媒體監(jiān)測(cè)語(yǔ)料庫(kù)漢字使用的性別差異
李向農(nóng) 王宇波
(華中師范大學(xué) 文學(xué)院,湖北 武漢 430079)
本文以國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心(網(wǎng)絡(luò)媒體分中心)所建立的男女博客文本語(yǔ)料庫(kù)為研究對(duì)象,對(duì)男女在漢字使用上的性別差異作統(tǒng)計(jì)調(diào)查與分析。通過(guò)從覆蓋率、高頻字、低頻字、共用字、獨(dú)用字、構(gòu)詞能力等多個(gè)角度的統(tǒng)計(jì)發(fā)現(xiàn),男女博客在漢字的使用上既有一定的共性,又有明顯的差異。男性在總字種數(shù)、低頻字的字種數(shù)上明顯多于女性,女性在總字次、非常用字的使用比例上高于男性。
網(wǎng)絡(luò)媒體監(jiān)測(cè)語(yǔ)料庫(kù);漢字;性別差異;字種數(shù)
性別語(yǔ)言研究一直是社會(huì)語(yǔ)言學(xué)的研究熱點(diǎn),國(guó)內(nèi)學(xué)者對(duì)語(yǔ)言性別差異的研究與西方學(xué)界相比尚有很大差距,尤其以中國(guó)大陸為樣本的實(shí)證研究不曾多見(jiàn)。同時(shí),“重視漢語(yǔ)語(yǔ)料、加強(qiáng)本土化研究也符合當(dāng)代語(yǔ)言性別差異研究的多元化、動(dòng)態(tài)化、微觀化和本土化的發(fā)展趨勢(shì)。”①因此,本文以國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心(網(wǎng)絡(luò)媒體分中心)建立的 2005—2006 年 spaces.live.com,blog.sina.com.cn,blog.sohu.com,blogcn.com,bokee.com,blog.hexun.com,blogbus.com等知名的中文博客網(wǎng)站的部分網(wǎng)頁(yè)(共計(jì)4938041篇,1937732982字符次)的文本語(yǔ)料為基礎(chǔ),提取出具有性別標(biāo)識(shí)的博客文本共計(jì)2275826篇,606571001字符次(其中男性作者54982個(gè),文章773777篇;女性作者77007個(gè),文章1502049篇)的博客語(yǔ)料庫(kù)為樣本作為研究對(duì)象,對(duì)博客語(yǔ)料中漢字使用的性別差異作統(tǒng)計(jì)調(diào)查。
楊信彰認(rèn)為“語(yǔ)料庫(kù)的使用為語(yǔ)言與性別的研究提供了良好的工具”,“在研究手段上,語(yǔ)料庫(kù)的使用能幫助我們更好地審視語(yǔ)言與性別的關(guān)系。”②因此,對(duì)中文男女博客語(yǔ)料庫(kù)中的男女性在總字次、字種數(shù)、使用頻率等相關(guān)數(shù)據(jù)的統(tǒng)計(jì),能客觀、真實(shí)地反映漢字使用的性別差異。
如表1所示,男性博客中使用的總字種數(shù)為20917,女性為13558,男性多于女性;但在總字次上女性卻遠(yuǎn)遠(yuǎn)高于男性,女性字種數(shù)的平均使用頻次為27560次/字種,高于男性的11135次/字種,說(shuō)明男性博客在用字上相對(duì)來(lái)說(shuō)較為分散,而女性則較為集中,較為頻繁地使用相對(duì)較少的字種。

表1 男女博客中漢字總體使用情況
本文有關(guān)覆蓋率的統(tǒng)計(jì)按照國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心編輯的《中國(guó)語(yǔ)言生活狀況報(bào)告(2008)》(下編)中的定義,指的是被調(diào)查語(yǔ)料內(nèi)指定調(diào)查對(duì)象占所有調(diào)查對(duì)象總量的百分比,計(jì)算方法與累加頻率相同,即每一調(diào)查對(duì)象的頻次同其前調(diào)查對(duì)象的頻次的累加和,與所有語(yǔ)料中調(diào)查對(duì)象總次數(shù)的比值。漢字的覆蓋率是衡量漢字在所屬語(yǔ)料庫(kù)中是否常用的標(biāo)準(zhǔn)之一。
表2中以覆蓋率10%為增長(zhǎng)的基準(zhǔn),在同一覆蓋率的標(biāo)準(zhǔn)下,統(tǒng)計(jì)對(duì)比了男女博客中所使用的漢字字種數(shù)以及在總字種數(shù)中所占的比例,可以得出的結(jié)論是:要達(dá)到相同的覆蓋率,男性與女性相比要使用相對(duì)較多的字種數(shù);而要達(dá)到相同的覆蓋率,女性所使用的字種數(shù)在總字種數(shù)中所占的比例則相對(duì)高于男性。這進(jìn)一步印證了表1中得出的結(jié)論,即男性博客在用字上相對(duì)來(lái)說(shuō)較為分散,而女性則較為集中,較為頻繁地使用相對(duì)較少的字種。

表2 男女博客中漢字使用覆蓋率差異
下面我們將同一覆蓋率下男性字種數(shù)和女性字種數(shù)進(jìn)行了一一比對(duì),并計(jì)算得出了同一覆蓋率下男女字種數(shù)差值。從表3中可以看到,隨著覆蓋率的增加,男女字種數(shù)的差值也逐漸變大。

表3 不同覆蓋率范圍內(nèi)男女字種數(shù)對(duì)比

圖1 不同覆蓋率范圍內(nèi)男女字種數(shù)對(duì)比曲線(xiàn)圖
圖1兩條曲線(xiàn)分別代表男性字種數(shù)和女性字種數(shù),兩條曲線(xiàn)的走向基本一致,在覆蓋率不超過(guò)90%之前,男性和女性?xún)蓷l曲線(xiàn)之間的距離非常接近,這說(shuō)明男女性字種數(shù)差值較小;而當(dāng)覆蓋率超過(guò)90%以后,代表男性和女性的曲線(xiàn)之間的距離逐漸變大,可見(jiàn)隨著覆蓋率的增加,男女字種數(shù)差值亦隨之增加。
我們把某個(gè)調(diào)查對(duì)象的使用頻次與所有調(diào)查對(duì)象的總頻次的比值當(dāng)做其使用頻率,按照頻率大小降序排列,可以明顯地看出不同的調(diào)查對(duì)象在使用頻率上的差異,表4是男女博客中使用頻率最高的前20個(gè)漢字。

表4 使用頻率最高的前20個(gè)字
表4中所列出的漢字使用頻率最高的前20個(gè)字中,男女使用頻率最高的字都為“的”字,男女使用頻率分別為4.58%和4.68%,使用頻率排名最低的字男女也都在0.5%以上。另外,頻率最高的20個(gè)字中,男女性之間達(dá)到了70%的一致性,有17個(gè)字是男女共用的,屬于共用高頻字(見(jiàn)表5);只有3個(gè)字是男女各自的獨(dú)用高頻字,男性的獨(dú)用高頻字分別是“大”(頻率為0.55%)、“也”(頻率為0.50%)、“們”(頻率為0.50%),女性的獨(dú)用高頻字分別是“好”(頻率為 0.64%)、“天”(頻率為0.61%)、“要”(頻率為0.56%)。男女性之間的一致性還體現(xiàn)在,男女的獨(dú)用高頻字都位于表4中相對(duì)靠后的位置,這說(shuō)明漢字的使用頻率越高,其在男女博客中使用的一致性也相對(duì)較高。

表5 男女前20個(gè)高頻字中共用字的使用頻率對(duì)比
在以降序排列的漢字使用頻率表中,出現(xiàn)頻次較少的字占了很大一部分比例,在對(duì)男女博客中漢字使用情況進(jìn)行比較時(shí),高頻字固然是重要的指標(biāo)之一,同時(shí),使用頻率較低的字即低頻字的使用情況也不容忽視。我們以出現(xiàn)頻次為標(biāo)準(zhǔn),單獨(dú)列出了出現(xiàn)頻次不多于10次的低頻字。

表6 使用頻次不多于10次的低頻字
從表6中所列出的低頻字可以發(fā)現(xiàn),從低頻字的字種數(shù)來(lái)看,男性遠(yuǎn)遠(yuǎn)大于女性,男性使用頻次不多于10次的字種數(shù)為12309,女性只有4852,男性是女性的兩倍還要多;從低頻字所占總字種數(shù)的比例來(lái)看,男性低頻字所占比例為58.85%,超過(guò)了半數(shù),遠(yuǎn)遠(yuǎn)超過(guò)女性的35.79%。由此可見(jiàn),在男女博客的漢字使用上,低頻字都占有相當(dāng)一部分比例,但男性表現(xiàn)得更為突出,即男性所使用的超過(guò)一半的漢字都為出現(xiàn)頻次不大于10次的低頻字,女性雖然沒(méi)有男性這么明顯,但低頻字的比例也超過(guò)了三分之一,也是不可忽視的重要組成部分。這進(jìn)一步說(shuō)明男性博客在漢字的使用上更為分散,范圍更廣,更具有靈活性和多樣性。

圖2 男女低頻字所占比例曲線(xiàn)圖
男女低頻字都在總字種數(shù)中占有相當(dāng)大的比重,體現(xiàn)出了一定的相似性,但在更深層次上它們又體現(xiàn)出了一定的差異性。圖2中我們以頻次為標(biāo)準(zhǔn),將男女低頻字各自所占比例進(jìn)行了對(duì)比,從上面的曲線(xiàn)圖我們可以明顯地發(fā)現(xiàn):僅從出現(xiàn)頻次從1次到10次這個(gè)區(qū)間來(lái)看,女性低頻字中頻次為1次的字所占比例最高,隨著頻次的增加,低頻字所占比例依次降低;而男性的情況稍微有些變化,頻次為1次的低頻字所占比例并不像女性一樣在這個(gè)區(qū)間內(nèi)是最高的,而頻次為2次的低頻字,其所占比例幾乎高達(dá)35%,然后隨著頻次的增加,低頻字所占的比例也處于一種依次降低的趨勢(shì)。
通過(guò)上面的統(tǒng)計(jì)分析,我們發(fā)現(xiàn)男女博客中的漢字使用在具有一致性的同時(shí),也表現(xiàn)出了各自的特點(diǎn)。表7對(duì)男女性共用字與獨(dú)用字的分析,更能表現(xiàn)出男女博客在漢字使用上的差異與共性。

表7 使用頻率前100位中的男女共用字與獨(dú)用字
使用頻率排名在前100位的字中,男性的覆蓋率達(dá)到了47.47%,略低于女性的50.69%,其中男女共用了86個(gè)字,各自獨(dú)用了7個(gè)字。男性獨(dú)用的七個(gè)字為“國(guó)、用、成、當(dāng)、間、作、同”,女性獨(dú)用的為“愛(ài)、候、又、讓、女、老、做”,這些獨(dú)用字在一定程度上說(shuō)明男性較多地關(guān)注國(guó)家大事,較多地使用“國(guó)”等字;而女性則感情較為細(xì)膩,更多地關(guān)注感情、年紀(jì)、美容等,較多地使用與此相關(guān)的“愛(ài)、老”等字。與男女性關(guān)注熱點(diǎn)有關(guān)的字的使用頻率相對(duì)于對(duì)方來(lái)說(shuō)都較高。

表8 使用頻率前1000位中的男女共用字與獨(dú)用字
表8中所列出的使用頻率前1000位的字中,男女漢字使用的覆蓋率都達(dá)到了90%左右,男性為89.93%,略低于女性的90.62%;男女共用字為922個(gè),獨(dú)用字各78個(gè),獨(dú)用字所占比例與前100字中獨(dú)用字所占比例大致相當(dāng);男女性的獨(dú)用字依舊與男女性所關(guān)注的事件具有一定的一致性,男性更多地使用了與政治、比賽、游戲、工作等相關(guān)的“政、權(quán)、治、魔、輸、歐、勝”等表達(dá)較為正式的內(nèi)容的字,而感情較為細(xì)膩的女性則相對(duì)更頻繁地使用了與生活、感情、動(dòng)物、感覺(jué)等有關(guān)的“暖、疼、貓、逛、甜、帥、涼”等,同時(shí)女性獨(dú)用字中還出現(xiàn)了一定數(shù)量的繁體字,這與我們所選擇的博客語(yǔ)料庫(kù)有關(guān),人們尤其是女性在網(wǎng)絡(luò)語(yǔ)言中更傾向于使用一些繁體字來(lái)達(dá)到新穎活潑的表達(dá)效果。

表9 使用頻率前1500位中的男女共用字與獨(dú)用字

表10 使用頻率前2000位中的男女共用字與獨(dú)用字

表11 使用頻率前2500位中的男女共用字與獨(dú)用字
除了男女漢字使用頻率前100位和前1000位之外,我們又分別統(tǒng)計(jì)了男女漢字使用頻率前1500位、前2000位和前2500位的漢字使用情況(見(jiàn)表9-11):前1500位漢字中,男女獨(dú)用字各102字,占6.8%;前2000位中,男女獨(dú)用字各119字,占5.95%;前2500位中,男女獨(dú)用字各124字,占4.96%。

圖3 男女漢字使用獨(dú)用字比例曲線(xiàn)圖
通過(guò)圖3可以明顯地看出,從前100字到前2500字,除了前1000字中男女獨(dú)用字比例大于其他幾個(gè)對(duì)比范圍之外,男女獨(dú)用字的比例隨著統(tǒng)計(jì)范圍的擴(kuò)大基本上是呈下降趨勢(shì)的。
《現(xiàn)代漢語(yǔ)常用字表》包括常用字(2500字)和次常用字(1000字),由國(guó)家語(yǔ)言文字工作委員會(huì)和國(guó)家教育委員會(huì)發(fā)布,一般掌握了常用字就達(dá)到了利用漢語(yǔ)的基本要求。我們將男女博客中漢字使用頻率前2500字分別與常用字表(2500字即一級(jí)常用字)進(jìn)行對(duì)比,具體情況見(jiàn)表12。
下面我們分別將位于男女性使用頻率前2500字中、但卻沒(méi)有出現(xiàn)在常用字表中的字分別列出。

表13 前2500字超出一級(jí)常用字的繁體字與嘆詞
通過(guò)表13中的統(tǒng)計(jì)對(duì)比我們發(fā)現(xiàn):首先,男性漢字使用頻率前2500字的覆蓋率達(dá)到了98.37%,女性則達(dá)到了98.43%,其中男女性都包含了大量《現(xiàn)代漢語(yǔ)常用字表》(2500字)所沒(méi)有的字,男性為344字,而女性則更多,為384字。其次,繁體字占了很大的比例,男性為95字,占了27.62%,女性為124字,占了32.29%,這與網(wǎng)絡(luò)語(yǔ)言中人們喜歡求新求變有關(guān),比如火星文、繁體字等都與人們這種追求新穎的心理密不可分。另外,男女博客漢字使用中都包含有一定量的方言用字,如“係、嘅、吖、咗、咁、叻”等;還有一些嘆詞,男性所使用的嘆詞有“呵、哦、嘛、嘿、哎、咯、哇、哼、吶”等,女性由于感情較為細(xì)膩所使用的嘆詞相對(duì)較多,包括“呵、哦、嘿、哎、咯、哇、哼、喔、喲、吶、咧”等。網(wǎng)絡(luò)語(yǔ)言的口語(yǔ)化程度極高,所以在網(wǎng)絡(luò)語(yǔ)言中嘆詞的出現(xiàn)頻率是相對(duì)較高的。
不同的字具有不同甚至是差異極大的構(gòu)詞能力,我們統(tǒng)計(jì)了覆蓋率達(dá)到90%的高頻字(男性為1005字種,女性為953字種)所構(gòu)成的詞語(yǔ)數(shù),按照構(gòu)詞數(shù)的多少進(jìn)行了排序。

表14 構(gòu)詞能力最強(qiáng)的20個(gè)字
表14中我們列出了構(gòu)詞數(shù)在前20位的字所構(gòu)成的詞種數(shù)以及所出現(xiàn)的總頻次,其中男性構(gòu)詞能力最強(qiáng)的字為“大”,女性為“年”,所構(gòu)成的詞種數(shù)都在兩萬(wàn)個(gè)以上,即使是排在第20位的字,它們所構(gòu)成的詞種數(shù)也超過(guò)了八千個(gè);男性這20個(gè)字的平均構(gòu)詞能力為13699詞/字種,略高于女性的13112詞/字種;而且從表14中我們可以看到,“年、月、日”這三個(gè)與時(shí)間有關(guān)的字的構(gòu)詞能力在男女性中都幾乎排在最前面的位置。
在對(duì)上述構(gòu)詞能力最強(qiáng)的20個(gè)字的構(gòu)詞數(shù)和出現(xiàn)頻次進(jìn)行概括的基礎(chǔ)上,我們將男女性的情況進(jìn)行了對(duì)比。

表15 構(gòu)詞能力最強(qiáng)的20個(gè)字中男女共用字與獨(dú)用字
從表15中我們可以進(jìn)一步發(fā)現(xiàn),構(gòu)詞能力最強(qiáng)的這20個(gè)字所構(gòu)成的詞種數(shù)幾乎占了總詞種數(shù)的40%左右;男性構(gòu)詞能力最強(qiáng)的20個(gè)字所構(gòu)成的詞語(yǔ)總數(shù)為273978個(gè),占總詞種數(shù)631446的43.39%;而女性總詞種數(shù)為656339個(gè),其中構(gòu)詞能力最強(qiáng)的20個(gè)字所構(gòu)成的262231個(gè)詞語(yǔ)就占了39.95%;我們將男女性之間的這20個(gè)字進(jìn)行了對(duì)比,其中男女共用字為16個(gè),而且都排在這20位中較前的位置,男女獨(dú)用字各為4個(gè),排在這20位中相對(duì)靠后的位置。這說(shuō)明構(gòu)詞能力最強(qiáng)的字所具有的極強(qiáng)的構(gòu)詞能力并不具有明顯的性別差異。

表16 構(gòu)詞能力最強(qiáng)的20個(gè)字中的男女共用字及構(gòu)詞數(shù)差值
表16中我們又將構(gòu)詞能力最強(qiáng)的20個(gè)字中的16個(gè)男女共用字的構(gòu)詞情況進(jìn)行了一一比對(duì),計(jì)算得出了每個(gè)共用字的男女構(gòu)詞數(shù)差值,并按照男女構(gòu)詞差值的絕對(duì)值大小進(jìn)行了排序。
從表16中的數(shù)據(jù)可以看到,前20個(gè)構(gòu)詞能力最強(qiáng)的字中,男女性有16個(gè)共用字,但這16個(gè)共用字的構(gòu)詞能力在男女性博客中的表現(xiàn)并不完全相同。其中,男女構(gòu)詞數(shù)差值最大的字是“小”,其在男性中的構(gòu)詞數(shù)比女性多了6240個(gè),“的”字的男性構(gòu)詞數(shù)比女性多5456個(gè),男女構(gòu)詞數(shù)差值位于第二位,“和”“國(guó)”等字的男女構(gòu)詞數(shù)差值依次減少,而“海”字的男女構(gòu)詞數(shù)差值是這16個(gè)共用字中最小的,男性構(gòu)詞數(shù)比女性多349個(gè)。根據(jù)表16中的數(shù)據(jù)生成下圖4,可以更直觀地將這些共用字在男女性中構(gòu)詞能力的不同表現(xiàn)出來(lái)。

圖4 16個(gè)共用字的男女構(gòu)詞數(shù)對(duì)比曲線(xiàn)圖
通過(guò)上述統(tǒng)計(jì)分析發(fā)現(xiàn),男女博客在漢字的使用上既有一定的共性,但同時(shí)又有較為明顯的性別差異。具體表現(xiàn)為:第一,男性博客使用的總字種數(shù)明顯多于女性,但是在總字次上女性則遠(yuǎn)遠(yuǎn)高于男性,男性在用字上相對(duì)來(lái)說(shuō)較為分散,而女性則較為集中,較為頻繁地使用相對(duì)較少的字種。第二,男女在高頻字的使用上具有一定的一致性;而就低頻字的使用來(lái)說(shuō),男女低頻字所占比重都較大,但男性低頻字的字種數(shù)及所占比例遠(yuǎn)遠(yuǎn)多于女性。第三,男女獨(dú)用字的比例隨著調(diào)查范圍的擴(kuò)大大致處于逐步降低的趨勢(shì)。第四,男女博客中使用的漢字包含一定比例的非常用字,且女性非常用字的使用比例高于男性。第五,在構(gòu)詞能力最強(qiáng)的前20個(gè)字的構(gòu)詞能力上,男女性具有較為明顯的一致性,但與各自關(guān)注熱點(diǎn)有關(guān)的字的構(gòu)詞能力相對(duì)會(huì)更強(qiáng)。
注釋
①史耕山、張尚蓮:《國(guó)內(nèi)語(yǔ)言性別差異研究概述》,《外語(yǔ)教學(xué)》2006年第3期。
②楊信彰:《語(yǔ)言與性別的多視角研究》,《當(dāng)代外語(yǔ)研究》2010年第1期。
責(zé)任編輯張靜
2010-11-20
國(guó)家社會(huì)科學(xué)基金項(xiàng)目“基于網(wǎng)絡(luò)媒體監(jiān)測(cè)語(yǔ)料庫(kù)(漢語(yǔ))的性別語(yǔ)言比較研究”(09BYY018)