關鍵詞: 網絡媒體監測語料庫;獨詞句;性別差異
摘 要: 以國家語言資源監測與研究中心(網絡媒體分中心)建立的博客文本語料庫為研究對象,對博客中在獨詞句使用上的性別差異作統計調查與分析。通過對普通名詞、動詞、形容詞、嘆詞、代詞等15個不同詞類或不同性質的成分所構成的獨詞句的對比研究發現,男女性在博客中獨詞句的使用上表現出了一系列的共性與個性特征。
中圖分類號: H109.4 文獻標志碼: A 文章編號: 10012435(2011)02020305
Sexual Difference on Use of One-word Sentence Based on Network Media Monitoring Corpus
LI Xiangnong, TIAN Yuan, WANG Yubo (Center for Language and Language Education, Huazhong Normal University, Wuhan 430079, China)
Key words: Network Media Monitoring Corpora; one-word sentence; sexual difference
Abstract: Based on the corpora of blogs of male and female bloggers, established by the National Language Resource Monitoring Research Center (Network Media), explore the sexual differences on the use of one-word sentence. Through statistics and analysis of 15 parts of speech, such as common nouns, verbs, adjectives, interjections, pronouns, etc, and comparative studies of one-word sentence composed by different compositions, conclude that there are many similarities and particular characteristics between the males and females.
在20世紀60年代中期社會語言學的興起和西方女權主義運動的帶動下,語言學家們展開了有關語言使用中性別差異的研究。[1]“國內語言性別差異研究在30年中經歷了一個從宏觀到微觀,從靜態到動態,從現象羅列到理論升華、從理論引進到具體應用的發展過程”[2],雖然取得了一定的成果,但與西方學界相比仍有明顯的差距,其中以中國大陸為樣本的實證研究更是鳳毛麟角。與其他領域的研究相比仍很匱乏。[1]
學界關于獨詞句的研究更是少見。趙元任(1968)就認為“句子可以從結構上分為整句和零句(獨詞句)。”“ 零句最常見于對話以及說話和行為參雜的場合。”[3]42“在日常生活中, 零句占優勢。”“從語用的角度看, 零句比整句更重要,對我們了解句子的結構也很有幫助。”[3]51
本文以國家語言資源監測與研究中心(網絡媒體分中心)建立在2005-2006年spaces.live.com;blog.sina.com.cn;blog.sohu.com;blogcn.com;bokee.com;blog.hexun.com;blogbus.com等7個知名中文博客網站的部分網頁,共計4 938 041篇,1 937 732982字符次的文本語料為基礎,提取出具有性別標識的博客文本共計2 275 826篇,606 571 001字符次(其中男性作者54 982個,文章773 777篇;女性作者77 007個,文章1 502 049篇)的博客語料庫為樣本作為研究對象,在對語料進行詞性標注的基礎上,將博客語料中男性和女性作者所使用的獨詞
句提取出來,得到了一系列的數據,通過對數據的統計分析發現,男性和女性在博客中對獨詞句的使用呈現出了一系列特征。下面從不同角度對男女性在使用獨詞句時的特點進行分析。
1 總體情況
如表1所示,男性獨詞句句總數為2 877 591句,女性為2 854 148句,男性多于女性23 443,相對于龐大的獨詞句句總數而言,差量僅占女性獨詞句句總數的0.81%,男性和女性在獨詞句句總數上的差異并不明顯。但通過對構成獨詞句的不同詞類的分析,男性和女性在獨詞句內部存在著較為顯著的差異。
2 不同詞類構成的獨詞句
我們將獨詞句按照構成成分所屬的詞類[注:此處的“詞類”準確地說應該指不同性質的成分,其中除了包括傳統意義上的名詞、動詞等,還將成語、縮略語等與傳統意義上的詞類并列起來,為了行文方便,我們統稱“詞類”。]進行分類,分別提取了男性和女性使用普通名詞、動詞、形容詞等15種詞類所構成的獨詞句。
表2列出了男性使用15種詞類所構成的獨詞句的句總數,其中構成句總數最多的兩個詞類是普通名詞和動詞,句總數分別達到了726 884和572 540,而句總數最少的兩個詞類是縮略語和機構名,句總數分別只有27 667和23 679,排在第一位的普通名詞的句總數是最后一位的機構名的30.70倍。總的來說,除了句總數最多的達到50萬以上的2個詞類之外,超過20萬的是人名和嘆詞2個詞類,10萬到20萬之間的是時間名詞、形容詞、成語、習語、代詞、地點名詞和擬聲詞7個詞類,低于10萬的是動名詞、專有名詞、縮略語和機構名4個詞類,其中前3位之間在句總數上的跨度較大,其余一些詞類之間的跨度相對較小,這種趨勢從圖2中可以清楚地看到。
圖1 男性不同詞類構成的獨詞句句總數分布
同時,我們也對女性獨詞句所使用詞類的情況進行了統計分析。和男性一樣,構成獨詞句最多的詞類是普通名詞和動詞,句總數分別達到了647 081和587 214;句總數最少的則是專有名詞和機構名,分別只有28 761和11 655;另外句總數超過20萬的兩個詞類是嘆詞和形容詞,相對于男性來說,女性使用了相對較多的形容詞構成獨詞句;句總數在10萬和20萬之間的詞類相比男性的7個詞類少了地點名詞;而句總數低于10萬的詞類則相對多了地點名詞。對照圖1和圖2發現,女性和男性在獨詞句句總數的分布上表現出了相似的特點。具體數據見表3。
3 男女性不同詞類獨詞句使用總體情況的對比分析
為了對比男性和女性在不同詞類所構成的獨詞句使用上的總體情況,表4將男性和女性由同一詞類所構成的獨詞句句總數進行了比對,計算出了同一詞類構成的句總數差數d、樣本和∑、平均值X和方差S2。
差數d和所比較的總體呈正態分布是t檢驗的前提條件,因此我們首先用SPSS中的非參數分析方法Kolmogorov-Smirnov檢驗(下簡稱K-S檢驗)和正態概率圖的Q-Q法對上表中的數據進行雙重正態性檢驗。
表5是運用SPSS中非參數分析方法K-S檢驗對普通名詞、動詞等15個詞類所構成的獨詞句的男性句總數、女性句總數和男女句總數差數d三組數據進行的檢驗結果,從中可以看到,三組數據的p值分別為
0.189、0.210和0.805,都大于0.05,因此上述三組數據都呈正態分布。
由于男女兩組數據是配對數據組成,因此要對其進行正態驗證,只需驗證他們的差值d是否符合正態分布。我們運用SPSS中正態概率圖的Q-Q法對男女句總數差數d進行了正態性檢驗。圖3中的散點基本上是聚集在固定直線的周圍,因而可以認為數據資料近似服從正態分布。
上述正態性檢驗結果證明上述15個詞類所構成的獨詞句數據為正態性分布,滿足進行成對文本t檢驗的前提條件。
根據表4中的數據,我們進一步進行了t檢驗:成對雙樣本均值分析
設顯著水平為0.05,t分布表中臨界值為2.145(df=14)
n=15,df=n-1=14, t=dSdn=0.217
由于t=0.127<t0.05(14)=2.145,說明就上述詞類所構成的獨詞句整體來說,男性和女性在這些詞類的獨詞句句總數上的差異不明顯。
4 男女性不同詞類獨詞句的使用差異
通過上文中的統計分析,可以發現,男女性之間在獨詞句的整體使用上存在著一定的共性。但男性和女性在不同詞類構成的獨詞句使用上表現出了明顯的差異。
表6列舉出了普通名詞、動詞、人名、嘆詞、時間名詞、形容詞、成語、習語、代詞、地點名詞、擬聲詞、動名詞、專有名詞、縮略語和機構名等15種詞類所構成的獨詞句的句總數,其中普通名詞和動詞是構成獨詞句的重要組成部分,其句總數遠遠大于其他詞類,這是男性和女性的一個共性;具體到同一詞類,男性和女性由同一詞類構成的句總數差異較大,在上表差量和比例兩欄中,正數代表男性多于女性的量及差量所占女性總量的比例,負數代表男性少于女性的量及差量所占男性總量的比例。
從表6可以看到,男性和女性在同一詞類所構成的獨詞句的句總數上存在著較大差異,我們將男女性同一詞類的獨詞句句總數單獨提取出來,得出圖4,從中可以清楚地看到:在比較的這15種詞類中,就句總數之間的差異量的大小來看,男性和女性嘆詞和擬聲詞的句總數上差異最大,女性遠遠多于男性;而男性在由普通名詞和人名所構成的獨詞句句總數上較為明顯地多于女性;除此之外,男性和女性在其他詞類構成的獨詞句句總數上也存在著或多或少的差異。
有關男性和女性之間不同詞類所構成的獨詞句在數量上的差異的特點,我們通過其他對比方法也得到了印證。表7將不同詞類所構成的句總數和男性或女性獨詞句的總量相除,得到了不同詞類句總數所占男性或女性獨詞句總數的百分比,并利用這些比值生成了圖5,從圖4和圖5,我們得到了反映出相同特點的曲線圖。另外,圖6和圖7形象地展示出了普通名詞和動詞所構成的獨詞句在男性和女性中的主導地位,二者共占了將近50%,而其他13個詞類則共占了50%多一點。
但是,僅僅從句總數之間的差異量的大小來判斷男性和女性在獨詞句使用上的差異是片面的,因為有的詞類所構成的獨詞句句總數非常大,男女之間的差異量的數字也大,但這個差異量相對這個詞類所構成的句總數而言所占比例卻很小;因此,在表4中我們不僅列出了男性和女性在同一詞類所構成的句總數上的差量,并且計算出了這個差量相對于男性或女性這同一詞類的句總數所占的百分比,即差量比例,我們將這個差量比例與差異度聯系起來,差量比例越大,差異度越大;反之,差異度越小。
差量比例=|男性某詞類句總數-女性某詞類句總數|男女性某詞類獨詞相對減小的句總數
我們將男性和女性不同詞類所構成的獨詞句的差量比例單獨列出,并按倒序的方式排列,可以明顯地看出男性和女性在使用某一詞類構成獨詞句時的差異度。
從表8可以看到,總體來說,男性和女性獨詞句在不同詞類上存在著顯著差異,其中差異度較大的不是我們上面提到的男女性之間差量最大的擬聲詞和嘆詞或者句總數最大的普通名詞和動詞,而是句總數最小的詞類機構名;其中差量比例最大的達到了103.17%,最小的則不到3%;具體來看,在機構名所構成的獨詞句的數量上,男女之間的差異最大,其次是差異比例超過了40%的擬聲詞、地點名詞、嘆詞和專有名詞,其他詞類男女之間的差異比例從低于10%到百分之三十幾不等。這種男性和女性在不同詞類上的差異度情況通過下面的曲線圖可以明顯地看到,差異度跨度很大,差異度大的超過了100%,小的則只有百分之二點幾,而且差量比例低于20%的詞類有9個,占了60%,超過了半數。
5 結論
男性和女性在獨詞句的使用上表現出了相似的特點。首先,獨詞句句總數的差異不明顯;其次,按照詞類來分的話,普通名詞和動詞所構成的獨詞句都占據了前兩名的位置,并且所構成的句總數遠遠大于其他詞類;第三,按照不同詞類構成的句總數的量來看,15種詞類中除了地點名詞之外,男性和女性之間在句總數的分布上基本表現出了相似的特點。
同時,男性和女性在使用不同詞類構成獨詞句時又各具特點:首先,同一詞類所構成的獨詞句句總數及所占比例男性和女性各不相同;其次,男性和女性在使用不同詞類構成獨詞句時,詞類與詞類之間句總數的差距非常大,而且這種差距的大小并不完全與某一詞類所構成句總數的大小一一對應;第三,男性和女性在使用不同詞類構成的獨詞句時表現出了不同的差異度,根據我們對差量比例的計算,得出了差異度曲線圖,其中男女性之間差異度最大的是機構名所構成的獨詞句,差異度最小的是動詞構成的獨詞句。
參考文獻:
[1] 周浩,趙光年. 近十年國內語言性別差異研究概述[J]. 當代教育論壇,2009,(12):26-27.
[2] 史耕山,張尚蓮. 國內語言性別差異研究概述[J]. 外語教學, 2006,(3):24-27.
[3] Chao, Yuen Ren. A Grammar of Spoken Chinese[M]. Berkeley Los Angeles: University of California Press, 1968 .(又參考:呂叔湘節譯本《漢語口語語法》,北京:商務印書館,1979)
責任編輯:鳳文學
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文