劉磊
(南京師范大學 文學院,江蘇 南京 210097)
言 語 風 格 定 量 分 析 研 究
——以《白鹿原》、《平凡的世界》、《秦腔》為例
劉磊
(南京師范大學 文學院,江蘇 南京 210097)
本文通過對《白鹿原》、《平凡的世界》、《秦腔》進行抽樣、切分、標注,建立一個語料庫。然后盡量多得從詞層面、句層面、標點層面選取計量特征,對三部作品的言語風格進行分析,并得出了上述三個層面中的區別性計量特征。
言語風格 定量分析 計量特征
言語風格的定量分析,肇始于20世紀30年代的西方文體學界,這種研究最初是通過手工計算來實現的。直到二戰后,計算機的發明使人們可以通過機器更高效和更大規模地對文本進行定量分析。漢語作品的言語風格定量分析,最早始于20世紀七八十年代,和西方采用定量分析研究 《圣經》著作權和柏拉圖等古典作家著作年代類似,漢語界用詞頻統計等方法來考證《紅樓夢》的作者歸屬問題。此后這種基于統計的定量分析方法不斷發展,并獲得了漢語風格學界、漢語語體學界、計算語言學界的認同,不同學界分別從不同角度對這種方法進行了理論上和實踐上的發展,乃至有學者認為其已經發展成為一門學科——計算風格學(Computational Stylistics)??梢哉f,以語言結果的計量特征表示文本的方法加強了語言風格對比及作家判定研究的可解釋性,具有較高的理論和應用價值。以語料庫和統計方法進行語言結構特征計量研究是漢語語言風格描寫研究及作家判定研究的重要方法。
對于中國現當代作家作品的言語風格定量分析,有不少學者展開過研究。錢峰、陳光磊(1981、1983、1987)較早地提出了建立“計算風格學”建議,并嘗試性地對巴金和倪海曙的語言風格特征進行了對比研究,在隨后又提出并完善了一套完整的算法。王景丹(2003)從句頻入手,對曹禺、郭沫若等8位劇作家的風格進行了分析,得出了這些作家在句類、句子長短、句子整散和關聯詞等方面的不同。吳禮權(2003、2004)先后對“簡約”與“繁豐”和“剛健”與“柔婉”的修辭特征進行了定量統計對比分析,得出了一些有益的結論。陳芯瑩、李雯雯、王燕(2012)對《三重門》和《夢里花落知多少》進行了定量對比研究,總結出了句長、型例比、名詞比例等7個語言結構特征,并以此作為文本特征,準確判定了兩位未知作家文本的作者。
通過以上分析不難看出,從研究內容上看,對于現當代作家作品分析主要集中在巴金、曹禺等現代文學大家和郭敬明、韓寒等當代當紅作家上,對當代名家涉及較少。從研究方法上,計量特征選取還以先驗為主,數量較少。因此,本文選取三位年齡相仿的陜西籍作家的代表作,陳忠實(1942年生、陜西西安人)的《白鹿原》,路遙(1949年生、陜西榆林人)的《平凡的世界》,賈平凹(1952年生、陜西商洛人)《秦腔》,盡量多地選取計量特征,對三者作品言語風格進行分析,以期豐富言語風格定量分析的研究成果。
2.1 計量特征選取
通過對前人研究的綜合分析,結合作品實際情況,根據可操作性原則、全面原則、可靠性原則。本文選取以下計量特征:
一、詞層面
詞類比例=各種詞類所占總詞數比例。
特殊詞,比如方位詞、時間詞、“把”、“被”等。
詞長=字數(不含標點)/詞數;盡管效果不明顯,但本著全面原則還是選此標準。
詞型,文本中出現詞的種數,反映作品詞匯豐富程度。
型例比=詞數/詞型數;反映作家作品詞匯使用情況。
單現詞比例=文本中僅出現一次的詞/總次數。
二、句層面
句長=字數(不含標點)/句數;句長統計以句號、嘆號、問好、省略號為標志。
小句長=字數(不含標點)/句數;小句本位具有較強解釋性,因此本文選取此標準。以逗號、分號為標志。
陳述句比例=陳述句數量/總句數。
疑問句比例=疑問句數量/總句數。
感嘆句比例=感嘆句數量/總句數。
三、標點層面
標點符號比例=標點符號數量/字數。
2.2 實驗過程
(1)對《白鹿原》、《平凡的世界》、《秦腔》抽樣,得到三個100k左右(約4-5萬字)的文本,下文用B代表《白鹿原》樣本、P代表《平凡的世界》樣本,Q代表《秦腔》樣本。
(2)利用ICTCLAS2013分詞系統進行分詞,分詞粒度為小,詞性標注集為ICTPOS二級,分詞方式為自適應分詞。然后進行手工修改,建立一個語料庫。然后利用PHP腳本、Excel進行詞類、特定詞、標點的統計,利用超大字符集詞頻統計和Excel進行詞頻統計。
(3)數據分析,根據統計的數據,詳細分析不同作品的各個計量特征的異同,推斷作家的作品風格,歸納區別性計量特征。
3.1 詞層面
3.1.1 詞類

表3.1 詞類統計比較
名詞、動詞使用,三作家基本相同,都是25%左右,差別不大。具體為名詞:B>Q>P,動詞:Q>B>P。由這里可以推測,賈平凹用動詞最多,而路遙最少。
形容詞、區別詞、狀態詞的使用,總體上看形容詞所占比例最大,約為3.5%-5%,B≈P≈5%,比Q多40%左右。區別詞次之,約為0.3%-0.6%,B>P>Q,B比Q多117.57%,差異顯著。最小的是狀態詞,約為0.2%-0.3%,B>P>Q,B比Q多105.25%。這三種具有修飾性特點的詞類,都是B>P>Q,而且B與P差異很顯著。由此可見,就所選樣本而言,陳忠實可能比賈平凹更喜歡用修飾詞,文風較為華麗。
代詞上看,P≈Q>B,陳忠實用代詞的比例比較低,路、賈則大體相同。
數詞、量詞上看,Q>B>P,路遙用數詞最多,說明其在數量化表達上可能更偏向于精確化。
副詞總體上相差不大,Q>P>B,由于副詞多修飾動詞或者形容詞,因此和動詞形容詞比例可能有相關關系。
介詞上,總體差異不大,P>B>Q;助詞上,差別也不大,B> P>Q。連詞上,也是P>B>Q,P與B差別較小,P與Q差別較大,P比Q多近一倍,這說明,路遙用連詞最多,而賈平凹最少,從一方面說明了路遙的文風更書面化,有可能在句長上比較長,而賈平凹則多用單句、短句,少用長句、復句。
嘆詞上,P≈Q>B,且差異較大,P比B多300%左右,由此可見陳忠實很少用嘆詞,而路、賈則使用較多。語氣詞上,Q> P>B,賈平凹使用語氣詞最多,陳忠實最少。
擬聲詞上,Q>B>P,陳、賈使用比例上類似,而路則很少用擬聲詞。通過這些可以看出,賈平凹的作品可能口語化比較明顯,路遙使用擬聲詞很少,陳忠實使用嘆詞很少。
3.1.2 特殊詞

表3.2 特殊詞統計比較
時間詞、處所詞、方位詞上,三者總體上相差不大,值得注意的是這三個標準都是P所占比重最大,由此可見,路遙在其作品中使用了較多的時間詞、處所詞、方位詞,由此可以看出其作品可能敘事更加完整,時間、地點等因素交代的較多。
“把”和“被”的使用上,P比例都是最少的,可見路遙可能用處置式的句子比較少。另一個需要注意的地方是,B“被”使用頻率較高,可見陳忠實被字句使用較多。
“的”“地”“得”的使用上,有兩個值得注意的地方。一是總體來看,P使用最少,特別是“得”,可見路遙較少使用補語。二是陳忠實使用“的”最多,而賈平凹使用“得”最多,可見陳多修飾,文風較為華麗,而賈使用補語較多。
3.1.3 其他統計標準

表3.3 詞長、詞型、型例比、單現詞統計比較
詞長上,差距不大,B>P>Q,陳忠實作品詞長最長,賈平凹作品則詞長最短。
詞型和型例比上看,B詞型最多,P次之,Q最少,與之相對,B型例比最小,P次之,Q最大。由此可見,陳忠實作品詞匯更為豐富,路遙次之,賈平凹作品詞匯最不豐富。
單現詞出現比例,B>P>Q,單現詞是另—個可以表示語言中詞匯豐富程度的指標,單現詞越多語言中的詞匯豐富程度越高。而此處的數據與型例比顯示的結果相符。
3.2 句層面

表3.4 句層面計量特征統計比較
句長上看,P(37.0511)>B(31.5693)>Q(22.2046),小句句長也是P(30.2646)>B(19.8358)>Q(12.7605),且差異較大,路遙的平均句長是最長的,達到37字每句,小句也有30字每句。賈平凹則最短,平均句長只有22字左右,小句長則只有不到13個字。陳忠實則處于二者之間。根據風格學理論,長句一般是較為書面化的表達,可能給人以嚴謹、深沉感覺;而短句則是較為口語化,給人活潑、輕快感覺。由此可以推斷,路遙的作品更偏書面化,給人以凝重感;賈平凹的作品可能更加口語化,給人以輕快感。
句子類型來看,B、P差別較小,Q和另兩者差別較大。陳述句比例上,B、P都在80%以上,而Q只有不到50%;疑問句和感嘆句上,B、P都較少,在5%到11%之間,而Q在20%以上。由此可見,陳忠實、路遙的作品有較強第三人稱敘述性,而賈平凹的作品可能有更多的對話,主觀表達比較多。
3.3 標點層面

表3.5 標點統計比較
從標點總量上來看,Q>P>B,B同P之間差異較小,與Q差異較大。對比來看,B使用分號相對最多,分號在組織語言方面也是較為書面化體現,因此陳忠實的作品應該組織也較為嚴密,排比較多。P使用省略號和破折號最多,這也說明路遙在表達上喜歡用這種“歇后語式”表達,給讀者思考空間較大。其他標點都是Q使用最多,其中與其他兩人差異較大的是:問號,疑問句標志,上文已經分析過。嘆號,感嘆句標志,已分析。逗號,小句標志,已分析。冒號、引號,引號比例正好是冒號二倍,這正是話語標志,說明賈平凹的確對話較多。值得注意的是,在本文所選樣本中,賈平凹沒用破折號。
3.4 討論
綜上可見,陳忠實作品言語最大特點是詞長較長,詞型較多,形容詞比例最大,陳述句比例最大,標點比例最小,由此反映出其風格特點是更加書面化,詞匯豐富,風格也較為“華麗”;路遙作品最大的特點是時間詞、處所詞、方位詞比例較大,“得”比例最小,句長、小句長較長,由此反映出其風格特點是更加注重場景描寫,喜用長句,補語較少,總體作品風格凝重;賈平凹作品最大特點是形容詞等修飾詞比例較小,連詞比例較小,數量詞比例較小,連詞、助詞比例較小,語氣詞、擬聲詞比例較大,詞長最短、句長最短、詞型最少,標點比重大,不用破折號,由此反映出其作品特點是口語化特征明顯,文風活潑。
由此可以選擇出具有區別性的計量特征:嘆詞(B明顯偏少),引號(B明顯偏少,Q明顯偏多),被(B明顯偏多),分號(B明顯偏多,Q明顯偏少),括號、擬聲詞(P明顯偏少),冒號(P明顯偏少,Q比例明顯偏大),感嘆句、疑問句(Q明顯偏多),得(Q明顯偏多),頓號、嘆號、問號、(Q明顯偏多),破折號Q無。
由此我們可以得到下表:

表3.6 綜合分析比較
基于統計的言語風格比較及作者判定研究是一項復雜的工作,發展至今雖然還有許多問題,但我們也欣喜地看到這項研究正在快速發展著,本文的實踐也是如此。雖然存在著一些這樣或那樣的問題,但我們想強調是這種研究方法,即盡量多的統計出可以統計的計量特征,然后進行數據分析、挖掘,用數據說話,找到了一些在較多依靠先驗定性分析情況下難以發現的、具有區別性作用的計量特征。
通過對言語風格的定量分析,我們發現,作品風格上:陳忠實的《白鹿原》特點是詞長較長,詞型較多,形容詞比例最大,標點比例最小,由此反映出其風格特點是更加書面化,詞匯豐富,風格也較為“華麗”;路遙的《平凡的世界》最大的特點是時間詞、處所詞、方位詞比例較大,“得”比例最小,句長、小句長較長,由此反映出其風格特點是更加注重場景描寫,喜用長句,總體作品風格凝重;賈平凹《秦腔》最大特點是形容詞等修飾詞比例較小,語氣詞、疑問句、感嘆句、冒號、引號、“得”字比例明顯偏大,詞長最短,詞型最不豐富,陳述句、分號比例明顯偏小,不用破折號,由此反映出其作品特點是口語化特征明顯,文風活潑。我們總結出的區別性計量特征為:詞層面為嘆詞、擬聲詞、語氣、“被”字、“得”字、單現詞、詞長、詞型;句層面:句類、句長;標點層面:冒號、省略號、分號、破折號等。
[1]曹聰孫.言語風格統計學試說[J].天津師范大學學報,1988(4).
[2]曾毅平,朱曉文.計算方法在漢語風格學研究中的應用[J].福建師范大學學報.2006(1).
[3]陳芯瑩,李雯雯,王燕.計量特征在語言風格比較及作家判定中的應用——以韓寒《三重門》與郭敬明《夢里花落知多少》為例[J].計算機工程與應用,2012(3).
[4]丁金國.基于語料庫的語體風格研究——兼論量化與質化的關系[J].煙臺大學學報,2009(2).
[5]錢鋒,陳光磊.關于發展漢語計算風格學的獻議[A].上海:復旦大學出版社,1983.
[6]錢鋒,陳光磊.關于建立語體分類數學模型的構想.語體論.合肥:安徽教育出版社,1987:63-74.
[7]錢鋒,陳光磊.關于建立語體分類數學模型的構想[A].合肥:安徽教育出版社,1987.
[8]錢鋒,陳光磊.文學·數學·計算機[J].自然雜志,1981(06).
[9]王景丹.從句頻分析看八位劇作家的風格異同[J].修辭學習,2003(04).
[10]吳禮權.從統計分析看“簡約”與“繁豐”的修辭特征[J].修辭學習,2003(2).
[11]武曉春,黃萱菁,吳立德.基于語義分析的作者身份識別方法研究[J].中文信息學報,2006(6).
[12]蕭申生.G_Herdan的言語風格統計學[J].語言研究,1982(2).