中國石油大學(華東)理學院 楊粟森 彭 旭 趙映誠
基于數理統計的《紅樓夢》前80回與后40回相關性的多指標綜合分析
中國石油大學(華東)理學院 楊粟森 彭 旭 趙映誠
一直以來,紅樓夢的作者是否唯一是一個很受爭議的問題。本文在數理統計的基礎上對《紅樓夢》的前80回與后40回以及把前80回分成兩個40回的相關性作了比較分析。先利用U檢驗分別從多個指標進行相關性分析,判斷結果不盡相同。然后利用多指標綜合的層次分析法把多個指標的計算結果結合起來判斷。統計結果表明:《紅樓夢》的前80回和后40回相關性弱,前80回的兩組相關性很強,因此,可以確定前80回和后40回非同一人所寫。
相關性;U檢驗;p-值;多指標;層次分析模型
《紅樓夢》是我國四大名著之首,對于其作者是否唯一也有爭論,把統計學的定量分析方法引入紅學研究是很自然的。
華裔學者陳炳藻教授在美國威斯康星大學召開的“首屆國際《紅樓夢》研討會”上曾發表了通過統計學方法算出相關用詞的相關程度,發現前80回與后40回均為曹雪芹一人所作。我國華東師范大學陳大康教授得出了迥異的結論,它將紅樓夢分成3組,通過分析各組之間用詞句式,做出推論:后40回非曹雪芹所作(但含有少量殘稿)。復旦大學李賢平[1]先生在《復旦學報》 上發表了論文《〈紅樓夢〉 成書新說》主要使用了模式識別和探索性數據分析的方法, 從《紅樓夢》 中抽取了47個虛字, 統計其在各回中的使用頻率, 在此基礎上用統計學方法探索各回寫作風格的接近程度, 并用聚類方法對120回進行了分析。提出了新觀點:《紅樓夢》前80回是曹雪芹根據《石頭記》增刪而成;而后40回則是曹家親友搜集整理原稿加工補寫而成。東南大學韋博成[2]通過運用各回合對于情景的關注程度,分析前80回和后40回合的不同。2009年張運良[3]等利用句類分析結合近鄰算法的文本分類方法對《紅樓夢》作者問題進行了研究,文章提取《紅樓夢》中的各種句類作為特征,并且將回分為3組,每組40回,選擇2組作為訓練集,另一組作為測試集,進行了兩組實驗,從實驗結果得出前80回與后40回為不同作者所寫的結論。
一個作者的筆風或一篇文章的文筆特征是多因素綜合的結果。比如,詞的用法,句子的長短,人物稱謂,以及作者所處的社會背景等等。單純從某一方面考慮難免會走向片面。考慮到在確定作者是否唯一時,這些因素往往難以量化。本文從介詞、副詞、顏色、人名、情緒詞五種能夠很大程度上反映作者寫作風格的指標出發,對它們分別進行前八十回和后四十回的相關性分析判斷,由于計算出來的結果不盡相同,根據一些指標所判斷出來的相關性為相關,而另外一些則判斷出來無關,所以我們利用p-值和層次分析法[4]將五種指標的判斷結果綜合起來,從而得出《紅樓夢》前80回和后40回相關性不強的分析結果。并使用同樣方法在對前80回進行相關性分析判斷,發現前八十回相關性很強,這就證明了檢驗方法的科學性。
對《紅樓夢》一百二十回的每一回的介詞(以、為、與、于)、副詞(很、頗、十分、都)、顏色(紅、黃、藍、綠)、人名(寶玉、寶釵、黛玉、襲人)、情緒詞(哭、笑、喜、悲)出現頻數的進行統計。(表2.1)

表2.1 介詞、副詞、顏色、人名、情緒詞統計數據
2.1 U檢驗模型的理論
根據數理統計[5]上,對于總體分布未知時的樣本,當樣本數足夠大時,仍有:

其中,Xa為X的平均值,Ya為Y的平均值,n1為X的元素個數,n2為Y的元素數,s1^2、s2^2為X和Y的方差。
2.2 《紅樓夢》前八十回和后四十回、前八十回的兩個四十回的U檢驗分析
將前八十回的數據設為X1,后四十回的數據設為Y1;前八十回中的前四十回的數據設為X2,前八十回中的后四十回的數據設為Y2。針對這五種指標因素分別利用U檢驗進行均值差的顯著性檢驗:H0: u1=u2;H1:u1≠u2。
分別對五種因素進行五次顯著性檢驗,根據式3-1得到五組u值和p值。結果見表3.1。

表3.1 五種因素顯著性檢驗
3.1 建立遞階層次結構
將判斷紅樓夢的作者是否唯一這個問題分解為三個層次,最上層為目標層,即作者是否唯一,最下層為方案層,有兩種選擇,有相關和無關,中間為準則層,有介詞、副詞、顏色、人名、情緒等五個準則。各層間的聯系用相連的直線表示。

圖4.1 紅樓夢的作者是否唯一的層次結構圖
3.2 構造準則層對目標層的比較判斷矩陣(正互反矩陣)
對各指標之間進行兩兩對比之后,根據各指標對相關性影響程度,按1—9尺度排定各評價指標的相對比重,依次構造出介詞、副詞、顏色、人名和情緒的判斷矩陣A。
A=[1,3,1/3,4,1/4;1/3,1,1/4,4,1/5;3,4,1,8,1/2;1/4,1/4,1/8,1,1/9;4, 5,2,9,1];
其中,A=(aij)n×n,aij>0,aji=1/aij,用Ci(i=1,2,3,4,5)依次表示介詞、副詞、顏色、人名、情緒等五個準則。aij表示Ci和Cj對于目標的重要性之比。
3.3 計算權向量并做一致性檢驗
對于給出的A可以計算出,λ= 5.203,歸一化的特征向量為=(0.141,0.0823,0.2967,0.03390,0.4461)T,由于成對比較陣通常不是一致陣,需要進行一致性檢驗。一致性指標:

當n=5時,隨機一致性指標RI=1.12,最后計算一致性指標CI與隨機一致性指標RI之比,即:CR=CI/RI=0.045<0.1,因此可以認為A的不一致程度在容許范圍之內,可用其特征向量作為權向量。即權向量為:
ω=(0.141,0.0823,0.2967,0.03390,0.4461)T
記作:ω(2)=(ω1(2),ω2(2),…ω5(2))
3.4 構造方案層對準則層的比較判斷矩陣
前面已經得到了第二層(準則層)對第1層(目標層)的的權向量,接下來要構造第3層對第2層的每一準則的成對比較陣。設相關和無關權重的比值為bij,通過計算每個因素相關性得到的P值,將P值與顯著性水平α=0.05比較。P值大于α的因素的bij>1,并且P值越大,bij越大;P值小于α的因素的bij<1,并且P值越小,bij越小;構造第三層對第二層的每一個準則的成對比較陣。
3.4.1 前八十回和后四十回的成對比較陣
構造前八十回和后四十回的成對比較陣:
B1=[1,1/9;9,1];
B2=[1,1/8;8,1];
B3=[1,1/5;5,1];
B4=[1,9;1/9,1];B5=[1,1/9;9,1];
由第3層的成對比較陣:
Bk(k=1,2,3,4,5)和Ck(k=1,2,3,4,5)
計算出權向量ω(31):
ω(31)=[0.1,0.11,0.17,0.9,0.1;0.9,0.89,0.83,0.1,0.9];
并且通過一致性檢驗。
3.4.2 前八十回中的前四十回和后四十回的成對比較陣
C1=[1,9;1/9,1]; C2=[1,9;1/9,1];
C3=[1,1/9;9,1]; C4=[1,1/6;6,1];
C5=[1,9;1/9,1];
由第3層的成對比較陣:
Ck(k=1,2,3,4,5)
計算出權向量ω(32):
ω(32)=[0.9,0.9,0.1,0.14,0.9;0.1,0.1,0.9,0.86,0.1];
并且通過一致性檢驗。
3.5 計算組合權向量
接下來,由各準則對目標的權向量ω(2)和各方案對每一準則的權向量ω(3k) (k=1,2),計算兩個方案對目標的權向量,稱為組合權向量,記作ω(4)。對于方案P1,它在準則層的權重用ω(3k)的第一個分量表示,對于方案P2,它在準則層的權重用ω(3k)的第二個分量表示。而5個準則對于目標的權重用權向量ω(2)表示。即:
ω(4)=ω(2)* ω(3k)T。
3.5.1 前八十回和后四十回的組合權向量
前八十回和后四十回:
ω(4)=ω(2)*ω(31)T=[0.148,0.852]
即P1在目標層的組合權重為0.148,同P2在目標的組合權重為0.852,發現方案一的權重小于方案二的權重。所以,可得到前八十回和后四十回無關。
3.5.2 前八十回中的前四十回和后四十回的組合權向量
前八十回中的前四十回和后四十回:
ω(4)=ω(2)*ω(32)T=[0.637,0.363]
即P1在目標層的組合權重為0.637,P2在目標的組合權重為0.363,發現方案一的權重大于方案二的權重。所以,可得到前八十回的兩個四十回是相關的。
由以上的討論,可以得出《紅樓夢》的前八十回和后四十回無關,并使用前八十回中的兩個四十回來證明了算法的科學性。因此從這個角度看,《紅樓夢》可能不是同一個人所做。對于《紅樓夢》的作者是否唯一這一問題,由于影響文章風格的因素有很多,在作判斷和決策時,這些因素的重要性、影響力往往難以量化。經過查閱資料知,層次分析法是一個非常有效的處理方法。本文就是考慮了介詞、副詞、顏色、人名、情緒這幾個指標,利用層次分析法把這五個指標分別計算的結果綜合起來得出《紅樓夢》的作者不是同一個人所做的結論。
[1]李賢平.《紅樓夢》成書新說[J].復旦學報(社會科學版), 1987(5):3-16.
[2]韋博成.《紅樓夢》前80回與后40回某些文風差異的統計分析(兩個獨立二項總體等價性檢驗的一個應用)[J].應用概率統計,2009,25(4):441-448.
[3]張運良,朱禮軍,喬曉東,等.基于句類特征的作者寫作風格分類研究[J].計算機工程與應用,2009,45(22):129-131.
[4]姜啟源,謝金星,葉俊.數學模型[M].高等教育出版社,2011:249.
[5]李榮華,丁永臻,陳曉林.概率論和數理統計[M].中國石油大學出版社,2014:11.
楊粟森,現就讀于中國石油大學(華東)理學院信息與計算科學專業。
彭旭,現就讀于中國石油大學(華東)理學院信息與計算科學專業。
趙映誠,現就讀于中國石油大學(華東)理學院信息與計算科學專業。