馬創(chuàng)新,陳小荷
(1. 江蘇師范大學 語言科學與藝術學院,江蘇 徐州 221009;2. 南京師范大學 文學院,江蘇 南京 210097)
古今中外存在著很多作者存疑的文獻,具體情況包括: 有些文獻本來就沒有作者署名;有些文獻署的是作者筆名,而世人無法確定該筆名在現(xiàn)實世界中的所指人物對象;有些文獻有具體可查的署名作者,但世人對該文獻作者的真實性產生懷疑或有爭議。比如,俄裔作家索爾仁尼對于《靜靜的頓河》是否為肖洛霍夫所寫表示公開質疑,他認為《靜靜的頓河》這樣的鴻篇巨著,不是當時只有20多歲的年輕人——肖洛霍夫所能寫出的,還有人懷疑肖洛霍夫抄襲了已故作家克魯烏可夫的作品[1]。狄更斯和馬克·吐溫對于《羅密歐和朱麗葉》是否為莎士比亞所寫也表示過懷疑,因為他們覺得莎士比亞的出身為英國平民,而《羅密歐和朱麗葉》描寫的是意大利上流社會的生活[2]。中國古典小說《紅樓夢》的作者也有懸疑,有些學者認為《紅樓夢》全書120回為同一人所作,而有些學者認為前80回與后40回并非同一人所作[3]。
對于如何確定存疑文獻的真實作者,我們認為可以從高頻詞的等級相關度方面來分析這個問題。相對于中低頻詞型來說,文獻中出現(xiàn)的高頻詞中,連詞、介詞和副詞占有更大的比例。如果把寫文章比作蓋房子的話,名詞、動詞、形容詞等實詞就相當于磚瓦等建筑材料,連詞、介詞和副詞等虛詞就相當于水泥、黃沙等黏合材料。同一作者在寫作兩部題材不同的作品時,兩部作品中所使用的名詞重合度會比較低,但所用的連詞、介詞和副詞等虛詞重合度會較高[4-5]。我們所提出的方法是基于這樣的考慮: 兩部文獻語言風格的差異不僅體現(xiàn)在詞型的重合度上,還更細微地體現(xiàn)在高頻詞的等級相關度上。如果兩部作品是同一作者所寫,那么它們的相關系數(shù)就會比較高;如果兩部作品是不同作者所寫,那么它們的相關系數(shù)就會比較低。
1984年,挪威奧斯陸大學的一個統(tǒng)計學家領導一個小組統(tǒng)計三組文獻中的詞語特征,三組文獻分別是肖洛霍夫的確認作品、存疑作品《靜靜的頓河》、克魯烏可夫的作品。他們先是統(tǒng)計不同詞匯量與總詞匯量的比值,三組分別是65.5%、64.6%、58.9%;再選擇最常見20個俄語單詞,統(tǒng)計它們出現(xiàn)的頻率,分別是22.8%、23.3%、26.2%;然后統(tǒng)計出現(xiàn)多于一次的詞語所占百分比,分別是80.9%、81.9%、76.9%。上述三種統(tǒng)計結果都顯示,肖洛霍夫比克魯烏可夫更有可能是《靜靜的頓河》的真正作者[6]。
在《紅樓夢》作者信息的研究方面,最早使用統(tǒng)計方法展開研究的是瑞典漢學家高本漢。高本漢(1952年)選取了32種語法、詞匯現(xiàn)象,統(tǒng)計它們在《紅樓夢》等五部作品中的出現(xiàn)頻率。高本漢根據(jù)統(tǒng)計結果,認為《紅樓夢》全書120回為同一人所作[7]。1980年,在美國威斯康星大學舉行的《紅樓夢》研討會上,陳炳藻發(fā)表論文“從詞匯上的統(tǒng)計論《紅樓夢》的作者問題”,他把《紅樓夢》分為三組,分別是1~40回、41~80回、81~120回,另外還配上了《兒女英雄傳》。他按一定比例從各組中抽選特定詞類,再統(tǒng)計各組詞語之間的相關系數(shù),計算出《紅樓夢》前80回和后40回的詞匯相關度為78.57%,而《紅樓夢》與《兒女英雄傳》的詞匯相關度僅為32.14%。由此認為《紅樓夢》前80回和后40回為一人所作[8]。
劉鈞杰在《紅樓夢》前80回中選取40回,和后40回進行比較,對六項語言材料在前部和后部的出現(xiàn)進行統(tǒng)計比較,結論是前、后的語言風格存在明顯差異[9]。陳大康選取27個詞、46個字,考察它們在《紅樓夢》前后出版的情況,并且分析89 758個句子的句長分布及平均句長,認為《紅樓夢》前80回和后40回并非一人所作[10]。
李賢平從《紅樓夢》中抽取了47個虛字,統(tǒng)計其在各回中的使用頻率,用統(tǒng)計學方法探索各回寫作風格的接近程度,并用聚類方法對120回進行分析,認為《紅樓夢》各個部分是由不同的作者在不同的時期撰寫的[11]。
徐秉錚等從詞的相關性和上下文的相關性、字符數(shù)的統(tǒng)計、字符串的統(tǒng)計等三方面判斷《紅樓夢》前80回與后40回的語言風格有明顯的不同[12]。張運良等將《紅樓夢》120回平均分成1~40回、41~80回、81~120回等三個集合,然后以句類為特征向量,采用K近鄰算法作為分類算法構建分類器,實驗發(fā)現(xiàn)集合1和集合2句類風格相近,集合3句類風格和前兩個集合差距較大[13]。施建軍使用支持向量機技術,以44個文言虛字頻率為特征向量,對《紅樓夢》120回進行分類研究,結果發(fā)現(xiàn),前80回與后40回在寫作風格上存在明顯差別[14]。
布拉德福提出了頻次—等級排序法,這種方法在社會科學領域中被廣泛應用[15],例如,把某部文獻中的詞型按照其出現(xiàn)頻次遞減排列,就會呈現(xiàn)出布拉德福分布。布拉德福分布的特點顯示: 我們考察的具體對象的大多數(shù)集中于少數(shù)主體來源。例如,人們寫文章時總是傾向于選擇自己常用的詞語。Zipf發(fā)現(xiàn)了詞型的出現(xiàn)頻率與等級序號之間的關系,任何一篇文章中詞型的頻次和頻次等級的乘積總為一個常數(shù)[16]。
人們在表達一個觀點或者描述一個事物時,會有多個同類詞語可供選擇,有的詞語會被經常用到,而有的詞語不常被使用。這種選擇上的頻度不均現(xiàn)象致使被選詞語的特征信息變得越來越突出,這又會反過來作為再次被選的影響因素。如果把個體在表達一個觀點或者描述一個事物時選用某詞語看作這個詞語的一次成功,那么這種成功的累積必然會產生新的成功,這就使得個體在語言運用方面會形成思維定勢。文獻之間的語言風格差異不僅體現(xiàn)在使用的高頻詞上,還更加細微地體現(xiàn)在高頻詞的使用頻率等級上[17]。
為了能夠給鑒定作者存疑的文獻提供更多的參考信息,我們提出了一種“基于高頻詞等級相關度的方法”,測量各份語料之間在詞型等級方面的相關度,推斷“存疑文獻”的作者信息。這種算法分為三個步驟:
(1) 首先,對于各份語料,詞型均按照出現(xiàn)頻次(即詞型的詞例數(shù))遞減順序排列;
(2) 然后,對于已經排序的詞型按照“頻序法”確定等級,把出現(xiàn)頻次最高的詞型等級定為1,次高的詞型等級定為2,……依次類推,頻次相等的詞型為一個等級,以其在語料中詞頻序值為等級[18]。
(3) 接下來,計算各份語料之間高頻詞等級的相關度。相關度的計算方法采用“斯皮爾曼等級相關”,如式(1)所示。
(1)
其中,Di表示每一對數(shù)據(jù)相應的兩個等級之差,n表示樣本數(shù)。
斯皮爾曼等級相關適用于研究數(shù)據(jù)是具有等級性質的成對數(shù)據(jù),并且變量之間呈線性關系[19-20]。但是,兩份語料中出現(xiàn)的詞型數(shù)據(jù)并不是成對的,所以采用這種計算方法所得到的相關系數(shù)是一個近似值。我們用ARs來表示“以語料A中特定數(shù)量詞型為樣本”與語料B中全部詞型比較所得到的相關系數(shù),對于在語料A中出現(xiàn)而語料B中沒有出現(xiàn)的詞型,不放在計算范圍內。同樣,以BRs來表示“以語料B中特定數(shù)量詞型為樣本”與語料A中全部詞型比較所得到的相關系數(shù),對于在語料B中出現(xiàn)而語料A中沒有出現(xiàn)的詞型,也不在計算范圍內。通常選取在語料中出現(xiàn)頻次排在前100、200、300位的高頻詞作為樣本。語料A與B的相關度用ABRs來表示,ABRs等于ARs與BRs的均值,即: ABRs=(ARs+BRs)/2。也就是說,語料A與B的相關度就等于: “以語料A中特定數(shù)量詞型為樣本”與語料B的全部詞型比較所得到的相關系數(shù),加上“以語料B中特定數(shù)量詞型為樣本”與語料A的全部詞型比較所得到的相關系數(shù),兩個系數(shù)之和再除以2所得到的商。
為了驗證此方法的效果,我們選取《孟子》《荀子》這兩部先秦文獻作為實驗語料,對這兩部文獻做人工分詞處理。這兩部文獻都是儒家經典,在主題內容上有著很大的相關性。學術界對于這兩部文獻的作者,也無異議。把《孟子》語料均分為兩部分,兩部分語料用“《孟子》一”和“《孟子》二”表示;把《荀子》語料均分為四部分,四部分語料用“《荀子》一”、“《荀子》二”、“《荀子》三”和“《荀子》四”表示。采用“頻序法”確定詞型等級,選取頻次排在前100位的詞型作為樣本,分別測量這七份語料兩兩之間的相關度,形成如表1所示的相似度矩陣。
將表1、表2和表3中的數(shù)據(jù)分別劃分為三個區(qū),第一區(qū)位于表格左上角,是《孟子》兩份語料之間的相關度數(shù)據(jù),在表中都以黑色字體顯示;第二區(qū)位于表格右下角,是《荀子》四份語料相互之間的相關度數(shù)據(jù),在表中都以黑色斜體字顯示;第三區(qū)位于右上角和左下角,是《孟子》兩份語料與《荀子》四份語料之間的相關度數(shù)據(jù),都以常規(guī)字體顯示。

表1 使用“基于高頻詞等級相關度的方法”得到的相關度矩陣(%)
為了評估“基于高頻詞等級相關度方法”的有效性,我們使用另外兩種常用的分析文獻相似度的方法與之相比較[21]。一種是“基于詞型共現(xiàn)率的方法”。其計算方法如式(2)所示。
語料A與語料B的相關度=(A與B的共現(xiàn)詞型數(shù))/(A與B的詞型數(shù))
(2)
式(2)中,“A與B的詞型數(shù)”并不等于“A的詞型數(shù)+B的詞型數(shù)”,因為語料A與語料B中有一些共現(xiàn)詞型,這些共現(xiàn)詞型既出現(xiàn)在語料A中,又出現(xiàn)在語料B中,不能重復計算,所以“A與B的詞型數(shù)”等于“A的詞型數(shù)+B的詞型數(shù)-A與B的共現(xiàn)詞型數(shù)”。
另一種是“基于詞例共現(xiàn)率的方法”。其計算方法如式(3)所示。
語料A與語料B的相關度=(A與B的共現(xiàn)詞型的詞例數(shù)) /(A與B的詞例數(shù))
(3)
式(3)中,“A與B的詞例數(shù)”等于“A的詞例數(shù)+B的詞例數(shù)”。
表2是使用“基于詞型共現(xiàn)率的方法”所得到的七份語料相互之間的相關度矩陣,表3是使用“基于詞例共現(xiàn)率的方法”所得到的相關度矩陣。

表2 使用“基于詞型共現(xiàn)率的方法”得到的相關度矩陣(%)

表3 使用“基于詞例共現(xiàn)率的方法”得到的相關度矩陣(%)
為了能夠直觀地觀察到使用這三種方法所得到的數(shù)據(jù)在“量”上的特征,我們使用Excel 2016把表1、表2、表3中的數(shù)據(jù)轉化為柱形圖,如圖1所示。觀察圖1能夠發(fā)現(xiàn):
(1) 使用“基于高頻詞等級相關度的方法”所得到的數(shù)據(jù)三個區(qū)之間的區(qū)別明顯,左上角第一區(qū)數(shù)據(jù)的柱形高度顯著高于第三區(qū),右下角第二區(qū)的柱形高度也顯著高于第三區(qū);
(2) 使用“基于詞型共現(xiàn)率的方法”和“基于詞例共現(xiàn)率的方法”所得到數(shù)據(jù)三個區(qū)之間也有區(qū)別,但不如使用“基于高頻詞等級相關度的方法”所得到數(shù)據(jù)區(qū)別度大,左上角第一區(qū)數(shù)據(jù)的柱形高度顯著高于第三區(qū),右下角第二區(qū)的柱形高度與第三區(qū)右上角柱形高度相關差不大,區(qū)分度較小。

圖1 三種方法的數(shù)據(jù)柱形圖
為了分析使用三種方法分別得到的數(shù)據(jù)的集中與離散情況,我們計算了每種方法所得到數(shù)據(jù)的各個區(qū)的標準差,把計算結果匯總起來,形成表4。通過分析表4,我們發(fā)現(xiàn): (1)使用“基于高頻詞等級相關度的方法”所得到的數(shù)據(jù)三個區(qū)的標準差分別為0、3.97%、3.59%,均略大于使用另外兩種方法所得到數(shù)據(jù)標準差,這說明使用“基于高頻詞等級相關度的方法”所得到的數(shù)據(jù)波動性略大; (2)使用“基于詞型共現(xiàn)率的方法”與“基于詞例共現(xiàn)率的方法”所得到的標準差數(shù)值都很小,這兩種方法所得到的標準差數(shù)值差異也很小。

表4 三種方法的標準差對比(%)
接下來,計算每種方法所得到數(shù)據(jù)的各個區(qū)的均值,并且計算了各區(qū)之間的均值之差,把計算結果匯總起來,形成表5。通過分析表5,我們發(fā)現(xiàn): (1)使用“基于高頻詞等級相關度的方法”所得到的數(shù)據(jù)三個區(qū)的均值分別為90.84%、83.77%、77.15%,介于使用另外兩種方法所得到的均值之間; (2)使用“基于詞型共現(xiàn)率的方法”和“基于詞例共現(xiàn)率的方法”所得到的數(shù)據(jù)三個區(qū)之間的均值差異比較小; (3)使用“基于高頻詞等級相關度的方法”所得到的數(shù)據(jù)三個區(qū)之間的均值差異比較大,第一、三區(qū)均值之差為13.69%,第二、三區(qū)均值之差為6.62%,顯著高于使用另外兩種方法所得到的相應數(shù)據(jù)。

表5 三種方法的均值對比(%)
分析上述數(shù)據(jù),能夠得出以下結論: (1)“基于高頻詞等級相關度的方法”所生成的數(shù)據(jù),在“第一、三區(qū)均值之差”和“第二、三區(qū)均值之差”方面均顯著高于另兩種方法所生成的數(shù)據(jù),證明這種方法區(qū)分語言風格的能力最強。(2)“基于詞型共現(xiàn)率的方法”和“基于詞例共現(xiàn)率的方法”所產生的數(shù)據(jù)波動較小,而“基于高頻詞等級相關度的方法”所產生的數(shù)據(jù)波動略大,離散度略高。
以《紅樓夢》作為實驗語料,使用哈工大社會計算與信息檢索研究中心研發(fā)的“語言技術平臺”對語料作分詞處理,把《紅樓夢》的120回分為12份語料,每份語料包含10回,這樣第一份語料就包含第1至第10回,第二份語料包含第11回至第20回,……,依次類推,簡寫為: 一(第1~10回)、二(第11~20回)、三(第21~30回)、四(第31~40回)、五(第41~50回)、六(第51~60回)、七(第61~70回)、八(第71~80回)、九(第81~90回)、十(第91~100回)、十一(第101~110回)、十二(第111~120回)[22]。
使用“基于高頻詞等級相關度的方法”計算這12份語料相互之間的相關度,均取出現(xiàn)頻次排在前100位的詞型作為樣本語料。把相關數(shù)據(jù)匯總起來,形成表6所示的相關度矩陣。為了便于發(fā)現(xiàn)前80回與后40回之間的區(qū)別,把表6中的數(shù)據(jù)也劃分為三個區(qū),第一區(qū)位于表格左上角,是前八份語料相互之間的相關度數(shù)據(jù),在表中都以黑色字體顯示;第二區(qū)位于表格右下角,是后四份語料相互之間的相關度數(shù)據(jù),在表中都以黑色斜體字顯示;第三區(qū)位于右上角和左下角,是前8份語料與后4份語料兩部分語料之間的相關度數(shù)據(jù),都以常規(guī)字體顯示。

表6 使用“基于高頻詞等級相關度的方法”得到的相關度矩陣(%)
計算出使用這種方法所得到數(shù)據(jù)的各個區(qū)均值,并且計算出各區(qū)之間的均值之差,把結果匯總起來,形成表7。通過分析表7,我們發(fā)現(xiàn): 使用“基于高頻詞等級相關度的方法”所得到的數(shù)據(jù)三個區(qū)的均值分別為68.51%、73.69%、50.74%,三個區(qū)之間的均值差異比較大,第一、三區(qū)均值之差為17.77%,第二、三區(qū)均值之差為22.95%,差異明顯。

表7 各區(qū)均值及區(qū)間均值之差(%)
分析上述數(shù)據(jù),能夠得到以下結論: (1)《紅樓夢》的前8份語料相互之間的相關度要高,后四份語料相互之間的相關度也高,即語言風格相似度大; (2)前8份語料與后4份語料之間的相關度要低,即語言風格差異度大。
我們把《紅樓夢》的120回均分為12份語料,每10回作為一份語料,然后使用“基于高頻詞等級相關度的方法”,計算這12份語料兩兩之間的相關度,得到結論: “《紅樓夢》的前8份語料兩兩之間相關度高,后4份語料兩兩之間相關度也高,而前8份語料與后4份語料這兩部分語料之間相關度低。”也就是說,前80回之間語言風格相似度高,后40回之間的語言風格相似度也高,而前80回與后40回的語言風格差異很大。由此推斷《紅樓夢》前80回應是同一人所寫,后40回應是另一人所寫。