陳城鈺 于欣雨 蘇世杰
【摘要】本文借助數學知識建立一元線性回歸模型,利用最小二乘法來擬合出虛詞頻率直線,通過分析虛詞頻率的差異,來推斷《紅樓夢》作者的問題.根據建模分析,得出前80回與后40回不是同一個作者的結論.
【關鍵詞】紅樓夢;線性回歸;詞向量
《紅樓夢》是具有高度思想性和藝術性的偉大作品,因某些歷史原因,在傳播過程中出現了增補、修訂的現象.本文借助數學模型,對《紅樓夢》前80回與后40回作者是否為同一人進行了研究.
一、問題的分析
本文作者在前期研究中發現,《紅樓夢》主要人物出現的頻率受小說情節的影響較大,雖能在一定程度上體現出作者的差異,但并不明顯.
現代漢語言文學研究認為,虛詞的使用更能夠體現出作者的寫作習慣與語言風格.因此,通過大規模的統計與合理地建模,對不同章回中相同的虛詞進行頻率分析,得出每章回作者的語言習慣,在誤差范圍內進行比較和判斷,可判斷不同章回之間作者的異同.
二、模型假設
1.同一個作者,認為他對詞、句法的使用習慣基本保持不變,作品中的虛詞出現頻率幾乎沒有差別;
2.不同的作者之間,詞匯的使用習慣、詞與詞的相關性處理、長短句的偏好有較大的差別;
3.本次所用《紅樓夢》版本為作者成書時原貌,成書后,除去遺失的原稿外,在傳播過程中無其他人的修訂.
三、數據概覽
在使用模型對虛詞詞頻進行分析之前,使用MATLAB語言對虛詞在前后章節中出現的次數差異進行了統計,為模型的建立及其結果提供有力論據.
采用Python語言及Jieba分詞插件進行詞頻統計,挑選了“再、可、別、為、之、啊、咧、嗎、呀、仍、要、也、尚、偏、很、比、越、往、向、讓、故、皆”22個在一般古漢語中高頻出現的虛詞進行統計比對,發現對虛詞的使用偏好在前后兩部分出現了巨大差異,如“嗎”在前半部分出現頻率0.0375次/回,而在后半部分出現頻率1.875次/回,驗證了前后部分是由語言習慣相差明顯的兩位作者分別完成的推論.之后的模型求解均基于該理念完成.
四、模型的建立
本文通過建立一元回歸方程,對虛詞頻率位次的分析來估計不同文本之間虛詞的頻率異同.作者取樣同一部小說中的大量虛詞,根據虛詞的頻率從小到大排列,視其位次為自變量x1,x2,…,xn.以虛詞對應的頻率為因變量,記y1,y2,…,yn,并在直角坐標系上制得散點圖,并用最小二乘法擬合出詞頻——虛詞序次直線.其中,b為該直線在y軸上的斜率,a為該直線在x軸上的截距,且滿足方程如下:
b=∑ni=1(xi-x)(yi-y)∑ni=1(xi-x)2=∑ni=1xiyi-nx y∑ni=1x2i-nx2,
a=y-bx.
線性相關系數(R2):由于之后的線性回歸模型需要以一個同類隨機樣本虛詞的順序為基準,因此,兩個變量之間的關系強度無法得到保證.此時需要計算每條擬合直線的線性相關系數,即R2來判斷兩個變量之間的線性關系密切程度,在該問題中表現為虛詞的位次與頻率是否大致與隨機樣本一致.
觀測數據(xi,yi),i=1,2,…,n的樣本相關系數
R=∑ni=1(xi-x)(yi-y)∑ni=1(xi-x)2∑ni=1(yi-y)2
=∑ni=1xiyi-nx y∑ni=1x2i-nx2∑ni=1y2i-ny2 .
根據統計學知識,在本數學模型中規定:當0.75 由假設可知,同一作者作品中虛詞詞頻是一致的.因此,如果各章節作者相同,那么相同的一組虛詞按照不變的排序后,所擬合出的直線近似一致.并且,由于相同虛詞在不同作者作品中詞頻不同,所以一組虛詞按照不變的順序排序后,擬合出的詞頻-虛詞直線一般不同,且擬合效果一般較差.同時,相關系數也與擬合直線的斜率一同作為判斷依據:當斜率相差小且擬合效果好時,認為匹配成功;否則,認為匹配失敗. 五、標準數據設立 為了論證虛詞詞頻的異同能夠體現作者的異同,首要任務是建立各線性回歸方程斜率之間的可承受誤差區間,即標準數據.本文選用已確認由唯一作者書寫的《西游記》為參數來源. 數據獲得步驟:將100回的《西游記》平均分為前后各50回兩個部分;通過Python語言及Jieba分詞插件得出總出現頻率較高的虛詞:嗎、仍、越、讓、其、比、但、可;使用MATLAB語言對這8個虛詞的出現次數及頻率進行統計;以前50回中8個虛詞的頻率升序為基準,將前后兩部分的數據制作成散點圖,并繪制出各自的線性回歸方程.兩方程斜率的差即為該問題中可接受的誤差,即在該范圍內可認為兩篇文本出自同一作者. 進行多組數據比對,作者認為以1±0.1為標準數據具有適用性. 六、模型的求解 為使數據盡量可控、精細,將《紅樓夢》以每10回劃分為1節,分別從前8節和后4節中各抽出1節作為順序基準.求解過程中21~30回和101~110回被隨機選中.剩余10節分別以這兩節的順序為基準,構建一元線性回歸方程,通過對線性相關系數及斜率的比較,將剩余10節歸入到誤差較小即在標準數據內的那組,由此確認120回中哪幾回屬于同一個作者. 使用盲眼測試法,即將章回數當作未知數據,通過將該小節以兩個數據基準數據得出的散點圖及線性回歸方程與其基準進行比較,得出更接近基準的該組即為該小節所屬部分. 以31~40回小節為例進行歸類,將兩組數據的相對差距進行比較: 以21~30回為基準時,線性相關系數為0.765 223 92,擬合效果出色,適合進行方程截距比較;截距與基準之比為0.765 223 920.810 458 30=0.944 186 666,將該比值與標準數據1±01進行絕對差距比較,發現在可承受范圍內. 以101~110回為基準時,該小節線性相關系數為0392 719 34,擬合效果偏差,不宜進行方程截距比較;為使得結果更合理、有力,進一步進行截距比較:截距與基準之比為0.392 719 340.855 150 40=0.459 240 082.再將比值與標準數據1±01進行絕對差距比較,發現遠超出可承受范圍. 由于第31~40回與21~30回擬合效果出色,比值在合理范圍內;與101~110回擬合效果較差,比值超出范圍.因而,可以得出31~40回小節屬于前80回. 將剩余9小節按照如上方法進行比對,結果顯示前80回在以21~30回為基準的可接受范圍內;后40回在以101~110回為基準的可接受范圍內. 七、結 論 綜上所述,通過虛詞詞頻的一元線性回歸模型,可以得出《紅樓夢》前80回與后40回分別由兩位作者撰寫的結論. 【參考文獻】 [1]李賢平.《紅樓夢》成書新說[J].復旦大學學報社科版,1987(5):3-16. [2]韋博成.紅樓夢前80回與后40回某些文風差異的統計分析[J].應用概率統計,2009(4):441-448. [3]吳軍.數學之美:第2版[M].北京:人民郵電出版社,2014. [4]韋博成.漫談統計學的應用與發展[J].數理統計與管理,2011(1):85-97.