紅樓夢前80章與后40章的作者分析

2019-10-21 08:11:47譚翔予陳龍石水萌

錦繡·上旬刊 2019年5期

譚翔予陳龍石水萌

摘要：《紅樓夢》的作者問題成功地吸引了國內外讀者的注意。基于此，本文以數理統計為基礎，應用支持向量機的理論和方法，建立相應模型，證實了《紅樓夢》前80章回和后40章回在某些字、詞、句上確實存在顯著性差異。首先采用引用大膽假設，小心驗證的思路，使用機器學習-支持向量機進行分類，通過高斯徑向基函數，尋找到最優分類超平面，由于數據樣本不足，導致分類結果正確率僅為85%;然后，使用matlab軟件繪制類別分界圖。最終效果：0-80章回在1的水平上，81-120章回在-1的水平上，并且分界點明顯在80-81章回之間，佐證了《紅樓夢》前80章回和后40章回作者不同。

關鍵詞：紅樓夢;格拉布斯檢驗;方差分析;支持向量機

0.引言

《紅樓夢》，中國古典四大名著之一，清代作家曹雪芹創作的章回體長篇小說。《紅樓夢》開篇以神話形式介紹作品的由來，說女媧煉三萬六千五百零一塊石補天，只用了三萬六千五百塊，剩余一塊未用[5]，棄在青埂峰下。剩一石自怨自愧，日夜悲哀。一僧一道見它形體可愛，便給它鐫上數字，攜帶下凡。不知過了幾世幾劫，空空道人路過，見石上刻錄了一段故事，便受石之托，抄寫下來傳世。輾轉傳到曹雪芹手中，經他批閱十載、增刪五次而成書。

以賈、史、王、薛四大家族的興衰為背景，以賈府的家庭瑣事、閨閣閑情為脈絡，以賈寶玉、林黛玉、薛寶釵的愛情婚姻故事為主線，刻畫了以賈寶玉和金陵十二釵為中心的正邪兩賦有情人的人性美和悲劇美。通過家族悲劇、女兒悲劇及主人公的人生悲劇，揭示出封建末世危機。

同時也是一部具有世界影響力的人情小說作品[1]，是中國古典小說巔峰之作，中國封建社會的百科全書，傳統文化的集大成者。小說以“大旨談情，實錄其事”自勉，只按自己的事體情理，按跡循蹤，擺脫舊套，新鮮別致，取得了非凡的藝術成就。“真事隱去，假語村言”的特殊筆法更是令后世讀者腦洞大開，揣測之說久而遂多[3]。圍繞《紅樓夢》的品讀研究形成了一門顯學——紅學。

因某些歷史原因，《紅樓夢》在傳播和保留過程中出現了令人遺憾的缺失。前80章回曹雪芹本著，120章回高鶚續40章回的兩大版本，是目前公認的版本。本文通過建立SVM分類模型[2]，就《紅樓夢》前80章回和后40章回中的語句和語義來佐證前80章回和后40章回的作者不同。

1 數據預處理

1.1格拉布斯檢驗法

通過下列公式進行計算1-80章與81-120章“必是”、“索性”、“為什么”等詞在不同章節出現的次數對應的<！--[if gte vml 1]> <！[endif]--><！--[if ！vml]--><！--[endif]-->值：

<！--[if gte vml 1]> <！[endif]--><！--[if ！vml]--><！--[endif]-->? （1）

<！--[if gte vml 1]> <！[endif]--><！--[if ！vml]--><！--[endif]-->經過一系列的計算，整理得到下表，用所得到的<！--[if gte vml 1]> <！[endif]--><！--[if ！vml]--><！--[endif]-->值與格拉布斯臨界值檢驗表進行對比，其中<！--[if gte vml 1]> <！[endif]--><！--[if ！vml]--><！--[endif]-->，將異常數據剔除[4]。

通過對比格拉布斯臨界值找出可疑極值點，將這些可疑極值點進行剔除。

1.2 距離反比加權插值法

由于相鄰章節在內容和作者上都有很大的相似性，相鄰章節之間的影響會比較大，所以采用距離反比加權插值法進行填補，更大程度上保留了章節的信息量，具體計算過程如下：

設每組數據之間的距離為1，權重計算公式如下：

5 SVM分類

先大膽假設，后合理驗證。本文選擇使用SVM[6]方法來進行學習分類，為了證明分界點在80章與81章之間，在語句和語義選擇上。通過參考資料，分析出它們不同之處，用關鍵字詞反映語句和語言的特點，最終選擇了“怎么”、“若”兩個作為代表，“怎么”代表反問句，“若”代表假設句。模型如下：

假設1-10章回與81-90章回作者不同;

選擇核函數[10]進行SVM學習。

常用的核函數有四種，包括線性核函數、多項式核函數、徑向基核函數、二層神經網絡核函數，在這四種核函數中，最常用的是高斯徑向基函數，它的特點：收斂速度快，泛化能力強。

作為核函數[7]進行SVM學習，找尋分類最優超平面，通過拉格朗日方法把問題轉化為其對偶問題

<！--[if gte vml 1]> <！[endif]--><！--[if ！vml]--><！--[endif]-->為拉格朗日乘子該，問題就是求解最優化問題。分類函數變為

之后通過支持向量機進行分類分類效果見下圖：

對分類結果進行分析，使用的SVM分類正確率為85%。因為樣本個體的數據太少，學習樣本數目不足，盡管對數據進行了處理[8]但仍然有較大的隨機性，將分類結果做成表格（數據見附錄）和圖，分析兩類的分界點。

求證分類

結論

分界點明顯在80章和81章之間，雖然中間有少量章節被錯誤劃分，但是在假設的前提下，可以認定《紅樓夢》前80章回和后40章回不是一個作者。

參考文獻

[1]汪維輝.《紅樓夢》前80回和后40回的詞匯差異[J].古漢語研究，2010（03）：35-40+95-96.

[2]施建軍.基于支持向量機技術的《紅樓夢》作者研究[J].紅樓夢學刊，2011（05）：35-52.

[3]楊粟森，彭旭，趙映誠.基于數理統計的《紅樓夢》前80回與后40回相關性的多指標綜合分析[J].電子世界，2017（02）：197-199.

[4]公麗艷，孟憲軍，劉乃僑，畢金峰.基于主成分與聚類分析的蘋果加工品質評價[J].農業工程學報，2014，30（13）：276-285.

[5]胡竹菁，戴海琦.方差分析的統計檢驗力和效果大小的常用方法比較[J].心理學探新，2011，31（03）：254-259.

[6]楊小勇.方差分析法淺析——單因素的方差分析[J].實驗科學與技術，2013，11（01）：41-43.

[7]林海明，杜子芳.主成分分析綜合評價應該注意的問題[J].統計研究，2013，30（08）：25-31.

[8]丁愛玲，謝小軍，聞怡.具有高斯核函數的支撐矢量機與徑向基函數分類器的比較[J].交通與計算機，2003（03）：44-48.

錦繡·上旬刊2019年5期

錦繡·上旬刊的其它文章: 實現初中生物生活化教學的幾點思考; 貼近生活，感悟人生; 從儒家“為政以德”思想看領導干部如何講好政德; 宣傳食品安全保護環境知識。探索綠色發展之路; 加強工會服務基層能力的探討; 淺談在新時期的發展下園藝技術與園林景觀設計的結合