999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聚類分析的《紅樓夢》前后作者差異檢驗

2017-02-23 06:31:36陳恩宏劉陳帥賈學勇
西部論叢 2017年10期

陳恩宏 劉陳帥 賈學勇

摘 要:《紅樓夢》成為文學中“紅學”的代表,被越來越多的人進行研究,其中前后作者寫作風格的差異成為人們首要研究的問題。本文從數學建模的角度出發,利用前后章節字、詞、句定性定量的差異來證明前后作者不同。首先將前后章節分為兩個樣本,選取實詞“紅”、“玉”以及8個虛詞,統計得出各個詞在前80回和后40回的使用頻率,作為樣本元素,接著選取顯著性水平a=0.05,提出原假設,即兩個樣本之間不存在差異;最后將樣本集元素進行排序,分別平均計算得到秩和統計量,代入數據結合曼—惠特尼檢驗統計量使用SPSS軟件,得出檢驗值Z=11.7075,因為,拒絕原假設,可得出前后作者不同的結論。再從計算前后章回中獨有詞的出現比例,直觀體現出前后章回中詞量的差異,接著統計每十章出現二元文法前200序列的次數,進行數據的歸一化處理,形成單獨樣本,并利用歐式距離公式計算數據間的距離,利用MATLAB軟件進行依次聚類,從聚類圖可得出前80回中作者對相鄰兩詞的使用習慣相似,但與后40回表達習慣差異較大。接著將高頻的實詞和虛詞同樣進行頻數統計與歸一化,選取前后兩部分樣本均值作為聚類中心,得出前80回和后40回的樣本點分別聚集在不同的區域內。綜上,從詞量和詞頻的角度都可證明前80回與后40回作者不同。

關鍵詞:曼—惠特尼U檢驗 N元文法聚類 k-means聚類

1. 引言

《紅樓夢》流傳至今,是一部以四大家族的發展興衰為時代背景,以故事主人公的感情為主線,隨著劇情發展不斷揭示當代社會危機以及人性的善惡,已經成為我國小說的經典。本書作者曹雪芹的寫作風格新穎別致、擺脫俗套、備受后世讀者贊嘆。但是在后續的保留和傳播過程中,紅樓夢遭到損壞,只保留下完整的80章,后續作者高鶚續寫后40章,以此完善《紅樓夢》。

《紅樓夢》已經形成了獨有的文學——“紅學”,雖然《紅樓夢》故事情節大致完整,但是作者不同,寫作風格自然不同。通過建立模型,比較“紅”“玉”兩字在前80章與后40章的使用頻率,證明兩者作者的不同。

《紅樓夢》前后的作者除了對指定詞的使用頻數同外,在一些詞匯和詞義上的理解和使用同樣大相徑庭,通過建立模型,說明前后作者的不同。

若再進行深入的研究,《紅樓夢》中前80章和后40章的使用語句和語句的含義也存在差異,通過建立模型,定量的證明差異的存在性。

2.基于曼-惠特尼U檢驗的作者差異分析

在一部小說中, 作者使用詞語風格應該是一貫的、連續的, 因此,對《紅樓夢》這部小說而言,前八十章回和后四十章回的絕大部分詞語也應該保持一致。為了佐證《紅樓夢》前八十章回與后四十章回的作者不同,本文選取“紅”、“玉”和幾個虛詞統計其在前后兩部分的使用頻率,然后通過曼-惠特尼U檢驗對兩組數據進行差異性檢驗。

本文共計選擇20個字詞,分別為:

實詞:紅、玉;

虛詞:被、從、于、因、在、向、以、之、者、或、的、罷、呢、便、就、亦、未、既。

為了提高檢驗的準確性,對每一章回中各個字詞使用的次數分別統計,并在次基礎上進行標準化處理。

設前八十章回中某一個字詞的使用頻率來自正態總體N1的樣本,而后四十章回中該字詞的使用頻率來自正態總體N2的樣本,兩個樣本總體相互獨立。使用假設檢驗中的曼-惠特尼U檢驗對兩個樣本的差異性做檢驗。

3基于高頻虛詞的k-means聚類

這里對全部虛詞——副詞(d)、介詞(p)、連詞 (c)、助詞(u)、語氣詞(y)在每十章回中的使用次數進行歸一化處理,對得到的結果進行k-means聚類。

k-means聚類是一種劃分聚類。其基本思想是:從文本中隨機選擇k個文本作為聚類中心,并根據每類與中心的遠近將其余文本劃分為k類,再重新計算每類的中心并作為新的聚類中心;根據與中心的距離對所有文本重新分類;一直迭代下去,直到聚類中心不再改變為止。其最終目的是實現類內文本之間相似性最大,而類與類之間的相似性最小。

綜上所述,從高頻實詞和高頻虛詞兩方面的聚類結果分析可知,《紅樓夢》前八十章回和后四十章回的作者確實不是同一個人。

4.總結

文學風格是創作的命脈。本文從數學建模的角度出發,利用前后章節字、詞、句定性定量的差異來證明前后作者不同。本文的主要創新點有下面兩點:

1)采用曼—惠特尼檢驗模型,找出所有章回關鍵詞的頻數,進行排序與平均值求取,用SPSS軟件進行數理統計檢驗,準確性較高。

2)從詞量角度進行分析時采用獨有詞聚類和層次聚類法,都能準確具體體現出前80章回和后40章回之間的差異,其中包括前后章回出現獨有詞的比例和種類,但是前后章回有關獨有詞聚類難度大,算法運算時間長,每發現一個新的短語,算法就要從頭開始,而層次聚類,則是忽略那種介于兩個層次之間的樣本,結果可能存在較大的差異和一定的偶然性。本文將均值聚類方法用于詞匯角度分析,將高頻詞頻率進行歸一化,可較快得到聚類結果,并且結果非常直觀。

參考文獻

[1] 孟廣仕.大數據時代的計算機信息處理技術[J].電子技術與軟件工程,2018(15):164. 1]韋博成.《紅樓夢》前80回與后40回某些文風差異的統計分析(兩個獨立二項總體等價性檢驗的一個應用)[J]. 應用概率統計,2009,25(04):441-448.

[2] 楊梅.《紅樓夢》前80回程度副詞計量研究[D].蘇州大學,2011.

[3] 汪維輝.《紅樓夢》前80回和后40回的詞匯差異[J].古漢語研究,2010(03):35-40+95-96.

[4] 楊粟森,彭旭,趙映誠.基于數理統計的《紅樓夢》前80回與后40回相關性的多指標綜合分析[J].電子世界,2017(02):197-199.

主站蜘蛛池模板: 永久在线精品免费视频观看| 亚洲国产精品日韩欧美一区| 香蕉久久国产精品免| 青青青国产视频| 久久综合色天堂av| 蝌蚪国产精品视频第一页| 亚洲综合精品香蕉久久网| 高潮爽到爆的喷水女主播视频| 国产在线无码av完整版在线观看| 欧美日韩在线第一页| 99热国产在线精品99| 国产日产欧美精品| 国产在线视频导航| 国产美女人喷水在线观看| 免费观看精品视频999| 国产呦视频免费视频在线观看| 成人自拍视频在线观看| 欧美国产日韩在线观看| 色婷婷狠狠干| 国产福利在线观看精品| 国产av一码二码三码无码| 午夜福利视频一区| 99热这里只有精品5| 亚洲天堂在线免费| 欧美精品成人一区二区视频一| 91精品综合| 九色综合视频网| 国产9191精品免费观看| 青青草国产免费国产| 亚洲色图另类| aa级毛片毛片免费观看久| 欧美精品在线看| 国产女人18水真多毛片18精品| 中文字幕免费播放| 欧美高清视频一区二区三区| 午夜精品久久久久久久无码软件| 日韩欧美国产综合| 天天爽免费视频| 一本色道久久88亚洲综合| 亚洲国产精品不卡在线| 亚洲午夜福利在线| 国产亚洲精久久久久久久91| 97国产精品视频人人做人人爱| 国产综合精品一区二区| 六月婷婷精品视频在线观看| 色精品视频| 国产迷奸在线看| 天天色天天操综合网| 久久精品日日躁夜夜躁欧美| 综合天天色| 香蕉蕉亚亚洲aav综合| 久久中文字幕不卡一二区| 激情国产精品一区| 亚洲精品国产成人7777| 日本道中文字幕久久一区| 亚洲综合网在线观看| 在线精品亚洲国产| 中文国产成人精品久久| 67194亚洲无码| 91亚洲视频下载| 国产精品性| 亚洲福利一区二区三区| 亚洲bt欧美bt精品| 国产在线观看99| 欧美日韩免费| 久久久久亚洲av成人网人人软件| 国产成人亚洲精品蜜芽影院| 亚洲午夜久久久精品电影院| 国产精品久久久久久久久| 538国产视频| 亚洲swag精品自拍一区| 成人精品亚洲| 3344在线观看无码| 伊人久久福利中文字幕| 四虎影视8848永久精品| 性喷潮久久久久久久久| 亚洲区视频在线观看| 精品国产香蕉伊思人在线| 在线日韩日本国产亚洲| 午夜国产不卡在线观看视频| 99热亚洲精品6码| 国产成人亚洲无吗淙合青草|