999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數理統計的《紅樓夢》作者分析

2018-12-19 05:11:18趙欣欣魏子淇吳宇航
新一代信息技術 2018年3期

趙欣欣,葉 莎,魏子淇,吳宇航

(1. 華北理工大學,經濟學院;2. 華北理工大學,冶金與能源學院;3. 華北理工大學,理學院; 4. 華北理工大學數學建模創新實驗室,河北 唐山 063210;5. 河北省數據科學與應用重點實驗室, 河北 唐山,063210;6. 唐山市數據科學重點實驗室,河北 唐山,063210)

0 引言

在統計學應用的眾多領域中,文學著作的統計分析一直是一個饒有興趣的分支。美國斯坦福大學教授Eforn 與他的學生曾對莎士比亞的作品深入的進行過統計學研究并發現了莎士比亞所撰寫的一篇“無名氏”詩稿。在當時引起了極大的反響,被一位國際頂級統計學家Rao 譽為“一曲統計學的贊歌”。

《紅樓夢》作為我國四大名著之首,對于其作者的探索一直是一個懸而未定的話題。將統計學中定量分析的方法引入到對紅樓夢作者的研究是很自然的。美籍華裔學者陳炳藻教授曾在這方面進行過研究[1-2],并在“首屆國際《紅樓夢》研討會”發表了運用統計學方法對選出的5 類詞進行相關程度的比較,由此推斷出《紅樓夢》前80 章回和后40 章回均為曹雪芹所著。然而我國華東師范大學陳大康教授卻給出了迥異的結論[3]。他把《紅樓夢》分成三組,通過對詞字句特點的研究后發現后40 章回與前80 章回有明顯的差距。由此推斷:后40 章回不是曹雪芹所作。復旦大學李賢平教授使用模式識別和探索性數據分析的方法對《紅樓夢》進行研究[4],而且提出了一種新的觀點:《紅樓夢》前80 回是曹雪芹根據《石頭記》增刪的,而后40 回是其親友搜集資料補寫的。

每個作者都會有自己的寫作習慣[5],包括在用詞還有斟酌句意兩方面。本文主要從《紅樓夢》前80 章回和后40 章回對高頻詞和句意表達的差異性來研究其作者。首先通過對高頻詞在前40 后,中間40 回,后40 回出現的頻數進行聚類分析,初步看出《紅樓夢》80 章回之間的異同性。然后通過句式的表達形式差異進行進一步剖析,在此過程中將《紅樓夢》每20 章回作為一個節點,將前80 章回作為灰色預測的樣本對后40 回進行預測,將預測值與統計的真實值進行殘差檢驗,根據結果分析得出:前80 章回與后40 章回差異性顯著,后40 章回不是曹雪芹本人所著。

1 基于聚類分析的章回分類

文章通過Woncord 對全文進行高頻詞的篩選,去掉其中可能由于情節發展引起變化的字,如“玉”。剔除掉與情感有關的詞語。最終選取了“尚、嗎、方、如此、回道、誰知、罷了”作為評判的指標。分別統計出他們在前40 章回,中間40 章回,后40 章回出現的頻數。做出了能明顯看出變化趨勢的柱狀圖如下:

圖1 《紅樓夢》高頻詞統計 Fig.1 Statistics of High Frequency Words in A Dream of Red Mansions

通過對簇狀圖的對比分析可以得出某些詞的使用頻率在不同的樣本中變化不明顯,而某些詞的使用頻率在不同樣本中變化較大,如“尚”、“方”等詞的使用頻數在不同樣本中變化的較為明顯。而語氣助詞和副詞往往可以看作反映一個人語言風格的標志,不同人的語言風格存在差異,通過模型對比,我們可以得出《紅樓夢》前80 回與后40 回不是一人所作的結論。

為了保證模型的精確性,利用聚類分析的方法對前40 回、中間40 回、后40 回進行聚類分析,依據組內的相似性及組間的差異性,均方指標以及相關細數指標作為聚類分析的特征值,使用K-均值聚類分析法對Sector 進行聚類,根據聚類結果的輪廓值將樣本進行分類。

(1)K-均值聚類法

聚類分析是非監督式學習的重要領域。所謂的非監督式學習,是指樣本數據沒有類別標記,算法的目的是要從原始數據中提取一定的規律,將原始的樣本劃分為若干個不相交的子集,組內相似度高,組間相似度低。我們根據附件中的數據,對不同的Sector 依據受教育程度進行分類。

(2)相似度計算

聚類分析采用距離去衡量樣品之間的相似度,常用的距離有歐氏距離、馬氏距離及曼哈頓距離。在此,我們選取歐氏距離來計算樣本之間的相似度,歐氏距離的計算公式為:

余弦相似度是依據兩向量夾角的余弦值來比較兩個個體之間的差異性大小,而忽略兩向量在距離和長度上的差異,更加注重兩向量在方向上的差異。余弦的表達式為

相較于歐式距離,利用余弦相似度來計算樣本之間的相似度更精確,首先需要將樣本轉換成權值向量,通過計算兩個向量之間夾角的余弦值來評判他們之間的相似度。計算的結果范圍在(-1,1)之間,結果越接近于1,代表兩個方向越接近,結果月接近于-1,代表兩個方向越相反。為了方便分析結果,我們將余弦值做歸一化處理,將其轉化到(0,1)之間。

(3)性能度量

同一簇內的結果盡可能相似,不同簇的樣本結果盡可能不同,即簇內相似度高,簇間相似度低。將簇間劃分為C={C1,C2, …, CK},定義:

其中:μ 代表C 的中心點avg(C)代表平均樣本距離;diam(C)代表樣本間的最遠距離;dmin(Ci,Cj)代表簇Ci、Cj之間的最近樣本距離;dcen(Ci, Cj)表示簇Ci、Cj中心點間的距離。

基于以上指標可以推導出衡量聚類分析的內部指標為

DB 指數

Dumn指數

DB 指數是指任意兩個組內樣本的平均距離之和除以兩個組的中心點距離,并取其中的最大值,DBI 的值越小,組內距離越小,同時組間的距離越大;Dumb指數的計算方法是任意兩個組的最近樣本間的距。

(4)K-均值聚類分析

K-均值聚類是將數據劃分為K 個組的算法,由于考慮到畢業季的緣故,我們分別統計每一年的畢業高峰期:2016 年3 月、2017 年2 月、2108 年3 月,在3 個樣本中隨機選取一個月份進行聚類分析,得到的聚類分析的結果如下:

圖2 聚類分析的結果 Fig.2 Results of cluster analysis

由聚類分析的結果,可以清楚地看出前80 回和后40 回在詞語的運用方面有明顯的差別,因而可以初步論證前80 回和后40 回作者可能不是一人。

2 基于灰色預測的句意分析

通過分析《紅樓夢》中語義以及語句來區別兩個作者的寫作風格[6]。在文中找出有關反問句的特征詞如:難道、怎么、不是嗎等詞匯來區別兩個作者在反問句中的應用習慣。將全文均分成6 個章回,將前四個章回作為灰色預測的樣本,來對后兩個章回進行預測,通過預測值與真實值的關系來判斷前6 個章回與后兩個章回是否屬于一個作者。

Step1 數據處理

首先對統計的數據進行預處理,使用累加的方法以便弱化隨機序列的波動性和隨機性。

檢驗級比,進行數據可行性分析檢驗

表1 是以陳述句為例的累加效果

表1 累加結果 Tab.1 cumulative results

即原始數據 x(0)的1-AGO 數據列,且 x(1)的均值序列為

Step2 GM(1.1)模型的建立

(1)建立關于x(t)一階微分方程

(2)對累加生成的新數據做均值處理生成矩陣B 與常數向量Yn,即

(3)應用最小二乘法求解得

根據上式得到的預測結果如表2

表2 基于灰色預測的數值 Tab.2 Values based on Grey Prediction

Step3 模型分析

(1)計算Z(0)與(0)(t)之間的殘差e(0)(t)和相對誤差q(x):

(2)得到原始數據Z(0)的平均值及方差S1。

(3)求e(0)(t)的平均值以及殘差的方差S2。

(4)計算方差比c=s2/s1。

(5)求最小誤差概率P=P{|e(t)|<0.6745s1}

由Matlab 得出模型的各指標檢驗成果如下

表3 “陳述句”的檢驗成果 Tab.3 Testing results of "declarative sentences"

由以上數據可以看出,在1-20 章回,相對誤差為0,預測值較好地反映了真實的情況;在21-60章回,預測值與原始值的相對誤差分別為1.08%、1.49%、0.76%,均在2%以下小于5%,預測的誤差均在允許的范圍內,因此模型可以被接受。

同理對另一組數據進行處理得到

表4 “反問詞”的檢驗成果 Tab.4 Testing results of "rhetorical questions"

由反問句的檢驗結果可以看出:在1-20 章回,原始值與預測值的相對誤差為0,預測值真實地反映了真實的情況;在21-40 章回,預測值與原始值的相對誤差在1.57%,遠小于5%,所以,預測值還是能夠精確的反應真實情況;在41-60 章回,預測值與真實值的相對誤差為4.92%,略小于5%,預測值能夠反映真實值的情況;在61-80 章回,相對誤差的大小為3.67%,小于5%。綜合1-80 章回的檢驗結果,預測值與真實值的大小均小于5%,所以,預測值在一定程度上可以表達真實的情況。

綜合分析陳述句和疑問句在《紅樓夢》中出現的頻數,可得到相對真實的結果。

據統計在《紅樓夢》中有以下數據:

表5 不同章回句型對比 Tab.5 Comparison of sentence patterns in different chapters

根據上文分析在081-100 和101-120 章回中陳述句的預測值為:5794、6443。但是在實際的小說中陳述句在后四十回的頻數為:4827、4470。其相對誤差分別為:20.03%、44.13%。可見誤差偏大,即后四十回與前八十回相差較大,進而可以得出結論:前八十回與后四十回是分別由不同的兩個作者所撰寫。再通過利用Matlab 分析疑問句的使用頻數在081-100 和101-120 章回中的預測頻數為:378、315。根據表中數據分析可得其相對誤差分別為:18.50%、18.18%。

可見其相對誤差也偏大,同樣證明前八十回與后四十回是分別由不同的兩個作者所撰寫,與上述論證一致。

3 結束語

由以上結論可知:《紅樓夢》的前80 章回與后40 章回在“詞”以及“語句”的運用上存在很大的差異,根據文風的差異性推斷出:《紅樓夢》前80 章回與后40 章回不是一個作者。由統計的高頻詞在前80 章回與后40 章回頻數的差異性可以初步作出判斷,基于文本的特征聚類是一種數值統計學的結果,利用Matlab 做出的聚類分析的結果支持后40 章回不是曹雪芹所作。另外,選取了句式進行研究,以“陳述句”和“反問句”作為指標,分別利用灰色預測模型進行分析。他只需要四五個統計數據便可預測,自從鄧聚龍教授創立灰色系統開始到目前對于灰色系統的研究已經達到成熟的階段,本文中將《紅樓夢》均分成6 個階段,以前4 個階段作為灰色預測的樣本,將后兩個階段的預測值與真實統計的數值做殘差比較,說明后40 章回與前80 章回差異顯著。綜合得出:《紅樓夢》前80 章回與后40章回并非一人所作。

主站蜘蛛池模板: 一级毛片免费观看久| 一级毛片免费的| 国产精品亚洲五月天高清| 免费午夜无码18禁无码影院| 久久久久青草线综合超碰| 国产超碰一区二区三区| 波多野结衣一区二区三视频| 91黄视频在线观看| 国产成人精品2021欧美日韩 | 99re这里只有国产中文精品国产精品 | 国产成人精品综合| 永久免费精品视频| 国产精品美女免费视频大全| 一本久道久久综合多人 | 亚洲天堂视频网站| 国产亚洲美日韩AV中文字幕无码成人 | 黄色国产在线| 青青久视频| 日韩 欧美 国产 精品 综合| 国产香蕉一区二区在线网站| 日韩欧美国产精品| 国产成人综合在线视频| 黄色网在线免费观看| 日韩欧美高清视频| 夜夜爽免费视频| 亚洲日韩AV无码精品| 国产成人欧美| 久久一色本道亚洲| 99久久国产精品无码| 视频一区亚洲| 国产不卡网| 99在线观看国产| 欧美翘臀一区二区三区| 欧美一级在线| 青青极品在线| 久久久久人妻一区精品色奶水| 国产本道久久一区二区三区| 69免费在线视频| 国产成人区在线观看视频| 亚洲天堂伊人| 久久性妇女精品免费| 久久免费成人| 欧美伦理一区| 亚洲成人播放| 国产精品第一区| 永久在线精品免费视频观看| 国产国拍精品视频免费看| 中文字幕永久视频| 久久婷婷五月综合色一区二区| 超薄丝袜足j国产在线视频| 国产成人精品亚洲77美色| 在线观看免费人成视频色快速| 国产一区亚洲一区| 国产成人综合亚洲欧美在| 国产精品不卡片视频免费观看| 欧美精品二区| 国产91麻豆免费观看| 精品久久国产综合精麻豆| 青青青亚洲精品国产| 成人免费网站在线观看| 69视频国产| 在线国产欧美| 国产午夜一级毛片| 欧美a网站| 亚洲综合经典在线一区二区| 日韩A∨精品日韩精品无码| 67194在线午夜亚洲| 亚洲综合亚洲国产尤物| 一本大道视频精品人妻| 在线国产三级| 欧美日韩精品在线播放| 日韩欧美中文字幕一本| 午夜无码一区二区三区在线app| 91美女视频在线| 国产女人在线观看| 1级黄色毛片| 456亚洲人成高清在线| 欧美一区国产| 国产对白刺激真实精品91| 国产精品微拍| 国产91视频免费观看| 免费观看男人免费桶女人视频|