999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

運用基于統計學建立的數學模型解決《紅樓夢》作者之謎

2019-04-29 00:14:12陳城鈺于欣雨蘇世杰
數學學習與研究 2019年7期

陳城鈺 于欣雨 蘇世杰

【摘要】本文借助數學知識建立一元線性回歸模型,利用最小二乘法來擬合出虛詞頻率直線,通過分析虛詞頻率的差異,來推斷《紅樓夢》作者的問題.根據建模分析,得出前80回與后40回不是同一個作者的結論.

【關鍵詞】紅樓夢;線性回歸;詞向量

《紅樓夢》是具有高度思想性和藝術性的偉大作品,因某些歷史原因,在傳播過程中出現了增補、修訂的現象.本文借助數學模型,對《紅樓夢》前80回與后40回作者是否為同一人進行了研究.

一、問題的分析

本文作者在前期研究中發現,《紅樓夢》主要人物出現的頻率受小說情節的影響較大,雖能在一定程度上體現出作者的差異,但并不明顯.

現代漢語言文學研究認為,虛詞的使用更能夠體現出作者的寫作習慣與語言風格.因此,通過大規模的統計與合理地建模,對不同章回中相同的虛詞進行頻率分析,得出每章回作者的語言習慣,在誤差范圍內進行比較和判斷,可判斷不同章回之間作者的異同.

二、模型假設

1.同一個作者,認為他對詞、句法的使用習慣基本保持不變,作品中的虛詞出現頻率幾乎沒有差別;

2.不同的作者之間,詞匯的使用習慣、詞與詞的相關性處理、長短句的偏好有較大的差別;

3.本次所用《紅樓夢》版本為作者成書時原貌,成書后,除去遺失的原稿外,在傳播過程中無其他人的修訂.

三、數據概覽

在使用模型對虛詞詞頻進行分析之前,使用MATLAB語言對虛詞在前后章節中出現的次數差異進行了統計,為模型的建立及其結果提供有力論據.

采用Python語言及Jieba分詞插件進行詞頻統計,挑選了“再、可、別、為、之、啊、咧、嗎、呀、仍、要、也、尚、偏、很、比、越、往、向、讓、故、皆”22個在一般古漢語中高頻出現的虛詞進行統計比對,發現對虛詞的使用偏好在前后兩部分出現了巨大差異,如“嗎”在前半部分出現頻率0.0375次/回,而在后半部分出現頻率1.875次/回,驗證了前后部分是由語言習慣相差明顯的兩位作者分別完成的推論.之后的模型求解均基于該理念完成.

四、模型的建立

本文通過建立一元回歸方程,對虛詞頻率位次的分析來估計不同文本之間虛詞的頻率異同.作者取樣同一部小說中的大量虛詞,根據虛詞的頻率從小到大排列,視其位次為自變量x1,x2,…,xn.以虛詞對應的頻率為因變量,記y1,y2,…,yn,并在直角坐標系上制得散點圖,并用最小二乘法擬合出詞頻——虛詞序次直線.其中,b為該直線在y軸上的斜率,a為該直線在x軸上的截距,且滿足方程如下:

b=∑ni=1(xi-x)(yi-y)∑ni=1(xi-x)2=∑ni=1xiyi-nx y∑ni=1x2i-nx2,

a=y-bx.

線性相關系數(R2):由于之后的線性回歸模型需要以一個同類隨機樣本虛詞的順序為基準,因此,兩個變量之間的關系強度無法得到保證.此時需要計算每條擬合直線的線性相關系數,即R2來判斷兩個變量之間的線性關系密切程度,在該問題中表現為虛詞的位次與頻率是否大致與隨機樣本一致.

觀測數據(xi,yi),i=1,2,…,n的樣本相關系數

R=∑ni=1(xi-x)(yi-y)∑ni=1(xi-x)2∑ni=1(yi-y)2

=∑ni=1xiyi-nx y∑ni=1x2i-nx2∑ni=1y2i-ny2 .

根據統計學知識,在本數學模型中規定:當0.75

由假設可知,同一作者作品中虛詞詞頻是一致的.因此,如果各章節作者相同,那么相同的一組虛詞按照不變的排序后,所擬合出的直線近似一致.并且,由于相同虛詞在不同作者作品中詞頻不同,所以一組虛詞按照不變的順序排序后,擬合出的詞頻-虛詞直線一般不同,且擬合效果一般較差.同時,相關系數也與擬合直線的斜率一同作為判斷依據:當斜率相差小且擬合效果好時,認為匹配成功;否則,認為匹配失敗.

五、標準數據設立

為了論證虛詞詞頻的異同能夠體現作者的異同,首要任務是建立各線性回歸方程斜率之間的可承受誤差區間,即標準數據.本文選用已確認由唯一作者書寫的《西游記》為參數來源.

數據獲得步驟:將100回的《西游記》平均分為前后各50回兩個部分;通過Python語言及Jieba分詞插件得出總出現頻率較高的虛詞:嗎、仍、越、讓、其、比、但、可;使用MATLAB語言對這8個虛詞的出現次數及頻率進行統計;以前50回中8個虛詞的頻率升序為基準,將前后兩部分的數據制作成散點圖,并繪制出各自的線性回歸方程.兩方程斜率的差即為該問題中可接受的誤差,即在該范圍內可認為兩篇文本出自同一作者.

進行多組數據比對,作者認為以1±0.1為標準數據具有適用性.

六、模型的求解

為使數據盡量可控、精細,將《紅樓夢》以每10回劃分為1節,分別從前8節和后4節中各抽出1節作為順序基準.求解過程中21~30回和101~110回被隨機選中.剩余10節分別以這兩節的順序為基準,構建一元線性回歸方程,通過對線性相關系數及斜率的比較,將剩余10節歸入到誤差較小即在標準數據內的那組,由此確認120回中哪幾回屬于同一個作者.

使用盲眼測試法,即將章回數當作未知數據,通過將該小節以兩個數據基準數據得出的散點圖及線性回歸方程與其基準進行比較,得出更接近基準的該組即為該小節所屬部分.

以31~40回小節為例進行歸類,將兩組數據的相對差距進行比較:

以21~30回為基準時,線性相關系數為0.765 223 92,擬合效果出色,適合進行方程截距比較;截距與基準之比為0.765 223 920.810 458 30=0.944 186 666,將該比值與標準數據1±01進行絕對差距比較,發現在可承受范圍內.

以101~110回為基準時,該小節線性相關系數為0392 719 34,擬合效果偏差,不宜進行方程截距比較;為使得結果更合理、有力,進一步進行截距比較:截距與基準之比為0.392 719 340.855 150 40=0.459 240 082.再將比值與標準數據1±01進行絕對差距比較,發現遠超出可承受范圍.

由于第31~40回與21~30回擬合效果出色,比值在合理范圍內;與101~110回擬合效果較差,比值超出范圍.因而,可以得出31~40回小節屬于前80回.

將剩余9小節按照如上方法進行比對,結果顯示前80回在以21~30回為基準的可接受范圍內;后40回在以101~110回為基準的可接受范圍內.

七、結 論

綜上所述,通過虛詞詞頻的一元線性回歸模型,可以得出《紅樓夢》前80回與后40回分別由兩位作者撰寫的結論.

【參考文獻】

[1]李賢平.《紅樓夢》成書新說[J].復旦大學學報社科版,1987(5):3-16.

[2]韋博成.紅樓夢前80回與后40回某些文風差異的統計分析[J].應用概率統計,2009(4):441-448.

[3]吳軍.數學之美:第2版[M].北京:人民郵電出版社,2014.

[4]韋博成.漫談統計學的應用與發展[J].數理統計與管理,2011(1):85-97.

主站蜘蛛池模板: av午夜福利一片免费看| 日韩免费毛片| 亚洲日韩国产精品综合在线观看| 欧美国产在线看| 国产精品香蕉在线观看不卡| 美女一级毛片无遮挡内谢| 国产视频一二三区| 日本高清免费不卡视频| 狼友视频一区二区三区| 不卡色老大久久综合网| 色婷婷视频在线| 亚洲无码高清一区| 国产精品hd在线播放| 欧美在线黄| 国产h视频免费观看| 老司机久久99久久精品播放| 国产欧美中文字幕| 国产精品13页| 成人综合在线观看| 亚洲欧美不卡视频| 免费无码AV片在线观看国产| 日本妇乱子伦视频| 99视频有精品视频免费观看| 性视频久久| 色网在线视频| 天堂va亚洲va欧美va国产| 韩日无码在线不卡| 亚洲精品少妇熟女| 国产成人精品一区二区免费看京| 99久久婷婷国产综合精| 久久青草免费91线频观看不卡| 成人a免费α片在线视频网站| 欧美无专区| 精品自窥自偷在线看| 中文字幕欧美日韩高清| 精品丝袜美腿国产一区| 国产成人91精品| a免费毛片在线播放| h视频在线播放| 国产亚洲欧美在线中文bt天堂 | 亚洲日韩精品欧美中文字幕 | 国产成人综合亚洲网址| 91福利在线看| 99视频在线免费观看| 97se亚洲综合在线韩国专区福利| 欧美精品在线视频观看| 亚洲αv毛片| 美女扒开下面流白浆在线试听| 亚洲成人高清在线观看| 久视频免费精品6| 久久精品66| 国产午夜福利亚洲第一| 亚洲一道AV无码午夜福利| 伊伊人成亚洲综合人网7777| 亚洲91精品视频| 动漫精品中文字幕无码| 刘亦菲一区二区在线观看| 又爽又大又光又色的午夜视频| 激情午夜婷婷| 999福利激情视频| 91网红精品在线观看| 亚洲精品成人7777在线观看| 91麻豆精品国产高清在线| 国产无吗一区二区三区在线欢| 国产综合另类小说色区色噜噜 | 亚洲丝袜中文字幕| 国产自在线播放| 亚洲精品动漫| 国产特一级毛片| 丰满少妇αⅴ无码区| 国产一级无码不卡视频| 91无码人妻精品一区| 亚洲人成网站在线播放2019| 国产成人三级| 日本精品中文字幕在线不卡 | 亚洲AV电影不卡在线观看| 欧美日韩激情在线| 丰满人妻中出白浆| 国产精品毛片一区| 亚洲视屏在线观看| 最新国产高清在线| 久久黄色小视频|