999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據視域下余華文學作品文本挖掘研究

2022-09-20 02:54:28楊秀璋武帥宋籍文任天舒廖文婧劉建義夏換于小民
現代計算機 2022年14期
關鍵詞:小說分析

楊秀璋,武帥,2,宋籍文,任天舒,廖文婧,劉建義,夏換,于小民

(1.貴州財經大學信息學院,貴陽 550025;2.漣水縣財政局,淮安 223400;3.貴州高速公路集團有限公司,貴陽550027;4.貴州財經大學貴州省經濟系統仿真重點實驗室,貴陽 550025)

0 引言

余華是國際文壇聲望最高的中國作者之一,其作品在國內外受到一致好評。對中國當代文學來說,以余華為核心的先鋒文學是一里程碑式的標志。余華作品文獻作為余華小說的交流與傳播的主要載體,有效地推動了余華小說的傳播。當前余華作品的研究主要采用期刊閱讀、電影觀賞、原著閱讀、相關講座論壇等。大數據環境下,研究成果層出不窮,大量學者各抒己見,對同一部小說往往有著不同的主題見解,從而不能精準地反映原作者的主題初衷。

隨著文學、電影等文化藝術的發展,近年來針對文學和電影等方面的研究和文藝批評,學者們針對某一作者和作品從不同角度進行解構,學術成果碩果累累、百花齊放。為了更精準地從海量學術成果中分析出主流的學術觀點,藉此了解文學作者和作品的主題特征、行文脈絡、思想傾向、主流觀點和發展脈絡等方面,為短時間內準確把握作者創作傾向和特點提供依據。

同時,國內外利用數據挖掘或機器學習算法深層次分析文學和電影作品的研究相對較少,傳統的文學和電影作品分析方法主要是基于劇情表現手法、視聽特效、時間維度、閱讀量或票房的,其分析方法比較單一,不足以直觀地呈現文學或電影作品深層次的主題,缺乏利用數據挖掘和社交網絡方法研究文學作品的熱點主題及關系脈絡。

針對這些問題,本文提出一種基于數據挖掘和主題演化的余華小說電影文獻的分析方法,結合數據可視化技術和社交網絡直觀地反映余華小說的發展歷程以及主題時間演化趨勢,發現各熱點關鍵詞之間的關系,進一步驗證余華小說“向死而生”的主題觀點。本文實驗數據為中國知網(CNKI)收錄的自1986年起至2019年7月5日的2825篇余華小說期刊文獻的相關數據。

實驗結果表明,本文的研究成果具有重要的理論研究意義和實用價值,通過大數據相關技術挖掘出了余華作品的核心主題、現實意義和藝術價值,為以其小說為素材的藝術創作盡可能還原原著主題起到積極作用,該方法可以為投資方和導演們的藝術創作或電影拍攝提供更好的建議,為觀眾提供更好的精神糧食。

1 相關研究

近年來,國內外學者致力于文獻主題演化研究并提出各自解決文獻主題的辦法。何偉林等提 出 一 種 名 為CSToT(content similaritytopicsover time)的主題模型,分析國內情報學領域2012-2016年的研究主題結構以及演化過程。朱茂然等提出一種基于隱性狄利克雷分布(LDA)主題演化模型分析中文情報學領域。王燕鵬通過人工判讀提煉主題分析科技文獻發展演化過程。曾利等基于標準LDA模型,依據時序關系進行切片,建立動態LDA主題模型分析科研發展趨勢。張子振等基于KL距離和LDA主題分析機器學習領域。楊秀璋基于LDA模型挖掘和文本聚類進行聚類分析水族文獻主題。許丹等基于主題詞法和自然語言法分析最新文獻新穎性。李軍蓮等基于多維特征概率通用度算法有效降低通用概念對文獻主題自動標引的噪音影響。馬思婷等基于CiteSpace分析中國醫養結合的熱點分析。Tran等基于AI主題分析抑郁癥治療。楊秀璋等基于綜合指數算法和知識圖譜分析水族文獻核心作者群。

余華小說和電影文獻作為余華作品分析研究成果的主要展現方式,有效地推動余華作品的發展。但傳統的余華作品研究方法缺乏核心作者以及核心主題的引導,其核心作者僅依據發文量來衡量,核心主題只是通過大眾普遍認知的主題來確立,缺乏嚴謹科學的核心作者及主題的確認方式。同時,沒有從多個角度去深層次挖掘余華作品的熱點關鍵詞、熱門期刊、核心作者以及主題演化趨勢,沒有深入剖析余華小說和電影主題關系網絡。

由此可見,開展人文數字交叉領域的研究成為了新的研究熱點。基于此,本文利用大數據和數據挖掘技術對余華作品相關的文獻開展研究。首先,本文提出一種依托普賴斯定律來確定核心作者候選人,結合發文量和引用量綜合指數方法確定排名前20位的余華作品核心作者;其次,基于頻次和共現矩陣確認核心主題詞,引入社交網絡和WordCloud等方法,結合可視化技術從多個角度深層次挖掘余華作品文獻的潛在規律,為以其小說為素材的藝術創作盡可能還原原著主題起著積極作用,推動文學研究發展。

2 框架模型

本文旨在對余華小說和影視作品在中國知網相關期刊文獻進行分析和研究,挖掘2825篇文獻的熱門期刊、機構,核心作者及熱點主題。其具體的流程如圖1所示。

圖1 余華小說文獻分析流程圖

具體流程如下:

(1)通過Selenium和Xpath技術抓取中國知網1986年至2019年7月間2825篇余華作品相關的學術期刊文獻,所抓取的相關字段包括文章標題、作者、出版社、出版日期、摘要、關鍵詞、下載量以及被引用量。

(2)對所抓取的文獻進行預處理操作,包括數值提取、缺失值填充、異常值判定、數據清洗、中文分詞、停用詞過濾等,從而得到質量更好的數據,提取文獻相關的主題特征并存儲。

(3)開展核心作者發現研究。利用計量統計分析挖掘重點引文機構,結合普賴斯定律篩選核心作者候選人,并基于綜合指數算法遴選核心作者。

(4)開展主題演化分析研究。通過CiteSpace進行時間序列主題演化,利用WordCloud詞云顯示熱點關鍵詞,基于Python共詞矩陣分析和社交網絡構建余華作品文獻的主題知識圖譜。

3 余華小說文獻核心作者發現

本文采用普賴斯定律計算余華作品核心作者候選人,再基于綜合指數算法結合文獻的發文量和被引用量來遴選研究余華作品文獻的核心作者。

3.1 引文機構分析

國內引文機構主要包括全國各大高校、研究院、圖書館以及部分事業單位和公司。本文針對所爬取的2825篇余華作品期刊論文的第一作者單位進行計量分析,得出如圖2所示的核心機構。

圖2 余華作品期刊文獻主要研究機構

其中刊載相關論文數量排名前三位的分別是:浙江師范大學(共刊載76篇)、南京師范大學(共刊載55篇)、遼東師范大學(共刊載48篇);論文總下載量最高的三個機構分別是:浙江師范大學(共被下載52893次)、武漢大學(共被下載33168次)、南京大學(共被下載32955次);論文總被引用量最高的三個機構分別是:復旦大學(共被引用443次)、浙江師范大學(共被引用357次)、南京大學(共被引用264次)。

3.2 普賴斯定律計算候選人

(1)依托普賴斯定律統計最低發文量來確定核心作者候選人,其計算公式如(1)所示:

公式(1)中為普賴斯定律統計的發表余華作品文獻最高發文量,余華作品個人最高發文量為20,依據普賴斯定律確認余華作品核心作者候選人最低發文量為4。

(2)依托普賴斯定律統計最低被引用量來確定核心作者候選人,其計算公式如(2)所示:

公式(2)中為普賴斯定律統計的發布余華作品文獻最高被引用量,余華作品文獻單篇文章最高被引用量為216,依據普賴斯定律確認核心作者候選人最低被引用量累計次數為11。

(3)篩選符合第(1)、(2)步的作者并進行重新統計,最終確定余華小說文獻核心作者候選人共186位,候選人共發表499篇關于余華作品期刊論文,總被引用量為7290次。

3.3 綜合指數遴選核心作者

本文將采用綜合指數算法,從186位核心作者候選人中選出前20位研究余華作品的核心作者,具體步驟如下:

(1)計算核心作者候選人的平均發文量。表示余華作品文獻的核心作者總發文量,表示核心作者候選人數,其計算公式如(3)所示:

(2)計算核心作者候選人的平均被引用量。表示余華作品文獻的核心作者總被引用量,表示核心作者候選人數,其計算公式如(4)所示:

(3)依據發文量和被引用量構建綜合指數。score表示第位余華作品核心作者候選人的綜合指數得分,x表示第位核心作者候選人的發文量,y表示其總被引用量,發文量系數和被引用量系數均為0.5。具體公式如(5)所示:

運用此綜合指數算法得出余華作品相關期刊文獻的前20位核心作者,如表1所示。從表1可以看出,余華就自己的作品發表了近20篇期刊文章,并且被引用量最高,綜合指數為12.49;洪治綱發表余華作品相關的文獻15篇,被引用量為325,綜合指數為6.61;葉立文發表余華作品相關的文獻12篇,被引用量為263,綜合指數為5.32。通過綜合指數算法推算出這20位核心作者所發表有關余華作品的期刊論文具有較強的參考價值,他們也是余華作品的核心研究群體。

表1 余華小說相關文獻核心作者

4 余華作品文獻主題演化分析

關鍵詞作為論文的重要部分,可以反映論文研究的核心主題和主旨。余華作品相關文獻的關鍵詞共詞分析和核心主題挖掘,可以把握該領域的研究方向和熱點主題。本文對1986年至2019年中國知網收錄的2825篇期刊論文的關鍵詞進行熱點主題挖掘分析,提出了一種基于共現矩陣和社交網絡的熱點主題識別方法,構建中國知網余華作品熱點關鍵詞的共現關系,從而挖掘出其核心主題,以及發現余華作品的核心主題隨時間推移發生演化過程。

4.1 CiteSpace時間序列主題演化

CiteSpace時間序列主題演化主要是以時間發展為軸的主題演化分析,本文基于余華作品的相關文獻研究生成了主題演化圖,如圖3所示。

圖3 基于時間序列的余華作品文獻主題演化

圖中每個節點代表一個主題,時間橫跨1986年至2019年,兩點之間的連線表示各主題之間的共現關系。通過考察詞頻的時間分布,將主題和關鍵詞變化率高的詞從大量的主題詞中挖掘出來,依靠詞頻的變化趨勢,來確定主題前沿領域和發展趨勢。分析發現,2007年各主題開始匯交于電影、電視主題,可大致推算從那一年起以余華小說為素材和主題的影視劇拍攝增多。其核心主題包括“小說家”、“呼吸與細雨”、“心理描寫”、“神秘主題”、“余華小說”“哲學”“故事”“現代主義文學”“中國當代文學”等。總之,近三十年來我國學者對余華作品的相關研究經歷了由點到線、由線到面的發展歷程,主要以故事情節、藝術價值、心理描寫為主。通過時間序列主題演化研究,更加客觀準確地還原了原著主題,把握作者創作傾向,為將余華作品改編為影視劇創作提供依據。

4.2 高頻詞統計分析

來自中國知網與余華作品相關的2825篇期刊文獻共涉及關鍵詞5245個,關鍵詞出現總次數為14369次,每個關鍵詞出現的平均頻次約為2.74次。該領域3950個關鍵詞僅出現1次,占總關鍵詞數的75.3%;593個關鍵詞出現2次,占總關鍵詞數的11.3%;出現頻次在5次及以上的高頻關鍵詞共353個,共出現8066次,占所有關鍵詞出現總次數的56.1%。同時,“余華”“活著”“小說”是出現頻率最高的三個關鍵詞,分別出現1400次、428次和277次,緊接著是“余華小說”“許三觀賣血記”“苦難”“第七天”“先鋒小說”“文學”“許三觀”“福貴”“死亡”“兄弟”“人性”“在細雨中呼喊”等關鍵詞。充分體現了余華小說“向死而生”的主題,以及對人性和生命的描寫,從小說升華到藝術價值,WordCloud生成的詞云分布圖如圖4所示。

圖4 余華作品文獻關鍵詞的詞云圖

4.3 關鍵詞共詞分析

針對高頻關鍵詞無法反映詞語和主題之間的內在關聯,不能全面揭示出文獻的研究熱點及關鍵詞動態。本文采用共詞分析方法構建余華作品文獻的關鍵詞共現矩陣,如公式(6)所示,當兩個關鍵詞共同出現在一篇學術文章中,則認為共現并構建一條相關聯的邊,其邊對應的權重加1;反之,兩個關鍵詞不存在共現關系,其權重為0。

共詞分析中,兩個關鍵詞共同出現的次數越多,說明關鍵詞聯系越緊密,越能體現主題的研究內容相關聯;如果共現次數為0,說明兩個關鍵詞之間沒有關系。本文根據余華作品文獻關鍵詞共現分析,得出了如表2所示的文獻共現高頻詞。其中排名前5位的分別是:“余華”和“小說”,共現230次;“余華”和“作家”,共現187次;“余華”和“活著”,共現175次;“余華”和“許三觀賣血記”,共現116次;“余華”和“第七天”,共現83次。

表2 余華作品期刊文獻共現高頻詞表

4.4 關鍵詞社交網絡分析

采用Gephi軟件構建余華作品文獻關鍵詞共現知識圖譜,為使熱點主題詞之間的關系更加明細,過濾掉共現權重為5以下的關系,形成如圖5所示的核心主題共現圖譜。圖中圓圈表示關鍵詞,連線表示共現關系,連線越粗表示其共現次數越多,反之越少。該圖譜共包括790個核心主題節點,2687條邊,模塊化系數0.127,平均路徑長度2.417,居于中心位置的主題是“余華”,其他的主題詞逐漸向邊緣分布擴散。其中“余華”和“小說”“作家”“活著”“許三觀賣血記”“第七天”“苦難”“文學”“福貴”“先鋒”等關鍵詞共現明顯,其連線較粗。從圖5可以發現余華作為關系核心與各個主題詞之間均有聯系,其核心主題分布明顯,這些關鍵詞能更有效地推動余華小說改編為影視作品以及藝術創作。

圖5 余華作品期刊文獻的主題關系圖譜

接著通過過濾算法進一步提取余華小說文獻的核心主題關鍵詞,構建社交網絡關系,繪制如圖6所示的關系圖譜。其核心特征詞共23個,存在關系317條,主要集中于余華的作品、人物和小說主題。其中,作品包括《許三觀賣血記》《活著》《在細雨中呼喊》《第七天》,人物包括“福貴”“余華”“馬原”等,小說主題包括“活著”“苦難”“人性”“暴力”等,以及“文學史”“先鋒文學”“先鋒”等積極評價。通過上述分析,本文從數字人文視域對余華小說作品進行了主題關聯分析,進一步挖掘出余華小說的文學色彩,有效幫助學者實施智能化文本挖掘,發揚傳統文化。

圖6 余華作品核心主題關系圖譜

5 結語

當前社會,文學作品改編影視劇已成為熱潮,電影創作者們對文學作品的二次創作,往往建立在對作家和作品的個人理解上,同時要充分考慮原著的精髓和絕大多數受眾對原著的認識等方面。為了更加客觀準確地還原原著主題、把握作者創作傾向,為影視劇改編創作提供依據,本文提出了一種基于數據挖掘和主題演化的分析方法,分析余華作品的核心作者和熱點主題,并揭示出余華作品的發展歷程、關鍵詞共現關系及主題演化趨勢。

本文抓取了中國知網1986年至2019年7月間2825篇余華作品相關的學術期刊文獻,并進行了詳細的分析與研究。實驗結果表明,本文的研究成果具有重要的理論研究意義和實用價值,通過大數據相關技術挖掘出了余華作品的核心主題、現實意義和藝術價值,為以其小說為素材的影視改編、藝術創作盡可能還原原著主題起到積極作用,可以提供有效參考和借鑒。

猜你喜歡
小說分析
叁見影(微篇小說)
紅豆(2022年9期)2022-11-04 03:14:42
遛彎兒(微篇小說)
紅豆(2022年9期)2022-11-04 03:14:40
勸生接力(微篇小說)
紅豆(2022年3期)2022-06-28 07:03:42
隱蔽失效適航要求符合性驗證分析
那些小說教我的事
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
明代圍棋與小說
西南學林(2014年0期)2014-11-12 13:09:28
中西醫結合治療抑郁癥100例分析
我是怎樣開始寫小說的
百花洲(2014年4期)2014-04-16 05:52:45
主站蜘蛛池模板: 日韩第九页| 一区二区三区精品视频在线观看| 成人精品免费视频| 国产97色在线| 影音先锋亚洲无码| 国产一区二区免费播放| 狠狠色婷婷丁香综合久久韩国| 日韩成人午夜| 美女亚洲一区| 午夜日b视频| 国产丝袜91| 国产成人精品一区二区| 国产真实乱了在线播放| 亚洲人成网站在线播放2019| 欧美在线国产| 亚洲av日韩av制服丝袜| 丝袜久久剧情精品国产| 国产午夜人做人免费视频中文| 97超碰精品成人国产| 久久综合九色综合97网| 韩国福利一区| 在线欧美a| 国产视频大全| 88av在线播放| 精品91自产拍在线| 免费人成视频在线观看网站| 永久免费无码日韩视频| 午夜性爽视频男人的天堂| 激情无码字幕综合| 亚洲熟女中文字幕男人总站| 无码精品一区二区久久久| 久久久精品国产SM调教网站| 有专无码视频| 国产波多野结衣中文在线播放 | 亚洲欧洲国产成人综合不卡| 精品久久香蕉国产线看观看gif| 找国产毛片看| 激情無極限的亚洲一区免费| 国产清纯在线一区二区WWW| 久久亚洲中文字幕精品一区| 久久综合色天堂av| 日本中文字幕久久网站| h视频在线播放| 久久国产热| 国产精品制服| 日韩麻豆小视频| 日韩一区二区在线电影| 91久久偷偷做嫩草影院免费看| 色久综合在线| 国产一级做美女做受视频| 色精品视频| 5555国产在线观看| 99人体免费视频| 天天躁狠狠躁| 亚洲精品无码成人片在线观看| 国产91视频免费| 91视频免费观看网站| 国产精品思思热在线| 亚洲另类国产欧美一区二区| 国产成人亚洲欧美激情| 国产三级视频网站| 一级看片免费视频| 国产精品午夜福利麻豆| 999国产精品永久免费视频精品久久| 久久大香伊蕉在人线观看热2| 国产地址二永久伊甸园| 亚洲欧美一区二区三区图片| 欧美一级视频免费| 伊人AV天堂| 国模视频一区二区| 国产一区二区福利| 国产综合另类小说色区色噜噜| 欧美黄色网站在线看| AV网站中文| 国产对白刺激真实精品91| 青青青国产视频手机| 亚洲人成日本在线观看| 一级成人a毛片免费播放| 国产激情影院| 亚洲天堂网2014| 亚洲欧美在线综合一区二区三区 | 亚洲综合专区|