999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于社交網(wǎng)絡的小說聚類

2018-12-21 01:56:22樓鍇毅霸元婕李紹昂
軟件工程 2018年10期
關鍵詞:小說

樓鍇毅 霸元婕 李紹昂

摘 要:目前小說的受眾群體越來越大,其中蘊含著巨大的商業(yè)價值。文本聚類的研究領域也在突飛猛進,但對于其中的現(xiàn)實領域:小說聚類,相關的研究卻較少。本文研究了一種基于小說中的社交網(wǎng)絡對其進行聚類的方法。該方法首先提取出小說中的社交網(wǎng)絡,在得到網(wǎng)絡的特征向量后,基于其進行聚類,并將結(jié)果與依據(jù)小說作者的劃分進行對比。實驗結(jié)果表明,該方法可以在一定程度上反映出不同作者寫作風格的不同,效果可以接受,并擁有進一步提升的可能。

關鍵詞:小說;社交網(wǎng)絡;聚類算法

中圖分類號:TP391.1 文獻標識碼:A

Abstract:At present,more and more people are reading novels,which contains great commercial value.The research field of text clustering is also advancing by leaps and bounds,but for the real practice—novel clustering,there are few related researches.This paper uses a method based on social network in the novel to cluster it.The method first extracts the social network in the novel.After obtaining the feature vector of the network,it clusters based on it and compares the result with the division according to the author of the novel.The experimental result shows that the method can reflect the different writing styles of different authors to a certain extent,the effect is acceptable,and further improvement is possible.

Keywords:novels;social network;clustering algorithm

1 引言(Introduction)

隨著第三產(chǎn)業(yè)的發(fā)展,移動互聯(lián)網(wǎng)時代的到來,文娛產(chǎn)業(yè)對人們?nèi)粘I畹挠绊懺絹碓酱螅貏e是近幾年小說的受眾群體越來越大,因此基于小說的各種文學定量分析越來越成為重要的課題。與此同時,以機器學習和統(tǒng)計方法為基礎,各種各樣的文本分類技術也在飛速發(fā)展。特別是在近幾年來,基于CNN、RNN等深度神經(jīng)網(wǎng)絡的相關方法取得了很好的結(jié)果,因此人們對文學分析定量方法的研究興趣也日益增加[1,2]。

小說的關鍵維度包括形式、結(jié)構、人物、情節(jié)等。目前來講,人們對其的定量研究大多集中在形式和內(nèi)容上。而對于小說中的情節(jié)、結(jié)構、人物關系等,由于其量化較為復雜,而少有研究[3]。在本文中,我們實現(xiàn)了基于小說中的社交網(wǎng)絡的聚類。我們首先提取出小說中的社交網(wǎng)絡,之后得到其特征向量并根據(jù)其進行聚類。因此,聚類的結(jié)果也是根據(jù)小說結(jié)構進行的分組,通過與小說作者的對比,我們也能得到小說社交網(wǎng)絡與小說的風格流派和作者風格特征的聯(lián)系程度。

2 相關工作(Related work)

2.1 文本分類

文本分類的相關研究可以追溯到20世紀50年代,而到目前它已經(jīng)成為了NLP領域的經(jīng)典問題,一直到現(xiàn)在都是人們研究的熱點。而其算法的發(fā)展,也伴隨著人工智能研究領域的發(fā)展而不斷地更新。在20世紀,文本分類往往基于規(guī)則和語料庫,其雖有準確率高等優(yōu)點,但是耗費資源過多、可移植性很差。到了20世紀90年代的時候,人工智能的研究領域開始向基于統(tǒng)計和數(shù)據(jù)驅(qū)動的方法過度,與此同時基于特征工程和各種分類器的文本分類方法也開始逐漸興起。

但是傳統(tǒng)分類方法依然存在著諸多不足,比如特征表達能力較弱,成本較高,等等。近年來,隨著深度學習的發(fā)展,基于其的一些方法也開始被應用到了文本分類的領域。深度學習解決文本分類問題,一般都是先解決文本表示,之后利用CNN、RNN等自動獲取特征表達能力,從而端到端的解決問題[4]。

2.2 文學計算分析

自從計算機誕生之后,人們便一直嘗試將其算法應用到文學分析的領域,即文學的計算分析。這種方法往往用定量的方式,基于文本的語言結(jié)構特征對文章的風格進行刻畫。因此,這種研究方法最重要的就是兩個問題:語言特征的選擇和研究方法的選擇。不過一般來講,大多數(shù)方法利用的都是基于主題和內(nèi)容的特性。然而對于一部小說來講,我們不應該只從標點、詞法、句法、語義的維度進行分析。這種文學形式還有情節(jié)、人物、敘事結(jié)構,等等。可以說每一部小說都是一個社會的縮影[5]。

因此,人們也逐漸開始關注量化情節(jié)的方法,以及人物對情節(jié)的影響。特別是可以將小說刻畫成社交網(wǎng)絡,并通過其研究小說中的情節(jié)結(jié)構。目前,通過提取復雜網(wǎng)絡并基于其分析文本已經(jīng)成為了一個十分重要的學術流派。人們的研究表明,通過提取小說中的人物關系網(wǎng)絡來分析小說中社會結(jié)構、意義和作者觀點是完全可行的。

3 網(wǎng)絡的構建(Network construction)

3.1 人物的自動識別

社交網(wǎng)絡起源于網(wǎng)絡社交,目前可以理解為一種形容人際關系的網(wǎng)絡結(jié)構,其本身作為一種復雜網(wǎng)絡,可以反映出網(wǎng)絡中點與點之間的聯(lián)系。而在小說中,每個人物正是社交網(wǎng)絡中的結(jié)點,人物與人物之間的關系為社交網(wǎng)絡的邊。因此,一般將其分為四個步驟:人物角色標記、角色指代消解、人物關系識別與網(wǎng)絡關系表示[6]。在人物角色標記中,需要識別出所有表示人的單詞;在角色指代消解中,需要將代詞或者非人名的詞替換為其指代的人名;在人物關系識別中,需要識別并提取人與人之間的關系;關系網(wǎng)絡表示則是將網(wǎng)絡用數(shù)學模型表示出來。

在人物自動識別這一步驟中,需要解決的問題是人物關系識別和指代消解,其也被稱為命名實體識別。而對于這類問題,籠統(tǒng)地可以分為三種解決的方法:基于規(guī)則的方法、基于統(tǒng)計的方法和近年來興起的基于深度學習的方法。基于規(guī)則的方法一般由語言學專家手工構造規(guī)則模版,因此存在代價大、移植性差等缺點,目前只有在數(shù)據(jù)量小或者非常特殊的場合才會使用。基于統(tǒng)計的方法有:隱馬爾科夫模型、較大熵模型、支持向量機、條件隨機場等,這類方法一般對語料庫的依賴較大。近年來隨著深度學習的發(fā)展,人們也將其應用到了命名實體識別中,一般方法為將NN、CNN、RNN與條件隨機場結(jié)合[7,8]。本文采用的方法是條件隨機場,采用開源工具CRF++。

條件隨機場,一般簡稱為CRF,由于其具備長距離依賴性和交疊性能力,是目前一種非常常用的用于命名實體識別的,判別式的概率圖模型[9]。定義無向圖G=(V,E),單詞序列x=(x1,x2,…,xn),每個單詞x_i有對應的實體類型標記yi,標記序列集合y={yi}。則節(jié)點集合V為單詞或其對應的實體標記類型,邊集合E表示單詞對應節(jié)點與該單詞實體標記類型對應節(jié)點間的連線,于是(x,y)構成一個條件隨機場。由于鏈式結(jié)構為最簡單的結(jié)構和建模方式,因此人們一般采用的是線性鏈條件隨機場,如圖1所示。

轉(zhuǎn)移函數(shù)和狀態(tài)函數(shù)均為特征函數(shù),一般取0或1,即滿足特征函數(shù)的為1,否則為0。若將它們統(tǒng)一用特征函數(shù)的形式來表示,再加上歸一化的過程,則可以得到最終條件隨機場的條件概率公式為

對于其中的參數(shù),一般采用極大似然法進行估計,并采用迭代技術來確定參數(shù)。

3.2 網(wǎng)絡的構建

對于小說中的人物關系識別,一般有兩種方法:基于人物對話的方法和基于人物共現(xiàn)的方法[6]。第一種方法為只考慮小說中的對話,即如果兩個角色有語言或者對話的交互,就將兩個角色進行關聯(lián),得到的網(wǎng)絡為人物對話網(wǎng)絡。這種方法為目前大多數(shù)文獻所采用,尤其是對于劇本這種只通過對話來進行角色間互動的文本,該方法十分有效。但是,對于大多數(shù)小說,人物間的許多互動都是通過敘述者的描述或者間接的互動來完成的。這時我們就應該考慮第二種方法,即通過人物間的共現(xiàn)關系來構建網(wǎng)絡,每當兩個角色出現(xiàn)在同一個文本窗口或者語境下時,將二者進行關聯(lián),得到的網(wǎng)絡為人物共現(xiàn)網(wǎng)絡。在本文中,我們使用Python庫Networkx來構建網(wǎng)絡,并將其存儲在表示人物關系的鄰接矩陣中。

4 計算與聚類(Calculation and clustering)

4.1 特征選擇

我們可以把特征分為兩種。第一種為網(wǎng)絡的拓撲特征,其指標有度分布、集聚系數(shù)、網(wǎng)絡特征路徑長度、直徑、主節(jié)點的相關性等。但是對于小說而言,其更像一個小型的社會,所以我們還應該考慮社會指標。一些常考慮的社會指標包括男性角色比例、視角的比例,等等。通過這些特征,我們可以分析出小說中社交網(wǎng)絡的結(jié)構特性,并根據(jù)其進行聚類[5]。

4.2 聚類

本文采用k-means算法進行聚類,它是目前最簡單的聚類算法之一,也是應用最廣泛的一種聚類算法。其具體過程可以分為四步:選擇k個初始聚類中心,根據(jù)對象與中心的距離對其重新劃分,計算更新后的均值,迭代至測度函數(shù)收斂。在算法中,k值即為數(shù)據(jù)集中作者的個數(shù),初始聚類中心為數(shù)據(jù)集中隨機選擇的k個值,距離將采用余弦距離,即通過向量空間中兩個向量夾角的余弦值來衡量個體間差異的大小,公式為

5 實驗(Experiment)

5.1 實驗語料

本文共選取了65篇小說作為語料,分別來自作家卡夫卡、張愛玲、老舍、狄更斯,數(shù)據(jù)集見表1。

5.2 評測指標

本文主要采用常見的三種指標:準確率、召回率與F1值。

其中,A表示正確識別的相關小說數(shù),B表示識別的小說數(shù),C表示相關的小說總數(shù)。

5.3 實驗結(jié)果

由于我們的語料分別來自四位作家,因此在我們的聚類算法中,將k設為4。最終算法將會把所有的小說分為四類,我們以每類含有的最多的小說作者作為該類的標簽,并以此作為評價的基準。我們將計算準確率、召回率、F_1值,并將其作為評價我們算法的依據(jù)。實驗結(jié)果如表2所示。

6 結(jié)論(Conclusion)

目前的文學定量分析方法大多是基于文本的形式和內(nèi)容,對于結(jié)構、情節(jié)、人物關系等的量化與分析方法較少。在本文中,我們基于小說本身就是一個小型社會的特點,研究了基于社交網(wǎng)絡對小說進行聚類的方法。在實驗中,我們發(fā)現(xiàn)小說的社交網(wǎng)絡能夠在一定程度上反映出小說的風格流派及作者的風格特征。該方法具備一定的實用性,并且有進一步提升的可能。

參考文獻(References)

[1] Abualigah L M,Khader A T,Al-Betar M A.Unsupervised feature selection technique based on harmony search algorithm for improving the text clustering[C].International Conference on Computer Science and Information Technology,IEEE,2016:1-6.

[2] Scrivner O,Davis J.Interactive Text Mining Suite: Data Visualization for Literary Studies[C].Corpora in the Digital Humanities,2017.

[3] Jarynowski A,Boland S.Social Networks Analysis in Discovering the Narrative Structure of Literary Fiction[J].Biuletyn Instytutu Systemow Informatycznych,2013,12(2):35-42.

[4]Ji Y L,Dernoncourt F.Sequential Short-Text Classification with Recurrent and Convolutional Neural Networks[C].North American Chapter of the Association for Computational Linguistics,2016:515-520.

[5] Ardanuy M C,Sporleder C.Structure-based Clustering of Novels[C].The Workshop on Computational Linguistics for Literature,2014:31-39.

[6] 劉海燕,尹曉虎.文學作品中的“小世界”——菲茨杰拉德小說人物關系網(wǎng)絡的實證分析[J].統(tǒng)計與信息論壇,2015,30(12):102-107.

[7] Chen L C,Papandreou G,Kokkinos I,et al.Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs[J].Computer Science,2015(4):357-361.

[8] Ritter A,Clark S,Etzioni O.Named entity recognition in tweets:an experimental study[J].Emnlp,2011,61(3):1524-1534.

[9] Lafferty J D,Mccallum A,Pereira F C N.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C].Eighteenth International Conference on Machine Learning.Morgan Kaufmann Publishers Inc.2001:282-289.

作者簡介:

樓鍇毅(1996-),女,本科生.研究領域:數(shù)據(jù)挖掘.

霸元婕(1997-),女,本科生.研究領域:數(shù)據(jù)挖掘.

李紹昂(1997-),男,本科生.研究領域:數(shù)據(jù)挖掘.

猜你喜歡
小說
叁見影(微篇小說)
紅豆(2022年9期)2022-11-04 03:14:42
遛彎兒(微篇小說)
紅豆(2022年9期)2022-11-04 03:14:40
勸生接力(微篇小說)
紅豆(2022年3期)2022-06-28 07:03:42
何為最好的小說開場白
英語文摘(2021年2期)2021-07-22 07:57:06
小說課
文苑(2020年11期)2020-11-19 11:45:11
那些小說教我的事
我們曾經(jīng)小說過(外一篇)
作品(2017年4期)2017-05-17 01:14:32
妙趣橫生的超短小說
中學語文(2015年18期)2015-03-01 03:51:29
明代圍棋與小說
西南學林(2014年0期)2014-11-12 13:09:28
閃小說二則
小說月刊(2014年8期)2014-04-19 02:39:11
主站蜘蛛池模板: 精品福利网| 天天躁夜夜躁狠狠躁躁88| 99热这里只有精品国产99| 亚洲女同一区二区| 青青草一区| a亚洲天堂| 国产在线拍偷自揄拍精品| 成人午夜视频网站| 亚洲人成网7777777国产| 全部免费特黄特色大片视频| 久久99国产综合精品1| 国产网站黄| 制服丝袜亚洲| 中国国产A一级毛片| 国产在线观看91精品亚瑟| 免费A∨中文乱码专区| 五月婷婷丁香综合| 亚洲乱码视频| 欧美国产在线一区| 亚洲乱码视频| 国产小视频免费| 国产亚洲日韩av在线| 国产福利在线观看精品| 在线免费看黄的网站| 制服丝袜 91视频| 国产剧情一区二区| 国产精品亚洲片在线va| 欧美亚洲第一页| 国产精品视频a| 国产成人精品一区二区三在线观看| 亚洲中文无码av永久伊人| 日本高清有码人妻| 亚洲精品国产乱码不卡| 好吊色国产欧美日韩免费观看| 亚洲国产精品日韩av专区| 国产伦精品一区二区三区视频优播| 色综合网址| 国产成人高精品免费视频| 国产swag在线观看| 国产精品欧美亚洲韩国日本不卡| 自拍偷拍一区| 亚洲a免费| 国产精品永久在线| 亚洲国产精品无码久久一线| 一本大道视频精品人妻| 欧美国产精品不卡在线观看 | 国产精品三级专区| 久久亚洲黄色视频| 日本免费新一区视频| 无码高清专区| 国产亚洲精品va在线| 亚洲中文无码av永久伊人| 不卡视频国产| 免费人成在线观看成人片 | 无码精油按摩潮喷在线播放| 亚洲一区二区三区在线视频| 免费va国产在线观看| 亚洲综合狠狠| 伊人色综合久久天天| 色综合久久久久8天国| 国产一级毛片yw| 福利在线一区| 91成人在线观看视频| 国产成年女人特黄特色大片免费| 成AV人片一区二区三区久久| 亚亚洲乱码一二三四区| 1769国产精品视频免费观看| 免费一级大毛片a一观看不卡| 亚洲欧州色色免费AV| 久久精品人人做人人爽电影蜜月 | 国产日韩精品欧美一区灰| 国产视频a| 欧美另类图片视频无弹跳第一页| 美女一区二区在线观看| 日本一区二区三区精品国产| 曰AV在线无码| 亚洲AⅤ无码国产精品| 深夜福利视频一区二区| 欧美另类视频一区二区三区| 日韩黄色大片免费看| 亚洲欧美日韩中文字幕一区二区三区| 幺女国产一级毛片|